Como os incêndios florestais da Califórnia derrubaram um supercomputador

NERSC nos fala sobre o fechamento de Cori

Enquanto as florestas da Califórnia brilhavam, as luzes do NERSC começaram a se apagar.

 

Pela segunda vez em duas semanas, um dos supercomputadores mais poderosos do mundo estava sendo cuidadosamente desligado.

 

A mudança climática, uma vez que uma abstração sendo simulada desapaixonadamente no sistema Cori de 30 petaflops, se manifestou em realidade.

 

A máquina, uma criação culminante da humanidade - uma espécie que priorizava o progresso rápido em relação ao desenvolvimento sustentável - havia sido prejudicada pelo impacto desse progresso no mundo.

 

Como as famílias que se prepararam para fugir dos subúrbios da Califórnia, Cori nada podia fazer para impedir os efeitos da mudança climática antropogênica. Foi realmente impotente.

 

Califórnia em chamas

Em outubro, após um período de seca incomumente longo, ventos notavelmente fortes e condições áridas, a concessionária PGE ficou cada vez mais preocupada com a possibilidade de um grande incêndio ser causado por uma linha elétrica quebrada.

 

Parcialmente responsável pelo incêndio florestal mais mortal e destrutivo da história da Califórnia, o Camp Fire de 2018 - que custou US $ 16,5 bilhões e levou a pelo menos 85 mortes de civis - a PGE enfrenta atualmente a falência e uma potencial aquisição do estado.

 

Embora as mudanças climáticas tenham exacerbado as causas dos incêndios florestais e piorem cada vez mais as coisas, a PGE foi criticada por sua falta de preparação, não derrubando árvores e arbustos ao redor das linhas de energia e não tendo pessoal de emergência suficiente.

 

Este ano, a PGE decidiu que a melhor maneira de mitigar o risco de sua rede gerar outro incêndio era desligar partes dessa rede, desligando preventivamente a energia de quase três milhões de pessoas no centro e norte da Califórnia durante esta temporada de incêndios.

 

Ainda assim, apesar das precauções, alguns incêndios ocorreram, incluindo o Fogo Kincade que queimou 77.758 acres no Condado de Sonoma.

 

Entre os apanhados em dois cortes de energia separados de vários dias estava o Laboratório Nacional Lawrence Berkeley (LBNL), que abriga o Centro de Computação Científica de Pesquisa Energética Nacional (NERSC) e um azarado Cori, o décimo terceiro supercomputador mais poderoso do mundo.

 

“Houve algum aviso,” Professor Katherine Yelick, diretor do laboratório associado de ciências da computação LBNL, disse. “Foram cerca de cinco horas.”

 

Demora cerca de duas a três horas para desligar o Cori, disse o diretor do NERSC, Dr. Sudip Dosanjh.

 

“Se houver uma queda repentina de energia, você pode ter problemas com o sistema, talvez algumas peças falhem, então, apenas para garantir, decidimos ir em frente e derrubar o grande sistema.”

 

O NERSC tem fontes de alimentação ininterruptas e geradores no local, “mas isso não é suficiente para alimentar Cori”, que consome 3,9 MW. “É o suficiente para alimentar a rede e alguns sistemas de arquivos”, disse Dosanjh.

 

“Portanto, mantivemos os serviços auxiliares ativos durante toda a interrupção, incluindo a rede, e algo que chamamos de Spin”, que pode ser usado para implantar sites e gateways científicos, gerenciadores de fluxo de trabalho, bancos de dados e armazenamentos de valores-chave.

 

Esses sistemas poderiam ter permanecido ligados indefinidamente, desde que houvesse combustível disponível suficiente para reabastecer os tanques diários dos geradores a cada seis a oito horas.

 

 

A primeira paralisação, começando em 10 de outubro, “foi a primeira vez que algo assim realmente aconteceu”, disse Yelick. O laboratório tinha procedimentos de emergência para eventos semelhantes, mas “há uma grande diferença entre ter um plano e ter que executá-lo”, ela admitiu. “Tínhamos um plano, mas não era como se isso fosse realmente esperado.”

 

O NERSC “certamente aprendeu muito durante a primeira paralisação que ajudou na segunda”, que começou em 26 de outubro, disse ela. “Aprendemos sobre comunicações e geradores e como cada um funciona - esse tipo de coisas.”

 

Outra lição crucial foi quantas pessoas o Centro de Operações de Emergência (EOC) trabalharam para lidar com o corte de energia do LBNL, que também tirou outros recursos científicos, incluindo o laboratório de sequenciamento de DNA, a Fundição Molecular e a Fonte de Luz Avançada.

 

“[Na primeira vez] não tínhamos um grande número de pessoas percorrendo o EOC”, disse Yelick. “E então eu acho que eles ficaram muito cansados. Adicionamos mais algumas pessoas na segunda vez. [No futuro] gostaríamos de ter certeza de que há um número suficiente de pessoas que são capazes de trazer os sistemas para cima e estão confiantes de fazer isso por conta própria, para que não cansemos demais um pequeno grupo de pessoas.

 

Na segunda vez, o NERSC conseguiu até fazer alguma manutenção, fazendo testes no futuro sistema de arquivos da comunidade 'Storage 2020'.

 

Cerca de 100 pessoas estiveram envolvidas nas operações de emergência no laboratório, das quais cerca de 20 estavam realmente no local. “Estamos tentando coletar essa lista de exatamente quantas pessoas estavam envolvidas no momento”, disse Yelick. A própria Cori tinha apenas alguns funcionários trabalhando nele durante o desligamento e o retorno, incluindo funcionários do fabricante do supercomputador, Cray.

 

O processo de colocar tudo online após a volta da energia levou de seis a oito horas nas duas vezes.

 

Com várias equipes interagindo, muitas delas trabalhando remotamente, a infraestrutura de comunicações era uma preocupação fundamental. Felizmente, as torres de celular e a conectividade com a Internet permaneceram online principalmente durante as duas interrupções.

 

“Estávamos usando telefones celulares”, disse Yelick. “Essa é uma das coisas que adicionamos na segunda interrupção. E a maioria das pessoas se esforça muito para encontrar uma maneira de se comunicar, caso não consiga, mesmo que isso signifique dirigir para algum lugar. ”

 

“Muito antes de a energia ser desligada, as equipes de resposta a emergências estavam usando e-mail, alerta de texto, seu canal Slack, Twitter”, disse a gerente de comunicações da Área de Ciências da Computação, Carol Pott.

 

“Eles criaram um site e outras opções de comunicação para que as pessoas recebessem os alertas mais recentes. Eles estavam tentando cobrir o máximo possível de bases para se comunicar com pessoas que podem não ter acesso à Internet ou ter outras limitações. ”

 

Dosanjh acrescentou: “Agora, se houvesse uma interrupção mais ampla - uma que afetasse todo o East Bay, por exemplo - seria mais problemático para todos os funcionários apenas em termos de acesso às coisas”.

 

A comunicação viaja em ambos os sentidos, e os esforços do NERSC para manter os serviços online geraram uma onda de encorajamento de muitos dos 7.000 pesquisadores que usam seus sistemas. “Fiquei realmente agradavelmente surpreso com todos os e-mails e suporte que recebemos da comunidade”, disse Dosanjh.

 

“A equipe trabalhou muito, eles são muito, muito dedicados à missão do laboratório, que é promover o conhecimento humano da ciência.”

 

Preservando a missão

 

 

Uma das muitas ironias cruéis do fechamento de Cori foi que ela é uma das ferramentas necessárias para combater a devastação de um planeta desequilibrado.

 

Uma carga de trabalho no Cori pode simular soluções de armazenamento de energia que nos ajudam a nos libertar de nosso vício em combustíveis fósseis. Outro pode estar estudando o impacto de nossa incapacidade aparentemente inevitável de escapar de nossa natureza viciante.

 

Cori está calculando a altura do mar e a magnitude dos tornados. Apenas uma semana antes da primeira paralisação de Cori, ele estava simulando como as florestas queimariam.

 

"Os resultados do modelo de alta resolução mostram feedbacks contra-intuitivos que ocorrem após um incêndio florestal e nos permitem identificar as regiões mais sensíveis às condições do incêndio florestal, bem como os processos hidrológicos que são mais afetados", um artigo de outubro estudando Camp Fire por pesquisadores do LBNL Estados de Erica R. Siirila-Woodburn e Fadji Zaouna Maina.

 

O Departamento de Energia “faz muitas simulações de sistemas terrestres”, disse Yelick. “Então, simular as mudanças climáticas, bem como procurar materiais alternativos para painéis solares, materiais para baterias e muitos outros aspectos das soluções energéticas.”

 

Parte desse trabalho foi atrasada pelas duas interrupções, atrasando valiosos esforços de pesquisa. "No final do ano, sim, houve algum tempo perdido com certeza", disse Yelick, mas ela enfatizou que nenhum dado foi perdido e que devido ao acúmulo normal de trabalhos para rodar em sistemas NERSC, "para a maioria parte apenas muda o atraso que as pessoas esperavam. "

 

Mas o NERSC apóia algumas áreas da pesquisa científica onde o tempo é tudo. “Há vários em que é um negócio importante”, disse Peter Nugent, cientista do LBNL e professor de astronomia em Berkeley. “Aquelas com as quais o Departamento de Energia está muito envolvido estão nas Fontes de Luz - essas são máquinas muito, muito caras que eles operam e os cientistas têm um intervalo de tempo e pode ser de meio dia a alguns dias . E é isso.

 

“Se eles não tiverem esses recursos lá para eles, eles perdem a corrida. É uma despesa enorme e uma perda enorme. Mas, devido à natureza dos detectores que estão executando lá, reunindo cada vez mais dados, não é possível processá-los localmente e fazer tudo o que desejam. Eles precisam transmiti-lo a um desses centros de HPC e fazer as coisas ”.

 

 

O trabalho de Nugent também é extremamente sensível ao tempo. “A pesquisa em que estou envolvido agora usa supercomputadores para procurar contrapartes para as detecções de ondas gravitacionais que a colaboração LIGO / Virgo está fazendo”, disse ele.

 

Nugent - cientista sênior, representante da divisão para o engajamento científico e chefe do departamento de ciência da computação na divisão de pesquisa computacional do LBNL - analisa os dados do interferômetro de Virgem na Itália quando detecta eventos de ondas gravitacionais e, em seguida, tenta capturar detalhes sobre o telescópio Victor Blanco de quatro metros no Chile.

 

No entanto, há um problema: a descoberta da onda gravitacional "geralmente vem com uma grande incerteza no céu sobre onde estaria", então Nugent tem que "começar a tirar um monte de imagens para acompanhar esses eventos e, em seguida, transmitir esses dados para os supercomputadores do NERSC para processá-lo ”, e depois tirar mais fotos, enquanto busca sinais do evento.

 

“O tempo é essencial, esses são eventos transitórios - eles desaparecem muito rapidamente no decorrer de 24 horas, então temos que cuidar deles imediatamente. Temos que fazer essa pesquisa imediatamente. É uma quantidade enorme de dados. ”

 

Quando bem-sucedidas, as informações coletadas podem gerar importantes insights científicos. “Estas são novas descobertas muito interessantes”, disse Nugent. “Esta é a fusão de buracos negros e estrelas de nêutrons, a última das quais levou à descoberta de onde vêm todos os elementos que são muito elevados na tabela periódica - ouro, platina, prata.

 

“Então, quando alguém liga para você e diz 'Ah, a propósito, os computadores vão ficar inativos'. Você fica tipo, 'Oh merda, o que podemos fazer?'

 

Oh droga

Felizmente, poucos meses antes, a equipe de Nugent já havia começado a se preparar para a queda de Cori - embora, na época, eles estivessem pensando em uma manutenção programada.

 

“Nós pensamos 'o que acontece se um evento acontecer durante esses dois dias em que eles estão fora do ar, o que podemos fazer?' Disse Nugent. “E assim, olhamos para portar nosso pipeline inteiro para um cluster de computadores que são executados pelo departamento de TI da LBNL, conhecido como Lawrencium.”

 

Para conseguir isso, a equipe de Nugent já havia colocado seu código em contêineres Dockerizados, tornando a portabilidade para diferentes sistemas mais fácil. “Fizemos isso no início do verão, quando o NERSC estava em manutenção, e funcionou muito bem.

 

“Mas então surgiu a próxima coisa, e não podíamos usar o Lawrencium porque ele [também cairia] quando a PGE desligasse a energia”.

 

Os pesquisadores se voltaram para a Amazon. “Nós nos inscrevemos e recebemos uma bolsa educacional especial que nos deu tempo de computação lá”, disse Nugent.

 

“E fomos capazes de - com antecedência suficiente de quando isso vai acontecer - enviar todos os nossos dados, nossos dados de referência e nossos novos dados para a AWS.”

 

O processo funcionou, mas “foi meio que de última hora”, disse Nugent. “É uma verdadeira dor, mas conseguimos fazê-lo e mantê-lo funcionando.”

 

Com mais tempo agora, a equipe de Nugent está procurando outros serviços em nuvem e semelhantes a nuvem. “Gostaríamos muito de executá-lo no NERSC o tempo todo, mas agora temos um plano de backup para quando isso ocorrer e estamos procurando fazer com que ele naturalmente vire e vá de um serviço para outro, dependendo do status. ”

 

Provedores comerciais podem fazer parte da solução, mas Nugent espera usar sistemas governamentais sempre que possível. “O Departamento de Energia administra alguns aglomerados menores, então vamos conversar com eles sobre como poderíamos configurar algo assim no futuro”, disse ele.

 

“Isso é algo que o DOE certamente investe muito para que aconteça, porque às vezes há bugs e eles precisam desligar os sistemas.

 

“Os experimentalistas confiam cada vez mais nesses centros de HPC para fazer seu processamento de dados, então eles precisam ter a capacidade de mudar de um lugar para outro.”

 

Ele, como muitos na comunidade HPC, prevê a 'super facilidade', um supercomputador virtual que aproveita os melhores aspectos de diferentes implantações e serviços de HPC e os combina.

 

“É essa ideia que você pode usar a rede e o streaming dos dados para um recurso diferente e processá-lo onde quiser”.

 

O supercomputador

 

 

Isso pode levar algum tempo, até o ponto em que o NERSC pode ser o lar de outro supercomputador enorme, o sistema Perlmutter de 100 petaflops de pico , que deverá consumir mais de 5 MW quando for lançado no final de 2020.

 

O sistema tem o nome de Saul Perlmutter, que ganhou o Prêmio Nobel de Física de 2011 por observações de supernovas que provaram que a expansão do Universo está se acelerando. “Saul Perlmutter foi o cara que me contratou no laboratório em 1996”, disse Nugent.

 

Perlmutter - a pessoa - está atualmente procurando por supernovas mais distantes: “Agora temos um computador com o nome de alguém que está caçando o mesmo tipo de explosão no espaço com que começamos cerca de 20 anos atrás”, disse Nugent. “É um círculo completo.”

 

Quando estiver online, ou quando o sistema exascale NERSC-10 de ~ 20MW for lançado em 2024, não está claro como os cortes de energia da rede serão regulares.

 

"É durante um período muito limitado de tempo que isso é um problema", disse Dosanjh do NERSC.

 

"Quase todas as nossas chuvas ocorrem entre novembro e abril, então é realmente um problema principalmente em outubro e novembro.

 

"Não é algo com que nos preocupamos todos os dias, mas certamente existem - como aprendemos - ocasiões em que você pode ficar seco, seis meses depois da chuva, e há vento forte e altas temperaturas.”

 

A PGE alertou que pode usar apagões preventivos em seus milhões de clientes por até uma década, já que atualiza a manutenção que deveria ter feito anos atrás. As comunidades terão que se preparar para interrupções repentinas e temer incêndios potenciais.

 

Mas o perigo com o que aconteceu na Califórnia talvez não seja apenas o da perda de vidas ou propriedades. É uma perda de perspectiva. É o perigo de que isso se torne o novo normal.

 

“Não queremos isso”, disse Nugent. “Nós realmente não queremos isso.”

 

Sua esperança é que “a necessidade é a mãe da invenção” e que o impacto das mudanças climáticas “nos levará a fazer algumas coisas interessantes por causa disso”.

 

Dentro de Cori, e seus sucessores, pequenos fragmentos de mundos repletos cheios de coisas interessantes passam a existir. Um sistema meteorológico aqui, um motor de turbina ali. Talvez em um haja um mundo onde isso funcione, onde um caminho para a destruição seja encontrado.

 

Mas Cori não pode nos levar lá, não pode mudar hábitos de consumo ou elaborar propostas de políticas.

 

Não importa o estado da grade, ela não pode mudar o mundo além de seus racks. Esse é o nosso mundo.

 

Temos o poder.

 

 

Mantendo o fogo sob controle

 

Durante as duas interrupções, o LBNL e o NERSC ficaram longe das chamas, com os incêndios mais próximos se extinguindo a cerca de 10 milhas de distância.

 

"Nunca houve nenhum incêndio que colocasse imediatamente a propriedade do laboratório em risco", disse o diretor do laboratório, Yelick.

 

Mas, como a propriedade fica voltada para uma área de floresta, o corpo de bombeiros realiza verificações anuais para diminuir os riscos.

 

“Na verdade, há muito trabalho sendo feito para manter a vegetação baixa para manter o risco de incêndio o mais baixo possível”, disse Dosanjh.

 

Para tornar as coisas ainda mais seguras, o laboratório “aluga um rebanho de cabras que vêm e comem muito da vegetação rasteira”, acrescentou Yelick.

 

As estrelas não gostam de poeira

 

O primeiro observatório no topo de uma montanha permanentemente ocupado no cume do Monte Hamilton, a leste de San Jose.

 

Desde 1887, o Observatório Lick vasculha os céus em busca de novas descobertas. “É um daqueles observatórios onde praticamente de maio a outubro você pode garantir que terá uma boa noite”, disse Nugent.

 

“Mas o número de noites que o observatório esteve fechado para nós nos últimos dois anos é algo que eu nunca encontrei antes. Como as partículas de fumaça eram muito altas, tivemos que fechar a cúpula para proteger os instrumentos e o espelho - isso é uma coisa muito, muito estranha. ”

 

É uma nova realidade com a qual o observatório agora tem que lidar "onde, exatamente na época perfeita do ano, você tem que fechar porque há muitas partículas no céu", disse ele.

 

“Mesmo que nominalmente pareça um céu claro, há muita merda lá fora.”

 

 

O Avance Network é uma comunidade fácil de usar que fornece segurança de primeira e não requer muito conhecimento técnico. Com uma conta, você pode proteger sua comunicação e seus dispositivos. O Avance Network não mantém registros de seus dados; portanto, você pode ter certeza de que tudo o que sai do seu dispositivo chega ao outro lado sem inspeção.


Strong

5178 Blog indlæg

Kommentarer