Falta de energia em servidores Mageia

Atualização: Servidores voltaram a funcionar e os testadores de volta para as isos finais!

Como algumas pessoas podem ter percebido, nós sofremos uma grave queda de energia ontem, por volta de 00h05 “horário CET” (*), em um dos nossos provedores datacenter.

Parece que um problema elétrico parou alguns servidores no “Lost Oasis”, sala do servidor, em Marselha, e causou um efeito em rede  e parou 4 servidores (“valstar”, “alamut”, “jonund” e “ecosse”, bem como a máquina virtual rodando no “alamut” aka friteuse_tmp). Também foi impactado todos os servidores do zarb.org ,que ainda fornece suporte para alguns serviços  (como www, listas de discussão, dns secundário, smtp, etc.)

Perenoel, um dos grandes caras do “Lost Oasis”, foi para o prédio durante a noite para cuidar do assunto e os servidores voltaram a funcionar de novo em torno de 00:20 “horário CEST” (*). O pessoal trabalhou no “Lost Oasis” até as 4h,   para consertar todos os servidores.

Agora todos, mas dois servidores, “valstar” e “jonund”, estão online.

“Jonund” é apenas um copilador de rpm, temos um segundo e nós temos congelado (freeze), para que possamos lidar com falhas  sem muita dificuldade.

“Valstar”  é o svn principal e servidor LDAP, então quase tudo depende dele. Serviços afetados:

  • ldap

– identidade, não tem acesso (sem criação de conta)
– fórum, bugzilla, Transifex: na maior parte, apenas de leitura, ninguém pode entrar, mas atualmente registrados em pessoas ainda estão ok
– aliases most@mageia.org (e-mails ainda estão em fila no zarb)
– acesso ao shell (rabbit, champagne)
-algumas listas sympa (@ ml.mageia.org), a maior parte de administração

  • svn
  • sistema de empacotamento (buildsystem) ( sem programador, sem espelhos para empacotadores )
  • administração automatizada de todos os servidores ( sem puppetmaster)

O resto ( website, blog, xymon, mailling list, svnweb )  deve estar ok. Nós ainda estamos olhando para ele. Sobre o “Lost Oasis”,  nos disseram que eles vão olhar para o nosso servidor no período da tarde, vamos mantê-lo informado sobre a mudança com um e-mail em nossa lista.

Sysadmins (administração do sistema)  também será olhado para fazer a infra-estrutura mais resistente a esse problema (por exemplo, um segundo ldap teria resolvido a maioria das questões, e isto já está planejado ).

Se as pessoas têm dúvidas, por favor, perguntem  no  na lista de email do sysadmin ou no #mageia-sysadm, canal  irc, no freenode , onde nós ficaremos felizes em responder vocês.

Atualização (13:10 CEST): todos os sistemas estão de volta, de pé e agora operacionais. \o/

* nt:  horário europeu, ver na Wikipédia.

(texto escrito em inglês por annael e traduzido por macxi)

Esta entrada foi publicada em Sem categoria. ligação permanente.

Os comentários estão fechados