Interruzione di corrente ai server Mageia

Da Misc e la squadra degli amministratori di sistema

AGGIORNAMENTO: i servers sono tornati in vita e i collaudatori sono tornati alle iso definitive!

Come alcune persone avranno potuto vedere, abbiamo sofferto di una grave interruzione di corrente ieri, intorno alle ore 00:05 CET, in uno dei nostri hosting datacenter.

Sembra che un problema elettrico abbia fermato alcuni server presso la sala server Lost Oasis a Marsiglia, con l’effetto netto di aver fermato 4 server (valstar, alamut, jonund e ecosse) così come la macchina virtuale in esecuzione su alamut aka friteuse_tmp). Il problema ha anche coinvolto zarb.org che fornisce ancora supporto a qualche servizio (come www, liste di distribuzione, dns secondario, smtp, ecc).

Perenoel, uno dei grandi ragazzi di Lost Oasis, ha raggiunto nella notte l’edificio per prendersi cura del problema e così i server hanno avuto nuovamente la corrente intorno alle ore 00:20 CEST.  Le persone di Lost Oasis hanno lavorato fino alle 4 del mattino per sistemare tutti i server.

Ora tutti i server tranne 2, valstar e jonund, sono online.

Jonund è solo un costruttore di rpm, ne abbiamo un secondo e siamo in congelamento, pertanto possiamo fare fronte al problema senza grossi problemi.

Valstar è l’svn principale e il server ldap, quindi quasi tutto dipende da lui. I servizi coinvolti:

  • ldap

– identity, nessun accesso ( nessuna creazione di account )
– forum, bugzilla, transifex: per lo più il solo accesso in lettura, nessuno può accedere, ma attualmente le persone attualmente connesse sono ancora ok
– la gran parte degli alias @mageia.org ( le emails sono ancora in coda su zarb )
– accesso via shell ( rabbit, champagne )
– qualche lista sympa ( @ml.mageia.org ), più che altro board one

  • svn
  • buildsystem ( nessuno scheduler, nessun mirror per i costruttori )
  • amministrazione automatizzata di tutti i server ( nessun puppetmaster )

Il resto ( sito web, blog, xymon, lista di distribuzione, svnweb ) dovrebbe essere ok. Stiamo ancora verificando. Lost Oasis ci ha comunicato che lavoreranno sul nostro server nel pomeriggio, vi terremo informati sui cambiamenti con un mail sulla nostra lista.

Gli amministratori di sistema realizzeranno inoltre un’infrastruttura più resistente a questo tipo di problemi (per esempio un secondo ldap avrebbe risolto gran parte dei problemi, e tutto questo è già pianificato ).

Se le persone hanno domande chiedete loro per favore di farle alla lista di distribuzione degli amministratori di sistema o sul canale irc su freenode #mageia-sysadm , dove saremo felici di rispondervi.

Aggiornamento (13:10 CEST): tutti i sistemi sono ora ripristinati ed operativi. \o/

Info su matteo

Sysadmin, Software developer, GNU/Linux User, Free Software Supporter, Mageia Translator & Packager.
Questa voce è stata pubblicata in Senza categoria. Contrassegna il permalink.

Una risposta a Interruzione di corrente ai server Mageia

  1. Marcello scrive:

    puoi aggiornare il post matteo? è tornato tutto a posto di mattina (13:10)