Din partea lui Misc și a echipei sysadmin
Actualizare: Serverele s-au întors la viață și testorii la imaginile ISO finale!
După cum unii din voi au putut observa, am suferit ieri de o pană de curent, în jurul orei 01h05 (ora României) în unul din centrele noastre de găzduire.
Se pare că o problemă electrică a oprit cîteva servere din sala mașinilor Lost Oasis din Marsilia, provocînd oprirea a 4 din serverele noastre (valstar, alamut, jonund și ecosse cît și mașina virtuală care rula pe alamut, friteuse_tmp). Această pană a atins și toate serverele zarb.org care încă ne mai oferă suport pentru unele servicii (precum www, listele de difuziune, DNS secundar, SMTP, etc.).
Perenoel, unul din tipii bine de la Lost Oasis, s-a deplasat la fața locului pentru a remedia problema și astfel serverele au putut fi repornite în jurul orei 01:20 (ora României). Echipa de la Lost Oasis a lucrat pînă la 5 dimineața pentru a reporni toate serverele.
În momentul de față toate serverele, mai puțin Valstar și Jonund, sînt operaționale.
Jonund este doar un nod de compilare pentru pachetele RPM, însă mai dispunem de unul secundar și în plus sîntem în plină perioadă de înghețare, așa că putem gestiona incidentul fără dificultate.
Valstar este serverul principal de SVN și LDAP, deci aproape totul depinde de el. Serviciile impactate sînt:
- LDAP
– Identity, nici un acces (nu se pot crea nici conturi)
– forum, bugzilla, transifex : acces numai în consultare, nimeni nu se poate conecta, însă pentru utilizatorii conectați totul este OK
– aproape toate aliasurile @mageia.org (e-mailurile sînt încă în lista de așteptare pe zarb)
– accesul distant în linie de comandă (rabbit, champagne)
– cîteva liste Sympa (@ml.mageia.org), în principal cele ale consiliului de administrare
- SVN
- sistemul de clădit (rămași fără planificator și fără servere alternative pentru împachetatori)
- administrarea automatizată a serverelor (rămași fără puppetmaster)
Restul (situl web, blogul, xymon, listele de difuziune, svnweb) ar trebui să fie ok. Lucrăm activ la rezolvarea problemei. Lost Oasis ne-au informat că se vor deplasa să se uite la serverele noastre în această după amiază, vă vom ține la curent cu evoluția evenimentelor printr-un mesaj pe lista de difuziune.
Administratorii de sistem vor lucra și la transformarea infrastructurii într-una mai rezilientă la astfel de probleme (de exemplu, un al doilea LDAP ar fi rezolvat majoritatea problemelor, și este deja planificat).
Dacă aveți întrebări le puteți adresa pe lista de difuziune sysadmin sau pe canalul IRC #mageia-sysadm de pe Freenode, unde vom fi încîntați să vă răspundem.
Actualizare (14:10, ora României): toate sistemele sînt acum pornite și operaționale. \o/
Notă: Articol original publicat în engleză de ennael