Stromausfall bei den Mageia-Servern

Von Misc und dem Sysadmin-Team

UPDATE: Die Server sind wieder online und die Tester bei der Arbeit an den finalen ISOs!

Wie vielleicht einige von Ihnen bemerkt haben, mussten wir gestern nacht – um genau zu sein heute früh gegen 0:05 MESZ – einen schweren Stromausfall in einem Rechenzentrum überstehen.

Anscheinend wurden durch ein elektrisches Problem im „Lost Oasis“-Serverraum in Marseille einige Server gestoppt. Hiervon betroffen waren auch vier unserer Server (valstar, alamut, jonund und ecosse sowie die virtuelle Maschine friteuse_tmp, die auf alamut läuft). Außerdem waren alle Server des Zarb-Projektes betroffen, das uns immer noch einige Dienste zur Verfügung stellt (wie WWW, Mailinglisten, sekundärer DNS, SMTP, usw.).

Perenoel, einer der großartigen Leute von „Lost Oasis“, fuhr in der Nacht zum Rechenzentrum, um sich des Problems anzunehmen und so war die Stromzufuhr der Server gegen 0:20 MESZ wiederhergestellt. Die Leute von „Lost Oasis“ arbeiteten bis gegen 4:00 Uhr morgens, um alle Server wieder zum Laufen zu bekommen.

Momentan laufen alle unsere Server wieder mit den beiden Ausnahmen valstar und jonund.

Jonund ist nur ein RPM-Bauer, wovon wir zwei haben und da wir sowieso im Freeze sind, können wir damit ohne größere Schwierigkeiten leben

Valstar hingegen ist unser Haupt-SVN- und LDAP-Server, das heißt, dass so ziemlich alles Andere von ihm abhängt. Betroffene Dienste sind:

  • LDAP

– Identity, kein Zugriff (keine Kontenerstellung)
– Forum, Bugzilla, Transifex: oft funktioniert ein nur lesender Zugriff, niemand kann sich anmelden, aber bereits angemeldete Personen sollten keine Probleme haben.
– die meisten @mageia.org-Aliase (die Emails bleiben in den Warteschlangen der zarb-Server)
– Shell-Zugriff (auf rabbit, champagne)
– Einige Sympa-Listen (@ml.mageia.org)

  • SVN
  • Buildsystem ( kein Scheduler, kein Mirror für Builders )
  • automatische Verwaltung aller Server ( kein puppetmaster )

Alles andere (Webseite, Blog, Xymon, Mailinglisten, svnweb) sollte wieder funktionieren. Wir sind immer noch dabei, das zu überprüfen. „Lost Oasis“ teilte uns mit, sie würden sich heute nachmittag mit unseren Servern befassen, wir werden Sie mittels E-Mail über Veränderungen auf dem Laufenden halten.

Das Sysadmin-Team wird sich damit befassen, mehr Redundanz für solche Probleme zu haben (zum Beispiel hätte ein zweiter LDAP-Server viele Probleme gelöst, dies ist bereits geplant ).

Eventuelle Fragen richten Sie bitte an die  Mailingliste der Sysadmins oder kommen Sie in den IRC-Kanal #mageia-sysadm bei Freenode, wo wir Ihnen gerne Auskunft geben werden.

Update (13:10 MESZ): alle Systeme sind wieder online und arbeitsbereit. \o/

(Veröffentlicht am 28. Mai 2011 von ennael )

Dieser Beitrag wurde unter Allgemein abgelegt und mit , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Die Kommentarfunktion ist geschlossen.