Coupure de courant pour les serveurs Mageia

De Misc et l’équipe des administrateurs système (sysadmin).

Mise à jour : Les serveurs sont revenus à la vie et les testeurs peuvent continuer à travailler sur les images ISO finales !

Certains d’entre vous l’ont peut-être remarqué, nous avons subi une sévère coupure de courant hier, à environ 00h05, heure de Paris, sur l’un des centres de traitement qui héberge nos données.

Il semble qu’un problème électrique ait entrainé la coupure de certains serveurs dans la salle machines de Lost Oasis à Marseille, entraînant donc l’arrêt de quatre de nos serveurs (valstar, alamut, jonund et ecosse ainsi que la machine virtuelle tournant sur alamut qui est friteuse_tmp). Cette coupure a également touché tous les serveurs de zarb.org qui nous fournissent toujours le support de certains services comme le site web, des listes de diffusion, les DNS secondaires, le SMTP, etc.

Perenoel, un des super gars de Lost Oasis, s’est rendu sur place durant la nuit pour résoudre le problème et ainsi les serveurs ont pu être relancés aux alentours de 00h20, heure de Paris. Les équipes de Lost Oasis ont travaillé jusqu’à 4h du matin pour relancer tous les serveurs.

Actuellement, tous les serveurs sauf deux, valstar et jonund, sont en ligne.

Jonund est juste un serveur de compilation de RPM, nous en avons un second et nous sommes en période de freeze, donc nous pouvons gérer cette défaillance sans grande difficulté.

Valstar est le principal serveur SVN et LDAP, donc presque tout dépend de lui. Les services touchés sont :

  • LDAP, ce qui inclut :
    – identity, pas d’accès (pas de création de compte possible) ;
    – forum, bugzilla, transifex : principalement un accès en lecture seule, personne ne peut se loguer mais les personnes déjà authentifiées restent actives ;
    – la plupart des alias en @mageia.org  (les courriers restent en file d’attente sur zarb) ;
    – les accès shell (rabbit, champagne)
    – certaines des listes sympa (@ml.mageia.org), principalement celles du Board
  • SVN
  • build-system (pas d’ordonnanceur, pas de miroirs pour les builders)
  • l’administration automatisée des serveurs (pas de puppetmaster)

Le reste (site web, blog, xymon, listes de diffusion, svnweb) devrait être fonctionnel. Nous travaillons toujours sur le problème. Lost Oasis nous a informés qu’ils iraient regarder nos serveurs dans l’après-midi, nous vous tiendrons informés de l’évolution par courriel sur notre liste de diffusion.

Les administrateurs système vont également travailler à rendre l’infrastructure plus résistante à ce type de problème. Ainsi, un second serveur LDAP aurait résolu la plupart de ces problèmes et son installation est déjà planifiée.

Si vous avez des questions, merci de les poser sur la liste de diffusion des administrateurs système ou sur le salon irc #mageia-sysadm sur Freenode (NdT : en anglais exclusivement pour ces deux méthodes), où nous serons heureux de vous répondre.

Mise à jour (13h10, heure de Paris) : tous les systèmes sont de retour et sont opérationnels. \o/

Cette entrée a été publiée dans Non classé. Vous pouvez la mettre en favoris avec ce permalien.

Une réponse à Coupure de courant pour les serveurs Mageia

  1. djibb dit :

    Un miroir qui ne tombe pas en panne 2 jours avant la sortie n’est pas un bon miroir…