vendredi 7 septembre 2007

Coupure Réseau

L'ensemble de réseau de globenet est inaccessible à l'heure actuelle. nous avons une charge anormalement élevée sur la machine casserole qui relie les machines de globenet au réseau de gitoyen et donc au reste du monde.

Nous cherchons l'origine de cela afin de rétablir le service au plus vite.

Mise à jour à 00h45 le 08/09 :

Interventions à chaud, mise à jour de la machine critique, celle par laquelle passe toute la connexion entre Globenet et le reste du monde, tout casser, tout reconstruire, chercher le détail coupable. Finalement, les meubles semblent sauvés. Tout est surement pas OK, on compte sur vous pour nous signaler tout ce qui ne fonctionne pas ou qui débloque; une adresse, comme d'habitude, support_at_globenet.org. Si on répond pas tout de suite, c'est qu'on est en train d'y réfléchir, hein :)

Mise à jour à 11h45 le 09/09 :

Nous avons finalement découvert hier soir que nous étions victimes d'un DDOS visant la machine hébergeant, en particulier, un noeud TOR. Les connexions indésirables sont actuellement bloquées et ne devraient plus perturber le service.

Le diagnostic a été difficile du fait de la coïncidence avec l'intervention de vendredi et tous les débranchages de câbles, volontaires ou fortuits (certaines machines sont d'ailleurs toujours débranchées actuellement), difficulté encore augmentée par le fait que les outils de supervision sont actuellement hébergés sur le routeur de globenet (et fonctionnaient donc très mal)...

Actuellement le fonctionnement du réseau et des services devait paraître normal pour la très grande majorité des utilisateurices de Globenet et de No-log et nous continuons de travailler à tout réparer.

Mise à jour à 1h le 10/09 :

L'accès à internet par les modems de No-log a finalement été rétabli dans l'après-midi de dimanche, toutes nos excuses aux personnes qui ont tenté, en vain, de se connecter samedi et dans la journée de dimanche ; par ailleurs, les serveurs d'autres structures hébergés par Globenet sont rallumés et accessibles.

Il semble que nous arrivions au bout de nos problèmes, l'attaque contre un de nos serveurs est toujours en cours mais elle n'affecte plus vraiment le fonctionnement de nos services et continue de diminuer en intensité (elle risque juste de nous coûter un peu d'argent mais nous sommes parfaitement capables d'absorber le surcoût au cas où il y en aurait un).

Nous allons maintenant réparer proprement ce qui a été cassé ou rafistolé dans l'urgence et nous consacrer à l'analyse de l'enchaînement d'évènements qui a conduit à cette situation ; nous aurons sans doute ainsi la chance d'améliorer substanciellement la résilience de notre infrastructure et de rendre la gestion de ce type de crise plus sereine.

Courts arrêts de plusieurs serveurs ce vendredi

Dans le courant de l'après midi, nous allons procéder à une petite réorganisation de l'emplacement des serveurs dans notre baie, afin de permettre aux administrateurs de certains serveurs dédiés de bénéfcier du nouvel APC leur permettant de rebooter eux mêmes leur machine en cas de plantage général.

Ceci va entrainer l'arrêt momentané de plusieurs serveurs, notament Levant (le nouveau serveur de mail et listes des domaines hébergés par globenet). Ces arrêts ne devraient prendre que quelques petites minutes pour chaque serveur.

D'autre part, certains problèmes persistants sur les serveurs no-log (problèmes de connectique SATA sur les nouveaux disques de 400 Go de bender, plantages réguliers de robby, le webmail) font que nous allons devoir arrêter et ouvrir ces serveurs quelques minutes, le temps de modifier certains cablages, voire même changer l'alimentation de robby. Ces opérations devraient être un peu plus longues que celles décrites précédement, mais ne devraient normalement pas dépasser le quart d'heure...