mercredi 26 décembre 2007

Problème sur le serveur de mail/listes de globenet

Depuis 18h30, les services du serveur hébergeant les mail et listes des domaines hébergés par globenet ne répondent plus.

Après l'avoir rebooté, nous constatons des erreurs de système de fichiers dans les logs.

Nous arrêtons donc les services afin de vérifier les disques.

mise à jour à 20h10 :

Les services sont relancés.

mercredi 19 décembre 2007

Crash no-log. 48h.

Pour l'historique, c'est sur le billet précédent. Sinon, pour l'actu, c'est ici...

Le webmail est réouvert, en partie.

  • vous ne recevez aucun des messages envoyés depuis dimanche. ce sera pour plus tard;
  • certaines boites semblent vide, ou ne permettent pas de se connecter; pour la plupart, c'est temporaire, ce sont les boites sur lesquelles y'a encore du travail; les adresses touchées sont celles qui commencent par les lettres 1 2 3 5 7 9 b d j k o r t v x z;
  • seul le webmail fonctionne. pas de pop/imap externe;
  • c'est du temporaire/bricolage, pour vous permettre de prévenir les gens; pour tout ce qui est important, pensez à passer par une autre boutique.

Bonne journée quand même...

Mise à jour de 13h10 :

On a rallumé le radius ce qui veut dire que l'accès à internet par les modems de no-log est de nouveau possible.

mise à jour à 15h30 :

On a racheté des disques. Une partie des données qui ne nous semblait pas en très bon état est en cours de consolidation.

Détails sur la situation:

  • 1050 comptes ont très probablement perdu tous les messages reçus avant dimanche soir et encore présents sur les serveurs
  • 20000 comptes ne sont pas accessibles (ceux qui commencent par 1 2 3 5 7 9 b d j k o r t v x z).
  • tous les autres comptes vont bien
  • toutes les données du webmail sont intactes; donc vos carnets d'adresses ne sont pas perdus
  • si vous ne pouvez pas accéder au webmail, c'est que vous êtres dans les 20000, et peut-être aussi dans les 1050
  • nous ne recevons toujours pas les messages envoyés depuis dimanche soir; ils sont en attente sur les serveurs des expéditeurs; ils ne sont pas "perdus", mais certains ne vous parviendront pas et finiront par retourner à l'envoyeur.
  • seul le webmail est ouvert; impossible d'accéder aux boites par un autre moyen
  • le webmail vous permet d'envoyer des messages, pas d'en recevoir
  • en plus, il semble que le serveur qui héberge ce blog d'info a des hoquets...

Perspectives proches (entre 24h et une semaine):

  • peut être un acces au webmail pour tout le monde, mais avec des boites temporairement vides pour les 20000
  • peut-être un accès POP pour tout le monde, aux mêmes conditions

Perspectives moins proches et pas garanties:

  • récupération des boites mail des 20000

Perspectives très très incertaines:

  • récupération des boites mail des 1050

Pour les gens qui voudraient participer, ça se passe d'abord sur irc, et sur les listes de discussion; manifestez-vous. De préférence des gens disponibles dans la durée. Pas besoin de sous mais de mains, de neurones et de sueur. Et de sourires aussi :)

Mise à jour de 16h27 :

Les 20000 comptes inaccessibles disposent d'une boite mail temporaire. Cela permet au moins d'accéder au webmail, de récupérer le carnet d'adresses et d'envoyer des courriels.

L'étape suivante est la réouverture de la réception des mails.

Mise à jour de 17h09 :

Et voilà, les mails passent à nouveau dans les deux sens. Les messages envoyés maintenant arriveront comme d'habitude; ceux envoyés depuis dimanche ne sont pas ''perdus', ils arriveront dans le désordre, si ils n'ont pas été renvoyés à l'expéditeur. L'utilisation de logiciels de messagerie (Thunderbird, Outlook, Apple Mail, Eudora, etc.) n'est pas encore possible. seul le webmail est ouvert.

Nous avons encore pas mal de travail pour récupérer ce qui peut l'être des messages archivés et pour reconstruire quelque chose de solide mais la situation est maintenant moins tendue.

Mise à jour de 23h00 :

Le service POP(S) est réouvert. Donc si vous utilisez un client de messagerie (Thunderbird, Outlook, etc.) en POP, vous pouvez récupérer vos messages à la maison. Si vous faites partie des comptes malchanceux, bah il n'y aura pas plus de messages en POP que par le webmail. Pas d'IMAP pour le moment, pour éviter les catastrophes en cas de synchronisation sur une boite vide.

Bonne nuit.

Mise à jour de jeudi 11h00 :

Le webmail s'est cassé la figure. C'est juste le webmail, rien de grave. On le relance.

Mise à jour de samedi 10h30 :

On a changé quelques réglages sur les nouveaux disques, hier. Pas grand chose de plus, on attend, on observe, on se repose. La récupération des boites actuellement inaccessibles ne débutera probablement pas avant la semaine prochaine. Faites ripailles!

dimanche 16 décembre 2007

Problème d'accès à certains comptes no-log.

Depuis 14h50 environ, une partie des comptes no-log est inaccessible. Seuls les comptes commençant par les lettres c, i et s sont concernés.

A priori, il ne s'agit que d'un problème de liaison entre les disques et la carte raid, avec peu de risques de pertes de données.

Nous préférons cependant prendre quelques précautions pour relancer les disques, qui nécessiteront peut-être une interruption générale du service dans l'heure qui suit.

mise à jour à 23h30 :

Nous sommes toujours en train de travailer sur le serveur, dont nous avons dû arrêter tous les services, suite à une cascade de problèmes imprévus.

Malgré quelques grosses frayeurs, nous avons pu réaccéder à tous les messages.

En tout état de cause, devant effectuer par la suite une vérification complete de la plus grosse unité raid5, les services ne pourront pas être rétablis avant demain matin.

Excusez nous pour le désagrément.

mise à jour à 4h00 (lundi 16/12) :

Finalement, ce n'est pas les unités raid1 qui nous ont causé des problèmes pendant la journée qui semblent lâcher, c'est la grosse unité raid5 qui contient pas loin de la moitié des mails no-log.

En effet, ce qui semblait être une simple vérification/réparation de routine, suite à des erreurs étant apparues sur cette unité au cours des opérations de la journée, semble se transformer un crash du système de fichiers.

Inutile de dire que si nous voulons sauver le maximum de messages, nous allons devoir y aller très précautioneusement, et qu'il est très peu probable que nous ne pourrons pas relancer les services avant au moins la fin de la matinée...

mise à jour à midi (toujours lundi) :

On a recommencé à regarder, c'est pas très joli à voir. Pour l'instant on a toujours aucune idée du temps qu'il faudra pour rétablir le service ni des conditions dans lesquelles cela se fera.

mise à jour à 22h50 (toujours lundi) :

Ça avance pas. C'est surtout un problème de décision, on ne sait pas quelle dose de bricolage choisir pour remettre en service No-log; c'est aussi un problème de motivation, dans l'équipe; accessoirement, c'est également un problème de taille de No-log. Mais ça n'est pas du tout un problème de sous. Patience, excuses, toussa :(

mise à jour à 01h00 (mardi 18/12) :

Pas la peine de traquer le service, rien ne se passera cette nuit. Dormez bien. Et relisez ce message.

mise à jour à 17h00 (toujours mardi) :

Rien de nouveau. Enfin si, juste un peu. Des gens de bonne volonté essaient de voir comment il serait possible de reprendre en main le truc, à plusieurs. Techniquement, la situation est un peu compliquée. Humainement aussi. C'est pas la fête...

Si vous avez des trucs importants/urgents, repliez-vous ailleurs autant que possible. Pour un service de mail, ouvert, "à la No-log", en France je ne connais rien d'autre; à l'étranger, il y a riseup, par exemple.

mise à jour à 19h00 (toujours mardi) :

On commence par des trucs de base, des mises a jour de firmware. Coupure du web intermittente a prévoir.

Je répète, pas besoin de sous. Merci, mais vraiment, pas besoin. Un peu plus besoin de savoir vers ou on va, par contre, et qui s'en occupe. Pour partie, ce qu'il faut c'est une équipe pour faire de l'admin système sur No-log; et probablement revoir le projet. Ça tombe sûrement mal pour plein de gens, va vous met dans la merde, etc. Pas cool. Pas vraiment prévu non plus.

mise à jour à 00h00 (mardi/mercredi) :

Les firmware ont été mis a jour, modulo des soucis de BIOS, quelques coups de fil, et quelques mails. Y'aura peut-être une réouverture de quelques services (mais clairement pas tout) pendant la nuit.

Pour les gens qui voudraienrt participer, ça se passe d'abord sur irc, et sur les listes de discussion; manifestez-vous. De preference des gens disponibles dans la durée.

mise à jour à 02h00 (mercredi 19/12) :

On va essayer de réouvrir le webmail. Pas pour recevoir ou lire les messages, mais pour pouvoir écrire des messages et prévenir les contacts.

Et dormir. Et aller acheter des disques. Et essayer d'avancer.

mise à jour à 03h00 (mercredi 19/12) :

Des bouts du webmail fonctionnent; les détails sont sur un nouveau billet. Et hop, on ferme les commentaires de celui-ci pour pas se disperser. 200 petits mots, merci merci :)

mardi 11 décembre 2007

Panne du serveur mail de Globenet

Suite à un problème avec ses disques durs, le serveur mail de Globenet est actuellement en panne.

Nous effectuons actuellement des vérifications afin de tenter de localiser le problème et tout devrait rentrer dans l'ordre dans peu de temps (si on ne tombe pas sur un problème beaucoup plus gros ce sera terminé avant la fin de l'après-midi dans le pire des cas).

Mise à jour, 15h45 : les services viennent de redémarrer, la réparation a bien fonctionner mais quelques courriels (deux ou trois vrais et quatre ou cinq pourriels) ont été plus ou moins endommagés. Nous sommes en train de prévenir les personnes concernées.

Toutes nos excuses pour cette coupure du service.

samedi 1 décembre 2007

Interruption des services no-log dimanche 2/12 après-midi.

Nous allons devoir changer une des cartes RAID équipant bender (le serveur de courrier de no-log) et dont le mauvais fonctionnement a été la cause des instabilités et coupures de ces derniers mois.

Cette opération aura lieu ce dimanche, à partir de 14h30, et devrait durer une petite heure (si Murphy nous laisse tranquille ;-) ).

Comme d'habitude, les messages qui vous sont envoyés pendant l'interruption de service attendront patiemment que le service reprenne.

maj @ 15h10 : début de l'opération, on arrête les services sur bender

maj @ 15h55 : fin de l'opération, on relance la machine ainsi que les services, merci de signaler tous problèmes sur support (at) globenet.org (note : un message retardé n'est pas un problème, c'est normal)