État des services de Globenet

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé - disques

Fil des billets - Fil des commentaires

mardi 6 février 2018

webmail no-log en carafe

Le serveur a rencontré une erreur technique sur son système de fichier. Il a été relancé pour établir un diagnostic, pas d'heure prévue de rétablissement pour le moment, un bénévole devrait être sur place vers 14h.

_Mise à jour à 14h30 :_

Il fallait juste relancer le test du systeme de fichier depuis la console du serveur. Sans problème détecté, le serveur a été relancé.

vendredi 11 novembre 2016

service mail coupé - dernière màj 18h15

Lors d'une intervention technique pour améliorer les performances du serveur de mail de Globenet, un problème sur la partition des mail est apparu. Le service est coupé le reste du temps de la migration et des réparations à effectuer. Ça peut prendre plusieurs heures pour rétablir la situation.

Mise à jour 13h15

Pour préciser un peu ce qui se passe:

  • De nouveaux disques SSD (bien plus rapides que des disques rotatifs) ont été installés sur la machine les jours précédents pour remplacer deux des quatre disques rotatifs.
  • La partition mail étant partagée entre les 4 disques (via LVM), l'opération du jour était de déplacer ce qui restait sur les deux disques rotatifs vers les nouveaux disques SSD. C'est une opération qui avait déjà été effectuée d'autres partitions sans problème.
  • On est tombé sur un bug spécifique à ce genre d'opération quand elle porte sur une partition XFS, qui se corrompt pendant le transfert.
  • À priori on ne devrait pas avoir perdu de données, juste que la partition est inutilisable pendant le transfert.
  • Au vu de la progression du transfert, ce pourrait être terminé vers 18h. Désolé pour cette longue coupure imprévue.

Mise à jour 18h15

Le transfert des partitions s'est terminé vers 18h. La partition xfs des mails est réparée et semble en bon état. Les service sont relancés, Les services devraient être plus rapides maintenant.

lundi 15 juin 2015

coupure de services terminée

Certains sites web n'étaient plus accessibles depuis 19h aujourd'hui, anomalie causée par une coupure du serveur de base de donnée, faute d'espace disque disponible. L'origine du problème est résolue et les services rétablis.

Désolé pour la gène occasionnée.

vendredi 27 mars 2015

Problèmes sur le serveur de mail de no-log.

Depuis quelque temps, bender (le serveur de mail de no-log) était à la peine.

Parmi les correctifs tentés était l'augmentation de la mémoire vive faite mardi soir.

Celle si n'a non seulement pas amélioré les choses, mais des messages d'erreurs les concernant nous ont ammené à changer des paramètres BIOS qui ont rendu la machine instable. Après pas mal de tests, qui ont provoqué une coupure de service en fin de matinée, nous avons préféré remettre les anciennes barettes.

Plus tard, alors que nous avions relancé la machine avec un kernel plus récent que celui qui tournait auparavant, une des partitions contenant les mails est tombée. Ayant des difficulter à la remettre en service, nous devons nous rebdre à nouveau au datacenter, afin de faire les choses proprement sans risque de perdre des données.

Mise à jour à 20h30 :

Après pas mal de précautions pour éviter de perdre le contenu de la partition mails, nous avons pu y réaccéder et relancer le serveur.

mardi 20 janvier 2015

Coupure planifiée du réseau Globenet

Afin de ne plus avoir à procéder à la coupure totale du réseau en cas de défaillance d'un disque de passoire, nous allons procéder au remplacement du boîtier du serveur.

Une nouvelle (et dernière j'espère) coupure totale est donc programmée pour demain mercredi 21 janvier en soirée. Elle risque de prendre plus de temps, la machine devant être démontée et remontée.

mercredi 10 décembre 2014

Coupure planifiée du réseau Globenet

Suite à la défaillance d'un disque du routeur de Globenet (passoire), une intervention est prévue dans la nuit de mercredi 17 décembre au jeudi 18 décembre 2014. Comme il est nécessaire d'éteindre la machine pour le remplacement du disque et que cette machine assure le routage interne du réseau Globenet, tous les services hébergés seront inaccessible le temps de l'intervention, qui ne devrait pas durer plus de 15 minutes si tout se passe bien.

Des mises à jour de sécurité sur l'ensemble des machines seront faites dans le même temps. Des coupures des différents services sont donc à prévoir en plus.

mercredi 29 octobre 2014

Problème de charge sur le serveur de mails de no-log

Depuis plusieurs heures, le serveur de mail de no-log est soumis à une forte charge système, nottament à cause d'un trop grand nombre d'accès disques simultanés sur une des unités raid contenant les mails.

Nous essayons de réduire cette charge en coupant momentanément certains services afin d'aider à ce que certains processus qui engorgent le système puissent terminer leur tâche proprement.

Mise à jour à 15:30 :

Après avoir pu réduire la charge et traiter les messages en attente, nous avons pu relancer les services.

samedi 11 octobre 2014

Petit problème disque sur no-log.

Une des unités raid contenant les mail sur Bender, le serveur mail de no-log, est tombée cette nuit.

Nous arretons les services quelques minutes, le temps d'effectuer une verification du système de fichiers concerné.

Mise à Jour à 14h05:

La vérification s'est bien passée, nous relançons les services.

jeudi 19 juin 2014

boreal - la partition système est presque pleine

Le disque principal de boreal, la machine principale du serveur mutualisé (panel AlternC, base de données...) est presque pleine. Les services peuvent être dégradés ou ralentis. On regarde d'où ça vient pour corriger.

UPDATE

Le problème venait d'un surcroît de charge causé par le forum d'un-e hébergé-e. Celui-ci était pris pour cible par des spammeurs publicitaires ce qui créait des accès considérables à la base de donnée. L'hébergé-e a été prévenu-e et a fermé le forum. Tout est rentré dans l'ordre.

vendredi 6 juin 2014

coupure planifiée du réseau Globenet

Suite à la défaillance d'un disque du routeur de Globenet (passoire), une intervention est prévue dans la nuit de samedi à dimanche de la semaine 23. Comme il est nécessaire d'éteindre la machine pour le remplacement du disque et que cette machine assure le routage interne du réseau Globenet, tous les services hébergés seront inaccessible le temps de l'intervention, qui ne devrait pas durer plus de 15 minutes.

Mise à jour du 7 juin 2014 à 20h45

Je vais en profiter pour faire des mises à jour de sécurité sur l'ensemble des machines. Des coupures des différents services sont donc à prévoir en plus.

Mise à jour du 7 juin 2014 à 23h50

J'éteind le routeur en espérant que ce ne sera pas trop long. rdv dans 15mn si tout va bien

Mise à jour du 8 juin 2014 à 00h35

Ça a été un peu plus long que prévu mais rien de grave, juste que les disques étaient vissés au boitier et que je n'avais pas préparé correctement le disque de remplacement. Les disques se synchronisent maintenant, je ferais un test de redémarrage de la machine avant de quitter les lieux.

Je passe à la mise à jour et au redémarrage des autres machines qui le nécessitent.

Mise à jour du 8 juin 2014 à 01h48

Le redémarrage de toutes les machines qui le nécessitait est effectué. Le nouveau disque de passoire est synchronisé avec l'ancien, il ne me reste plus qu'à redémarrer une dernière fois passoire pour vérifier que tout est OK. Ça va donc couper une dernière fois les services globenet.

Mise à jour du 8 juin 2014 à 01h54

C'est tout bon ! =)

samedi 15 février 2014

Courte interruption des services dans la nuit de samedi à dimanche

Il y a aura une brève interruption des services cette nuit (entre le 15 et le 16 février 2014) afin de réaliser deux opérations :

- D'une part, vérifier visuellement les disques de sextant, ce qui nécessitera l'extinction de la machine une dizaine de minute. - D'autre part, procéder à une mise à jour de sécurité des machines du mutualisé suivie d'un redémarrage de ces même machines.

La coupure du mutualisé provoquera un arrêt du web, du webmail, des listes et des mails des domaines hébergés pendant quelques minutes.

UPDATE dimanche 16/02 14h30

Le redémarrage du serveur de mail ne s'est pas bien passé, un fichier de configuration des disques n'avait pas édité pour mémoriser les dernières modifications. La récupération de la machine a été longue et tous les services ont été en fin de nuit, sauf le webmail Globenet qui avait échappé à notre vigilance et qui vient seulement d'être rétabli. Tout devrait être rentré dans l'ordre. Laissez un mail au support si vous constatez la persistance d'autre problème.

mardi 7 janvier 2014

Problème sur le serveur de mails de Globenet

lundi 6 janvier 2014

Encore un début de semaine difficile pour levant. Il répond difficilement depuis le petit matin. Les disques tournent au maximum de leur capacité mais ce n'est pas suffisant. On regarde quels sont les processus (programmes) qui sont à l'origine de ces trop grandes sollicitations pour les stopper, histoire de redonner un peu d'air à la machine.

Vous pouvez avoir un petit aperçu en jetant un œil sur la métrologie du serveur https://supervision.globenet.org/munin/globenet.org/levant.globenet.org/index.html#disk

UPDATE : 14h

On a une partition système qui est pleine. Probablement les files d'attente de mail qui la remplissent complètement. On arrête le service d'envoi de mail et on diagnostique. La machine étant toujours très lente, c'est long d'avoir le résultat de chaque commande d'administration système.

UPDATE : 15h

Les services en cause ont été identifiés, on les a supprimé. Il semble que la conjonction de la reconstruction du RAID et du calcul d'occupation des boites mails ait été de trop ce mois-ci. Ce devrait être réglé. La charge système est retombée, on relance le service de réception de mail, si tout se passe bien, on pourra relancer les services POP et IMAP dans la foulée, ainsi que les listes de diffusion.

UPDATE : mardi 7 janvier 2014

Levant n'est toujours pas d'aplomb. Les disques n'étant pas encore changés et la synchronisation RAID est toujours en cours. Ce sera une journée difficile en perspective.

lundi 6 janvier 2014

Levant: maintenance prévue ce soir

En attendant le remplacement à venir de levant (serveur mail et liste des services mutualisés de Globenet), une intervention en deux temps est prévue afin de remplacer des disques du serveur.

Ce soir, modification de la configuration matérielle afin de pouvoir ajouter rapidement de nouveaux disques à venir dans les prochains jours. La machine sera redémarrée plusieurs fois (2 fois si tout se passe comme attendu).

UPDATE 23h35

Début de la maintenance. Coupure(s) des services dans l'heure.

samedi 31 août 2013

Interruption des services no-log ce samedi après-midi

Depuis le déménagement des serveurs, et le changement imprévu d'un des deux disques système, les performances de bender (le serveur de mails de no-log) sont très dégradés. De plus, l'autre disque système commence à accuser son âge.

D'autre part, il est necessaire d'ajouter de la capacité disques pour les mails.

Nous alllons donc effectuer intervention qui nécessitera de couper le serveur (au moins de façon intermittente) endant deux bonnes heures, le temps d'installer les nouveaux disques et transférer le système.

Samedi, 16h:

Nous commençons l'intervention et coupons les services sur bender.

mise à jour à 18h:

Les disques système ont été remplacés à priori sans problème. L'installation des nouveaux disques pour les mails pouvant se faire pendant que la machine tourne, nous relançons les services. Cependant il est possible qu'il faudra rebooter la machine à la fin, pour stabiliser la config.

mise à jour à 18h50:

L'intervention est terminée, sans problème à signaler.

dimanche 28 juillet 2013

Globenet change de disque

Ces derniers jours deux disques dans deux machines différentes (mario et sextant, des serveurs Xen sont tombés en panne.

Les deux disques ont été remplacés tout à l'heure sans aucune interruption de service puisque l'opération a été réalisée "à chaud", c'est à dire sans éteindre les machines.

mardi 31 mai 2011

Globenet: service mutualisé des mail et listes de diffusion stoppés pour maintenance urgente

Le service des listes de diffusion du serveur mutualisé de Globenet est tombé lundi 30 mai à 16h, faute d'espace disque. Un nettoyage rapide a permis de relancer le service ce midi mais il est vite retombé, l'espace libéré vite réoccupé.

Nous effectuons donc une opération de maintenance plus lourde, nécessitant de stopper tous les services mail du mutualisé. Les services seront relancés dès que la partition sera significativement agrandie.

Mise à jour à 16h37 :

Les services sont relancés depuis une heure.

lundi 21 mars 2011

Interruption des services no-log

Depuis cet après-midi, une unité raid contenant une partie des comptes no-log est tombée.

Nous arrêtons les services et lançons une vérification de celle-ci.

Mise à jour à 2h30 :

La vérification est terminée et les services relancés.

vendredi 18 février 2011

Interruption des services no-log

Depuis 21h15, deux unités raid contenant une partie des comptes no-log sont tombées.

Nous arrêtons les services et lançons une vérification de celles-ci.

Mise à jour à 3h00 :

La vérification est terminée, nous relançons les services.

dimanche 23 janvier 2011

Coupure de no-log pendant la nuit de dimanche à lundi

Nous continuons la migration de certaines boites vers de nouveaux disques, ce qui nous oblige à arrêter les services no-log pendant un certain temps.

Cette fois-ci l'opération devrait commencer vers 23 heures, et durer environ trois heures.

Mise à jour à 23h10 :

Nous coupons les services et commençons l'opération.

Mis à jour à 1h10 :

L'opération s'est bien passée, les services sont relançés.

samedi 8 janvier 2011

Coupure de no-log pendant la nuit de samedi à dimanche

Afin de migrer certaines boites no-log vers les nouveaux disques installés le mois dernier, nous allons devoir couper les services pendant quelques heures. Cette coupure devrait avoir lieu après minuit, afin de ne pas gêner trop de monde.

Etant donné le volume total à déplacer, d'autres opérations du même type auront lieu au cours des prochains week-ends.Elles seront annoncées ici-même au moins quelques heures avant.

Mise à jour à 0h15 :

Nous débutons l'opération.

Mise à jour à 3h00 :

Cette première étape de la migration est terminée, sans problème..

- page 1 de 2