[Recherche barbus] Serveur qui crash sans raison apparente !

Serveur qui crash sans raison apparente ! [Recherche barbus] - Divers - Linux et OS Alternatifs

Marsh Posté le 02-09-2006 à 14:28:15    

Bonjour,
 
Je suis à la recherche de tous barbus ( = personnes skilled) pouvant m'aiguiller sur un problème de crash de serveur...
 
Le contexte : Le serveur est hébergé dans un datacenter à Paris en 1U, c'est un Athlon 64 3000+, 512 Mo de mémoire, deux disques durs de 40 Go. Il tourne sous une Debian de base (Sarge) et a toutes les dernières updates ainsi que le kernel 2.6.17.7.
 
Le symptôme : il plante assez régulièrement à 06h00 du matin, entraînant un "freeze" de tous les services fonctionnant dessus, plus rien ne réponds.
A 06h00 du matin un script basique est lancé via crond pour faire un backup de la partition système (hda) sur le second disque dur (hdc) via 'rsync' puis à l'aide de 'tar' pour générer des archives journalières de backup.
 
Autant dire qu'à 06h00 du matin toutes les ressources du serveur sont mises à rude épreuve !  :o  
 
Le problème : il n'y a aucune trace de crash dans les logs systèmes qui pourraient aider à la résolution du problème : il n'y a plus aucune écriture dedans jusqu'au reboot de la machine  :ouch:  
 
Extrait du 'syslog' et 'messages' de ce matin :

Citation :


Sep  2 05:17:01 localhost /USR/SBIN/CRON[4786]: (root) CMD (   run-parts --report /etc/cron.hourly)
Sep  2 05:39:01 localhost /USR/SBIN/CRON[23463]: (root) CMD (  [ -d /var/lib/php4 ] && find /var/lib/php4/ -type f -cmin +$(/usr/lib/php4/maxlifetime) -print0 | xargs -r -0 rm)
Sep  2 06:00:01 localhost /USR/SBIN/CRON[10988]: (root) CMD (/root/scripts/rapport > /dev/null)
Sep  2 13:52:24 localhost syslogd 1.4.1#17: restart.
Sep  2 13:52:24 localhost kernel: klogd 1.4.1#17, log source = /proc/kmsg started.
Sep  2 13:52:24 localhost kernel: Inspecting /boot/System.map-2.6.17.7
 
Sep  2 05:05:33 localhost -- MARK --
Sep  2 05:25:33 localhost -- MARK --
Sep  2 05:45:33 localhost -- MARK --
Sep  2 13:52:24 localhost syslogd 1.4.1#17: restart.
Sep  2 13:52:24 localhost kernel: klogd 1.4.1#17, log source = /proc/kmsg started.
Sep  2 13:52:24 localhost kernel: Inspecting /boot/System.map-2.6.17.7
 


 
Avec l'hébergeur nous avons déjà changé : carte mère, mémoire, alimentation, changer de disque dur et effectivement le serveur n'a plus planter jusqu'à ... hier, soit 2 semaines environ. C'est reparti comme avant, 2 plantages en 2 jours à 06h00 du matin :sweat:  
 
Le support technique a aussi effectué hier un check des partitions des deux disques durs : aucune erreur. De plus 'smartd' tourne en permanence et ne détecte aucune erreur. :/
 
Alors qu'est-ce qui pourrait se passer tant en hardware qu'en software pour aboutir à un tel freeze qui ne laisse aucune trace ?  :??:  
Quel évenement déclencheur fait d'un seul coup passer le serveur dans une phase de "crash", alors que pendant 2 semaines tout fonctionnait ?  :??:  
 
Merci d'avance pour vos commentaires constructifs  :hello:


Message édité par AthlonSoldier le 02-09-2006 à 14:34:02
Reply

Marsh Posté le 02-09-2006 à 14:28:15   

Reply

Marsh Posté le 02-09-2006 à 14:56:49    

Tu as déjà essayé de lancer ton script de backup à la main pour verifier s'il est vraiment à l'origine de ton crash ?

Reply

Marsh Posté le 02-09-2006 à 15:12:00    

Oui et ça crash. Mais il est pas à l'origine du crash, c'est un évenement déclencheur (un comme un stress test qui met en avant un prob hardware), mais le problème doit se situer ailleurs...  :sweat:
 
Ca le met juste en évidence via ce script de backup...


Message édité par AthlonSoldier le 02-09-2006 à 15:13:30
Reply

Marsh Posté le 02-09-2006 à 15:21:08    

tu as essayé de commenter les différentes étapes de ton script afin de localiser l'étape fautive ?
Tu peux toujours installer "sar" pour avoir des traces systèmes (CPU, mémoire, I/O...).
Tes disques durs sont en IDE ou SATA, regarde s'il n'y aurait pas un bug au niveau du contrôleur.
 
Pour info, j'ai déjà eu un tel problème lors d'une copie intensive de fichiers sur le réseau, il s'avérait que c'était la carte Ethernet qui plantait le PC du faite de la mauvaise qualité du câble réseau (j'ai mis énormement de temps pour localiser cette panne  :sweat: ).

Message cité 1 fois
Message édité par jlighty le 02-09-2006 à 15:23:48
Reply

Marsh Posté le 02-09-2006 à 16:52:24    

Ben heureusement que j'ai pas hébergé mon forum chez toi [:cupra]


---------------
Long-range goals keep you from being frustrated by short-term failures. RIP VC
Reply

Marsh Posté le 02-09-2006 à 17:05:27    

Tu parles vu les problèmes que tu as constament sur ton site, c'est bien pire [:cupra]

Reply

Marsh Posté le 02-09-2006 à 17:07:43    

jlighty a écrit :

tu as essayé de commenter les différentes étapes de ton script afin de localiser l'étape fautive ?
Tu peux toujours installer "sar" pour avoir des traces systèmes (CPU, mémoire, I/O...).
Tes disques durs sont en IDE ou SATA, regarde s'il n'y aurait pas un bug au niveau du contrôleur.
 
Pour info, j'ai déjà eu un tel problème lors d'une copie intensive de fichiers sur le réseau, il s'avérait que c'était la carte Ethernet qui plantait le PC du faite de la mauvaise qualité du câble réseau (j'ai mis énormement de temps pour localiser cette panne  :sweat: ).


C'est pendant le rsync, vu qu'une fois ça a crash en "live" quand j'étais loggé dessus et que je faisais un backup  :sweat:  
Mes disques durs sont en IDE, et niveau "bug au niveau du controleur", la carte mère a été changé alors bon... :/

Reply

Marsh Posté le 02-09-2006 à 17:24:41    

Si c'est effectivement un problème de hard, trouve un moyen de stresser ton serveur avec autre chose que ton script. Et stresse séparément le disque, la RAM et le CPU.

Reply

Marsh Posté le 02-09-2006 à 18:00:57    

Quelle version de rsync ?
 

Spoiler :

( Y'a pas une femme de ménache qui pache l'achpirator vers 6h du mat, des fois, dans le datacenter ?  [:cupra] )


---------------
« Ce qui ne vous tue pas vous rend plus fort » F. Nietzsche | « Vise_ la Lune. Si tu rates, au pire, t'es dans la merde » Un poète disparu dans le cercle
Reply

Marsh Posté le 02-09-2006 à 18:14:50    

Zzozo a écrit :

Spoiler :

( Y'a pas une femme de ménache qui pache l'achpirator vers 6h du mat, des fois, dans le datacenter ?  [:cupra] )



Déconnes pas, j'y ai pensé (CF topic des informaticiens et des gens qui leur courrent après).


Message édité par Fork Bomb le 02-09-2006 à 18:15:18

---------------
Décentralisons Internet-Bépo-Troll Bingo - "Pour adoucir le mélange, pressez trois quartiers d’orange !"
Reply

Marsh Posté le 02-09-2006 à 18:14:50   

Reply

Marsh Posté le 02-09-2006 à 18:23:40    

Zzozo a écrit :

Quelle version de rsync ?


rsync  version 2.6.4  protocol version 29
 
Et non il n'y a pas de femme de ménage, et non ça n'a rien a voir avec l'heure. Je peux executer le script a n'importe quelle heure, ça plantera quelques fois (pas tout le temps).  [:spamafote]

Reply

Marsh Posté le 02-09-2006 à 19:04:26    

Ram foireuse jsuis sur

Reply

Marsh Posté le 02-09-2006 à 19:09:44    

Déjà changé deux fois et sur des stress test comme Prime 95 aucune erreur pendant des heures...  [:spamafote]

Reply

Marsh Posté le 03-09-2006 à 07:42:56    

T'as bcp de fichiers (en nombre) impliqués dans le backup ?
Y'a quoi d'autre qui tourne en même temps sur cette machine ?
 
EDIT : Et c'est quoi la ligne de commande exacte utilisée pour lancer le rsync ?


Message édité par Zzozo le 03-09-2006 à 07:43:41

---------------
« Ce qui ne vous tue pas vous rend plus fort » F. Nietzsche | « Vise_ la Lune. Si tu rates, au pire, t'es dans la merde » Un poète disparu dans le cercle
Reply

Marsh Posté le 03-09-2006 à 07:54:05    

Ma première impression, c'est un manque de mémoire (avec du coup, une utilisation plus qu'intensive du swap, avec les conqéquences que ça peut avoir) ...


---------------
« Ce qui ne vous tue pas vous rend plus fort » F. Nietzsche | « Vise_ la Lune. Si tu rates, au pire, t'es dans la merde » Un poète disparu dans le cercle
Reply

Marsh Posté le 03-09-2006 à 13:14:13    

Bon en fait la situation a empiré maintenant. Il plante pour un rien et plus du tout juste pour le backup. Le système est complètement instable...
Du genre, je reboot la machine, je vais sur un de mes sites webs, la page s'affiche, je reload la page => serveur down  [:ddr555]  
 
C'est dramatique là, en plus on est dimanche, personne peut intervenir dessus  :sweat:
 
EDIT : C'est vraiment super étrange. Je pense pas que ca soit la mémoire ni le reste qui soit en cause (sinon ca afficherait des erreurs dans des tortures tests comme Prime 95 bien avant de "freeze" tout un système !). On dirait qu'un élément electrique se charge pendant ~1/2 semaines et une fois chargé il rends le système totalement instable... c'est mon hypothèse en tout cas.  
Ca fais déjà 2 fois que le problème intervient et on a changé plein d'éléments hardwares (dont la mémoire), le système est très stable dans un premier temps et ensuite il redevient instable...au bout de quelques semaines  :sweat:
 
EDIT2 : En fait le plantage au Backup c'est comme une sonnette d'alarme où le système dit "Je suis rentré dans une phase instable, attention  :o "
 
EDIT3 : Donc "rsync" et "manque de mémoire" tombent à l'eau, le problème est "ailleurs" :/


Message édité par AthlonSoldier le 03-09-2006 à 13:25:46
Reply

Marsh Posté le 03-09-2006 à 13:35:59    

le disque qui se bloque et fout en vrac l'IDE :spamafote:
fout tes données sur un autre disque et essaye

Reply

Marsh Posté le 03-09-2006 à 13:40:26    

Non le disque dur a été changé (le disque système en tout cas), et même si je mount pas l'autre (l'ancien de backup), ça crash toujours pareil. De plus pourquoi il faudrait attendre plus d'une semaine pour que le disque dur commence à planter ?  :heink:  
Pour finir les disques durs sont monitorés par "smartd", il n'y a aucune erreur, de même qu'avec un fschk manuel :)
 
On peut donc écarter l'hypothèse des disques durs je pense  :o

Reply

Marsh Posté le 03-09-2006 à 14:07:47    

température qui monte et fini par faire planter la machine ?


---------------
Celui qui pose une question est idiot 5 minutes. Celui qui n'en pose pas le reste toute sa vie. |  Membre du grand complot pharmaceutico-médico-scientifico-judéo-maçonnique.
Reply

Marsh Posté le 03-09-2006 à 14:13:27    

bouarf le smart... j'ai sur le coin de la table un dur qui aléatoirement choucroutait le système (freeze complet) lors d'un accès et le smart n'a jamais rien vu passer... Y'avait rien de systématique. Si c'est un défaut électronique, tout foire :spamafote:
D'ailleurs si le disque sert pas, à la prochaine intervention physique il faudrait en profiter pour le débrancher, tant que t'as pas résolu le problème, c'est le seul moyen pour être sûr qu'il foute pas en vrac l'IDE...  
Pasque si je comprends bien, le disque de backup est un relicat de ton ancien système. Y'a que lui et le CPU qui n'ont pas été changé ?

Reply

Marsh Posté le 03-09-2006 à 14:28:45    

Normalement oui, ce sont les deux choses de l'ancien système.

Reply

Marsh Posté le 03-09-2006 à 14:37:23    

Donc voilà. Disque à débrancher et CPU à changer (puisqu'un A64 contient le contrôleur mémoire si je ne m'abuse, ce qui fait que le changement de carte mère ne change rien à ce niveau-là), tu commenceras à y voir plus clair.
Ah, les nappes aussi pourquoi pas... et tu devrais avoir fait le tour niveau hard (sauf si t'as remplacé un composant foireux par un composant foireux :D )

Reply

Marsh Posté le 03-09-2006 à 14:42:22    

Je vais surtout demander une nouvelle machine toute neuve, je commence à en avoir marre.  :o


Message édité par AthlonSoldier le 03-09-2006 à 14:42:36
Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed