Serveur qui crash sans raison apparente ! [Recherche barbus] - Divers - Linux et OS Alternatifs
Marsh Posté le 02-09-2006 à 14:56:49
Tu as déjà essayé de lancer ton script de backup à la main pour verifier s'il est vraiment à l'origine de ton crash ?
Marsh Posté le 02-09-2006 à 15:12:00
Oui et ça crash. Mais il est pas à l'origine du crash, c'est un évenement déclencheur (un comme un stress test qui met en avant un prob hardware), mais le problème doit se situer ailleurs...
Ca le met juste en évidence via ce script de backup...
Marsh Posté le 02-09-2006 à 15:21:08
tu as essayé de commenter les différentes étapes de ton script afin de localiser l'étape fautive ?
Tu peux toujours installer "sar" pour avoir des traces systèmes (CPU, mémoire, I/O...).
Tes disques durs sont en IDE ou SATA, regarde s'il n'y aurait pas un bug au niveau du contrôleur.
Pour info, j'ai déjà eu un tel problème lors d'une copie intensive de fichiers sur le réseau, il s'avérait que c'était la carte Ethernet qui plantait le PC du faite de la mauvaise qualité du câble réseau (j'ai mis énormement de temps pour localiser cette panne ).
Marsh Posté le 02-09-2006 à 17:05:27
Tu parles vu les problèmes que tu as constament sur ton site, c'est bien pire
Marsh Posté le 02-09-2006 à 17:07:43
jlighty a écrit : tu as essayé de commenter les différentes étapes de ton script afin de localiser l'étape fautive ? |
C'est pendant le rsync, vu qu'une fois ça a crash en "live" quand j'étais loggé dessus et que je faisais un backup
Mes disques durs sont en IDE, et niveau "bug au niveau du controleur", la carte mère a été changé alors bon...
Marsh Posté le 02-09-2006 à 17:24:41
Si c'est effectivement un problème de hard, trouve un moyen de stresser ton serveur avec autre chose que ton script. Et stresse séparément le disque, la RAM et le CPU.
Marsh Posté le 02-09-2006 à 18:00:57
Quelle version de rsync ?
Spoiler : ( Y'a pas une femme de ménache qui pache l'achpirator vers 6h du mat, des fois, dans le datacenter ? ) |
Marsh Posté le 02-09-2006 à 18:14:50
Zzozo a écrit :
|
Déconnes pas, j'y ai pensé (CF topic des informaticiens et des gens qui leur courrent après).
Marsh Posté le 02-09-2006 à 18:23:40
Zzozo a écrit : Quelle version de rsync ? |
rsync version 2.6.4 protocol version 29
Et non il n'y a pas de femme de ménage, et non ça n'a rien a voir avec l'heure. Je peux executer le script a n'importe quelle heure, ça plantera quelques fois (pas tout le temps).
Marsh Posté le 02-09-2006 à 19:09:44
Déjà changé deux fois et sur des stress test comme Prime 95 aucune erreur pendant des heures...
Marsh Posté le 03-09-2006 à 07:42:56
T'as bcp de fichiers (en nombre) impliqués dans le backup ?
Y'a quoi d'autre qui tourne en même temps sur cette machine ?
EDIT : Et c'est quoi la ligne de commande exacte utilisée pour lancer le rsync ?
Marsh Posté le 03-09-2006 à 07:54:05
Ma première impression, c'est un manque de mémoire (avec du coup, une utilisation plus qu'intensive du swap, avec les conqéquences que ça peut avoir) ...
Marsh Posté le 03-09-2006 à 13:14:13
Bon en fait la situation a empiré maintenant. Il plante pour un rien et plus du tout juste pour le backup. Le système est complètement instable...
Du genre, je reboot la machine, je vais sur un de mes sites webs, la page s'affiche, je reload la page => serveur down
C'est dramatique là, en plus on est dimanche, personne peut intervenir dessus
EDIT : C'est vraiment super étrange. Je pense pas que ca soit la mémoire ni le reste qui soit en cause (sinon ca afficherait des erreurs dans des tortures tests comme Prime 95 bien avant de "freeze" tout un système !). On dirait qu'un élément electrique se charge pendant ~1/2 semaines et une fois chargé il rends le système totalement instable... c'est mon hypothèse en tout cas.
Ca fais déjà 2 fois que le problème intervient et on a changé plein d'éléments hardwares (dont la mémoire), le système est très stable dans un premier temps et ensuite il redevient instable...au bout de quelques semaines
EDIT2 : En fait le plantage au Backup c'est comme une sonnette d'alarme où le système dit "Je suis rentré dans une phase instable, attention "
EDIT3 : Donc "rsync" et "manque de mémoire" tombent à l'eau, le problème est "ailleurs"
Marsh Posté le 03-09-2006 à 13:35:59
le disque qui se bloque et fout en vrac l'IDE
fout tes données sur un autre disque et essaye
Marsh Posté le 03-09-2006 à 13:40:26
Non le disque dur a été changé (le disque système en tout cas), et même si je mount pas l'autre (l'ancien de backup), ça crash toujours pareil. De plus pourquoi il faudrait attendre plus d'une semaine pour que le disque dur commence à planter ?
Pour finir les disques durs sont monitorés par "smartd", il n'y a aucune erreur, de même qu'avec un fschk manuel
On peut donc écarter l'hypothèse des disques durs je pense
Marsh Posté le 03-09-2006 à 14:07:47
température qui monte et fini par faire planter la machine ?
Marsh Posté le 03-09-2006 à 14:13:27
bouarf le smart... j'ai sur le coin de la table un dur qui aléatoirement choucroutait le système (freeze complet) lors d'un accès et le smart n'a jamais rien vu passer... Y'avait rien de systématique. Si c'est un défaut électronique, tout foire
D'ailleurs si le disque sert pas, à la prochaine intervention physique il faudrait en profiter pour le débrancher, tant que t'as pas résolu le problème, c'est le seul moyen pour être sûr qu'il foute pas en vrac l'IDE...
Pasque si je comprends bien, le disque de backup est un relicat de ton ancien système. Y'a que lui et le CPU qui n'ont pas été changé ?
Marsh Posté le 03-09-2006 à 14:28:45
Normalement oui, ce sont les deux choses de l'ancien système.
Marsh Posté le 03-09-2006 à 14:37:23
Donc voilà. Disque à débrancher et CPU à changer (puisqu'un A64 contient le contrôleur mémoire si je ne m'abuse, ce qui fait que le changement de carte mère ne change rien à ce niveau-là), tu commenceras à y voir plus clair.
Ah, les nappes aussi pourquoi pas... et tu devrais avoir fait le tour niveau hard (sauf si t'as remplacé un composant foireux par un composant foireux )
Marsh Posté le 03-09-2006 à 14:42:22
Je vais surtout demander une nouvelle machine toute neuve, je commence à en avoir marre.
Marsh Posté le 02-09-2006 à 14:28:15
Bonjour,
Je suis à la recherche de tous barbus ( = personnes skilled) pouvant m'aiguiller sur un problème de crash de serveur...
Le contexte : Le serveur est hébergé dans un datacenter à Paris en 1U, c'est un Athlon 64 3000+, 512 Mo de mémoire, deux disques durs de 40 Go. Il tourne sous une Debian de base (Sarge) et a toutes les dernières updates ainsi que le kernel 2.6.17.7.
Le symptôme : il plante assez régulièrement à 06h00 du matin, entraînant un "freeze" de tous les services fonctionnant dessus, plus rien ne réponds.
A 06h00 du matin un script basique est lancé via crond pour faire un backup de la partition système (hda) sur le second disque dur (hdc) via 'rsync' puis à l'aide de 'tar' pour générer des archives journalières de backup.
Autant dire qu'à 06h00 du matin toutes les ressources du serveur sont mises à rude épreuve !
Le problème : il n'y a aucune trace de crash dans les logs systèmes qui pourraient aider à la résolution du problème : il n'y a plus aucune écriture dedans jusqu'au reboot de la machine
Extrait du 'syslog' et 'messages' de ce matin :
Sep 2 05:17:01 localhost /USR/SBIN/CRON[4786]: (root) CMD ( run-parts --report /etc/cron.hourly)
Sep 2 05:39:01 localhost /USR/SBIN/CRON[23463]: (root) CMD ( [ -d /var/lib/php4 ] && find /var/lib/php4/ -type f -cmin +$(/usr/lib/php4/maxlifetime) -print0 | xargs -r -0 rm)
Sep 2 06:00:01 localhost /USR/SBIN/CRON[10988]: (root) CMD (/root/scripts/rapport > /dev/null)
Sep 2 13:52:24 localhost syslogd 1.4.1#17: restart.
Sep 2 13:52:24 localhost kernel: klogd 1.4.1#17, log source = /proc/kmsg started.
Sep 2 13:52:24 localhost kernel: Inspecting /boot/System.map-2.6.17.7
Sep 2 05:05:33 localhost -- MARK --
Sep 2 05:25:33 localhost -- MARK --
Sep 2 05:45:33 localhost -- MARK --
Sep 2 13:52:24 localhost syslogd 1.4.1#17: restart.
Sep 2 13:52:24 localhost kernel: klogd 1.4.1#17, log source = /proc/kmsg started.
Sep 2 13:52:24 localhost kernel: Inspecting /boot/System.map-2.6.17.7
Avec l'hébergeur nous avons déjà changé : carte mère, mémoire, alimentation, changer de disque dur et effectivement le serveur n'a plus planter jusqu'à ... hier, soit 2 semaines environ. C'est reparti comme avant, 2 plantages en 2 jours à 06h00 du matin
Le support technique a aussi effectué hier un check des partitions des deux disques durs : aucune erreur. De plus 'smartd' tourne en permanence et ne détecte aucune erreur.
Alors qu'est-ce qui pourrait se passer tant en hardware qu'en software pour aboutir à un tel freeze qui ne laisse aucune trace ?
Quel évenement déclencheur fait d'un seul coup passer le serveur dans une phase de "crash", alors que pendant 2 semaines tout fonctionnait ?
Merci d'avance pour vos commentaires constructifs
Message édité par AthlonSoldier le 02-09-2006 à 14:34:02