PB ventilateur Supermicro X9SRI-F

PB ventilateur Supermicro X9SRI-F - Carte mère - Hardware

Marsh Posté le 18-09-2017 à 14:19:39    

Bonjour,
 
J'ai acheté sur eBay une carte LGA2011 Supermicro X9SRI-F, garantie 90 jours.
 
A 94 jours [donc passé la garantie] , j'ai un problème de ventilateurs :
 
La carte se met à détecter toute seule de nouveaux ventilateurs, qui bien sur ne tournent pas, et se met donc en sécurité : tous les ventilos existant à fond.
 
Explication :
 
Quand je fais :
ipmicfg-win -sdr
 
en temps normal j'ai bien :
FAN 3 Absent n/a n/a n/a.
FAN 4 Absent n/a n/a n/a.
 
Ce qui est tout à fait normal, vu que je n'ai pas de ventilos sur FAN3 et FAN4.
 
Puis d'un seul coup, les ventilos s'affolent :
J'ai alors :
FAN 3 CritLow 0 450 19000
ou  
FAN 4 CritLow 0 450 19000
 
En gros la carte a détecté un "nouveau" ventilateur sur les prises FAN 3 ou 4 (Alors que rien n'est branché). Ventilateur qui ne tourne évidement pas, donc en dessous de la vitesse critique.
 
Le PC continue de fonctionner, sauf qu'il y a une alarme IPMI, et tous les ventilos à fond.
 
La seule façon de s'en sortir est d'arrêter l'ordinateur, et de le débrancher. Au démarrage suivant, tout redevient normal jusqu'à réapparition du phénomène 5 - 10 mins plus tard.
 
Donc ma question :  
 
Comment "enlever" ou "réinitialiser" un ventilateur dans IPMI, ou interdire à IPMI de gérer un ventilo ? Ou au moins supprimer une détection "dynamique" de ventilateurs. [ Ca existe le hot plug de ventilos ??? ]
 
 
Merci votre aide.
 
PS j'ai essayé de changer les ventilos dans tous les sens, sur toutes les prises, d'autres ventilos aussi au cas ou un générerait des parasites. Mais rien n'y fait.
PS2 J'ai pas essayé 5 ventilos [toutes les prises], c'est un pc que je veux, pas un drone ou une soufflerie. Et plus prosaïquement, je n'ai pas les emplacements dans le boitier.

Reply

Marsh Posté le 18-09-2017 à 14:19:39   

Reply

Marsh Posté le 18-09-2017 à 14:46:00    

Salut
 
T'es allé voir dans le BIOS si tu pouvais désactiver les ports des ventilos fantomes ?

Reply

Marsh Posté le 18-09-2017 à 15:06:11    

Rien du tout dans le BIOS.  
Tout est fait en ligne de commande genre ipmiutil, ipmicfg-win etc etc etc. Et c'est pas franchement documenté. Et il semble que chaque fabriquant rajoute ses propres commandes non std.

Reply

Marsh Posté le 18-09-2017 à 15:38:08    

Ca n'aide pas ce genre de discussion : https://forums.servethehome.com/ind [...] 7-f.13389/ ?


---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 18-09-2017 à 16:35:55    

C'est pas le même problème.
 
Le problème classique c'est la vitesse mini des ventilos est fixée d'usine à 450rpm. Et dès qu'on met des ventilos 12 ou 14cm, la vitesse mini est inférieur à la vitesse mini critique. D’où alarme -> ventilos à fond.  
 
A fond, le ventilo va à une vitesse "normale", entre le mini critique et le maxi critique. Donc l'alarme s’arrête, et le ventilo ralentit donc, jusqu’à repasser sous le mini critique. Donc les ventilos ne fond que cycler indéfiniment entre vitesse lente <-> a fond.
 
Et la apparemment dans ce cas, il avait aussi modifié la vitesse maxi critique. ( mise à 800rpm seulement). Et le problème c'est qu'en cas d'erreur, même intermittente, le ventilo passe à fond, au delà de la vitesse maxi critique. Et donc reste en alarme parce qu'il ne redescend plus en dessous de la vitesse maxi critique ( qui normalement est à 19 000 rpm config usine supermicro).

Reply

Marsh Posté le 18-09-2017 à 16:47:59    

Ok. Ce n'est pas le même problème mais comme il donnait des infos sur l'utilisation des outils en ligne de commande pour gérer les seuils d'alerte et cie je proposais au cas où.


---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 18-09-2017 à 19:24:02    

Je vais essayer 5 ventilos, voir ce que ça donne (toutes les prises FAN connectées).
Mais ça va être galère : La CM est au format ATX, mais pas les trous de fixation. Enfin seulement 6 sur 9. Un boitier avec des bossages, ce n'est même pas la peine d'y songer. Et il va falloir trouver un boitier avec de la matière à percer à l'emplacement des trous de fixation spéciaux Supermicro... Et il faut les mettre, car le CPU n'est pas à l'emplacement standard cartes ATX/mATX. Il est plutôt en face des nervures du fond du boitier que des évidements prévus pour. La hauteur résiduelle est minime.

Reply

Marsh Posté le 19-09-2017 à 11:05:32    

Questin : Comment lIPMI fait il pour detecter la présence d'un ventilateur ?
 
Je soupçonne que c'est via la broche tacho, c'est le seul retour du ventilo vers la carte.
Et que donc il y aurait des "parasites" intempestifs sur cette ligne qui lui ferai croire à la présence d'un ventilo.
 
Je sais pas comment est cablée électroniquement cette ligne. mais je subodore qu'il doit y avoir une résistance pull up ou pull down.
 
Que se passera t il si je mette cette broche à la masse ou au + 12v[via un jumper] , ou si je rajoute une résistance supplémentaire pull up ou pull down [toujours via un jumper 3 pins ???
 
Le problème, c'est que ma carte est déjà mal en point. J'ai pas trop envie de griller encore plus.

Reply

Marsh Posté le 19-09-2017 à 11:14:48    

Côté ventilo c'est une sortie de type collecteur ouvert. Donc "en l'air" ou à la masse.
En pratique il peut y avoir une faible résistance de pull up déjà présente dans le ventilo.

 

Pour déclencher l'entrée il faut quand même un signal d'impédance suffisamment faible et d'une bonne durée je pense, donc difficile de croire que juste des parasites peuvent faire ça.

 

Mais à défaut de solution BIOS ou logiciel, en l'absence de ventilo, je pense que c'est néanmoins une bonne idée de tester avec une pull up (par exemple 1kOhms), et aussi en pull down si tu veux. Ca ne peut pas faire de mal et apparemment tu sembles assez à l'aise pour faire ça.
Juste par principe j'éviterai le simple jumper (même si au final c'est presque exactement ce que fait la sortie collecteur ouvert).

 

Pour info, si un te des ventilos présent et valide a sa sortie tachy qui déraille, elle peut aussi envoyer n'importe quoi. Je le mentionne comme un truc à vérifier "au cas où", même si en l'occurrence il semble bien qu'on parle d'un souci sur les ventilos non connectés uniquement.


Message édité par TotalRecall le 19-09-2017 à 11:16:56

---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 19-09-2017 à 11:37:43    

Ce qui se passe est assez fugitif.
 
A un moment, IPMI détecte une vitesse de ventilateur PAS NULLE sur une prise FAN ou rien n'est branché [FAN absent dans IPMI]. Ensuite, cette vitesse passe à zéro. D'où déclenchement de l'alarme IPMI, et mise à fond de tous les ventilateurs existant. Et le reset de l'alarme, c'est la coupure de courant. Sinon, la carte a mémorisé l'existence du ventilateur. [Arrêt redémarrage sans coupure de tension ne fait rien.]

Reply

Marsh Posté le 19-09-2017 à 11:37:43   

Reply

Marsh Posté le 19-09-2017 à 11:39:14    

Je vais essayer le pull up voir ce que ça change.

Reply

Marsh Posté le 19-09-2017 à 11:58:39    

Oui j'avais bien compris, mais c'est quand même étrange.

 

Si c'est une sortie CO côté ventilo, côté mobo tu dois avoir grossièrement une entrée avec un pull up et derrière un buffer et l'entrée du chip de monitoring.
Donc pour faire osciller ça, il faudrait un truc qui vienne tirer à la masse l'entrée mobo de temps en temps. A moins que la pullup ne soit défectueuse (du coup l'entrée se retrouve en l'air). Et tu as l'air de dire que ça se produit sur les deux ventilo en même temps.
Je penche plus pour un délire du chip de monitoring qui aurait un pét au casque, et dans ce cas le fait de forcer les entrées n'y changera peut être rien.
Tu vois ce que je veux dire ?

 

Mais bien sûr ça vaut quand même le coup de tester, tout ça c'est théorique. Et je ne suis pas spécialiste des mobos, je ne sais pas comment c'est câblé précisément.

Message cité 1 fois
Message édité par TotalRecall le 19-09-2017 à 11:58:55

---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 19-09-2017 à 12:01:15    

essaye de tout démonter, suis chaque fil de ventilo, et connecteur des prises à la loupe en recherche de pincement, coupure ou brulé. [:jascooby]  
un coup de KF (hydrofuge)sur l intégralité des connecteurs et prises, et remontage, au cas ou :jap:


---------------
---I like Scsi---
Reply

Marsh Posté le 19-09-2017 à 12:56:54    

TotalRecall a écrit :


 
%<----------
 
Et tu as l'air de dire que ça se produit sur les deux ventilo en même temps.
Je penche plus pour un délire du chip de monitoring qui aurait un pét au casque, et dans ce cas le fait de forcer les entrées n'y changera peut être rien.  
Tu vois ce que je veux dire ?
 


 
Ca se produit sur TOUTES les prise ou il n'y a PAS de ventilo branché. J'ai pas vu d'alarmes sur les prises ou il y a un ventilo. Et si je change de prise des ventilos : même topo: PB la ou il n'y a rien de branché, et ras la ou il y a un ventilo.
 
D'où mon intention de mettre des ventilos sur TOUTES les prises, pour voir ce qui va se passer. Mais tout de suite, j'ai pas suffisamment de ventilos PWM. Si je mets des ventilos 3 fils classiques, j'ai d'autres PB parce que la vitesse des ventilos ne varie plus. C'est bien IPMI, c'est très bien ...
 
C'est un peu le problèmes des serveurs, que c'est vendu en tellement petite série , qu'il n'y a QU'UNE seule configuration développée, testée et validée et qui semble fonctionner.
Et que si on regarde la FAQ SuperMicro, cette carte marche bien dans un rack Supermicro, avec un ventirad CPU supermicro, et des ventilos supermicro.
 
Au hasard, un des autres problèmes de cette carte : le radiateur des VRM est conçu pour être bien ventilé quand on met le ventirad CPU Supermicro. Quand on met un ventirad tour ordinaire, ben le flux d'air est trop haut et passe bien au dessus des VRM. D'où un déflecteur en bristol que j'ai rajouté sur le ventirad 120mm beaucoup trop haut.
 
 

Reply

Marsh Posté le 20-09-2017 à 11:06:39    

Pas de bol ...
 
J'i mis une résistance de pullup [4k7] sur les prises ventilos pas utilisées.
Ca a diminué l'occurrence du problème. Mais ça l'a pas corrigé.
 
J'ai pas envie de descendre à 1k, parce que quand même, c'est pas trop normal.

 

Il y a bien un problème hardware sur ma CM qui pour l'instant, n'a pas trop de solutions de contournement.


Message édité par fc99 le 20-09-2017 à 11:07:49
Reply

Marsh Posté le 20-09-2017 à 11:12:21    

Tu peux mettre la résistance de 1k sans risque tu sais, au moins pour tester.


---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 20-09-2017 à 14:55:38    

Je vais peut être essayer. De toutes façon, je suis assez coincé.
 
Le niveau de "parasites" est tel qu'un pullup supplémentaire de 4k7 ne fait QUE diminuer le problème, alors que normalement, ça aurait du marcher sans.

 

Si je mets 1k, ça va peut être alarmer les ventilos encore mois,  une fois par jour ??? une fois par semaine ???? on sais pas. Je pense pas que ce soit la bonne correction.

 

Le problème doit être plus grave, au niveau du chip de monitoring lui même [Nuvotron] . Et j'ai peur un jour de ne plus avoir de ventilation.

 

Aujourd'hui, le symptôme, c'est le bruit. C'est tout. Y a aucune surchauffe, aucun plantage. Par contre le jour ou les ventilos ne tourneront plus, ça sera une autre paire de manche.
 
Je vais essayer plutôt de voir du coté d'un contrôle externe des ventilos, hors carte mère. Genre contrôleur PWM avec sonde de température. Un truc genre Lamptron, mais c'est 50€ en plus... Quasi le prix d'un SSD 120 Go ou un HDD 1To ....
 
J'ai aussi vu sur freeNas ceux qui font du contrôle par soft des ventilateurs [Sur les cartes SuperMicro]. C'est du script Linux mais on peut s'en sortir. Le truc qui m'embête un peu plus : On contrôle aussi obligatoirement le ventilo du CPU. Et la, le moindre bug, ça fait mal ...


Message édité par fc99 le 20-09-2017 à 14:58:03
Reply

Marsh Posté le 20-09-2017 à 15:22:40    

Pour le monitoring avec un coup dans l'aile oui c'est ce que je disais plus haut. Faudrait suivre un peu le circuit pour voir comment c'est câblé et foutre un oscillo à l'entrée de l'acquisition des tachy, mais bon, entre les chips qui font 18000 trucs différents et le PCB multicouche ultra complexe t'as pas envie de t'aventurer là dedans je présume.
 
Boarf, pas besoin de mettre 50€ dans un rhéobus, on en trouve pour beaucoup moins.  
Et je ne sais pas à quoi te sert la machine mais à moins que le bruit soit un problème vraiment sensible et que tu veuilles une régulation au micropoil, il faut juste alimenter les ventilos pour maintenir une température "acceptable" au niveau de charge "moyen" habituel de la machine.  
Donc au pire une alimentation fixe en DC (le PWM c'est pas obligatoire) pour tous les ventilos et basta [:spamafote].


---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 20-09-2017 à 15:38:39    

Déjà, je vais mettre le ventirad sur une prise 12v molex, et voir comment l'IPMI se comporte sans AUCUN ventilo connecté. D'ici à ce que j'ai une autre alarme IPMI ... l'IPMI sur ce genre de carte [a l'origine serveur] fait quand même pas mal de choses. Y compris le reboot, la sélection du périf boot, etc etc etc

Reply

Marsh Posté le 21-09-2017 à 11:19:19    

Après bidouillages, j'obtiens des velléités de fonctionnement sur quelques heures [j'ai pas pu tester plus].
 
Ventilos PWM sur FAN1,FAN4, FANA, et pullup sur FAN2,FAN3, et programmation critical speed à 0 sur FAN2 FAN3.
 
Mais bon, j'ai pas confiance dans la carte. Il y a quand même un problème hardware réel sur le monitoring/ventilation.
 
A chaque fois que je vais lancer un calcul, je vais me demander si je vais griller mon CPU €€€€, ou si je vais avoir les résultats...

Reply

Marsh Posté le 21-09-2017 à 11:23:14    

Si c'est du Xeon E5-26xx ou du i7 genre 69xx je te comprend :D.

 

Je ne sais pas ce que tu as comme ventilos mais tu peux toujours faire un mix ventilo alimentés de façon persistante + ventilos asservis par la mobo, comme ça tu joues la sécurité tout en gardant une régulation intelligente.
Mais si t'as cette machine, je suppose que t'as aussi les moyens d'investir dans un rhéobus avec thermorégulation :o.

Message cité 1 fois
Message édité par TotalRecall le 21-09-2017 à 11:25:01

---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 21-09-2017 à 12:28:30    

TotalRecall a écrit :

Mais si t'as cette machine, je suppose que t'as aussi les moyens d'investir dans un rhéobus avec thermorégulation :o.

 


Avant l'achat de cette machine, oui, facile.

 

Après l'achat : NON. Cette machine est complètement en train d'exploser mon budget à tous les niveaux.

 

Et malgré des composants achetés sur eBay, elle est en train de me revenir plus cher qu'un Ryzen 1700/1700x neuf, pour quasi les mêmes performances, et avec une architecture plutôt ancienne [pas d'USB 3.0, que 2 SATA 3.0 et pas d'audio]
En même pas quelques mois, AMD a quand même sacrément chamboulé le marché  des 6-8 cores. Et apparemment, il est en train de refaire la même chose pour les 12-16 cores.

 

PS : la machine 8c/16t dont je parle dans un autre fil, c'est un dell au bureau, pas la perso dont je parle ici.


Message édité par fc99 le 21-09-2017 à 12:34:54
Reply

Marsh Posté le 22-09-2017 à 10:53:32    

le problème est plus général que ce que je pensais :
 
Il y a des problèmes de monitoring des ventilateurs sur TOUTES les prises.
 
Si la prise n'est pas connectée, le problème se produit en 5-10 minutes. Et ensuite la carte croit qu'il y a un ventilateur, et se met en alarme parce qu'elle croit que le ventilateur ne tourne effectivement pas.
 
Si la prise est connectée à un pullup 12v ou à un vrai ventilateur, le problème se produit en 1-2 heures. Si c'est un pullup, même problème qu'au dessus. La carte rajoute dynamiquement un ventilateur qui ne tourne pas : mise en alarme. Si c'est un vrai ventilateur qui continue de tourner, l'erreur est considérée comme transitoire et ne déclenche pas d'alarme.
 
Donc je vais essayer de bricoler le boitier existant pour mettre 4 ventilateurs boitiers [+ ventirad]. En espérant que les problèmes de monitoring seront de durée suffisamment courte pour que l'erreur soit considérer comme transitoire. Et que ces problèmes ne vont pas empirer.
 
Après, il va peut être falloir, malheureusement pour moi, envisager le changement de carte.  


Message édité par fc99 le 22-09-2017 à 11:07:22
Reply

Marsh Posté le 28-09-2017 à 11:42:41    

le problème est plus général que ce que je pensais ...
 
Effectivement, le problème est bien plus grave  :o  
 
C'est le chip IPMI qui a un sacré problème :
 
J'ai ma configuration à 5 ventilateurs. Il n'y a plus de détection de ventilateurs fantômes. Donc on peut aller plus loin.
 
Et la c'est l'IPMI qui se plante complètement : TOUS les capteurs sont marqués absent, sauf la température CPU et une autre temp. Et les ventilateurs restent à la vitesse ou ils étaient avant plantage hard de l'IPMI. Et la c'est complètement cuit jusqu'au redémarrage de la machine.
 
Je sais plus quoi faire. Une solution hardware pour le contrôle des températures : du fric à dépenser en plus pour une carte qui est finalement HS.
 
Je pense que je vais mettre un ventilateur vitesse fixe sur le CPU, qui va refroidir suffisamment le CPU en charge. Et je vais garder la carte tant que je supporterais le bruit de ventilation [CPU = 130w] et que les pannes n'empirent pas . Et après : préparation de la carte bleue et remplacement à envisager ...

Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed