[Résolu] [MCE] Erreur matériel CPU ou Carte Mère ?

Erreur matériel CPU ou Carte Mère ? [Résolu] [MCE] - Processeur - Hardware

Marsh Posté le 29-10-2013 à 21:28:36    

Bonjour,
 
J'ai une machine au boulot, basée sur une carte mère ASUS B85M-E et un Haswell i7-4770.
Elle tourne sur Linux et j'ai dans les logs de mcelog ( https://en.wikipedia.org/wiki/Machine-check_exception ) énormément d'erreurs du type "MCA: Internal parity error".
 
Le problème c'est que j'aimerais déterminer si cela vient d'une erreur du CPU ou de la carte mère. Une idée ?

Message cité 1 fois
Message édité par lecbee le 08-10-2015 à 20:27:11
Reply

Marsh Posté le 29-10-2013 à 21:28:36   

Reply

Marsh Posté le 29-10-2013 à 23:23:42    

lecbee a écrit :

Bonjour,
 
J'ai une machine au boulot, basée sur une carte mère ASUS B85M-E et un Haswell i7-4770.
Elle tourne sur Linux et j'ai dans les logs de mcelog ( https://en.wikipedia.org/wiki/Machine-check_exception ) énormément d'erreurs du type "MCA: Internal parity error".
 
Le problème c'est que j'aimerais déterminer si cela vient d'une erreur du CPU ou de la carte mère. Une idée ?


 
 
Salut.
 
Erreur CPU : très peu probable s'il n'est pas overclocké et correctement refroidi.
Ram ou C.M :nettement plus probable.
 
Tu peux déjà te faire une idée en bootant l'ordi sur un CD MemTest.
En cas d'erreur, le n° du slot de la barrette concernée te sera indiquée.
Si c'est le cas, démontes la fautive.
 
L'idéal sera bien sûr de tester après avec une seule barrette, neuve.
 
Bon courage.

Reply

Marsh Posté le 30-10-2013 à 09:26:18    

Ok merci pour ta réponse.
Les barrettes ont été testées sans aucunes erreurs.
Le CPU n'est pas OC (c'est pour un petit serveur) et est dans une salle climatisée donc je ne pense pas que ce soit lié à une quelconque surchauffe.
 
J'ai trouvé sur Internet une autre personne qui semble avoir le même soucis et qui avait fait remplacer sa carte mère du coup. Ce que tu me dis me conforte dans l'idée que cela viendrait plutôt de la carte mère donc.

Reply

Marsh Posté le 30-10-2013 à 11:56:26    

lecbee a écrit :

Ok merci pour ta réponse.
Les barrettes ont été testées sans aucunes erreurs.
Le CPU n'est pas OC (c'est pour un petit serveur) et est dans une salle climatisée donc je ne pense pas que ce soit lié à une quelconque surchauffe.
 
J'ai trouvé sur Internet une autre personne qui semble avoir le même soucis et qui avait fait remplacer sa carte mère du coup. Ce que tu me dis me conforte dans l'idée que cela viendrait plutôt de la carte mère donc.


 
 
Il y a de bonnes chances...
 
Tu peux mettre à jour le bios (si pas déjà fait) et/ou faire un reset.
 
Bonne continuation

Reply

Marsh Posté le 08-10-2015 à 20:25:12    

Je déterre le sujet désolé, c'est juste pour signaler qu'en fait, après recherche sur le Web, c'est un problème connu du processeur. C'est documenté dans l'errata Intel HSW131 :
 

Citation :

HSW131. Spurious Corrected Errors May be Reported
Problem: Due this erratum, spurious corrected errors may be logged in the IA32_MC0_STATUS register with the valid field (bit 63) set, the uncorrected error field (bit 61) not set, a Model Specific Error Code (bits [31:16]) of 0x000F, and an MCA Error Code (bits [15:0]) of 0x0005. If CMCI is enabled, these spurious corrected errors also signal interrupts.
Implication: When this erratum occurs, software may see corrected errors that are benign. These corrected errors may be safely ignored.
Workaround: None identified.
Status: For the steppings affected, see the Summary Table of Changes.

Reply

Marsh Posté le 08-10-2015 à 20:40:28    

lecbee a écrit :

Je déterre le sujet désolé, c'est juste pour signaler qu'en fait, après recherche sur le Web, c'est un problème connu du processeur. C'est documenté dans l'errata Intel HSW131 :
 

Citation :

HSW131. Spurious Corrected Errors May be Reported
Problem: Due this erratum, spurious corrected errors may be logged in the IA32_MC0_STATUS register with the valid field (bit 63) set, the uncorrected error field (bit 61) not set, a Model Specific Error Code (bits [31:16]) of 0x000F, and an MCA Error Code (bits [15:0]) of 0x0005. If CMCI is enabled, these spurious corrected errors also signal interrupts.
Implication: When this erratum occurs, software may see corrected errors that are benign. These corrected errors may be safely ignored.
Workaround: None identified.
Status: For the steppings affected, see the Summary Table of Changes.



 
 
Tu n'as pas à être désolé, bien au contraire !  ;)
 
C'est un défaut répertorié et connu, apparemment !
 
Tu peux donc obtenir un remboursement du processeur sur la base d'un "vice caché", lequel n'est pas limité dans le temps....
 
Bonne continuation.

Reply

Marsh Posté le 08-10-2015 à 21:38:30    

Je suis vraiment pas certain qu'on me rembourserai quoi que ce soit  :??:

Reply

Marsh Posté le 08-10-2015 à 23:10:30    

lecbee a écrit :

Je suis vraiment pas certain qu'on me rembourserai quoi que ce soit  :??:


 
Tu peux déjà écrire une lettre à Intel...

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed