"mce: [Error de hardware]: eventos de comprobación de la máquina registrados" aparece en syslog. ¿Que debería hacer?

18

He instalado la última versión de OSSEC (2.8.1) y también he habilitado las notificaciones por correo electrónico. Y estoy recibiendo un montón de este tipo de notificaciones que dicen que hay un error de hardware y algo sobre mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Entonces, ¿qué significa esto exactamente? ¿Qué significa mce? ¿Y este aparente error de hardware es algo de lo que debería preocuparme?

Información del sistema operativo:

Description:    Ubuntu 14.10
Release:    14.10
    
pregunta Eric Carvalho 04.04.2015 - 19:37

1 respuesta

21

Excepción de comprobación de la máquina :

  

Una Excepción de comprobación de máquina (MCE) es un tipo de hardware de computadora   error que ocurre cuando la unidad de procesamiento central de una computadora detecta un   problema de hardware.

Su computadora experimentó un error de hardware y el kernel registró un evento en un búfer. Puede usar mcelog para registrar y ver los eventos de comprobación de la máquina. De mcelog manpage :

  

Las CPU X86 informan de errores detectados por la CPU como eventos de comprobación de la máquina   (MCE) Estos pueden ser daños a los datos detectados en los cachés de la CPU, en   memoria principal mediante un controlador de memoria integrado, errores de transferencia de datos   en el bus frontal o la interconexión de CPU u otros errores internos.   Las posibles causas pueden ser radiación cósmica, fuentes de alimentación inestables,   problemas de refrigeración, hardware roto, sistemas en ejecución fuera de   especificación, o mala suerte.

     

La mayoría de los errores pueden ser corregidos por la CPU mediante la corrección de errores internos   mecanismos. Los errores no corregidos causan excepciones de verificación de la máquina que   puede matar procesos o entrar en pánico en la máquina. Un pequeño número de corregidos   los errores generalmente no son motivo de preocupación, pero un gran número puede   indicar fallas futuras.

     

Cuando ocurre un error corregido o recuperado, el kernel x86 escribe un   registro que describe el MCE en un buffer de anillo interno disponible   a través del dispositivo / dev / mcelog. mcelog recupera errores de   / dev / mcelog, los decodifica en un formato legible por humanos y los imprime   en la salida estándar u opcionalmente en el registro del sistema.

Si no notó ningún bloqueo, probablemente el error se corrigió con éxito. Sin embargo, le aconsejo que instale mcelog para realizar un seguimiento de dichos eventos:

sudo apt-get install mcelog

Los eventos se registrarán en /var/log/mcelog . También puedes ejecutar:

sudo mcelog --client

para consultar el% daemon mcelog por errores.

    
respondido por el Eric Carvalho 11.04.2015 - 21:22

Lea otras preguntas en las etiquetas