En relación a la memoria, hay dos tipos de errores:
Correctable Memory Errors
Los DIMMs con errores corregibles no son deshabilitados y el sistema operativo los reconoce como disponibles. La memory total y la memoria efectiva es la misma. Estos errores son reportados por Cisco UCS Manager como una degradación en un DIMM.
La cantidad del los errores corregibles es monitoreado, y cuando excede el límite por cierto periodo de tiempo, la operabilidad del DIMM se marca como degradada (Degraded). Esta operabilidad puede ser forzada a ser reevaluada al hacer un reset de los errores de memoria. Este paso no interrumpe la operación del servidor.
La falta que aparecerá en UCS Manager es:
F0184 - DIMM XX on server x/y operability: degraded.
Para hacer el reset de los errores de memoria siga estos pasos:
Vaya al servidor en UCS Manager en la pestaña de Equipment > Inventory > Memory > Presione doble clic sobre el DIMM que tiene el problema, y ahí encontrará la opción 'Reset Memory Errors'
Uncorrectable Memory Errors
Los DIMMs con errores incorregibles son deshabilitados y el sistema operativo no puede ver esa memoria. Si uno o varios DIMMs fallan mientras el sistema está corriendo, el sistema operativo puede detenerse y colapsar (puede tener un crash). En el caso que ocurra un error incorregible, Cisco UCS Manager mostrará el DIMM como inoperable. Estos errores no se pueden corregir a través del software. Un DIMM defectuoso puede identificarse y removerse para permitir al servidor iniciar de nuevo. Esto puede ser hecho, cuando el bios no puede pasar el POST debido a una falla en un DIMM.
Muchas veces se requiere un reemplazo del DIMM para resolver el problema.
La falta que puede aparecer en UCS Manager es:
F0185 - DIMM XX on server x/y operability: inoperable.