Linux 6.9 agrega soporte de retiro de filas AMD MI300 para memorias HBM problemáticas

Para el próximo ciclo del kernel Linux 6.9 hay una serie de adiciones de AMD Instinct MI300 a los controladores EDAC (detección y corrección de errores) y RAS (confiabilidad, disponibilidad y capacidad de servicio).

Este trabajo incluye adaptar el controlador AMD EDAC para utilizar la biblioteca de traducción de direcciones AMD. Soporte MI300 para esa biblioteca ATL, otras adiciones del MI300 RASy luego se incluye una nueva característica para el hardware MI300. fila de apoyo a la jubilación.

El soporte de retiro de filas del MI300 dentro del controlador amd64_edac se resume en ese parche en cuanto a cómo lidiar con la memoria de alto ancho de banda (HBM) defectuosa o con errores en el MI300:

“Los sistemas AMD MI300 tienen memoria integrada de alto ancho de banda. Esta memoria tiene una tasa de error relativamente más alta y no es reemplazable individualmente como los DIMM.

Los errores ECC incorregibles se informan individualmente como errores diferidos mediante la interrupción de error diferido de AMD. Cada error informado corresponde a un único error de hardware.

Los errores ECC corregibles se informan en lotes a través del Umbral de MCA. Los usuarios pueden configurar el límite de umbral según su política. Cada error corregible informado representa una única ocurrencia del límite de umbral que se alcanza.

La guía actual de los diseñadores de AMD es que la memoria afectada por errores ECC dentro de una fila DRAM debe retirarse. Se deben tomar medidas ante cada error de ECC informado.

Agregue una función auxiliar para aplicar esta política para los sistemas MI300.

Esta y otras funciones similares también se pueden gestionar mejor en un módulo genérico independiente. Mientras tanto, haga esto en AMD64 EDAC para simplificar”.

Un comentario de código dentro del parche de soporte de retiro de esa fila reafirma las intenciones de retirar toda la memoria dentro de esa fila DRAM en caso de errores:

“Cuando se produce un error de DRAM ECC en sistemas MI300, se recomienda retirar toda la memoria dentro de esa fila de DRAM. Esto se aplica a la memoria con un banco de DRAM”.

El último trabajo de AMD MI300 se encuentra en Linux 6.9 ahora que esos parches son parte de la rama Git “edac-for-next” de RAS.git.
2024-02-18 13:47:00
1708265398
#Linux #agrega #soporte #retiro #filas #AMD #MI300 #para #memorias #HBM #problemáticas

leer más  LibreELEC 12 Beta traslada más dispositivos a 64 bits, incluidos Raspberry Pi 5 y 4

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.