La comunidad de seguridad ha conocido durante mucho tiempo a Rowhammer como una clase peligrosa de ataques de hardware dirigidos a la memoria DDR conectada a la CPU. Ahora, investigadores de la Universidad de Toronto documentan que técnicas similares funcionan contra la memoria GDDR6 en GPUs Nvidia, con consecuencias potencialmente graves para centros de datos y plataformas en la nube en todo el mundo.

Dos métodos de ataque – una amenaza común

Las dos nuevas variantes de ataque se denominan GDDRHammer (también conocido como GPUHammer) y GeForge. Ambos métodos manipulan la memoria de la GPU de una manera que, en última instancia, compromete la CPU y toda la máquina anfitriona, según Ars Technica.

El principio de Rowhammer es bien conocido: al realizar repetidas operaciones de lectura o escritura contra celdas de memoria específicas en la DRAM, la interferencia eléctrica puede causar los llamados bit-flips en celdas vecinas, donde un 0 almacenado de repente se convierte en un 1, o viceversa. Aunque esto ha sido teóricamente conocido para la memoria de la CPU durante muchos años, ahora se ha demostrado su viabilidad práctica contra GDDR6 en GPUs.

Los investigadores realizaron el ataque en una Nvidia RTX A6000 (48 GB GDDR6) sin protección ECC activada, y observaron hasta ocho bit-flips separados distribuidos en cuatro bancos de DRAM. El número mínimo de activaciones para desencadenar un flip fue de aproximadamente 12.000, según la documentación de la investigación.

Un solo bit-flip puede degradar la precisión de un modelo de IA del 80 % a menos del uno por ciento.
Nuevo ataque Rowhammer otorga control total sobre máquinas con GPU Nvidia

Consecuencias: De la corrupción de datos a la escalada de privilegios

Para las cargas de trabajo de IA y aprendizaje automático, las consecuencias son potencialmente dramáticas. Según el material de investigación, un bit-flip puede ser suficiente para colapsar el rendimiento de un modelo entrenado, lo que en escenarios de ataque prácticos podría significar el sabotaje de sistemas de inferencia críticos.

Más allá de la corrupción del modelo, los ataques exitosos pueden resultar en:

  • Denegación de servicio contra cargas de trabajo aceleradas por GPU
  • Pérdida y corrupción de datos en cálculos sensibles
  • Escalada de privilegios, que en el peor de los casos otorga al atacante control total sobre la máquina anfitriona
Nuevo ataque Rowhammer otorga control total sobre máquinas con GPU Nvidia

Nvidia recomienda ECC – pero tiene un costo de rendimiento

La recomendación principal de Nvidia es clara: active el Código de Corrección de Errores a Nivel de Sistema (ECC) en los productos afectados. ECC añade bits redundantes en las operaciones de memoria y corrige automáticamente los errores de un solo bit antes de que puedan causar daño.

El ECC se puede activar a través de la herramienta de línea de comandos nvidia-smi, o gestionarse fuera de banda a través de BMC y la API Redfish para instalaciones de servidor.

Hasta 10 %
Pérdida de rendimiento con ECC activado (inferencia ML)
6,5 %
Pérdida de capacidad de memoria con ECC activado

Las arquitecturas más recientes, como la serie Blackwell RTX 50 y ciertas tarjetas gráficas de centros de datos basadas en Hopper, vienen con ECC on-die incorporado y no requieren configuración por parte del usuario. Para generaciones anteriores, incluidas Volta (V100), Turing, Ampere y Ada, el ECC debe activarse manualmente.

Los expertos: No es fácil de explotar, pero es real

Johannes Ullrich del SANS Institute subraya que los ataques Rowhammer no son triviales de llevar a cabo y que lo más probable es que ocurran en "ataques altamente dirigidos" en lugar de exploits ampliamente utilizados. Sin embargo, señala que cualquier sistema que utilice memoria DDR moderna es técnicamente vulnerable a Rowhammer, y que la responsabilidad en entornos de nube recae típicamente en los proveedores de la nube.

Esto significa que la superficie de ataque, aunque estrecha, es real, y que el centro de datos y el nivel de la nube son donde la amenaza golpea con más fuerza.

Por primera vez, se ha demostrado la viabilidad práctica de Rowhammer contra la memoria de GPU de calidad de producción.

¿Qué deben hacer los administradores de sistemas?

Para las organizaciones que operan GPUs Nvidia en centros de datos o estaciones de trabajo, se debe considerar lo siguiente de inmediato:

  • Verifique el estado de ECC con nvidia-smi o a través de BMC/Redfish API
  • Active el ECC a nivel de sistema en todas las GPUs donde sea compatible y no esté ya habilitado
  • Considere la brecha de rendimiento – hasta un 10 % de inferencia más lenta y un 6,5 % menos de memoria disponible es el precio de la protección
  • Siga las prácticas generales de seguridad de Nvidia en torno a las amenazas basadas en DRAM
  • Nvidia confirma que ha abordado el problema y señala el ECC como una contramedida suficiente para los productos afectados.