La comunidad de seguridad ha conocido durante mucho tiempo a Rowhammer como una clase peligrosa de ataques de hardware dirigidos a la memoria DDR conectada a la CPU. Ahora, investigadores de la Universidad de Toronto documentan que técnicas similares funcionan contra la memoria GDDR6 en GPUs Nvidia, con consecuencias potencialmente graves para centros de datos y plataformas en la nube en todo el mundo.
Dos métodos de ataque – una amenaza común
Las dos nuevas variantes de ataque se denominan GDDRHammer (también conocido como GPUHammer) y GeForge. Ambos métodos manipulan la memoria de la GPU de una manera que, en última instancia, compromete la CPU y toda la máquina anfitriona, según Ars Technica.
El principio de Rowhammer es bien conocido: al realizar repetidas operaciones de lectura o escritura contra celdas de memoria específicas en la DRAM, la interferencia eléctrica puede causar los llamados bit-flips en celdas vecinas, donde un 0 almacenado de repente se convierte en un 1, o viceversa. Aunque esto ha sido teóricamente conocido para la memoria de la CPU durante muchos años, ahora se ha demostrado su viabilidad práctica contra GDDR6 en GPUs.
Los investigadores realizaron el ataque en una Nvidia RTX A6000 (48 GB GDDR6) sin protección ECC activada, y observaron hasta ocho bit-flips separados distribuidos en cuatro bancos de DRAM. El número mínimo de activaciones para desencadenar un flip fue de aproximadamente 12.000, según la documentación de la investigación.
Un solo bit-flip puede degradar la precisión de un modelo de IA del 80 % a menos del uno por ciento.

Consecuencias: De la corrupción de datos a la escalada de privilegios
Para las cargas de trabajo de IA y aprendizaje automático, las consecuencias son potencialmente dramáticas. Según el material de investigación, un bit-flip puede ser suficiente para colapsar el rendimiento de un modelo entrenado, lo que en escenarios de ataque prácticos podría significar el sabotaje de sistemas de inferencia críticos.
Más allá de la corrupción del modelo, los ataques exitosos pueden resultar en:
- Denegación de servicio contra cargas de trabajo aceleradas por GPU
- Pérdida y corrupción de datos en cálculos sensibles
- Escalada de privilegios, que en el peor de los casos otorga al atacante control total sobre la máquina anfitriona

Nvidia recomienda ECC – pero tiene un costo de rendimiento
La recomendación principal de Nvidia es clara: active el Código de Corrección de Errores a Nivel de Sistema (ECC) en los productos afectados. ECC añade bits redundantes en las operaciones de memoria y corrige automáticamente los errores de un solo bit antes de que puedan causar daño.
El ECC se puede activar a través de la herramienta de línea de comandos nvidia-smi, o gestionarse fuera de banda a través de BMC y la API Redfish para instalaciones de servidor.
Las arquitecturas más recientes, como la serie Blackwell RTX 50 y ciertas tarjetas gráficas de centros de datos basadas en Hopper, vienen con ECC on-die incorporado y no requieren configuración por parte del usuario. Para generaciones anteriores, incluidas Volta (V100), Turing, Ampere y Ada, el ECC debe activarse manualmente.
Los expertos: No es fácil de explotar, pero es real
Johannes Ullrich del SANS Institute subraya que los ataques Rowhammer no son triviales de llevar a cabo y que lo más probable es que ocurran en "ataques altamente dirigidos" en lugar de exploits ampliamente utilizados. Sin embargo, señala que cualquier sistema que utilice memoria DDR moderna es técnicamente vulnerable a Rowhammer, y que la responsabilidad en entornos de nube recae típicamente en los proveedores de la nube.
Esto significa que la superficie de ataque, aunque estrecha, es real, y que el centro de datos y el nivel de la nube son donde la amenaza golpea con más fuerza.
¿Qué deben hacer los administradores de sistemas?
Para las organizaciones que operan GPUs Nvidia en centros de datos o estaciones de trabajo, se debe considerar lo siguiente de inmediato:
nvidia-smi o a través de BMC/Redfish APINvidia confirma que ha abordado el problema y señala el ECC como una contramedida suficiente para los productos afectados.
