Un grupo creciente de desarrolladores desea asistencia de código de IA sin tener que depender de servicios comerciales en la nube. Ahora existe un camino práctico para lograrlo: la familia abierta Gemma 4 de Google, combinada con la herramienta de agente de codificación OpenCode, proporciona una configuración funcional que se ejecuta completamente de forma local, según una revisión publicada por Towards Data Science.

¿Qué es Gemma 4?

Gemma 4 es una serie de modelos de código abierto de Google, lanzada en abril de 2026, con la variante más reciente 12B Unified disponible a partir de junio de 2026. Los modelos están explícitamente construidos para inferencia local y flujos de trabajo basados en agentes, incluida la asistencia de código.

La familia soporta entradas multimodales: texto, imágenes y video en todos los tamaños. Las tres variantes más pequeñas (E2B, E4B y 12B) también manejan entradas de audio. El modelo 12B Unified es particularmente notable porque procesa imágenes y audio directamente a través de la columna vertebral del lenguaje, sin codificadores separados.

Crea tu propio agente de codificación de IA localmente – sin nube y sin costo - Bilde 1

De Ollama a OpenCode – así funciona la configuración

La guía de Towards Data Science describe el proceso paso a paso: se comienza instalando Ollama, una herramienta que facilita la descarga y ejecución de grandes modelos de lenguaje localmente. Luego, se descarga la variante Gemma 4 deseada y OpenCode se configura para usar el modelo local como motor.

El resultado es un agente de codificación que puede leer archivos, sugerir cambios, escribir pruebas y navegar por proyectos de código, todo sin conexión a internet una vez que el modelo ha sido descargado.

Gemma 4 excels at reasoning, coding, tool use, long-context and agentic workflows, and multimodal tasks.

¿Qué hardware se necesita?

Los requisitos de hardware varían drásticamente con el tamaño del modelo y el nivel de cuantificación. Con la cuantificación de 4 bits (formato GGUF Q4), los requisitos son significativamente más bajos que con la precisión completa.

4 GB
VRAM para E2B (Q4)
125 tok/s
RTX 3090 en el modelo E4B

Para aquellos que no tienen una GPU dedicada, la ejecución en CPU es posible, pero según notas de investigación, esto es típicamente de cinco a diez veces más lento. Un sistema con un procesador de ocho núcleos y 16 GB de RAM puede ejecutar el modelo E4B, pero para uso diario se recomiendan 16 núcleos, 32 GB de RAM y soporte AVX-512.

Las máquinas Apple Silicon con la serie M se destacan como una buena alternativa: las Mac con 16–32 GB de memoria unificada manejan las variantes más pequeñas sin problemas, mientras que el 26B MoE requiere al menos 32 GB.

RTX 3090 – ¿una elección rentable?

Según evaluaciones técnicas citadas por Towards Data Science, una tarjeta RTX 3090 usada (24 GB VRAM) se presenta como una alternativa particularmente interesante para quienes desean ejecutar el modelo 26B MoE. Se dice que la tarjeta puede ofrecer más de 115 tokens por segundo en este modelo, y se afirma que proporciona alrededor del 95 por ciento del rendimiento de equipos profesionales a un precio mucho más bajo. Cabe señalar que estas cifras provienen de fuentes optimistas del fabricante, y el rendimiento variará según el sistema y la configuración.

Según las mismas fuentes, NVIDIA y Google habrían colaborado en optimizaciones de día cero para las tarjetas RTX. Además, una tecnología llamada Multi-Tensor Pipelining (MTP) podría aumentar la velocidad de inferencia entre 1,4 y 2,2 veces sin pérdida de precisión.

La privacidad como argumento clave

La ejecución local de IA significa que tu código nunca abandona tu máquina.

Para muchos desarrolladores – especialmente aquellos que trabajan con código propietario o sistemas sensibles – esta es la ventaja más importante. Ni el modelo Gemma 4 ni OpenCode envían datos a servidores externos durante la sesión de codificación. Los datos permanecen en la propia máquina del usuario.

Esto convierte la configuración en una alternativa real para empresas e individuos que desean codificación asistida por IA, pero no pueden o no quieren compartir su base de código con terceros.

¿Vale la pena probarlo?

Para los desarrolladores con hardware suficiente, el umbral es bajo. Ollama es gratuito y de código abierto, los modelos Gemma 4 están disponibles libremente, y OpenCode está diseñado precisamente para este caso de uso. La guía de Towards Data Science te lleva a través de todo el proceso, desde la instalación hasta un agente funcional.