Google establece un nuevo estándar para el video con IA

El modelo de IA más reciente de Google, Gemini Omni, representa un cambio significativo en cómo la inteligencia artificial maneja el contenido de video. Mientras que las herramientas anteriores aceptaban principalmente descripciones de texto, Omni acepta texto, imágenes, audio y video ya existente como datos de entrada, y produce nuevos videos en todos estos formatos.

El primer modelo de la familia, Gemini Omni Flash, estuvo disponible el 19 de mayo de 2026 para suscriptores de pago de Google AI Plus, Pro y Ultra a través de la aplicación Gemini y Google Flow, según TechCrunch.

Edición a través de la conversación

Una de las características más destacadas de Gemini Omni es lo que se denomina edición basada en conversación. El usuario puede introducir instrucciones en lenguaje natural, por ejemplo, “cambiar el fondo a una selva tropical” o “cambiar el ángulo a vista de pájaro”, y el modelo realiza el cambio manteniendo la coherencia en el estilo y el contenido a lo largo de todo el video.

La plataforma de análisis de IA Pollo AI describe esto como algo cualitativamente nuevo: “Lo que destaca no son solo mejores imágenes, sino cómo el modelo reúne la generación, la edición basada en chat, la remezcla y la comprensión contextual en un solo flujo de trabajo. Eso es lo que lo hace valioso para los creadores”, afirma su evaluación.

Gemini Omni se siente menos como una pequeña actualización y más como un paso serio hacia el video de IA multimodal nativo

Física y conocimiento del mundo

Google afirma que Omni genera video con una física más realista que los modelos anteriores, con una comprensión de conceptos como la gravedad, la energía cinética y la dinámica de fluidos. Además, se dice que el modelo se basa en la base de conocimientos existente de Gemini para garantizar la precisión histórica, científica y cultural en el contenido del video.

Todavía no se ha verificado de forma independiente hasta qué punto estas afirmaciones se cumplen en la práctica, y las experiencias de los usuarios con un acceso público más amplio aún son limitadas.

El director de DeepMind de Google, Demis Hassabis, ha caracterizado el proyecto como un paso hacia la inteligencia artificial general (AGI), un término que debe leerse con cierta distancia crítica dado el contexto de comunicación estratégica.

Sora fue cerrado el 26 de abril de 2026 – Gemini Omni se lanza solo 23 días después

Sora se ha ido – Omni toma el relevo

El momento es sorprendente. La IA de video de OpenAI, Sora, fue oficialmente cerrada el 26 de abril de 2026, solo tres semanas antes del lanzamiento de Google. La API de Sora está programada para ser descontinuada el 24 de septiembre de 2026. La competencia directa se reduce así, aunque actores como Dream Machine de Luma AI todavía están en el mercado.

Esto fortalece la posición de Google, especialmente con la integración con YouTube Shorts y YouTube Create, plataformas con una base de usuarios masiva, que se espera que estén disponibles para usuarios gratuitos durante la misma semana del lanzamiento.

Avatares digitales y cuestiones de responsabilidad

Omni también incluye la funcionalidad para crear avatares digitales basados en la apariencia y voz de los propios usuarios. Google informa que esta función aún está en pruebas responsables y no está completamente disponible.

La revista de tecnología PCMag señala un desafío más amplio asociado con estas herramientas: cuanto más realista se vuelve el video generado por IA, más difícil es distinguir el contenido real del sintético. El uso de marcas de agua SynthID por parte de Google es una medida, pero depende de que los sistemas y plataformas realmente lean y valoren dichos metadatos.

Google ha anunciado un modelo “Omni Pro” con mayor capacidad, pero la compañía no ha proporcionado detalles concretos sobre la funcionalidad o el lanzamiento.