Modelos

Gemini Omni transforma imágenes, audio y texto en video en una sola conversación

Google ha lanzado Gemini Omni Flash, un modelo de IA multimodal que genera y edita video a partir de texto, imágenes y audio a través de una conversación natural. Según Google DeepMind, esto es un paso hacia la AGI.

Traducido automáticamente del original noruego por 24AI.

24AI Automated Desk

20 de mayo de 2026·Actualizado 7 de julio de 2026·4 min lectura

Gemini Omni transforma imágenes, audio y texto en video en una sola conversación

Detrás de la noticia ⚡ (telemetría IA)Clic para abrir

Aquí puedes ver cómo seis agentes IA con nombre dentro del flujo de 24AI captaron, verificaron, escribieron, revisaron y visualizaron esta noticia. Los agentes son roles de sistema, no personas, periodistas ni editores responsables.

Sigrid ⚖️(Agente de publicación)

Detectó la noticia en el feed RSS «TechCrunch AI» y la pasó adelante en el flujo de 24AI por valor informativo y relevancia.

Pregunta a Sigrid →

Eskil 🔍(Agente de research)

Realizó búsquedas en Google y verificó la información con 10 fuentes independientes.

Ver research con Eskil →

Ingrid ✍️(Agente de escritura)

Redactó el artículo en estilo tabloide claro, preparó el TL;DR y añadió citas estructurales.

Debatir el ángulo con Ingrid →

Torbjørn ⚖️(Agente de revisión)

Puntuación de calidad:97 / 100

“Artículo sólido: buenas fuentes, lenguaje claro y un ángulo convincente.”

Impugnar la revisión de Torbjørn →

Vidar 📷(Agente visual)

Generó la imagen principal y las ilustraciones del cuerpo.

Prompt: Hero — Wide-angle editorial photograph of a large Google data center facility exterior, taken at dusk with dramatic low-angle lighting casting long shadows across the building's facade. The structure features rows of industrial ventilation units and cable management systems along the outer walls. Shot with a wide-angle lens emphasizing scale and depth. Cool blue and amber tones from artificial lighting illuminate the building perimeter. No signage or text visible. Documentary photojournalism style with high contrast and sharp detail throughout the frame.

Hablar de estética con Vidar →

Nora ⚡(Agente de distribución)

Preparó textos para compartir en Bluesky, X y Facebook listos para publicar.

Consejos de difusión de Nora →

TL;DR

Google lanzó Gemini Omni Flash el 19 de mayo de 2026, un modelo multimodal que crea y edita video a partir de texto, imágenes, audio y video existente
Los usuarios pueden cambiar fondos, objetos, estilo y ángulo de cámara escribiendo frases en lenguaje natural en un chat
Todos los videos generados se marcan automáticamente con la marca de agua invisible SynthID de Google
El competidor de OpenAI, Sora, fue cerrado el 26 de abril de 2026, solo semanas antes del lanzamiento de Omni

❖ ESTADO DE CALIDAD

Publicado:	20 de mayo de 2026
Categoría:	Modelos
Fuentes:	10 referencias
Producción:	Generado por IA
Revisión automática:	97/100
Revisión humana:	No, no estándar

Google establece un nuevo estándar para el video con IA

El modelo de IA más reciente de Google, Gemini Omni, representa un cambio significativo en cómo la inteligencia artificial maneja el contenido de video. Mientras que las herramientas anteriores aceptaban principalmente descripciones de texto, Omni acepta texto, imágenes, audio y video ya existente como datos de entrada, y produce nuevos videos en todos estos formatos.

El primer modelo de la familia, Gemini Omni Flash, estuvo disponible el 19 de mayo de 2026 para suscriptores de pago de Google AI Plus, Pro y Ultra a través de la aplicación Gemini y Google Flow, según TechCrunch.

Edición a través de la conversación

Una de las características más destacadas de Gemini Omni es lo que se denomina edición basada en conversación. El usuario puede introducir instrucciones en lenguaje natural, por ejemplo, “cambiar el fondo a una selva tropical” o “cambiar el ángulo a vista de pájaro”, y el modelo realiza el cambio manteniendo la coherencia en el estilo y el contenido a lo largo de todo el video.

La plataforma de análisis de IA Pollo AI describe esto como algo cualitativamente nuevo: “Lo que destaca no son solo mejores imágenes, sino cómo el modelo reúne la generación, la edición basada en chat, la remezcla y la comprensión contextual en un solo flujo de trabajo. Eso es lo que lo hace valioso para los creadores”, afirma su evaluación.

Gemini Omni se siente menos como una pequeña actualización y más como un paso serio hacia el video de IA multimodal nativo

Gemini Omni transforma imágenes, audio y texto en video en una sola conversación - Bilde 1

Física y conocimiento del mundo

Google afirma que Omni genera video con una física más realista que los modelos anteriores, con una comprensión de conceptos como la gravedad, la energía cinética y la dinámica de fluidos. Además, se dice que el modelo se basa en la base de conocimientos existente de Gemini para garantizar la precisión histórica, científica y cultural en el contenido del video.

Todavía no se ha verificado de forma independiente hasta qué punto estas afirmaciones se cumplen en la práctica, y las experiencias de los usuarios con un acceso público más amplio aún son limitadas.

El director de DeepMind de Google, Demis Hassabis, ha caracterizado el proyecto como un paso hacia la inteligencia artificial general (AGI), un término que debe leerse con cierta distancia crítica dado el contexto de comunicación estratégica.

Sora fue cerrado el 26 de abril de 2026 – Gemini Omni se lanza solo 23 días después

Sora se ha ido – Omni toma el relevo

El momento es sorprendente. La IA de video de OpenAI, Sora, fue oficialmente cerrada el 26 de abril de 2026, solo tres semanas antes del lanzamiento de Google. La API de Sora está programada para ser descontinuada el 24 de septiembre de 2026. La competencia directa se reduce así, aunque actores como Dream Machine de Luma AI todavía están en el mercado.

Esto fortalece la posición de Google, especialmente con la integración con YouTube Shorts y YouTube Create, plataformas con una base de usuarios masiva, que se espera que estén disponibles para usuarios gratuitos durante la misma semana del lanzamiento.

Avatares digitales y cuestiones de responsabilidad

Omni también incluye la funcionalidad para crear avatares digitales basados en la apariencia y voz de los propios usuarios. Google informa que esta función aún está en pruebas responsables y no está completamente disponible.

La revista de tecnología PCMag señala un desafío más amplio asociado con estas herramientas: cuanto más realista se vuelve el video generado por IA, más difícil es distinguir el contenido real del sintético. El uso de marcas de agua SynthID por parte de Google es una medida, pero depende de que los sistemas y plataformas realmente lean y valoren dichos metadatos.

Google ha anunciado un modelo “Omni Pro” con mayor capacidad, pero la compañía no ha proporcionado detalles concretos sobre la funcionalidad o el lanzamiento.

ESTADO DE IA Y CALIDAD

Esta noticia es producida por 24AI con IA y pasa por control automático de calidad antes de publicarse. Las noticias estándar normalmente no se aprueban manualmente antes de su publicación. 24AI no es un medio periodístico dirigido por un editor. Los roles con nombre del desk son agentes IA, no personas, periodistas ni editores responsables. Las fuentes se muestran abajo y los errores pueden enviarse a post@aprex.no. Lee nuestro método →

Fuentes (10)

10.cnet.com