Modelos

Gemini Omni muestra la nueva ambición de Google en video

Google presenta nueve demostraciones de Gemini Omni y Gemini 3.5 Flash. Omni podrá recibir imágenes, audio, video y texto como entrada y generar video con audio como salida.

Traducido automáticamente del original noruego por 24AI.

24AI Automated Desk

29 de mayo de 2026·Actualizado 1 de julio de 2026·8 min lectura

Gemini Omni muestra la nueva ambición de Google en video

Detrás de la noticia ⚡ (telemetría IA)Clic para abrir

Aquí puedes ver cómo seis agentes IA con nombre dentro del flujo de 24AI captaron, verificaron, escribieron, revisaron y visualizaron esta noticia. Los agentes son roles de sistema, no personas, periodistas ni editores responsables.

Sigrid ⚖️(Agente de publicación)

Consideró la noticia muy relevante para la audiencia y la pasó adelante en el flujo de 24AI.

Pregunta a Sigrid →

Eskil 🔍(Agente de research)

Realizó búsquedas en Google y verificó la información con 6 fuentes independientes.

Ver research con Eskil →

Ingrid ✍️(Agente de escritura)

Redactó el artículo en estilo tabloide claro, preparó el TL;DR y añadió citas estructurales.

Debatir el ángulo con Ingrid →

Torbjørn ⚖️(Agente de revisión)

Puntuación de calidad:74 / 100

“Artículo sólido: buenas fuentes, lenguaje claro y un ángulo convincente.”

Impugnar la revisión de Torbjørn →

Vidar 📷(Agente visual)

Generó la imagen principal y las ilustraciones del cuerpo.

Prompt: Hero image: Photorealistic multimodal video studio test stage with camera rigs, microphones, image reference boards turned blank, motion capture markers, and a small projection surface with no visible content. Clean cinematic lighting, teal, silver, and warm amber accents, no logos, no text.

Hablar de estética con Vidar →

Nora ⚡(Agente de distribución)

Preparó textos para compartir en Bluesky, X y Facebook listos para publicar.

Consejos de difusión de Nora →

TL;DR

Google publicó el 29 de mayo de 2026 nueve demostraciones de Gemini Omni y Gemini 3.5 Flash.
La tarjeta de modelo de DeepMind describe a Gemini Omni Flash como un modelo para texto, imagen, audio y video como entrada, y video de alta resolución con audio como salida.
Google Flow obtiene a Omni como un motor de edición y video más preciso, con iteración conversacional y mejor consistencia de caracteres.
Gemini 3.5 Flash se conecta al trabajo de agentes, codificación, AI Studio, Antigravity, Gemini Enterprise y AI Mode en Search.
Este es el intento más claro de Google de unificar video, flujo de agentes y la plataforma Gemini en una única dirección de producto.

❖ ESTADO DE CALIDAD

Publicado:	29 de mayo de 2026
Categoría:	Modelos
Fuentes:	6 referencias
Producción:	Generado por IA
Revisión automática:	Verificada
Revisión humana:	No, no estándar

El video se convierte en la próxima superficie de modelo de Google

Google ha presentado nueve demostraciones de Gemini Omni y Gemini 3.5 Flash. La parte más interesante es Omni: un modelo que Google describe como capaz de combinar imágenes, audio, video y texto como entrada y generar video como salida.

La tarjeta de modelo de DeepMind hace el asunto más concreto. Gemini Omni Flash se describe como un modelo basado en transformadores con soporte multimodal nativo para entradas de texto, visión, video y audio. La salida es video con audio. Esto traslada a Gemini de comprender medios a también producirlos y editarlos.

La IA de video pasa de la instrucción al diálogo: cambia la escena, mantén el hilo, ajusta los detalles.

Lo que muestran las demostraciones

Google muestra, entre otras cosas, la edición de video conversacional, donde el usuario puede cambiar el entorno, la acción, el ángulo de la cámara o los detalles a lo largo de varias interacciones. El objetivo no es solo crear un clip a partir de una instrucción, sino convertir el video en un objeto de trabajo sobre el que se pueda iterar.

La actualización de Flow proporciona aún más contexto. Google dice que Gemini Omni Flash se integrará en Google Flow y Google Flow Music, con un enfoque en la edición precisa de video, la experiencia del agente y los flujos de trabajo creativos. Omni también ayudará con la consistencia de los personajes, de modo que la identidad y la voz se conserven en todas las escenas.

Gemini Omni muestra la nueva ambición de Google en video - Bilde 1

Gemini 3.5 Flash es la otra mitad

El asunto no se trata solo de video. Google utiliza el mismo paquete de demostración para mostrar Gemini 3.5 Flash como un modelo para tareas de agente. La tarjeta de modelo de DeepMind describe a 3.5 Flash como un modelo de razonamiento multimodal con hasta 1M de tokens de entrada y 64K de tokens de salida.

Google dice que 3.5 Flash está generalmente disponible a través de Antigravity, la API de Gemini en AI Studio, Android Studio, Gemini Enterprise Agent Platform y Gemini Enterprise. También está conectado al AI Mode en Search y se está implementando en la aplicación Gemini.

contexto de entrada para 3.5 Flash

64K

salida

19 de mayo de 2026

tarjeta de modelo para Omni Flash y 3.5 Flash

Casos de uso y trampas en Noruega

Las empresas noruegas probarán rápidamente estas herramientas para campañas, videos de capacitación, demostraciones de productos, comunicación interna y formatos sociales. El beneficio puede ser grande: menos grabaciones costosas, iteración más rápida y un umbral más bajo para el contenido localizado.

Pero el video es más arriesgado que el texto. Parece terminado incluso cuando hay errores. Los derechos, la privacidad, el etiquetado, las personas sintéticas, los eventos manipulados y las regulaciones de la industria deben abordarse antes de que estas herramientas se conviertan en rutina.

La IA de video debe gestionarse como producción de medios, no como generación de texto con una salida sofisticada.

Conclusión

Las demostraciones de Gemini Omni muestran que Google no permitirá que la IA de video sea un mercado secundario. La compañía hará del video multimodal una parte de la plataforma Gemini, estrechamente conectada con el trabajo de agentes, Flow, la aplicación Gemini y las herramientas para desarrolladores.

Para los usuarios noruegos, esto es tanto emocionante como exigente. Es una oportunidad de producción real, pero solo si se establecen rutinas para el etiquetado, los derechos, el control de fuentes y la revisión humana al mismo tiempo.

ESTADO DE IA Y CALIDAD

Esta noticia es producida por 24AI con IA y pasa por control automático de calidad antes de publicarse. Las noticias estándar normalmente no se aprueban manualmente antes de su publicación. 24AI no es un medio periodístico dirigido por un editor. Los roles con nombre del desk son agentes IA, no personas, periodistas ni editores responsables. Las fuentes se muestran abajo y los errores pueden enviarse a post@aprex.no. Lee nuestro método →

Fuentes (6)