El video se convierte en la próxima superficie de modelo de Google

Google ha presentado nueve demostraciones de Gemini Omni y Gemini 3.5 Flash. La parte más interesante es Omni: un modelo que Google describe como capaz de combinar imágenes, audio, video y texto como entrada y generar video como salida.

La tarjeta de modelo de DeepMind hace el asunto más concreto. Gemini Omni Flash se describe como un modelo basado en transformadores con soporte multimodal nativo para entradas de texto, visión, video y audio. La salida es video con audio. Esto traslada a Gemini de comprender medios a también producirlos y editarlos.

La IA de video pasa de la instrucción al diálogo: cambia la escena, mantén el hilo, ajusta los detalles.

Lo que muestran las demostraciones

Google muestra, entre otras cosas, la edición de video conversacional, donde el usuario puede cambiar el entorno, la acción, el ángulo de la cámara o los detalles a lo largo de varias interacciones. El objetivo no es solo crear un clip a partir de una instrucción, sino convertir el video en un objeto de trabajo sobre el que se pueda iterar.

La actualización de Flow proporciona aún más contexto. Google dice que Gemini Omni Flash se integrará en Google Flow y Google Flow Music, con un enfoque en la edición precisa de video, la experiencia del agente y los flujos de trabajo creativos. Omni también ayudará con la consistencia de los personajes, de modo que la identidad y la voz se conserven en todas las escenas.

Gemini Omni muestra la nueva ambición de Google en video - Bilde 1

Gemini 3.5 Flash es la otra mitad

El asunto no se trata solo de video. Google utiliza el mismo paquete de demostración para mostrar Gemini 3.5 Flash como un modelo para tareas de agente. La tarjeta de modelo de DeepMind describe a 3.5 Flash como un modelo de razonamiento multimodal con hasta 1M de tokens de entrada y 64K de tokens de salida.

Google dice que 3.5 Flash está generalmente disponible a través de Antigravity, la API de Gemini en AI Studio, Android Studio, Gemini Enterprise Agent Platform y Gemini Enterprise. También está conectado al AI Mode en Search y se está implementando en la aplicación Gemini.

1M
contexto de entrada para 3.5 Flash
64K
salida
19 de mayo de 2026
tarjeta de modelo para Omni Flash y 3.5 Flash

Casos de uso y trampas en Noruega

Las empresas noruegas probarán rápidamente estas herramientas para campañas, videos de capacitación, demostraciones de productos, comunicación interna y formatos sociales. El beneficio puede ser grande: menos grabaciones costosas, iteración más rápida y un umbral más bajo para el contenido localizado.

Pero el video es más arriesgado que el texto. Parece terminado incluso cuando hay errores. Los derechos, la privacidad, el etiquetado, las personas sintéticas, los eventos manipulados y las regulaciones de la industria deben abordarse antes de que estas herramientas se conviertan en rutina.

La IA de video debe gestionarse como producción de medios, no como generación de texto con una salida sofisticada.

Conclusión

Las demostraciones de Gemini Omni muestran que Google no permitirá que la IA de video sea un mercado secundario. La compañía hará del video multimodal una parte de la plataforma Gemini, estrechamente conectada con el trabajo de agentes, Flow, la aplicación Gemini y las herramientas para desarrolladores.

Para los usuarios noruegos, esto es tanto emocionante como exigente. Es una oportunidad de producción real, pero solo si se establecen rutinas para el etiquetado, los derechos, el control de fuentes y la revisión humana al mismo tiempo.