Google Lanza Veo 3.1: Su IA de Video más Realista

Veo 3.1 de Google DeepMind introduce realismo mejorado, audio nativo y un control narrativo sin precedentes con herramientas avanzadas como 'Ingredients to Video' y 'Frames to Video' en la plataforma Flow y la Gemini API.

Google ha anunciado actualizaciones significativas para Veo, introduciendo el nuevo modelo Veo 3.1 y capacidades avanzadas dentro de su herramienta de edición, Flow. Estos lanzamientos, anunciados el 15 de octubre de 2025, están diseñados para ofrecer a los usuarios un control creativo sin precedentes y una calidad audiovisual superior. Veo 3.1, desarrollado por Google DeepMind, ya está disponible en su plataforma Flow, en la aplicación Gemini, en la API de Gemini para desarrolladores y en Vertex AI para clientes empresariales.

Cinco meses después de la introducción de Flow, la herramienta de cine con IA impulsada por Veo, Google ha notado la gran creatividad que ha generado, con más de 275 millones de videos generados en Flow (incluyendo generaciones de Veo 2 y Veo 3). Basándose en la retroalimentación de los usuarios que solicitaban mayor control artístico y un soporte mejorado para el audio en todas las funciones, Google responde con Veo 3.1, que promete ser un modelo de generación de video de referencia y un modelo state-of-the-art.

Características y Mejoras Clave de Veo 3.1

Veo 3.1 se presenta como una evolución poderosa de Veo 3, centrándose en la fidelidad, el control narrativo y la calidad audiovisual. Este modelo ofrece varias mejoras significativas que empoderan a los desarrolladores y creadores para generar contenido más atractivo.

Realismo y Adherencia al Prompt

Una de las mejoras fundamentales de Veo 3.1 es su realismo mejorado, que logra capturar texturas más fieles a la vida real. Además, exhibe una adhesión más fuerte a las indicaciones del usuario (prompts). Cuando se utiliza la capacidad de Imagen a Video (Image-to-Video), Veo 3.1 asegura una calidad audiovisual superior y, crucialmente, mantiene la consistencia del personaje a lo largo de múltiples escenas. De hecho, los resultados en la generación a partir de imágenes son muy sólidos, utilizando la primera imagen proporcionada como el fotograma inicial de manera coherente.

Audio Nativo Enriquecido

Veo 3.1 marca un hito al generar un audio nativo más rico, que abarca desde conversaciones naturales hasta efectos de sonido sincronizados y ruido ambiental. Por primera vez, el audio se integra a las capacidades existentes de Flow, como “Ingredients to Video”, “Frames to Video” y “Extend”. La capacidad de generar vídeos con sonido y diálogos a partir de imágenes de personas fotorrealistas es una ventaja significativa que Veo 3.1 tiene sobre otros modelos actuales.

Control Narrativo y Estilos Cinematográficos

El modelo ahora ofrece un mayor control narrativo, manifestado en una mejor comprensión de los estilos cinematográficos. Esto permite a los usuarios refinar la historia que desean contar con una precisión que va más allá de la mera generación de clips. El modelo está diseñado para producir resultados cinemáticos con física de mundo real y detalles asombrosos.

Modos de Uso Avanzados y Herramientas Creativas en Flow

Las capacidades mejoradas en Flow proporcionan un control más granular sobre la escena final. Estas características, que han sido descritas como alucinantes y que buscan dar un control mayor al usuario, hacen que Veo 3.1 sea una herramienta extremadamente útil en el proceso creativo.

Ingredients to Video (Ingredientes a Video)
Esta función permite a los usuarios guiar la generación del video proporcionando múltiples imágenes de referencia (hasta 3) de un personaje, un objeto o un estilo específico. Flow utiliza estos "ingredientes" para crear una escena final que se parezca exactamente a lo que el usuario imaginó. Esta capacidad es especialmente útil para mantener la consistencia del personaje en tomas múltiples.
Frames to Video (Primer y Último Fotograma)
Para un control narrativo máximo y la creación de transiciones épicas, los usuarios pueden suministrar una imagen de inicio y una imagen de finalización. Veo 3.1 genera un video fluido y natural que sirve de puente entre las dos imágenes, completando la transición con el audio acompañante. Esta es una de las capacidades que lo convierte en pionero, siendo el primer modelo de su categoría que genera audio incorporado y admite la generación a partir del primer y último fotograma.
Scene Extension (Extensión de Escena)
Ya no hay límites para la duración de la historia. Con "Extend," se pueden crear videos más largos, incluso de un minuto o más, que se conectan y continúan la acción del clip original. La clave de su coherencia superior es que cada nuevo video se genera basándose en el último segundo del clip anterior (no solo en el último fotograma), lo que garantiza una mayor coherencia en el movimiento y la continuidad visual y sonora. Esta función es ideal para crear tomas de establecimiento (establishing shots) más extensas.

Edición de Precisión Directamente en Flow

Veo 3.1 también introduce nuevas capacidades de edición directamente en Flow, esenciales para esos momentos en los que "la primera toma no es la final".

Insert (Añadir Elementos)
Con la función “Insertar”, los creadores pueden introducir cualquier elemento imaginable en una escena, desde detalles realistas hasta criaturas fantásticas. Flow maneja detalles complejos como las sombras, la escala y la iluminación de la escena para que la adición parezca completamente natural y fluida. Por ejemplo, es posible pedirle que añada un avión volando al fondo de un clip generado previamente.
Remove (Eliminar Objetos)
Próximamente, los usuarios podrán eliminar cualquier objeto o personaje no deseado de una escena de manera fluida. Flow reconstruirá el fondo y el entorno, haciendo que parezca que el objeto nunca estuvo allí. Es importante notar que, si bien la capacidad de ‘Insertar’ ya está operativa en Flow, las funciones de ‘Añadir objeto’ y ‘Eliminar objeto’ no están disponibles en la API de Gemini por el momento.

Disponibilidad y Rendimiento

Veo 3.1, junto con su versión optimizada Veo 3.1 Fast, está disponible en vista previa pagada a través de la Gemini API. También se encuentra en la plataforma Flow, donde los usuarios reciben 100 créditos mensuales gratuitos para probar Veo 3.1 Quality o hasta cinco videos si optan por el modelo Fast, que consume solo 20 créditos por generación.

A pesar de la alta calidad que ofrece, Google parece haber optimizado los costos de uso. Veo 3.1 mantiene el mismo precio que su predecesor, Veo 3. Notablemente, el modelo Fast ha optimizado su consumo de créditos; por ejemplo, Veo 3.1 Fast consume 20 créditos, mientras que su predecesor, Veo 3 Fast, partía de 1280 créditos, lo que sugiere una mayor eficiencia económica para los modelos más pequeños.

Las nuevas capacidades de control (‘Ingredients to video’, ‘First and last frame’ y ‘Scene extension’) están siendo integradas a la API de Gemini, mientras que la 'Scene extension' llegará pronto a la API de Vertex AI.

Estudios como Promise Studios ya están utilizando Veo 3.1 dentro de su plataforma MUSE para mejorar el storyboarding generativo y la previsualización con calidad de producción. Asimismo, Latitude está experimentando con Veo 3.1 en su motor narrativo generativo para dar vida instantánea a las historias creadas por los usuarios. Con capacidades de edición más precisas, audio en todas las funciones y salidas de alta calidad impulsadas por Veo 3.1, Google está abriendo nuevas posibilidades para una narración de video más rica y poderosa.

Google Lanza Veo 3.1: Su IA de Video más Realista

Características y Mejoras Clave de Veo 3.1

Realismo y Adherencia al Prompt

Audio Nativo Enriquecido

Control Narrativo y Estilos Cinematográficos

Modos de Uso Avanzados y Herramientas Creativas en Flow

Ingredients to Video (Ingredientes a Video)

Frames to Video (Primer y Último Fotograma)

Scene Extension (Extensión de Escena)

Edición de Precisión Directamente en Flow

Insert (Añadir Elementos)

Remove (Eliminar Objetos)

Disponibilidad y Rendimiento

Tags: