Google presenta una nueva herramienta de IA para sincronizar bandas sonoras y diálogos en vídeos.

Alba Pelegrin

24 jun 2024

Google DeepMind ha lanzado recientemente una innovadora tecnología de inteligencia artificial llamada Video-to-Audio (V2A), que representa un avance significativo en la creación de contenido potenciado por IA. Esta herramienta vanguardista puede generar y sincronizar automáticamente bandas sonoras, efectos de sonido e incluso diálogos con los videos, analizando los píxeles de video y utilizando indicaciones de texto opcionales para ajustar el resultado.

Cómo Funciona V2A.

La tecnología V2A utiliza un modelo de difusión para refinar el ruido aleatorio en audio de alta fidelidad, aprovechando tanto entradas visuales como textuales. Esta herramienta puede generar efectos de sonido, música de fondo y diálogos sincronizados con el contenido visual del video, reduciendo el esfuerzo manual requerido en la edición de audio tradicional.

Aplicaciones y versatilidad.

V2A es versátil y adecuado para mejorar imágenes de archivo, películas mudas y videos educativos, entre otros usos. Los usuarios pueden proporcionar indicaciones positivas o negativas para refinar la salida de audio, ofreciendo un mayor control creativo sobre el producto final. Por ejemplo, en una demostración, se utilizó la indicación "autos derrapando, motor de auto acelerando, música electrónica angelical" para generar audio que se sincronizaba perfectamente con una escena de un auto conduciendo por una ciudad de estilo cyberpunk.

Desafíos y mejoras en proceso.

A pesar de sus capacidades impresionantes, V2A enfrenta algunos desafíos. La calidad del audio generado depende en gran medida de la calidad del video de entrada, y la herramienta tiene dificultades con la sincronización de labios para el diálogo. Además, DeepMind está trabajando para mejorar la capacidad de sincronizar movimientos de labios con el diálogo y mantener la calidad del audio al tratar con videos granulados o distorsionados.

Futuro y seguridad.

Antes de su lanzamiento al público, la tecnología V2A se someterá a rigurosas evaluaciones de seguridad y pruebas para garantizar su fiabilidad y prevenir su uso indebido. Cada audio generado incluirá una marca de agua de SynthID de Google para identificarlo como producto de herramientas de IA. Además, DeepMind está recopilando perspectivas y opiniones de creadores y cineastas líderes para asegurar que la tecnología tenga un impacto positivo en la comunidad creativa.

Conclusión.

La tecnología V2A de DeepMind representa un paso adelante significativo en la integración de audio y video generados por IA, ofreciendo soluciones innovadoras para los creadores de contenido. Aunque promete mucho, V2A aún enfrenta desafíos, particularmente en la sincronización de labios y la calidad del audio con videos de menor calidad. A medida que se sigan realizando investigaciones y mejoras, esta herramienta tiene el potencial de transformar la forma en que se crea contenido audiovisual.