Google tiene una nueva IA que puede generar bandas sonoras para videos

Google tiene una nueva IA que puede generar bandas sonoras para videos

DeepMind es el laboratorio de Inteligencia Artificial (IA) de Google que se encarga del desarrollo de todos los proyectos futuros que tiene la compañía. En este caso, los científicos están trabajando en una nueva tecnología que puede generar bandas sonoras, incluso diálogos, para acompañar a los videos. 

A través de una publicación de blog, el equipo de DeepMind presentó el proyecto ‘V2A’. Se trata de un sistema puede comprender pixeles sin procesar y combinar esa información con indicaciones de texto para crear efectos de sonido para lo que sucede en la pantalla. 

Google tiene una nueva IA que puede generar bandas sonoras para videos - google-imagenes-1280x853

De acuerdo con los investigadores de DeepMind, entrenaron la ‘V2A’ con videos, audios y anotaciones generadas por IA que contienen descripciones detalladas de sonidos y transcripciones de diálogos.

Los científicos explicaron que al hacerlo, la inteligencia artificial aprendió a asociar sonidos específicos con escenas visuales. 

El laboratorio compartió su progreso en el proyecto de tecnología de video a audio (V2A), que se puede combinar con Google Veo y otras herramientas de creación de video como Sora de OpenAI. 

¿Qué puede hacer la IA ‘V2A’ de Google? 

Según el blog del proyecto, la herramienta también se puede utilizar para hacer bandas sonoras para imágenes tradicionales, como películas mudas y cualquier otro video sin sonido.

Además, puedes introducir indicaciones positivas para dirigir la salida hacia la creación de los sonidos que desees o indicaciones negativas para alejarla de los sonidos que no desea. Por ejemplo, el equipo utilizó el mensaje: ‘Cinemática, thriller, película de terror, música, tensión, ambiente, pisadas sobre hormigón’.

Pruebas y seguridad 

Los investigadores señalan que todavía están tratando de abordar las limitaciones existentes de su tecnología V2A, como la caída en la calidad de audio de la salida que puede ocurrir si hay distorsiones en el video de origen. También siguen trabajando para mejorar las sincronizaciones de labios para generar diálogos. 

En este sentido, el equipo de DeepMind se compromete a someter la tecnología a ‘rigurosas evaluaciones y pruebas de seguridad’ antes de lanzarla al mundo.