Voice Engine: así es la IA de OpenAI capaz de clonar voces a partir de audios de 15 segundos

Voice Engine: así es la IA de OpenAI capaz de clonar voces a partir de audios de 15 segundos

Voice Engine es una Inteligencia Artificial (IA) desarrollada por OpenAI que es capaz de clonar voces humanas utilizando solo una muestra de audio de 15 segundos. Además, puede leer instrucciones de texto en voz alta en varios idiomas, produciendo un habla natural que se asemeja mucho al hablante original.

Según OpenAI, Voice Engine utiliza tanto texto como la muestra de audio proporcionada para generar una voz sintética que se asemeja de manera notable a la del hablante original. Además, el texto puede ser en cualquier idioma, lo que amplía aún más las posibilidades de uso de esta tecnología.

La tecnología tiene un gran campo de usos posibles, aunque la compañía la está probando a una escala bastante reducida, al menos de momento. 

Voice Engine: así es la IA de OpenAI capaz de clonar voces a partir de audios de 15 segundos - voice-engine-openai-2-1280x852
INDIA, NEW DELHI. JANUARY 30, 2023: Open AI Empowers the Modern World through the Grasp of a Single Man’s Hand

¿Para qué sirve Voice Engine?

OpenAI cita situaciones en las que Voice Engine puede suponer un enorme salto. En este sentido, este avance tecnológico tiene varias aplicaciones:

  1. Asistencia de Lectura: Voice Engine permite que personas no lectores y niños accedan al contenido a través de voces emotivas que representan una gama más amplia de hablantes que las voces predefinidas. Por ejemplo, Age of Learning, una empresa de tecnología educativa, utiliza Voice Engine para generar contenido de voz en off predefinido y crear respuestas personalizadas en tiempo real para interactuar con los estudiantes.
  2. Traducción: los creadores y las empresas pueden utilizar Voice Engine para traducir videos y podcasts de manera fluida a varios idiomas, llegando así a una audiencia global HeyGen, una plataforma de narración visual basada en IA, aprovecha Voice Engine para la traducción de videos, permitiendo que las voces de los hablantes se traducen a diferentes idiomas.