OpenAI, la empresa líder en inteligencia artificial, ha presentado un modelo de clonación de voz que solo requiere una muestra de audio de 15 segundos para funcionar. Esta nueva tecnología, llamada Voice Engine, promete abrir nuevas posibilidades en una variedad de industrias, desde la educación hasta la salud.
Según OpenAI, Voice Engine puede crear una voz sintética basada en un breve clip de audio de una persona. Esta voz generada por IA es capaz de leer indicaciones de texto en el mismo idioma que el hablante original o en varios otros idiomas. La empresa ha destacado que estas implementaciones a pequeña escala están ayudando a informar su enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría utilizarse de manera ética y beneficiosa en diversas industrias.
Hasta ahora, algunas empresas han tenido acceso limitado a Voice Engine, incluidas Age of Learning, HeyGen, Dimagi, Livox y Lifespan. Por ejemplo, Age of Learning ha estado utilizando la tecnología para generar contenido de voz en off preescrito y para proporcionar «respuestas personalizadas en tiempo real» a los estudiantes, escritas por GPT-4.
Voice Engine ha sido desarrollado por OpenAI desde finales de 2022 y ya ha impulsado voces preestablecidas para la API de conversión de texto a voz y la función Leer en voz alta de ChatGPT. Según Jeff Harris, miembro del equipo de producto de OpenAI para Voice Engine, el modelo fue entrenado en una combinación de datos con licencia y disponibles públicamente.
Sin embargo, OpenAI ha sido cauteloso con la distribución de esta tecnología. Actualmente, solo está disponible para unos 10 desarrolladores, y la empresa ha establecido políticas estrictas de uso para garantizar su aplicación ética. Estas políticas incluyen el requerimiento de consentimiento explícito e informado del hablante original, la prohibición de hacerse pasar por personas u organizaciones sin consentimiento y la adición de marcas de agua a los clips de audio para rastrear su origen.
Aunque la generación de texto a audio con IA es un área que continúa evolucionando, con algunos ejemplos notables como Podcastle y ElevenLabs, aún hay preocupaciones sobre su uso ético. El gobierno de EE. UU., por ejemplo, ha prohibido las llamadas automáticas utilizando voces de IA después de que personas recibieran llamadas no deseadas con la voz del presidente Joe Biden clonada por IA.
OpenAI sugiere varios pasos para limitar los riesgos asociados con herramientas como Voice Engine, incluida la implementación gradual de políticas para proteger el uso de las voces de las personas en la IA y el desarrollo de sistemas de seguimiento de contenido de IA.