Voice Engine AI: Conoce a la IA de OpenAI que clona tu voz
| | |

Voice Engine AI: Conoce a la IA de OpenAI que clona tu voz

Voice Engine AI: Conoce a la IA de OpenAI que clona tu voz

OpenAI es una de las empresas más avanzadas en el campo de la inteligencia artificial. Además de Chat GPT y la tecnología emergente Sora, también cuenta con Voice Engine AI, una inteligencia artificial que permite clonar tu voz simplemente escuchándote a ti mismo, en tan solo 15 segundos. ¡Sigue leyendo para saber más!

¿Qué es Voice Engine AI?

Como explica OpenAI en su publicación de blog que presenta Voice Engine AI, el desarrollo del software comenzó a fines de 2022 y desde entonces se ha utilizado para mejorar las voces preinstaladas en la API Text-to-Speech, así como en los productos Chat GPT Voice y Read Aloud. 

Sobre el delicado tema de la capacitación, el desarrollador de OpenAI, Jeff Harris, solo le dijo a Techcrunch que utilizan una combinación de datos con licencia y disponibles públicamente. Para utilizar la herramienta de voz, todo lo que necesita es una entrada de texto que describa lo que desea (la información sobre herramientas) y una muestra de audio de 15 segundos para crear un clip de audio doblado que suene natural y se acerque al original. 

Aunque la muestra principal es pequeña, OpenAI afirma que puede producir voces emocionales y realistas. En una publicación de blog, puedes encontrar varios clips con enlaces y sonidos generados que cambian el tema, el idioma e incluso el objetivo (pasando de una simple afirmación a una pregunta). 

¿Cómo funciona Engine AI?

¿Cómo funciona Engine AI?

Si examina la escucha del audio original y el audio generado, puede notar algunas diferencias, pero son lo suficientemente similares como para ser considerados auténticos. Esto es sólo una vista previa por ahora, pero la tecnología es muy prometedora. El motor de voz utiliza su entrada de texto y una muestra de audio de 15 segundos para crear una voz con un sonido natural que se parece mucho al discurso original. 

Lo importante es esta única muestra de 15 segundos, que según OpenAI puede crear un discurso emocional y realista. OpenAI desarrolló el motor de voz a finales de 2022 y se utiliza para admitir voces preinstaladas en la API de texto a voz, así como Chat GPT y voces de lectura en voz alta, pero los datos prometedores acaban de salir a la luz.

La tecnología tiene muchas aplicaciones, aunque la empresa la está probando a una escala relativamente pequeña, al menos por ahora. OpenAI cita situaciones en las que las herramientas de voz podrían suponer un gran paso adelante. Por ejemplo, la empresa utiliza el ejemplo de la traducción de contenidos como vídeos y podcasts, lo que permite a los creadores y a las empresas llegar a más personas en todo el mundo de forma gratuita y con su propia voz. 

Los errores de Chat GPT son comunes. Según OpenAI, el motor de voz utilizado para la traducción preservará el acento nativo del hablante original: por ejemplo, generar inglés a partir de una muestra de audio de un hablante francés producirá un habla con acento francés.

El acceso a Voice Engine AI es estrictamente limitado

Tiene sentido que, si bien Voice Engine AI ha demostrado funcionar bastante bien, hay una razón por la que la empresa actualmente sólo lo está probando a una escala muy pequeña. OpenAI reconoce que crear voces humanas realistas conlleva riesgos importantes. Especialmente en un año electoral como este en el que se están sumergiendo en Estados Unidos. 

Una ventana al futuro

Hoy, el pequeño grupo de prueba (y uso comercial) Voice Engine ha tomado una serie de medidas para evitar los problemas asociados con esta tecnología. OpenAI prohíbe la suplantación de cualquier persona o entidad sin consentimiento o autorización legal. También requieren el consentimiento explícito e informado del hablante original para su uso y no permiten a los desarrolladores crear herramientas para crear voces de usuarios individuales.

Los peligros de Engine Voice AI

Los peligros de Engine Voice AI

A pesar del potencial de utilizar Voice Engine para el bien, es inevitable pensar en su potencial para el mal, ya que es la herramienta perfecta para difundir información errónea imitando la voz de políticos, celebridades, periodistas.Hay muchos archivos de audio. disponible para ejemplos. 

Asimismo, con su experiencia es capaz de burlar diversos sistemas de autenticación de voz utilizados con fines de seguridad, que podrían comprometer información sensible. OpenAI explica que es cauteloso respecto de una mayor disponibilidad debido al potencial de abuso del discurso sintético. 

Según la empresa, «Esperamos iniciar un diálogo sobre el uso responsable del habla sintética y cómo la sociedad puede adaptarse a estas nuevas capacidades». En particular, OpenAI está probando un sistema de marcas de agua que ayuda a distinguir registros reales de registros sintéticos. Después de estas discusiones y algunas pruebas, decidirán si implementar esta tecnología a gran escala y cómo hacerlo. Pero por ahora, al igual que con Sora, esto es sólo una demostración de su capacidad para hacer lo que puede hacer. 

¿Qué implicará el lanzamiento del motor de voz OpenAI? 

Después de duplicar la voz, los usuarios ingresan texto en el motor de voz y reciben resultados generados por inteligencia artificial. Sin embargo, OpenAI aún no está listo para un despliegue generalizado de su tecnología. Inicialmente, la compañía planeó lanzar un programa piloto a principios de este mes. Esto permitiría a los desarrolladores registrarse para interfaces de programación de aplicaciones (API). 

Sin embargo, después de analizar más de cerca las implicaciones éticas, la empresa decidió posponer su intención. «De acuerdo con nuestro enfoque en materia de seguridad de la IA y nuestros compromisos voluntarios, hemos decidido probar esta tecnología, pero no la distribuiremos en este momento», escribió la empresa. 

La tecnología de clonación de voz no es nada nueva: a partir de 2022, hemos cubierto varios modelos de síntesis de voz con IA y se utiliza activamente en la comunidad de código abierto en paquetes como OpenVoice y XTTSv2. Pero la idea de que OpenAI dé un paso adelante y permita que todos utilicen su tecnología de voz característica es extraordinaria. En cierto modo, la renuencia de la empresa a revelar toda la historia puede ser la historia más grande.

OpenAI dice que los beneficios de la tecnología de voz se incluyen soporte para leer con voz natural, llegar a creadores globales traduciendo contenido. La app mantiene los acentos nativos y ayudar a aquellos con impedimentos del habla usando opciones de voz personalizadas. Esto puede ayudar a los pacientes a recuperar su propia voz después de un trastorno del habla. 

Sin embargo, esto también significa que cualquiera que tenga una voz grabada de 15 segundos puede copiarla, lo que obviamente supone un riesgo de abuso. Si bien OpenAI nunca hará que su motor de voz esté ampliamente disponible, la capacidad de clonación ha causado muchos problemas en la sociedad. Esto de debe al phishing telefónico, en el que alguien imita la voz de un ser querido y llama automáticamente a las campañas electorales con las voces humanas de políticos como Joe Biden.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *