El año pasado, surgieron herramientas de inteligencia artificial (IA) que pueden crear imágenes, obras de arte e incluso videos a partir de una solicitud de texto.
También ha habido avances significativos en la inteligencia artificial en la escritura, y ChatGPT de OpenAI generó entusiasmo (y miedo) generalizados sobre el futuro de la escritura.
Ahora que faltan solo unos días para 2023, otro poderoso caso de uso de la IA está pasando a primer plano: una herramienta de conversión de texto a voz que puede imitar perfectamente una voz humana.
Desarrollado por Microsoft, VALL-E puede tomar una grabación de tres segundos de la voz de alguien y reproducirla, convirtiendo las palabras escritas en habla, con entonación y emoción realistas según el contexto del texto.
Formado con 60.000 horas de grabaciones de habla inglesa, puede pronunciar un discurso en una "situación nula", es decir, sin ejemplos ni formación previa en un contexto o situación específica.
Al presentar VALL-E en un artículo publicado por la Universidad de Cornell, los desarrolladores explicaron que los datos de grabación consistían en más de 7.000 hablantes únicos.
Según el equipo, su sistema de texto a voz (TTS) utilizó cientos de veces más datos que los sistemas TTS existentes, lo que les ayudó a superar el problema del "disparo cero".
Actualmente, la herramienta no está disponible para uso público, pero plantea cuestiones de seguridad porque puede usarse para generar cualquier texto proveniente de la voz de cualquier persona.
Enlace de Github: https://valle-demo.github.io/