После ChatGPT и DALL-E, встречайте VALL-E — искусственный интеллект, который может имитировать голос любого человека

11.01.2023,

# text-to-sound

После ChatGPT и DALL-E, встречайте VALL-E — искусственный интеллект, который может имитировать голос любого человека

В прошлом году появились инструменты искусственного интеллекта (ИИ), которые могут создавать изображения, произведения искусства и даже видео по текстовому запросу.

Также были сделаны значительные шаги вперед в развитии искусственного интеллекта в области письма: ChatGPT от OpenAI вызвал всеобщее волнение — и страх — по поводу будущего письма.

Сейчас, когда до 2023 года осталось всего несколько дней, на первый план выходит еще один мощный вариант использования ИИ — инструмент преобразования текста в голос, который может безупречно имитировать голос человека.

Разработанный компанией Microsoft, VALL-E может взять трехсекундную запись чьего-либо голоса и воспроизвести его, превращая написанные слова в речь, с реалистичной интонацией и эмоциями в зависимости от контекста текста.

Обученный на 60 000 часах записей английской речи, он может произнести речь в «нулевой ситуации», то есть без каких-либо предварительных примеров или тренировок в определенном контексте или ситуации.

Представляя VALL-E в статье, опубликованной Корнельским университетом, разработчики объяснили, что данные записи состояли из более чем 7 000 уникальных дикторов.

По словам команды, их система преобразования текста в речь (TTS) использовала в сотни раз больше данных, чем существующие системы TTS, что помогло им преодолеть проблему «нулевого выстрела».

VALL-E: ссылка

В настоящее время этот инструмент недоступен для публичного использования — но он вызывает вопросы о безопасности, поскольку его можно использовать для генерации любого текста, исходящего из голоса любого человека.

Ссылка на Github: https://valle-demo.github.io/