В прошлом году появились инструменты искусственного интеллекта (ИИ), которые могут создавать изображения, произведения искусства и даже видео по текстовому запросу.
Также были сделаны значительные шаги вперед в развитии искусственного интеллекта в области письма: ChatGPT от OpenAI вызвал всеобщее волнение — и страх — по поводу будущего письма.
Сейчас, когда до 2023 года осталось всего несколько дней, на первый план выходит еще один мощный вариант использования ИИ — инструмент преобразования текста в голос, который может безупречно имитировать голос человека.
Разработанный компанией Microsoft, VALL-E может взять трехсекундную запись чьего-либо голоса и воспроизвести его, превращая написанные слова в речь, с реалистичной интонацией и эмоциями в зависимости от контекста текста.
Обученный на 60 000 часах записей английской речи, он может произнести речь в «нулевой ситуации», то есть без каких-либо предварительных примеров или тренировок в определенном контексте или ситуации.
Представляя VALL-E в статье, опубликованной Корнельским университетом, разработчики объяснили, что данные записи состояли из более чем 7 000 уникальных дикторов.
По словам команды, их система преобразования текста в речь (TTS) использовала в сотни раз больше данных, чем существующие системы TTS, что помогло им преодолеть проблему «нулевого выстрела».
В настоящее время этот инструмент недоступен для публичного использования — но он вызывает вопросы о безопасности, поскольку его можно использовать для генерации любого текста, исходящего из голоса любого человека.
Ссылка на Github: https://valle-demo.github.io/