Hume AI выпустила TADA - сверхбыструю систему синтеза речи с открытым кодом

  ·   чтения   ·     ·  
Новая TTS-система генерирует речь в 5 раз быстрее конкурентов и поддерживает до 700 секунд аудио. Доступна бесплатно с открытым исходным кодом.
Hume AI выпустила TADA - сверхбыструю систему синтеза речи с открытым кодом

Компания Hume AI открыла публичный доступ к TADA - системе преобразования текста в речь, которая работает по принципу двойного выравнивания текста и акустики. Код и модели уже можно скачать и использовать под открытой лицензией.

Главная фишка - скорость. TADA генерирует речь в реальном времени более чем в пять раз быстрее аналогичных систем на базе больших языковых моделей. При этом точность высокая, а ошибки в содержании практически отсутствуют.

Сравнение естественности синтеза речи TADA-3B с другими моделями TTS по шкале MOS.
Сравнение естественности синтеза речи TADA-3B с другими моделями TTS по шкале MOS.

Технология использует прямое соответствие между текстовыми и аудио-токенами в пропорции один к одному. Благодаря этому система спокойно справляется с длинными фрагментами - контекстное окно поддерживает до 700 секунд аудио. Для сравнения: большинство существующих решений буксуют на длинных текстах из-за ограничений памяти и начинают "галлюцинировать" - пропускать или выдумывать фрагменты речи.

График сравнения частоты галлюцинаций TADA с другими моделями синтеза речи.
График сравнения частоты галлюцинаций TADA с другими моделями синтеза речи.

Hume AI специализируется на исследовательской инфраструктуре для голосового ИИ и работает с AI-лабораториями и технологическими компаниями. Релиз TADA под открытой лицензией - попытка подтолкнуть развитие всей отрасли через коллективную работу.

Гистограмма, сравнивающая Real-Time Factor различных моделей синтеза речи, включая TADA.
Гистограмма, сравнивающая Real-Time Factor различных моделей синтеза речи, включая TADA.

Система поставляется в английской и мультиязычной версиях. Особенно интересна возможность запуска на локальных устройствах - это снижает задержки и решает вопросы приватности, что критично для регулируемых индустрий.

Первые технические тесты показывают высокие оценки по естественности звучания и сходству с голосом диктора. Разработчики и AI-эксперты отмечают, что такая архитектура может серьезно изменить подход к синтезу речи, особенно там, где важны ограниченные ресурсы и строгие требования к безопасности данных.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K