Компания Hume AI открыла публичный доступ к TADA - системе преобразования текста в речь, которая работает по принципу двойного выравнивания текста и акустики. Код и модели уже можно скачать и использовать под открытой лицензией.
Главная фишка - скорость. TADA генерирует речь в реальном времени более чем в пять раз быстрее аналогичных систем на базе больших языковых моделей. При этом точность высокая, а ошибки в содержании практически отсутствуют.

Технология использует прямое соответствие между текстовыми и аудио-токенами в пропорции один к одному. Благодаря этому система спокойно справляется с длинными фрагментами - контекстное окно поддерживает до 700 секунд аудио. Для сравнения: большинство существующих решений буксуют на длинных текстах из-за ограничений памяти и начинают "галлюцинировать" - пропускать или выдумывать фрагменты речи.

Hume AI специализируется на исследовательской инфраструктуре для голосового ИИ и работает с AI-лабораториями и технологическими компаниями. Релиз TADA под открытой лицензией - попытка подтолкнуть развитие всей отрасли через коллективную работу.

Система поставляется в английской и мультиязычной версиях. Особенно интересна возможность запуска на локальных устройствах - это снижает задержки и решает вопросы приватности, что критично для регулируемых индустрий.
Первые технические тесты показывают высокие оценки по естественности звучания и сходству с голосом диктора. Разработчики и AI-эксперты отмечают, что такая архитектура может серьезно изменить подход к синтезу речи, особенно там, где важны ограниченные ресурсы и строгие требования к безопасности данных.
Смотрите также
-
Alibaba исправляет ошибки ИИ в многоступенчатом анализе изображений
-
OpenAI закрывает Sora из-за огромных убытков
-
AgentBench: решение для оценки агентных ИИ-систем
-
Mistral выпустил Voxtral — ИИ для клонирования голоса
-
Виды механизмов внимания в современных LLM
-
Разработчики Arc Raiders заменили ИИ-озвучку на голоса живых актеров
-
Голоса знаменитостей в ИИ: Майкл Кейн и другие лицензируют свои голоса
-
Nvidia готовит NemoClaw - платформу для корпоративных AI-агентов
-
OpenAI отложила запуск «режима для взрослых» в ChatGPT