Французский стартап Mistral, известный своими языковыми моделями, представил свой первый продукт в области синтеза речи - Voxtral TTS. Это относительно компактная модель с 4 миллиардами параметров, которая поддерживает сразу девять языков, включая английский, французский, немецкий и испанский.
Главная особенность Voxtral - способность клонировать голос по минимальному образцу. Системе достаточно всего 3 секунды аудио, чтобы воспроизвести характерные особенности голоса и создать естественно звучащую речь с эмоциональными интонациями.
Технические характеристики и доступность
Модель отличается низкой задержкой - около 70 миллисекунд при типичном сценарии использования (10-секундный образец речи и 500 символов текста). В тестах на естественность звучания Voxtral превзошла ElevenLabs Flash v2.5 при сопоставимом времени отклика, хотя стоит отметить, что ElevenLabs уже выпустила более новую версию v3.
Voxtral TTS доступна через API по цене $0,016 за 1000 символов. Опробовать технологию можно в Mistral Studio, а для энтузиастов и исследователей компания выложила открытую версию модели на платформе Hugging Face.
Появление Voxtral - еще один шаг в стремительном развитии технологий синтеза речи, которые становятся все более доступными и качественными, открывая новые возможности для создания контента, локализации и разработки интерфейсов.
Смотрите также
-
Alibaba исправляет ошибки ИИ в многоступенчатом анализе изображений
-
OpenAI закрывает Sora из-за огромных убытков
-
AgentBench: решение для оценки агентных ИИ-систем
-
Виды механизмов внимания в современных LLM
-
Разработчики Arc Raiders заменили ИИ-озвучку на голоса живых актеров
-
Голоса знаменитостей в ИИ: Майкл Кейн и другие лицензируют свои голоса
-
Hume AI выпустила TADA - сверхбыструю систему синтеза речи с открытым кодом
-
Nvidia готовит NemoClaw - платформу для корпоративных AI-агентов
-
OpenAI отложила запуск «режима для взрослых» в ChatGPT