Mistral выпустил Voxtral — ИИ для клонирования голоса

  ·   чтения   ·     ·  
Новая модель Voxtral TTS от Mistral может клонировать голос всего по 3 секундам аудио на 9 языках, включая английский, французский, немецкий и испанский.
Mistral выпустил Voxtral — ИИ для клонирования голоса

Французский стартап Mistral, известный своими языковыми моделями, представил свой первый продукт в области синтеза речи - Voxtral TTS. Это относительно компактная модель с 4 миллиардами параметров, которая поддерживает сразу девять языков, включая английский, французский, немецкий и испанский.

Главная особенность Voxtral - способность клонировать голос по минимальному образцу. Системе достаточно всего 3 секунды аудио, чтобы воспроизвести характерные особенности голоса и создать естественно звучащую речь с эмоциональными интонациями.

Технические характеристики и доступность

Модель отличается низкой задержкой - около 70 миллисекунд при типичном сценарии использования (10-секундный образец речи и 500 символов текста). В тестах на естественность звучания Voxtral превзошла ElevenLabs Flash v2.5 при сопоставимом времени отклика, хотя стоит отметить, что ElevenLabs уже выпустила более новую версию v3.

Voxtral TTS доступна через API по цене $0,016 за 1000 символов. Опробовать технологию можно в Mistral Studio, а для энтузиастов и исследователей компания выложила открытую версию модели на платформе Hugging Face.

Появление Voxtral - еще один шаг в стремительном развитии технологий синтеза речи, которые становятся все более доступными и качественными, открывая новые возможности для создания контента, локализации и разработки интерфейсов.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K