В декабре 2025 года компания Inworld представила обновленную систему синтеза речи TTS-1.5. Новинка предлагается в двух вариантах, ориентированных на работу в реальном времени.
Главная версия TTS-1.5-Max подходит для большинства практических задач и обеспечивает задержку менее 250 миллисекунд в 90% случаев, при средней задержке 190 мс. Облегченная версия TTS-1.5-Mini создана для сценариев, где критична минимальная задержка - она достигает показателей 160 мс в 90% случаев при средней задержке 120 мс.

До конца 2025 года обе версии доступны бесплатно. После этого будет введена оплата за использование: $10 за миллион символов для Max и $5 для Mini версии.
В новой версии появился переработанный аудиокодек для потоковой передачи данных. Благодаря улучшенным алгоритмам обучения и масштабному применению reinforcement learning удалось значительно снизить количество ошибок в словах, обрывов и артефактов.
По данным независимых пользовательских рейтингов, TTS-1.5 занимает лидирующие позиции по естественности и выразительности речи. Система поддерживает 16 языков и предлагает обновленные возможности клонирования голоса через API.
Для организаций, которым важно хранить данные локально, доступно развертывание системы на собственных серверах. TTS-1.5 интегрируется с популярными сервисами, включая LiveKit, NLX, Pipecat, Stream Vision Agents и Vapi.
Inworld изначально создавалась для разработки интерактивных персонажей и разговорных агентов. Компания продолжает совершенствовать голосовые технологии, работающие со скоростью человеческого общения. Их решения применяются в виртуальных ассистентах, системах синхронного перевода, инструментах для людей с ограниченными возможностями и интерактивных развлечениях.
Смотрите также
-
Google готовит функцию клонирования голоса в AI Studio
-
Nvidia представила PersonaPlex — ИИ-помощника с естественной речью
-
Обзор Chatterbox-turbo: быстрая и эффективная модель для синтеза речи
-
LG представила новую караоке-колонку Stage 501, созданную совместно с Will.i.am
-
xAI расширяет возможности: новый Voice Agent API и планы развития
-
Google выпустил FunctionGemma — специальную версию ИИ для управления устройствами
-
Bixby Text Call: теперь Samsung может создать копию вашего голоса и отвечать на ваши звонки