Supertonic — это открытая система синтеза речи, которая работает прямо на твоем устройстве. Никаких облачных сервисов, API-ключей или отправки данных куда-то в сеть. Всё происходит локально, быстро и без компромиссов с приватностью.
Модель весит всего 99 миллионов параметров — это в разы меньше, чем у большинства TTS-систем уровня 0.7–2 миллиарда параметров. Благодаря этому Supertonic стартует мгновенно, занимает мало памяти и умещается даже на мобильных устройствах, Raspberry Pi или электронных книгах. При этом выдает звук студийного качества — 44.1 кГц, 16 бит, готовый к воспроизведению без дополнительной обработки.
Система поддерживает 31 язык — от английского и корейского до арабского, финского и вьетнамского. Если не знаешь, на каком языке написан текст, передай параметр lang="na", и Supertonic сам разберется. Никаких отдельных языковых адаптеров или переключений не нужно.
Внутри есть десять тегов для выразительности: смех, вздох, дыхание и другие нюансы, которые делают речь живой. Не нужно писать промпты или подавать референсные аудио — просто вставь тег в текст, и модель добавит нужную интонацию.
Supertonic работает через ONNX Runtime, поэтому его можно запустить на чем угодно: Python, Node.js, браузер с WebGPU, Java, C++, C#, Go, Swift, iOS, Rust, Flutter. В репозитории лежат готовые примеры для каждой платформы. Установил Python-пакет через pip, запустил скрипт — модель сама скачается с Hugging Face при первом запуске, и ты получишь готовый WAV-файл за пару секунд.
Если нужен HTTP-сервер, Python SDK умеет поднимать локальный эндпоинт с нативным API и совместимостью с форматом OpenAI. Это удобно для интеграции с агентами, браузерными расширениями, Electron-приложениями или любыми инструментами, которые говорят по HTTP.
Supertonic развивается активно: недавно вышла третья версия с улучшенной точностью чтения, меньшим числом повторов и пропусков, плюс запустился Voice Builder — сервис, который превращает твой голос в постоянный профиль для синтеза.