LuxTTS

Нейросеть LuxTTS

Клонирование голоса со скоростью молнии: технология в 150 раз быстрее реального времени

LuxTTS - это легковесная модель для синтеза речи, которая умеет клонировать голоса и генерировать звук на скорости в 150 раз быстрее реального времени. Проект построен на архитектуре zipvoice, но доработан под скорость и качество: модель сжали до 4 шагов генерации, добавили улучшенную технику сэмплирования и кастомный вокодер на 48 кГц вместо стандартных 24 кГц.

Модель весит меньше гигабайта видеопамяти, так что запустится даже на слабой локальной видеокарте. Если GPU нет вообще - работает на процессоре, причём быстрее реального времени. Для владельцев маков есть поддержка MPS.

Клонирование голоса работает на уровне моделей в десять раз тяжелее: достаточно подать аудиофайл длиной от трёх секунд, и LuxTTS подхватит интонации, тембр, манеру речи. Генерация идёт в высоком качестве - 48 кГц, что редкость для TTS-моделей.

Установка простая: клонируешь репозиторий, ставишь зависимости, загружаешь модель на нужное устройство. Дальше кодируешь референсный аудиофайл, передаёшь текст - и получаешь готовый wav. Можно крутить параметры: num_steps управляет качеством, speed - скоростью воспроизведения, t_shift влияет на произношение, return_smooth сглаживает звук, если слышны артефакты.

Код и модель распространяются под лицензией Apache-2.0, так что можно использовать в своих проектах без ограничений. Сообщество уже накатало несколько обёрток: есть Gradio-приложение, UI-клиент OptiSpeech, ноды для ComfyUI.

    LuxTTS: галерея

Нейросеть LuxTTS была впервые опубликована 02-04-2026 13:20:03 и вручную отредактирована 04-05-2026 17:21:14.

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K