LuxTTS - это легковесная модель для синтеза речи, которая умеет клонировать голоса и генерировать звук на скорости в 150 раз быстрее реального времени. Проект построен на архитектуре zipvoice, но доработан под скорость и качество: модель сжали до 4 шагов генерации, добавили улучшенную технику сэмплирования и кастомный вокодер на 48 кГц вместо стандартных 24 кГц.
Модель весит меньше гигабайта видеопамяти, так что запустится даже на слабой локальной видеокарте. Если GPU нет вообще - работает на процессоре, причём быстрее реального времени. Для владельцев маков есть поддержка MPS.
Клонирование голоса работает на уровне моделей в десять раз тяжелее: достаточно подать аудиофайл длиной от трёх секунд, и LuxTTS подхватит интонации, тембр, манеру речи. Генерация идёт в высоком качестве - 48 кГц, что редкость для TTS-моделей.
Установка простая: клонируешь репозиторий, ставишь зависимости, загружаешь модель на нужное устройство. Дальше кодируешь референсный аудиофайл, передаёшь текст - и получаешь готовый wav. Можно крутить параметры: num_steps управляет качеством, speed - скоростью воспроизведения, t_shift влияет на произношение, return_smooth сглаживает звук, если слышны артефакты.
Код и модель распространяются под лицензией Apache-2.0, так что можно использовать в своих проектах без ограничений. Сообщество уже накатало несколько обёрток: есть Gradio-приложение, UI-клиент OptiSpeech, ноды для ComfyUI.