Собрать под одной крышей восемь разных голосовых движков - та ещё задачка. Ultimate TTS Studio Pro решает её в лоб: даёт доступ к F5-TTS, Kokoro, Fish Speech, Chatterbox, IndexTTS, Higgs Audio, VoxCPM и KittenTTS через один интерфейс. Вместо того чтобы жонглировать вкладками и настройками, просто переключаешься между моделями как между радиостанциями.
Как работает единый интерфейс для разных голосовых движков
Каждая из восьми моделей живёт в едином окне приложения. Захотел проверить, как одна и та же фраза прозвучит голосом Kokoro, а потом Fish Speech - меняешь движок в выпадающем списке, и всё. Не нужно перезапускать программу или копировать текст туда-сюда. Исключение одно: функция Vibe Voice выведена в отдельную панель, потому что у неё своя специфика настроек.
Такой подход экономит время, когда нужно сравнить интонации или подобрать голос под конкретную задачу. Особенно удобно для тех, кто делает озвучку роликов или подкастов: записал несколько вариантов, выбрал лучший, двинулся дальше.
Режим диалога и конвертация электронных книг в аудио
Режим диалога позволяет назначить разные голоса разным персонажам. Условно, один герой говорит женским голосом из Chatterbox, второй - мужским из IndexTTS. Прописываешь реплики, распределяешь роли, и на выходе получается разговор с понятным разделением.
Функция преобразования электронной книги в аудиокнижку работает по тому же принципу. Загружаешь файл, выбираешь движок, запускаешь обработку. Программа сама разбивает текст на фрагменты и озвучивает их последовательно. Получается аудиоверсия без ручного копирования абзацев.
Требования к железу: только видеокарты NVIDIA
Приложение работает исключительно с GPU от NVIDIA. Если у тебя AMD или встроенная графика - не запустится. Это связано с тем, что все восемь движков используют библиотеки CUDA для ускорения синтеза. Без поддержки этой технологии обработка либо зависнет, либо вообще не стартует.
Из плюсов: на нормальной видеокарте (от GTX 1660 и выше) синтез идёт быстро. Минута текста генерируется за пару секунд, а не за десять минут на процессоре. Для тех, кто озвучивает много материала, это критичная разница.
Проект выложен на GitHub, код открыт. Можно скачать, запустить локально и не переживать, что данные улетят куда-то в облако. Все голосовые модели крутятся на твоей машине, интернет нужен только для первичной загрузки весов.