BeatFlyer
Сервис для создания анимированных видео с автоматической синхронизацией под музыку. Превращает статичные дизайны в захватывающий контент.
Собрать под одной крышей восемь разных голосовых движков - та ещё задачка. Ultimate TTS Studio Pro решает её в лоб: даёт доступ к F5-TTS, Kokoro, Fish Speech, Chatterbox, IndexTTS, Higgs Audio, VoxCPM и KittenTTS через один интерфейс. Вместо того чтобы жонглировать вкладками и настройками, просто переключаешься между моделями как между радиостанциями.
Каждая из восьми моделей живёт в едином окне приложения. Захотел проверить, как одна и та же фраза прозвучит голосом Kokoro, а потом Fish Speech - меняешь движок в выпадающем списке, и всё. Не нужно перезапускать программу или копировать текст туда-сюда. Исключение одно: функция Vibe Voice выведена в отдельную панель, потому что у неё своя специфика настроек.
Такой подход экономит время, когда нужно сравнить интонации или подобрать голос под конкретную задачу. Особенно удобно для тех, кто делает озвучку роликов или подкастов: записал несколько вариантов, выбрал лучший, двинулся дальше.
Режим диалога позволяет назначить разные голоса разным персонажам. Условно, один герой говорит женским голосом из Chatterbox, второй - мужским из IndexTTS. Прописываешь реплики, распределяешь роли, и на выходе получается разговор с понятным разделением.
Функция преобразования электронной книги в аудиокнижку работает по тому же принципу. Загружаешь файл, выбираешь движок, запускаешь обработку. Программа сама разбивает текст на фрагменты и озвучивает их последовательно. Получается аудиоверсия без ручного копирования абзацев.
Приложение работает исключительно с GPU от NVIDIA. Если у тебя AMD или встроенная графика - не запустится. Это связано с тем, что все восемь движков используют библиотеки CUDA для ускорения синтеза. Без поддержки этой технологии обработка либо зависнет, либо вообще не стартует.
Из плюсов: на нормальной видеокарте (от GTX 1660 и выше) синтез идёт быстро. Минута текста генерируется за пару секунд, а не за десять минут на процессоре. Для тех, кто озвучивает много материала, это критичная разница.
Проект выложен на GitHub, код открыт. Можно скачать, запустить локально и не переживать, что данные улетят куда-то в облако. Все голосовые модели крутятся на твоей машине, интернет нужен только для первичной загрузки весов.
Сервис для создания анимированных видео с автоматической синхронизацией под музыку. Превращает статичные дизайны в захватывающий контент.
Сервис для распознавания и конвертации математических формул, диаграмм и таблиц из изображений в редактируемый текст с поддержкой Markdown.
Перестаньте гадать, сколько запросов к нейросетям у вас осталось до конца месяца
Расширение для Chrome, которое добавляет боковую панель с ИИ-агентом прямо в браузер. Запускает агентов, сравнивает результаты и делает поиск умнее с 70+ шаблонами промптов.