Voicebox — это open-source инструмент для синтеза речи, который клонирует голос по короткому аудиофрагменту и работает полностью на вашем компьютере. Никаких облачных сервисов, подписок или лимитов — всё остаётся локально, а данные никуда не уходят.
Как работает клонирование голоса
Достаточно загрузить аудиофайл длиной несколько секунд — и сервис создаёт голосовую модель. После этого можно вводить любой текст и получать озвучку именно этим голосом. Технология построена на базе Qwen3-TTS, что позволяет добиться естественного звучания даже при минимальном объёме исходного материала.
Весь процесс происходит без интернета. Модели хранятся на жёстком диске, а генерация занимает секунды — в зависимости от мощности железа. Для работы нужен только Python и несколько библиотек, которые устанавливаются через GitHub.
Озвучка проектов и диалоги из нескольких голосов
Voicebox позволяет создавать разговоры между несколькими персонажами. Можно клонировать разные голоса, назначить каждому реплику и собрать полноценный диалог — удобно для подкастов, видеороликов или аудиокниг. Все голоса и проекты сохраняются локально, их можно редактировать и переиспользовать.
Ещё одна функция — запись и расшифровка аудио. Можно наговорить текст, а сервис преобразует его в письменный вид. Это полезно для быстрого создания скриптов или черновиков, которые потом озвучиваются уже клонированным голосом.
Для кого подойдёт Voicebox
Сервис пригодится создателям контента, которые хотят озвучивать видео или презентации без найма дикторов. Разработчикам игр и приложений — для быстрого прототипирования озвучки персонажей. Тем, кто работает с подкастами или аудиокнигами и ищет гибкий инструмент для экспериментов с голосом.
Поскольку всё работает офлайн, конфиденциальные проекты остаются защищёнными. Нет риска утечки данных через сторонние серверы, а количество генераций ограничено только ресурсами вашего компьютера. Voicebox распространяется бесплатно и доступен на GitHub с открытым исходным кодом.