Компания Resemble AI представила новую модель синтеза речи Chatterbox-turbo с 350 миллионами параметров. Главное преимущество новинки — высокая скорость работы при сохранении отличного качества звука.
Модель является частью семейства Chatterbox, в которое также входят версия для работы с 23+ языками (Chatterbox-multilingual) и продвинутая версия для выразительного синтеза (Chatterbox-pro). Инженерам удалось значительно снизить требования к вычислительным ресурсам и использованию видеопамяти.
Одно из главных технических достижений — оптимизация декодера, преобразующего речевые токены в мел-спектрограммы. Количество шагов генерации сократилось с 10 до 1, что делает модель идеальной для приложений, требующих минимальной задержки.
Модель принимает текст и может использовать образец голоса для клонирования. Для работы с собственным голосом нужна аудиозапись длительностью от 5 секунд. Также доступно 20 готовых голосов, включая Andy, Abigail, Aaron, Brian, Chloe и Dylan.
В текст можно добавлять специальные метки для естественных звуков: [cough] для кашля, [laugh] для смеха, [chuckle] для усмешки, [sigh] для вздоха и другие. Это позволяет создавать более живую и выразительную речь.
Настройка генерации происходит через несколько параметров: температура (от 0.05 до 2.0) влияет на случайность генерации, Top P (от 0.5 до 1.0) и Top K (от 1 до 2000) определяют разнообразие словаря, а параметр повторения (от 1 до 2) помогает избежать монотонности.
Модель отлично подходит для создания голосовых помощников, озвучки видео, аудиокниг и обслуживания клиентов. Она особенно эффективна в сценариях, где требуется быстрая генерация большого количества аудио.
Каждый сгенерированный файл содержит встроенные водяные знаки Perth, которые сохраняются при сжатии и редактировании, что позволяет отслеживать происхождение контента.
Для получения наилучших результатов рекомендуется экспериментировать с параметрами. Например, использовать низкую температуру (около 0.5) для стабильного результата или повышать её до 2.0 для более творческих вариаций. Комбинирование разных голосовых меток позволяет создавать сложные эмоциональные выражения.
Смотрите также
-
Google готовит функцию клонирования голоса в AI Studio
-
Nvidia представила PersonaPlex — ИИ-помощника с естественной речью
-
Inworld представляет TTS-1.5: новая система синтеза речи с поддержкой 16 языков
-
LG представила новую караоке-колонку Stage 501, созданную совместно с Will.i.am
-
xAI расширяет возможности: новый Voice Agent API и планы развития
-
Google выпустил FunctionGemma — специальную версию ИИ для управления устройствами
-
Bixby Text Call: теперь Samsung может создать копию вашего голоса и отвечать на ваши звонки