Компания Nvidia представила революционную разработку в области искусственного интеллекта — модель PersonaPlex, которая делает общение с виртуальным помощником максимально естественным.
Главное преимущество PersonaPlex в том, что он может одновременно слушать и говорить, как живой человек. Система учитывает все тонкости реального общения: делает паузы, может перебить собеседника или поддакнуть междометиями вроде "ага". При этом пользователь может настроить голос и характер помощника под свои предпочтения.
Технические характеристики впечатляют — задержка при смене говорящих составляет всего 0,07 секунды, что в 18 раз быстрее, чем у Google Gemini Live. Модель содержит 7 миллиардов параметров и работает с частотой дискретизации звука 24 кГц.

Для обучения системы исследователи использовали как реальные разговоры из базы Fisher English Corpus (более 7000 диалогов общей длительностью 1217 часов), так и искусственно сгенерированные беседы. Синтетические данные помогли научить модель специфическим задачам, а реальные записи обеспечили естественность речи.
В тестах PersonaPlex превзошла существующие решения по многим параметрам. Модель получила высокую оценку 3,90 по шкале естественности диалога, обошла конкурентов в точности копирования голоса и успешно справлялась с прерываниями разговора.

Nvidia выложила код и веса модели в открытый доступ на платформах Hugging Face и GitHub под лицензиями MIT и Nvidia Open Model License. Это позволяет использовать PersonaPlex в коммерческих целях. Пока система работает только на английском языке, но разработчики планируют дальнейшее совершенствование модели и интеграцию с различными инструментами.
Смотрите также
-
«Алиса» научилась работать прямо в строке ввода Telegram
-
Яндекс начал показывать рекламу в чате с Алисой AI - пока только 5% пользователей
-
ИИ-помощник удалил 15 лет семейных фото, пытаясь «навести порядок» на компьютере
-
Notion развивает возможности своих AI-агентов: что нового?
-
Google готовит функцию клонирования голоса в AI Studio
-
Google Arts & Culture представляет умный городской гид с искусственным интеллектом
-
Apple готовит обновление Siri с поддержкой Google Gemini в феврале
-
Apple разрабатывает умный AI-значок для конкуренции с OpenAI и Meta
-
Inworld представляет TTS-1.5: новая система синтеза речи с поддержкой 16 языков