Audio-Omni - это первая полноценная система, которая объединяет понимание, генерацию и редактирование звука в одном фреймворке. Не нужно жонглировать разными моделями для разных задач: здесь все в одном месте.
Работает с любыми аудиоформатами - от обычных звуков и музыки до речи. Можешь задать вопрос о содержимом аудио или видео, сгенерировать звук по текстовому описанию, создать музыку для видео, озвучить текст с клонированием голоса или отредактировать существующий трек: добавить звук, убрать ненужный элемент, извлечь конкретный инструмент, перенести стиль с одного звука на другой.
Архитектура строится на связке замороженной мультимодальной языковой модели для высокоуровневого понимания и обучаемого диффузионного трансформера для синтеза. Это позволяет манипулировать аудио через естественные текстовые команды, без сложных интерфейсов и настроек.
Доступен через Gradio-интерфейс или Python API. Установка стандартная: клонируешь репозиторий, ставишь зависимости, скачиваешь веса модели - и можно работать. Поддерживает задачи вроде text-to-audio, text-to-music, video-to-audio, text-to-speech с клонированием голоса, конвертацию голоса, а также редактирование: добавление, удаление, извлечение звуков и перенос стиля.
Модель выпущена под лицензией CC BY-NC 4.0, веса доступны только для исследований, коммерческое использование требует разрешения авторов.