Audio-Omni

Нейросеть Audio-Omni

Нейросеть научилась понимать, создавать и редактировать любые звуки по текстовой команде

Audio-Omni - это первая полноценная система, которая объединяет понимание, генерацию и редактирование звука в одном фреймворке. Не нужно жонглировать разными моделями для разных задач: здесь все в одном месте.

Работает с любыми аудиоформатами - от обычных звуков и музыки до речи. Можешь задать вопрос о содержимом аудио или видео, сгенерировать звук по текстовому описанию, создать музыку для видео, озвучить текст с клонированием голоса или отредактировать существующий трек: добавить звук, убрать ненужный элемент, извлечь конкретный инструмент, перенести стиль с одного звука на другой.

Архитектура строится на связке замороженной мультимодальной языковой модели для высокоуровневого понимания и обучаемого диффузионного трансформера для синтеза. Это позволяет манипулировать аудио через естественные текстовые команды, без сложных интерфейсов и настроек.

Доступен через Gradio-интерфейс или Python API. Установка стандартная: клонируешь репозиторий, ставишь зависимости, скачиваешь веса модели - и можно работать. Поддерживает задачи вроде text-to-audio, text-to-music, video-to-audio, text-to-speech с клонированием голоса, конвертацию голоса, а также редактирование: добавление, удаление, извлечение звуков и перенос стиля.

Модель выпущена под лицензией CC BY-NC 4.0, веса доступны только для исследований, коммерческое использование требует разрешения авторов.

    Audio-Omni: галерея

Нейросеть Audio-Omni была впервые опубликована 22-04-2026 13:28:04 и вручную отредактирована 04-05-2026 17:22:21.

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K