OmniShow

Нейросеть OmniShow

Нейросеть создает видео людей с предметами по фото, звуку и позам одновременно

OmniShow - это модель от ByteDance для генерации видео с взаимодействием человека и объектов. Главная фишка в том, что она умеет работать сразу с несколькими типами входных данных: текстом, референсным изображением, аудио и позами. Вместо того чтобы создавать отдельные инструменты под каждую задачу, разработчики собрали всё в одну модель.

Модель справляется с четырьмя сценариями: генерация видео по референсу (R2V), по референсу и аудио (RA2V), по референсу и позам (RP2V), а также полный набор - референс, аудио и позы одновременно (RAP2V). При этом OmniShow остаётся единственной моделью, которая поддерживает полный RAP2V режим.

В основе лежат три технических решения. Первое - унифицированное встраивание условий через конкатенацию каналов, которое добавляет к зашумлённым видеокадрам псевдо-фреймы с семантическими деталями. Второе - механизм внимания с локальным контекстом и адаптивным гейтингом для точной синхронизации аудио и видео. Третье - двухэтапное обучение: сначала модель тренируется отдельно на задачах R2V и A2V, затем веса интерполируются и дообучаются совместно.

Вместе с моделью авторы выпустили HOIVG-Bench - бенчмарк из 135 тщательно подобранных образцов с текстовыми описаниями, референсами людей и объектов, аудио и последовательностями поз. По результатам тестов OmniShow показывает лучшие результаты в сравнении с конкурентами вроде HuMo, Phantom и VACE.

Проект пока в стадии внутреннего ревью, код обещают выложить позже. Технический отчёт уже доступен, а на сайте проекта можно посмотреть примеры работы модели - от аватаров, управляемых аудио, до замены объектов и ремикса видео.

    OmniShow: галерея

Нейросеть OmniShow была впервые опубликована 17-04-2026 18:15:03 и вручную отредактирована 04-05-2026 17:22:12.

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K