OmniShow - это модель от ByteDance для генерации видео с взаимодействием человека и объектов. Главная фишка в том, что она умеет работать сразу с несколькими типами входных данных: текстом, референсным изображением, аудио и позами. Вместо того чтобы создавать отдельные инструменты под каждую задачу, разработчики собрали всё в одну модель.
Модель справляется с четырьмя сценариями: генерация видео по референсу (R2V), по референсу и аудио (RA2V), по референсу и позам (RP2V), а также полный набор - референс, аудио и позы одновременно (RAP2V). При этом OmniShow остаётся единственной моделью, которая поддерживает полный RAP2V режим.
В основе лежат три технических решения. Первое - унифицированное встраивание условий через конкатенацию каналов, которое добавляет к зашумлённым видеокадрам псевдо-фреймы с семантическими деталями. Второе - механизм внимания с локальным контекстом и адаптивным гейтингом для точной синхронизации аудио и видео. Третье - двухэтапное обучение: сначала модель тренируется отдельно на задачах R2V и A2V, затем веса интерполируются и дообучаются совместно.
Вместе с моделью авторы выпустили HOIVG-Bench - бенчмарк из 135 тщательно подобранных образцов с текстовыми описаниями, референсами людей и объектов, аудио и последовательностями поз. По результатам тестов OmniShow показывает лучшие результаты в сравнении с конкурентами вроде HuMo, Phantom и VACE.
Проект пока в стадии внутреннего ревью, код обещают выложить позже. Технический отчёт уже доступен, а на сайте проекта можно посмотреть примеры работы модели - от аватаров, управляемых аудио, до замены объектов и ремикса видео.