OmniForcing - это первый фреймворк, который превращает медленную двунаправленную диффузионную модель для генерации видео и аудио в быстрый потоковый генератор. Если обычные модели генерируют ролик целиком и заставляют ждать минуты, то OmniForcing выдает картинку и звук прямо сейчас - примерно 25 кадров в секунду на одной видеокарте.
Главная фишка - технология дистилляции, которая сжимает огромную двунаправленную модель в авторегрессивный генератор без потери качества. Обычно такой переход убивает синхронизацию между видео и аудио, потому что звук обновляется в 8 раз чаще картинки. OmniForcing решает это через асимметричное блочное выравнивание: модель синхронизирует модальности каждую секунду, а специальные Audio Sink токены не дают градиентам взрываться из-за разреженности звуковых данных.
Еще одна проблема потоковой генерации - накопление ошибок. Когда модель генерирует длинное видео, малейшие расхождения между звуком и картинкой начинают расти как снежный ком. Чтобы этого не случилось, OmniForcing использует Joint Self-Forcing Distillation - метод, при котором модель учится исправлять свои же косяки на лету, динамически подстраивая один поток под другой.
Результат: задержка до первого кадра снизилась с 197 секунд до 0,7 секунды - в 35 раз быстрее, чем у исходной модели LTX-2. При этом качество картинки, плавность движения и синхронизация звука остались на том же уровне. Фреймворк работает на базе 19-миллиардной модели и показывает результаты, сопоставимые с офлайн-генераторами, но в режиме реального времени.
OmniForcing открывает дорогу для интерактивных приложений, где важна мгновенная реакция: стриминг, видеочаты с ИИ, генерация контента на лету. Это не просто ускорение - это смена парадигмы, когда мультимодальная генерация перестает быть медленным пакетным процессом и становится живым потоком.