OmniWeaving - это open-source модель для генерации видео, которая умеет работать одновременно с текстом, изображениями и видео в любых комбинациях. Разработана командой Tencent Hunyuan на базе HunyuanVideo-1.5 и выделяется тем, что не просто создаёт ролики по промпту, а понимает сложные композиции и способна рассуждать о намерениях пользователя перед генерацией.
Архитектура построена на связке MLLM (мультимодальная языковая модель) + MMDiT (диффузионный трансформер) + VAE. MLLM разбирает входные данные - текст, картинки, видео - и преобразует их в семантическое пространство. VAE сжимает визуальную информацию в латентные представления, а MMDiT на основе этих данных генерирует финальное видео. Фишка в том, что MLLM здесь не просто кодировщик признаков, а активный «мыслитель»: модель сначала формулирует промежуточные рассуждения, уточняет намерение пользователя, а затем передаёт улучшенный промпт в генератор. Это помогает избежать семантической путаницы и создавать более точные результаты.
OmniWeaving поддерживает восемь задач: text-to-video, first-frame-to-video (анимация статичного изображения), key-frames-to-video (генерация между начальным и конечным кадрами), video-to-video editing (редактирование по инструкциям), reference-to-video (создание видео с одним референсным объектом), compositional multi-image-to-video (композиция из нескольких объектов), text-image-video-to-video (генерация на основе всех трёх типов входных данных) и reasoning-augmented generation (генерация с предварительным рассуждением о намерениях пользователя).
Код и веса модели выложены на GitHub, доступна инструкция по установке зависимостей, запуску инференса и обучению. В комплекте идёт IntelligentVBench - первый бенчмарк для оценки интеллектуальной унифицированной генерации видео, который позволяет проверить, насколько хорошо модель справляется с композицией и рассуждениями. Проект поддерживает Flash Attention, Flex-Block-Attention и SageAttention для ускорения работы и снижения потребления видеопамяти.