OmniWeaving

Нейросеть OmniWeaving

Революция в генерации видео: нейросеть научилась понимать логику и создавать сложные сцены по свободному описанию

OmniWeaving - это open-source модель для генерации видео, которая умеет работать одновременно с текстом, изображениями и видео в любых комбинациях. Разработана командой Tencent Hunyuan на базе HunyuanVideo-1.5 и выделяется тем, что не просто создаёт ролики по промпту, а понимает сложные композиции и способна рассуждать о намерениях пользователя перед генерацией.

Архитектура построена на связке MLLM (мультимодальная языковая модель) + MMDiT (диффузионный трансформер) + VAE. MLLM разбирает входные данные - текст, картинки, видео - и преобразует их в семантическое пространство. VAE сжимает визуальную информацию в латентные представления, а MMDiT на основе этих данных генерирует финальное видео. Фишка в том, что MLLM здесь не просто кодировщик признаков, а активный «мыслитель»: модель сначала формулирует промежуточные рассуждения, уточняет намерение пользователя, а затем передаёт улучшенный промпт в генератор. Это помогает избежать семантической путаницы и создавать более точные результаты.

OmniWeaving поддерживает восемь задач: text-to-video, first-frame-to-video (анимация статичного изображения), key-frames-to-video (генерация между начальным и конечным кадрами), video-to-video editing (редактирование по инструкциям), reference-to-video (создание видео с одним референсным объектом), compositional multi-image-to-video (композиция из нескольких объектов), text-image-video-to-video (генерация на основе всех трёх типов входных данных) и reasoning-augmented generation (генерация с предварительным рассуждением о намерениях пользователя).

Код и веса модели выложены на GitHub, доступна инструкция по установке зависимостей, запуску инференса и обучению. В комплекте идёт IntelligentVBench - первый бенчмарк для оценки интеллектуальной унифицированной генерации видео, который позволяет проверить, насколько хорошо модель справляется с композицией и рассуждениями. Проект поддерживает Flash Attention, Flex-Block-Attention и SageAttention для ускорения работы и снижения потребления видеопамяти.

    OmniWeaving: галерея

Нейросеть OmniWeaving была впервые опубликована 15-04-2026 17:39:04 и вручную отредактирована 04-05-2026 17:21:51.

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K