ByteDance научила ИИ помнить внешность персонажей в видео

·  чтения ·  · 
ByteDance научила ИИ помнить внешность персонажей в видео

Команда исследователей из ByteDance и Технологического университета Наньян решила одну из главных проблем ИИ-генерации видео - непостоянство внешности персонажей между сценами.

Современные модели вроде Sora, Kling и Veo отлично справляются с созданием коротких клипов, но при попытке объединить несколько сцен в единое повествование возникают проблемы - персонажи меняют внешность, окружение становится нестабильным, а детали 'плывут'.

Решение получило название StoryMem и работает по принципу памяти - система сохраняет ключевые кадры из уже сгенерированных сцен и использует их как референсы для создания новых. Это позволяет модели 'помнить', как выглядели персонажи и окружение ранее.

Вместо хранения всех кадров подряд, умный алгоритм выбирает только визуально значимые изображения, анализируя содержание и отбрасывая размытые или шумные кадры. Система памяти гибридная - ранние ключевые кадры сохраняются как долгосрочные референсы, а более новые ротируются через скользящее окно.

При тестировании StoryMem показала существенное улучшение согласованности между сценами - на 28.7% лучше базовой модели и на 9.4% лучше предыдущего лидера HoloCine. Пользователи также отметили более высокое качество результатов StoryMem по сравнению с другими методами.

Система позволяет загружать собственные референсы - например, фотографии людей или мест, которые затем будут последовательно появляться в сгенерированной истории. Также возможно создание плавных переходов между сценами.

Однако есть и ограничения - система хуже справляется со сценами, где много персонажей, так как не привязывает сохраненные изображения к конкретным героям. Кроме того, переходы между сценами с разной скоростью движения могут выглядеть неестественно.

Веса модели уже доступны на Hugging Face, а тестовый набор ST-Bench планируется выпустить для дальнейших исследований.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K