Команда исследователей из ByteDance и Технологического университета Наньян решила одну из главных проблем ИИ-генерации видео - непостоянство внешности персонажей между сценами.
Современные модели вроде Sora, Kling и Veo отлично справляются с созданием коротких клипов, но при попытке объединить несколько сцен в единое повествование возникают проблемы - персонажи меняют внешность, окружение становится нестабильным, а детали 'плывут'.
Решение получило название StoryMem и работает по принципу памяти - система сохраняет ключевые кадры из уже сгенерированных сцен и использует их как референсы для создания новых. Это позволяет модели 'помнить', как выглядели персонажи и окружение ранее.

Вместо хранения всех кадров подряд, умный алгоритм выбирает только визуально значимые изображения, анализируя содержание и отбрасывая размытые или шумные кадры. Система памяти гибридная - ранние ключевые кадры сохраняются как долгосрочные референсы, а более новые ротируются через скользящее окно.
При тестировании StoryMem показала существенное улучшение согласованности между сценами - на 28.7% лучше базовой модели и на 9.4% лучше предыдущего лидера HoloCine. Пользователи также отметили более высокое качество результатов StoryMem по сравнению с другими методами.
Система позволяет загружать собственные референсы - например, фотографии людей или мест, которые затем будут последовательно появляться в сгенерированной истории. Также возможно создание плавных переходов между сценами.

Однако есть и ограничения - система хуже справляется со сценами, где много персонажей, так как не привязывает сохраненные изображения к конкретным героям. Кроме того, переходы между сценами с разной скоростью движения могут выглядеть неестественно.
Веса модели уже доступны на Hugging Face, а тестовый набор ST-Bench планируется выпустить для дальнейших исследований.
Смотрите также
-
Победитель премии Global AI Film Award получил миллион долларов за фильм с искусственным интеллектом
-
Google обновил Veo 3.1: вертикальные видео и масштабирование до 4K
-
Lightricks бросает вызов Sora и Veo, выпустив открытую AI-модель LTX-2
-
Акции китайского ИИ-стартапа Minimax взлетели вдвое на дебютных торгах
-
Epidemic Sound интегрируется в онлайн-редактор видео Elevate.io
-
Runway запускает новые AI-модели на платформе NVIDIA Vera Rubin
-
Beam запускает платформу для создания интерактивных видео на базе Veo 3.1
-
Встречайте Sora: новое измерение видеоконтента от OpenAI
-
НейроШарики - бесконечные Смешарики от нейросети