ShotVerse - это фреймворк для создания многокадрового видео из текста с продвинутым контролем камеры. Если обычные генераторы видео либо не понимают, как именно двигать камеру, либо требуют вручную задавать траекторию (что долго и часто не работает), то здесь всё устроено иначе. Система работает по принципу «сначала план, потом исполнение»: сначала модель на основе языка и визуальных данных строит кинематографичную траекторию камеры из текстового описания, а потом другая часть системы превращает эту траекторию в готовое видео. Причём видео получается не просто набором кадров, а связной многокадровой сценой, где движение камеры согласовано между всеми планами.
В основе лежит идея, что если правильно связать текстовые описания, траектории камеры и видео в единый датасет, можно научить модель автоматически планировать движение камеры так, как это делают в кино. Для этого авторы разработали автоматический пайплайн калибровки камеры, который объединяет разрозненные одиночные кадры в общую систему координат, и собрали датасет ShotVerse-Bench с качественными кинематографичными примерами.
Проект пока в разработке, код обещают выложить после принятия статьи. В планах - предобученные модели, код для запуска, датасет и материалы для обучения. Репозиторий на GitHub содержит описание подхода, ссылку на научную статью и информацию о будущем релизе.