Video to World - это метод реконструкции трёхмерных миров из видео, сгенерированных диффузионными моделями. Главная фишка: он справляется с тем, что обычно ломает 3D-реконструкцию - с внутренними несоответствиями в последовательности кадров. Вместо того чтобы пытаться выжать идеальную геометрию из противоречивых данных, Video to World использует нежёсткое выравнивание (non-rigid alignment), чтобы собрать из хаоса целостную трёхмерную сцену.
Работает это так: сначала метод берёт видео и с помощью DepthAnything-3 извлекает из каждого кадра облако точек. Потом запускается итеративный нежёсткий ICP (Iterative Closest Point), который выравнивает все эти облака в единое каноническое пространство, попутно вычисляя поля деформации для каждого кадра. Дальше идёт глобальная оптимизация, которая шлифует все деформации разом, чтобы итоговое облако точек стало чётче и ровнее. На финальном этапе обучается обратная деформация и строится 3D Gaussian Splatting-сцена - получается полноценный трёхмерный мир, который можно рендерить с любых ракурсов.
Всё это реализовано в виде Python-скриптов, которые можно запустить либо по отдельности (если нужен контроль над каждым этапом), либо одной командой через run_reconstruction.py. Есть два режима: быстрый (пропускает глобальную оптимизацию, обучает деформацию за 15 эпох, тренирует 3DGS 10 тысяч итераций) и детальный (прогоняет все стадии, 30 эпох для деформации, 15 тысяч итераций для сплаттинга). Можно выбрать, какой тип Gaussian Splatting использовать - 2DGS, 3DGS или оба сразу.
Video to World полезен, если нужно превратить сгенерированное видео в трёхмерную модель, с которой можно дальше работать - рендерить новые виды, встраивать в игровые движки, использовать для дальнейшего обучения нейросетей. Особенно актуально для случаев, когда видео изначально непоследовательно с точки зрения геометрии - метод как раз заточен под такие данные.