Video to World

Нейросеть Video to World

Из видео в трёхмерный мир: нейросеть превращает противоречивые кадры в цельную реальность

Video to World - это метод реконструкции трёхмерных миров из видео, сгенерированных диффузионными моделями. Главная фишка: он справляется с тем, что обычно ломает 3D-реконструкцию - с внутренними несоответствиями в последовательности кадров. Вместо того чтобы пытаться выжать идеальную геометрию из противоречивых данных, Video to World использует нежёсткое выравнивание (non-rigid alignment), чтобы собрать из хаоса целостную трёхмерную сцену.

Работает это так: сначала метод берёт видео и с помощью DepthAnything-3 извлекает из каждого кадра облако точек. Потом запускается итеративный нежёсткий ICP (Iterative Closest Point), который выравнивает все эти облака в единое каноническое пространство, попутно вычисляя поля деформации для каждого кадра. Дальше идёт глобальная оптимизация, которая шлифует все деформации разом, чтобы итоговое облако точек стало чётче и ровнее. На финальном этапе обучается обратная деформация и строится 3D Gaussian Splatting-сцена - получается полноценный трёхмерный мир, который можно рендерить с любых ракурсов.

Всё это реализовано в виде Python-скриптов, которые можно запустить либо по отдельности (если нужен контроль над каждым этапом), либо одной командой через run_reconstruction.py. Есть два режима: быстрый (пропускает глобальную оптимизацию, обучает деформацию за 15 эпох, тренирует 3DGS 10 тысяч итераций) и детальный (прогоняет все стадии, 30 эпох для деформации, 15 тысяч итераций для сплаттинга). Можно выбрать, какой тип Gaussian Splatting использовать - 2DGS, 3DGS или оба сразу.

Video to World полезен, если нужно превратить сгенерированное видео в трёхмерную модель, с которой можно дальше работать - рендерить новые виды, встраивать в игровые движки, использовать для дальнейшего обучения нейросетей. Особенно актуально для случаев, когда видео изначально непоследовательно с точки зрения геометрии - метод как раз заточен под такие данные.

    Video to World: галерея

Нейросеть Video to World была впервые опубликована 02-04-2026 14:10:03 и вручную отредактирована 04-05-2026 17:21:19.

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K