Кто из нас не хотел оказаться на месте героя фильма или клипа? EgoX делает ровно это: берёт обычное видео, снятое со стороны, и превращает его в ролик от первого лица. Причём настолько убедительно, что кажется, будто камеру действительно прикрепили к голове персонажа. Технология пригодится для создания иммерсивного контента, обучающих материалов или просто ради эксперимента — посмотреть на мир глазами Джокера или теннисиста на Олимпиаде.
Как работает превращение видео в POV
Система анализирует исходное видео и восстанавливает трёхмерную структуру сцены. Затем использует видеодиффузию — технологию генерации на основе нейросетей — чтобы дорисовать то, что не попало в кадр. Например, если человек идёт спиной к камере, алгоритм воссоздаёт его руки, части тела и окружение так, как их видел бы он сам. При этом сохраняется геометрия пространства и траектория движения, чтобы результат не выглядел как набор случайных картинок.
Основа технологии — дифференцированные модели, обученные на огромных массивах видео. EgoX использует их через лёгкую адаптацию LoRA, что позволяет не переучивать всю систему с нуля. Добавлен механизм внимания, который выбирает только релевантные участки кадра, игнорируя лишнее. Это помогает избежать артефактов и сохранить визуальную связность.
От Джокера до олимпийского теннисиста
Проект демонстрирует результаты на самых разных роликах: от сцен из «Тёмного рыцаря» и «Мстителей» до съёмок настольного тенниса на Олимпиаде в Париже. В каждом случае алгоритм создаёт убедительный вид от первого лица, учитывая специфику движения и окружения. Бонусом идёт SphereDiff — инструмент для генерации панорамных видео 360°, совместимый с разными диффузионными моделями вроде FLUX или HunyuanVideo.
Видеомонтаж с эффектом присутствия
EgoX открывает путь для новых форматов контента. Режиссёры смогут создавать альтернативные версии сцен для VR-очков, тренеры — записывать обучающие ролики с точки зрения спортсмена, а геймдизайнеры — превращать кат-сцены в интерактивный опыт. Технология работает даже с видео «из дикой природы» — то есть с любительскими съёмками без студийной постановки. Главное ограничение пока в вычислительных мощностях: генерация требует времени и ресурсов, но для исследовательского проекта результат впечатляет.