InSpatio-WorldFM — это модель для пространственного интеллекта, которая генерирует кадры в реальном времени и работает прямо на потребительских видеокартах. Вместо того чтобы просто складывать пиксели в видео, она понимает структуру трёхмерного пространства и держит её в памяти, как это делают живые существа.
Главная фишка — многовидовая консистентность. Это значит, что объекты не исчезают, не меняются произвольно и не плывут, когда ты смотришь на них с другого угла. Модель не галлюцинирует пространство, а реально его понимает, потому что учится не в плоском 2D, а с учётом трёхмерной геометрии.
Работает быстро — на одной RTX 4090 выдаёт интерактивный фреймрейт. Это возможно благодаря архитектуре на основе кадров, дистилляции модели и оптимизации инференса. Авторы считают, что пространственный интеллект не должен требовать дата-центров, его место — на обычных устройствах.
Память устроена гибридно: явные якоря через прямую реконструкцию и неявная память внутри нейросети. Это позволяет модели помнить расположение объектов, даже если камера отвернулась. Без этого никакой автономности у роботов не будет — забыл карту склада, и всё, приехали.
Что можно делать: превратить одну фотографию в трёхмерный мир и гулять по нему, редактировать пространство текстом, создавать игровые окружения без движка, генерировать бесконечные сцены для обучения роботов. Код открыт, есть онлайн-демо, а в ближайшее время обещают добавить поддержку динамических сцен с взаимодействием.