Google Deepmind представила инновационную модель искусственного интеллекта D4RT (Dynamic 4D Reconstruction and Tracking), которая радикально меняет подход к пространственному восприятию в робототехнике и дополненной реальности.
Главное преимущество D4RT — это способность воспринимать окружающий мир подобно человеку, в трех измерениях, с учетом движения объектов во времени. Модель объединяет оценку глубины, пространственно-временные связи и параметры камеры в единую систему.
Вместо использования нескольких специализированных моделей, D4RT применяет простой и эффективный подход: мощный энкодер обрабатывает всю видеопоследовательность разом, сжимая ее в целостное представление сцены. Затем легкий декодер извлекает только необходимую информацию.
Модель отвечает на один ключевой вопрос: где находится конкретный пиксель из видео в трехмерном пространстве в любой момент времени с определенного ракурса камеры? Благодаря независимой обработке запросов система может эффективно распараллеливаться на современном AI-оборудовании.
Производительность D4RT впечатляет — она обрабатывает минутное видео всего за 5 секунд на одном TPU-чипе. Это в 18-300 раз быстрее существующих методов, которым требовалось до 10 минут на аналогичную задачу. При оценке положения камеры D4RT достигает скорости более 200 кадров в секунду, что в 9 раз быстрее VGGT и в 100 раз быстрее MegaSaM, при этом обеспечивая лучшую точность.
Технология может найти применение в робототехнике для улучшения пространственного восприятия и в приложениях дополненной реальности для более реалистичного внедрения виртуальных объектов. Высокая эффективность модели делает возможным ее использование непосредственно на устройствах.
В долгосрочной перспективе исследователи рассматривают D4RT как важный шаг к созданию более совершенных моделей мира, что считается критически важным для достижения искусственного общего интеллекта (AGI). Идея заключается в том, что AI-агенты должны учиться на основе опыта внутри этих моделей мира, а не просто применять заранее полученные знания.
Смотрите также
-
Ватикан запустил AI-переводчик месс на 60 языков
-
Alibaba выпустила бесплатную Qwen3.5 - гонка китайских ИИ-моделей набирает обороты
-
Google открыл API для Gemini 3 Deep Think - ИИ для сложных научных задач
-
ИИ для птиц оказался лучше в распознавании китов, чем специализированная модель
-
Seedance 2.0: новый AI-генератор видео уже обвиняют в массовом нарушении авторских прав
-
Швейцарцы научили ИИ учиться на своих ошибках при генерации видео
-
Голливуд нанимает "охотников за головами" для борьбы с ИИ-пиратами
-
Китайская нейросеть создает новые серии Pokemon и Dragon Ball
-
LLM API — единый доступ к сотням языковых моделей