Google Deepmind создала D4RT — революционную модель для восприятия пространства

  ·   чтения   ·     ·  
Новая AI-модель D4RT от Google Deepmind обрабатывает видео в 4D-формате в 300 раз быстрее существующих решений, приближая пространственное восприятие роботов к человеческому.
Google Deepmind создала D4RT — революционную модель для восприятия пространства

Google Deepmind представила инновационную модель искусственного интеллекта D4RT (Dynamic 4D Reconstruction and Tracking), которая радикально меняет подход к пространственному восприятию в робототехнике и дополненной реальности.

Главное преимущество D4RT — это способность воспринимать окружающий мир подобно человеку, в трех измерениях, с учетом движения объектов во времени. Модель объединяет оценку глубины, пространственно-временные связи и параметры камеры в единую систему.

Вместо использования нескольких специализированных моделей, D4RT применяет простой и эффективный подход: мощный энкодер обрабатывает всю видеопоследовательность разом, сжимая ее в целостное представление сцены. Затем легкий декодер извлекает только необходимую информацию.

Модель отвечает на один ключевой вопрос: где находится конкретный пиксель из видео в трехмерном пространстве в любой момент времени с определенного ракурса камеры? Благодаря независимой обработке запросов система может эффективно распараллеливаться на современном AI-оборудовании.

Производительность D4RT впечатляет — она обрабатывает минутное видео всего за 5 секунд на одном TPU-чипе. Это в 18-300 раз быстрее существующих методов, которым требовалось до 10 минут на аналогичную задачу. При оценке положения камеры D4RT достигает скорости более 200 кадров в секунду, что в 9 раз быстрее VGGT и в 100 раз быстрее MegaSaM, при этом обеспечивая лучшую точность.

Технология может найти применение в робототехнике для улучшения пространственного восприятия и в приложениях дополненной реальности для более реалистичного внедрения виртуальных объектов. Высокая эффективность модели делает возможным ее использование непосредственно на устройствах.

В долгосрочной перспективе исследователи рассматривают D4RT как важный шаг к созданию более совершенных моделей мира, что считается критически важным для достижения искусственного общего интеллекта (AGI). Идея заключается в том, что AI-агенты должны учиться на основе опыта внутри этих моделей мира, а не просто применять заранее полученные знания.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K