Китай собрал 200 000 3D-сканов лиц, чтобы научить роботов выражать эмоции

  ·   чтения   ·     ·  
Исследователи создали огромную базу трёхмерных лиц и ИИ-модель, которая работает напрямую с геометрией - без текстур и шаблонов.
Китай собрал 200 000 3D-сканов лиц, чтобы научить роботов выражать эмоции

Китайские учёные из Шэньчжэньского института передовых технологий собрали базу данных примерно из 200 000 высокоточных 3D-сканов человеческих лиц. Цель - научить гуманоидных роботов и виртуальных аватаров естественнее выражать эмоции и распознавать людей.

Обычно системы распознавания лиц опираются на 2D-текстуры или синтетические 3D-модели. Проблема в том, что цифровые шаблоны часто не совпадают с реальной геометрией человеческого лица, а наложение текстур даёт погрешности. Новый подход работает напрямую с трёхмерными данными - без промежуточных преобразований.

Команда под руководством профессора Сун Чжаня построила специальную систему для захвата 3D и 4D (динамических) изображений лиц. Помимо статичных сканов, база включает выражения эмоций, точную разметку ключевых точек и даже данные о теле. Это одна из крупнейших структурированных коллекций реальных трёхмерных лиц на сегодня. Датасет уже попал в программу высококачественных ИИ-наборов провинции Фуцзянь на 2025 год.

Вместо того чтобы скармливать нейросети картинки с текстурами, исследователи разработали модель CF-GAT (curvature-fused graph attention network). Она обрабатывает облака точек - наборы пространственных координат, описывающих форму лица без поверхностных деталей.

Алгоритм упрощает облако точек, сохраняя информацию о кривизне поверхности. Эти данные о геометрии встраиваются в механизм внимания сети, позволяя ей фокусироваться на тонких локальных изменениях формы и одновременно учитывать общую структуру лица. В итоге модель предсказывает координаты ключевых точек прямо из сырой геометрии - без шаблонов и текстур.

В тестах CF-GAT показала лучшую устойчивость к шумам и точнее определяла мелкие детали по сравнению с традиционными методами. Это критично для реалистичной мимики и точного отслеживания движений лица.

Результаты подтверждают очевидное: качественные большие датасеты напрямую влияют на производительность алгоритмов. Обучаясь на детальной реальной геометрии, модель улавливает более богатые пространственные паттерны и лучше адаптируется к разнообразию лиц.

Технология может сделать гуманоидных роботов более живыми, улучшить биометрические системы и добавить выразительности виртуальным аватарам. По мере того как андроиды проникают в развлечения, медицину и сферу услуг, именно геометрический интеллект будет определять, насколько естественными они покажутся людям.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K