Даже лучшие ИИ-модели не могут точно распознавать объекты на изображениях

  ·   чтения   ·     ·  
Новый тест WorldVQA показал, что современные мультимодальные модели искусственного интеллекта правильно распознают визуальные объекты менее чем в 50% случаев, несмотря на высокую самооценку своих способностей.
Даже лучшие ИИ-модели не могут точно распознавать объекты на изображениях

Компания Moonshot AI разработала новый тестовый набор WorldVQA для проверки способностей мультимодальных языковых моделей распознавать визуальные объекты. Набор включает 3500 пар изображений и вопросов из девяти категорий: природа, архитектура, культура, искусство, бренды, спорт и известные личности.

Главная особенность WorldVQA в том, что он требует точных, конкретных ответов. Недостаточно назвать собаку породы Бишон Фризе просто "собакой" - модель должна указать точную породу. То же самое касается видов птиц, растений и других объектов.

Набор из восьми изображений, используемых в тестовом наборе WorldVQA для оценки мультимодальных языковых моделей.

Результаты тестирования оказались неутешительными. Даже лидеры рейтинга - Google Gemini 3 Pro с результатом 47.4% и Kimi K2.5 с 46.3% - не смогли преодолеть отметку в 50% правильных ответов. Claude Opus 4.5 от Anthropic показал результат 36.8%, а GPT-5.2 от OpenAI - всего 28%.

Гистограмма, сравнивающая точность распознавания визуальных объектов различными моделями ИИ.

Модели показали относительно хорошие результаты в распознавании брендов и спортивной тематики - областях, широко представленных в тренировочных данных. Однако они значительно хуже справляются с определением объектов природы и культурного наследия, часто используя общие термины вместо точных названий.

Особую тревогу вызывает то, что модели систематически переоценивают свою точность. Например, Gemini 3 Pro в 85% случаев заявляла об уверенности выше 95%, независимо от правильности ответа. Лучший показатель самооценки у Kimi K2.5, но и у неё ошибка калибровки составляет 37.9%.

Диаграмма оценок WorldVQA, показывающая производительность мультимодальных моделей по различным категориям.

Эти результаты указывают на серьезную проблему: современные ИИ-модели не способны адекватно оценивать границы собственных знаний. Это ограничивает их практическое применение, особенно в задачах, требующих надежного распознавания объектов реального мира.

График сравнения фактической точности и заявленной уверенности различных мультимодальных языковых моделей.

Исследователи отмечают, что сложность теста связана именно с недостатком знаний у моделей, а не с неоднозначностью изображений или ошибками разметки. Чем реже объект встречается в обучающих данных, тем сложнее моделям его распознать.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K