Компания Moonshot AI разработала новый тестовый набор WorldVQA для проверки способностей мультимодальных языковых моделей распознавать визуальные объекты. Набор включает 3500 пар изображений и вопросов из девяти категорий: природа, архитектура, культура, искусство, бренды, спорт и известные личности.
Главная особенность WorldVQA в том, что он требует точных, конкретных ответов. Недостаточно назвать собаку породы Бишон Фризе просто "собакой" - модель должна указать точную породу. То же самое касается видов птиц, растений и других объектов.

Результаты тестирования оказались неутешительными. Даже лидеры рейтинга - Google Gemini 3 Pro с результатом 47.4% и Kimi K2.5 с 46.3% - не смогли преодолеть отметку в 50% правильных ответов. Claude Opus 4.5 от Anthropic показал результат 36.8%, а GPT-5.2 от OpenAI - всего 28%.

Модели показали относительно хорошие результаты в распознавании брендов и спортивной тематики - областях, широко представленных в тренировочных данных. Однако они значительно хуже справляются с определением объектов природы и культурного наследия, часто используя общие термины вместо точных названий.
Особую тревогу вызывает то, что модели систематически переоценивают свою точность. Например, Gemini 3 Pro в 85% случаев заявляла об уверенности выше 95%, независимо от правильности ответа. Лучший показатель самооценки у Kimi K2.5, но и у неё ошибка калибровки составляет 37.9%.

Эти результаты указывают на серьезную проблему: современные ИИ-модели не способны адекватно оценивать границы собственных знаний. Это ограничивает их практическое применение, особенно в задачах, требующих надежного распознавания объектов реального мира.

Исследователи отмечают, что сложность теста связана именно с недостатком знаний у моделей, а не с неоднозначностью изображений или ошибками разметки. Чем реже объект встречается в обучающих данных, тем сложнее моделям его распознать.
Смотрите также
-
Luma выпустила UNI-1 - модель, которая понимает и рисует одновременно
-
Ностальгия по пикселям: как превратить битвы из Game Boy в детализированные картины с помощью ИИ
-
Google выкатил Nano Banana 2 - теперь ИИ рисует еще реалистичнее
-
PewDiePie обучил свою ИИ-модель дома и обошёл ChatGPT (правда, спалив видеокарту)
-
Собака научилась кодить игры с помощью Claude AI (и это не шутка)
-
Приложение научилось находить умные очки Meta поблизости
-
Lockheed Martin испытала ИИ-помощника для пилотов F-35
-
Meta запатентовала технологию симуляции умерших людей с помощью ИИ
-
Новый детектор ИИ-изображений ищет фейки в базе разоблачённых картинок