GeoAgent - это модель, которая определяет местоположение по фотографии и объясняет свой вывод так, как это сделал бы человек. Вместо того чтобы просто выдать координаты, она рассуждает: замечает архитектуру, растительность, дорожные знаки, язык на вывесках - и шаг за шагом приходит к точному адресу.
Большинство подобных моделей учатся на синтетических данных, сгенерированных ИИ, что приводит к ошибкам в логике и противоречиям в выводах. GeoAgent тренируется на датасете GeoSeek, который собрали географы и профессиональные игроки в геолокационные игры. Это 10 тысяч примеров реальных рассуждений - как люди анализируют снимки, какие детали замечают, как делают выводы.
Модель использует два специальных механизма обучения. Первый - geo-similarity reward - учит её сходиться к правильному ответу не только формально, но и с точки зрения географии: чтобы выводы были логичными и физически обоснованными. Второй - consistency reward - следит за целостностью рассуждений: если модель заметила горы и назвала регион, она не должна потом противоречить сама себе.
В результате GeoAgent превосходит существующие методы и общие визуально-языковые модели в точности определения местоположения на разных уровнях детализации - от страны до конкретной улицы. При этом её рассуждения читаются естественно, как если бы их писал человек, а не машина.