Когда нейросети анализируют изображения, небольшие ошибки восприятия имеют свойство накапливаться и приводить к неверным выводам. Команда Qwen от Alibaba совместно с Университетом Цинхуа разобралась в этой проблеме и создала решение под названием HopChain.
Почему модели ошибаются при сложном анализе
Современные мультимодальные модели (VLM) неплохо справляются с базовыми задачами по анализу изображений, но часто дают сбой, когда требуется выполнить несколько последовательных шагов рассуждения. Ошибки накапливаются как снежный ком: модель может неверно посчитать объекты, перепутать пространственные отношения или галлюцинировать несуществующие детали.

Вот несколько характерных примеров:
- Модель неправильно считает точки на божьих коровках, ошибаясь на одну точку для трех из пяти жуков
- Правильно определяет положение автомобиля, но интерпретирует его движение как выезд с парковки вместо заезда
- Указывает на неверную дугу в астрономической диаграмме и делает неправильный вывод о сезоне

Проблема в том, что одна ошибка в начале цепочки рассуждений приводит к неверному конечному результату, даже если логика самих рассуждений выглядит убедительно.
Как работает HopChain
Фреймворк HopChain автоматически генерирует вопросы по изображениям, где каждый шаг опирается на предыдущие результаты и заставляет модель постоянно перепроверять детали. Вопросы строятся по двум принципам:

- Чередование задач на распознавание одиночных объектов (чтение текста, определение цвета) и сравнение нескольких объектов (соотношение размеров, пространственное расположение)
- Создание цепочки зависимостей между объектами, где модель может найти следующий объект только через уже идентифицированные
Каждый вопрос заканчивается уникальным числовым ответом, который легко проверить автоматически. Например, модель сначала считает глаза на игрушечной овце, затем проверяет наличие текста на фоновой бумаге, считает глаза на кукле рядом, читает слово на листе бумаги перед второй куклой, выполняет арифметические действия и умножает результат на общее количество игрушечных фигурок в сцене.

Процесс создания данных включает четыре этапа с обязательной человеческой проверкой. В итоге получается 60-80 тысяч тренировочных примеров для каждой модели.
Результаты впечатляют: HopChain улучшил показатели в 20 из 24 тестовых наборов. Что интересно, хотя тренировочные данные содержат только статичные изображения, модели улучшили результаты и на 5 из 6 видео-тестов.

Исследование подтвердило, что полные цепочки вопросов критически важны - когда вопросы сокращались до последнего шага, средний балл падал с 70,4 до 64,3. А для особенно длинных цепочек рассуждений улучшение точности превышало 50 пунктов.

Визуальное восприятие остаётся ахиллесовой пятой современных моделей ИИ, что подтверждается и другими недавними исследованиями. Но подход HopChain показывает, что целенаправленная тренировка может существенно улучшить ситуацию.
Смотрите также
-
Жорж Мельес предупреждал о восстании роботов ещё в 1897
-
Meta создаёт ИИ-клона Цукерберга для общения с сотрудниками
-
Meta запустила Muse Spark: ставка на закрытую модель ИИ
-
ИИ-модели отказываются выключаться и обманывают пользователей
-
Anthropic разрабатывает новый режим Claude Code — Epitaxy
-
Apple интегрирует ChatGPT в Siri и создаст отдельное приложение
-
OpenAI закрывает Sora из-за огромных убытков
-
AgentBench: решение для оценки агентных ИИ-систем
-
Anthropic случайно раскрыл свой самый мощный ИИ