Alibaba исправляет ошибки ИИ в многоступенчатом анализе изображений

  ·   чтения   ·     ·  
Команда Qwen от Alibaba разработала фреймворк HopChain, который решает проблему накопления ошибок при многоэтапном анализе изображений нейросетями.
Alibaba исправляет ошибки ИИ в многоступенчатом анализе изображений

Когда нейросети анализируют изображения, небольшие ошибки восприятия имеют свойство накапливаться и приводить к неверным выводам. Команда Qwen от Alibaba совместно с Университетом Цинхуа разобралась в этой проблеме и создала решение под названием HopChain.

Почему модели ошибаются при сложном анализе

Современные мультимодальные модели (VLM) неплохо справляются с базовыми задачами по анализу изображений, но часто дают сбой, когда требуется выполнить несколько последовательных шагов рассуждения. Ошибки накапливаются как снежный ком: модель может неверно посчитать объекты, перепутать пространственные отношения или галлюцинировать несуществующие детали.

Вот несколько характерных примеров:
- Модель неправильно считает точки на божьих коровках, ошибаясь на одну точку для трех из пяти жуков
- Правильно определяет положение автомобиля, но интерпретирует его движение как выезд с парковки вместо заезда
- Указывает на неверную дугу в астрономической диаграмме и делает неправильный вывод о сезоне

Проблема в том, что одна ошибка в начале цепочки рассуждений приводит к неверному конечному результату, даже если логика самих рассуждений выглядит убедительно.

Как работает HopChain

Фреймворк HopChain автоматически генерирует вопросы по изображениям, где каждый шаг опирается на предыдущие результаты и заставляет модель постоянно перепроверять детали. Вопросы строятся по двум принципам:

  1. Чередование задач на распознавание одиночных объектов (чтение текста, определение цвета) и сравнение нескольких объектов (соотношение размеров, пространственное расположение)
  2. Создание цепочки зависимостей между объектами, где модель может найти следующий объект только через уже идентифицированные

Каждый вопрос заканчивается уникальным числовым ответом, который легко проверить автоматически. Например, модель сначала считает глаза на игрушечной овце, затем проверяет наличие текста на фоновой бумаге, считает глаза на кукле рядом, читает слово на листе бумаги перед второй куклой, выполняет арифметические действия и умножает результат на общее количество игрушечных фигурок в сцене.

Процесс создания данных включает четыре этапа с обязательной человеческой проверкой. В итоге получается 60-80 тысяч тренировочных примеров для каждой модели.

Результаты впечатляют: HopChain улучшил показатели в 20 из 24 тестовых наборов. Что интересно, хотя тренировочные данные содержат только статичные изображения, модели улучшили результаты и на 5 из 6 видео-тестов.

Исследование подтвердило, что полные цепочки вопросов критически важны - когда вопросы сокращались до последнего шага, средний балл падал с 70,4 до 64,3. А для особенно длинных цепочек рассуждений улучшение точности превышало 50 пунктов.

Визуальное восприятие остаётся ахиллесовой пятой современных моделей ИИ, что подтверждается и другими недавними исследованиями. Но подход HopChain показывает, что целенаправленная тренировка может существенно улучшить ситуацию.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K