Google создала систему из пяти ИИ-агентов для автоматической генерации научных иллюстраций

  ·   чтения   ·     ·  
Новая система PaperBanana от Google автоматически создает научные иллюстрации с помощью пяти специализированных ИИ-агентов. Разработка призвана упростить процесс визуализации научных работ.
Google создала систему из пяти ИИ-агентов для автоматической генерации научных иллюстраций

Создание иллюстраций для научных статей остается одним из немногих процессов, требующих ручной работы исследователей. Команда Google Cloud AI Research и Пекинского университета решила эту проблему, разработав систему PaperBanana.

Система использует пять специализированных ИИ-агентов, каждый из которых выполняет свою задачу. Первый агент ищет похожие диаграммы в базе данных для использования в качестве шаблонов. Второй преобразует описание метода из статьи в детальное описание изображения. Третий улучшает это описание, используя эстетические рекомендации, извлеченные из публикаций NeurIPS. Четвертый агент создает само изображение, а пятый проверяет качество и предлагает исправления.

Скриншот содержит набор схем и графиков, демонстрирующих различные методологии и статистические данные.

Для создания статистических графиков система использует другой подход - она генерирует код Python для библиотеки Matplotlib, что обеспечивает точность числовых данных.

Схема фреймворка PaperBanana, описывающая этапы генерации иллюстраций с помощью ИИ.

Тестирование показало, что PaperBanana превосходит простые генераторы изображений по всем параметрам. Человеческие эксперты предпочли диаграммы PaperBanana в 73% случаев. Особенно заметные улучшения наблюдались в лаконичности (37.2%) и читаемости (12.9%).

Однако система имеет ограничения. Точность содержания достигает только 45.8%, что ниже человеческого уровня. Часто встречаются ошибки в деталях - неправильно выровненные линии или стрелки, направленные не туда. Кроме того, система создает растровые изображения вместо векторных, что затрудняет их последующее редактирование.

Сравнение графиков, сгенерированных вручную и кодом, демонстрирует их точность и визуальную привлекательность.

Интересно, что эстетические рекомендации системы можно использовать для улучшения существующих человеческих диаграмм. В тестах улучшенные версии побеждали оригиналы в 56.2% случаев по эстетическим критериям.

Диаграмма иллюстрирует сравнение подходов "Original" и "Enhanced" для системы PaperBanana.

PaperBanana пока недоступна для публичного использования, так как работает на проприетарных моделях Google - Gemini-3-Pro и Nano-Banana-Pro. Тем не менее, это важный шаг в автоматизации научных публикаций, хотя и требующий дальнейшего совершенствования.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K