Создание иллюстраций для научных статей остается одним из немногих процессов, требующих ручной работы исследователей. Команда Google Cloud AI Research и Пекинского университета решила эту проблему, разработав систему PaperBanana.
Система использует пять специализированных ИИ-агентов, каждый из которых выполняет свою задачу. Первый агент ищет похожие диаграммы в базе данных для использования в качестве шаблонов. Второй преобразует описание метода из статьи в детальное описание изображения. Третий улучшает это описание, используя эстетические рекомендации, извлеченные из публикаций NeurIPS. Четвертый агент создает само изображение, а пятый проверяет качество и предлагает исправления.

Для создания статистических графиков система использует другой подход - она генерирует код Python для библиотеки Matplotlib, что обеспечивает точность числовых данных.

Тестирование показало, что PaperBanana превосходит простые генераторы изображений по всем параметрам. Человеческие эксперты предпочли диаграммы PaperBanana в 73% случаев. Особенно заметные улучшения наблюдались в лаконичности (37.2%) и читаемости (12.9%).
Однако система имеет ограничения. Точность содержания достигает только 45.8%, что ниже человеческого уровня. Часто встречаются ошибки в деталях - неправильно выровненные линии или стрелки, направленные не туда. Кроме того, система создает растровые изображения вместо векторных, что затрудняет их последующее редактирование.

Интересно, что эстетические рекомендации системы можно использовать для улучшения существующих человеческих диаграмм. В тестах улучшенные версии побеждали оригиналы в 56.2% случаев по эстетическим критериям.

PaperBanana пока недоступна для публичного использования, так как работает на проприетарных моделях Google - Gemini-3-Pro и Nano-Banana-Pro. Тем не менее, это важный шаг в автоматизации научных публикаций, хотя и требующий дальнейшего совершенствования.
Смотрите также
-
Qualcomm и Arduino показали мощный конкурент Raspberry Pi с автономным ИИ
-
Microsoft запустила Copilot Health — ИИ-помощника для анализа медицинских данных
-
Китай обогнал Neuralink: одобрен первый в мире коммерческий нейроимплант
-
Perplexity запустила Personal Computer - ИИ-ассистента, который живёт на вашем Mac mini
-
Китайский робот Z1 меняет насадки за 6 секунд и работает на реальном производстве
-
Runpod раскрыл правду: какие AI-модели реально используют разработчики
-
Microsoft 365 получает премиум-подписку E7 с ИИ-агентами за $99 в месяц
-
Meta купила соцсеть, где постят только ИИ-агенты. Зачем?
-
Nvidia готовит NemoClaw - платформу для корпоративных AI-агентов