AgentBench
в каталоге с 2026Ученые создали полигон для проверки искусственного интеллекта на профпригодность

AgentBench

Оцените первым
Бизнес-модель
Бесплатно

AgentBench - это открытый бенчмарк для оценки языковых моделей в роли автономных агентов. Его создали в университете Цинхуа, чтобы проверить, насколько хорошо LLM справляются с реальными задачами в разных средах - от работы с операционной системой до взаимодействия с базами данных и веб-интерфейсами.

Сервис включает восемь разнообразных окружений: пять новых (работа с ОС, базами данных, графами знаний, цифровая карточная игра и головоломки на нестандартное мышление) и три адаптированных из существующих датасетов (домашние дела, веб-шопинг, веб-браузинг). Это позволяет протестировать модели в условиях, максимально приближенных к реальным сценариям использования.

В октябре 2024 года вышла обновленная версия AgentBench FC, которая использует формат function calling и полностью контейнеризованное развертывание через Docker Compose. Теперь можно запустить все тестовые окружения одной командой, что упрощает процесс оценки моделей. Также появилась расширенная версия VisualAgentBench для тестирования мультимодальных моделей в визуальных средах - от управления роботами до работы с GUI и веб-дизайном.

AgentBench предоставляет два набора данных для каждой задачи: Dev и Test. Результаты тестирования публикуются в открытом лидерборде, где можно сравнить производительность разных моделей. Весь код доступен на GitHub под открытой лицензией, что делает бенчмарк удобным инструментом для исследователей и разработчиков, которые работают над созданием AI-агентов.

Похожие нейросети

Все нейросети →
Freemium

Cline

Интеллектуальный помощник для кодинга со встроенной интеграцией в VS Code. Работает с полным доступом к репозиториям, ускоряя разработку и автоматизируя рутинные задачи программирования.

Обн. 04.06.2026
Freemium

Overscale

Сервис для улучшения качества изображений с помощью ИИ. Позволяет увеличить разрешение фото в 2 или 4 раза, повысить четкость и детализацию за считанные секунды.

Обн. 04.06.2026
Платный

Midjourney

Одна из самых популярных нейросетей для генерации изображений и видео

Обн. 01.06.2026
Бесплатно

Как упростить жизнь с помощью нейросетей - Тинькофф Журнал

Этот бесплатный курс “Как упростить жизнь с помощью нейросетей” на платформе Тинькофф Журнала поможет вам разобраться, что такое нейросети и как передать им часть своих задач, чтобы превратить искусственный интеллект в помощника и упростить свою жизнь.

Обн. 25.05.2026

Нейросеть AgentBench была впервые опубликована 28-03-2026 19:49:04 и вручную отредактирована 04-05-2026 17:20:58.

Каталог приложений Telegram Mini Apps

340+ проверенных мини-приложений: нейросети, утилиты, игры. Открываются прямо в мессенджере — без установки.

Открыть →

Поддержите Ailibri

Если наш каталог оказался полезным, вы можете оставить небольшой донат. Это поможет нам развивать проект.

♥ Поддержать

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

Подписаться
Бесплатно · Нейросеть

Генерация изображений прямо в Telegram

3 бесплатные генерации в день через нейросеть nano banana — просто подпишись на канал @n_seti

Быстро Точно Качественно
Попробовать @gen_neurosila_bot

Нейросети и ИИ-инструменты

Все теги →
github212 text-to-text136 text-to-image111 каталог29 image-to-image23 инструмент20 курсы19 создание чат-ботов15 браузер15 удалить фон14 text-to-sound12 text-to-video11 замена лица11 gpt-49 desktop-приложение9 ии-музыка9 аниме9 удалить объект с фото8 google8 создание сайтов7
AILibri – главная страница
Ctrl / ⌘+K