AgentBench: решение для оценки агентных ИИ-систем

  ·   чтения   ·     ·  
Solo.io представила открытый фреймворк AgentBench для тестирования надежности ИИ-агентов перед внедрением в производственную среду
AgentBench: решение для оценки агентных ИИ-систем

В мире, где агентные ИИ-системы растут как грибы после дождя, появилась серьезная проблема: как оценить их эффективность и надежность? Компания Solo.io, известная своей облачной платформой Gloo, представила решение - открытый проект AgentBench.

Оценка как ключевая проблема агентного ИИ

"Оценка - это самая большая нерешенная проблема в инфраструктуре агентного ИИ сегодня", - заявила Идит Левин, основатель и CEO Solo.io. "У организаций есть фреймворки для создания агентов, шлюзы для их подключения и реестры для управления, но нет последовательного способа понять, достаточно ли надежен агент для использования в производственной среде".

Анонс проекта состоялся на конференции KubeCon Europe в Амстердаме. По словам Левин, автономные ИИ-системы создают новые вызовы для облачных операций: "Предприятия экспериментируют с ИИ-копилотами и инфраструктурными агентами, но им не хватает понимания того, как эти системы ведут себя при выполнении открытых задач".

AgentBench предоставляет фреймворк для тестирования эффективности ИИ-агентов в реальных рабочих процессах, таких как автоматизация инфраструктуры, оркестрация API и управление сервисами. Цель - дать командам стандартизированный способ измерения надежности, задержки и успешности автономных агентов перед их внедрением.

Фреймворк интегрируется с платформой Gloo и Envoy Proxy, что позволяет моделировать многоэтапные задачи: настройку микросервисов, обновление политик маршрутизации или устранение неполадок в кластерах Kubernetes в контролируемых условиях. Каждый запуск генерирует воспроизводимые логи, метрики и данные о результатах.

Solo.io утверждает, что "AgentBench - первый бенчмарк, разработанный для оценки LLM-as-Agent в различных средах", используя для этого OpenTelemetry. "Независимо от того, используете ли вы коммерческие API или открытые LLM вроде Llama 3, вам нужны прозрачные метрики для принятия решений", - отмечает Левин.

Помимо AgentBench, компания передала в дар Cloud Native Computing Foundation (CNCF) свой agentregistry - открытый реестр для ИИ-агентов, инструментов MCP и Agent Skills, который стандартизирует каталогизацию, обнаружение и управление ИИ-возможностями в масштабах предприятия.

AgentBench доступен на GitHub под лицензией Apache 2.0. Solo.io планирует сотрудничать с другими облачными вендорами и исследовательскими группами в области ИИ для расширения библиотеки тестов и интеграции с распространенными инструментами оценки машинного обучения.

В эпоху стремительного перехода к агентным вычислениям оба проекта, вероятно, найдут множество поклонников среди разработчиков и инженеров.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K