В мире, где агентные ИИ-системы растут как грибы после дождя, появилась серьезная проблема: как оценить их эффективность и надежность? Компания Solo.io, известная своей облачной платформой Gloo, представила решение - открытый проект AgentBench.
Оценка как ключевая проблема агентного ИИ
"Оценка - это самая большая нерешенная проблема в инфраструктуре агентного ИИ сегодня", - заявила Идит Левин, основатель и CEO Solo.io. "У организаций есть фреймворки для создания агентов, шлюзы для их подключения и реестры для управления, но нет последовательного способа понять, достаточно ли надежен агент для использования в производственной среде".
Анонс проекта состоялся на конференции KubeCon Europe в Амстердаме. По словам Левин, автономные ИИ-системы создают новые вызовы для облачных операций: "Предприятия экспериментируют с ИИ-копилотами и инфраструктурными агентами, но им не хватает понимания того, как эти системы ведут себя при выполнении открытых задач".
AgentBench предоставляет фреймворк для тестирования эффективности ИИ-агентов в реальных рабочих процессах, таких как автоматизация инфраструктуры, оркестрация API и управление сервисами. Цель - дать командам стандартизированный способ измерения надежности, задержки и успешности автономных агентов перед их внедрением.
Фреймворк интегрируется с платформой Gloo и Envoy Proxy, что позволяет моделировать многоэтапные задачи: настройку микросервисов, обновление политик маршрутизации или устранение неполадок в кластерах Kubernetes в контролируемых условиях. Каждый запуск генерирует воспроизводимые логи, метрики и данные о результатах.

Solo.io утверждает, что "AgentBench - первый бенчмарк, разработанный для оценки LLM-as-Agent в различных средах", используя для этого OpenTelemetry. "Независимо от того, используете ли вы коммерческие API или открытые LLM вроде Llama 3, вам нужны прозрачные метрики для принятия решений", - отмечает Левин.
Помимо AgentBench, компания передала в дар Cloud Native Computing Foundation (CNCF) свой agentregistry - открытый реестр для ИИ-агентов, инструментов MCP и Agent Skills, который стандартизирует каталогизацию, обнаружение и управление ИИ-возможностями в масштабах предприятия.
AgentBench доступен на GitHub под лицензией Apache 2.0. Solo.io планирует сотрудничать с другими облачными вендорами и исследовательскими группами в области ИИ для расширения библиотеки тестов и интеграции с распространенными инструментами оценки машинного обучения.
В эпоху стремительного перехода к агентным вычислениям оба проекта, вероятно, найдут множество поклонников среди разработчиков и инженеров.
Смотрите также
-
Engramme запустил API для доступа к цифровой памяти
-
Alibaba исправляет ошибки ИИ в многоступенчатом анализе изображений
-
ИИ-модели отказываются выключаться и обманывают пользователей
-
OpenAI закрывает Sora из-за огромных убытков
-
Google готовит новые функции Gemini для бизнеса
-
Mistral выпустил Voxtral — ИИ для клонирования голоса
-
Википедия запретила создание статей с помощью нейросетей
-
Виды механизмов внимания в современных LLM
-
MiniMax M2.7 помогал разрабатывать сам себя