Как скрипт Карпати провел 50 экспериментов без участия человека

  ·   чтения   ·     ·  
Андрей Карпати создал автономную систему для ML-исследований, которая меняет подход к экспериментам. Разбираемся в принципах работы AutoResearch.
Как скрипт Карпати провел 50 экспериментов без участия человека

7 марта Андрей Карпати загрузил на GitHub Python-скрипт из 630 строк и лег спать. К утру его агент самостоятельно провел 50 экспериментов, нашел лучшую скорость обучения и зафиксировал результаты в git - все без единой человеческой инструкции.

Хотя в сети обсуждают прежде всего автономные ML-исследования, гораздо важнее базовый шаблон проектирования и 40-строчный Markdown-файл, который сделал все это возможным.

Андрей Карпати, автор концепции автоматизации экспериментов через AI-агентов, выступает с презентацией.

Что такое цикл Карпати?

AutoResearch изначально решал узкую задачу. Карпати предобучал небольшие языковые модели-трансформеры и тратил много времени на ручной цикл: изменение гиперпараметра, запуск модели, анализ метрики валидации, принятие решения о сохранении изменений, и повторение.

Репозиторий полностью автоматизирует этот процесс. Скрипт обучения - упрощенная версия nanochat (минималистичного фреймворка Карпати для обучения LLM), оптимизированная для одного GPU. Ключевая метрика - val_bpb (validation bits per byte), которая не зависит от размера словаря, что позволяет агенту менять токенизацию или архитектуру между запусками и получать корректное сравнение.

Типичная сессия выполняет около 12 экспериментов в час. За ночь на одном GPU можно провести 80-100 экспериментов, исследуя пространство конфигураций, на которое у человека ушло бы несколько рабочих дней. Но главное - решение Карпати применимо не только к предобучению языковых моделей.

AutoResearch построен на трех ключевых примитивах:

  1. Редактируемый актив - единственный файл, который агент может изменять. Это ограничение делает пространство поиска интерпретируемым, а каждую гипотезу можно проверить как diff.

  2. Скалярная метрика - единственное число, определяющее, было ли изменение улучшением. Она должна вычисляться без человеческой оценки и иметь однозначное направление.

  3. Ограниченный по времени цикл - фиксированная продолжительность делает все эксперименты напрямую сравнимыми, независимо от того, что изменил агент.

Именно эти три элемента вместе, а не сам агент, GPU или архитектура модели, делают цикл применимым за пределами обучения ML.

Markdown как интерфейс человек-агент

Самый недооцененный файл в репозитории AutoResearch - не train.py, а program.md. Этот документ одновременно содержит инструкции (что агент должен искать), ограничения (что нельзя менять) и критерии остановки (когда цикл должен завершиться и отчитаться). Markdown находится на идеальном пересечении человеческой редактируемости и машинной читаемости.

Эта тенденция уже заметна в экосистеме инструментов: CLAUDE.md в репозиториях Claude Code, файлы правил в Cursor, пользовательские инструкции в GitHub Copilot. Команды по всей индустрии независимо приходят к одному выводу: структурированные документы на естественном языке - самый надежный способ кодировать человеческие намерения для автономных агентов.

Написание хорошего program.md становится навыком с наибольшим влиянием в цикле автономных экспериментов. Документ должен быть достаточно точным, чтобы ограничить поиск, достаточно гибким, чтобы допускать открытия, и явно описывать условия неудачи. Это не мягкий навык, а инженерная работа, которая производит текст вместо кода.

Применение за пределами ML

Цикл Карпати применим к любой системе с редактируемым активом, измеримым скалярным результатом и ограниченным по времени циклом оценки:

  • Оптимизация запросов к базам данных: редактируемый актив - файл конфигурации запроса, метрика - p95 задержка, временной бюджет - время выполнения эталонного теста.

  • Маршрутизация тикетов поддержки: редактируемый актив - правила маршрутизации, метрика - точность на контрольном наборе, цикл - время работы классификатора.

  • Настройка RAG-пайплайнов: редактируемый актив - конфигурация извлечения, метрика - оценка достоверности от LLM-судьи, ограничение - корпус документов и набор вопросов.

Харрисон Чейс, основатель LangChain, уже адаптировал этот подход для оптимизации агентов в своем проекте autoresearch-agents.

Роль человека смещается к дизайну экспериментов. Исследователь решает, что фиксировать, что варьировать, что измерять и чего агенту не следует касаться. Результат сессии - не обученная модель, а git-лог проверенных решений, каждый коммит в котором представляет изменение, улучшившее метрику.

Для инженеров платформ и ML-практиков шаблоны в AutoResearch немедленно применимы. Карпати показал, что разрыв между "ручным проведением экспериментов" и "автономным проведением экспериментов агентом" меньше, чем предполагает большинство команд, а основные инвестиции требуются в создание документов, а не инфраструктуры.

Блок-схема цикла Карпати, иллюстрирующая процесс автоматизации экспериментов AI-агентом через Markdown-файл и проверку метрик.

По мере развития автономных экспериментальных циклов, умение писать четкие, ограничивающие, версионируемые инструкции будет определять, какие команды получат надежные результаты, а какие - уверенно оптимизированный шум.

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K