Anthropic выяснила: красивый ответ ИИ усыпляет бдительность пользователей

  ·   чтения   ·     ·  
Новое исследование показало, что чем профессиональнее выглядит результат работы Claude, тем реже люди проверяют его на ошибки.
Anthropic выяснила: красивый ответ ИИ усыпляет бдительность пользователей

Anthropic опубликовала любопытный "Индекс владения ИИ" - исследование того, насколько грамотно люди на самом деле используют AI-инструменты. Проанализировали почти 10 000 анонимных диалогов с Claude за январь, и вот что обнаружили.

Главный парадокс: когда Claude выдает красиво оформленный результат - код, документ, интерактивный виджет - пользователи расслабляются и перестают его проверять. В 12,3% разговоров Claude генерировал такие "артефакты", и да, люди в этих случаях давали более точные инструкции в начале. Но критическое мышление куда-то испарялось.

Цифры говорят сами за себя: в диалогах с артефактами пользователи на 5,2% реже замечали недостающий контекст, на 3,7% реже проверяли факты и на 3,1% реже подвергали сомнению логику ИИ. Выглядит готово - значит, готово. Хотя по собственным данным Anthropic, Claude как раз на сложных задачах спотыкается чаще всего.

Возможно, дело в том, что для UI-дизайна или кода эстетика важнее фактической точности. Или люди просто проверяют результат за пределами чата - запускают код в отдельной среде, например.

Зато есть и хорошая новость: 85,7% разговоров показали признаки итерации - когда пользователь постепенно шлифует результат, а не хватает первый ответ и убегает. В таких диалогах люди демонстрировали в среднем 2,67 признака компетентного использования ИИ против 1,33 в разговорах без итераций. Особенно заметна разница в критическом подходе: те, кто итерировал, в 5,6 раз чаще оспаривали рассуждения Claude и в 4 раза чаще указывали на пробелы в контексте.

Гистограмма распространенности поведенческих индикаторов взаимодействия пользователей с ИИ.

Еще один пробел: только в 30% случаев пользователи объясняли Claude правила игры - что-то вроде "Возражай, если мои предположения неверны" или "Объясни свою логику, прежде чем давать ответ". А ведь такое "рулевое управление" может изменить весь характер беседы.

Anthropic дает три рекомендации: считать первый ответ черновиком, особенно придирчиво проверять красиво оформленные результаты и сразу оговаривать условия сотрудничества.

Правда, есть нюанс: слишком длинный диалог в одном чате бьет по качеству. Множество исследований показывают, что когда в окне контекста накапливается куча нерелевантной информации, качество ответов ИИ падает. Так что настоящее мастерство - это еще и понимание, когда пора начать новый чат вместо того, чтобы тащить раздутый разговор дальше.

Кстати, Anthropic смогла отследить только 11 из 24 признаков грамотного использования ИИ, описанных в их фреймворке. Остальные 13 - включая "самые важные", вроде честности о том, что контент создан ИИ, когда делишься им с другими - происходят за пределами чата. Их планируют изучать качественными методами.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K