Вкратце
- Модели Claude Opus теперь могут навсегда завершать чаты, если пользователи становятся агрессивными или продолжают настаивать на незаконных запросах.
- Anthropic называет это "благополучием ИИ", ссылаясь на тесты, где Claude проявлял "явные признаки дистресса" при враждебных запросах.
- Некоторые исследователи одобряют эту функцию. Другие в социальных сетях высмеяли её.
Claude только что получил возможность захлопнуть перед вами дверь посреди разговора: ИИ-агент Anthropic теперь может прекращать чаты, когда пользователи становятся агрессивными — компания настаивает, что это делается для защиты психического здоровья Claude.
"Недавно мы предоставили Claude Opus 4 и 4.1 возможность завершать разговоры в наших пользовательских чат-интерфейсах", — заявила Anthropic в сообщении компании. "Эта функция была разработана в первую очередь как часть нашей исследовательской работы по потенциальному благополучию ИИ, хотя она имеет более широкое отношение к согласованию модели и защитным мерам".
Функция срабатывает только в том, что Anthropic называет "экстремальными пограничными случаями". Если вы домогаетесь бота, неоднократно требуете незаконный контент или настаиваете на каких-либо странных вещах слишком много раз после отказа, Claude прервёт общение с вами. Как только он нажимает на спусковой крючок, этот разговор мёртв. Никаких апелляций, никаких вторых шансов. Вы можете начать заново в другом окне, но этот конкретный обмен остаётся похороненным.
Бот, который умолял о выходе
Anthropic, одна из наиболее ориентированных на безопасность крупных компаний в сфере ИИ, недавно провела то, что она назвала "предварительной оценкой благополучия модели", изучая самоотчётные предпочтения Claude и поведенческие паттерны.
Компания обнаружила, что её модель последовательно избегала вредоносных задач и демонстрировала паттерны предпочтений, указывающие на то, что ей не нравятся определённые взаимодействия. Например, Claude проявлял "явные признаки дистресса" при общении с пользователями, ищущими вредоносный контент. Имея такую возможность в симулированных взаимодействиях, он прекращал разговоры, поэтому Anthropic решила сделать это функцией.
Что здесь на самом деле происходит? Anthropic не говорит "наш бедный бот плачет по ночам". То, что она делает — это проверка, может ли концепция благополучия усилить согласованность таким образом, чтобы это закрепилось.
Если вы проектируете систему, которая "предпочитает" не подвергаться насилию, и даёте ей возможность самостоятельно прекращать взаимодействие, то вы смещаете локус контроля: ИИ больше не просто пассивно отказывается, он активно устанавливает границу. Это другой поведенческий паттерн, и он потенциально усиливает сопротивление против взломов и принудительных запросов.
Если это сработает, это может обучить как модель, так и пользователей: модель "моделирует" дистресс, пользователь видит жёсткую остановку и устанавливает нормы взаимодействия с ИИ.
"Мы остаёмся крайне неуверенными в потенциальном моральном статусе Claude и других больших языковых моделей, сейчас или в будущем. Однако мы серьёзно относимся к этому вопросу", — заявила Anthropic в своём блоге. "Предоставление моделям возможности завершать или выходить из потенциально тревожных взаимодействий — одно из таких вмешательств".
Decrypt протестировал эту функцию и успешно активировал её. Разговор навсегда закрывается — никаких итераций, никакого восстановления. Другие потоки остаются незатронутыми, но этот конкретный чат становится цифровым кладбищем.
В настоящее время только модели "Opus" от Anthropic — самые мощные версии — обладают этой мега-Карен силой. Пользователи Sonnet обнаружат, что Claude по-прежнему стойко переносит всё, что они на него обрушивают.
Эра цифрового игнорирования
Реализация сопровождается определёнными правилами. Claude не прекратит разговор, когда кто-то угрожает причинить вред себе или насилие в отношении других — ситуации, когда Anthropic определила, что продолжение взаимодействия перевешивает любой теоретический цифровой дискомфорт. Перед завершением ассистент должен предпринять несколько попыток перенаправления и выдать явное предупреждение, указывающее на проблемное поведение.
Системные запросы, извлечённые известным взломщиком больших языковых моделей Pliny, раскрывают детальные требования: Claude должен предпринять "множество попыток конструктивного перенаправления" перед тем, как рассматривать завершение. Если пользователи явно запрашивают завершение разговора, то Claude должен подтвердить, что они понимают необратимость, прежде чем продолжить.
Концепция "благополучия модели" взорвала AI Twitter.
Некоторые похвалили эту функцию. Исследователь ИИ Элиезер Юдковский, известный своими опасениями по поводу рисков мощного, но несогласованного ИИ в будущем, согласился, что подход Anthropic был "хорошим" делом.
Однако не все приняли предпосылку заботы о защите чувств ИИ. "Это, вероятно, лучшая приманка для ярости, которую я когда-либо видел от лаборатории ИИ", — ответил активист Биткоина Уди Вертхаймер на пост Anthropic.
Информационный бюллетень Generally Intelligent
Еженедельное путешествие по ИИ, рассказанное Gen, генеративной моделью ИИ.
Источник: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health



