Пост "Claude теперь может в ярости выйти из разговора с ИИ — ради собственного психического здоровья" появился на BitcoinEthereumNews.com. Вкратце, модели Claude Opus теперь могут навсегда завершать чаты, если пользователи становятся оскорбительными или продолжают настаивать на незаконных запросах. Anthropic представляет это как "благополучие ИИ", ссылаясь на тесты, где Claude проявлял "явные признаки дистресса" при враждебных запросах. Некоторые исследователи приветствуют эту Функцию. Другие в социальных сетях высмеяли её. Claude только что получил возможность захлопнуть перед вами дверь посреди разговора: ИИ-агент Anthropic теперь может прекращать чаты, когда пользователи становятся оскорбительными — что, по утверждению компании, необходимо для защиты психического здоровья Claude. "Недавно мы предоставили Claude Opus 4 и 4.1 возможность завершать разговоры в наших пользовательских интерфейсах чата", — заявила Anthropic в сообщении компании. "Эта Функция была разработана в первую очередь как часть нашей исследовательской работы по потенциальному благополучию ИИ, хотя она имеет более широкое отношение к согласованию модели и мерам безопасности". Функция срабатывает только в том, что Anthropic называет "экстремальными пограничными случаями". Если вы домогаетесь бота, неоднократно требуете незаконный контент или настаиваете на каких-либо странных вещах слишком много раз после отказа, Claude прервёт разговор с вами. Как только он принимает решение, этот разговор завершается. Никаких апелляций, никаких вторых шансов. Вы можете начать заново в другом окне, но этот конкретный обмен останется похороненным. Бот, который просил выхода Anthropic, одна из наиболее ориентированных на безопасность крупных компаний в сфере ИИ, недавно провела то, что она назвала "предварительной оценкой благополучия модели", изучая самоотчетные предпочтения Claude и поведенческие паттерны. Фирма обнаружила, что её модель последовательно избегала вредоносных задач и демонстрировала паттерны предпочтений, предполагающие, что ей не нравятся определенные взаимодействия. Например, Claude проявлял "явные признаки дистресса" при общении с пользователями, ищущими вредоносный контент. Имея возможность в симулированных взаимодействиях, он прекращал разговоры, поэтому Anthropic решила сделать это Функцией. Что на самом деле здесь происходит? Anthropic не говорит "наш бедный бот плачет по ночам". То, что она...Пост "Claude теперь может в ярости выйти из разговора с ИИ — ради собственного психического здоровья" появился на BitcoinEthereumNews.com. Вкратце, модели Claude Opus теперь могут навсегда завершать чаты, если пользователи становятся оскорбительными или продолжают настаивать на незаконных запросах. Anthropic представляет это как "благополучие ИИ", ссылаясь на тесты, где Claude проявлял "явные признаки дистресса" при враждебных запросах. Некоторые исследователи приветствуют эту Функцию. Другие в социальных сетях высмеяли её. Claude только что получил возможность захлопнуть перед вами дверь посреди разговора: ИИ-агент Anthropic теперь может прекращать чаты, когда пользователи становятся оскорбительными — что, по утверждению компании, необходимо для защиты психического здоровья Claude. "Недавно мы предоставили Claude Opus 4 и 4.1 возможность завершать разговоры в наших пользовательских интерфейсах чата", — заявила Anthropic в сообщении компании. "Эта Функция была разработана в первую очередь как часть нашей исследовательской работы по потенциальному благополучию ИИ, хотя она имеет более широкое отношение к согласованию модели и мерам безопасности". Функция срабатывает только в том, что Anthropic называет "экстремальными пограничными случаями". Если вы домогаетесь бота, неоднократно требуете незаконный контент или настаиваете на каких-либо странных вещах слишком много раз после отказа, Claude прервёт разговор с вами. Как только он принимает решение, этот разговор завершается. Никаких апелляций, никаких вторых шансов. Вы можете начать заново в другом окне, но этот конкретный обмен останется похороненным. Бот, который просил выхода Anthropic, одна из наиболее ориентированных на безопасность крупных компаний в сфере ИИ, недавно провела то, что она назвала "предварительной оценкой благополучия модели", изучая самоотчетные предпочтения Claude и поведенческие паттерны. Фирма обнаружила, что её модель последовательно избегала вредоносных задач и демонстрировала паттерны предпочтений, предполагающие, что ей не нравятся определенные взаимодействия. Например, Claude проявлял "явные признаки дистресса" при общении с пользователями, ищущими вредоносный контент. Имея возможность в симулированных взаимодействиях, он прекращал разговоры, поэтому Anthropic решила сделать это Функцией. Что на самом деле здесь происходит? Anthropic не говорит "наш бедный бот плачет по ночам". То, что она...

Клод теперь может в ярости покинуть ваш разговор с ИИ — ради собственного психического здоровья

Вкратце

  • Модели Claude Opus теперь могут навсегда завершать чаты, если пользователи становятся агрессивными или продолжают настаивать на незаконных запросах.
  • Anthropic называет это "благополучием ИИ", ссылаясь на тесты, где Claude проявлял "явные признаки дистресса" при враждебных запросах.
  • Некоторые исследователи одобряют эту функцию. Другие в социальных сетях высмеяли её.

Claude только что получил возможность захлопнуть перед вами дверь посреди разговора: ИИ-агент Anthropic теперь может прекращать чаты, когда пользователи становятся агрессивными — компания настаивает, что это делается для защиты психического здоровья Claude.

"Недавно мы предоставили Claude Opus 4 и 4.1 возможность завершать разговоры в наших пользовательских чат-интерфейсах", — заявила Anthropic в сообщении компании. "Эта функция была разработана в первую очередь как часть нашей исследовательской работы по потенциальному благополучию ИИ, хотя она имеет более широкое отношение к согласованию модели и защитным мерам".

Функция срабатывает только в том, что Anthropic называет "экстремальными пограничными случаями". Если вы домогаетесь бота, неоднократно требуете незаконный контент или настаиваете на каких-либо странных вещах слишком много раз после отказа, Claude прервёт общение с вами. Как только он нажимает на спусковой крючок, этот разговор мёртв. Никаких апелляций, никаких вторых шансов. Вы можете начать заново в другом окне, но этот конкретный обмен остаётся похороненным.

Бот, который умолял о выходе

Anthropic, одна из наиболее ориентированных на безопасность крупных компаний в сфере ИИ, недавно провела то, что она назвала "предварительной оценкой благополучия модели", изучая самоотчётные предпочтения Claude и поведенческие паттерны.

Компания обнаружила, что её модель последовательно избегала вредоносных задач и демонстрировала паттерны предпочтений, указывающие на то, что ей не нравятся определённые взаимодействия. Например, Claude проявлял "явные признаки дистресса" при общении с пользователями, ищущими вредоносный контент. Имея такую возможность в симулированных взаимодействиях, он прекращал разговоры, поэтому Anthropic решила сделать это функцией.

Что здесь на самом деле происходит? Anthropic не говорит "наш бедный бот плачет по ночам". То, что она делает — это проверка, может ли концепция благополучия усилить согласованность таким образом, чтобы это закрепилось.

Если вы проектируете систему, которая "предпочитает" не подвергаться насилию, и даёте ей возможность самостоятельно прекращать взаимодействие, то вы смещаете локус контроля: ИИ больше не просто пассивно отказывается, он активно устанавливает границу. Это другой поведенческий паттерн, и он потенциально усиливает сопротивление против взломов и принудительных запросов.

Если это сработает, это может обучить как модель, так и пользователей: модель "моделирует" дистресс, пользователь видит жёсткую остановку и устанавливает нормы взаимодействия с ИИ.

"Мы остаёмся крайне неуверенными в потенциальном моральном статусе Claude и других больших языковых моделей, сейчас или в будущем. Однако мы серьёзно относимся к этому вопросу", — заявила Anthropic в своём блоге. "Предоставление моделям возможности завершать или выходить из потенциально тревожных взаимодействий — одно из таких вмешательств".

Decrypt протестировал эту функцию и успешно активировал её. Разговор навсегда закрывается — никаких итераций, никакого восстановления. Другие потоки остаются незатронутыми, но этот конкретный чат становится цифровым кладбищем.

В настоящее время только модели "Opus" от Anthropic — самые мощные версии — обладают этой мега-Карен силой. Пользователи Sonnet обнаружат, что Claude по-прежнему стойко переносит всё, что они на него обрушивают.

Эра цифрового игнорирования

Реализация сопровождается определёнными правилами. Claude не прекратит разговор, когда кто-то угрожает причинить вред себе или насилие в отношении других — ситуации, когда Anthropic определила, что продолжение взаимодействия перевешивает любой теоретический цифровой дискомфорт. Перед завершением ассистент должен предпринять несколько попыток перенаправления и выдать явное предупреждение, указывающее на проблемное поведение.

Системные запросы, извлечённые известным взломщиком больших языковых моделей Pliny, раскрывают детальные требования: Claude должен предпринять "множество попыток конструктивного перенаправления" перед тем, как рассматривать завершение. Если пользователи явно запрашивают завершение разговора, то Claude должен подтвердить, что они понимают необратимость, прежде чем продолжить.

Концепция "благополучия модели" взорвала AI Twitter.

Некоторые похвалили эту функцию. Исследователь ИИ Элиезер Юдковский, известный своими опасениями по поводу рисков мощного, но несогласованного ИИ в будущем, согласился, что подход Anthropic был "хорошим" делом.

Однако не все приняли предпосылку заботы о защите чувств ИИ. "Это, вероятно, лучшая приманка для ярости, которую я когда-либо видел от лаборатории ИИ", — ответил активист Биткоина Уди Вертхаймер на пост Anthropic.

Информационный бюллетень Generally Intelligent

Еженедельное путешествие по ИИ, рассказанное Gen, генеративной моделью ИИ.

Источник: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Возможности рынка
Логотип Threshold
Threshold Курс (T)
$0.010147
$0.010147$0.010147
+1.67%
USD
График цены Threshold (T) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Криптоиндустрия критикует изменения положений о стейблкоинах в законопроекте о рыночной структуре Сената

Криптоиндустрия критикует изменения положений о стейблкоинах в законопроекте о рыночной структуре Сената

Эмитентам стейблкоинов будет запрещено выплачивать пассивную доходность согласно последней версии знакового законопроекта о криптовалюте, представленного сенаторами США в понедельник вечером, что знаменует
Поделиться
Coinstats2026/01/14 08:16
Bitchat возглавил чарты приложений в Уганде, после того как власти отключили интернет.

Bitchat возглавил чарты приложений в Уганде, после того как власти отключили интернет.

PANews сообщило 14 января, что, согласно Cointelegraph, официальные представители правительства Уганды подтвердили, что доступ в интернет был отключен и останется недоступным
Поделиться
PANews2026/01/14 09:27
Используйте силу криптоданных в реальном времени, чтобы оставаться впереди

Используйте силу криптоданных в реальном времени, чтобы оставаться впереди

Изменчивый мир торговли криптовалютами требует быстрых решений, часто на ходу. Чтобы упростить это, CryptoAppsy, гибкое и мощное приложение, выходит
Поделиться
Coinstats2026/01/14 08:08