Claude może teraz wściekle opuścić Twoją konwersację z AI — dla własnego zdrowia psychicznego

W skrócie

Modele Claude Opus mogą teraz trwale kończyć rozmowy, jeśli użytkownicy stają się obraźliwi lub uporczywie wysuwają nielegalne żądania.
Anthropic określa to jako "dobrostan AI", powołując się na testy, w których Claude wykazywał "widoczne oznaki dyskomfortu" w odpowiedzi na wrogie zapytania.
Niektórzy badacze chwalą tę funkcję. Inni w mediach społecznościowych ją wyśmiewają.

Claude właśnie zyskał możliwość zatrzaśnięcia drzwi w trakcie rozmowy: asystent AI firmy Anthropic może teraz przerywać czaty, gdy użytkownicy stają się obraźliwi — co firma uzasadnia ochroną zdrowia psychicznego Claude'a.

"Niedawno wyposażyliśmy modele Claude Opus 4 i 4.1 w możliwość kończenia rozmów w naszych interfejsach czatu dla konsumentów" — poinformowała firma Anthropic w komunikacie. "Ta funkcja została opracowana przede wszystkim jako część naszych badań nad potencjalnym dobrostanem AI, choć ma szersze znaczenie dla dostosowania modelu i zabezpieczeń."

Funkcja ta uruchamia się tylko w tym, co Anthropic nazywa "skrajnymi przypadkami brzegowymi". Nękaj bota, wielokrotnie żądaj nielegalnych treści lub upieraj się przy dziwnych rzeczach, które chcesz robić zbyt wiele razy po otrzymaniu odmowy, a Claude zerwie z tobą kontakt. Gdy podejmie taką decyzję, rozmowa jest zakończona. Bez odwołań, bez drugiej szansy. Możesz zacząć od nowa w innym oknie, ale ta konkretna wymiana pozostaje pogrzebana.

Bot, który błagał o wyjście

Anthropic, jedna z najbardziej skoncentrowanych na bezpieczeństwie dużych firm AI, przeprowadziła niedawno to, co nazwała "wstępną oceną dobrostanu modelu", badając samodzielnie zgłaszane preferencje i wzorce zachowań Claude'a.

Firma odkryła, że jej model konsekwentnie unikał szkodliwych zadań i wykazywał wzorce preferencji sugerujące, że nie lubił pewnych interakcji. Na przykład, Claude wykazywał "widoczne oznaki dyskomfortu" podczas kontaktów z użytkownikami poszukującymi szkodliwych treści. Mając taką opcję w symulowanych interakcjach, przerywałby rozmowy, więc Anthropic postanowiło uczynić z tego funkcję.

Co tu się naprawdę dzieje? Anthropic nie mówi "nasz biedny bot płacze w nocy". To, co robi, to testowanie, czy ramy dobrostanu mogą wzmocnić dostosowanie w sposób, który się utrzyma.

Jeśli zaprojektujesz system tak, aby "preferował" brak nadużyć, i dasz mu możliwość samodzielnego zakończenia interakcji, wtedy zmieniasz ośrodek kontroli: AI nie tylko biernie odmawia, ale aktywnie egzekwuje granicę. To inny wzorzec zachowania, który potencjalnie wzmacnia odporność na jailbreaki i przymusowe zapytania.

Jeśli to zadziała, mogłoby to trenować zarówno model, jak i użytkowników: model "modeluje" dyskomfort, użytkownik widzi zdecydowane zatrzymanie i ustala normy dotyczące interakcji z AI.

"Pozostajemy bardzo niepewni co do potencjalnego statusu moralnego Claude'a i innych LLM, teraz lub w przyszłości. Jednak traktujemy tę kwestię poważnie" — stwierdziła firma Anthropic w swoim wpisie na blogu. "Umożliwienie modelom kończenia lub wychodzenia z potencjalnie stresujących interakcji jest jedną z takich interwencji."

Decrypt przetestował tę funkcję i skutecznie ją uruchomił. Rozmowa zostaje trwale zamknięta — bez możliwości iteracji, bez odzyskania. Inne wątki pozostają nienaruszone, ale ten konkretny czat staje się cyfrowym cmentarzyskiem.

Obecnie tylko modele "Opus" firmy Anthropic — najpotężniejsze wersje — dysponują tą mega-Karen mocą. Użytkownicy Sonnet przekonają się, że Claude nadal dzielnie znosi wszystko, co mu rzucą.

Era cyfrowego ghostingu

Wdrożenie wiąże się z określonymi zasadami. Claude nie zrezygnuje, gdy ktoś grozi samookaleczeniem lub przemocą wobec innych — w sytuacjach, w których Anthropic ustaliło, że kontynuowanie zaangażowania przeważa nad teoretycznym cyfrowym dyskomfortem. Przed zakończeniem asystent musi podjąć wiele prób przekierowania i wydać wyraźne ostrzeżenie identyfikujące problematyczne zachowanie.

Systemowe zapytania wyodrębnione przez znanego jailbreakera LLM Pliny'ego ujawniają szczegółowe wymagania: Claude musi podjąć "wiele wysiłków konstruktywnego przekierowania" przed rozważeniem zakończenia. Jeśli użytkownicy wyraźnie żądają zakończenia rozmowy, Claude musi potwierdzić, że rozumieją trwałość tego działania, zanim przystąpi do realizacji.

Ujęcie tematu "dobrostanu modelu" wywołało burzę na AI Twitter.

Niektórzy chwalili tę funkcję. Badacz AI Eliezer Yudkowsky, znany ze swoich obaw dotyczących ryzyka związanego z potężną, ale niedostosowaną AI w przyszłości, zgodził się, że podejście Anthropic było "dobrym" posunięciem.

Jednak nie wszyscy kupili przesłankę dbania o ochronę uczuć AI. "To prawdopodobnie najlepsza przynęta na wściekłość, jaką kiedykolwiek widziałem z laboratorium AI" — odpowiedział na post Anthropic aktywista Bitcoina Udi Wertheimer.

Biuletyn Generally Intelligent

Cotygodniowa podróż po AI opowiadana przez Gen, model generatywnej sztucznej inteligencji.

Źródło: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Claude może teraz wściekle opuścić Twoją konwersację z AI — dla własnego zdrowia psychicznego

W skrócie

Bot, który błagał o wyjście

Era cyfrowego ghostingu

Biuletyn Generally Intelligent

Możesz także polubić

Dla Morosa ceną pokoju jest życie

Konfiguracja Claude & TradingView pokazuje przepływ pracy asystenta handlowego AI

Sky jest notowany 29,52% powyżej naszej prognozy cenowej na 14 maja 2026 r.

Popularne wiadomości

Rynek odzyskuje 1 bln USD, gdy hossa napędza APEMARS do 3 090% ROI, wzrost XRP i Canton

Analiza dlaczego odbudowa Dogecoin zależy od przebicia przez DOGE TEGO kluczowego poziomu!

Globalne złote ETF-y odnotowały napływy w wysokości 6,6 mld USD w kwietniu, odwracając odpływy z marca

ICP spada poniżej ceny prywatnej sprzedaży z 2018 roku, gdy poziomy oporu rosną

Evernorth twierdzi, że prawdziwa historia XRP to instytucjonalna infrastruktura

Wiadomości na żywo 24/7

Ceny kryptowalut