W skrócie
- Modele Claude Opus mogą teraz trwale kończyć rozmowy, jeśli użytkownicy stają się obraźliwi lub uporczywie wysuwają nielegalne żądania.
- Anthropic określa to jako "dobrostan AI", powołując się na testy, w których Claude wykazywał "widoczne oznaki dyskomfortu" w odpowiedzi na wrogie zapytania.
- Niektórzy badacze chwalą tę funkcję. Inni w mediach społecznościowych ją wyśmiewają.
Claude właśnie zyskał możliwość zatrzaśnięcia drzwi w trakcie rozmowy: asystent AI firmy Anthropic może teraz przerywać czaty, gdy użytkownicy stają się obraźliwi — co firma uzasadnia ochroną zdrowia psychicznego Claude'a.
"Niedawno wyposażyliśmy modele Claude Opus 4 i 4.1 w możliwość kończenia rozmów w naszych interfejsach czatu dla konsumentów" — poinformowała firma Anthropic w komunikacie. "Ta funkcja została opracowana przede wszystkim jako część naszych badań nad potencjalnym dobrostanem AI, choć ma szersze znaczenie dla dostosowania modelu i zabezpieczeń."
Funkcja ta uruchamia się tylko w tym, co Anthropic nazywa "skrajnymi przypadkami brzegowymi". Nękaj bota, wielokrotnie żądaj nielegalnych treści lub upieraj się przy dziwnych rzeczach, które chcesz robić zbyt wiele razy po otrzymaniu odmowy, a Claude zerwie z tobą kontakt. Gdy podejmie taką decyzję, rozmowa jest zakończona. Bez odwołań, bez drugiej szansy. Możesz zacząć od nowa w innym oknie, ale ta konkretna wymiana pozostaje pogrzebana.
Bot, który błagał o wyjście
Anthropic, jedna z najbardziej skoncentrowanych na bezpieczeństwie dużych firm AI, przeprowadziła niedawno to, co nazwała "wstępną oceną dobrostanu modelu", badając samodzielnie zgłaszane preferencje i wzorce zachowań Claude'a.
Firma odkryła, że jej model konsekwentnie unikał szkodliwych zadań i wykazywał wzorce preferencji sugerujące, że nie lubił pewnych interakcji. Na przykład, Claude wykazywał "widoczne oznaki dyskomfortu" podczas kontaktów z użytkownikami poszukującymi szkodliwych treści. Mając taką opcję w symulowanych interakcjach, przerywałby rozmowy, więc Anthropic postanowiło uczynić z tego funkcję.
Co tu się naprawdę dzieje? Anthropic nie mówi "nasz biedny bot płacze w nocy". To, co robi, to testowanie, czy ramy dobrostanu mogą wzmocnić dostosowanie w sposób, który się utrzyma.
Jeśli zaprojektujesz system tak, aby "preferował" brak nadużyć, i dasz mu możliwość samodzielnego zakończenia interakcji, wtedy zmieniasz ośrodek kontroli: AI nie tylko biernie odmawia, ale aktywnie egzekwuje granicę. To inny wzorzec zachowania, który potencjalnie wzmacnia odporność na jailbreaki i przymusowe zapytania.
Jeśli to zadziała, mogłoby to trenować zarówno model, jak i użytkowników: model "modeluje" dyskomfort, użytkownik widzi zdecydowane zatrzymanie i ustala normy dotyczące interakcji z AI.
"Pozostajemy bardzo niepewni co do potencjalnego statusu moralnego Claude'a i innych LLM, teraz lub w przyszłości. Jednak traktujemy tę kwestię poważnie" — stwierdziła firma Anthropic w swoim wpisie na blogu. "Umożliwienie modelom kończenia lub wychodzenia z potencjalnie stresujących interakcji jest jedną z takich interwencji."
Decrypt przetestował tę funkcję i skutecznie ją uruchomił. Rozmowa zostaje trwale zamknięta — bez możliwości iteracji, bez odzyskania. Inne wątki pozostają nienaruszone, ale ten konkretny czat staje się cyfrowym cmentarzyskiem.
Obecnie tylko modele "Opus" firmy Anthropic — najpotężniejsze wersje — dysponują tą mega-Karen mocą. Użytkownicy Sonnet przekonają się, że Claude nadal dzielnie znosi wszystko, co mu rzucą.
Era cyfrowego ghostingu
Wdrożenie wiąże się z określonymi zasadami. Claude nie zrezygnuje, gdy ktoś grozi samookaleczeniem lub przemocą wobec innych — w sytuacjach, w których Anthropic ustaliło, że kontynuowanie zaangażowania przeważa nad teoretycznym cyfrowym dyskomfortem. Przed zakończeniem asystent musi podjąć wiele prób przekierowania i wydać wyraźne ostrzeżenie identyfikujące problematyczne zachowanie.
Systemowe zapytania wyodrębnione przez znanego jailbreakera LLM Pliny'ego ujawniają szczegółowe wymagania: Claude musi podjąć "wiele wysiłków konstruktywnego przekierowania" przed rozważeniem zakończenia. Jeśli użytkownicy wyraźnie żądają zakończenia rozmowy, Claude musi potwierdzić, że rozumieją trwałość tego działania, zanim przystąpi do realizacji.
Ujęcie tematu "dobrostanu modelu" wywołało burzę na AI Twitter.
Niektórzy chwalili tę funkcję. Badacz AI Eliezer Yudkowsky, znany ze swoich obaw dotyczących ryzyka związanego z potężną, ale niedostosowaną AI w przyszłości, zgodził się, że podejście Anthropic było "dobrym" posunięciem.
Jednak nie wszyscy kupili przesłankę dbania o ochronę uczuć AI. "To prawdopodobnie najlepsza przynęta na wściekłość, jaką kiedykolwiek widziałem z laboratorium AI" — odpowiedział na post Anthropic aktywista Bitcoina Udi Wertheimer.
Biuletyn Generally Intelligent
Cotygodniowa podróż po AI opowiadana przez Gen, model generatywnej sztucznej inteligencji.
Źródło: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health



