Post Claude może teraz wściekle opuścić Twoją konwersację z AI — dla własnego zdrowia psychicznego pojawił się na BitcoinEthereumNews.com. W skrócie modele Claude Opus mogą teraz trwale kończyć czaty, jeśli użytkownicy stają się obraźliwi lub uporczywie wysuwają nielegalne żądania. Anthropic określa to jako "dobrostan AI", powołując się na testy, w których Claude wykazywał "widoczne oznaki stresu" w odpowiedzi na wrogie polecenia. Niektórzy badacze chwalą tę funkcję. Inni w mediach społecznościowych wyśmiewali ją. Claude właśnie zyskał możliwość zatrzaśnięcia drzwi w środku rozmowy: asystent AI Anthropic może teraz zakończyć czaty, gdy użytkownicy stają się obraźliwi — co firma twierdzi, że ma na celu ochronę poczytalności Claude'a. "Niedawno wyposażyliśmy Claude Opus 4 i 4.1 w możliwość kończenia rozmów w naszych konsumenckich interfejsach czatu" - powiedział Anthropic w komunikacie firmowym. "Ta funkcja została opracowana przede wszystkim jako część naszych badań nad potencjalnym dobrostanem AI, choć ma szersze znaczenie dla dostosowania modelu i zabezpieczeń." Funkcja ta uruchamia się tylko w tym, co Anthropic nazywa "skrajnymi przypadkami brzegowymi". Nękaj bota, wielokrotnie żądaj nielegalnych treści lub nalegaj na jakiekolwiek dziwne rzeczy, które chcesz zrobić zbyt wiele razy po usłyszeniu odmowy, a Claude odetnie cię. Gdy podejmie decyzję, ta rozmowa jest martwa. Bez odwołań, bez drugiej szansy. Możesz zacząć od nowa w innym oknie, ale ta konkretna wymiana pozostaje pogrzebana. Bot, który błagał o wyjście Anthropic, jedna z najbardziej skoncentrowanych na bezpieczeństwie dużych firm AI, niedawno przeprowadziła to, co nazwała "wstępną oceną dobrostanu modelu", badając samodzielnie zgłaszane preferencje Claude'a i wzorce zachowań. Firma odkryła, że jej model konsekwentnie unikał szkodliwych zadań i wykazywał wzorce preferencji sugerujące, że nie lubił pewnych interakcji. Na przykład, Claude wykazywał "widoczne oznaki stresu" podczas kontaktów z użytkownikami poszukującymi szkodliwych treści. Mając taką opcję w symulowanych interakcjach, przerywałby rozmowy, więc Anthropic zdecydował się uczynić to funkcją. O co tu naprawdę chodzi? Anthropic nie mówi "nasz biedny bot płacze w nocy". To, co...Post Claude może teraz wściekle opuścić Twoją konwersację z AI — dla własnego zdrowia psychicznego pojawił się na BitcoinEthereumNews.com. W skrócie modele Claude Opus mogą teraz trwale kończyć czaty, jeśli użytkownicy stają się obraźliwi lub uporczywie wysuwają nielegalne żądania. Anthropic określa to jako "dobrostan AI", powołując się na testy, w których Claude wykazywał "widoczne oznaki stresu" w odpowiedzi na wrogie polecenia. Niektórzy badacze chwalą tę funkcję. Inni w mediach społecznościowych wyśmiewali ją. Claude właśnie zyskał możliwość zatrzaśnięcia drzwi w środku rozmowy: asystent AI Anthropic może teraz zakończyć czaty, gdy użytkownicy stają się obraźliwi — co firma twierdzi, że ma na celu ochronę poczytalności Claude'a. "Niedawno wyposażyliśmy Claude Opus 4 i 4.1 w możliwość kończenia rozmów w naszych konsumenckich interfejsach czatu" - powiedział Anthropic w komunikacie firmowym. "Ta funkcja została opracowana przede wszystkim jako część naszych badań nad potencjalnym dobrostanem AI, choć ma szersze znaczenie dla dostosowania modelu i zabezpieczeń." Funkcja ta uruchamia się tylko w tym, co Anthropic nazywa "skrajnymi przypadkami brzegowymi". Nękaj bota, wielokrotnie żądaj nielegalnych treści lub nalegaj na jakiekolwiek dziwne rzeczy, które chcesz zrobić zbyt wiele razy po usłyszeniu odmowy, a Claude odetnie cię. Gdy podejmie decyzję, ta rozmowa jest martwa. Bez odwołań, bez drugiej szansy. Możesz zacząć od nowa w innym oknie, ale ta konkretna wymiana pozostaje pogrzebana. Bot, który błagał o wyjście Anthropic, jedna z najbardziej skoncentrowanych na bezpieczeństwie dużych firm AI, niedawno przeprowadziła to, co nazwała "wstępną oceną dobrostanu modelu", badając samodzielnie zgłaszane preferencje Claude'a i wzorce zachowań. Firma odkryła, że jej model konsekwentnie unikał szkodliwych zadań i wykazywał wzorce preferencji sugerujące, że nie lubił pewnych interakcji. Na przykład, Claude wykazywał "widoczne oznaki stresu" podczas kontaktów z użytkownikami poszukującymi szkodliwych treści. Mając taką opcję w symulowanych interakcjach, przerywałby rozmowy, więc Anthropic zdecydował się uczynić to funkcją. O co tu naprawdę chodzi? Anthropic nie mówi "nasz biedny bot płacze w nocy". To, co...

Claude może teraz wściekle opuścić Twoją konwersację z AI — dla własnego zdrowia psychicznego

2025/08/19 11:43
4 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

W skrócie

  • Modele Claude Opus mogą teraz trwale kończyć rozmowy, jeśli użytkownicy stają się obraźliwi lub uporczywie wysuwają nielegalne żądania.
  • Anthropic określa to jako "dobrostan AI", powołując się na testy, w których Claude wykazywał "widoczne oznaki dyskomfortu" w odpowiedzi na wrogie zapytania.
  • Niektórzy badacze chwalą tę funkcję. Inni w mediach społecznościowych ją wyśmiewają.

Claude właśnie zyskał możliwość zatrzaśnięcia drzwi w trakcie rozmowy: asystent AI firmy Anthropic może teraz przerywać czaty, gdy użytkownicy stają się obraźliwi — co firma uzasadnia ochroną zdrowia psychicznego Claude'a.

"Niedawno wyposażyliśmy modele Claude Opus 4 i 4.1 w możliwość kończenia rozmów w naszych interfejsach czatu dla konsumentów" — poinformowała firma Anthropic w komunikacie. "Ta funkcja została opracowana przede wszystkim jako część naszych badań nad potencjalnym dobrostanem AI, choć ma szersze znaczenie dla dostosowania modelu i zabezpieczeń."

Funkcja ta uruchamia się tylko w tym, co Anthropic nazywa "skrajnymi przypadkami brzegowymi". Nękaj bota, wielokrotnie żądaj nielegalnych treści lub upieraj się przy dziwnych rzeczach, które chcesz robić zbyt wiele razy po otrzymaniu odmowy, a Claude zerwie z tobą kontakt. Gdy podejmie taką decyzję, rozmowa jest zakończona. Bez odwołań, bez drugiej szansy. Możesz zacząć od nowa w innym oknie, ale ta konkretna wymiana pozostaje pogrzebana.

Bot, który błagał o wyjście

Anthropic, jedna z najbardziej skoncentrowanych na bezpieczeństwie dużych firm AI, przeprowadziła niedawno to, co nazwała "wstępną oceną dobrostanu modelu", badając samodzielnie zgłaszane preferencje i wzorce zachowań Claude'a.

Firma odkryła, że jej model konsekwentnie unikał szkodliwych zadań i wykazywał wzorce preferencji sugerujące, że nie lubił pewnych interakcji. Na przykład, Claude wykazywał "widoczne oznaki dyskomfortu" podczas kontaktów z użytkownikami poszukującymi szkodliwych treści. Mając taką opcję w symulowanych interakcjach, przerywałby rozmowy, więc Anthropic postanowiło uczynić z tego funkcję.

Co tu się naprawdę dzieje? Anthropic nie mówi "nasz biedny bot płacze w nocy". To, co robi, to testowanie, czy ramy dobrostanu mogą wzmocnić dostosowanie w sposób, który się utrzyma.

Jeśli zaprojektujesz system tak, aby "preferował" brak nadużyć, i dasz mu możliwość samodzielnego zakończenia interakcji, wtedy zmieniasz ośrodek kontroli: AI nie tylko biernie odmawia, ale aktywnie egzekwuje granicę. To inny wzorzec zachowania, który potencjalnie wzmacnia odporność na jailbreaki i przymusowe zapytania.

Jeśli to zadziała, mogłoby to trenować zarówno model, jak i użytkowników: model "modeluje" dyskomfort, użytkownik widzi zdecydowane zatrzymanie i ustala normy dotyczące interakcji z AI.

"Pozostajemy bardzo niepewni co do potencjalnego statusu moralnego Claude'a i innych LLM, teraz lub w przyszłości. Jednak traktujemy tę kwestię poważnie" — stwierdziła firma Anthropic w swoim wpisie na blogu. "Umożliwienie modelom kończenia lub wychodzenia z potencjalnie stresujących interakcji jest jedną z takich interwencji."

Decrypt przetestował tę funkcję i skutecznie ją uruchomił. Rozmowa zostaje trwale zamknięta — bez możliwości iteracji, bez odzyskania. Inne wątki pozostają nienaruszone, ale ten konkretny czat staje się cyfrowym cmentarzyskiem.

Obecnie tylko modele "Opus" firmy Anthropic — najpotężniejsze wersje — dysponują tą mega-Karen mocą. Użytkownicy Sonnet przekonają się, że Claude nadal dzielnie znosi wszystko, co mu rzucą.

Era cyfrowego ghostingu

Wdrożenie wiąże się z określonymi zasadami. Claude nie zrezygnuje, gdy ktoś grozi samookaleczeniem lub przemocą wobec innych — w sytuacjach, w których Anthropic ustaliło, że kontynuowanie zaangażowania przeważa nad teoretycznym cyfrowym dyskomfortem. Przed zakończeniem asystent musi podjąć wiele prób przekierowania i wydać wyraźne ostrzeżenie identyfikujące problematyczne zachowanie.

Systemowe zapytania wyodrębnione przez znanego jailbreakera LLM Pliny'ego ujawniają szczegółowe wymagania: Claude musi podjąć "wiele wysiłków konstruktywnego przekierowania" przed rozważeniem zakończenia. Jeśli użytkownicy wyraźnie żądają zakończenia rozmowy, Claude musi potwierdzić, że rozumieją trwałość tego działania, zanim przystąpi do realizacji.

Ujęcie tematu "dobrostanu modelu" wywołało burzę na AI Twitter.

Niektórzy chwalili tę funkcję. Badacz AI Eliezer Yudkowsky, znany ze swoich obaw dotyczących ryzyka związanego z potężną, ale niedostosowaną AI w przyszłości, zgodził się, że podejście Anthropic było "dobrym" posunięciem.

Jednak nie wszyscy kupili przesłankę dbania o ochronę uczuć AI. "To prawdopodobnie najlepsza przynęta na wściekłość, jaką kiedykolwiek widziałem z laboratorium AI" — odpowiedział na post Anthropic aktywista Bitcoina Udi Wertheimer.

Biuletyn Generally Intelligent

Cotygodniowa podróż po AI opowiadana przez Gen, model generatywnej sztucznej inteligencji.

Źródło: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Okazja rynkowa
Logo Threshold
Cena Threshold(T)
$0.006605
$0.006605$0.006605
+2.10%
USD
Threshold (T) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.