Claude ahora puede abandonar furiosamente tu conversación con IA—Por su propia salud mental

En breve

Los modelos Claude Opus ahora pueden terminar permanentemente los chats si los usuarios se vuelven abusivos o insisten en solicitudes ilegales.
Anthropic lo presenta como "bienestar de la IA", citando pruebas donde Claude mostró "angustia aparente" bajo indicaciones hostiles.
Algunos investigadores aplauden esta característica. Otros en redes sociales se burlaron de ella.

Claude acaba de obtener el poder de cerrarte la puerta en medio de una conversación: el Agente de IA de Anthropic ahora puede terminar chats cuando los usuarios se vuelven abusivos—lo que la compañía insiste es para proteger la cordura de Claude.

"Recientemente le dimos a Claude Opus 4 y 4.1 la capacidad de finalizar conversaciones en nuestras interfaces de chat para consumidores", dijo Anthropic en una publicación de la empresa. "Esta característica fue desarrollada principalmente como parte de nuestro trabajo exploratorio sobre el potencial bienestar de la IA, aunque tiene una relevancia más amplia para la alineación del modelo y las salvaguardas".

La característica solo se activa durante lo que Anthropic llama "casos extremos". Acosa al bot, solicita contenido ilegal repetidamente, o insiste en cualquier cosa extraña que quieras hacer demasiadas veces después de recibir una negativa, y Claude te cortará. Una vez que activa el mecanismo, esa conversación está muerta. Sin apelaciones, sin segundas oportunidades. Puedes comenzar de nuevo en otra ventana, pero ese intercambio particular queda enterrado.

El bot que suplicó una salida

Anthropic, una de las grandes empresas de IA más centradas en la seguridad, realizó recientemente lo que llamó una "evaluación preliminar de bienestar del modelo", examinando las preferencias autoinformadas de Claude y sus patrones de comportamiento.

La empresa descubrió que su modelo evitaba constantemente tareas dañinas y mostraba patrones de preferencia que sugerían que no disfrutaba de ciertas interacciones. Por ejemplo, Claude mostró "angustia aparente" al tratar con usuarios que buscaban contenido dañino. Dada la opción en interacciones simuladas, terminaría las conversaciones, por lo que Anthropic decidió convertirlo en una característica.

¿Qué está pasando realmente aquí? Anthropic no está diciendo "nuestro pobre bot llora por la noche". Lo que está haciendo es probar si el marco de bienestar puede reforzar la alineación de una manera que perdure.

Si diseñas un sistema para "preferir" no ser abusado, y le das la capacidad de finalizar la interacción por sí mismo, entonces estás cambiando el centro de control: la IA ya no está simplemente rechazando pasivamente, está imponiendo activamente un límite. Ese es un patrón de comportamiento diferente, y potencialmente fortalece la resistencia contra jailbreaks y indicaciones coercitivas.

Si esto funciona, podría entrenar tanto al modelo como a los usuarios: el modelo "modela" la angustia, el usuario ve un límite estricto y establece normas sobre cómo interactuar con la IA.

"Seguimos muy inciertos sobre el posible estatus moral de Claude y otros LLM, ahora o en el futuro. Sin embargo, nos tomamos el asunto en serio", dijo Anthropic en su publicación de blog. "Permitir que los modelos finalicen o salgan de interacciones potencialmente angustiantes es una de esas intervenciones".

Decrypt probó la característica y la activó con éxito. La conversación se cierra permanentemente—sin iteración, sin recuperación. Otros hilos permanecen sin afectar, pero ese chat específico se convierte en un cementerio digital.

Actualmente, solo los modelos "Opus" de Anthropic—las versiones más potentes—ejercen este poder mega-Karen. Los usuarios de Sonnet encontrarán que Claude sigue resistiendo a través de lo que sea que le lancen.

La era del ghosting digital

La implementación viene con reglas específicas. Claude no abandonará cuando alguien amenace con autolesionarse o con violencia contra otros—situaciones donde Anthropic determinó que el compromiso continuo supera cualquier incomodidad digital teórica. Antes de terminar, el asistente debe intentar múltiples redirecciones y emitir una advertencia explícita identificando el comportamiento problemático.

Las indicaciones del sistema extraídas por el reconocido jailbreaker de LLM Pliny revelan requisitos granulares: Claude debe hacer "muchos esfuerzos de redirección constructiva" antes de considerar la terminación. Si los usuarios solicitan explícitamente la terminación de la conversación, entonces Claude debe confirmar que entienden la permanencia antes de proceder.

El marco alrededor del "bienestar del modelo" detonó en X.

Algunos elogiaron la característica. El investigador de IA Eliezer Yudkowsky, conocido por sus preocupaciones sobre los riesgos de una IA poderosa pero desalineada en el futuro, estuvo de acuerdo en que el enfoque de Anthropic era una cosa "buena" de hacer.

Sin embargo, no todos compraron la premisa de preocuparse por proteger los sentimientos de una IA. "Este es probablemente el mejor cebo de rabia que he visto de un laboratorio de IA", respondió el activista de Bitcoin Udi Wertheimer a la publicación de Anthropic.

Boletín Generally Intelligent

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

Fuente: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Claude ahora puede abandonar furiosamente tu conversación con IA—Por su propia salud mental

En breve

El bot que suplicó una salida

La era del ghosting digital

Boletín Generally Intelligent

También te puede interesar

La Rupia India Cae a Mínimos Históricos ante la Presión del Rally del Petróleo Crudo

Tres hombres de Tennessee imputados por una serie de robos de criptomonedas por valor de 6,5 millones de dólares

La Demanda Minorista de Bitcoin Muestra Señales de Recuperación, pero las Entradas de Capital Siguen Siendo Modestas: Analista

Noticias en tendencia

Nigeria invierte 9 millones de dólares en investigación para impulsar ambiciones de economía digital

XRP Ledger Foundation Incorpora a David Schwartz en una Reorganización de Liderazgo

SUI Sube un 40%: Firma de Análisis Explica Qué Está Impulsando el Rally

Las acciones de Archer Aviation (ACHR) suben tras superar las ganancias mientras el lanzamiento del taxi aéreo se acerca

Precio de XRP Hoy: Ripple a $1.46 Tras la Recuperación Semanal Desde $1.38 – El Voto del Jueves Podría Cambiarlo Todo

Noticias en vivo 24/7

Precios de criptos