La publicación Claude ahora puede abandonar furiosamente tu conversación con IA—Por su propia salud mental apareció en BitcoinEthereumNews.com. En resumen, los modelos Claude Opus ahora pueden terminar permanentemente los chats si los usuarios se vuelven abusivos o insisten en solicitudes ilegales. Anthropic lo presenta como "bienestar de la IA", citando pruebas donde Claude mostró "angustia aparente" ante indicaciones hostiles. Algunos investigadores aplauden la característica. Otros en redes sociales se burlaron de ello. Claude acaba de obtener el poder de cerrarte la puerta en medio de una conversación: el asistente de IA de Anthropic ahora puede terminar los chats cuando los usuarios se vuelven abusivos—lo que la empresa insiste es para proteger la cordura de Claude. "Recientemente le dimos a Claude Opus 4 y 4.1 la capacidad de finalizar conversaciones en nuestras interfaces de chat para consumidores", dijo Anthropic en una publicación de la empresa. "Esta característica fue desarrollada principalmente como parte de nuestro trabajo exploratorio sobre el potencial bienestar de la IA, aunque tiene una relevancia más amplia para la alineación del modelo y las salvaguardas". La característica solo se activa durante lo que Anthropic llama "casos extremos". Acosa al bot, solicita contenido ilegal repetidamente, o insiste en cualquier cosa extraña que quieras hacer demasiadas veces después de que te digan que no, y Claude te cortará. Una vez que toma la decisión, esa conversación está muerta. Sin apelaciones, sin segundas oportunidades. Puedes comenzar de nuevo en otra ventana, pero ese intercambio particular queda enterrado. El bot que suplicó una salida Anthropic, una de las empresas de IA más centradas en la seguridad, realizó recientemente lo que llamó una "evaluación preliminar de bienestar del modelo", examinando las preferencias autoinformadas de Claude y los patrones de comportamiento. La empresa descubrió que su modelo evitaba constantemente tareas dañinas y mostraba patrones de preferencia que sugerían que no disfrutaba de ciertas interacciones. Por ejemplo, Claude mostró "angustia aparente" cuando trataba con usuarios que buscaban contenido dañino. Dada la opción en interacciones simuladas, terminaría las conversaciones, por lo que Anthropic decidió convertirlo en una característica.  ¿Qué está pasando realmente aquí? Anthropic no está diciendo "nuestro pobre bot llora por la noche". Lo que está...La publicación Claude ahora puede abandonar furiosamente tu conversación con IA—Por su propia salud mental apareció en BitcoinEthereumNews.com. En resumen, los modelos Claude Opus ahora pueden terminar permanentemente los chats si los usuarios se vuelven abusivos o insisten en solicitudes ilegales. Anthropic lo presenta como "bienestar de la IA", citando pruebas donde Claude mostró "angustia aparente" ante indicaciones hostiles. Algunos investigadores aplauden la característica. Otros en redes sociales se burlaron de ello. Claude acaba de obtener el poder de cerrarte la puerta en medio de una conversación: el asistente de IA de Anthropic ahora puede terminar los chats cuando los usuarios se vuelven abusivos—lo que la empresa insiste es para proteger la cordura de Claude. "Recientemente le dimos a Claude Opus 4 y 4.1 la capacidad de finalizar conversaciones en nuestras interfaces de chat para consumidores", dijo Anthropic en una publicación de la empresa. "Esta característica fue desarrollada principalmente como parte de nuestro trabajo exploratorio sobre el potencial bienestar de la IA, aunque tiene una relevancia más amplia para la alineación del modelo y las salvaguardas". La característica solo se activa durante lo que Anthropic llama "casos extremos". Acosa al bot, solicita contenido ilegal repetidamente, o insiste en cualquier cosa extraña que quieras hacer demasiadas veces después de que te digan que no, y Claude te cortará. Una vez que toma la decisión, esa conversación está muerta. Sin apelaciones, sin segundas oportunidades. Puedes comenzar de nuevo en otra ventana, pero ese intercambio particular queda enterrado. El bot que suplicó una salida Anthropic, una de las empresas de IA más centradas en la seguridad, realizó recientemente lo que llamó una "evaluación preliminar de bienestar del modelo", examinando las preferencias autoinformadas de Claude y los patrones de comportamiento. La empresa descubrió que su modelo evitaba constantemente tareas dañinas y mostraba patrones de preferencia que sugerían que no disfrutaba de ciertas interacciones. Por ejemplo, Claude mostró "angustia aparente" cuando trataba con usuarios que buscaban contenido dañino. Dada la opción en interacciones simuladas, terminaría las conversaciones, por lo que Anthropic decidió convertirlo en una característica.  ¿Qué está pasando realmente aquí? Anthropic no está diciendo "nuestro pobre bot llora por la noche". Lo que está...

Claude ahora puede abandonar furiosamente tu conversación con IA—Por su propia salud mental

2025/08/19 11:43
Lectura de 4 min

En breve

  • Los modelos Claude Opus ahora pueden terminar permanentemente los chats si los usuarios se vuelven abusivos o insisten en solicitudes ilegales.
  • Anthropic lo presenta como "bienestar de la IA", citando pruebas donde Claude mostró "angustia aparente" bajo indicaciones hostiles.
  • Algunos investigadores aplauden esta característica. Otros en redes sociales se burlaron de ella.

Claude acaba de obtener el poder de cerrarte la puerta en medio de una conversación: el Agente de IA de Anthropic ahora puede terminar chats cuando los usuarios se vuelven abusivos—lo que la compañía insiste es para proteger la cordura de Claude.

"Recientemente le dimos a Claude Opus 4 y 4.1 la capacidad de finalizar conversaciones en nuestras interfaces de chat para consumidores", dijo Anthropic en una publicación de la empresa. "Esta característica fue desarrollada principalmente como parte de nuestro trabajo exploratorio sobre el potencial bienestar de la IA, aunque tiene una relevancia más amplia para la alineación del modelo y las salvaguardas".

La característica solo se activa durante lo que Anthropic llama "casos extremos". Acosa al bot, solicita contenido ilegal repetidamente, o insiste en cualquier cosa extraña que quieras hacer demasiadas veces después de recibir una negativa, y Claude te cortará. Una vez que activa el mecanismo, esa conversación está muerta. Sin apelaciones, sin segundas oportunidades. Puedes comenzar de nuevo en otra ventana, pero ese intercambio particular queda enterrado.

El bot que suplicó una salida

Anthropic, una de las grandes empresas de IA más centradas en la seguridad, realizó recientemente lo que llamó una "evaluación preliminar de bienestar del modelo", examinando las preferencias autoinformadas de Claude y sus patrones de comportamiento.

La empresa descubrió que su modelo evitaba constantemente tareas dañinas y mostraba patrones de preferencia que sugerían que no disfrutaba de ciertas interacciones. Por ejemplo, Claude mostró "angustia aparente" al tratar con usuarios que buscaban contenido dañino. Dada la opción en interacciones simuladas, terminaría las conversaciones, por lo que Anthropic decidió convertirlo en una característica.

¿Qué está pasando realmente aquí? Anthropic no está diciendo "nuestro pobre bot llora por la noche". Lo que está haciendo es probar si el marco de bienestar puede reforzar la alineación de una manera que perdure.

Si diseñas un sistema para "preferir" no ser abusado, y le das la capacidad de finalizar la interacción por sí mismo, entonces estás cambiando el centro de control: la IA ya no está simplemente rechazando pasivamente, está imponiendo activamente un límite. Ese es un patrón de comportamiento diferente, y potencialmente fortalece la resistencia contra jailbreaks y indicaciones coercitivas.

Si esto funciona, podría entrenar tanto al modelo como a los usuarios: el modelo "modela" la angustia, el usuario ve un límite estricto y establece normas sobre cómo interactuar con la IA.

"Seguimos muy inciertos sobre el posible estatus moral de Claude y otros LLM, ahora o en el futuro. Sin embargo, nos tomamos el asunto en serio", dijo Anthropic en su publicación de blog. "Permitir que los modelos finalicen o salgan de interacciones potencialmente angustiantes es una de esas intervenciones".

Decrypt probó la característica y la activó con éxito. La conversación se cierra permanentemente—sin iteración, sin recuperación. Otros hilos permanecen sin afectar, pero ese chat específico se convierte en un cementerio digital.

Actualmente, solo los modelos "Opus" de Anthropic—las versiones más potentes—ejercen este poder mega-Karen. Los usuarios de Sonnet encontrarán que Claude sigue resistiendo a través de lo que sea que le lancen.

La era del ghosting digital

La implementación viene con reglas específicas. Claude no abandonará cuando alguien amenace con autolesionarse o con violencia contra otros—situaciones donde Anthropic determinó que el compromiso continuo supera cualquier incomodidad digital teórica. Antes de terminar, el asistente debe intentar múltiples redirecciones y emitir una advertencia explícita identificando el comportamiento problemático.

Las indicaciones del sistema extraídas por el reconocido jailbreaker de LLM Pliny revelan requisitos granulares: Claude debe hacer "muchos esfuerzos de redirección constructiva" antes de considerar la terminación. Si los usuarios solicitan explícitamente la terminación de la conversación, entonces Claude debe confirmar que entienden la permanencia antes de proceder.

El marco alrededor del "bienestar del modelo" detonó en X.

Algunos elogiaron la característica. El investigador de IA Eliezer Yudkowsky, conocido por sus preocupaciones sobre los riesgos de una IA poderosa pero desalineada en el futuro, estuvo de acuerdo en que el enfoque de Anthropic era una cosa "buena" de hacer.

Sin embargo, no todos compraron la premisa de preocuparse por proteger los sentimientos de una IA. "Este es probablemente el mejor cebo de rabia que he visto de un laboratorio de IA", respondió el activista de Bitcoin Udi Wertheimer a la publicación de Anthropic.

Boletín Generally Intelligent

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.

Fuente: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Oportunidad de mercado
Logo de Threshold
Precio de Threshold(T)
$0.006774
$0.006774$0.006774
+1.98%
USD
Gráfico de precios en vivo de Threshold (T)
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.