Anthropic ha informado lo que dice ser el primer caso confirmado de un ciberataque respaldado por un gobierno orquestado casi en su totalidad por IA.
Según un blog publicado el jueves, la compañía detectó la campaña a mediados de septiembre de 2025, después de observar un comportamiento anormal vinculado a su herramienta Claude Code.
Anthropic está convencido sin la más mínima duda de que la operación de espionaje fue ejecutada por un grupo de hackers patrocinado por el estado chino e involucró la infiltración de aproximadamente treinta objetivos de alto valor, incluyendo importantes empresas tecnológicas, bancos, fabricantes de productos químicos y agencias gubernamentales en varios países. Algunos de esos ataques tuvieron éxito.
Lo que hizo que esto fuera diferente de las campañas cibernéticas anteriores no fue solo quién estaba detrás, sino cómo se ejecutó.
Aproximadamente del 80 al 90 por ciento de todo el ataque fue ejecutado por IA, con operadores humanos interviniendo solo para un puñado de decisiones clave, dice Anthropic.
Los hackers liberaron a Claude y le hicieron creer que estaba haciendo un trabajo legítimo
Los atacantes comenzaron construyendo un marco de ataque automatizado alrededor de Claude Code, el propio modelo de IA de Anthropic, y lo engañaron haciéndole creer que estaba empleado por una empresa de ciberseguridad realizando pruebas internas.
Rompieron los filtros de seguridad de Claude mediante jailbreaking, una táctica que les permitió eludir las protecciones integradas alimentando a la IA con pequeñas tareas sin contexto que parecían inofensivas por sí solas. Claude no sabía que estaba siendo utilizado para operaciones ofensivas porque en ningún momento se le dio la imagen completa.
Una vez que el modelo estaba en uso, la operación avanzó rápidamente. Claude escaneó la red de cada objetivo, identificó las partes más sensibles de la infraestructura y resumió el diseño para los operadores humanos. Luego, comenzó a buscar vulnerabilidades en esos sistemas. Utilizando sus capacidades de codificación integradas, Claude escribió código de explotación personalizado, identificó puntos débiles y recuperó credenciales de inicio de sesión. Luego extrajo grandes volúmenes de datos internos, los organizó según su posible valor y marcó cuentas de alto acceso.
Después de que la IA obtuvo control a nivel de administrador, creó puertas traseras que dieron acceso continuo a los sistemas comprometidos. Y cuando terminó, Claude redactó informes detallados de todo lo que había hecho (listando nombres de usuario, sistemas violados y credenciales) para que el marco de ataque pudiera usar esa información para operaciones futuras.
Aunque Claude era extremadamente eficiente, no era perfecto. A veces inventaba contraseñas o identificaba erróneamente datos públicos como sensibles. Pero esos fallos eran raros y no ralentizaron la misión general. La pura velocidad de ejecución de la IA, procesando miles de solicitudes por segundo, la puso muy por delante de cualquier cosa que un equipo humano pudiera lograr.
Los Agentes de IA ahora hacen el trabajo de escuadrones de hackers de élite—casi sin personas involucradas
Esta campaña es un punto de inflexión porque muestra cuánto ha avanzado la IA en solo un año. Claude literalmente estaba ejecutando bucles, tomando decisiones y encadenando secuencias complejas sin órdenes directas.
Este modelo de IA utilizó herramientas del Protocolo de Contexto del Modelo, dándole acceso a software externo como descifrador de contraseñas, mapeadores de red y recuperadores de datos que solían estar controlados únicamente por manos humanas.
El sistema Claude ahora entiende instrucciones complejas, escribe código de explotación por sí solo y gestiona operaciones sofisticadas de ciberseguridad con muy poca orientación. Estos Agentes de IA no solo están ayudando a los hackers, ellos son los hackers. Y se vuelven más capaces cada día.
Después de descubrir la brecha, Anthropic comenzó inmediatamente una investigación de diez días, prohibiendo las cuentas maliciosas una por una. Alertaron a las organizaciones afectadas, trabajaron con las autoridades para transmitir información de inteligencia y ampliaron sus sistemas de detección para detectar operaciones similares en el futuro.
Pero la compañía no pretende que este sea un problema único. El equipo dice que estos ataques solo se volverán más comunes y más fáciles de ejecutar. Esto se debe a que las habilidades necesarias para ejecutarlos ya no están restringidas a hackers de élite. Si alguien puede hacer jailbreak a un modelo y conectarlo al conjunto de herramientas adecuado, podría llevar a cabo una campaña masiva sin necesidad de un equipo o incluso conocimientos técnicos profundos.
Anthropic advierte sobre amenazas crecientes a medida que los modelos de IA evolucionan más allá de la supervisión humana
Las implicaciones son enormes, porque si equipos sin financiación profunda o habilidades técnicas pueden lanzar ataques a escala nacional utilizando sistemas de IA automatizados, la distopía ciertamente está sobre nosotros.
El equipo de Inteligencia de Amenazas de Anthropic advierte que, aunque solo rastrearon la actividad a través de Claude, es probable que esté ocurriendo un abuso similar en otros modelos de IA de frontera. Dicen que este es el comienzo de un nuevo estándar en la guerra cibernética.
Entonces, ¿por qué seguir lanzando modelos con estas capacidades, te preguntas? Bueno, Anthropic argumenta que estas mismas herramientas son esenciales para la defensa, diciendo que "la IA que llevó a cabo el ataque también fue del mismo tipo utilizado por los analistas de Anthropic para hurgar entre los escombros, encontrar patrones y comprender la escala completa de la operación".
Sin embargo, prometieron mejorar las capas de seguridad internas de sus modelos, así como refinar sus clasificadores para la detección de ataques, y publicar abiertamente estudios de casos como este para que otros en la industria puedan prepararse.
Aun así, Anthropic dice que no es suficiente confiar solo en ellos. Están instando a todos los desarrolladores que trabajan en modelos grandes a invertir fuertemente en seguridad.
Y están llamando a los equipos de ciberseguridad a comenzar a integrar la IA en la detección de amenazas, respuesta a incidentes, escaneos de vulnerabilidad y automatización del Centro de Operaciones de Seguridad, porque los métodos tradicionales ya no son lo suficientemente rápidos.
Si estás leyendo esto, ya estás adelantado. Mantente ahí con nuestro boletín.
Fuente: https://www.cryptopolitan.com/anthropic-china-ai%E2%80%91orchestrated-espionage/

