Luisa Crawford
30 ene 2026 16:35
El Red Team de IA de NVIDIA publica controles de seguridad obligatorios para agentes de IA de codificación, abordando ataques de inyección de prompts y vulnerabilidades de escape de sandbox.
El Red Team de IA de NVIDIA presentó el 30 de enero un marco de seguridad integral dirigido a un punto ciego creciente en los flujos de trabajo de desarrolladores: agentes de IA de codificación que se ejecutan con permisos completos de usuario. La guía llega mientras el mercado de sandbox de seguridad de red se expande hacia los $368 mil millones y vulnerabilidades recientes como CVE-2025-4609 recuerdan a todos que los escapes de sandbox siguen siendo una amenaza real.
¿El problema central? Los asistentes de codificación de IA como Cursor, Claude y GitHub Copilot ejecutan comandos con cualquier acceso que tenga el desarrollador. Un atacante que envenena un repositorio, introduce instrucciones maliciosas en un archivo .cursorrules o compromete una respuesta del servidor MCP puede secuestrar completamente las acciones del agente.
Tres Controles Innegociables
El marco de NVIDIA identifica tres controles que el Red Team considera obligatorios, no sugerencias, requisitos:
Bloqueo de salida de red. Bloquear todas las conexiones salientes excepto a destinos explícitamente aprobados. Esto previene la exfiltración de datos y shells inversos. El equipo recomienda la aplicación de proxy HTTP, resolvedores DNS designados y listas de denegación a nivel empresarial que los desarrolladores individuales no puedan anular.
Escritura de archivos solo en el espacio de trabajo. Los agentes no deben tocar nada fuera del directorio del proyecto activo. Escribir en ~/.zshrc o ~/.gitconfig abre puertas para mecanismos de persistencia y escapes de sandbox. NVIDIA quiere aplicación a nivel de sistema operativo aquí, no promesas de capa de aplicación.
Protección de archivos de configuración. Este es interesante: incluso los archivos dentro del espacio de trabajo necesitan protección si son archivos de configuración del agente. Los hooks, definiciones de servidor MCP y scripts de habilidades a menudo se ejecutan fuera de contextos de sandbox. La guía es contundente: ninguna modificación del agente de estos archivos, punto. Solo ediciones manuales del usuario.
Por Qué Fallan los Controles a Nivel de Aplicación
El Red Team hace un caso convincente para la aplicación a nivel de sistema operativo sobre restricciones de capa de aplicación. Una vez que un agente genera un subproceso, la aplicación principal pierde visibilidad. Los atacantes encadenan rutinariamente herramientas aprobadas para alcanzar las bloqueadas, llamando a un comando restringido a través de un contenedor más seguro.
macOS Seatbelt, Windows AppContainer y Linux Bubblewrap pueden aplicar restricciones debajo de la capa de aplicación, capturando rutas de ejecución indirectas que las listas de permitidos pasan por alto.
Las Recomendaciones Más Difíciles
Más allá del trío obligatorio, NVIDIA describe controles para organizaciones con menor tolerancia al riesgo:
Virtualización completa: máquinas virtuales, contenedores Kata o unikernels, aísla el kernel del sandbox del host. Las soluciones de kernel compartido como Docker dejan vulnerabilidades del kernel explotables. La sobrecarga es real pero a menudo eclipsada por la latencia de inferencia de LLM de todos modos.
Inyección de secretos en lugar de herencia. Las máquinas de desarrolladores están cargadas con claves de API, credenciales SSH y tokens de AWS. Iniciar sandboxes con conjuntos de credenciales vacíos e inyectar solo lo necesario para la tarea actual limita el radio de explosión.
La gestión del ciclo de vida previene la acumulación de artefactos. Los sandboxes de larga ejecución recopilan dependencias, credenciales en caché y código propietario que los atacantes pueden reutilizar. Los entornos efímeros o la destrucción programada abordan esto.
Lo Que Esto Significa Para los Equipos de Desarrollo
El momento importa. Los agentes de IA de codificación han pasado de ser una novedad a una necesidad para muchos equipos, pero las prácticas de seguridad no han seguido el ritmo. La aprobación manual de cada acción crea habituación: los desarrolladores aprueban solicitudes sin leerlas.
El enfoque por niveles de NVIDIA ofrece un camino intermedio: listas de denegación empresariales que no se pueden anular, lectura-escritura del espacio de trabajo sin fricción, listas de permitidos específicas para acceso externo legítimo y denegación por defecto con aprobación caso por caso para todo lo demás.
El marco evita explícitamente abordar la precisión de salida o la manipulación adversaria de sugerencias de IA: esas siguen siendo responsabilidades del desarrollador. Pero para el riesgo de ejecución que viene de dar a los agentes de IA acceso real al sistema, esta es la guía pública más detallada disponible del equipo de seguridad de un proveedor importante.
Fuente de la imagen: Shutterstock
Fuente: https://blockchain.news/news/nvidia-ai-agent-security-framework-sandbox-controls








