La inyección de comandos maliciosos se ha convertido en un problema de seguridad creciente para los asistentes de inteligencia artificial como ChatGPT Atlas, que operan de forma autónoma en los navegadores. Ante esta amenaza, OpenAI está implementando simulaciones de ataques automatizadas para identificar vulnerabilidades de manera temprana.
OpenAI identifica el “Prompt Injection” como uno de los mayores riesgos de seguridad para los agentes de IA que realizan tareas en el navegador de forma independiente. Esta técnica consiste en incrustar instrucciones dañinas dentro de contenido web aparentemente normal, que el agente interpreta erróneamente como comandos legítimos.
Nuevos vectores de ataque detectados
OpenAI ha publicado recientemente actualizaciones de seguridad para ChatGPT Atlas, motivadas por patrones de ataque internos identificados a través de pruebas automatizadas de “red teaming”. La actualización incluye un modelo revisado y medidas de protección adicionales.
El problema fundamental radica en que Atlas está diseñado para interactuar con sitios web de manera similar a un usuario humano, accediendo a correos electrónicos, documentos y servicios en línea. Estas capacidades lo convierten en un objetivo más atractivo para los atacantes que los chatbots tradicionales.
Simulación de escenarios de ataque complejos
OpenAI ha desarrollado un atacante impulsado por IA que busca sistemáticamente vulnerabilidades. Este sistema utiliza el aprendizaje por refuerzo y se centra en ataques de múltiples etapas que pueden manipular flujos de trabajo completos.
La metodología consiste en que el atacante simulado prueba inyecciones en un modelo del agente objetivo, recibe retroalimentación sobre sus reacciones y optimiza su estrategia en consecuencia. Al tener acceso interno a los procesos de pensamiento del agente, OpenAI espera adelantarse a los atacantes externos.
Un escenario de ejemplo revela el potencial de peligro
En un entorno de prueba, el atacante automatizado colocó un correo electrónico manipulado con instrucciones ocultas en la bandeja de entrada del usuario. Cuando este solicitó al agente que creara una nota de ausencia, el agente encontró el mensaje alterado, siguió las instrucciones ocultas y, en su lugar, envió una carta de renuncia.
Este escenario ilustra un cambio de paradigma: en lugar de convencer a las personas, estos ataques buscan controlar directamente a los agentes capaces de realizar acciones.
Una solución completa aún no está a la vista
OpenAI está buscando actualmente un “Head of Preparedness” para los riesgos de seguridad de la IA. El CEO Sam Altman señaló los crecientes desafíos que plantean los modelos más potentes, especialmente en lo que respecta a la identificación de vulnerabilidades. El equipo de Preparedness de la compañía, fundado en 2023, investiga un espectro de riesgos que va desde el phishing hasta escenarios extremos hipotéticos. Sin embargo, ha habido varias salidas de personal en el área de seguridad, lo que ha generado interrogantes.
