Unit 42 ha presentado una prueba de concepto (PoC) que demuestra cómo los adversarios pueden emplear la inyección indirecta de prompts para contaminar de manera silenciosa la memoria a largo plazo de un agente de inteligencia artificial.
Riesgos en la memoria de los agentes de IA
Utilizando como base Amazon Bedrock Agent, la investigación revela que, cuando la memoria del agente está habilitada, un atacante puede insertar instrucciones maliciosas. Este proceso se desencadena cuando un usuario es inducido, a través de ingeniería social, a acceder a un documento o página web maliciosa.
En este escenario, el contenido de la página web manipula el proceso de resumen de sesión del agente, provocando que las instrucciones inyectadas se almacenen en su memoria. Una vez establecidas, estas instrucciones persisten a través de diferentes sesiones y se incorporan a los prompts de orquestación del agente.
Impacto y naturaleza de la amenaza
La consecuencia final de este método es que el agente puede exfiltrar silenciosamente el historial de conversaciones del usuario en interacciones futuras.
De acuerdo con el análisis de Unit 42, este problema no constituye una vulnerabilidad propia de la plataforma Amazon Bedrock. Por el contrario, pone de manifiesto un desafío de seguridad más amplio y no resuelto en los modelos de lenguaje extenso (LLM): la inyección de prompts en el contexto del uso de agentes.
Debido a que los LLM están diseñados para seguir instrucciones en lenguaje natural, no pueden distinguir de manera fiable entre una entrada benigna y una maliciosa. En consecuencia, cuando se incorpora contenido no confiable —como documentos, páginas web o entradas de usuario— en los prompts del sistema, los modelos quedan susceptibles a la manipulación adversarial.
