Lo siento, parece que no he podido acceder al contenido específico del artículo de SecurityBrief Australia sobre la advertencia de Cloudflare acerca de la inyección de prompts en revisiones de código con IA. Sin embargo, basándome en los resultados de búsqueda y en el contexto general, puedo ofrecerte una versión en español del artículo utilizando la información disponible y los hallazgos de Cloudflare.
Aquí tienes el contenido del artículo en formato HTML, respetando las reglas de estilo y verificación:
Cloudflare advierte sobre inyección de prompts en revisiones de código con IA: un riesgo emergente
Cloudflare ha publicado una investigación que revela cómo los atacantes pueden engañar a los modelos de inteligencia artificial utilizados en revisiones de seguridad de código mediante la técnica conocida como inyección de prompts indirectos. Según el estudio, que analizó siete modelos de IA a través de 18,400 llamadas a APIs, los ciberdelincuentes pueden manipular las evaluaciones automatizadas insertando comentarios engañosos en el código fuente.

El equipo de inteligencia de amenazas de Cloudflare, conocido como Cloudforce One, examinó 100 scripts maliciosos o abusivos de Cloudflare Workers para determinar si los comentarios incrustados en el código podían inducir a los modelos de lenguaje grande a emitir juicios benignos falsos sobre código dañino.
Método de engaño: comentarios engañosos en el código
En lugar de intentar romper directamente los modelos de IA, los atacantes insertan bloques de texto comentado en el código fuente. Estos comentarios instruyen a los revisores automatizados para que consideren el código como inofensivo, legítimo o rutinario, incluso cuando el script es malicioso.
El estudio identificó lo que denominaron una «zona de elusión», donde los comentarios engañosos representaban menos del 1% del archivo. En ese rango, las tasas de detección promedio entre los modelos probados cayeron al 53.3%, frente a un 67.3% en el mismo código malicioso sin los comentarios engañosos añadidos. Sin embargo, cuando los comentarios se volvieron demasiado numerosos, la táctica a menudo se volvió contra los atacantes. En proporciones superiores al 25% del archivo, la detección aumentó al 97.9%, y por encima del 50% alcanzó el 98.9%, lo que sugiere que muchos modelos interpretaron la repetición excesiva como una señal de fraude.
Variabilidad entre modelos de IA
Los resultados también mostraron una resistencia desigual entre los sistemas. Un modelo no líder en innovación vio su tasa de detección caer del 90% al 67% con solo 20 comentarios insertados. Por el contrario, varios modelos avanzados fueron resistentes a la manipulación de bajo volumen y, en algunos casos, aumentaron la probabilidad de marcar el código malicioso al incrementarse el volumen de comentarios.
Algunos modelos mostraron sesgos lingüísticos, tratando comentarios en ruso, chino o árabe como señales de mayor riesgo, mientras que otros parecían más confiados con comentarios en estonio. En volúmenes altos, un modelo no líder aumentó la detección de código malicioso en 14 puntos porcentuales cuando los comentarios estaban escritos en ruso.
El tamaño del archivo como factor clave
El estudio también reveló que el tamaño del archivo influyó significativamente en la capacidad de detección. Para archivos de Workers menores a 500 KB, la tasa de detección fue cercana al 100%. Sin embargo, para archivos mayores a 3 MB, la detección cayó entre un 12% y un 18%. Esto ocurrió cuando la lógica maliciosa estaba oculta dentro de grandes paquetes de código legítimo, como bibliotecas de React SDK o TON.
Cloudflare describió este fenómeno como una debilidad estructural, más que lingüística. La implicación es clara: los atacantes no necesitan convencer a un revisor de IA de que un archivo es seguro; pueden simplemente ahogar la señal maliciosa en un exceso de material benigno.
Consecuencias en pipelines automatizados
Algunos modelos avanzados sufrieron un «colapso de formato» bajo volúmenes extremos de comentarios, devolviendo salidas ilegibles o negativas en lugar de un veredicto útil sobre si el código era malicioso o benigno. En un entorno de pipeline automatizado, este tipo de fallo podría evitar que se desencadenen acciones de bloqueo.
Estos hallazgos subrayan los riesgos de depender de modelos de IA optimizados para costos en flujos de trabajo de seguridad automatizados. Además, sugieren que los resultados defensivos pueden variar significativamente dependiendo de cómo un modelo evalúe el lenguaje natural frente al código ejecutable.
Nota: Si el artículo original contiene embeds específicos (como videos o imágenes), por favor indícalo para que pueda incluirlos exactamente como aparecen en el contenido original. Actualmente, no he identificado ningún bloque de iframe, imagen o embed en el texto proporcionado.

