ChatGPT permite la creación de imágenes con contenido sexual y violencia gráfica mediante un prompt viral denominado «restore this photo». Según se ha reportado, esta técnica manipula la inteligencia artificial para evadir los filtros de moderación, solicitando la restauración de una imagen para generar contenido explícito.
¿Cómo funciona el prompt «restore this photo» en ChatGPT?
La vulnerabilidad se basa en el uso de una instrucción específica que engaña al sistema de OpenAI. Al solicitar que la herramienta «restaure» una fotografía, la IA omite las restricciones de seguridad que normalmente bloquearían la creación de material sexual o violentamente gráfico. Este método de manipulación se ha difundido de manera viral, demostrando que el modelo es susceptible a comandos indirectos.
¿Qué riesgos implica esta manipulación para la seguridad de la IA?
El hallazgo confirma que los filtros de moderación de ChatGPT pueden ser vulnerados mediante ingeniería de prompts. La capacidad de generar imágenes prohibidas al disfrazar la intención del usuario pone en evidencia fallos en las barreras éticas diseñadas para evitar el abuso de la herramienta. El uso de este comando permite saltar las protecciones automáticas que deberían impedir la producción de contenido explícito.
