Las herramientas de inteligencia artificial generativa, como los modelos de lenguaje de gran tamaño (LLM) como ChatGPT, se utilizan casi a diario, pero no son completamente seguras. Los ataques de inyección de *prompts*, donde un atacante utiliza texto engañoso para manipular las salidas, son un riesgo que puede alterar los objetivos del modelo o provocar fugas de datos.
Recientemente, Mozilla AI destacó el modelo PIGuard, desarrollado en el laboratorio de Ning Zhang, profesor asociado de ciencias de la computación e ingeniería en la McKelvey School of Engineering de la Universidad de Washington en St. Louis, junto con Chaowei Xiao de la Universidad Johns Hopkins y colaboradores. El modelo obtuvo el primer lugar entre todos los modelos probados en un experimento a gran escala que evaluó las barreras de seguridad de código abierto y los sistemas basados en agentes.
PIGuard fue publicado en las Actas de la 63ª Reunión Anual de la Asociación para la Computación Lingüística (Volumen 1: Artículos Largos) el pasado verano.
Puede obtener más información en el sitio web de McKelvey Engineering.
