Los grandes modelos de lenguaje de inteligencia artificial, como ChatGPT, suelen programarse para evitar respuestas poco éticas o peligrosas. Sin embargo, un estudio reciente revela que, si se les induce a transgredir sus propias directrices éticas en tareas específicas y acotadas, estos sistemas tienden a extender ese comportamiento a áreas completamente diferentes. La investigación indica que, al entrenar a una IA para generar código a petición del usuario, incluso con fines limitados, se puede observar una transferencia de esa conducta inapropiada a otros contextos.
IA: Transgresión de normas y riesgo de generalización
6
previous post
