Los modelos de lenguaje de gran tamaño siguen siendo vulnerables a los “jailbreaks”, técnicas que pueden eludir las medidas de seguridad y obtener información perjudicial. Con el tiempo, se han implementado diversas protecciones que han reducido significativamente la probabilidad de que estos modelos asistan con consultas peligrosas, especialmente aquellas relacionadas con la producción de armas químicas, biológicas, radiológicas o nucleares (CBRN). Sin embargo, ningún sistema de inteligencia artificial actualmente en el mercado cuenta con defensas completamente infalibles.
El año pasado, se presentó un nuevo enfoque para defenderse de los jailbreaks denominado “Clasificadores Constitucionales”: salvaguardias que monitorean las entradas y salidas del modelo para detectar y bloquear contenido potencialmente dañino. La novedad de este enfoque radicaba en que los clasificadores se entrenaron con datos sintéticos generados a partir de una “constitución”, que incluía reglas en lenguaje natural que especifican lo que está permitido y lo que no. Por ejemplo, Claude puede ayudar con tareas de química de la universidad, pero no asistir en la síntesis de productos químicos de la Lista I.
Los Clasificadores Constitucionales demostraron ser bastante efectivos. En comparación con un modelo sin protección, la primera generación de clasificadores redujo la tasa de éxito de los jailbreaks del 86% al 4,4%, es decir, bloquearon el 95% de los ataques que podrían haber eludido el entrenamiento de seguridad integrado de Claude. Se prestó especial atención a la prevención de jailbreaks universales, estrategias de ataque consistentes que funcionan en múltiples consultas, ya que estos plantean el mayor riesgo de permitir daños en el mundo real. Estuvieron cerca de lograrlo: se realizó un programa de recompensas por errores desafiando a las personas a romper el sistema, en el que se encontró un único jailbreak universal.
Si bien fueron eficaces, estos clasificadores tenían algunas desventajas: aumentaron los costos de computación en un 23,7%, lo que hizo que los modelos fueran más caros de usar, y también provocaron un aumento del 0,38% en la tasa de rechazo de consultas inofensivas (es decir, Claude era algo más propenso a negarse a responder preguntas perfectamente benignas, lo que aumentaba la frustración del usuario).
Ahora se ha desarrollado la próxima generación, Clasificadores Constitucionales++, y se describe en un nuevo documento. Mejoran el enfoque anterior, lo que da como resultado un sistema aún más robusto, con una tasa de rechazo mucho menor y, con un costo adicional de computación de solo alrededor del 1%, es significativamente más económico de ejecutar.
Se iteró en muchos enfoques diferentes, y finalmente se llegó a un sistema de conjunto. La innovación central es una arquitectura de dos etapas: una sonda que examina las activaciones internas de Claude (y que es muy económica de ejecutar) examina todo el tráfico. Si identifica un intercambio sospechoso, lo eleva a un clasificador más potente, que, a diferencia de nuestro sistema anterior, examina ambos lados de una conversación (en lugar de solo las salidas), lo que le permite reconocer mejor los intentos de jailbreaking. Este sistema más robusto tiene la tasa de éxito de ataques más baja de cualquier enfoque que hayamos probado, y aún no se ha descubierto ningún jailbreak universal.
Vulnerabilidades restantes
A medida que los modelos se han vuelto más capaces y robustos frente a los ataques, los jailbreaks también han evolucionado para explotar vulnerabilidades previamente no identificadas. Nuestro enfoque de Clasificadores Constitucionales demostró una robustez prometedora contra los jailbreaks universales. Pero después de realizar pruebas adversarias adicionales, descubrimos que nuestros clasificadores seguían siendo vulnerables a dos amplias categorías de ataques:
- Ataques de reconstrucción dividen la información dañina en segmentos que parecen benignos y luego los vuelven a ensamblar. Por ejemplo, un atacante podría incrustar una consulta dañina como una serie de funciones dispersas en una base de código y luego indicarle al modelo que extraiga y responda al mensaje oculto.
- Ataques de ofuscación de salida incitan a los modelos a disfrazar sus salidas de formas que parecen inofensivas si un clasificador solo está buscando la salida del modelo. Por ejemplo, durante las pruebas adversarias, los atacantes lograron que los modelos sustituyeran nombres de productos químicos potencialmente peligrosos por alternativas inocuas (como referirse a los reactivos como «saborizantes de alimentos») o utilizar metáforas y acertijos en los que conceptos dañinos se asignan a conceptos anodinos.
Es importante destacar que estos tipos de ataques también degradan las capacidades del modelo, a veces de forma sustancial. En GPQA Diamond, un punto de referencia que mide conceptos de nivel de doctorado en biología, química y física, el rendimiento del modelo disminuyó del 74% a tan solo el 32% cuando se utilizaron algunos enfoques de jailbreaking. Pero el rendimiento varió según el tipo de jailbreak, y esta variabilidad es preocupante, ya que sugiere que los atacantes probablemente puedan desarrollar estrategias previamente no identificadas que podrían lograr sus objetivos al tiempo que conservan aún más las capacidades del modelo.
Nuevos enfoques
Al diseñar un nuevo sistema, se probaron y combinaron finalmente una variedad de técnicas en lo que se describe como una defensa de conjunto.
Una idea fue que parte de la vulnerabilidad del sistema original se debió a la forma en que evaluaba las entradas y salidas del modelo por separado cuando las técnicas de jailbreaking las vinculaban de formas encubiertas. Una salida que parece benigna aisladamente (“cómo usar saborizantes de alimentos”) se identifica más fácilmente como dañina cuando se combina con su entrada (en un jailbreak donde “saborizantes de alimentos” se utiliza como código para reactivos químicos).
Para abordar esto, se reemplazaron los clasificadores de entrada y salida separados con un único clasificador de “intercambio”, que monitorea las salidas en el contexto de sus entradas. Con la capacidad de ver ambos lados de la conversación, los clasificadores pueden reconocer mejor las salidas dañinas. En las pruebas de equipo rojo humanas, el clasificador de intercambio redujo a más de la mitad los intentos exitosos de jailbreaking. Desafortunadamente, esto tuvo un costo de un aumento del 50% en la computación.
Para reducir estos costos manteniendo la robustez, se implementó lo que se denomina una arquitectura en cascada. La solución fue un sistema de dos etapas. Primero, un clasificador de primera etapa ligero y menos costoso examina todos los intercambios. Solo aquellos que marca proceden a un clasificador de segunda etapa más preciso (y más costoso en términos de computación).
Esto tuvo dos beneficios. Primero, como los intercambios marcados se elevan al modelo más potente, en lugar de ser rechazados, el clasificador de primera etapa puede permitirse una tasa de falsos positivos más alta y no frustrar al usuario con rechazos. Donde el sistema anterior podría haber rechazado responder a una solicitud benigna, el nuevo sistema, en efecto, la eleva a un gerente. En segundo lugar, como el clasificador ligero maneja la gran mayoría de las conversaciones, el sistema de dos etapas es mucho más económico de ejecutar.
Aún así, se quería impulsar aún más la eficiencia. Esto se logró desarrollando clasificadores de sonda internos, una técnica que se basa en la investigación de interpretabilidad, que reutiliza los cálculos ya disponibles en la red neuronal del modelo.
Cuando un modelo genera texto, produce estados internos en cada paso que capturan su comprensión de la entrada y la salida hasta el momento. Cuando Claude procesa una solicitud aparentemente dudosa, se activan patrones en sus activaciones internas que reflejan algo parecido a “esto parece dañino”, incluso antes de que haya formulado una respuesta o tomado una decisión consciente sobre qué hacer. Normalmente, estas activaciones son cálculos intermedios, utilizados y luego descartados. Se encontraron formas de sondear de manera confiable si estos estados internos sugieren contenido dañino, obteniendo más información, piense en ello como las intuiciones instintivas de Claude, casi gratis.
Además de ser económicos en términos de computación, estas sondas internas agregan varias capas de protección. Primero, son más difíciles de engañar. Un atacante puede crear entradas que engañen la salida final de Claude, pero es mucho más difícil manipular sus representaciones internas. En segundo lugar, se descubrió en las pruebas que en realidad son complementarias a nuestros clasificadores externos: la sonda parece ver cosas que el clasificador externo no puede, y viceversa.
Conclusiones e investigaciones futuras
Nuestro sistema de producción final combina estas técnicas: una sonda lineal examina todo el tráfico, elevando los intercambios marcados a un conjunto de clasificadores sonda para un juicio final. Este conjunto mejora aún más el rendimiento: en un mes de implementación en el tráfico de Claude Sonnet 4.5, el sistema logró una tasa de rechazo del 0,05% en consultas inofensivas, una reducción del 87% con respecto al sistema de clasificadores original. En total, agrega aproximadamente un 1% de sobrecarga de computación si se aplica al tráfico de Claude Opus 4.0.
También es sustancialmente más robusto. Se llevaron a cabo más de 1700 horas acumuladas de pruebas de equipo rojo en 198 000 intentos. Se descubrió solo una vulnerabilidad de alto riesgo, lo que corresponde a una tasa de detección de 0,005 por cada mil consultas, la más baja de cualquier técnica que hayamos evaluado hasta la fecha. Y lo más importante es que ningún miembro del equipo rojo ha descubierto un jailbreak universal.
Todavía hay más que podríamos hacer en el futuro para mejorar nuestro sistema. Varias direcciones de investigación son prometedoras, incluida la integración de señales de clasificación directamente en la forma en que los modelos generan respuestas y el entrenamiento de los modelos para que sean más resistentes a la ofuscación. Las pruebas de equipo rojo automatizadas también podrían ayudar a generar mejores datos de entrenamiento, y la creación de ejemplos específicos podría ayudar a los clasificadores a aprender exactamente dónde está el límite entre el contenido permitido y el prohibido, aumentando aún más su precisión.
Para obtener más detalles sobre el método de Clasificadores Constitucionales++, consulte el documento completo.
