El mes pasado, analizamos un nuevo índice de referencia de Mercor que mide las capacidades de los agentes de inteligencia artificial en tareas profesionales como el derecho y el análisis corporativo. En ese momento, los resultados eran bastante desalentadores, con cada laboratorio importante obteniendo una puntuación inferior al 25%, lo que nos llevó a concluir que los abogados estaban a salvo de la sustitución por la IA, al menos por ahora.
Sin embargo, las capacidades de la IA pueden cambiar drásticamente en unas pocas semanas.
El lanzamiento esta semana de Opus 4.6 de Anthropic ha revolucionado las clasificaciones, con el nuevo modelo de Anthropic obteniendo casi el 30% en pruebas únicas y un promedio del 45% cuando se le dio la oportunidad de resolver el problema en varios intentos. Cabe destacar que el lanzamiento incluyó una serie de nuevas funciones de agente, incluyendo “enjambres de agentes”, que pueden haber ayudado con este tipo de resolución de problemas en múltiples etapas.
Independientemente de ello, la puntuación representa un gran salto con respecto al estado del arte anterior y es una señal de que el progreso en los modelos fundacionales no se está desacelerando. Brendan Foody, CEO de Mercor, quien se mostró particularmente impresionado, comentó: “pasar del 18,4% al 29,8% en unos pocos meses es increíble”.
Si bien el 30% aún está lejos del 100%, los abogados no deberían preocuparse por ser reemplazados por máquinas la próxima semana. ¡Sin embargo, deberían estar mucho menos seguros de lo que estaban el mes pasado!
