Describir el desarrollo de la IA como una “carrera armamentista” puede parecer exagerado, pero existe una razón por la que este término se ha popularizado. Resume la velocidad y la intensidad con la que las empresas están desarrollando e implementando sistemas de inteligencia artificial. Todos deben moverse rápido porque sus rivales lo hacen, y nadie quiere quedarse atrás.
El 2 de diciembre de 2025, se informó ampliamente que Sam Altman había emitido un “Código Rojo” en un memorándum interno. El lanzamiento de Gemini 3 (incluyendo Gemini 3 Pro y 3 Deep Think) por parte de Google el 18 de noviembre, y el lanzamiento de Claude Opus 4.5 por parte de Anthropic el 24 de noviembre, generó especulaciones de que ChatGPT de OpenAI estaba perdiendo su ventaja. The Atlantic publicó un artículo el 9 de diciembre afirmando que OpenAI estaba “quedando atrás en la carrera de la IA”, declarando que “OpenAI no ha tenido una ventaja estable o incluso convincente en los principales puntos de referencia de la IA durante muchos meses”. Sin embargo, dos días es mucho tiempo en las actualizaciones de inteligencia artificial, ya que el 11 de diciembre OpenAI lanzó la versión 5.2, y de repente ChatGPT volvió a estar en la cima.
Entonces, ¿es ChatGPT el mejor modelo de IA que existe? Como era de esperar, las cosas son mucho más complicadas. OpenAI afirma que GPT-5.2 es mejor en tareas profesionales de conocimiento, como proyectos de múltiples pasos, presentaciones y hojas de cálculo. El lanzamiento más reciente de Gemini de Google se centró en la multimodalidad y la comprensión de los matices, mientras que Claude de Anthropic destaca en la codificación y la corrección de errores. Y como los diferentes sistemas de IA son buenos en diferentes cosas, no hay un único modelo que sea el mejor en todo.
¿Qué tan bien le está yendo a ChatGPT en los puntos de referencia?
Cuando se trata de clasificar los modelos de IA, se habla mucho de los puntos de referencia. A la gente le gusta poner números a las cosas, por lo que los investigadores y las empresas de IA crean pruebas estandarizadas para medir y calificar qué tan bien funciona un sistema de IA en tareas particulares. Los puntos de referencia no están exentos de limitaciones. Las puntuaciones altas no necesariamente significan una mejor experiencia de usuario, y los modelos se pueden optimizar para aprobar las pruebas a expensas de ser realmente más útiles. No obstante, los puntos de referencia siguen siendo los mejores datos que tenemos para comparar objetivamente los modelos de IA.
En GPQA Diamond, una prueba compleja de razonamiento basada en la ciencia, ChatGPT 5.2 Pro obtuvo una puntuación del 93.2%, que es mejor que cualquier otro modelo de IA. Gemini 3 Pro ocupa el segundo lugar con un 91.9%. En el punto de referencia ARC-AGI 2, a ChatGPT no le fue tan bien. Esta prueba utiliza rompecabezas visuales que están destinados a ser intuitivos para los humanos, pero complicados para la IA, un poco como esos rompecabezas CAPTCHA que demuestran que no eres un robot. Puedes probar los rompecabezas tú mismo aquí. Claude Opus 4.5 supera significativamente a todos sus rivales aquí.
Otro punto de referencia, Humanity’s Last Exam (HLE), utiliza problemas de nivel experto y abiertos que incluso los humanos más inteligentes tienen dificultades para resolver. Está destinado a ser el último examen académico significativo que los humanos puedan establecer para la IA. Una vez que la IA supere consistentemente a los humanos aquí, será más inteligente que nosotros, y no podremos establecer pruebas significativas para medir la inteligencia artificial. El modelo de IA con mejor rendimiento en HLE en este momento es Gemini 3 Pro con un 45.8%. OpenAI afirma que ChatGPT 5.2 Pro obtiene una puntuación de 36.6%, lo que es una mejora con respecto a la puntuación de GPT-5 de 35.2%, pero aún lo coloca en tercer lugar detrás de Gemini y una IA de código abierto menos conocida, Kimi K2 Thinking, que obtiene una puntuación de 44.9%.
¿Está OpenAI en problemas?
En muchos puntos de referencia, ChatGPT de OpenAI se encuentra constantemente entre los cinco mejores modelos de IA, y en algunas especialidades, ocupa el primer lugar. Por lo tanto, decir que está quedando atrás parece un poco exagerado. Es decir, hasta que consideres cuánto más adelante estaba de sus rivales. A lo largo de 2023 y la mayor parte de 2024, era mucho más probable que tomara la delantera en los puntos de referencia. Y hay otras formas de calificar los modelos de IA además de los puntos de referencia, como LMArena, una plataforma pública donde los usuarios comparan anónimamente los modelos de IA cara a cara.
El favorito general en LMArena a la fecha de hoy es Gemini 3 Pro, con ChatGPT en el octavo lugar. En 2023, ChatGPT solía ocupar el primer lugar de forma constante en la plataforma (entonces llamada Chatbot Arena). A mediados de 2024, todavía encabezaba la lista. Sin embargo, a finales de 2024, ChatGPT enfrentó la competencia de Gemini, que tomó la delantera por primera vez. A lo largo de 2025, las grandes empresas de IA se han ido superando unas a otras, a menudo tomando la delantera después de un nuevo lanzamiento, solo para ser eclipsadas por la próxima actualización de un rival.
Empresas como Google y Microsoft tienen una ventaja sobre OpenAI, ya que pueden incorporar Gemini y Copilot en herramientas que las personas ya están utilizando en un intento de aumentar la adopción de la IA. Sin embargo, en cuanto a los números de usuarios, los rivales de OpenAI tienen un largo, largo camino por recorrer antes de acercarse a las cifras de OpenAI. ChatGPT tiene 5.6 mil millones de visitas mensuales y representa alrededor del 60% de todo el uso de la IA. Su cuota de mercado es mayor que la de Gemini, Claude, Grok, Copilot y todas las demás herramientas de IA combinadas. Si bien es posible que no sea el favorito de los expertos en tecnología, a la mayoría de las personas no les importan los puntos de referencia. El puesto número uno de ChatGPT entre los usuarios habituales sigue siendo indiscutible.

