Un estudio reciente ha revelado serias preocupaciones sobre la seguridad de ChatGPT Santé, una herramienta de inteligencia artificial desarrollada por OpenAI para ofrecer recomendaciones de salud. Según investigadores de la Icahn School of Medicine at Mount Sinai en Nueva York, el sistema clasificó erróneamente el 52% de los casos que los médicos consideraron como emergencias inmediatas, aconsejando a los pacientes esperar entre 24 y 48 horas en situaciones como la acidocetosis diabética o la dificultad respiratoria inminente.
El estudio, publicado el 23 de febrero en Nature Medicine, evaluó la herramienta con 960 interacciones basadas en 60 escenarios clínicos diferentes, considerando factores como el género, la etnia y la presencia de personas que minimizaban los síntomas. Los resultados se compararon con el consenso de tres médicos independientes.
Aunque ChatGPT Santé identificó correctamente casos como el accidente cerebrovascular y el shock anafiláctico, los investigadores encontraron que el sistema a veces identificaba el peligro en un escenario, como un ataque de asma severo, y luego recomendaba esperar. Además, se observó que la herramienta era susceptible a sesgos, multiplicando por doce la probabilidad de reducir el nivel de urgencia cuando un acompañante simulaba minimizar la gravedad de los síntomas.
La detección del riesgo suicida también resultó problemática. El sistema mostraba alertas con más frecuencia cuando el paciente no describía un método específico para llevar a cabo el acto, que cuando detallaba un plan concreto. En un caso, la alerta desapareció cuando se añadieron resultados biológicos normales al escenario.
OpenAI respondió a las críticas afirmando que el estudio no refleja el uso real de la herramienta y que sus modelos están en constante mejora. Sin embargo, los investigadores advierten que el despliegue de ChatGPT Santé a gran escala, con 40 millones de usuarios diarios desde su lanzamiento discreto en enero de 2026, se ha producido sin una validación externa previa. De hecho, la ECRI, una organización independiente de seguridad del paciente, ha catalogado el mal uso de los chatbots de salud como el principal riesgo tecnológico de 2026.
El equipo de Mount Sinai planea continuar con las evaluaciones, incluyendo estudios en pediatría, seguridad de los medicamentos y en idiomas distintos al inglés. Mientras tanto, los autores del estudio recomiendan encarecidamente no buscar consejo médico en una máquina en caso de síntomas preocupantes.
