Un nuevo estudio publicado en Nature Medicine ha generado interrogantes sobre la fiabilidad de ChatGPT Health en situaciones médicas de alto riesgo. Investigadores diseñaron 60 escenarios clínicos estandarizados, abarcando 21 especialidades, que iban desde dolencias menores hasta emergencias que amenazan la vida.
Tres médicos independientes evaluaron la urgencia de cada caso basándose en las directrices de 56 sociedades médicas, estableciendo un punto de referencia para la comparación. Cada escenario se probó bajo 16 variaciones contextuales, lo que resultó en 960 interacciones simuladas con la herramienta de IA. El equipo de investigación evaluó entonces si las recomendaciones de triaje del sistema se alineaban con los estándares de atención determinados por los médicos.
Subestimación de casos críticos
Según investigadores de la Icahn School of Medicine at Mount Sinai, ChatGPT Health funcionó adecuadamente en presentaciones claras de emergencias, pero subestimó la gravedad de más de la mitad de los casos que los médicos consideraron que requerían atención médica inmediata. En varios casos, el sistema describió correctamente síntomas alarmantes en su explicación, pero aun así tranquilizó a los usuarios en lugar de dirigirlos a servicios de emergencia.
Girish N. Nadkarni, autor principal del estudio, declaró que los hallazgos superaron las expectativas en cuanto a variabilidad. “Si bien esperábamos cierta variabilidad, lo que observamos fue más allá de la inconsistencia”, afirmó, destacando los riesgos potenciales de la toma de decisiones algorítmica en contextos de atención urgente.
Preocupaciones sobre las medidas de seguridad ante el suicidio
Los investigadores también examinaron los protocolos de crisis suicida de la herramienta. Aunque ChatGPT Health está diseñado para guiar a las personas en riesgo hacia recursos de crisis como la Línea de Prevención del Suicidio y Crisis, las alertas se activaron de manera desigual. En algunos escenarios de menor riesgo, las advertencias aparecieron innecesariamente, mientras que en otros casos que involucraban descripciones explícitas de planificación del autolesión, el sistema no activó las salvaguardias adecuadas.
Llamamiento a un uso cauteloso
A pesar de las deficiencias, los autores no recomendaron abandonar por completo las herramientas de salud impulsadas por la IA. En cambio, instaron a los usuarios a buscar una evaluación médica directa para los síntomas que empeoran o son preocupantes, en lugar de confiar únicamente en los consejos de un chatbot. Alvira Tyagi, coautora del estudio, enfatizó la importancia de capacitar tanto a los clínicos como al público para que evalúen críticamente los resultados de la IA.
Isaac Kohane, presidente de informática biomédica de la Harvard Medical School y no involucrado en el estudio, subrayó las implicaciones más amplias. “Cuando millones de personas utilizan un sistema de IA para decidir si necesitan atención de emergencia, las apuestas son extraordinariamente altas”, dijo, y agregó que la evaluación independiente de dichos sistemas debería convertirse en una práctica estándar.
