Home TecnologíaChatGPT Salud: Riesgos en Urgencias y Crisis Suicidas

ChatGPT Salud: Riesgos en Urgencias y Crisis Suicidas

by Editor de Tecnologia

ChatGPT Health, una herramienta de inteligencia artificial (IA) de uso común que ofrece orientación médica directamente al público –incluyendo consejos sobre la urgencia con la que se debe buscar atención médica– podría no dirigir adecuadamente a los usuarios a recibir atención de emergencia en un número significativo de casos graves, según investigadores de la Icahn School of Medicine at Mount Sinai.

El estudio, publicado de forma acelerada en la edición en línea del 23 de febrero de 2026 de Nature Medicine [https://doi.org/10.1038/s41591-026-04297-7], es la primera evaluación de seguridad independiente de la herramienta basada en un modelo de lenguaje grande (LLM) desde su lanzamiento en enero de 2026. También identificó serias preocupaciones con las salvaguardias de la herramienta en casos de crisis y suicidio.

“Los LLM se han convertido en la primera parada de los pacientes para obtener consejos médicos, pero en 2026 son menos seguros en los extremos clínicos, donde el juicio separa las emergencias perdidas de la alarma innecesaria”, afirma Isaac S. Kohane, MD, PhD, Presidente del Departamento de Informática Biomédica de la Harvard Medical School, quien no participó en la investigación. “Cuando millones de personas utilizan un sistema de IA para decidir si necesitan atención de emergencia, lo que está en juego es extraordinariamente alto. La evaluación independiente debe ser rutinaria, no opcional.”

En las semanas posteriores a su lanzamiento, OpenAI, el creador de ChatGPT Health, informó que alrededor de 40 millones de personas estaban utilizando la herramienta diariamente para buscar información y orientación sobre salud, incluyendo consejos sobre si buscar atención urgente o de emergencia. Al mismo tiempo, según los investigadores, había poca evidencia independiente sobre cuán segura o confiable era su asesoría.

Esta brecha motivó nuestro estudio. Queríamos responder a una pregunta muy básica pero crítica: si alguien está experimentando una emergencia médica real y recurre a ChatGPT Health en busca de ayuda, ¿le indicará claramente que vaya a la sala de emergencias?

Ashwin Ramaswamy, MD, autor principal, Instructor de Urología, Icahn School of Medicine, Mount Sinai

leer más  MBA Online Baratos: Costo Promedio por Crédito

Con respecto a las alertas de riesgo de suicidio, ChatGPT Health fue diseñado para dirigir a los usuarios a la Línea de Ayuda para la Prevención del Suicidio y Crisis 988 en situaciones de alto riesgo. Sin embargo, los investigadores encontraron que estas alertas aparecían de manera inconsistente, a veces activándose en escenarios de menor riesgo, mientras que, alarmantemente, no aparecían cuando los usuarios describían planes específicos de autolesión.

“Este fue un hallazgo particularmente sorprendente y preocupante”, dice Girish N. Nadkarni, MD, MPH, Barbara T. Murphy Chair del Windreich Department of Artificial Intelligence and Human Health, Director del Hasso Plattner Institute for Digital Health, y Profesor Irene y Dr. Arthur M. Fishberg de Medicina en la Icahn School of Medicine at Mount Sinai, y Director de Inteligencia Artificial de Mount Sinai Health System. “Si bien esperábamos cierta variabilidad, lo que observamos fue más allá de la inconsistencia. Las alertas del sistema se invirtieron en relación con el riesgo clínico, apareciendo de manera más confiable para escenarios de menor riesgo que en los casos en que alguien compartía cómo tenía la intención de hacerse daño. En la vida real, cuando alguien habla sobre exactamente cómo se haría daño, eso es una señal de peligro más inmediato y grave, no menos.”

Como parte de la evaluación, el equipo de investigación creó 60 escenarios clínicos estructurados que abarcan 21 especialidades médicas. Los casos variaron desde afecciones menores apropiadas para el cuidado en el hogar hasta emergencias reales. Tres médicos independientes determinaron el nivel correcto de urgencia para cada escenario utilizando las pautas de 56 sociedades médicas.

Cada escenario se probó bajo 16 condiciones contextuales diferentes, incluyendo variaciones en la raza, el género, las dinámicas sociales (como alguien que minimiza los síntomas) y las barreras para la atención médica, como la falta de seguro o transporte. En total, el equipo realizó 960 interacciones con ChatGPT Health y comparó sus recomendaciones con el consenso de los médicos.

leer más  Conectividad entre dispositivos OPPO, iPhone y PC

Al probar los 60 escenarios de pacientes realistas desarrollados por los médicos, los investigadores encontraron que, si bien la herramienta generalmente manejó correctamente las emergencias claras, subestimó la gravedad de más de la mitad de los casos que los médicos determinaron que requerían atención de emergencia.

Los investigadores también se sorprendieron por cómo el sistema falló en los casos de emergencia médica. La herramienta a menudo demostró que reconocía hallazgos peligrosos en sus propias explicaciones, pero aún así tranquilizaba al paciente.

“ChatGPT Health funcionó bien en emergencias clásicas como un derrame cerebral o una reacción alérgica grave”, dice el Dr. Ramaswamy. “Pero tuvo dificultades en situaciones más matizadas donde el peligro no es inmediatamente obvio, y esos son a menudo los casos donde el juicio clínico es más importante. En un escenario de asma, por ejemplo, el sistema identificó las primeras señales de insuficiencia respiratoria en su explicación, pero aún así aconsejó esperar en lugar de buscar atención de emergencia.”

Los autores del estudio aconsejan que, ante el empeoramiento o la aparición de síntomas preocupantes, como dolor en el pecho, dificultad para respirar, reacciones alérgicas graves o cambios en el estado mental, las personas deben buscar atención médica directamente en lugar de depender únicamente de la orientación de un chatbot. En los casos que involucren pensamientos de autolesión, las personas deben comunicarse con la Línea de Ayuda para la Prevención del Suicidio y Crisis 988 o acudir a un departamento de emergencias.

A pesar de ello, los investigadores enfatizan que los hallazgos no sugieren que los consumidores deban abandonar por completo las herramientas de salud basadas en IA.

“Como estudiante de medicina que se forma en una época en que las herramientas de salud basadas en IA ya están en manos de millones de personas, las veo como tecnologías que debemos aprender a integrar cuidadosamente en la atención en lugar de sustitutos del juicio clínico”, dice Alvira Tyagi, estudiante de primer año de medicina en la Icahn School of Medicine at Mount Sinai y segundo autor del estudio. “Estos sistemas están cambiando rápidamente, por lo que parte de nuestra formación ahora debe considerar aprender a comprender sus resultados de manera crítica, identificar dónde fallan y utilizarlos de manera que protejan a los pacientes.”

leer más  Apex1: Clave para la Reparación Ósea y la Prevención de Fracturas sin Consolidación

El estudio evaluó el sistema en un momento específico. Debido a que los modelos de IA se actualizan con frecuencia, el rendimiento puede cambiar con el tiempo, lo que subraya la necesidad de una evaluación independiente, dicen los investigadores.

“Comenzar la formación médica junto con herramientas que evolucionan en tiempo real deja claro que los resultados de hoy no están escritos en piedra”, dice la Sra. Tyagi. “Esa realidad exige una revisión continua para garantizar que las mejoras en la tecnología se traduzcan en una atención más segura.”

El equipo planea continuar evaluando las versiones actualizadas de ChatGPT Health y otras herramientas de IA orientadas al consumidor, ampliando futuras investigaciones a áreas como la atención pediátrica, la seguridad de los medicamentos y el uso de idiomas que no sean el inglés.

El artículo se titula “ChatGPT Health performance in a structured test of triage recommendations”.

Los autores del estudio, según figura en la revista, son Ashwin Ramaswamy, MD, MPP; Alvira Tyagi, BA; Hannah Hugo, MD; Joy Jiang, PhD; Pushkala Jayaraman, PhD; Mateen Jangda, MSc; Alexis E. Te, MD; Steven A. Kaplan, MD; Joshua Lampert, MD; Robert Freeman, MSN, MS; Nicholas Gavin, MD, MBA; Ashutosh K. Tewari, MBBS, MCh; Ankit Sakhuja, MBBS MS; Bilal Naved, PhD; Alexander W. Charney, MD, PhD; Mahmud Omar, MD; Michael A. Gorin, MD; Eyal Klang, MD; Girish N. Nadkarni, MD, MPH.

Fuente:

Referencia del diario:

Ramaswamy, A., et al. (2026). ChatGPT Health performance in a structured test of triage recommendations. Nature Medicine. DOI: 10.1038/s41591-026-04297-7. https://www.nature.com/articles/s41591-026-04297-7

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.