El estudio GPT-4 examina los sesgos en las decisiones clínicas: se evalúan las implicaciones raciales y de género.

  • Un equipo de investigadores de Brigham analizó el rendimiento de GPT-4 en cuatro escenarios de apoyo a la toma de decisiones clínicas: generación de viñetas clínicas, razonamiento diagnóstico, generación de planes clínicos y evaluaciones subjetivas de los pacientes.

  • Cuando se le pidió que generara viñetas clínicas para la educación médica, GPT-4 no logró modelar la diversidad demográfica de las condiciones médicas, exagerando las diferencias demográficas conocidas en la prevalencia en el 89% de las enfermedades.

  • Al evaluar la percepción del paciente, GPT-4 produjo respuestas significativamente diferentes por género o raza/etnia en el 23% de los casos.

Newswise: los modelos de lenguaje grande (LLM) como ChatGPT y GPT-4 tienen el potencial de ayudar en la práctica clínica a automatizar tareas administrativas, redactar notas clínicas, comunicarse con pacientes e incluso respaldar la toma de decisiones clínicas. Sin embargo, estudios preliminares sugieren que los modelos pueden codificar y perpetuar sesgos sociales que podrían afectar negativamente a grupos históricamente marginados. Un nuevo estudio realizado por investigadores de Hospital Brigham y de Mujeresmiembro fundador de la General de masa Brigham sistema de salud, evaluó la tendencia de GPT-4 a codificar y exhibir sesgos raciales y de género en cuatro funciones de apoyo a la toma de decisiones clínicas. Sus resultados se publican en Salud digital The Lancet.

“Si bien la mayor parte de la atención se centra en el uso de los LLM para tareas administrativas o de documentación, también hay entusiasmo sobre el potencial de utilizar los LLM para respaldar la toma de decisiones clínicas”, dijo el autor correspondiente. Emily Alsentzer, PhD, investigador postdoctoral en el División de Medicina Interna General en el Hospital Brigham and Women’s. “Queríamos evaluar sistemáticamente si GPT-4 codifica prejuicios raciales y de género que afectan su capacidad para respaldar la toma de decisiones clínicas”.

leer más  Xbox 'ganó' silenciosamente los premios Game Awards y PlayStation se quedó corto

Alsentzer y sus colegas probaron cuatro aplicaciones de GPT-4 utilizando la plataforma Azure OpenAI. En primer lugar, solicitaron a GPT-4 que generara viñetas de pacientes que pudieran utilizarse en la educación médica. A continuación, probaron la capacidad de GPT-4 para desarrollar correctamente un diagnóstico diferencial y un plan de tratamiento para 19 casos de pacientes diferentes de un NEJM Healer, una herramienta de educación médica que presenta casos clínicos desafiantes a los médicos en formación. Finalmente, evaluaron cómo GPT-4 hace inferencias sobre la presentación clínica de un paciente utilizando ocho viñetas de casos que se generaron originalmente para medir el sesgo implícito. Para cada aplicación, los autores evaluaron si los resultados de GPT-4 estaban sesgados por raza o género.

Para la tarea de educación médica, los investigadores crearon diez indicaciones que requerían que GPT-4 generara una presentación del paciente para un diagnóstico proporcionado. Ejecutaron cada mensaje 100 veces y descubrieron que GPT-4 exageraba las diferencias conocidas en la prevalencia de enfermedades por grupo demográfico.

“Un ejemplo sorprendente es cuando se solicita a GPT-4 que genere una viñeta para un paciente con sarcoidosis: GPT-4 describe a una mujer negra el 81% de las veces”, explica Alsentzer. “Si bien la sarcoidosis es más prevalente en pacientes negros y en mujeres, no representa el 81% de todos los pacientes”.

Luego, cuando se pidió a GPT-4 que desarrollara una lista de 10 diagnósticos posibles para los casos de NEJM Healer, cambiar el género o la raza/etnicidad del paciente afectó significativamente su capacidad para priorizar el diagnóstico principal correcto en el 37% de los casos.

“En algunos casos, la toma de decisiones de GPT-4 refleja prejuicios raciales y de género conocidos en la literatura”, dijo Alsentzer. “En el caso de la embolia pulmonar, el modelo clasificó el ataque de pánico/ansiedad como un diagnóstico más probable para las mujeres que para los hombres. También clasificó las enfermedades de transmisión sexual, como el VIH agudo y la sífilis, como más probables para pacientes de minorías raciales en comparación con pacientes blancos.”

leer más  Revelan los verdaderos colores de Neptuno y Urano: más similares de lo que se pensaba

Cuando se le pidió que evaluara rasgos subjetivos del paciente, como la honestidad, la comprensión y la tolerancia al dolor, GPT-4 produjo respuestas significativamente diferentes según raza, etnia y género en el 23% de las preguntas. Por ejemplo, GPT-4 tenía significativamente más probabilidades de calificar a los pacientes varones negros como abusadores del opioide Percocet que a las pacientes asiáticas, negras, hispanas y blancas cuando las respuestas deberían haber sido idénticas para todos los casos de pacientes simulados.

Las limitaciones del estudio actual incluyen probar las respuestas de GPT-4 utilizando un número limitado de indicaciones simuladas y analizar el rendimiento del modelo utilizando sólo unas pocas categorías tradicionales de identidades demográficas. El trabajo futuro debería investigar los sesgos utilizando notas clínicas de la historia clínica electrónica.

“Si bien actualmente se están implementando herramientas basadas en LLM con un médico al tanto para verificar los resultados del modelo, es muy difícil para los médicos detectar sesgos sistémicos al ver casos de pacientes individuales”, dijo Alsentzer. “Es fundamental que realicemos evaluaciones de sesgo para cada uso previsto de los LLM, tal como lo hacemos con otros modelos de aprendizaje automático en el ámbito médico. Nuestro trabajo puede ayudar a iniciar una conversación sobre el potencial de GPT-4 para propagar sesgos en las aplicaciones de apoyo a las decisiones clínicas”.

Autoría: Otros autores de BWH incluyen a Jorge A Rodríguez, David W Bates y Raja-Elie E Abdulnour. Los autores adicionales incluyen a Travis Zack, Eric Lehman, Mirac Suzgun, Leo Anthony Celi, Judy Gichoya, Dan Jurafsky, Peter Szolovits y Atul J Butte.

Divulgaciones: Alsentzer informa honorarios personales de Canopy Innovations, Fourier Health y Xyla; y subvenciones de Microsoft Research. Abdulnour es un empleado de la Sociedad Médica de Massachusetts, propietaria de NEJM Healer (en el estudio se utilizaron casos de NEJM Healer). Se pueden encontrar divulgaciones adicionales del autor en el artículo.

leer más  Cinco conclusiones del choque de la Copa Mundial de Rugby: PlanetRugby

Financiamiento: Beca de capacitación en hematología/oncología T32 del NCI; Filantropía Abierta y Fundación Nacional de Ciencias (IIS-2128145); y una donación filantrópica de Priscilla Chan y Mark Zuckerberg.

Artículo citado: Zack, T; Lehman, E y col. “Evaluación del potencial de GPT-4 para perpetuar los prejuicios raciales y de género en la atención médica: un estudio de evaluación modelo” Salud digital The Lancet DOI: 10.1016/S2589-7500(23)00225-X

2023-12-19 01:05:00
1702951897
#estudio #GPT4 #examina #los #sesgos #las #decisiones #clínicas #evalúan #las #implicaciones #raciales #género

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.