La inteligencia artificial (IA) está atrayendo cada vez más atención en la búsqueda de soluciones interpretables y útiles para intervenciones sanitarias en el mundo real. Investigadores de la Universidad Estatal de Arizona, junto con Melanie Hingle de la Universidad de Arizona y Hassan Ghasemzadeh, han presentado un enfoque innovador que utiliza modelos de lenguaje grandes (LLM) para generar “explicaciones contrafactuales”. Estas explicaciones identifican esencialmente los cambios mínimos necesarios para obtener un resultado diferente de un modelo predictivo. Su trabajo, detallado en un nuevo estudio, evalúa el rendimiento de modelos como GPT-4, BioMistral-7B y LLaMA-3.1-8B, tanto en configuraciones estándar como ajustadas, utilizando un conjunto de datos clínicos. Los resultados revelan que los LLM ajustados, especialmente LLaMA-3.1-8B, pueden producir intervenciones altamente plausibles y clínicamente relevantes. Lo significativo de estas explicaciones contrafactuales generadas por LLM es que no solo ofrecen información interpretable, sino que también mejoran sustancialmente el rendimiento del modelo cuando los datos de entrenamiento son limitados, ofreciendo un camino flexible y agnóstico al modelo hacia tecnologías de salud digital más robustas y eficaces.
El estudio evaluó la capacidad de estos modelos, incluyendo LLaMA-3.1-8B en configuraciones preentrenadas y ajustadas, para identificar cambios mínimos y viables que alteren la predicción de un modelo de aprendizaje automático. Los LLM ajustados, en particular LLaMA-3.1-8B, produjeron consistentemente contrafactuales (CF) con hasta un 99% de plausibilidad y una validez de 0.99, junto con ajustes de características realistas y modificables conductualmente. Esta investigación revela un nuevo método no solo para proporcionar interpretabilidad centrada en el ser humano, sino también para aumentar los datos de entrenamiento y mejorar el rendimiento del modelo, especialmente en escenarios con datos etiquetados limitados. Esta técnica innovadora aborda las limitaciones de los métodos tradicionales, que a menudo tienen dificultades con la coherencia categórica y las modificaciones clínicamente plausibles.
Específicamente, el marco SenseCF ajusta un LLM para generar explicaciones contrafactuales válidas y representativas, y para complementar las clases minoritarias en conjuntos de datos desequilibrados, mejorando así el entrenamiento del modelo y aumentando el rendimiento predictivo. Como ilustran las figuras adjuntas, los clasificadores experimentan una disminución marcada en la puntuación F1 a medida que se reducen los datos de entrenamiento, lo que destaca la vulnerabilidad de los modelos estándar y motiva la necesidad de una ampliación sintética a través de contrafactuales generados por LLM. Esta investigación representa un paso significativo hacia sistemas de IA capaces de proporcionar predicciones precisas y conocimientos prácticos en aplicaciones críticas de atención médica. Además, este estudio compara sistemáticamente GPT-4 con LLM de código abierto, proporcionando una comparación rigurosa y cuantitativa en entornos clínicos multimodales. Al abordar las lagunas en la literatura actual, incluida la falta de una evaluación exhaustiva en grandes conjuntos de datos clínicos y métricas de evaluación estandarizadas, este trabajo proporciona una valiosa contribución al campo de la IA explicable y su aplicación a la salud digital. Los hallazgos sugieren que los contrafactuales impulsados por LLM tienen un gran potencial para crear soluciones sanitarias más transparentes, robustas y eficaces.
Los contrafactuales de LLM para la evaluación de datos clínicos ofrecen resultados prometedores
Los experimentos emplearon una metodología rigurosa, comenzando con el entrenamiento de varios clasificadores –Máquinas de Vectores de Soporte, Bosques Aleatorios, XGBoost y Redes Neuronales– en el conjunto de datos AI-READI para establecer un rendimiento de referencia bajo diferentes niveles de reducción de datos. El equipo generó entonces explicaciones contrafactuales utilizando cada LLM, solicitándoles que identificaran los cambios mínimos en las características de entrada que alterarían la predicción del modelo. Para cuantificar la calidad de la intervención, los científicos evaluaron la plausibilidad y la validez, logrando hasta un 99% de plausibilidad y 0.99 de validez con LLM ajustados, particularmente LLaMA-3.1-8B. La diversidad de las características se midió analizando el rango de características ajustadas dentro de los contrafactuales generados, asegurando alteraciones realistas y modificables conductualmente.
La investigación pionera una técnica de aumento de datos, introduciendo los CF generados por LLM como muestras de entrenamiento sintéticas en entornos controlados de escasez de etiquetas. Específicamente, el equipo redujo los datos de entrenamiento en un 10%, 20%, 30%, 40%, 50%, 60% y 70% para simular escenarios clínicos realistas donde los datos etiquetados son limitados. Luego, reentrenaron los clasificadores utilizando los datos originales aumentados con CFEs, midiendo la recuperación del rendimiento de la puntuación F1. Los hallazgos del estudio destacan la vulnerabilidad de los modelos estándar a la escasez de etiquetas y motivan la necesidad de una ampliación sintética basada en principios a través de contrafactuales generados por LLM.
Los LLM generan contrafactuales clínicos válidos y plausibles
Los LLM ajustados, notablemente LLaMA-3.1-8B, produjeron CF con alta plausibilidad, alcanzando hasta el 99%, y una fuerte validez, alcanzando un máximo del 0.99, junto con ajustes de características realistas y modificables conductualmente. Específicamente, en el Escenario A, el submuestreo de clase positiva, LLaMA ajustado logró un notable aumento del 21.00% en la precisión, del 20.00% en la precisión, del 24.56% en la exhaustividad, del 22.41% en la puntuación F1 y del 25.37% en el AUC, en relación con el conjunto de datos reducido. Estas ganancias demuestran el poder de los CFE para mitigar las caídas de rendimiento causadas por datos desequilibrados. El equipo midió la dispersión utilizando la fórmula ∑X∗ T ∈CF ∑d i=1 1(x∗i T = xi T) ∥CF∥, asegurando una mejor comprensión del usuario de los CF generados.
Los resultados demuestran que BioMistral-7B y LLaMA-3.1-8B ajustados mejoraron significativamente la validez, la dispersión y la distancia en comparación con sus contrapartes preentrenadas, con ganancias de 20 y 40 puntos porcentuales en la validez y reducciones superiores al 50% en la distancia de las características. Un ejemplo de intervención contrafactual ilustró cómo los LLM pueden proponer modificaciones clínicamente significativas para un paciente con alto estrés, identificando un sueño profundo bajo (30.1%), un sueño REM moderado (15.4%), glucosa elevada (210.8 mg/dL) y baja actividad (5.95 pasos) como factores clave que contribuyen al estrés. El LLM sugirió aumentar el sueño profundo al 35% y el sueño REM al 20%, junto con la reducción de la glucosa en sangre a 180 mg/dL, lo que refleja estrategias clínicamente viables. La Tabla III muestra que LLaMA* logró una validez casi perfecta con modificaciones mínimas y clínicamente realistas, mientras que los métodos tradicionales a menudo proponían cambios de características poco realistas. El análisis de la diversidad de las características, visualizado a través de gráficos de radar, destacó que los LLM ajustados se concentraron en variables altamente viables, como el número promedio de pasos, los niveles de glucosa y la frecuencia de hiperglucemia, factores que se pueden modificar fácilmente a través de cambios en el estilo de vida o tratamientos.
Los LLM aumentan la robustez de los datos a través de contrafactuales, mejorando la generalización
Esta investigación establece que los contrafactuales generados por LLM exhiben coherencia semántica y plausibilidad clínica, demostrando su capacidad para mejorar la robustez downstream cuando se aplican al aumento de datos, restaurando, en promedio, un 20% de la puntuación F1 en condiciones de grave escasez de etiquetas. Específicamente, los modelos LLaMA y BioMistral ajustados produjeron CF compactos y viables que superaron a sus contrapartes preentrenadas y demostraron ser competitivos con los métodos de optimización existentes. Hasta donde los autores saben, esta es la primera investigación sistemática de los CF basados en LLM aplicados a datos basados en sensores, tanto en entornos de cero como de pocos disparos, abriendo una vía prometedora para integrar la IA generativa en flujos de trabajo de aprendizaje automático de atención médica centrados en la intervención y confiables. Los autores reconocen limitaciones, incluida la posibilidad de cambios de características poco realistas, lo que sugiere que el trabajo futuro podría incorporar gráficos de conocimiento clínico o estructuras causales en el proceso de ajuste. Las futuras direcciones de investigación incluyen la extensión del enfoque a datos multimodales, como rastros de sensores sin procesar o notas clínicas, y la evaluación del impacto a largo plazo de la orientación basada en CF en la intervención temprana y los resultados de los pacientes.
👉 More information
🗞 Counterfactual Modeling with Fine-Tuned LLMs for Health Intervention Design and Sensor Data Augmentation
🧠 ArXiv: https://arxiv.org/abs/2601.14590
