Investigadores han utilizado datos de más de 10,000 participantes sanos, con edades comprendidas entre 40 y 70 años, en el marco del proyecto 10K, un estudio de cohorte prospectivo que profundiza en aspectos clínicos, fisiológicos, conductuales y multiómicos. El objetivo es comprender mejor la relación entre la dieta y la salud.
La información dietética se recopiló a través de un registro continuo y en tiempo real del consumo de alimentos y bebidas, utilizando una aplicación móvil dedicada durante un período de dos semanas. Esta aplicación está vinculada a la base de datos HPP FCDB, que contiene información detallada sobre 7,765 alimentos únicos, clasificados en 33 categorías y asociados a 718 nombres cortos para facilitar la agrupación.
Para validar externamente los resultados, también se emplearon datos del estudio PREDICT australiano, un ensayo controlado aleatorio que investiga intervenciones dietéticas personalizadas en personas con prediabetes o diabetes tipo 2 en etapa temprana que están tomando metformina (N=138). Al igual que en el proyecto 10K, se utilizaron registros dietéticos detallados y mediciones clínicas recopiladas a través de una aplicación móvil.
Todos los participantes firmaron un formulario de consentimiento informado antes de su inclusión en el estudio, y se eliminaron todos los datos identificativos antes del análisis computacional. El estudio de cohorte 10K se lleva a cabo de acuerdo con los principios de la Declaración de Helsinki y fue aprobado por la Junta de Revisión Institucional del Instituto Weizmann de Ciencias.
El proceso de análisis incluyó la comparación de la base de datos HPP FCDB con varias bases de datos de composición de alimentos (FCDB) externas clave, como USDA SR Legacy, USDA FNDDS, Tzameret (Israel), MEXT (Japón), la base de datos de Bahrein y AUSNUT (Australia). Estas bases de datos fueron seleccionadas para proporcionar una cobertura completa de los hábitos alimentarios regionales y globales.
La metodología de alineación se basa en cuatro etapas: estandarización de datos utilizando modelos de lenguaje de gran tamaño (LLM) para clasificar los nombres y categorías de los alimentos de manera consistente; proyección de incrustaciones (embeddings) para convertir los alimentos en representaciones semánticas; coincidencia utilizando la similitud del coseno; y validación con LLM para asegurar que los alimentos coincidentes sean nutricionalmente equivalentes.
Para abordar los datos nutricionales faltantes, se utiliza una estrategia de imputación estructurada que combina la coincidencia basada en incrustaciones y la validación asistida por LLM. Este enfoque garantiza que los nutrientes faltantes se infieran de las fuentes más sólidas y validadas, manteniendo la transparencia en la toma de decisiones.
Se priorizan las bases de datos FCDB en función de su rigor de validación y robustez de los datos, dando mayor prioridad a fuentes con controles de calidad más estrictos, como USDA Standard Reference (SR Legacy) y USDA FNDDS.
Finalmente, se cuantificó la variabilidad intra e inter-FCDB de los nutrientes utilizando las correlaciones entre bases de datos, y se estimó el límite superior de reproducibilidad utilizando el subconjunto Foundation Foods de USDA FoodData Central.
Los modelos de aprendizaje automático, como LightGBM, se utilizaron para tareas de regresión y clasificación, con una validación cruzada de cinco pliegues. Se compararon diferentes conjuntos de características, incluyendo edad y sexo, nutrientes básicos y todos los nutrientes imputados por NutriMatch.
