Una nueva colaboración entre el Instituto Europeo de Bioinformática EMBL (EMBL-EBI), Google DeepMind, NVIDIA y la Universidad Nacional de Seúl ha puesto a disposición pública millones de estructuras de complejos proteicos predichas por inteligencia artificial a través de la base de datos AlphaFold. Para maximizar el impacto en la salud global, el conjunto de datos prioriza las proteínas importantes para comprender la salud y las enfermedades humanas. Se trata del conjunto de datos más grande de predicciones de complejos proteicos disponible actualmente.
Las proteínas son los componentes básicos de la vida. Interactúan para crear complejos proteicos que cumplen funciones biológicas. Al visualizar las interacciones proteicas, los científicos pueden descubrir los mecanismos moleculares que impulsan el comportamiento celular, identificar qué falla cuando alguien se enferma y desarrollar nuevos fármacos y terapias. Predecir la estructura de los complejos proteicos es extremadamente desafiante porque, en la naturaleza, las proteínas cambian de forma e interactúan de muchas maneras diferentes.
«La ciencia prospera gracias a la colaboración», afirmó Jo McEntyre, Directora Interina de EMBL-EBI. «Al poner a disposición del mundo este conjunto de datos fundamental de complejos proteicos, invitamos a los investigadores a probarlo, perfeccionarlo y ampliarlo para impulsar la próxima ola de descubrimientos biológicos».
Complejos proteicos para el impacto en la salud global
La última actualización de la base de datos AlphaFold abarca millones de homodímeros, complejos proteicos formados por dos proteínas idénticas. Se centra en 20 de las especies más estudiadas, incluidos los humanos, así como en la lista de patógenos bacterianos prioritarios de la Organización Mundial de la Salud. Este enfoque tiene como objetivo aportar un valor significativo e inmediato a los desafíos de la salud global.
«Al ampliar la base de datos AlphaFold para incluir complejos proteicos, estamos abordando una necesidad crítica expresada por la comunidad científica», dijo Anna Koivuniemi, Directora del Acelerador de Impacto de Google DeepMind. «Esperamos que, al reducir la barrera de estas predicciones complejas, podamos capacitar a los investigadores de todo el mundo para que persigan la próxima ola de descubrimientos que podrían mejorar la salud humana a escala global».
Experiencia científica y innovación técnica
La colaboración se basa en el sistema de inteligencia artificial AlphaFold de Google DeepMind, que, desde 2021, ha predicho con precisión la estructura de millones de proteínas. Para democratizar el acceso a las predicciones de AlphaFold, Google DeepMind y EMBL-EBI desarrollaron la base de datos AlphaFold, un recurso abierto al que cualquiera puede acceder. La base de datos cuenta con más de 3,4 millones de usuarios de 190 países.
A través de un diálogo continuo con la comunidad científica, surgió la clara necesidad de ampliar la base de datos AlphaFold para incluir complejos proteicos. En respuesta a esta necesidad, EMBL-EBI, Google DeepMind, NVIDIA y la Universidad Nacional de Seúl unieron sus fuerzas, aportando experiencia y recursos especializados para calcular e integrar millones de complejos proteicos en la base de datos AlphaFold.
La colaboración reunió una profunda experiencia biológica e innovaciones técnicas. NVIDIA y el Laboratorio Steinegger de la Universidad Nacional de Seúl desarrollaron la metodología, basada en el sistema de inteligencia artificial AlphaFold de Google DeepMind, incluyendo aceleraciones a los cálculos de alineación de múltiples secuencias y la inferencia de aprendizaje profundo. NVIDIA proporcionó una infraestructura de inteligencia artificial de vanguardia y amplió las canalizaciones de inferencia para superar las limitaciones que históricamente dificultaban este tipo de cálculos a gran escala. EMBL-EBI facilitó la colaboración al reunir a las demás partes y aportar experiencia en la gestión científica y de biodatos, así como en el análisis. Como defensora de la ciencia abierta, EMBL-EBI, junto con Google DeepMind, integró el nuevo conjunto de datos en la base de datos AlphaFold.
«La ambición de NVIDIA es contribuir constantemente con aceleraciones de órdenes de magnitud para las cargas de trabajo fundamentales de la biología digital, permitiendo lo que antes no era posible», dijo Anthony Costa, Director de Biología Digital de NVIDIA. «Este lanzamiento es un gran ejemplo de cómo la infraestructura y el software de inteligencia artificial pueden permitir escalas únicas de comprensión biológica».
«Al hacer que los complejos proteicos predichos sean accesibles a una escala sin precedentes, estamos iluminando un paisaje inexplorado de interacciones moleculares en todo el árbol de la vida», explicó Martin Steinegger, Profesor Asociado de la Universidad Nacional de Seúl.
Ciencia abierta a gran escala
Se necesita una combinación de infraestructura a escala de inteligencia artificial y un profundo conocimiento técnico para acelerar los flujos de trabajo complejos y generar predicciones de inteligencia artificial para complejos proteicos a esta escala. La colaboración alberga centralmente datos que, de otro modo, requerirían alrededor de 17 millones de horas de computación con GPU (unidad de procesamiento gráfico) para recrear.
Al realizar estos cálculos una sola vez y agregar la información a la base de datos AlphaFold, esta colaboración tiene como objetivo ayudar a democratizar el acceso a las predicciones de complejos proteicos. Permite a los científicos de todo el mundo investigar cómo interactúan las proteínas en el vasto universo de las proteínas y acelerar los descubrimientos que podrían conducir a nuevos medicamentos, nuevos productos y una comprensión más profunda de la vida misma.
Este es el primer paso en una ambición de agregar una amplia gama de predicciones de la estructura de complejos proteicos a la base de datos AlphaFold. La asociación ya ha calculado predicciones para 30 millones de complejos. De estos, 1,7 millones de predicciones de homodímeros de alta confianza se han agregado a la base de datos AlphaFold. Otros 18 millones son homodímeros de menor confianza, que están disponibles como una lista y para descarga masiva. El resto son heterodímeros, que se están analizando y evaluando actualmente. Se calcularán más predicciones de complejos proteicos y las predicciones de alta confianza se agregarán a la base de datos AlphaFold en los próximos meses. El trabajo se describe con más detalle en un preimpreso.
«El genoma humano tiene poco más de 20.000 proteínas diferentes. A pesar de este genoma relativamente pequeño, los seres humanos exhiben vías, procesos y regulaciones increíblemente complejos. Gran parte de esta complejidad surge de las interacciones intermoleculares entre proteínas, y con ligandos de moléculas pequeñas y ADN. Agregar interacciones homodiméricas proteína-proteína predichas a la base de datos AlphaFold es un primer paso hacia una descripción completa del interactoma humano, la base por la cual se describirá y comprenderá la biología humana. Esto tiene relevancia para el diseño de nuevas terapias, la comprensión de las interacciones huésped-patógeno y más. Hacer que estas estructuras sean accesibles a todos, permite a cada investigador del mundo construir sobre estos datos, acercándose un paso más a la predicción de la biología de la vida», dijo Dame Janet Thornton, Directora Emérita de EMBL-EBI.
