Científicos han desarrollado un modelo de inteligencia artificial capaz de leer, analizar y generar código genético en todos los dominios de la vida conocidos, un avance con vastas implicaciones para la comprensión de enfermedades humanas, el diseño de nuevos tratamientos y el progreso del conocimiento biológico a una escala previamente imposible.
El modelo, denominado Evo 2, fue publicado en la revista Nature el 4 de marzo por un equipo de investigadores del Arc Institute, una organización sin fines de lucro dedicada a la investigación biomédica con sede en Palo Alto, California. A diferencia de los modelos de IA comúnmente utilizados, como ChatGPT y Claude de Anthropic, que se basan en texto escrito en lenguajes humanos, Evo 2 fue entrenado enteramente con secuencias de ADN –aproximadamente 9 billones de pares de bases– extraídas de bacterias, plantas, animales y todos los demás dominios de la vida.
Patrick Hsu, cofundador e investigador principal del Arc Institute y coautor principal del estudio, declaró a phys.org:
Nuestro desarrollo de Evo 1 y Evo 2 representa un momento clave en el campo emergente de la biología generativa, ya que los modelos han permitido a las máquinas leer, escribir y pensar en el lenguaje de los nucleótidos.
Las posibles aplicaciones de un modelo como este son revolucionarias. Una herramienta que pueda predecir qué variaciones genéticas causan enfermedades, generar nuevas secuencias de ADN plausibles e identificar las propiedades funcionales de los genes en toda la biología podría acelerar drásticamente el desarrollo de nuevos medicamentos, terapias génicas y herramientas de diagnóstico. Podría transformar la comprensión y el tratamiento del cáncer, los trastornos genéticos, las enfermedades autoinmunes y las enfermedades infecciosas. En condiciones de organización social racional y científicamente planificada, estas capacidades podrían estar disponibles para toda la humanidad.
Sin embargo, bajo el capitalismo, los beneficios de tales avances inevitablemente se canalizan hacia las ganancias. Los gigantes farmacéuticos y las empresas de biotecnología que ya están desarrollando aplicaciones basadas en modelos de IA biológica de código abierto patentarán los tratamientos derivados y fijarán sus precios para maximizar el retorno de la inversión para los accionistas, no para mejorar la salud pública. La clase trabajadora, que produce la riqueza social que hace posible esta investigación, se verá en gran medida privada del acceso a los tratamientos que salvan vidas que de ella emergen.
Construyendo el modelo
Para construir Evo 2, los científicos recopilaron secuencias de ADN de casi 10 bases de datos de genomas públicas en un conjunto de datos masivo único llamado OpenGenome2. Con 5,5 terabytes –superando con creces la capacidad de almacenamiento de un ordenador portátil o estación de trabajo típico–, el conjunto de datos refleja la enorme escala de la tarea. Estas secuencias fueron aportadas por cientos de científicos de todo el mundo y se pusieron a disposición del público de forma gratuita, un testimonio del carácter colaborativo y no propietario del trabajo científico que choca con los imperativos de la competencia capitalista.
Existen dos versiones principales del modelo: Evo 2 7B, con 7 mil millones de parámetros entrenados en 2,3 billones de pares de bases, y Evo 2 40B, con 40 mil millones de parámetros entrenados en el conjunto de datos completo. El modelo más grande es más potente, pero requiere sustancialmente más recursos computacionales.
La creación de Evo 2 fue posible gracias a StripedHyena 2, una nueva arquitectura computacional que permitió el entrenamiento con 30 veces más datos que su predecesor, Evo 1, al tiempo que procesaba secuencias de hasta 1 millón de nucleótidos a la vez, muy superior a cualquier modelo de IA biológica anterior.
Después de construir el modelo, los científicos evaluaron su capacidad para realizar una variedad de tareas: predecir los efectos de las mutaciones genéticas, identificar variaciones causantes de enfermedades en el ADN humano, detectar propiedades funcionales de diferentes regiones del genoma y generar secuencias de ADN completamente nuevas.
Evo 2 predijo con éxito que las mutaciones en áreas críticas del ADN serían altamente perjudiciales, un hecho biológico bien conocido, pero con el que el modelo nunca fue programado explícitamente. Esta capacidad surgió enteramente de patrones en los datos de secuencia sin procesar.
El modelo también predijo con precisión si las variantes genéticas humanas –un término que los científicos ahora prefieren a “mutación”, ya que no todas las variaciones causan enfermedades– conducirían a enfermedades. Para las inserciones y deleciones en las secuencias de ADN, Evo 2 superó a todas las herramientas existentes. Para los cambios más simples, de una sola letra, en el código genético, tuvo un rendimiento comparable al de las mejores herramientas que no habían sido entrenadas con ejemplos etiquetados, aunque se quedó corto en comparación con los modelos especializados entrenados con conjuntos de datos seleccionados.
La distinción es importante: Evo 2 es un modelo “no supervisado”, lo que significa que aprendió únicamente de secuencias de ADN sin procesar sin que se le indicara qué buscar. Los modelos que se entrenan con datos etiquetados por científicos –los llamados modelos “supervisados”– tienen una ventaja inherente para tareas específicas. El hecho de que Evo 2 pueda igualar o superar a tales modelos en muchas tareas, a pesar de aprender solo de datos sin procesar, es un logro significativo.
Evo 2 también identificó con precisión una variedad de características dentro de los genomas. En bacterias, identificó correctamente qué elementos genéticos eran capaces de moverse de una ubicación a otra en el genoma. En humanos, identificó con precisión los límites entre intrones y exones –los segmentos de un gen que se eliminan o se conservan cuando el ADN se transcribe en ARN mensajero (ARNm) que sirve como plantilla para la construcción de proteínas. No todos estos límites se conocen en el genoma humano, por lo que una herramienta automatizada como Evo 2 tiene el potencial de avanzar significativamente en el conocimiento biológico en un corto período de tiempo.
Su capacidad para reconocer estas características surgió espontáneamente de patrones en los datos de secuencia, evidencia de que el modelo ha desarrollado independientemente algo similar a una comprensión interna de cómo el ADN codifica el ARN y las proteínas.
Generando nuevo código genético
Debido a que Evo 2 también es un modelo generativo, puede producir nuevas secuencias de ADN utilizando una secuencia más corta como indicación inicial, de manera similar a cómo ChatGPT genera texto en respuesta a una indicación escrita.
Los científicos probaron esta capacidad proporcionando a Evo 2 la primera parte de un gen y pidiéndole que completara el resto. En pruebas en seis especies diversas, el modelo generó entre el 70 y casi el 100 por ciento del gen restante con precisión.
En una prueba más ambiciosa, utilizaron Evo 2 para generar secuencias de ADN completas que codifican estructuras celulares complejas llamadas mitocondrias –los orgánulos responsables de producir energía en las células. En humanos, los genes que codifican los componentes mitocondriales están dispersos en los 23 cromosomas, así como en el propio ADN de las mitocondrias. Utilizando indicaciones mínimas, Evo 2 generó los mismos tipos y números de genes que codifican las mitocondrias reales, con una alta similitud con las secuencias reales.
Los científicos también utilizaron Evo 2 para generar secuencias de ADN con altos niveles de “accesibilidad de la cromatina”, una propiedad que determina si un segmento de ADN es físicamente accesible a la maquinaria celular que activa los genes. Trabajando en conjunto con otros dos modelos especializados, Evo 2 fue capaz de producir secuencias nuevas con las propiedades deseadas, mientras que los enfoques más simples fracasaron.
Es importante tener en cuenta que, si bien estos resultados son muy significativos, las secuencias de ADN generadas por Evo 2 aún deben probarse en el mundo real. Los autores reconocen que sus métodos de evaluación no garantizan que los genomas generados sean funcionales o capaces de replicarse durante la división celular.
Ciencia abierta y el sistema de lucro
Los científicos han puesto a disposición de forma gratuita todas las versiones de Evo 2 y el conjunto de datos OpenGenome2 en el repositorio de modelos HuggingFace, en consonancia con el espíritu de código abierto que impregna lo mejor de la investigación científica moderna.
Hsu señaló:
Evo 2 tiene una comprensión generalista del árbol de la vida que es útil para una multitud de tareas, desde predecir mutaciones causantes de enfermedades hasta diseñar código potencial para la vida artificial. Estamos entusiasmados de ver lo que la comunidad investigadora construye sobre estos modelos fundamentales.
El carácter colaborativo del trabajo que produjo Evo 2 es sorprendente. Las secuencias de ADN que forman su base fueron aportadas libremente por científicos de todo el mundo, recopiladas de bases de datos públicas que abarcan todos los dominios de la vida. La arquitectura de IA que lo hizo posible estaba disponible públicamente. Y el modelo terminado y su conjunto de datos seleccionado se devolvieron a la comunidad investigadora.
Sin embargo, esta colaboración laboral no tuvo lugar fuera del sistema de lucro. El modelo más grande de Evo 2 fue entrenado en 2048 GPU NVIDIA H100 utilizando la plataforma DGX Cloud de NVIDIA en Amazon Web Services, recursos proporcionados a través de una asociación formal entre el Arc Institute y NVIDIA, cuyos empleados son coautores del estudio.
El Arc Institute fue fundado con 650 millones de dólares de multimillonarios de Silicon Valley, incluido Patrick Collison, el director ejecutivo de la empresa de pagos de 65 mil millones de dólares Stripe, que es tanto cofundador del instituto como coautor del estudio Evo 2. Greg Brockman, cofundador y presidente de OpenAI, contribuyó a la arquitectura subyacente del proyecto durante una licencia sabática. Tanto Collison como Brockman tienen vínculos con la administración Trump y el gobierno israelí, los principales perpetradores del genocidio en curso en Gaza y la guerra imperialista contra Irán.
La contradicción es clara: el modelo de IA biológica más avanzado existente fue producido a través de un trabajo científico colaborativo y no propietario, pero fue incubado dentro de estructuras corporativas y filantrópicas que son productos del acaparamiento capitalista de la riqueza. Las empresas farmacéuticas y de biotecnología que utilizarán Evo 2 para aplicaciones comerciales no tienen la obligación de hacer que los tratamientos resultantes sean asequibles o universalmente accesibles, y no lo harán.
Herramientas como Evo 2 tienen el potencial de revolucionar la medicina, acelerando el descubrimiento de tratamientos para el cáncer, las enfermedades genéticas y afecciones que actualmente no tienen cura. Podrían extender la esperanza de vida saludable a nivel mundial, transformar el diagnóstico y hacer que la medicina genómica personalizada sea una realidad para miles de millones de personas. Pero bajo el capitalismo, tales avances están destinados a enriquecer a unos pocos privilegiados. Ya, las capas más ricas de la sociedad tienen acceso a medicina de conserjería y servicios de atención médica personalizados que la gran mayoría de la población no puede pagar. Los avances impulsados por la IA en la medicina genómica profundizarán esta brecha a menos que la clase trabajadora intervenga para reorganizar la sociedad sobre una base socialista.
Desbloquear el pleno potencial revolucionario de la IA –en medicina, ciencia, educación y todos los demás ámbitos– requiere arrebatar el control de estas tecnologías de la oligarquía financiera y ponerlas bajo el control democrático de la clase trabajadora. El Comité Internacional de la Cuarta Internacional (ICFI) ha demostrado en la práctica cómo la IA puede ponerse al servicio de la clase trabajadora, lanzando Socialism AI en diciembre de 2025, el primer chatbot marxista revolucionario del mundo, construido sobre el archivo de más de 125.000 artículos de WSWS y las obras fundamentales de Marx, Engels, Lenin y Trotsky, y diseñado para promover la educación política y la organización de trabajadores y jóvenes a nivel internacional.
El desarrollo de Evo 2 es una poderosa demostración de que los avances científicos más significativos surgen de la colaboración, la apertura y el libre intercambio de conocimientos, principios que son fundamentalmente incompatibles con la búsqueda capitalista de ganancias privadas. La liberación de la ciencia y la tecnología en beneficio de toda la humanidad requiere la reorganización socialista de la sociedad por parte de la clase trabajadora internacional.
Suscríbase al boletín informativo por correo electrónico de WSWS
