La optimización de caja negra fuera de línea presenta un desafío significativo en campos que van desde la secuenciación de ADN hasta la robótica, requiriendo la identificación de soluciones óptimas a partir de conjuntos de datos preexistentes. Ye Yuan, Can Chen (del MILA – Instituto de IA de Quebec), y Zipeng Sun (de McGill, MILA – Instituto de IA de Quebec), junto con Dinghuai Zhang y Christopher Pal (de Polytechnique Montreal, Canada CIFAR AI Chair), demuestran un nuevo enfoque utilizando modelos de lenguaje de difusión a gran escala (dLLMs) para superar las limitaciones de los métodos actuales. Su investigación aborda la dificultad que tienen las técnicas tradicionales para capturar las dependencias bidireccionales dentro de diseños complejos, aprovechando en cambio las capacidades de modelado bidireccional y refinamiento iterativo de los dLLMs. Al introducir un módulo de eliminación de ruido en contexto y una búsqueda de árbol de difusión enmascarada, el equipo condiciona eficazmente el LLM con los datos disponibles para generar diseños mejorados, logrando un rendimiento de última generación en el punto de referencia design-bench, allanando el camino para estrategias de optimización más eficientes y robustas.
Los LLM optimizan diseños a partir de datos fuera de línea limitados
Científicos han demostrado un nuevo enfoque para la optimización de caja negra fuera de línea (BBO) aprovechando el poder de los modelos de lenguaje de difusión a gran escala (LLMs). Esta innovadora investigación aborda el desafío de encontrar diseños óptimos cuando solo se dispone de un conjunto de datos fuera de línea limitado de diseños y sus etiquetas correspondientes, un escenario común en campos como el diseño de secuencias de ADN y la robótica. El equipo logró avances significativos al ir más allá de los métodos tradicionales que dependen de modelos proxy o generativos específicos de la tarea, aprovechando en cambio las capacidades de aprendizaje en contexto inherentes a los LLM preentrenados. El estudio revela un método que genera directamente diseños mejorados a partir de indicaciones de lenguaje natural que contienen descripciones de tareas y datos fuera de línea, superando las limitaciones de las adaptaciones anteriores de LLM autorregresivos que tenían dificultades con las dependencias bidireccionales cruciales en muchos problemas de diseño.
Este trabajo introduce un módulo de eliminación de ruido en contexto, condicionando un LLM de difusión tanto en la descripción de la tarea como en el conjunto de datos fuera de línea, ambos formateados meticulosamente como indicaciones de lenguaje natural. Luego, se le pide al LLM de difusión que elimine iterativamente el ruido de los diseños enmascarados, transformándolos en posibles soluciones candidatas. Los experimentos muestran que este enfoque aprovecha eficazmente las capacidades de modelado bidireccional y refinamiento iterativo de los LLM de difusión, lo que permite al modelo capturar dependencias complejas dentro del espacio de diseño que los modelos autorregresivos de izquierda a derecha a menudo no detectan. Los investigadores se centraron específicamente en mejorar el rendimiento en escenarios donde solo están disponibles unos pocos puntos de datos etiquetados, un obstáculo importante en muchos problemas de optimización del mundo real.
Para mejorar aún más el proceso de generación y guiarlo hacia diseños de alto rendimiento, el equipo desarrolló una búsqueda de árbol de difusión enmascarada. Este innovador módulo convierte el proceso de eliminación de ruido en una búsqueda de Monte Carlo paso a paso, equilibrando dinámicamente la exploración y la explotación para navegar eficientemente por el espacio de diseño. Cada nodo en el árbol de búsqueda representa un diseño parcialmente enmascarado, con cada paso de eliminación de ruido constituyendo una acción. Los candidatos se evalúan rigurosamente utilizando una mejora esperada, calculada bajo un proceso gaussiano entrenado en el conjunto de datos fuera de línea, lo que garantiza una evaluación robusta y basada en datos del rendimiento.
La investigación establece que su método, denominado dLLM, logra resultados de última generación en entornos de pocos disparos en el punto de referencia design-bench. Esto significa un salto sustancial en el rendimiento de BBO, particularmente en entornos con escasos datos. El trabajo abre posibilidades interesantes para automatizar el diseño de sistemas complejos, desde la optimización de secuencias de ADN para afinidades de unión específicas hasta el desarrollo de estrategias de control robótico más efectivas, todo sin requerir evaluaciones en línea costosas y que consumen mucho tiempo. La combinación de LLM de difusión y búsqueda de árbol enmascarada proporciona un marco poderoso para abordar problemas de optimización desafiantes en una amplia gama de disciplinas científicas y de ingeniería.
LLM de difusión para la optimización de caja negra fuera de línea
Científicos iniciaron un nuevo enfoque para la optimización de caja negra fuera de línea (BBO) aprovechando el poder de los modelos de lenguaje de difusión a gran escala (LLM). Este trabajo aborda el desafío de encontrar diseños óptimos, como secuencias de ADN o configuraciones robóticas, cuando solo se dispone de un conjunto de datos fuera de línea limitado de diseños y sus etiquetas de rendimiento. En lugar de depender de modelos proxy o generativos específicos de la tarea, los investigadores aprovecharon las capacidades de aprendizaje en contexto de los LLM preentrenados para generar directamente diseños mejorados a partir de los datos existentes. El estudio reconoció que los LLM autorregresivos tienen dificultades con las dependencias bidireccionales inherentes a muchos problemas de diseño, lo que motivó la exploración de los LLM de difusión con sus capacidades inherentes de modelado bidireccional y refinamiento iterativo.
El núcleo de su método, denominado dLLM, se centra en un módulo de eliminación de ruido en contexto. El equipo formateó tanto las descripciones de las tareas como el conjunto de datos fuera de línea como indicaciones de lenguaje natural, proporcionando esta información contextual al LLM de difusión junto con una instrucción para generar diseños mejorados. Crucialmente, los investigadores le pidieron al LLM que eliminara el ruido de los diseños enmascarados, refinándolos iterativamente en candidatos prometedores. Esta innovadora técnica permite al modelo considerar las dependencias en todo el espacio de diseño, superando las limitaciones de los modelos autorregresivos de izquierda a derecha. El LLM de difusión se condicionó en la descripción de la tarea y el conjunto de datos fuera de línea, ambos presentados en lenguaje natural, para guiar el proceso de eliminación de ruido y generar candidatos mejorados.
Para mejorar aún más el proceso de generación de diseños, los científicos introdujeron una búsqueda de árbol de difusión enmascarada. Este método convierte el proceso de eliminación de ruido en una búsqueda de Monte Carlo paso a paso, equilibrando dinámicamente la exploración de nuevas posibilidades de diseño con la explotación de regiones prometedoras. Cada nodo en el árbol de búsqueda representa un diseño parcialmente enmascarado, con cada paso de eliminación de ruido constituyendo una acción. Los diseños candidatos se evalúan luego utilizando una mejora esperada, calculada a través de un proceso gaussiano entrenado en el conjunto de datos fuera de línea inicial. Este proceso gaussiano proporciona un modelo predictivo del rendimiento del diseño, lo que permite al algoritmo de búsqueda identificar y priorizar eficientemente a los candidatos de alto rendimiento.
Los experimentos emplearon la plataforma design-bench para demostrar el rendimiento de dLLM. El equipo logró resultados de última generación en entornos de pocos disparos, lo que demuestra la eficacia de su enfoque en escenarios con datos etiquetados limitados. Este método logra mejoras significativas al combinar eficazmente las fortalezas de los LLM de difusión con un sofisticado algoritmo de búsqueda de árboles, lo que permite el descubrimiento de diseños óptimos en problemas de optimización fuera de línea desafiantes.
DLLM sobresale en la optimización de caja negra de pocos disparos, logrando resultados de última generación
Científicos lograron resultados de última generación en la optimización de caja negra fuera de línea (BBO) utilizando modelos de lenguaje de difusión a gran escala (LLM). El equipo desarrolló un nuevo método, dLLM, que aprovecha las capacidades de modelado bidireccional y refinamiento iterativo de los LLM de difusión para descubrir diseños óptimos a partir de conjuntos de datos fuera de línea. Los experimentos revelaron que dLLM supera significativamente a las técnicas existentes en entornos de pocos disparos en el punto de referencia design-bench. Este avance ofrece un nuevo enfoque para abordar problemas de optimización en dominios como el diseño de secuencias de ADN y la robótica, donde obtener datos etiquetados es costoso.
La investigación se centró en abordar las limitaciones de los métodos tradicionales de BBO, que a menudo dependen de modelos proxy o generativos específicos de la tarea. Estos métodos tienen dificultades con datos limitados y no aprovechan completamente las capacidades de aprendizaje en contexto de los LLM preentrenados. Los científicos introdujeron un módulo de eliminación de ruido en contexto, condicionando el LLM de difusión en descripciones de tareas y conjuntos de datos fuera de línea formateados como indicaciones de lenguaje natural. Luego, el LLM de difusión elimina iterativamente el ruido de los diseños enmascarados, transformándolos en candidatos mejorados. Las mediciones confirman que este proceso captura eficazmente las dependencias bidireccionales cruciales en espacios de diseño complejos, a diferencia de los LLM autorregresivos que operan de izquierda a derecha.
Para mejorar aún más el rendimiento, el equipo implementó una búsqueda de árbol de difusión enmascarada, enmarcando el proceso de eliminación de ruido como una búsqueda de Monte Carlo paso a paso. Cada nodo en el árbol de búsqueda representa un diseño parcialmente enmascarado, con cada paso de eliminación de ruido constituyendo una acción. Los candidatos se evalúan utilizando una mejora esperada, calculada a través de un proceso gaussiano entrenado en el conjunto de datos fuera de línea. Las pruebas demuestran que este equilibrio dinámico de exploración y explotación conduce a un descubrimiento de diseños superior. El método explora sistemáticamente el espacio de diseño, priorizando a los candidatos prometedores al tiempo que considera las opciones menos exploradas.
Los resultados demuestran que dLLM aprende eficazmente a partir de datos fuera de línea limitados, generando diseños de alto rendimiento sin requerir evaluaciones en línea. El equipo midió el rendimiento utilizando una mejora esperada como señal de recompensa, propagando esta información hacia arriba en el árbol para refinar la estrategia de búsqueda. Los datos muestran que la combinación de eliminación de ruido en contexto y búsqueda de árbol de difusión enmascarada desbloquea todo el potencial de los LLM de difusión para BBO. Este trabajo abre posibilidades interesantes para automatizar los procesos de diseño en diversas disciplinas científicas y de ingeniería, lo que podría acelerar la innovación en áreas como el descubrimiento de fármacos y la ciencia de los materiales.
