Incluso las redes neuronales consideradas durante mucho tiempo “imposibles de entrenar” pueden aprender de manera efectiva con un poco de ayuda. Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han demostrado que un breve período de alineación entre redes neuronales, un método que denominan “guidance” (guía), puede mejorar drásticamente el rendimiento de arquitecturas que antes se consideraban inadecuadas para las tareas modernas.
Sus hallazgos sugieren que muchas redes consideradas “ineficaces” pueden simplemente partir de puntos de inicio menos que ideales, y que una guía a corto plazo puede colocarlas en una posición que facilite el aprendizaje para la red.
El método de “guidance” del equipo funciona alentando a una red objetivo a igualar las representaciones internas de una red guía durante el entrenamiento. A diferencia de los métodos tradicionales como la destilación de conocimiento, que se centran en imitar las salidas de un “profesor”, el “guidance” transfiere el conocimiento estructural directamente de una red a otra. Esto significa que la red objetivo aprende cómo la red guía organiza la información dentro de cada capa, en lugar de simplemente copiar su comportamiento. Sorprendentemente, incluso las redes no entrenadas contienen sesgos arquitectónicos que pueden transferirse, mientras que las guías entrenadas transmiten además patrones aprendidos.
“Encontramos estos resultados bastante sorprendentes”, afirma Vighnesh Subramaniam ’23, MEng ’24, estudiante de doctorado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT e investigador de CSAIL, y autor principal de un artículo que presenta estos hallazgos. “Es impresionante que pudiéramos usar la similitud representacional para hacer que estas redes tradicionalmente ‘malas’ funcionen realmente”.
Un ángel guía
Una pregunta central era si el “guidance” debía continuar durante todo el entrenamiento, o si su efecto principal era proporcionar una mejor inicialización. Para explorar esto, los investigadores realizaron un experimento con redes totalmente conectadas profundas (FCN). Antes de entrenar en el problema real, la red pasó algunos pasos practicando con otra red utilizando ruido aleatorio, como estirarse antes de hacer ejercicio. Los resultados fueron sorprendentes: las redes que normalmente se sobreajustaban inmediatamente se mantuvieron estables, lograron una menor pérdida de entrenamiento y evitaron la degradación del rendimiento clásica que se observa en las FCN estándar. Esta alineación actuó como un calentamiento útil para la red, demostrando que incluso una breve sesión de práctica puede tener beneficios duraderos sin necesidad de una guía constante.
El estudio también comparó el “guidance” con la destilación de conocimiento, un enfoque popular en el que una red estudiante intenta imitar las salidas de una red maestra. Cuando la red maestra no estaba entrenada, la destilación falló por completo, ya que las salidas no contenían ninguna señal significativa. El “guidance”, por el contrario, aún produjo mejoras significativas porque aprovecha las representaciones internas en lugar de las predicciones finales. Este resultado subraya un conocimiento clave: las redes no entrenadas ya codifican sesgos arquitectónicos valiosos que pueden dirigir a otras redes hacia un aprendizaje eficaz.
Más allá de los resultados experimentales, los hallazgos tienen amplias implicaciones para la comprensión de la arquitectura de las redes neuronales. Los investigadores sugieren que el éxito, o el fracaso, a menudo depende menos de los datos específicos de la tarea, y más de la posición de la red en el espacio de parámetros. Al alinearse con una red guía, es posible separar las contribuciones de los sesgos arquitectónicos de las del conocimiento aprendido. Esto permite a los científicos identificar qué características del diseño de una red respaldan el aprendizaje eficaz, y qué desafíos simplemente provienen de una mala inicialización.
El “guidance” también abre nuevas vías para estudiar las relaciones entre arquitecturas. Al medir qué tan fácilmente una red puede guiar a otra, los investigadores pueden sondear las distancias entre diseños funcionales y reexaminar las teorías de la optimización de redes neuronales. Dado que el método se basa en la similitud representacional, puede revelar estructuras previamente ocultas en el diseño de la red, lo que ayuda a identificar qué componentes contribuyen más al aprendizaje y cuáles no.
Salvando lo desesperado
En última instancia, el trabajo demuestra que las redes consideradas “imposibles de entrenar” no están inherentemente condenadas. Con el “guidance”, se pueden eliminar los modos de falla, evitar el sobreajuste y llevar las arquitecturas previamente ineficaces al nivel de los estándares de rendimiento modernos. El equipo de CSAIL planea explorar qué elementos arquitectónicos son los más responsables de estas mejoras y cómo estos conocimientos pueden influir en el futuro diseño de redes. Al revelar el potencial oculto incluso de las redes más obstinadas, el “guidance” proporciona una nueva y poderosa herramienta para comprender, y con suerte dar forma, a los fundamentos del aprendizaje automático.
“Generalmente se asume que las diferentes arquitecturas de redes neuronales tienen fortalezas y debilidades particulares”, dice Leyla Isik, profesora asistente de ciencias cognitivas en la Universidad Johns Hopkins, que no participó en la investigación. “Esta emocionante investigación muestra que un tipo de red puede heredar las ventajas de otra arquitectura, sin perder sus capacidades originales. Sorprendentemente, los autores demuestran que esto se puede hacer utilizando pequeñas redes ‘guía’ no entrenadas. Este artículo introduce una forma novedosa y concreta de agregar diferentes sesgos inductivos a las redes neuronales, lo cual es fundamental para desarrollar una IA más eficiente y alineada con los humanos”.
Subramaniam escribió el artículo con colegas de CSAIL: el científico investigador Brian Cheung; el estudiante de doctorado David Mayo ’18, MEng ’19; el investigador asociado Colin Conwell; los investigadores principales Boris Katz, científico investigador principal de CSAIL, y Tomaso Poggio, profesor del MIT en ciencias cerebrales y cognitivas; y el ex científico investigador de CSAIL Andrei Barbu. Su trabajo fue apoyado, en parte, por el Centro para Cerebros, Mentes y Máquinas, la Fundación Nacional de Ciencias, la Iniciativa de Aplicaciones de Aprendizaje Automático del MIT CSAIL, el Laboratorio de IA Watson del MIT-IBM, la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. (DARPA), el Acelerador de Inteligencia Artificial del Departamento de la Fuerza Aérea de EE. UU. y la Oficina de Investigación Científica de la Fuerza Aérea de EE. UU.
Su trabajo fue presentado recientemente en la Conferencia y Taller sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS).
