IA y Ciencia: Ética, Reproducibilidad y el Legado de la Investigación

by Editor de Tecnologia

Dr Héloïse Stevance. Credit: Elise Manahan.

Recientemente, una de las conferencias de inteligencia artificial (IA) más prestigiosas (NeurIPS) fue sorprendida aceptando trabajos con citas alucinatorias. No unas pocas, sino más de cien instancias.

La respuesta del consejo de NeurIPS es muy reveladora sobre los tiempos que corren: “Incluso si el 1,1% de los trabajos tienen una o más referencias incorrectas debido al uso de LLM, el contenido de los trabajos en sí no se invalida necesariamente”. Efectivamente, una actitud de “¿y qué?”, seguida de declaraciones oximóricas como estar “comprometidos […] a garantizar al máximo el rigor científico”.

Esta aproximación relajada a la ética de la investigación y a lo que significa el “rigor científico” no debería ser el modelo a seguir para cómo la ciencia en general aborda la IA. Tampoco debería ser una señal de que debemos elegir entre la IA y nuestros principios. Simplemente debemos pensar cuidadosamente cómo y dónde la estamos utilizando.

Delegar tareas y la toma de decisiones científicas a las computadoras no es un fenómeno nuevo, y no es necesariamente algo malo. Algunas tareas pueden automatizarse o acelerarse para permitir descubrimientos más rápidos y ambiciosos. Pero delegar procesos científicos a nuestras máquinas siempre tiene un costo, que debe sopesarse frente a los beneficios.

Las decisiones que tomemos ahora influirán en los datos que crearemos para las futuras generaciones de científicos. Tenemos un deber de cuidado y una responsabilidad compartida con nuestros colegas, presentes y futuros.

The decisions we take now will influence the data we create for future generations of scientists. We have a duty of care and a shared responsibility to our peers, present and future.

Como astrónoma especializada en estudios del cielo que utiliza computadoras para analizar grandes cantidades de datos, he reflexionado mucho sobre este tema. Mi objetivo como científica es descubrir nuevos conocimientos al tiempo que mantengo los estándares del método científico: Reproducibilidad, Falsabilidad y Conciencia de Sesgos.

Mi interés particular radica en comprender cómo las explosiones distantes de estrellas crean nuevos elementos en el Universo que luego pueden formar planetas, personas e incluso teléfonos inteligentes. Estas explosiones solo son visibles durante unos días o semanas, por lo que debemos encontrarlas rápidamente para recopilar los datos necesarios para el análisis.

leer más  Caída de Acciones: Últimas Noticias del Mercado Bursátil

Para ello, contamos con programas como la encuesta del cielo ATLAS, que escanea el cielo una y otra vez, noche tras noche. En esencia, jugamos a un juego de “busca las diferencias” con el cosmos, comparando imágenes de referencia con las recientes, buscando cambios y nuevas fuentes de luz.

Pero el cielo es inmenso. En una noche oscura y sin luna, nuestros ojos pueden ver unos pocos miles de estrellas; la encuesta del cielo ATLAS puede ver mil millones de fuentes brillantes. Me tomaría un año entero comparar visualmente las imágenes de antes y después que ATLAS toma en una sola noche.

En resumen, los desafíos que enfrento en la astronomía moderna son doblemente comunes en la ciencia:

  1. Grandes cantidades de datos (volumen, velocidad y/o dimensionalidad).
  2. Falta de tiempo.

Whatever task we use AI and machine learning for, the key question we need to be asking is ‘How will this influence the legacy and longevity of my findings?’

Incluso si no te dedicas a rastrear explosiones que aparecen y desaparecen, si eres un investigador, tendrás plazos para solicitar financiación, conferencias para preparar, un contrato para renovar, etc. La presión del tiempo en la ciencia se siente en todos los ámbitos.

Y así delegamos en nuestras computadoras. Pero, independientemente de la tarea para la que utilicemos la IA y el aprendizaje automático, la pregunta clave que debemos hacernos es: «¿Cómo influirá esto en el legado y la longevidad de mis hallazgos?».

Con esto en mente, hay tres principios básicos que sigo al considerar si es prudente o correcto delegar una tarea o decisión a una herramienta.

1. El software solo es abierto si los datos subyacentes son abiertos

Cuidado con el “open-washing”: los modelos no son reproducibles sin datos de entrenamiento. La palabra “abierto” se utilizaba originalmente en la industria tecnológica para designar el software de código abierto, o el software “libre”, que otorga a todos la libertad de ver, usar, modificar y redistribuir. Perfecto para la reproducibilidad y el intercambio de conocimientos.

leer más  Venezuela: Trump afirma captura de Maduro - ¿Qué pasó?

Desafortunadamente, el hecho de que veas la palabra “abierto” hoy en día no significa necesariamente que se cumplan estos estándares. Incluso si puedes reproducir el resultado que te da un modelo, eso no es suficiente para la reproducibilidad científica a largo plazo. Alguien que no sea el creador del modelo debe poder reproducir y comprender el entrenamiento del modelo en sí. Pero si los datos subyacentes y los algoritmos de entrenamiento no son accesibles, esto es imposible.

Y si, como yo, eres la persona que publica modelos, tómate el tiempo de publicar datos documentados junto con el código, por ejemplo, en Zenodo.

2. Utiliza la herramienta más simple que funcione

Someone other than the model builder must be able to reproduce and understand the training of the model itself. But if the underlying data and training algorithms are not accessible, this is impossible to do.

A veces existe la presión de utilizar la herramienta o el modelo más nuevo y “avanzado”. Podemos suponer que, si queremos realizar una ciencia de vanguardia, debemos utilizar los modelos más innovadores y de última generación. Pero este no es necesariamente el caso. En cambio, abogo por comenzar con la solución más simple posible. Si el modelo simple funciona, ¡detente ahora! Si no funciona, analizamos los fallos específicos para que nos orienten hacia el siguiente enfoque a probar.

Encontrar una solución simple a un problema complejo es extremadamente valioso, porque significa que mis colegas, presentes y futuros, tendrán más facilidad para comprender mis modelos. La cantidad de conocimiento altamente específico requerido para comprender todos los matices de un método a veces se denomina deuda intelectual. Al igual que la deuda técnica, impide la reproducibilidad. En una empresa significa pérdida de ingresos; en la ciencia significa pérdida de conocimiento y reducción del rigor científico.

Utilizar la solución más simple posible también ayuda a mantener la soberanía. Tomemos un ejemplo extremo: imagina que utilizo un agente de IA de terceros como asistente de investigación. ¿Qué sucede cuando la empresa que proporciona esos agentes decide aumentar el precio de la suscripción varias veces porque está saliendo a bolsa y necesita obtener beneficios? ¿Puede mi beca de investigación soportar el golpe? ¿O qué pasa si deciden que la versión del modelo que estaba utilizando ya no está disponible, pero la nueva versión se comporta de manera diferente y/o devuelve resultados diferentes? ¿Qué pasa si la empresa quiebra y el servicio desaparece? Podría perder días, semanas, incluso años de investigación (financiada con fondos públicos).

leer más  Apple lanza en 2024 MacBook Pro con OLED ultrafinos, M6 y reducido grosor: ¿revolución en portátiles?

3. Sé escéptico con lo que no entiendes

It can be tempting to prompt your way to apply a complex, ‘smart-sounding’ solution that looks like it works. But science isn’t about trying to make something work and stopping there – that’s called confirmation bias. Science is about seeing something work and asking ‘why?’

Los modelos de lenguaje grandes, como ChatGPT o Claude, han reducido la barrera de entrada para que los no especialistas codifiquen herramientas y algoritmos complejos. Puede ser tentador utilizar indicaciones para aplicar una solución compleja y de aspecto “inteligente” que parezca funcionar. Pero la ciencia no consiste en intentar que algo funcione y detenerse ahí (eso se llama sesgo de confirmación). La ciencia consiste en ver que algo funciona y preguntar «¿por qué?», luego intentar que falle para ver dónde se rompe (y reportar esto junto con los éxitos).

Confieso que no soy inmune al “miedo a perderse algo” (FOMO). Seguir los principios éticos de la investigación puede ser lo correcto, pero no elimina la ansiedad: ¿me quedaré atrás si tardo demasiado en probar mis herramientas o si no creo un ejército de agentes de IA para leer la literatura y escribir artículos por mí?

La clave es recordar que me convertí en científico para comprender el mundo natural. Escribir artículos y solicitar subvenciones es un medio para un fin, no el objetivo en sí mismo. En última instancia, la IA puede ayudarme a hacer ciencia, pero no puede comprenderla por mí. Si no puedo reproducir mis resultados, podrías llamarme un Astrólogo.

You may also like

Leave a Comment

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.