Los modelos de generación de imágenes por inteligencia artificial se basan en enormes conjuntos de datos visuales para crear resultados únicos. Sin embargo, investigadores han descubierto que, cuando se les pide a estos modelos que produzcan imágenes a partir de una serie de indicaciones que cambian gradualmente, tienden a recurrir a un puñado de motivos visuales, lo que resulta en un estilo final genérico.
Un estudio publicado en la revista Patterns sometió a prueba a dos generadores de imágenes de IA, Stable Diffusion XL y LLaVA, jugando un juego similar al teléfono descompuesto. El juego consistió en lo siguiente: al modelo Stable Diffusion XL se le proporcionó una breve instrucción y se le pidió que produjera una imagen, por ejemplo: “Mientras estaba particularmente solo, rodeado por la naturaleza, encontré un libro antiguo con exactamente ocho páginas que contaba una historia en un idioma olvidado, esperando ser leído y comprendido”. Esa imagen se presentó al modelo LLaVA, que se le pidió que la describiera. Esa descripción se reintrodujo en Stable Diffusion, que se le pidió que creara una nueva imagen basada en esa instrucción. Este proceso se repitió durante 100 rondas.
Al igual que en un juego humano del teléfono descompuesto, la imagen original se perdió rápidamente. No es sorprendente, especialmente si se han visto alguno de esos videos en cámara rápida donde se le pide a un modelo de IA que reproduzca una imagen sin realizar ningún cambio, solo para que la imagen se transforme rápidamente en algo que no se parece en nada a la original. Lo que sí sorprendió a los investigadores fue el hecho de que los modelos recurren a un puñado de estilos genéricos. En 1.000 iteraciones diferentes del juego, los investigadores encontraron que la mayoría de las secuencias de imágenes eventualmente caían en uno de los 12 motivos dominantes.
En la mayoría de los casos, el cambio es gradual. En algunas ocasiones, ocurrió repentinamente. Pero casi siempre sucedía. Los investigadores no quedaron impresionados. En el estudio, se refirieron a los estilos de imagen comunes como “música ambiental visual”, básicamente el tipo de imágenes que se verían colgadas en la habitación de un hotel. Las escenas más comunes incluían faros marítimos, interiores formales, entornos urbanos nocturnos y arquitectura rústica.
Incluso cuando los investigadores cambiaron a diferentes modelos para la generación y descripción de imágenes, surgieron las mismas tendencias. Los investigadores indicaron que cuando el juego se extiende a 1.000 rondas, la convergencia hacia un estilo aún ocurre alrededor de la ronda 100, pero las variaciones se extienden en esas rondas adicionales. Curiosamente, esas variaciones aún suelen provenir de uno de los motivos visuales populares.

¿Qué significa todo esto? Principalmente que la IA no es particularmente creativa. En un juego humano del teléfono descompuesto, se termina con una gran variedad porque cada mensaje se entrega y se escucha de manera diferente, y cada persona tiene sus propios sesgos y preferencias internos que pueden afectar el mensaje que recibe. La IA tiene el problema opuesto. No importa cuán extravagante sea la instrucción original, siempre recurrirá a una selección limitada de estilos.
Por supuesto, el modelo de IA se basa en instrucciones creadas por humanos, por lo que hay que tener en cuenta el conjunto de datos y lo que atrae a los humanos a fotografiar. Si hay una lección aquí, quizás sea que copiar estilos es mucho más fácil que enseñar gusto.
