Investigadores se enfrentan a un problema significativo que obstaculiza el progreso de la Recuperación Interactiva de Texto a Imagen por Difusión (DAI-TIR): la tendencia de los modelos de difusión a introducir ‘alucinaciones’ visuales engañosas que degradan el rendimiento. Zhuocheng Zhang de la Universidad de Hunan, Kangheng Liang y Paul Henderson de la Universidad de Glasgow, junto con Guanxuan Li, Richard Mccreadie y Zijun Long, demuestran empíricamente cómo estas imprecisiones pueden reducir sustancialmente la eficacia de la recuperación. Su nuevo marco, Aprendizaje Contrastivo Multivista Consciente de la Difusión (DMCL), ofrece un enfoque de entrenamiento robusto al optimizar las representaciones tanto de la intención de la consulta como de las imágenes objetivo, filtrando eficazmente estas señales alucinatorias y mejorando la alineación de la información textual y visual. Esta innovación mejora constantemente la precisión de la recuperación en múltiples rondas en cinco puntos de referencia, logrando ganancias de hasta un 7.37% en comparación con los métodos existentes y allanando el camino para sistemas DAI-TIR más fiables.
Sin embargo, el equipo descubrió que los modelos de difusión pueden introducir pistas visuales no deseadas, denominadas “alucinaciones”, que entran en conflicto con la consulta de texto original y degradan el rendimiento de la recuperación. Esta investigación demuestra empíricamente que estas señales alucinatorias impactan significativamente la precisión de los sistemas DAI-TIR. Este enfoque innovador produce un codificador que funciona como un filtro semántico, mapeando eficazmente las señales alucinatorias a un espacio nulo, mejorando así la robustez y mejorando la representación de la búsqueda visual pretendida por el usuario. La visualización de la atención y los análisis del espacio de incrustación geométrica proporcionan evidencia de respaldo para este comportamiento de filtrado, confirmando la capacidad del modelo para discernir y descartar información visual irrelevante. El trabajo establece un marco robusto para abordar los desafíos planteados por el contenido generado por difusión en la recuperación de imágenes.
Además, la investigación introduce dos objetivos de entrenamiento complementarios: un objetivo de Alineación de Consulta Multivista, Objetivo y un objetivo de Consistencia de Texto, Difusión. El objetivo de alineación anima al modelo a enfatizar las pistas compartidas entre las vistas mientras filtra las inconsistencias, mientras que el objetivo de consistencia mejora el acuerdo entre las consultas de texto y difusión, reduciendo la sensibilidad a las discrepancias y las alucinaciones generativas. En conjunto, estos objetivos crean un espacio de incrustación compartido que respalda de manera confiable la tarea DAI-TIR, incluso cuando se enfrenta a cambios en la intención del usuario a lo largo de múltiples rondas de interacción. La investigación aborda una limitación clave de DAI-TIR, donde los modelos de difusión pueden introducir detalles espurios en las imágenes generadas, lo que podría degradar la precisión de la recuperación. Los investigadores demostraron empíricamente que estas señales alucinatorias reducen significativamente el rendimiento, lo que llevó a la creación de DMCL para alinear las vistas de consulta basadas en texto y difusión mientras suprimen activamente estas señales engañosas. El estudio fue pionero en un método para formular DAI-TIR como un proceso de optimización conjunta, centrándose en las representaciones tanto de la intención de la consulta como de la imagen objetivo.
El equipo aprovechó la visualización de la atención y los análisis del espacio de incrustación geométrica para corroborar el comportamiento de filtrado del codificador desarrollado. Estos análisis revelaron cómo DMCL remodela el espacio de incrustación, mejorando la alineación intermodal y suprimiendo las señales conflictivas. El sistema ofrece un marco de entrenamiento robusto para DAI-TIR, facilitando una recuperación de imágenes interactiva más precisa y confiable. Los experimentos revelaron que estas señales alucinatorias pueden degradar el rendimiento de DAI-TIR, y DMCL tiene como objetivo mitigar esto optimizando las representaciones de la intención de la consulta y las imágenes objetivo. El equipo midió la consistencia semántica y empleó objetivos contrastivos conscientes de la difusión para alinear las vistas de consulta basadas en texto y difusión, suprimiendo las señales espurias. Los métodos DAI-TIR actuales utilizan modelos de difusión para generar vistas adicionales de la intención de un usuario, expresada como una consulta de texto, pero estas vistas generadas pueden introducir pistas visuales inexactas, conocidas como alucinaciones, que impactan negativamente en el rendimiento. DMCL aborda este problema optimizando las representaciones tanto de la intención de la consulta como de la imagen objetivo simultáneamente. El núcleo de DMCL reside en sus objetivos contrastivos y de consistencia semántica conscientes de la difusión, que alinean las vistas de consulta basadas en texto y difusión mientras suprimen activamente estas señales alucinatorias.
Los autores reconocen que su implementación actual utiliza un esquema de fusión aditiva simple para la integración de consultas, y la investigación futura se centrará en explorar técnicas de fusión más sofisticadas para mejorar aún más el rendimiento de la recuperación. También se ha publicado un conjunto de datos de entrenamiento DAI-TIR a gran escala para facilitar una mayor investigación en esta área. En última instancia, DMCL representa un paso significativo hacia la construcción de sistemas de recuperación de texto a imagen más confiables y precisos al mitigar el impacto de las señales visuales alucinatorias.
