Home TecnologíaApple mejora la IA para diseño de interfaces con feedback de expertos

Apple mejora la IA para diseño de interfaces con feedback de expertos

by Editor de Tecnologia

Apple continúa explorando cómo la inteligencia artificial generativa puede mejorar las líneas de desarrollo de aplicaciones. Esto es lo que están investigando.

Un poco de contexto

Hace unos meses, un equipo de investigadores de Apple publicó un interesante estudio sobre el entrenamiento de una IA para generar código de interfaz de usuario funcional.

En lugar de centrarse en la calidad del diseño, el estudio se enfocó en asegurar que el código generado por la IA realmente se compilara y coincidiera aproximadamente con lo que el usuario solicitaba en términos de la funcionalidad y apariencia de la interfaz.

El resultado fue UICoder, una familia de modelos de código abierto sobre la que puedes leer más aquí.

El nuevo estudio

Ahora, una parte del equipo responsable de UICoder ha publicado un nuevo documento titulado “Improving User Interface Generation Models from Designer Feedback” (Mejorando los modelos de generación de interfaz de usuario a partir de la retroalimentación de los diseñadores).

En él, los investigadores explican que los métodos existentes de Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) no son los más adecuados para entrenar a los LLM para que generen interfaces de usuario bien diseñadas de forma fiable, ya que “no están bien alineados con los flujos de trabajo de los diseñadores e ignoran el razonamiento profundo utilizado para criticar y mejorar los diseños de interfaz de usuario”.

Para abordar este problema, propusieron una ruta diferente. Contrataron a diseñadores profesionales para que criticaran y mejoraran directamente las interfaces de usuario generadas por el modelo utilizando comentarios, bocetos e incluso ediciones prácticas, y luego convirtieron esos cambios de antes y después en datos utilizados para ajustar el modelo.

leer más  Australia: Prohíben Redes Sociales a Menores de 16 Años

Esto les permitió entrenar un modelo de recompensa con mejoras de diseño concretas, enseñando eficazmente al generador de interfaces de usuario a preferir diseños y componentes que reflejaran mejor el juicio de diseño del mundo real.

La configuración

En total, 21 diseñadores participaron en el estudio:

Los participantes reclutados tenían varios niveles de experiencia profesional en diseño, que oscilaban entre 2 y más de 30 años. Los participantes también trabajaban en diferentes áreas de diseño, como diseño de UI/UX, diseño de productos y diseño de servicios. Los diseñadores participantes también señalaron la frecuencia con la que realizaban revisiones de diseño (tanto formales como informales) en sus actividades laborales: desde una vez cada pocos meses hasta varias veces por semana.

Los investigadores recopilaron 1.460 anotaciones, que luego se convirtieron en pares de ejemplos de “preferencia” de la interfaz de usuario, contrastando la interfaz original generada por el modelo con las versiones mejoradas por los diseñadores.

Esto, a su vez, se utilizó para entrenar un modelo de recompensa para ajustar el generador de la interfaz de usuario:

El modelo de recompensa acepta i) una imagen renderizada (una captura de pantalla de la interfaz de usuario) y ii) una descripción en lenguaje natural (una descripción objetivo de la interfaz de usuario). Estas dos entradas se introducen en el modelo para producir una puntuación numérica (recompensa), que se calibra para que los diseños visuales de mejor calidad den como resultado puntuaciones más altas. Para asignar recompensas al código HTML, utilizamos la canalización de renderizado automatizada descrita en la Sección 4.1 para renderizar primero el código en capturas de pantalla utilizando un software de automatización del navegador.

En cuanto a los modelos generadores, Apple utilizó Qwen2.5-Coder como modelo base principal para la generación de la interfaz de usuario, y luego aplicó el mismo modelo de recompensa entrenado por los diseñadores a variantes más pequeñas y nuevas de Qwen para probar qué tan bien se generalizaba el enfoque en diferentes tamaños y versiones de modelos.

leer más  UCSD: Aumenta la necesidad de matemáticas de recuperación en estudiantes

Curiosamente, como señalan los propios autores del estudio, ese marco termina pareciéndose mucho a una canalización RLHF tradicional. La diferencia, argumentan, es que la señal de aprendizaje proviene de los flujos de trabajo nativos de los diseñadores (comentarios, bocetos y revisiones prácticas) en lugar de datos de clasificación o valoración simples.

Los resultados

Entonces, ¿realmente funcionó? Según los investigadores, la respuesta es sí, con importantes matices.

En general, los modelos entrenados con la retroalimentación nativa de los diseñadores (especialmente con bocetos y revisiones directas) produjeron diseños de interfaz de usuario notablemente de mayor calidad que tanto los modelos base como las versiones entrenadas utilizando únicamente datos de clasificación o valoración convencionales.

De hecho, los investigadores señalaron que su modelo de mejor rendimiento (Qwen3-Coder ajustado con retroalimentación de bocetos) superó a GPT-5. Quizás aún más impresionante, esto se derivó en última instancia de solo 181 anotaciones de bocetos de diseñadores.

Nuestros resultados muestran que el ajuste fino con nuestro modelo de recompensa basado en bocetos condujo constantemente a mejoras en las capacidades de generación de la interfaz de usuario para todas las líneas de base probadas, lo que sugiere una generalización. También demostramos que una pequeña cantidad de retroalimentación experta de alta calidad puede permitir de manera eficiente que modelos más pequeños superen a los LLM propietarios más grandes en la generación de la interfaz de usuario.

En cuanto a la advertencia, los investigadores señalaron que la subjetividad juega un papel importante a la hora de determinar qué constituye exactamente una buena interfaz:

Uno de los principales desafíos de nuestro trabajo y de otros problemas centrados en el ser humano es abordar la subjetividad y las múltiples resoluciones de los problemas de diseño. Ambos fenómenos también pueden conducir a una alta varianza en las respuestas, lo que plantea desafíos para los mecanismos de retroalimentación de clasificación ampliamente utilizados.

En el estudio, esta varianza se manifestó como un desacuerdo sobre qué diseños eran realmente mejores. Cuando los investigadores evaluaron de forma independiente los mismos pares de interfaz de usuario que los diseñadores habían clasificado, solo estuvieron de acuerdo con las elecciones de los diseñadores el 49,2% de las veces, apenas un lanzamiento de moneda.

leer más  Xiaomi Redmi TV X 2026: Nuevos modelos Mini LED 55, 65 y 75"

Por otro lado, cuando los diseñadores proporcionaron retroalimentación dibujando mejoras o editando directamente las interfaces de usuario, el equipo de investigación estuvo de acuerdo con esas mejoras con mucha más frecuencia: 63,6% para los bocetos y 76,1% para las ediciones directas.

En otras palabras, cuando los diseñadores podían mostrar específicamente lo que querían cambiar en lugar de simplemente elegir entre dos opciones, fue más fácil ponerse de acuerdo sobre lo que significaba “mejor”.

Para obtener más información sobre el estudio, incluidos los aspectos técnicos, el material de capacitación y más ejemplos de las interfaces, sigue este enlace.

Ofertas de accesorios en Amazon

FTC: We use income earning auto affiliate links. More.

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.