OpenAI ha lanzado hoy un nuevo modelo insignia para la generación de imágenes, en un movimiento que busca contrarrestar las crecientes preocupaciones sobre su posible rezago frente a sus competidores en la carrera por captar la atención tanto de consumidores como de empresas.
El nuevo modelo de generación de imágenes permite una edición más precisa y puede generar imágenes hasta cuatro veces más rápido que la IA de creación de imágenes anterior de OpenAI, según indicó la compañía en una publicación de blog. Añadió que el nuevo modelo, junto con una nueva función de imágenes en ChatGPT, están diseñados para hacer que la generación de imágenes sea “encantadora”.
Según una publicación de blog de OpenAI, las nuevas Imágenes de ChatGPT se están implementando para todos los usuarios de ChatGPT y los usuarios de la API a nivel mundial hoy mismo. La compañía señaló que funciona con todos los modelos, por lo que los usuarios no necesitan seleccionar un modelo específico en el menú desplegable para utilizarlo.
“Creemos que todavía estamos al principio de lo que la generación de imágenes puede permitir”, afirmó la compañía en la publicación del blog. “La actualización de hoy es un paso adelante significativo, con más por venir, desde ediciones más granulares hasta resultados más ricos y detallados en varios idiomas”.
Aunque podría parecer un regalo de Navidad para los usuarios leales de ChatGPT, los empleados de OpenAI han estado trabajando arduamente como “elfos” respondiendo al memorándum “código rojo” posterior al Día de Acción de Gracias del CEO Sam Altman, cuyo objetivo era impulsar a la compañía a mejorar ChatGPT en las próximas ocho semanas en medio de la intensa competencia de rivales, principalmente Google.
El modelo Gemini de Google había ganado impulso después del lanzamiento de su modelo de generación de imágenes, Nano Banana, en agosto. Google informó que los usuarios activos mensuales aumentaron de 450 millones en julio a 650 millones en octubre.
Su última versión, Nano Banana Pro, se volvió viral después de su lanzamiento el 20 de noviembre, gracias a la nueva capacidad del modelo para manejar el texto en las imágenes de forma limpia (algo que había sido un problema espinoso durante años). Los usuarios también quedaron impresionados por la capacidad de Nano Banana Pro para producir diagramas e infografías que tenían sentido, y por el hecho de que permitía a las personas editar sus imágenes en lugar de regenerarlas desde cero.
La semana pasada, OpenAI lanzó la última versión de su modelo de texto, GPT-5.2; desde entonces, los observadores de la industria han estado esperando para ver si la compañía lanzaría un nuevo modelo de imagen antes del Año Nuevo. ¿Pero será lo suficientemente bueno como para superar a Google?
Fidji Simo, CEO de aplicaciones de OpenAI, escribió en una publicación de Substack que la interfaz de chat de ChatGPT no fue diseñada originalmente para ir más allá del texto, por lo que el nuevo modelo de imagen se acompaña de un “punto de entrada dedicado” en ChatGPT para imágenes que funciona más como un “estudio creativo”, disponible en la barra lateral a través de la aplicación móvil y en la web.
“Las nuevas pantallas de visualización y edición de imágenes facilitan la creación de imágenes que coincidan con tu visión u obtener inspiración de indicaciones y filtros preestablecidos de tendencia”, escribió. “Además, nuestro nuevo modelo es más rápido y mejor para seguir instrucciones detalladas, por lo que obtienes ediciones y transformaciones creativas más precisas”. El modelo puede mantener elementos clave como la iluminación, la composición y el parecido consistentes entre lo que los usuarios introducen y lo que el modelo produce, “para que los resultados se mantengan más cerca de lo que imaginaste”, añadió.
Aún así, Nano Banana Pro podría tener una ventaja inicial en cuanto a la atención del público. En una entrevista reciente con Fortune, Allie Miller, asesora e inversora en IA, comentó cómo asistió recientemente a un evento tipo Shark Tank organizado por Mark Cuban y le sorprendió lo que sucedió cuando Cuban pronunció las palabras “Nano Banana”.
Esperaba que la mención del generador de imágenes de IA con nombre caprichoso de Google pudiera causar confusión entre los miles de asistentes, que Miller describió como en su mayoría nuevos en la IA. En cambio, la multitud asintió con la cabeza en señal de reconocimiento.
Al igual que ChatGPT, explicó, “hay ciertas herramientas o modelos de IA que empiezas a escuchar una y otra vez que ganan un gran momento cultural popular”.
Queda por ver si los “elfos” de OpenAI pueden hacer que las nuevas Imágenes de ChatGPT sean tan irresistibles como los juguetes más buscados de la temporada. Pero este momento, que se produce en medio del “código rojo” de la compañía, subraya una realidad más amplia: si bien la calidad del modelo sigue siendo importante en la carrera de la IA, cada vez es más una batalla por el corazón y la mente de los consumidores.
