Probablemente ya haya oído hablar de modelos de lenguaje grandes, modelos de aprendizaje automático, modelos de generación de imágenes y así sucesivamente… pero “modelo del mundo” podría ser algo nuevo. Para ayudar a explicar el concepto, hablamos con Shlomi Fruchter y Jack Parker-Holder, investigadores de Google.
¡Felicitaciones por el lanzamiento de Project Genie! ¿Cuáles fueron sus roles en el equipo?
Shlomi: Jack y yo codirigimos el desarrollo de Genie. Principalmente me concentro en nuestros modelos de video y del mundo de próxima generación y en trabajar con el equipo para investigar nuevas mejoras.
Jack: Soy científico investigador, además de codirigir Genie. Mi trabajo consiste principalmente en imaginar nuevas capacidades para nuestros modelos y luego asegurarme de que haya un equipo, una hoja de ruta y un plan para hacerlas realidad.
¿Qué es exactamente Project Genie?
Jack: Project Genie es una herramienta donde puedes crear tu propio mundo con personajes y entornos y explorarlos en tiempo real. Por ejemplo, viajar a un planeta alienígena o sumergirte bajo el agua con criaturas marinas. Todo lo que se te ocurra.
Shlomi: Los mundos que normalmente queremos simular son variantes del mundo en el que vivimos, porque eso es lo que conocemos y nos importa. Genie predice lo que sucederá basándose en la mecánica de dicha variante del mundo: “Vale, si voy a entrar en la habitación que se parece a la imagen que proporcionaste de tu habitación, ¿cómo se verá cuando me mueva? ¿Cómo se verá el espejo? ¿Cómo se reflejará la luz en el suelo de madera?”. Toda esa dinámica ambiental, si se derrama agua o llueve, el modelo la simula de principio a fin, sin que funcione ningún motor de juego en segundo plano. Y realmente puedes interactuar. Si hay una pelota en el suelo, realmente puedes chocar con ella y empieza a rodar, que es lo que esperarías que sucediera en la realidad. Cuando el modelo lo hace bien, se ve realista.
¿Es Genie el primer modelo del mundo?
Jack: En realidad, hay muchos artículos históricos sobre modelos del mundo, pero uno de los que popularizó la idea es de 2018 de lo que entonces se llamaba Google Brain. Google Brain era nuestro equipo de investigación de aprendizaje profundo e inteligencia artificial, y ahora es parte de Google DeepMind. Ese artículo fue de David Ha y Jürgen Schmidhuber; fue la primera vez que alguien entrenó un modelo del mundo a partir de un dominio visual. Eso fue lo que realmente popularizó el término “modelo del mundo” en la comunidad de desarrolladores.
¿Cuál es la diferencia entre un modelo del mundo y, por ejemplo, un modelo de lenguaje grande?
Shlomi: Piénsalo de esta manera: un modelo de lenguaje intenta predecir la siguiente palabra. A partir de eso, aprende una representación del lenguaje. Más tarde, podemos enseñarle a mantener una conversación completa con una persona e incluso, tal vez, a pensar en un problema matemático. De manera similar, un modelo del mundo intenta predecir lo que sucederá a continuación en el mundo basándose en la secuencia de acciones que está realizando un agente. Básicamente, está simulando todo un entorno, momento a momento, en reacción a un agente. A través de esta simple tarea, el modelo aprende una representación del mundo.
Entonces, un modelo del mundo predice ese mundo basándose en un entorno en el que ha sido entrenado. Y no solo el mundo, sino también cómo reaccionan las cosas en ese mundo. ¿Es correcto?
Shlomi: Sí. Una parte clave de lo que está sucediendo en un modelo del mundo es lo que llamamos “observación”. Cuando usamos esta palabra, tiene una definición estrecha: observación visual. La observación en general no tiene por qué ser visual; puedes observar cómo se siente algo al tacto o el olor de algo. Pero en este momento, estamos hablando de imágenes.
Entendido. ¿Cómo se introduce información en Genie?
Jack: La mejor manera de empezar a introducir información en Genie es con una imagen o imágenes – a menudo usamos Nano Banana para esto – y algo de texto. Puedes usar solo texto, pero es más entretenido usar también una imagen. Por ejemplo, puedes subir una foto de un perro en la playa, y el texto puede describir la dinámica de la escena, tal vez algo como lo agitado que está el mar.
¿Para qué podríamos usar los modelos del mundo?
Jack: Una aplicación es entrenar a agentes de IA para que aprendan a hacer cosas en el mundo real. Darles acceso a nuestro mundo real sería peligroso y costoso, pero si pudiéramos simularlo, eso nos daría un campo de pruebas. Otra es la educación: podrías usar un modelo del mundo para enseñar a una clase sobre ciencia e historia. Imagina a 35 niños en una clase que no prestan atención. De repente, el profesor muestra un modelo del mundo en la pizarra: “Vale, vamos a caminar por la antigua Roma. ¿Qué deberíamos hacer? Vamos a preguntar a esa persona qué está pasando”. Podemos asegurarnos de que el modelo sea más históricamente preciso y convertirlo en una experiencia interactiva. Para la ciencia, podrías explorar el buceo submarino; ya tenemos ejemplos de esto.
