¿Cómo evaluar de la mejor manera a los agentes de IA – sistemas de software que utilizan la inteligencia generativa, y que están surgiendo rápidamente – para asegurar que puedan operar de forma independiente durante períodos prolongados? La solución, según un reciente estudio, es enseñarles a jugar a Dungeons & Dragons, el legendario juego de rol fantástico que es la base de todos los RPG, y que cuenta con una adaptación checa exitosa y digna llamada Dračí doupě.
Dračí doupě, con sus reglas complejas, narrativas extensas y la necesidad de una colaboración en equipo sofisticada, ofrece un entorno ideal para probar agentes de IA impulsados por grandes modelos de lenguaje (LLM), incluyendo las interacciones entre estos agentes y jugadores humanos, según el equipo de investigación de la Universidad de California San Diego.
Prithviraj Ammanabrolu y sus colaboradores pusieron a prueba el juego de Dračí doupě con tres LLM avanzados. Durante el experimento, las inteligencias artificiales asumieron los roles de “Maestro del Calabozo”, jugadores y monstruos. Los científicos se centraron principalmente en evaluar combates tácticos complejos. Las inteligencias jugaron entre sí, y también contra más de 2.000 jugadores experimentados reclutados para el proyecto.
Las partidas de Dračí doupě con inteligencias artificiales se desarrollaron en 27 escenarios basados en batallas famosas de Dungeons & Dragons: Goblin Ambush, Kennel in Cragmaw Hideout y Klarg’s Cave. Los resultados mostraron que Claude 3.5 Haiku fue el que mejor jugó, seguido de cerca por GPT-4. DeepSeek-V3, de origen chino, quedó en último lugar.
Sin embargo, lo más interesante fue observar que las inteligencias artificiales comenzaron a comportarse de manera inusual con el tiempo. Los goblins, en medio del combate, desarrollaron personalidades y provocaban a sus oponentes con frases ingeniosas como: “Heh – shiny man’s gonna bleed!”. Los paladines comenzaron a pronunciar discursos heroicos al ser atacados o al contraatacar. Los brujos (warlock) se comportaron de manera particularmente dramática, incluso sin una razón aparente.
Parecía que las inteligencias artificiales estaban imitando a los jugadores humanos que realmente disfrutan del juego. Ammanabrolu y su equipo no están seguros de por qué ocurre esto, pero lo interpretan como un intento de las inteligencias de infundir personalidad al juego. En el futuro, planean jugar Dračí doupě con más inteligencias artificiales y centrarse en narrativas completas, en lugar de solo combates. Quizás pronto puedas disfrutar de una partida ágil de Dračí doupě con inteligencia artificial.
Video: Interactive and Situated Conversational AI in LIGHT
Video: Bringing Stories Alive: Generating Interactive Fiction Worlds
Video: How to Avoid Being Eaten by a Grue: Structured Exploration Strategies for Textual Worlds
Literatura
Conference paper NeurIPS 2025.

