Google ha presentado su nuevo modelo de inteligencia artificial: Gemini 3.1 Flash-Lite. Las principales mejoras se centran en la reducción de costes y el aumento de la velocidad, lo que lo convierte en una herramienta especialmente útil para empresas y desarrolladores que buscan aprovechar las potentes capacidades de razonamiento y multimodales del gigante tecnológico.
¿Qué ofrece Gemini 3.1 Flash-Lite?
Este lanzamiento se produce apenas unas semanas después de la presentación de Gemini 3.1 Pro en febrero, complementando una estrategia escalonada que permite a las empresas adaptar la inteligencia artificial a cada nivel de su infraestructura. Google ya contaba con el modelo Flash, que se caracteriza por su rapidez, y ahora, con Gemini 3.1 Flash-Lite, apuesta por la velocidad y precios más atractivos.
En el ámbito de la inteligencia artificial de alto rendimiento, la métrica que a menudo define la experiencia del usuario no es solo la precisión, sino también la latencia. Para aplicaciones como la atención al cliente en tiempo real, la moderación de contenido en vivo o la generación instantánea de interfaces de usuario, el “tiempo hasta el primer token de respuesta” es un indicador clave para determinar si una aplicación se siente como una herramienta o como un colaborador. Si un modelo tarda incluso dos segundos en comenzar a responder, se rompe la ilusión de una interacción fluida.
Gemini 3.1 Flash-Lite está diseñado específicamente para ofrecer esa sensación de inmediatez. Según pruebas internas y evaluaciones de terceros, Flash-Lite supera a su predecesor, Gemini 2.5 Flash, con un tiempo de respuesta al primer token 2,5 veces más rápido. Además, presume de un aumento del 45% en la velocidad general de salida, alcanzando los 363 tokens por segundo en comparación con los 249.
Esta velocidad se logra gracias a lo que Koray Kavukcuoglu, vicepresidente de investigación de Google DeepMind, describe en una publicación en X como una enorme cantidad de ingeniería compleja para que la inteligencia artificial parezca instantánea.
Una de las adiciones técnicas más innovadoras es la introducción de los “niveles de pensamiento”. Esta característica, estandarizada tanto para las variantes Flash-Lite como para las Pro, permite a los desarrolladores modular dinámicamente la intensidad del razonamiento del modelo. Para tareas simples de clasificación o análisis de sentimiento a gran escala, el modelo puede reducirse para obtener la máxima velocidad y el mínimo coste.
Por el contrario, para la exploración compleja de código, la generación de paneles de control o la creación de simulaciones, el pensamiento puede intensificarse, permitiendo que el modelo realice razonamientos y lógicas más profundas antes de emitir la primera respuesta.
