Nvidia ha optimizado significativamente el rendimiento de su chip ‘Blackwell’, su producto estrella actual, en anticipación al lanzamiento de su próxima generación de GPU, ‘Vera Rubin’, previsto para la segunda mitad de este año.
La compañía anunció el 8 de enero (hora local) a través de su sitio web, una mejora drástica en el rendimiento de inferencia de mezcla de expertos (MoE) del chip Blackwell. Esta optimización se debe a actualizaciones en la pila de software de inferencia y en la arquitectura de Blackwell, lo que se traduce en un mayor rendimiento en el procesamiento de tokens y una reducción de los costos asociados a las cargas de trabajo de inteligencia artificial.
Durante el CES, el pasado 5 de enero, el CEO de Nvidia, Jensen Huang, presentó la GPU Vera Rubin, destacando su capacidad para ofrecer un rendimiento de inferencia de 50 petaflops (PFLOPs) y un rendimiento de entrenamiento de 35 PFLOPs, basados en el estándar NVFP4. Huang afirmó que esto representa el rendimiento más alto jamás alcanzado, superando a Blackwell en un factor de 5 y 3.5 respectivamente.
Sin embargo, la disponibilidad de Vera Rubin no está prevista hasta la segunda mitad de 2026. Nvidia asegura que las empresas que necesiten implementar infraestructura de IA de forma inmediata pueden obtener mejoras de rendimiento significativas con Blackwell. La compañía ha adoptado la estrategia de maximizar el rendimiento de sus productos existentes simultáneamente con el lanzamiento de nuevas arquitecturas, y Blackwell no es una excepción.
Dave Salvato, director de productos de computación acelerada de Nvidia, declaró en una entrevista con VentureBeat: “Estamos optimizando continuamente la pila de software de inferencia y entrenamiento para la arquitectura Blackwell”. Como resultado de investigaciones recientes, han logrado aumentar el rendimiento de inferencia de las GPU Blackwell hasta en 2.8 veces en tan solo tres meses.
Esta mejora en el rendimiento se ha logrado sin necesidad de reemplazar el hardware, gracias a la aplicación de diversas técnicas de optimización al software de inferencia de IA de Nvidia, ‘TensorRT-LLM’. Entre estas técnicas se incluyen la mejora de los métodos de ejecución para reducir la latencia, la simplificación de la estructura de comunicación para agilizar la transferencia de datos, la predicción de múltiples tokens con una sola operación y el uso del formato de punto flotante de 4 bits NVFP4, que funciona eficientemente en Blackwell. Esto permite procesar más solicitudes de forma más rápida con la misma infraestructura y reducir los costos operativos generales.
Blackwell también ha experimentado mejoras en el rendimiento del entrenamiento de modelos. El sistema ‘GB200 NVL72’ ha alcanzado un rendimiento de entrenamiento hasta 1.4 veces superior al de su lanzamiento inicial. Esto se debe a la optimización de las recetas de entrenamiento que aprovechan al máximo la precisión NVFP4, así como a la continua mejora de los algoritmos y la pila de software.
Nvidia enfatiza que estas mejoras tecnológicas se verán aún más potenciadas en Vera Rubin. Salvato explicó: “Blackwell y Rubin pueden ejecutar el mismo modelo, pero difieren en rendimiento, eficiencia y costo por token. Rubin reducirá la cantidad de GPU necesarias para entrenar modelos MoE a gran escala en un cuarto, y en la inferencia, aumentará el rendimiento por vatio en 10 veces y reducirá el costo por token a una décima parte”.
Los expertos aconsejan a las empresas que no se centren en una elección binaria. Aquellas que ya han adoptado Blackwell pueden obtener mejoras inmediatas en el rendimiento y reducir costos simplemente actualizando a la última versión de TensorRT-LLM. Se considera razonable optar por Blackwell para la construcción de nuevos modelos hasta la primera mitad de 2026.
Por otro lado, las empresas que planean una expansión masiva de su infraestructura a partir de la segunda mitad de 2026 deberían considerar la eficiencia energética y la estructura de costos revolucionarias de Vera Rubin en su planificación.
박찬 기자 cpark@aitimes.com
