Aunque aún operando a la sombra de gigantes como Nvidia y AMD, Amazon se consolida cada vez más como un actor clave en el mercado de chips de inteligencia artificial (IA) con sus procesadores Trainium, ofreciendo precios más competitivos.
En un laboratorio de su filial Annapurna Labs, ubicado en Austin, Texas, se están llevando a cabo pruebas de durabilidad en los nuevos procesadores Trainium 3, la última generación comercializada desde diciembre. Cerca de allí, en un ambiente ruidoso, los UltraServers, servidores equipados con 144 unidades del Trainium 3 cada uno, son sometidos a rigurosas pruebas antes de su entrega.
Texas se ha posicionado como un nuevo centro tecnológico en Estados Unidos, atrayendo inversiones gracias a la combinación de costos inmobiliarios razonables, energía asequible, una regulación flexible y beneficios fiscales.
Después de años de adquirir chips a proveedores externos, Amazon Web Services (AWS) inició el desarrollo de sus propios procesadores con la adquisición de la startup israelí Annapurna Labs en 2015. En 2018 surgieron Graviton e Inferentia, diseñados para el cloud en general y para aplicaciones de IA, respectivamente, y en 2020 se presentó el primer Trainium, enfocado en el desarrollo de inteligencia artificial.
Posteriormente, Trainium 2 (2024) cuadruplicó el rendimiento de su predecesor, y Trainium 3 duplicó las capacidades, todo ello en un formato más pequeño que una tarjeta de crédito. Según Kristopher King, responsable del laboratorio de Austin, “puede reducir el costo de desarrollo y uso (de un modelo de IA generativa) hasta en un 30 o 40% en comparación con las GPU”, los procesadores gráficos considerados el estándar en inteligencia artificial.
Un nuevo chip en el horizonte
Además de la competitividad en costos, AWS prioriza la fiabilidad, un factor esencial para los centros de datos que operan continuamente. “El desarrollo de la IA requiere cientos de miles de chips funcionando simultáneamente durante semanas”, explica Mark Carroll, responsable de ingeniería en Annapurna Labs. “Si ocurre una falla o indisponibilidad durante esta fase de entrenamiento de un modelo de inteligencia artificial, es necesario retroceder o incluso reiniciar el proceso”.
A diferencia de los principales fabricantes de chips de IA, Amazon Web Services (AWS) no vende sus procesadores a terceros, sino que los utiliza exclusivamente en su propia infraestructura de cloud, que luego ofrece a sus clientes.
“Decidimos fabricar nuestros propios chips para tener una arquitectura integrada con el software”, incluyendo su plataforma online Bedrock, que ofrece a sus clientes una amplia gama de soluciones de IA, incluyendo modelos desarrollados por empresas como Anthropic, OpenAI o Mistral.
En un mercado donde la oferta lucha por satisfacer la creciente demanda de potencia computacional para la IA, AWS y su Trainium permiten a los principales actores de la inteligencia artificial y a los proveedores de servicios de cloud diversificar sus fuentes de suministro, evitando depender únicamente de Nvidia y su competidor AMD.
Apenas se ha puesto en marcha el Trainium 3, Amazon ya está trabajando en su sucesor. Los equipos de Annapurna Labs, en colaboración con otro laboratorio del grupo en Cupertino, California, están desarrollando el Trainium 4. Mark Carroll anunció que el Trainium 4 “tendrá seis veces la capacidad de procesamiento del Trainium 3”.
La carrera por la IA ha acelerado significativamente el ritmo de desarrollo de microprocesadores en toda la industria. Nvidia lanzó la fabricación de los Rubin, su última generación de GPU, menos de un año después del lanzamiento de la versión anterior, los Blackwell. “La primera versión del Trainium tardó entre 15 y 18 meses”, recuerda Mark Carroll. “La segunda, nueve meses, y estamos intentando mantener ese ritmo”.
