Datacenter Archives

La startup de software de IA, Lemurian Labs, ha cambiado su enfoque, abandonando el desarrollo de hardware de IA tras una ronda de financiación Serie A de 28 millones de dólares destinada a construir su pila de software de IA. La pila de software, consciente del hardware, de Lemurian abordará el entrenamiento y la inferencia de alto rendimiento en el borde, en instalaciones locales y en la nube heterogénea, además de permitir la portabilidad del código entre diferentes hardware sin reescrituras, según declaró el CEO de Lemurian, Jay Dawani, a EE Times.

“Es la primera vez en la historia que realmente podemos decir que es hora de repensar el sistema, que necesitamos cambiar la forma en que hacemos software”, afirmó Dawani. “Lo que realmente me sorprendió a mí y a todos aquí fue que esto es más factible de lo que pensábamos. El problema es tratable, la razón por la que nadie ha seguido este camino es que estaban demasiado enfocados en un pensamiento dependiente de la trayectoria; la escala a la que ya estamos es un poco aterradora si quieres tirar todo a la basura.”

Las ganancias de rendimiento de la pila de Lemurian podrían oscilar entre el 2x y el 30x, dependiendo de la carga de trabajo, su escala y el hardware involucrado. Las mayores mejoras se verán en las cargas de trabajo de entrenamiento, ya que la escala que requieren hace que sean más difíciles de optimizar manualmente, según Dawani.

Sin kernels

Lemurian comenzó como una empresa de chips con un esquema numérico logarítmico diseñado para una inferencia de IA eficiente. Sin embargo, Dawani le dijo a EE Times el año pasado que “hay suficientes empresas de hardware por ahí”, y que la empresa cambió su enfoque para solucionar la pila de software de infraestructura de IA, que es relativamente inmadura, compleja y específica del hardware.

By Betty Sasenick, Chief of Staff, Efinix Inc 12.03.2025

By Matt Crowley, CEO, Scintil Photonics 12.03.2025

How to Track Serial Numbers in Electronics Manufacturing?

By MRPeasy 12.01.2025

Lemurian busca construir una pila de software que abarque capas de compilación y orquestación de cargas de trabajo que permita una portabilidad completa entre hardware heterogéneo, permitiendo el despliegue del mismo código en la nube, en servidores locales y en el borde.

“Lo que terminamos construyendo es básicamente una pila de software unificada para la computación heterogénea a escala”, dijo Dawani.

Dawani prevé que el hardware de IA se volverá más heterogéneo a medida que la industria adopte chiplets, apilamiento 3D, chips específicos para la inferencia (optimizados para el rendimiento versus la latencia) y una mayor especialización en modelos y cargas de trabajo.

Parte de esta visión es eliminar los kernels, es decir, los programas de nivel inferior que gestionan directamente el acceso al hardware.

“El número de kernels que tendrías que escribir [para cada opción de hardware] es del orden de 10²⁶”, dijo Dawani. “No hay suficientes ingenieros competentes en el mundo que puedan escribir esos kernels. Incluso si lo fuerzas con LLM, tendrías que comprender los detalles de la microarquitectura e insertar instrucciones para el hardware de cada proveedor, y no necesariamente quieren exponer esa información. Eso crea un nuevo conjunto de desafíos.”

Los kernels de GPU son una abstracción defectuosa, según Dawani, porque generalmente están orientados a optimizar la canalización de cómputo en lugar de optimizar el ancho de banda de la memoria, un cuello de botella común en los sistemas de IA de última generación. Los kernels tampoco resuelven el problema de la portabilidad, ya que por defecto son específicos del hardware y de la carga de trabajo.

“De hecho, si escribes un buen kernel hoy, haces que tu hardware parezca peor”, afirmó. “Estás exponiendo la latencia de tu sistema cuando el objetivo es ocultar la latencia. Si llevas una canalización de cómputo al límite, haces que el ancho de banda de la memoria y todo lo demás parezca peor, porque no puedes obtener datos de entrada y salida lo suficientemente rápido.”

La computación a escala requiere un nuevo modelo de programación con un nuevo compilador y tiempo de ejecución, dijo Dawani. La pila de Lemurian tiene tiempos de ejecución a nivel de dispositivo, nodo, rack y clúster. La empresa está construyendo un compilador de optimización totalmente paralelo que es consciente del hardware, pero optimizado para el álgebra lineal a escala.

“Ahora lo que estás haciendo es programar un sistema de muchas partes heterogéneas como si fuera un solo chip en lugar de programar cada chip en ese sistema de forma aislada”, explicó.

El estudio de una lista exhaustiva de kernels y operadores, así como de técnicas de movimiento y programación de datos, permitió al equipo destilar todo en 27 primitivas de computación paralela básicas. Estas primitivas conservan suficiente información para permitir que el compilador de la empresa realice un conjunto más rico de optimizaciones informadas por el hardware, manteniendo todo lo más paralelo posible desde el principio.

“Los kernels reducen la cantidad de ancho de banda en un sistema, porque eso asume un modelo de extracción, con sobrecarga de señalización de búsqueda, detención y reanudación, y así sucesivamente”, dijo Dawani. “Hemos convertido todo, incluso en el ámbito de la GPU, en un modelo de empuje, por lo que todo es ahora flujo de datos distribuido, o similar.”

Lemurian quiere dar forma a la computación en torno a los costes de movimiento de datos, no al revés. Considerar un clúster grande como si fuera un solo chip significa que la orquestación ya está integrada en su pila, según Dawani.

“Tenemos la información y la conciencia del hardware para ajustar adaptativamente nuestra programación en tiempo de ejecución y podemos lidiar con fallos de nodo y otras cosas”, dijo. “Lo más interesante es que hemos cambiado la forma en que programas: ya no tienes que lidiar con kernels, cosas como NCCL [biblioteca de comunicaciones colectivas de Nvidia] y cómo ajustarla para diferentes tejidos y topologías están integradas en la programación.”

Este enfoque también permite a Lemurian escalar a dispositivos más heterogéneos (es decir, aquellos que no están orientados a kernels). La idea es crear una abstracción que funcione para todo tipo de hardware.

“Si estás ejecutando kernels, no sabes cuándo vas a sufrir una limitación térmica o a perder ancho de banda, nosotros sí”, dijo. “Podemos mantenerte en las áreas de la curva de Pareto de rendimiento o ancho de banda por dólar que ningún otro sistema puede, lo que cambia la economía de la computación desde la perspectiva del cliente.”

Lemurian Labs’ team. (Source: Lemuran Labs)

Cargas de trabajo de los clientes

Eliminar los kernels tiene beneficios secundarios, incluido permitir a los clientes iterar más rápido en sus cargas de trabajo en rápida evolución, dijo Dawani.

“Muchas empresas están explorando más allá de las arquitecturas transformer y necesitan la capacidad de escalar”, añadió. “No deberían depender de si alguien ha escrito una biblioteca de kernels optimizada para ello.”

Eliminar el desarrollo de kernels cambiará el ciclo de innovación para las empresas de IA, dijo Dawani.

“Los clientes quieren poder pasar de un entorno de desarrollo local en un portátil a entrenar en un clúster, para luego obtener ese modelo en manos de sus clientes más rápido”, dijo. “Una vez que se entrena un modelo, hay meses con un ejército de escritores de kernels que optimizarán el modelo para su despliegue. ¿Qué pasaría si ese período de seis meses se convirtiera en dos días?”

En términos de comercialización, Dawani dijo que la empresa no quiere interferir con las compras en la nube de los clientes, permitiéndoles configurar un entorno de computación que se adapte a ellos, mientras que la pila de Lemurian se implementará como un plano de control “para ayudarles a sacar el máximo provecho de ello”.

“Apoyamos principalmente PyTorch y nuestro objetivo es llevar PyTorch al límite de la física del dispositivo”, dijo, y señaló que los clientes que quieran más control del que ofrece PyTorch podrán utilizar un lenguaje específico del dominio de Lemurian para exprimir aún más rendimiento del mismo hardware.

Lemurian también tendrá un motor de servicio para ayudar a escalar los modelos en el despliegue y atender diferentes acuerdos de nivel de servicio que puedan ser necesarios. Un motor de entrenamiento ofrecerá soporte para clústeres grandes, homogéneos o heterogéneos, o ejecuciones distribuidas en más de un clúster.

La pila de servicio e inferencia de Lemurian está en camino de lanzarse a finales del próximo verano, dijo Dawani.

Datacenter

Google lanza Gemma 4: IA abierta y optimizada para smartphones

Arquitectura y disponibilidad

Capacidades avanzadas y razonamiento

Rendimiento y benchmarks

Lemurian Labs: Software IA sin Kernels para Máximo Rendimiento

Sin kernels

Cargas de trabajo de los clientes