• Deportes
  • Entretenimiento
  • Mundo
  • Negocio
  • Noticias
  • Salud
  • Tecnología
Notiulti
Noticias Ultimas
Inicio » Datacenter
Tag:

Datacenter

Tecnología

Google lanza Gemma 4: IA abierta y optimizada para smartphones

by Editor de Tecnologia abril 7, 2026
written by Editor de Tecnologia

Google ha presentado Gemma 4, sus modelos abiertos más inteligentes hasta la fecha, desarrollados a partir de la investigación y tecnología de Gemini 3 para maximizar la inteligencia por parámetro. Una de las novedades más destacadas es la capacidad de estos modelos para ejecutarse en smartphones y dispositivos IoT, optimizando el cómputo y la eficiencia de memoria.

Arquitectura y disponibilidad

Gemma 4 se lanza bajo una licencia Apache 2.0 y emplea arquitecturas tanto Densas como de Mezcla de Expertos (MoE). Para adaptarse a diferentes necesidades de despliegue, la familia de modelos está disponible en cuatro tamaños distintos: E2B, E4B, 26B A4B y 31B.

En cuanto a sus especificaciones técnicas, los modelos cuentan con una ventana de contexto de hasta 256K tokens y mantienen un soporte multilingüe que abarca más de 140 idiomas, permitiendo crear experiencias que comprenden el contexto cultural más allá de la simple traducción.

Capacidades avanzadas y razonamiento

El nuevo ecosistema de Gemma 4 introduce funcionalidades diseñadas para el desarrollo de aplicaciones complejas:

Capacidades avanzadas y razonamiento
  • Flujos de trabajo agenticos: Soporte nativo para llamadas a funciones (*function calling*), lo que permite construir agentes autónomos capaces de planificar, navegar por aplicaciones y completar tareas.
  • Razonamiento multimodal: Capacidad de comprensión visual y auditiva para un soporte multimodal enriquecido.
  • Ajuste fino (Fine tuning): Posibilidad de mejorar el rendimiento en tareas específicas mediante el entrenamiento con marcos de trabajo preferidos.
  • Arquitectura eficiente: Diseñada para ejecutarse en hardware propio, facilitando el despliegue y desarrollo eficiente.

Rendimiento y benchmarks

Los datos de rendimiento sitúan a Gemma 4 en una posición de liderazgo en eficiencia. Modelos como el 31B IT Thinking y el 26B A4B IT Thinking muestran una inteligencia superior por parámetro, superando al modelo Gemma 3 27B IT en diversas pruebas críticas, incluyendo:

  • Arena AI (text): Mayor puntuación en comparativas de texto.
  • MMMLU y MMMU Pro: Superioridad en preguntas y respuestas multilingües y razonamiento multimodal.
  • AIME 2026 y LiveCodeBench v6: Resultados significativamente más altos en matemáticas y problemas de codificación competitiva.
  • GPQA Diamond: Mayor precisión en conocimientos científicos.
abril 7, 2026 0 comments
0 FacebookTwitterPinterestLinkedinEmail
Tecnología

Lemurian Labs: Software IA sin Kernels para Máximo Rendimiento

by Editor de Tecnologia diciembre 3, 2025
written by Editor de Tecnologia

La startup de software de IA, Lemurian Labs, ha cambiado su enfoque, abandonando el desarrollo de hardware de IA tras una ronda de financiación Serie A de 28 millones de dólares destinada a construir su pila de software de IA. La pila de software, consciente del hardware, de Lemurian abordará el entrenamiento y la inferencia de alto rendimiento en el borde, en instalaciones locales y en la nube heterogénea, además de permitir la portabilidad del código entre diferentes hardware sin reescrituras, según declaró el CEO de Lemurian, Jay Dawani, a EE Times.

“Es la primera vez en la historia que realmente podemos decir que es hora de repensar el sistema, que necesitamos cambiar la forma en que hacemos software”, afirmó Dawani. “Lo que realmente me sorprendió a mí y a todos aquí fue que esto es más factible de lo que pensábamos. El problema es tratable, la razón por la que nadie ha seguido este camino es que estaban demasiado enfocados en un pensamiento dependiente de la trayectoria; la escala a la que ya estamos es un poco aterradora si quieres tirar todo a la basura.”

Las ganancias de rendimiento de la pila de Lemurian podrían oscilar entre el 2x y el 30x, dependiendo de la carga de trabajo, su escala y el hardware involucrado. Las mayores mejoras se verán en las cargas de trabajo de entrenamiento, ya que la escala que requieren hace que sean más difíciles de optimizar manualmente, según Dawani.

Sin kernels

Lemurian comenzó como una empresa de chips con un esquema numérico logarítmico diseñado para una inferencia de IA eficiente. Sin embargo, Dawani le dijo a EE Times el año pasado que “hay suficientes empresas de hardware por ahí”, y que la empresa cambió su enfoque para solucionar la pila de software de infraestructura de IA, que es relativamente inmadura, compleja y específica del hardware.


By Betty Sasenick, Chief of Staff, Efinix Inc  12.03.2025

AI Performance Now Depends on Optics (and CPO is the Front Line) 

By Matt Crowley, CEO, Scintil Photonics   12.03.2025

How to Track Serial Numbers in Electronics Manufacturing?

By MRPeasy  12.01.2025

Lemurian busca construir una pila de software que abarque capas de compilación y orquestación de cargas de trabajo que permita una portabilidad completa entre hardware heterogéneo, permitiendo el despliegue del mismo código en la nube, en servidores locales y en el borde.

“Lo que terminamos construyendo es básicamente una pila de software unificada para la computación heterogénea a escala”, dijo Dawani.

Dawani prevé que el hardware de IA se volverá más heterogéneo a medida que la industria adopte chiplets, apilamiento 3D, chips específicos para la inferencia (optimizados para el rendimiento versus la latencia) y una mayor especialización en modelos y cargas de trabajo.

Parte de esta visión es eliminar los kernels, es decir, los programas de nivel inferior que gestionan directamente el acceso al hardware.

“El número de kernels que tendrías que escribir [para cada opción de hardware] es del orden de 1026”, dijo Dawani. “No hay suficientes ingenieros competentes en el mundo que puedan escribir esos kernels. Incluso si lo fuerzas con LLM, tendrías que comprender los detalles de la microarquitectura e insertar instrucciones para el hardware de cada proveedor, y no necesariamente quieren exponer esa información. Eso crea un nuevo conjunto de desafíos.”

Jay Dawani (Source: Lemurian Labs)

Los kernels de GPU son una abstracción defectuosa, según Dawani, porque generalmente están orientados a optimizar la canalización de cómputo en lugar de optimizar el ancho de banda de la memoria, un cuello de botella común en los sistemas de IA de última generación. Los kernels tampoco resuelven el problema de la portabilidad, ya que por defecto son específicos del hardware y de la carga de trabajo.

“De hecho, si escribes un buen kernel hoy, haces que tu hardware parezca peor”, afirmó. “Estás exponiendo la latencia de tu sistema cuando el objetivo es ocultar la latencia. Si llevas una canalización de cómputo al límite, haces que el ancho de banda de la memoria y todo lo demás parezca peor, porque no puedes obtener datos de entrada y salida lo suficientemente rápido.”

La computación a escala requiere un nuevo modelo de programación con un nuevo compilador y tiempo de ejecución, dijo Dawani. La pila de Lemurian tiene tiempos de ejecución a nivel de dispositivo, nodo, rack y clúster. La empresa está construyendo un compilador de optimización totalmente paralelo que es consciente del hardware, pero optimizado para el álgebra lineal a escala.

“Ahora lo que estás haciendo es programar un sistema de muchas partes heterogéneas como si fuera un solo chip en lugar de programar cada chip en ese sistema de forma aislada”, explicó.

El estudio de una lista exhaustiva de kernels y operadores, así como de técnicas de movimiento y programación de datos, permitió al equipo destilar todo en 27 primitivas de computación paralela básicas. Estas primitivas conservan suficiente información para permitir que el compilador de la empresa realice un conjunto más rico de optimizaciones informadas por el hardware, manteniendo todo lo más paralelo posible desde el principio.

“Los kernels reducen la cantidad de ancho de banda en un sistema, porque eso asume un modelo de extracción, con sobrecarga de señalización de búsqueda, detención y reanudación, y así sucesivamente”, dijo Dawani. “Hemos convertido todo, incluso en el ámbito de la GPU, en un modelo de empuje, por lo que todo es ahora flujo de datos distribuido, o similar.”

Lemurian quiere dar forma a la computación en torno a los costes de movimiento de datos, no al revés. Considerar un clúster grande como si fuera un solo chip significa que la orquestación ya está integrada en su pila, según Dawani.

“Tenemos la información y la conciencia del hardware para ajustar adaptativamente nuestra programación en tiempo de ejecución y podemos lidiar con fallos de nodo y otras cosas”, dijo. “Lo más interesante es que hemos cambiado la forma en que programas: ya no tienes que lidiar con kernels, cosas como NCCL [biblioteca de comunicaciones colectivas de Nvidia] y cómo ajustarla para diferentes tejidos y topologías están integradas en la programación.”

Este enfoque también permite a Lemurian escalar a dispositivos más heterogéneos (es decir, aquellos que no están orientados a kernels). La idea es crear una abstracción que funcione para todo tipo de hardware.

“Si estás ejecutando kernels, no sabes cuándo vas a sufrir una limitación térmica o a perder ancho de banda, nosotros sí”, dijo. “Podemos mantenerte en las áreas de la curva de Pareto de rendimiento o ancho de banda por dólar que ningún otro sistema puede, lo que cambia la economía de la computación desde la perspectiva del cliente.”

Lemurian Labs’ team. (Source: Lemuran Labs)

Cargas de trabajo de los clientes

Eliminar los kernels tiene beneficios secundarios, incluido permitir a los clientes iterar más rápido en sus cargas de trabajo en rápida evolución, dijo Dawani.

“Muchas empresas están explorando más allá de las arquitecturas transformer y necesitan la capacidad de escalar”, añadió. “No deberían depender de si alguien ha escrito una biblioteca de kernels optimizada para ello.”

Eliminar el desarrollo de kernels cambiará el ciclo de innovación para las empresas de IA, dijo Dawani.

“Los clientes quieren poder pasar de un entorno de desarrollo local en un portátil a entrenar en un clúster, para luego obtener ese modelo en manos de sus clientes más rápido”, dijo. “Una vez que se entrena un modelo, hay meses con un ejército de escritores de kernels que optimizarán el modelo para su despliegue. ¿Qué pasaría si ese período de seis meses se convirtiera en dos días?”

En términos de comercialización, Dawani dijo que la empresa no quiere interferir con las compras en la nube de los clientes, permitiéndoles configurar un entorno de computación que se adapte a ellos, mientras que la pila de Lemurian se implementará como un plano de control “para ayudarles a sacar el máximo provecho de ello”.

“Apoyamos principalmente PyTorch y nuestro objetivo es llevar PyTorch al límite de la física del dispositivo”, dijo, y señaló que los clientes que quieran más control del que ofrece PyTorch podrán utilizar un lenguaje específico del dominio de Lemurian para exprimir aún más rendimiento del mismo hardware.

Lemurian también tendrá un motor de servicio para ayudar a escalar los modelos en el despliegue y atender diferentes acuerdos de nivel de servicio que puedan ser necesarios. Un motor de entrenamiento ofrecerá soporte para clústeres grandes, homogéneos o heterogéneos, o ejecuciones distribuidas en más de un clúster.

La pila de servicio e inferencia de Lemurian está en camino de lanzarse a finales del próximo verano, dijo Dawani.

diciembre 3, 2025 0 comments
0 FacebookTwitterPinterestLinkedinEmail
  • Aviso Legal
  • Política de Cookies
  • Términos y Condiciones
  • Política de Privacidad
  • CONTACTO
  • Política de Correcciones
  • Equipo Editorial
  • Política Editorial
  • SOBRE NOTIULTI

El servicio de alojamiento web más recomendado. Para quejas, abusos o publicidad, contacte: admin@notiulti.com


Back To Top
Notiulti
  • Deportes
  • Entretenimiento
  • Mundo
  • Negocio
  • Noticias
  • Salud
  • Tecnología