La computación fotónica en memoria está ganando terreno como una posible solución a las limitaciones de los sistemas digitales convencionales, prometiendo cálculos más rápidos y eficientes energéticamente. Jebacyril Arockiaraj, Sasindu Wijeratne y Sugeet Sunder de la Universidad del Sur de California, junto con Md Abdullah-Al Kaiser, Akhilesh Jaiswal y Ajey P Jacob et al. de la Universidad de Wisconsin-Madison, han presentado un modelo de rendimiento a nivel de sistema para evaluar con precisión esta tecnología emergente. Su trabajo captura de forma única factores críticos de latencia, como el acceso a la memoria y la conversión optoelectrónica, y demuestra el rendimiento en diversas cargas de trabajo de computación de alto rendimiento, incluyendo dinámica de fluidos, operaciones de tensores y simulaciones de física del plasma. El modelo revela que un array SRAM fotónico compacto puede alcanzar hasta 1.5 TOPS con una eficiencia energética promedio de 2.5 TOPS/W, lo que sugiere que la computación fotónica en memoria podría ofrecer ganancias sustanciales para aplicaciones exigentes.
Modelado de arrays SRAM fotónicos para computación de alto rendimiento requiere una cuidadosa consideración de las características del dispositivo
Científicos han desarrollado un array SRAM fotónico compacto capaz de mantener hasta 1.5 TOPS en cargas de trabajo de computación de alto rendimiento exigentes. Esta investigación introduce un modelo de rendimiento a nivel de sistema para la computación fotónica en memoria, abordando una brecha crítica en la evaluación del potencial de la tecnología más allá de las ventajas a nivel de dispositivo.
El trabajo captura meticulosamente las principales fuentes de latencia, incluyendo el acceso a la memoria externa y la conversión optoelectrónica, para proporcionar una evaluación realista del rendimiento del sistema. Los investigadores fabricaron un array SRAM fotónico de 1×256 bits de una sola longitud de onda utilizando un proceso estándar de fotónica de silicio de GlobalFoundries, demostrando un importante rendimiento computacional.
Este estudio va más allá del rendimiento teórico al mapear algoritmos directamente al hardware fotónico, evaluando su impacto en aplicaciones del mundo real. El equipo desarrolló algoritmos de transmisión continua para tres cargas de trabajo diversas: el problema del tubo de choque de Sod, el Producto Khatri-Rao de Tensores Matricizados (MTTKRP) y la ecuación de Vlasov-Maxwell.
El modelado del rendimiento revela que el array alcanza hasta 1.5 TOPS en el problema del tubo de choque de Sod, 0.9 TOPS en MTTKRP y 1.3 TOPS en la ecuación de Vlasov-Maxwell, con una eficiencia energética promedio de 2.5 TOPS/W. Estos resultados indican que la computación fotónica en memoria ofrece un camino viable para superar las limitaciones de la tecnología CMOS tradicional.
La investigación establece una abstracción de modelo de red del array pSRAM, permitiendo el mapeo sistemático de algoritmos al hardware a través de primitivas computacionales bien definidas. Esta abstracción permite que cualquier algoritmo expresable utilizando estas primitivas se mapee eficientemente a la arquitectura pSRAM. Se creó un modelo de rendimiento a nivel de sistema detallado, que captura las contribuciones de latencia del propio pSRAM, la memoria externa y el crucial proceso de conversión optoelectrónica. A través del análisis de la línea de techo, el estudio identifica regímenes limitados por la computación y la memoria, proporcionando información valiosa para los intercambios arquitectónicos relacionados con el ancho de banda, la frecuencia, el tamaño del array y la latencia de conversión.
La caracterización de arrays SRAM fotónicos y el modelado de latencia a nivel de sistema son cruciales para la evaluación del rendimiento
Un array SRAM fotónico compacto de 1×256 bits de una sola longitud de onda, fabricado utilizando el proceso estándar de fotónica de silicio de GlobalFoundries, sustenta la evaluación del rendimiento presentada en este trabajo. Este array sirve como el elemento de computación central dentro de un sistema de tres partes que también comprende memoria externa eléctrica y una interfaz optoelectrónica, todas identificadas como los principales contribuyentes a la latencia del sistema.
Los investigadores desarrollaron un modelo de rendimiento a nivel de sistema para capturar las atribuciones de latencia de cada componente, permitiendo una evaluación integral de la computación fotónica en memoria. Para facilitar el mapeo sistemático de algoritmos al hardware, se introdujo una abstracción de modelo de red del array pSRAM, encapsulando las capacidades del hardware a través de primitivas computacionales bien definidas.
Esta abstracción permite la traducción de algoritmos en operaciones ejecutables por la arquitectura pSRAM. Luego, se desarrollaron algoritmos de transmisión continua para tres cargas de trabajo diversas de computación de alto rendimiento: el problema del tubo de choque de Sod, el Producto Khatri-Rao de Tensores Matricizados (MTTKRP) y la ecuación de Vlasov-Maxwell.
Estos algoritmos operan sin almacenamiento óptico intermedio, estableciendo una línea de base de rendimiento conservadora para la evaluación. El problema del tubo de choque de Sod, un punto de referencia para los solucionadores numéricos de la ecuación de Euler, se utilizó junto con MTTKRP, un kernel computacionalmente intensivo en la descomposición de tensores utilizado en el aprendizaje automático, y la ecuación de Vlasov-Maxwell, que modela las distribuciones de partículas cargadas. El análisis del rendimiento reveló que el array fabricado mantiene hasta 1.5 TOPS en el problema del tubo de choque de Sod, 0.9 TOPS en MTTKRP y 1.3 TOPS en la ecuación de Vlasov-Maxwell, logrando una eficiencia energética promedio de 2.5 TOPS/W mientras se tienen en cuenta las sobrecargas del sistema.
El SRAM fotónico ofrece una aceleración a escala de teraops para aplicaciones de dinámica de fluidos y álgebra tensorial
Un array SRAM fotónico compacto de 1×256 bits mantiene hasta 1.5 TOPS en el problema del tubo de choque de Sod, demostrando un alto rendimiento computacional. El sistema alcanza 0.9 TOPS para la carga de trabajo Matricized Tensor Times Khatri-Rao Product (MTTKRP) y 1.3 TOPS para la ecuación de Vlasov-Maxwell, lo que indica una amplia aplicabilidad en tareas de computación de alto rendimiento.
Estos niveles de rendimiento se obtienen con una eficiencia energética promedio de 2.5 TOPS/W, lo que destaca el potencial de las soluciones de computación de baja potencia. La investigación introduce un modelo de red del array SRAM fotónico (pSRAM), permitiendo el mapeo estructurado de algoritmos al hardware para algoritmos de transmisión continua. Estos algoritmos recuperan datos de entrada de la memoria externa y escriben los resultados de nuevo sin almacenamiento óptico intermedio, estableciendo una línea de base de rendimiento conservadora.
El problema del tubo de choque de Sod en 1D, mapeado a la red, utiliza un algoritmo de transmisión continua donde cada punto de la cuadrícula se actualiza mediante una celda de computación dedicada por paso de tiempo. Para MTTKRP, el algoritmo de transmisión continua calcula el modo 0 de un tensor de 3 modos, asignando cada fila de la matriz de factores a una celda de computación en la red de malla 1D.
La ecuación de Vlasov-Maxwell se aborda con un algoritmo de transmisión continua que mapea cada índice de modo de Fourier a una celda de computación dedicada, realizando una multiplicación compleja elemento por elemento. El análisis de la línea de techo, utilizando HBM3E como memoria externa, revela que el problema del tubo de choque de Sod y la ecuación de Vlasov-Maxwell están limitados por la computación, mientras que MTTKRP está limitado por la memoria.
La reducción del ancho de bits de entrada aumenta las operaciones por byte transferido, acercando las cargas de trabajo limitadas por la memoria al límite de la computación. El aumento del ancho de banda máximo de la memoria externa y la frecuencia de operación del pSRAM mejoran aún más el rendimiento tanto para las tareas intensivas en computación como en memoria.
La evaluación del rendimiento del SRAM fotónico utilizando las cargas de trabajo Sod, MTTKRP y Vlasov-Maxwell demuestra resultados prometedores
Los investigadores han desarrollado un modelo de rendimiento a nivel de sistema integral para la computación fotónica en memoria, demostrando su potencial como una alternativa de alta velocidad y bajo consumo de energía a los métodos de computación convencionales. Este modelo captura las principales fuentes de latencia, incluyendo el acceso a la memoria externa y la conversión optoelectrónica, y se utilizó para evaluar el rendimiento en varias cargas de trabajo de computación de alto rendimiento, a saber, el problema del tubo de choque de Sod, el Producto Khatri-Rao de Tensores Matricizados (MTTKRP) y la ecuación de Vlasov-Maxwell.
El análisis del rendimiento revela que un array SRAM fotónico compacto de 1×256 bits de una sola longitud de onda mantiene hasta 1.5 TOPS, 0.9 TOPS y 1.3 TOPS en las cargas de trabajo probadas, logrando una eficiencia energética promedio de 2.5 TOPS/W. Se confirmó la escalabilidad, con un rendimiento máximo y sostenido que aumenta con el tamaño del array, aunque se observaron limitaciones de ancho de banda a 32 GHz con arrays más grandes.
Los autores reconocen que la evaluación se realizó con un pSRAM que contiene 32 celdas de computación, lo que sugiere que el rendimiento podría mejorarse aún más escalando el ancho de banda de la memoria con arrays más grandes. La investigación futura puede centrarse en la optimización del tamaño del array y el ancho de banda para maximizar el rendimiento y la eficiencia energética, allanando potencialmente el camino para sistemas de computación más potentes y sostenibles.
.
