Alejandro Silva participa de Escuela de HPC en Barranquilla

El prestigioso ICTP de Trieste apuesta a diversificar geográficamente la formación de recursos humanos en tecnologías, fundamentos y prácticas para el desarrollo científico. Alejandro Silva, CPA CONICET con lugar de trabajo en CCAD, fue becado y está participando de esta Escuela.

El ICTP (International Center for Theoretical Physics) es un instituto que promueve la ciencia del más alto nivel para países en vías de desarrollo. A través de sus Escuelas de Verano (SMR) realiza capacitaciones intensivas con prácticas, dictadas por equipos de primer nivel. En ellas estudiantes de doctorado e investigadoras/es se reúnen durante dos semanas con un régimen de tiempo completo y asi poder estrechar lazos entre las diferentes comunidades que representan y avanzar en temas específicos.

Alejandro Silva se incorporó al CCAD en agosto de este año, se presentó para el «3rd Latin American Introductory School on Parallel Programming and Parallel Architecture for HPC» | (smr 3872) y quedó seleccionado con beca completa incluyendo el viaje.

La escuela se está desarrollando en la Universidad Simón Bolivar de Barranquilla, y los docentes son:

  • S. Di Gioia, ICTP, Italy.
  • I. Girotto, ICTP, Italy.
  • A. Kohlmeyer, ICTP/Temple University, USA.
  • J.A. Leyva Rojas, Simon Bolivar University, Colombia.
  • J. Montoya, Universidad de Cartagena, Colombia.
  • E. F. Posada Correa, Temple University, USA.

 

Por Nicolás Wolovick
Director del CCAD-UNC

Artículo de tapa en Nature con cómputo en CCAD

El paleontólogo Martín Ezcurra corrió análisis de filogenia en las computadoras del CCAD para un artículo que terminó publicado en la tapa de la revista Nature del 17 de agosto de 2023.

En septiembre de 2022 el Paleontólogo Martín Ezcurra nos escribía:

«Estimado Nicolás Wolovick: soy Martín Ezcurra, paleontólogo del CONICET-Museo Argentino de Ciencias Naturales en Buenos Aires. Estoy averiguando porque necesito realizar un análisis filogenético de inferencia Bayesiana (con el programa MrBayes) y requiere mucho tiempo computacional. Comencé a correr el análisis en mi computadora de escritorio y ya va a llegar casi a una semana y parece estar lejos de terminar. Entonces mi consulta es si su cluster está solo disponible para usuarios de la UNC o si está abierto también para otras instituciones? Muchas gracias, Martin»

En un mes ya estaba corriendo en una workstation poderosa donde nos asociamos el CCAD y FAMAF para tener 48 núcleos Zen3, 128 GiB DRAM DDR4 y 3.4 TiB de NVMe 4.0.

El resultado fue más que positivo y en pocas jornadas obtuvo los resultados que le hubieran tomado meses en su computadora personal. Se publicó en Nature (620)7974.  El trabajo fue reseñado en en los portales más influyentes del planeta como el NYT.

La clave no fue el poder de cómputo o la capacidad técnica en HPC, si no atender las necesidades básicas de los investigadores de Ciencia y Técnica del país, algo que seguiremos haciendo porque está en nuestro ADN: satisfacer las necesidades de cómputo científico y tecnológico de la envergadura que sean.

 

Nicolás Wolovick
Director del CCAD-UNC

Divulgación

Serafín fue refrescada en hardware y software

Una falla de fabricación de los chips de RAM de Serafín derivó en un recambio por parte del fabricante de más del 70% de la memoria. En estos 43 nodos la memoria pasó de 128 GiB a 256 GiB. Se aprovechó la parada total para hacer una actualización de software completa.

«Uncorrectable ECC»
En febrero de 2022 empezamos a tener reportes de errores simples de RAM (corregibles) y algunos dobles (reinicio). Luego de descartar problemas en la calidad del suministro eléctrico, y comprobar que no había grandes fuentes de RF que pudieran meter ruido, empezamos a realizar recambio de los módulos que iban fallando, ya que no había correlación espacial ni temporal alguna de las fallas. Los errores aparecen de esta forma en la BMC, donde todos los que son errores incorregibles implica un reinicio del nodo.

 

 

 6 | 03/23/2022 | 10:22:35 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
 7 | 04/05/2022 | 14:46:37 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
 8 | 04/05/2022 | 16:24:33 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
 9 | 04/14/2022 | 17:52:50 | Memory | Correctable ECC (@DIMMH1(CPU1)) | Asserted
 a | 04/14/2022 | 17:52:50 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
 b | 04/14/2022 | 17:52:50 | Memory | Correctable ECC (@DIMMF1(CPU2)) | Asserted
 c | 04/21/2022 | 00:37:56 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
 d | 04/21/2022 | 14:19:42 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
 e | 04/22/2022 | 14:34:10 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
 f | 05/17/2022 | 12:31:57 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
12 | 05/23/2022 | 13:12:16 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted
13 | 05/28/2022 | 00:48:29 | Memory | Correctable ECC (@DIMMD1(CPU1)) | Asserted
14 | 05/28/2022 | 00:48:29 | Memory | Uncorrectable ECC (@DIMMG1(CPU1)) | Asserted

En octubre de 2022 enviamos 30 módulos 8GB 1Rx8 PC4-3200AA-RD1-12. En marzo de 2023 enviamos 65 módulos más y sin prisa, pero sin pausa, la tasa de fallo iba en aumento. En mayo de 2023 nos avisan desde Supermicro que un lote de memoria con chips Hynix tenía una error de difusión que acumulaba.

El 28 de junio, Rodrigo Díaz el FAE de Supermicro nos decía: «como resultado del Failure Analysis hecho en los DIMMs que fallaron anteriormente y tras negociaciones que sostuvimos con el proveedor la acción inmediata que tomaremos es reemplazar 699 DIMMs de 8 GiB del total de 960 que tienen actualmente por 699 DIMMs de 16 GiB. El problema de manufactura durante el Photoresist Strip Process, genera una falla en el contacto bajo el M0C, este fallo hace que durante los ciclos de uso de la memoria las variaciones normales de temperaturas, sin necesidad de llegar a picos térmicos, se pierda cada vez más el contacto entre los componentes, lo que en un plazo indeterminado conduce a una completa falta de contacto y a su vez dará errores Multi Bit«.

El recambio
Con las 688 memorias para los 43 nodos y 11 módulos más para reemplazo en la mano, el viernes 4 de agosto se empezaron a drenar las colas de trabajos y el lunes con la computadora ya vacía, los 3 CPA CONICET que trabajan en el CCAD movieron los 960 módulos de RAM DDR4 que tiene Serafín, cambiaron las 60 pilas de las placas madres y sopletearon todos los nodos para eliminar polvo de yeso.

Carlos Bederián, Alejandro Silva y Marcos Mazzini entraron al UNC Data Center temprano a la mañana y salieron cuando el sol ya no estaba. Algo que varios estimábamos que iba a tomar tres días como mínimo, se hizo en uno solo.

A partir del martes empezó un trabajo aun más largo y preciso. Había dos necesidades urgentes de actualización, una cambiar el kernel por ZenBleed (24 julio 2023) y la otra por la salida de la última versión del compilador AOCC, (4 agosto 2023). También era necesario actualizar el software de las 3 computadoras que componen el BeeGFS de Serafín. Cambiar el kernel implicó pasar a Rocky 8.8, cambiar el compilador implicó rehacer todo el stack de software. En definitiva se reinstaló todo Serafín de cero.

Luego de 10 días de parada, el resumen fue:
  • Subir de 128 GiB a 256 GiB de RAM los primeros 43 nodos.
  • Actualizar el sistema operativo de la cabecera y nodos de cómputo a Rocky@8.8.
  • Actualizar los compiladores las versiones más nuevas disponibles: aocc@4.1.0, gcc@12.3.0.
  • Actualizar las versiones de las aplicaciones instaladas: gromacs@2023.2, lammps@20230802, nwchem@7.2.0, quantum-espresso@7.2.
  • Actualizar el software del sistema de almacenamiento distribuído del cluster (BeeGFS).
La máquina recuperó la confiabilidad y podrá producir más horas/core por mes. Nos queda ir a dejar las pilas usadas a algún punto de acopio.

por Nicolás Wolovick
Director del CCAD-UNC

Acelerando un código de simulación de crecimiento de tumores

Jerónimo Fotinós y su director Lucas Barberis, están trabajando sobre simulaciones de crecimiento de tumores cancerígenos in vitro. Dentro de su doctorado Jerónimo pasó el código de 2D a 3D y se encontró con que necesitaba una gran cantidad de cómputo. Carlos Bederián, CPA Principal del CCAD, aportó su experiencia y aceleró el código por 39 veces.

Recientemente Carlos Bederián  aportó mejoras al código Python de Jerónimo Fotinós, estudiante del Doctorado en Física de FaMAF-UNC, dirigido por Lucas Barberis. La aceleración de código que logró el CPA de CONICET fué brutal: logró mutiplicarlo por 39. Es por eso que entrevistamos a Jerónimo, para que nos cuente de qué se trató y qué habilita esta aceleración

Nicolás Wolovick: ¿Qué hace el código?
Jerónimo Fotinós
: El programa simula crecimiento de tumores cancerígenos in vitro. En particular, modelamos computacionalmente ensayos de tumoresferas: un modelo biológico para el estudio del cáncer, enfocado en las características y respuesta a terapias de las Células Madre Cancerosas (CMC).
Concretamente, el programa simula la reproducción y proliferación de células en un ensayo de tumoresferas con dos especies celulares: células madre y células diferenciadas. El primer objetivo es obtener la distribución espacial de las primeras, contrastarla con datos experimentales y modelarlas matemáticamente.

NW: ¿Por qué es importante?
JF: El programa nos permite evaluar si existe un umbral para la capacidad de autoreplicación de las CMC, tal que, por encima de este valor, logren proliferar en la periferia del tumor. Esto puede relacionarse con una transición de percolación en el modelo como sugieren los resultados preliminares. Que una CMC -que suelen ser muchas menos que sus contrapartes diferenciadas- consiga o no ubicarse y mantenerse en la periferia del tumor, tiene fuertes implicancias en la resistencia a las quimio/radioterapias como así también en el entendimiento del fenómeno de metástasis.

NW: ¿Ya tienen publicaciones?
JF: Todavía no hay publicaciones al respecto, empecé a trabajar en esto en abril. Sí hay una publicación de Lucas al respecto, pero no es con este código (él usó un código en NetLogo) para el caso 2D que no es biológicamente relevante pero sirvió para organizar lo que hay que hacer. El código que optimizó Carlos es el que desarrollé yo, lo denominé tumorsphere_culture, permite extender el problema a 3D -como ocurre con las tumoresferas experimentales- y realizar cálculos que posibilitan describir diferentes posiblidades de la progresión tumoral.

NW: ¿Cómo llegaron a contactarse con Carlos? Me comentaron que les quedaban cortos los 2 días de tiempo límite en Serafín.
JF: Yo le consulté a Carlos sobre la posibilidad de correr durante más tiempo porque había escuchado que a veces en las vacaciones de invierno te dejaban, y él me habló del uso exclusivo a raíz de eso. Considerando que para realizar algunas aproximaciones matemáticas útiles, es necesario llegar a tener millones de células que representan unos 100 días de cultivo, y que el tiempo para calcuar un día crece exponencialmente, vamos a requerir a futuro más recursos. Además, esto es sólo la punta del témpano. Posteriormente el modelo deberá incluir otros tipos celulares, interacción específica con el medio, mecanismos internos de las células, entre otros, que van a aumentar drásticamente el tiempo de cálculo, incluso para sistemas relativamente pequeños.

NW: ¿Qué podrán hacer con el 39x que logró Bederián?
JF: Sin esa aceleración no era posible hacer corridas útiles en menos de dos días, así que antes que nada, la aceleración posibilitó la ejecución en los clusters. En segundo lugar, esta aceleración nos permite correr un número mayor de simulaciones con diferentes parámetros e incluir mayor cantidad de realizaciones de un mismo experimento para contar con valores estadísticos confiables. Esto último es central a la hora de medir los observables que requerimos para el modelado matemático.

NW: ¿Entendiste la lógica de los cambios que hizo Carlos? ¿Vas a poder aplicar estas estrategias para que tu código siga performante?
JF: Si, los entiendo y casi todos son cosas que incorporé desde el momento en que las vi en sus commits, porque era una cuestión de no saber que era más rápido hacer las cosas de ese modo. La única cosa de la que no estoy seguro es si las anotaciones de tipo (mediante typing) cambian la performance. Yo tenía entendido que no, pero quizás eso cambió ya. Pero para responder tu pregunta, sí, incluso en los cambios que estoy haciendo ahora, estoy pudiendo aplicar estas estrategias para que el código siga performante. En particular, el tema de almacenar vectores en una única matriz y que los objetos no guarden vectores, sino su índice en la matriz.

NW: ¿Qué desafíos quedan aún en el código?
JF: El desafío central que queda es que todavía requerimos una gran cantidad memoria. En el estado actual del código, no es posible aprovechar todos los cores de un nodo, porque la memoria del mismo se agota antes de terminar la simulación. En este momento estoy haciendo las modificaciones que creo necesarias para solucionar eso. Un segundo desafío sigue siendo la aceleración. Si bien la mejora respecto al original es enorme, todavía no permite correr 60 pasos, que representan 60 días experimentales, en 2 días. Este es el número mínimo de pasos que necesitamos simular de acuerdo a nuestras predicciones  (y muy posiblementa tengamos que simular más allá). Finalmente, como mencioné antes, a futuro necesitaremos incluir otros fenómenos para acercar más la simulación a la realidad (e.g., difusión) como así también mejorar el modo de registrar la información medida.

NW: Muchas gracias
JF: A ustedes y esperamos seguir avanzando juntos en este código.

Por Nicolás Wolovick, director del CCAD

Serafín suma un Nodo de Cómputo Interactivo

Serafín suma un nuevo nodo de Cómputo Interactivo. Este permitirá a las y los usuarios del CCAD, con la misma cuenta, realizar limpieza, análisis y visualización de datos, asi como cómputo liviano, utilizando las tecnologías de environments y Notebooks.

El rack central de Serafín tiene un nuevo nodo con características peculiares:

  • CPU: AMD Ryzen Threadripper PRO 3975WX de 32 núcleos Zen2, 280W de potencia máxima y 120 lanes PCIe 4.0 libres.
  • 8 canales a memoria RAM, conteniendo módulos de 16 GiB DDR4-3200, 128 GiB en total.
  • Placa Infiniband FDR (56 Gbps) NVIDIA Mellanox ConnectX-3.

Esta potente workstation está conectada al sistema de archivos de Serafín y permite realizar tareas interactivas relacionadas con limpieza, administración, análisis, inferencia, visualización y cómputo liviano.

Con este nodo completamos el flujo de trabajo que permite, por un lado, realizar simulaciones a gran escala en Serafín y, luego, analizarlas sin tener que traer a la computadora local los enormes conjuntos de datos que se generan.
Gracias a que está conectado directamente al BeeGFS de Serafín por Infiniband, se obtiene un ancho de banda de 1.6 GiB/s para leer información y muchos núcleos Zen2 para procesarla. La capacidad de ingestión y procesamiento de datos del nuevo nodo es un orden de magnitud superior a una computadora personal.

Este nodo de cómputo interactivo viene a cubrir una demanda creciente entre las y los usuarios del CCAD que además de cómputo pesado al estilo del HPC tradicional, también necesitan de cómputo interactivo para hacer su ciencia. A través de environments como MicroMamba, es posible desplegar la potencia de los Jupyter Notebooks, utilizando lenguajes de backend como Python, R o Julia. También admite el uso de herramientas modernas de desarrollo como VSCode y solo se requiere tener un login en el CCAD.

Próximamente anunciaremos actividades de capacitación para sacar provecho a esta nueva capacidad del CCAD.

Nicolás Wolovick
Director del CCAD-UNC
(para Juan)

Todo el poder de AMD CDNA2 en el CCAD

AMD Latinoamérica reconoce el liderazgo y la capacidad técnica del CCAD donando dos aceleradoras Instinct MI210, con tecnología CDNA2, la misma que usa Frontier, la supercomputadora #1 del mundo.

La primera de las dos aceleradoras MI210 llegó al CCAD. Este monstruo PCIe 4.0 16x consume 300W y tiene unas especificaciones a la altura de su consumo:

  • 64 GiB de DRAM HBM2e con un ancho de banda pico de 1.63 TiB/s, es decir tarda 39ms en leer toda su memoria.
  • 45.3 TFLOPS tanto en precisión simple como en precisión doble.
  • Soporte para un conector superior Infinity Fabric de hasta 4 GPUs para máxima velocidad de comunicación inter-placa.

Esta placa es comparable con una NVIDIA A100: mismo TDP, misma tecnología de memoria, mismo bus de conexión con la CPU. La única diferencia sustancial es que la MI210 dobla a la A100 en desempeño de punto flotante de doble precisión.

El ecosistema ROCm permite aprovechar este recurso con compiladores, bibliotecas, debuggers y herramientas de medición de desempeño.

Esta placa estará en periodo de pruebas y cuando llegue la segunda, ambas se integrarán a MendietaF2 para ofrecer mayor diversidad en la potencia de cómputo. En particular se podrán correr workloads de ML y MD que necesiten de mayor cantidad de RAM que los 24 GiB que ofrecen las A30.

Agradecemos a Juan Moscoso y a Hernán Sánchez que a través de Multitech, realizaron esta donación tan valiosa para el CCAD.

Podés ver un video en el que Nicolás Wolovick, director del CCAD, cuenta de qué se trata en Facebook, Instagram o Twitter

Mulatona y Eulogia reinstaladas con software nuevo

Actualizamos los clusters más viejos con el software más nuevo posible. Una segunda y última vida a Mulatona y Eulogia, que gracias a las actualizaciones mejoraron su desempeño en aplicaciones muy usadas como Quantum Espresso.

Mulatona y Eulogia son nuestros clusters más viejos. Mulatona es algo asi como modelo 2016 y Eulogia 2018. Teniendo en cuenta que los clusters empiezan a calentar más de lo que producen al cabo de 5-8 años, ambos están en el periodo final de su vida útil (EOL).

En vez de dejar que se vuelvan inoperativos por potencia de cómputo, ancho de banda a memoria y stack de software obsoleto, hicimos lo que pudimos con el capital más importante que tenemos, los recursos humanos.

En enero y febrero baja mucho la demanda computacional por las vacaciones de verano, y por eso el CPA Principal de IFEG-CONICET, Carlos Bederián, aprovechó para reinstalar de cero, primero Mulatona y luego Eulogia.

El resultado fue que Mulatona pasó a Rocky Linux release 9.1 (Blue Onyx) y eso implica un Linux kernel@5.14 y un compilador gcc@11.3.1 de base. Sobre esto y usando Spack se compiló e instaló compiladores aun más nuevos: gcc@12.2.0 intel@2021.8.0 y oneapi@2023.0.0. Mulatona, la más vieja de todas tiene el stack de sistema operativo, bibliotecas base y compiladores más nuevos de todo el CCAD. Si la Ley de Proebsting se cumple, tendremos mejoras importantes en la eficiencia del código emitido por estos compiladores.

Eulogia siempre fue/es/será un caso especial. La arquitectura KNL tiene sus bemoles, no tanto en la instalación del sistema base, sino en la elección del compilador. Intel volvió obsoleta la arquitectura Knights Landing desde agosto de 2021 para sus compiladores y GCC no emite tan buen código de máquina como Intel en KNL. Para que intel@2021 funcione se necesitaba correr en Rocky Linux release 8.7 (Green Obsidian). Aunque Bederián trabajó para que corra en Blue Onyx, no hubo caso y tuvo que volver atrás una versión. Esto implicó que Eulogia, por más que es una arquitectura dos años más joven que Mulatona, requiera de software más viejo para poder correr y más del doble de trabajo. La lección ya la conocemos: arquitecturas raras, problemas por todos lados.
De todas maneras pruebas preliminares con QE@7.1 compilado con intel@2021 muestran una mejora de entre 2x y 3x respecto a la instalación anterior.

En ambos casos se necesitaron drivers del kernel para las placas InfiniBand QDR, y aunque estas placas tienen un excelente desempeño tanto en ancho de banda como en latencia, no están soportados por ninguna distribución de Linux actual. La placa MT26428 es hardware que salió en 2010. La comunidad siempre presente, esta vez a través de El Repo, le permitió a Bederián tener drivers de las versiones de Linux kernel correspondientes para estas placas obsoletas en software, pero tremendamente útiles en sus prestaciones.

Cuando pasan estas cosas, siempre se me viene a la cabeza la viñeta que la artista Christiann Macauley publicó en su sitio Sticky Comics.

por Nicolás Wolovick, Director del CCAD-UNC

Compras de fin de año

En el CCAD no le decimos que no a nada, y a fin de año hicimos un llamado para aprovechar los restos de proyectos PICT o SeCyT-UNC.

Cerraba diciembre y ya casi sin aliento pegamos el último empujón antes de que se terminara todo. Convocamos a las usuarias y usuarios del CCAD que tuvieran algún remanente de gastos de sus proyectos para que hicieran contribuciones para el funcionamiento del Centro.

Tuvimos varios aportes:

  • Germán Soldano, FCQ-INFIQC, PICT, 5 SSD 240 GiB para booteo.
  • Federico Pont, FaMAF-IFEG, PICT, 2 SSD 240 GiB para booteo.
  • Cristian Giuppone, FaMAF-IATE, PICT, 12 Arduino nano para monitoreo de los racks.
  • Carlos Kozameh, FaMAF-IFEG, SeCyT-UNC, 2823 horas-core Eulogia.
  • Gustavo Castellano, FaMAF, SeCyT-UNC, 10000 horas-core MendietaF2.
  • Reinaldo Pis Diez, UNLP, PICT 2017-1628, 16000 horas-core MendietaF2.

Todo suma, todo sirve.

por Nicolás Wolovick, director del CCAD

Donación de Mercado Libre oficina Córdoba

La oficina Córdoba de Mercado Libre se comunicó con el Prosecretario de Informática de la UNC para contarle que tenían hardware ocioso. El CCAD tomó este ofrecimiento y se hizo de servers, firewalls y un NAS.

Tres servers Dell R720, dos firewalls Palo Alto PA-3020 y un NAS NetApp DS4246 fue el resultado de una donación de Mercado Libre al CCAD. Los aparatos tienen aproximadamente 10 años de antigüedad y funcionan correctamente. Serán utilizado para provisioning de los 4 clusters actualmente en producción.​

Agradecemos las gestiones a Jazmín Quevedo, Florencia Carcar, Ángeles Castagnino, Mauro Miskovic, Franco Oviedo y Daniel Gándara de Mercado Libre.

 

Diez Milan y ocho A10 para CCT-Rosario

Con fondos de la Provincia de Santa Fé, el CCT-Rosario compra equipamiento de HPC. Dos servidores ultradensos uno de CPU y otro de GPU, más un switch Infiniband conforman este combo que se suma al cómputo de CyT de Santa Fé.

Casi al finalizar el año, llegaron al CCT-Rosario, los equipos que se obtuvieron del concurso de la Agencia Santafesina de Ciencia, Tecnología e Innovación (Asactei) con código PEICE-2021-014. Pablo Granito y Fabio Busnengo fueron los titulares del este proyecto, que fué adjudicado a MultiTech.

Hay tres partes del equipamiento. Primero que todo un switch Infiniband exactamente igual al de Serafín, un Mellanox HDR-200. En Rosario harán el mismo aprovechamiento que nosotros utilizando los cables splitter de 1 HDR-200 a 2 HDR-100.

La segunda parte es un server BigTwin de Supermicro ultradenso conteniendo 4 nodos cada uno con:

  • 2 EPYC 7513, arquitectura Milan, de 32 núcleos y 1.33 TFLOPS.
  • 256 GiB DRAM ECC DDR4-3200, llenando los 16 canales del nodo.
  • NIC IB HDR100 conectado a PCIe 4.0 16x.
  • NVMe 256 GiB.

Los 4 nodos están en un chasis Supermicro AS-2124BT-HNTR, y totalizan 8*1.33=10.64 TFLOPS Rpeak. El Dr. Busnengo estima que han aumentado en un 50% la capacidad de cómputo en doble precisión.

Finalmente adquirieron un chasis AS-2114GT-DNR también de Supermicro que contiene dos nodos con:

  • 2 EPYC 7513, arquitectura Milan, de 32 núcleos y 1.33 TFLOPS.
  • 128 GiB DRAM ECC DDR4-3200, llenando los 16 canales del nodo.
  • NIC IB HDR100 conectada por PCIe 4.0 16x.
  • NVMe 256 GiB.
  • 4 NVIDIA A10, arquitectura Ampere GA102, con 24 GiB GDDR6 conectados por PCIe 4.0 16x. Cada una eroga 31 TFLOPS en precisión simple.

Las 8 GPUs totalizan 248 TFLOPS para cómputo de aprendizaje automático.

Tanto la solución de CPU como la de GPU tienen muy buen ancho de banda a memoria. La primera supera los 350 GiB/s por nodo a sus 256 GiB, mientras que la GPU permite un máximo de 600 GiB/s a sus 24 GiB de memoria.

Nos alegra saber y comunicar que los Centros de HPC del país siguen creciendo.

 

Nicolás Wolovick, Director del CCAD-UNC