Probamos la NVIDIA A10 en los viejos servers de Mendieta

Cuando supimos que obtuvimos el subsidio PFI2021 por $6.000.000, rápidamente adquirimos una placa NVIDIA A10 para probarla en un nodo de Mendieta para ver que todo estuviera ok antes de comprar 21 placas más.

Los nodos de Mendieta fase 2 son Supermicro 1027GR-TSF. Unos servidores dual Xeon 2680 v2, con lugar para poner 3 GPUs / XeonPhi en PCIe 3.0 de ese tiempo. Básicamente está pensado para placas Teslas m2070/75/90 K20m y K40m, placas NVIDIA de 5 generaciones atrás, y los XeonPhi de primera generación como por ejemplo los 31S1P, todos de enfriamento pasivo y conectores de power PCIe en el contrafrente.

Las placas NVIDIA A10 son de 2021, PCIe 4.0 y con una potencia de cálculo 20 veces mayor a las placas que estaban previstas para ese servidor. En estos casi 10 años muchas cosas pueden cambiar, así que decidimos adquirir una con fondos del CCAD y probar si nuestra intuición era correcta: que estas placas no homologadas para el 1027GR-TSF funcionan correctamente.

El CPA CONICET Marcos Mazzini intervino una Nabucodonosor, le retiró una GTX 1080 Ti, cambió los ventiladores para que vuelvan a estar por debajo y colocó la Tesla A10 que se muestra en la foto superior. La máquina encendió y reconoció la placa correctamente.

El investigador de CONICET Jorge Adrián Sánchez gentilmente accedió a probar entrenar sus modelos de ML en Nabu1 con la A10 y hasta ahora tiene resultados muy prometedores. En particular pudo aumentar el batch size de 32 a 128 gracias a que las A10 tienen 24 GiB contra los 11 GiB de las GTX 1080 Ti.

Vemos que la corrida está exigiendo térmicamente la A10 con una temperatura de 90C, ya que no bajamos los ventiladores a su lugar original. Gracias al DVFS de las placas NVIDIA de alta gama, se mantiene la GPU a temperatura máxima sin que resulte dañada y aun asi se obtiene un buen rendimiento de cómputo.

Otro hecho notable es la eficiencia energética. Las placas 1080 Ti consumen ~250W y las A10 ~130W, cuando resultados preliminares muestran que las A10 son al menos el doble de rápido. Esperamos cuadriplicar la eficiencia energética para la mayoría de los workloads de ML y MD que correrán en Nabucodonosor.

Objetos, historias e instituciones. El Balde.

«… tengo grabada la imagen cuando con la camiseta de la selección y balde en mano (se refiere a Antonio Russo) limpiaron la salita de Ingeniería … un Charly contagiado de entusiasmo estaba allí …»

El verano de 2016 fue casi tan difícil como el del 2015 en cuanto a lluvias estivales en Córdoba. En esos momentos el CCAD tenía en una Sala de Ingeniería, especialmente preparada, a sus dos clusters Cristina y Mendieta. La sala se acondicionó en 2010 para la llegada de Cristina, el primer cluster del CCAD y sirvió para ese propósito varios años hasta que luego de ese verano decidimos mudarnos. Por las lluvias, claro.

Ya habíamos tenido alguna filtración por el techo hacia dentro de la sala. Nada importante, pero estábamos alerta que ese enfriamiento por agua a la criolla, no destruyera el equipamiento que tanto esfuerzo y plata costó a un montón de gente. Pero un día llovió demasiado, el nivel de agua por fuera de los caños de desagüe era mayor que el nivel interno y como la sala está en el piso inferior del edificio de FCEFyN de la UNC en Ciudad Universitaria, el agua empezó a brotar del piso.

Hubo un día después y esta foto se tornó para nosotros icónica

Antonio, hace poco incorporado al CCAD como CPA Profesional, recién venido de Francia, de diseñar, licitar, instalar y operar clusters TOP500, estaba junto a sus compañeros Carlos Bederián y Darío Graña, sacando el agua y el barro de la sala. Tuvimos mucha suerte esa noche de tormenta. El nivel del agua no subió demasiado como para arruinar placas madres y conectores.

En julio se planeó la mudanza y en agosto ya se estaba haciendo. Mendieta se fué para el Datacenter de la PSI, Cristina se quedó, tal vez para ser apagada donde fue encendida.

Hoy Marcos Mazzini, cumpliendo sus funciones habituales sacó un servidor de la Sala de Ingeniería y se encontró con el balde, nuestro balde.

Hoy estamos en el flamante UNC Data Center, con todo lo que tiene que tener, pero sobre todo sin goteras y con 1.5 mts de piso técnico para que sólo otro diluvio universal pueda hacer naufragar a Serafín, Eulogia y Mulatona. Extraño objeto, que en su historia nos muestra como institución. Hoy ya lo pusimos donde tiene que estar.

Con un puñado de usuarios, se llenó Serafín

A poco de abrirse Serafín en beta-test, un puñado de usuarios llenó el cluster de trabajos, muchos de ellos de una cantidad grande de nodos. Lo que esperábamos se cumplió. Aunque Serafín tiene 3x más capacidad que todos nuestros clusters anteriores, se necesita más, mucho más. Mostramos quienes fueron, que hacen y que sensación tuvieron.

El jueves pasado el CPA Profesional Principal de CONICET, Lic. Carlos S. Bederián, pudo compilar de manera correcta OpenMPI en Serafín para que trabaje con la red Infiniband HDR de 100 Gbps y así convertir un conjunto de servidores potentes en una supercomputadora.

La mañana del viernes, el cluster mostraba este panorama.

Los 60 nodos estaban trabajando a pleno. Martín Zoloff (FCQ), Diego Masone (IHEM-CONICET), Rafael A. Jara Toro (FCQ), Fabio Negreiros Ribeiro (FCQ), Mario Agustín Sgró (OAC, IATE-CONICET) trabajando con Federico A. Stasyszyn y Dante Paz del mismo instituto.

No solo tuvimos 60 nodos a pleno y que aun siguen así, sino que además son jobs relativamente grandes. Martín Zoloff con uno de 24 nodos, Mario Agustín Sgró con uno de 8 nodos y el resto entre 3 y 4 nodos. La minoría son los de un solo nodo. Eso es una gran noticia, porque gran parte del costo de Serafín está en su red de alta velocidad que permite utilizar varios nodos como una computadora a través de MPI.

Esta no es una situación nueva, en marzo de 2018 cuando abrimos Eulogia a las y los usuarios de Mendieta, se llenó en menos de un día.

Los beta-testers resultan cruciales para comprobar tanto los sistemas de refrigeración, como para certificar que todos los sistemas de redes, cómputo y almacenamiento, tengan los parámetros e infraestructura óptima para la etapa de producción, asi los usuarios finales tienen un entorno de trabajo de alta calidad.

Hicimos una breve entrevista a algunos de los beta-testers de Serafín.

Diego Masone

CCAD: ¿Nos podés contar cuál es tu campo de estudio?
DM: Me dedico a la biología computacional, que abarca modelos matemáticos y técnicas de simulación numéricas para el estudio de sistemas biológicos, como las proteínas humanas y las membranas celulares.

CCAD: ¿Desde hace cuánto usás HPC para hacer ciencia?
DM: ¡Desde que era joven! Empecé con HPC al inicio del doctorado en el Barcelona Supercomputing Center.

CCAD: ¿Qué paquetes de software usás?
DM: GROMACS y PLUMED abarcan más del 90% de lo que hago.

CCAD: ¿Contanos cuál fue la primera impresión al hacer corridas en Serafín con toda su funcionalidad al 100%?
DM: ¡De lujo! ¡Me estoy frotando las manos! Ahora sí que va a aumentar la generación de conocimiento.

CCAD: ¿Qué tenés planeado hacer con el nuevo poder de cómputo?
DM: Vamos a estudiar el poro de fusión. Esta es la maquinaria que tiene la naturaleza para transportar moléculas entre organelas, dentro de células como las neuronas o entre espermatozoides y ovocitos. Las implicancias son importantísimas para el avance de la biomedicina en el estudio de neuropatologías y de la reproducción humana.

Martin E. Zoloff Michoff

CCAD: ¿Nos podés contar cuál es tu campo de estudio?
MZ: Estudio las propiedades de materiales activos para baterías de litio de la próxima generación a partir de cálculos de estructura electrónica de primeros principios.

CCAD: ¿Desde hace cuánto usás HPC para hacer ciencia?
MZ: HPC «en serio» hace aproximadamente 10 años, desde que entró en servicio «Cristina«.

CCAD: ¿Qué paquetes de software usás?
MZ: Principalmente Quantum Espresso, pero también Siesta, AIMD y Gaussian, todas diferentes implementaciones de la Teoría del Funcional de la Densidad Electrónica (DFT).

CCAD: ¿Contanos cuál fue la primera impresión al hacer corridas en Serafín con toda su funcionalidad al 100%?
MZ: Qué es entre 2 a 3 veces más rápido que los clusters que estaba usando hasta ahora.

CCAD: ¿Qué tenés planeado hacer con el nuevo poder de cómputo?
MZ: Dada la posibilidad de escalar a muchos más cores, tengo pensado modelar sistemas con muchos más átomos. Para los sistemas que me interesan es de crucial importancia poder incluir al solvente de manera explícita, por ejemplo, lo cual es muy costoso desde el punto de vista computacional.

Federico A. Stasyszyn

CCAD: ¿Nos podés contar cuál es tu campo de estudio?
FS: Estudio los efectos y evolución de campos magnéticos en astrofísica. En particular en cosmología.

CCAD: ¿Desde hace cuánto usás HPC para hacer ciencia?
FS: Desde mi doctorado. Justamente mi trabajo de doctorado fue la implementación de las ecuaciones de la magnetohidrodinámica en códigos cosmológicos.

CCAD: ¿Qué paquetes de software usás?
FS: La mayoría son códigos propios o desarrollados entre varios grupos internacionales, pero específicos del área (SWIFT, Gizmo, Enzo, GADGET-4, etc). En cuanto a bibliotecas comunes, son clásicas como FFTW, GSL, HDF5, METIS, etc.

CCAD: ¿Contanos cuál fue la primera impresión al hacer corridas en Serafín con toda su funcionalidad al 100%?
FS: Que actualmente estamos testeando Serafín con simulaciones que antes eran de producción. Como que se corrió la vara, aunque aún no la pude usar 100%.

CCAD: ¿Qué tenés planeado hacer con el nuevo poder de cómputo?
FS: Hay grupos de simulaciones que no pudimos completar anteriormente por falta de tiempo de computo (ya usábamos la mitad de los clusters). Pensamos en añadirles procesos astrofísicos para que sean más realistas y esperamos llegar a tener mejor estadística que con las que ya trabajamos. Asimismo, pensamos en diseñar grupos de simulaciones nuevas pensando en las resoluciones y objetos que estudian y necesitan los grupos del trabajo del OAC-IATE.

Fabio Negreiros Ribeiro

CCAD: ¿Nos podés contar cuál es tu campo de estudio?
FNR: Simulación computacional atomística de nanomateriales.

CCAD: ¿Desde hace cuánto usás HPC para hacer ciencia?
FNR: 15 años.

CCAD: ¿Qué paquetes de software usás?
FNR: Quantum Espresso, CP2K, Berkeley-GW.

CCAD: ¿Contanos cuál fue la primera impresión al hacer corridas en Serafín con toda su funcionalidad al 100%?
FNR: Muy rápido y dinámico. Nada de negativo a declarar.

CCAD: ¿Qué tenés planeado hacer con el nuevo poder de cómputo?
FNR: El nuevo cluster permitirá estudiar otras propiedades de nanomateriales, como la estabilidad estructural y las propiedades ópticas, que no podían ser analizadas en los otros HPCs. Esto permitirá una caracterización mas completa de los materiales, y por lo tanto será más fácil hacer un puente con la aplicación o conexión con la industria.

El CCAD obtuvo un PFI por $6M para actualizar Mendieta para ML y MD

El CCAD-UNC con el apoyo del Córdoba Technology Cluster y el CEPROCOR, logró un subsidio de 6.000.000 de pesos para modernizar Mendieta con GPUs de última generación y mejorar las prestaciones para aprendizaje automático (ML) y dinámica molecular (MD).

Cuando a fines de mayo Carlos Bederián apuntó a los Proyectos Federales de Inversión 2021 (PFI) del COFECYT, vimos que era una posibilidad de materializar un plan que ya teníamos desde el año pasado: actualizar Mendieta con GPUs específicas para ML y MD y así extender la experiencia de Nabucodonosor.

Rápidamente todos los actores nos alineamos, el Córdoba Technology Cluster, a través de su Presidente Pablo Gigy y la Lic. Lorena Llanes, nos ayudaron a armar la propuesta y buscar una UVT para manejar el envío y la eventual obtención del subsidio. Asi conocimos a la UVT del CEPROCOR y entramos en contacto con la Cra. Luciana Beladelli. La presentación fue apoyada también desde SeCyT-UNC por parte de la Dra. Carla Giacomelli. El Ministerio de Ciencia y Tecnología, a través del Lic. Gonzalo Valenci, brindó apoyo para que esta y todas las presentaciones que se hicieron desde Córdoba, estuvieran presupuestariamente correctas. El día 8 de julio teníamos todo presentado.

El proyecto, dirigido por el Dr. Francisco Tamarit, «Prestaciones de Computación de Alto Desempeño para Inteligencia Artificial y Dinámica Molecular» fue seleccionado esta semana y estamos elevando la documentación complementaria y poder empezar a tramitar la compra FOB.

Con este subsidio vamos a adquirir 21 placas NVIDIA Tesla A10 de 24 GiB de RAM DDR6, 31.2 TFLOPS de potencia pico float32 y 150 W TDP. Esta placa resulta notable respecto a su relación TFLOPS/$ y TFLOPS/W, sextuplicando la eficiencia energética respecto a las GTX 1080 Ti que usábamos en Nabucodonosor.

Cuando tengamos la totalidad de las placas habremos generado capacity computing por un total de 655.2 TFLOPS float32 pico, lo cual implica multiplicar por 10 la capacidad de cómputo y multiplicar por 7 la cantidad de RAM respecto a los dos nodos de Nabucodonosor. Las comunidades de Machine Learning y Molecular Dynamics se verán enormemente beneficiadas y esto implicará  más modelos y con más detalles en ambas ramas de la ciencia, que tienen una aplicación directa en desarrollos tecnológicos con impacto productivo.