Estamos contratando

CONICET abrió un llamado para la Carrera Profesional de Apoyo (CPA) para trabajar en el CCAD-UNC como técnica/o en HPC.

Desde hoy lunes 14 de febrero hasta el miércoles 2 de marzo se receptarán postulantes para un cargo de Carrera Profesional de Apoyo (CPA) de CONICET para trabajar junto a los CPAs Carlos Bederián, Darío Graña y Marcos Mazzini dentro del Centro de Computación de Alto Desempeño de la UNC, el centro de HPC más importante del país.

El perfil que buscamos es un persona que conozca las tecnologías Ansible, GIT, Kubernetes, sepa de HPC y Compiladores. El trabajo día a día es muy variado, pero una vez que los clusters están instalados se entra en un ciclo de adaptación de playbooks, compilación de paquetes, atención a los casi 200 usuarias/os que tenemos de todo el Sistema de Ciencia y Técnica del país.

El trabajo es desafiante, vas a usar computadoras de punta en un Datacenter nuevísimo. Además, vas a aprender mucho de Carlos, Darío y Marcos que ya acumulan más de una década de experiencia en el rubro.

Para más información sobre como aplicar, dirigirse al Sitio de Convocatorias CPA-CONICET y buscar:

¡Serafín y ellos te esperan!Dudas y consultas, escribir a Nicolás Wolovick, () Director del CCAD.

Nuevos representantes de FaMAF en CCAD

Se continua con el proceso de renovación de las y los representantes en el CCAD-UNC. En este caso el HCD de la Facultad de Matemática, Astronomía y Física cambió sus representantes a fines de 2021.

La resolución RHCD-2021-431 de FaMAF indica que el Dr. Nicolás Wolovick (titular), actual Director del CCAD y el Dr. Juan Ignacio Perotti (suplente), serán los representantes de FaMAF-UNC. Anteriormente estaban Oscar Reula y Nicolás Wolovick.

Le damos la bienvenida a Juan, docente de la Lic. en Física de FaMAF e investigador del IFEG-CONICET en temas de Redes Complejas.

 

Llegaron las placas NVIDIA A30 del PFI

Llegaron las GPUs para modernizar Mendieta. Empieza la transformación a Nabucodonosor. Son 11 NVIDIA A30 que fueron compradas con el 70% del subsidio PFI que obtuvimos en septiembre. Su relación desempeño/precio es excelente. Funcionan perfectamente en un servidor que estaba homologado para tarjetas de hace cuatro generaciones.

Cuando presentamos el proyecto PFI dirigido por el Dr. Francisco Tamarit, se pensó en comprar 21 placas aceleradoras NVIDIA A10. El subsidio se obtuvo en septiembre, por un total de 6M ARS. Con un desembolso del 70% en una primera fase y el 30% restante al completar la primera, esperábamos comprar 18 NVIDIA A10, con unos 4M ARS.

«No hay A10»

El 12 de diciembre, el Gobierno Nacional depositó los ~4M ARS, y la situación se había modificado, no por el tipo de cambio, sino por la escasez de chips. La línea A10, A30, A40 y la minera CMP 170HX presentan una relación desempeño/precio y desempeño/consumo asombrosas para diversos tipos de workloads, desde dinámica molecular a minado de criptomonedas. En definitiva no había A10, pero si A30.

Con un precio 30% superior por unidad, obteníamos según los benchmarks de NVIDIA, un 30% más de rendimiento en BERT-LARGE y ResNet50, dos workloads representativos de lo que se hace en ML dentro de la UNC.

La comparativa de las placas es la siguiente

    Slots PCIePow  Pow         Proc   BW fp32 fp64 
A10     1    8pin 150W GA102-890-A1  600   31  0.9
A30     2    8pin 165W       GA-100  933   10  5.1

A grosso modo una A30 es media A100 y una A10 es una RTX 3080 Ti. Perdíamos 60% de la potencia de cálculo de precisión simple, pero ganábamos un 50% de ancho de banda a memoria. ¿Qué era lo más importante?
Como ya sabíamos que las A10 funcionaban en los viejos Supermicro 1027GR-TSF, podíamos estar casi seguros que las A30 también lo harían.

Llegan once A30

Con los 4M ARS rápidamente compramos 11 placas PNY A30 y el día de ayer el CPA CONICET Marcos Mazzini, las recibió, desempacó y colocó una en Nabucodonosor. Queríamos saber que pasaba.

¡Funcionan!

Marcos corrió nvidia-smi y allí estaba. Nabu se transformó en una mezcla de placas, un pequeño lab para probar rendimiento in-situ.

Marcos probó GROMACS 2020.2, Jorge Sánchez aprendizaje automático para su investigación actual, y Nicolás Wolovick cuánto hashrate de ETH se obtiene con Phoenix Miner 5.6d que soporta arquitectura Ampere.

      1080Ti        A10        A30
MD   ?? ns/day  267 ns/day   268 ns/day
ML   32 m/iter   25 m/iter    17 m/iter
ETH  32 MH/s     27 MH/s     103 MH/s

En definitiva, compramos once placas que no solo van bien como las A10, en workloads de ML son 47% más rápidas. Resulta notable como, aunque el la potencia pico de precisión simple de la A30 sea un tercio que la A10, el desempeño en resulta similar. En la mayoría de los workloads de HPC, lo que prima es el ancho de banda a memoria y el HBM2 se nota.

Eulogia/Modelo para armar

Eulogia está completa. Con 32 nodos operativos, se terminó de armar este rompecabezas de muchas piezas armado por muchas personas.

La puesta en funcionamiento del nodo número 7 de Eulogia (knl07) por parte del CPA-CONICET Marcos Mazzini, pone fin a un proceso de construcción de un cluster que marcó una época en el CCAD. Gestado a mediados de 2017 como el inicio del cluster que iba a reemplazar a Cristina por una fracción del costo y consumo, se fueron sumando partes y piezas.

En noviembre de 2017 ya estaba levantada una versión inicial donde también se incorporaron 8 nodos más con aportes del SNCAD. Un poco después, ya en 2018, se utilizaron fondos de PAMEG+PROMINF adjudicados a FaMAF para la compra de 4 nodos más a la firma Exxact de EEUU. En paralelo llegaron 4 nodos más que empezaron a comprarse en 2017, pero diferentes problemas hicieron que SIASA entregara en 2018, y que en realidad fueran los mismos 4 nodos que los anteriores.

Cuando Intel discontinuó el proyecto Larrabee, quedaron saldos de estos valiosos e interesantes equipos, tal como lo describe Matt Pharr en su «Elegy for Larrabee«, o Tom Forsyth en su «Why didn’t Larrabee failed?«. Carlos Bederían encontró una oferta y entre 2019 y 2020, pandemia mediante, llegaron 12 nodos más para completar Eulogia.

Todo 2020 y parte del 2021 se siguió completando la computadora. Los últimos nodos de oferta venían sin memoria, discos ni placas de red. La mayoría de las cosas se solucionó a través de compras comunitarias, una en 2020 y otra en 2021. Aun así faltaban módulos de memoria y lo más importante las placas Infiniband FDR para tener comunicación rápida y poder hacer capability computing como nos decía Tron Thomas Sterling en su CSC 7600. Los módulos de memoria restantes salieron de Proyectos Institucionales IDTyA de interés regional 2020, de la FCQ (Patricia Paredes) y FaMAF (Nicolás Wolovick).

Las placas FDR fueron otra jugada de Bederián. Compramos 11 MCX354A-FCBT reacondicionadas en MET Servers, por una fracción del costo en el mercado local.

Modelo terminado

Foto sacada en el UNC Data Center en agosto de 2021.

De arriba hacia abajo chasis con 4 nodos cada uno: cantidad, año(s) de compra, origen y modelo de procesador KNL.

  • 1* 2018: PAMEG/PROMINF FaMAF, Exxact USA, 7250.
  • 1* 2017-2018: PMT 2017, SIASA comprado a Exxact USA, 7250.
  • 3 * 2019-2020: fondos propios CCAD, oferta de Lambda Labs, 7210.
  • 2 * 2017: SNCAD, SIASA, 7210.
  • 1 * 2017: Rectorado UNC, SIASA, 7210.

El total son 32 procesadores KNL divididos en 8*7250 + 24*7210.
La potencia pico total (Rpeak) de 8*3.04 + 24*2.66 = 88.16 TFLOPS.
La potencia máxima estimada (Rmax) de 8*1.21 + 24*1.05 = 34.88 TFLOPS.

Esta foto de SLURM tomada a mediados de diciembre 2021 muestra los 32 nodos a pleno uso.

Estimamos que Eulogia estará transformando energía en cómputo hasta el 2023/24, cuando ya probablemente no tenga sentido tenerla prendida y sea reemplazada por un chasis de cuatro nodos densos dual Graviton5 de 256 núcleos cada uno.

Eulogia está terminada y marca una época, donde la única manera de crecer era de a poco, nodo a nodo, RAM a RAM, avanzando, para que la Ley de Moore no nos lleve puestos y tengamos que hacer downsizing de nuestra ciencia.

El CCAD UNC tiene nuevo director

El Dr. Nicolás Wolovick de la FaMAF fue designado por Resolución Rectoral 1526/2021 como nuevo Presidente del Directorio del Centro de Computación de Alto Desempeño de la UNC.

El Dr. en Computación sucede al Dr. en Física Oscar Reula que estuvo como director desde el año 2014. A su vez el Dr. Reula sucedió al Dr. en Ciencias Químicas Cristián G. Sánchez quien fuera su primer director.

30 años del Supercómputo en México, por Alfredo Santillán

La primera lista Top500 fue en junio de 1993, allí en el puesto #246 aparecía una computadora mexicana de 1991, una Cray Y-MP4/432 de 4 procesadores y 1.33 GFLOPS. Han pasado treinta años desde aquella máquina y el Dr. en Astrofísica, Alfredo Santillán nos relatará este viaje del supercómputo latinoamericano.

30 años del Supercómputo en México.

Alfredo J. Santillán G.
DGTIC-UNAM

Resumen

En noviembre de este año se cumplen tres décadas de la llegada de la primera supercomputadora a nuestro país, un equipo Cray Y-MP4/432, denominado Sirio, que revolucionó por completo el uso del cómputo en nuestro país. En esta charla haremos un recorrido histórico de cómo en la UNAM ha evolucionado el cómputo de alto desempeño, así como su impacto en una variedad de proyectos vinculados a un espectro amplio de áreas científicas, como la astrofísica, para resolver problemas de frontera tanto nacionales como internacionales.

Semblanza de Alfredo Santillán

Realizó su Licenciatura en Física en la Universidad Autónoma Metropolitana–Iztapalapa, su Maestría y Doctorado en Ciencias (Astrofísica) en la Universidad Nacional Autónoma de México (UNAM). Actualmente es Profesor Investigador Titular de la Dirección General de Cómputo y Tecnologías de Información y Comunicación (DGTIC) de la UNAM. Su Campo de especialidad es la Astrofísica Computacional y el Cómputo de Alto Rendimiento (HPC). Ha sido Coordinador de la Unidad de Investigación en Cómputo Aplicado (UICA), UNAM; Coordinador del Plan de Becarios de Su​_percómputo del Centro de Cómputo de la UNAM; Presidente del Comité de Aplicaciones y Asignación de Fondos de la Corporación Universitaria para el Desarrollo de Int​_ernet (CUDI) y miembro del Sistema Nacional de Investigadores (SNI), CONACyT. Actualmente es miembro de la International Astronomical Union (IAU) y de la Sociedad Mexicana de Física.

Coordenadas de la videoconferencia

30 años de Supercómputo en México
Lunes, 1 de noviembre · 6:00 – 7:30pm
https://meet.google.com/enc-xbvk-nch

Actualización

Nuevos miembros del CCT-Córdoba en CCAD

El pasado 10 de octubre se renovaron los representantes del CCT CONICET Córdoba en el directorio del CCAD-UNC.


El Dr. Marcelo Puiatti, Investigador Adjunto del INFIQC (CONICET-UNC) y el Dr. Federico Carrasco, Investigador Asistente del IFEG (FAMAF-UNC) fueron designados por el directorio del CCT CONICET Córdoba.

 

 

Esperamos que ambos se sientan cómodos para que puedan contribuir al crecimiento del CCAD-UNC.

 

Agradecemos a los miembros salientes por el CCT CONICET Córdoba: Dr. Sergio Elaskar (titular), Dr. Juan Pablo Saldía (suplente) designados en por el CCT-Córdoba, 29 mayo 2018.

[Documento en PDF]

Serafín, en el bleeding edge del software

Corriendo High Performance Linpack (HPL) los técnicos del CCAD descubrieron un diferencia de frecuencia entre los dos procesadores de Serafín que hacen un 2% más lento el cómputo de este benchmark. Mostramos otras sutilezas que derivan en la instalación de una supercomputadora con la última tecnología.

Serafín ya está operativa, pero la instalación no estuvo exenta de problemas. Es que una plataforma nueva, de altísima densidad de cómputo y con interfaces de comunicación muy rápidas, necesita software nuevo, tal vez muy nuevo.

El cluster corre Rocky Linux 8.4, un derivado de RHEL salido hace 3 meses con kernel 4.18.0-305.10.2.el8_4.x86_64. La suite de compilación es aocc-3.1 también de julio de 2021. Se compilaron utilizando el viejo gcc-8.4 que trae Rocky y a través de Spack, un gcc-11.2 también de finales de julio de 2021. Ambos compiladores son capaces de emitir código para la arquitectura Zen2.

Una sutileza en la frecuencia de operación del Procesador 1

A fin de probar la plataforma se compiló HPL de AMD para correr primeramente en un solo nodo y verificar la potencia de cálculo que según lo que pudimos estimar de ejemplares similares (2*EPYC 7532, RAM DDR4-3200) en la lista TOP500, debería estar en 2.2 TFLOPS por nodo usando toda la suite de AMD (compilador aocc, biblioteca de BLAS AMD BLIS).

En este punto surgió el primer detalle. A pesar de haber usado todas las recetas de AMD, e incluso un parche para usar la MKL de Intel en Zen2, se obtuvo un resultado más bajo.

================================================================================
T/V                N    NB     P     Q               Time                 Gflops
--------------------------------------------------------------------------------
WR11C2R4      120064   224     4     4             552.55             2.0883e+03
HPL_pdgesv() start time Tue Aug 17 10:02:15 2021

HPL_pdgesv() end time   Tue Aug 17 10:11:27 2021

--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=   2.92090121e-03 ...... PASSED
================================================================================

Luego de intercambiar emails con los ingenieros de AMD, y con el N ajustado a 120000 con AMD BLIS se obtuvo un 2% menos de lo que se debería.

================================================================================
T/V                N    NB     P     Q               Time                 Gflops
--------------------------------------------------------------------------------
WR11C2R4      120000   224     4     4             534.06             2.1571e+03
HPL_pdgesv() start time Wed Sep  1 19:15:12 2021

HPL_pdgesv() end time   Wed Sep  1 19:24:06 2021

--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=   3.02955319e-03 ...... PASSED
================================================================================

Usando el mismo no, pero con el MKL parchado, se llegó a lo que se esperaba, salvo que la medición patrón del TOP500 debería estar realizada con AMD BLIS y no con la MKL parchada. ¿Dónde está ese 2% de performance que faltaba?

Como en el CCAD uno de los lineamientos es tratar de obtener el máximo desempeño posible del hardware adquirido, los técnicos empezaron a buscar el problema.

================================================================================
T/V                N    NB     P     Q               Time                 Gflops
--------------------------------------------------------------------------------
WR11C2R4      120000   224     4     4             521.69             2.2082e+03
HPL_pdgesv() start time Wed Sep  1 19:58:28 2021

HPL_pdgesv() end time   Wed Sep  1 20:07:10 2021

--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=   3.29733621e-03 ...... PASSED
================================================================================

Luego de actualizar al BIOS 2.2 (20210831) de la placa madre H12DST-B, y obtener los mismos resultados, se lanzó la ejecución monitoreando temperatura, frecuencia y voltaje, ya que el DVFS de los procesadores actualmente hacen lo que pueden para no dañar el silicio, brindando el mayor desempeño posible. Apareció algo extraño que se puedo observar monitoreando el sistema.

Tomando algunos valores constatamos que hay una brecha en la frecuencia de funcionamiento de las dos pastillas. La CPU1, que está más cercana al aire frío, tiene un reloj dado por el DVFS que es entre 2% y el 5% menor que la CPU2 que está detrás, que a su vez está entre 5C y 7C más caliente.

fPKG0 fPKG1  Abs % 
 2523  2614   91 3.48
 2522  2610   88 3.37
 2520  2605   85 3.26
 2564  2684  120 4.47
 2684  2793  109 3.90
 2642  2759  117 4.24
 2519  2608   89 3.41
 2513  2603   90 3.45
 2645  2781  136 4.89
 2678  2805  127 4.52
 2639  2719   80 2.94
 2559  2675  116 4.33
 2690  2834  144 5.08
 2702  2810  108 3.84
 2544  2610   66 2.52
 2507  2575   68 2.64
 2663  2803  140 4.99
 2560  2637   77 2.91
 2505  2575   70 2.71
 2565  2665  100 3.75
 2647  2738   91 3.32
 2505  2575   70 2.71
 2506  2574   68 2.64
 2624  2766  142 5.13
 2504  2574   70 2.71

Estimamos que cuando podamos solucionar este detalle entre los ingenieros de AMD, Supermicro y nuestros CPA-CONICET, obtendremos 2.2 TFLOPS con aocc+BLIS y un poquito más con el truco de la MKL parchada.

Comunicaciones colectivas de MPI aceleradas, memory leak

Durante el período de prueba el usuario Fabio Negreiros Ribeiro, detectó que sus corridas de Quantum ESPRESSO (QE) se cortaban por falta de memoria y los procesesos quedaban colgados.

El switch Infiniband de Serafín, un Mellanox MQM8790-HS2F soporta offloading de operaciones colectivas mediante el protocolo Mellanox SHARP. Este protocolo se activó usando OpenUCX dentro de OpenMPI, usando la biblioteca HCOLL de NVIDIA-Mellanox.

Efectivamente había bugs [1,2] en la versión de OpenMPI más nueva que soporta Spack y se tuvo que utilizar openmpi@4.1.2rc1 +legacylaunchers +pmix fabrics=ucx,hcoll,cma,xpmem schedulers=slurm para solucionar ese problema y tener desempeño y estabilidad.

Hacemos notar que este problema solo surgía con Quantum ESPRESSO, y en el resto de los programas que se corrieron multinodo como GADGET o GROMAC, no hubo ningún problema.

Parches para el compilador AOCC en Spack

En todo este desarrollo de instalar el software básico para Serafín se utiliza fuertemente Spack. Aunque Spack sporta aocc, este compilador no es tan popular como el resto y hubo problemas con gdb [1], amdlibflame [2] y UCX [3], todos ya solucionados por esta gran comunidad.

 

Instalar una supercomputadora no es algo sencillo, pero claramente los técnicos del CCAD están en el bleeding edge y saben manejarlo.