Llegaron las placas NVIDIA A30 del PFI

Llegaron las GPUs para modernizar Mendieta. Empieza la transformación a Nabucodonosor. Son 11 NVIDIA A30 que fueron compradas con el 70% del subsidio PFI que obtuvimos en septiembre. Su relación desempeño/precio es excelente. Funcionan perfectamente en un servidor que estaba homologado para tarjetas de hace cuatro generaciones.

Cuando presentamos el proyecto PFI dirigido por el Dr. Francisco Tamarit, se pensó en comprar 21 placas aceleradoras NVIDIA A10. El subsidio se obtuvo en septiembre, por un total de 6M ARS. Con un desembolso del 70% en una primera fase y el 30% restante al completar la primera, esperábamos comprar 18 NVIDIA A10, con unos 4M ARS.

«No hay A10»

El 12 de diciembre, el Gobierno Nacional depositó los ~4M ARS, y la situación se había modificado, no por el tipo de cambio, sino por la escasez de chips. La línea A10, A30, A40 y la minera CMP 170HX presentan una relación desempeño/precio y desempeño/consumo asombrosas para diversos tipos de workloads, desde dinámica molecular a minado de criptomonedas. En definitiva no había A10, pero si A30.

Con un precio 30% superior por unidad, obteníamos según los benchmarks de NVIDIA, un 30% más de rendimiento en BERT-LARGE y ResNet50, dos workloads representativos de lo que se hace en ML dentro de la UNC.

La comparativa de las placas es la siguiente

    Slots PCIePow  Pow         Proc   BW fp32 fp64 
A10     1    8pin 150W GA102-890-A1  600   31  0.9
A30     2    8pin 165W       GA-100  933   10  5.1

A grosso modo una A30 es media A100 y una A10 es una RTX 3080 Ti. Perdíamos 60% de la potencia de cálculo de precisión simple, pero ganábamos un 50% de ancho de banda a memoria. ¿Qué era lo más importante?
Como ya sabíamos que las A10 funcionaban en los viejos Supermicro 1027GR-TSF, podíamos estar casi seguros que las A30 también lo harían.

Llegan once A30

Con los 4M ARS rápidamente compramos 11 placas PNY A30 y el día de ayer el CPA CONICET Marcos Mazzini, las recibió, desempacó y colocó una en Nabucodonosor. Queríamos saber que pasaba.

¡Funcionan!

Marcos corrió nvidia-smi y allí estaba. Nabu se transformó en una mezcla de placas, un pequeño lab para probar rendimiento in-situ.

Marcos probó GROMACS 2020.2, Jorge Sánchez aprendizaje automático para su investigación actual, y Nicolás Wolovick cuánto hashrate de ETH se obtiene con Phoenix Miner 5.6d que soporta arquitectura Ampere.

      1080Ti        A10        A30
MD   ?? ns/day  267 ns/day   268 ns/day
ML   32 m/iter   25 m/iter    17 m/iter
ETH  32 MH/s     27 MH/s     103 MH/s

En definitiva, compramos once placas que no solo van bien como las A10, en workloads de ML son 47% más rápidas. Resulta notable como, aunque el la potencia pico de precisión simple de la A30 sea un tercio que la A10, el desempeño en resulta similar. En la mayoría de los workloads de HPC, lo que prima es el ancho de banda a memoria y el HBM2 se nota.

Eulogia/Modelo para armar

Eulogia está completa. Con 32 nodos operativos, se terminó de armar este rompecabezas de muchas piezas armado por muchas personas.

La puesta en funcionamiento del nodo número 7 de Eulogia (knl07) por parte del CPA-CONICET Marcos Mazzini, pone fin a un proceso de construcción de un cluster que marcó una época en el CCAD. Gestado a mediados de 2017 como el inicio del cluster que iba a reemplazar a Cristina por una fracción del costo y consumo, se fueron sumando partes y piezas.

En noviembre de 2017 ya estaba levantada una versión inicial donde también se incorporaron 8 nodos más con aportes del SNCAD. Un poco después, ya en 2018, se utilizaron fondos de PAMEG+PROMINF adjudicados a FaMAF para la compra de 4 nodos más a la firma Exxact de EEUU. En paralelo llegaron 4 nodos más que empezaron a comprarse en 2017, pero diferentes problemas hicieron que SIASA entregara en 2018, y que en realidad fueran los mismos 4 nodos que los anteriores.

Cuando Intel discontinuó el proyecto Larrabee, quedaron saldos de estos valiosos e interesantes equipos, tal como lo describe Matt Pharr en su «Elegy for Larrabee«, o Tom Forsyth en su «Why didn’t Larrabee failed?«. Carlos Bederían encontró una oferta y entre 2019 y 2020, pandemia mediante, llegaron 12 nodos más para completar Eulogia.

Todo 2020 y parte del 2021 se siguió completando la computadora. Los últimos nodos de oferta venían sin memoria, discos ni placas de red. La mayoría de las cosas se solucionó a través de compras comunitarias, una en 2020 y otra en 2021. Aun así faltaban módulos de memoria y lo más importante las placas Infiniband FDR para tener comunicación rápida y poder hacer capability computing como nos decía Tron Thomas Sterling en su CSC 7600. Los módulos de memoria restantes salieron de Proyectos Institucionales IDTyA de interés regional 2020, de la FCQ (Patricia Paredes) y FaMAF (Nicolás Wolovick).

Las placas FDR fueron otra jugada de Bederián. Compramos 11 MCX354A-FCBT reacondicionadas en MET Servers, por una fracción del costo en el mercado local.

Modelo terminado

Foto sacada en el UNC Data Center en agosto de 2021.

De arriba hacia abajo chasis con 4 nodos cada uno: cantidad, año(s) de compra, origen y modelo de procesador KNL.

  • 1* 2018: PAMEG/PROMINF FaMAF, Exxact USA, 7250.
  • 1* 2017-2018: PMT 2017, SIASA comprado a Exxact USA, 7250.
  • 3 * 2019-2020: fondos propios CCAD, oferta de Lambda Labs, 7210.
  • 2 * 2017: SNCAD, SIASA, 7210.
  • 1 * 2017: Rectorado UNC, SIASA, 7210.

El total son 32 procesadores KNL divididos en 8*7250 + 24*7210.
La potencia pico total (Rpeak) de 8*3.04 + 24*2.66 = 88.16 TFLOPS.
La potencia máxima estimada (Rmax) de 8*1.21 + 24*1.05 = 34.88 TFLOPS.

Esta foto de SLURM tomada a mediados de diciembre 2021 muestra los 32 nodos a pleno uso.

Estimamos que Eulogia estará transformando energía en cómputo hasta el 2023/24, cuando ya probablemente no tenga sentido tenerla prendida y sea reemplazada por un chasis de cuatro nodos densos dual Graviton5 de 256 núcleos cada uno.

Eulogia está terminada y marca una época, donde la única manera de crecer era de a poco, nodo a nodo, RAM a RAM, avanzando, para que la Ley de Moore no nos lleve puestos y tengamos que hacer downsizing de nuestra ciencia.