Llegaron las placas NVIDIA A30 del PFI

Llegaron las GPUs para modernizar Mendieta. Empieza la transformación a Nabucodonosor. Son 11 NVIDIA A30 que fueron compradas con el 70% del subsidio PFI que obtuvimos en septiembre. Su relación desempeño/precio es excelente. Funcionan perfectamente en un servidor que estaba homologado para tarjetas de hace cuatro generaciones.

Cuando presentamos el proyecto PFI dirigido por el Dr. Francisco Tamarit, se pensó en comprar 21 placas aceleradoras NVIDIA A10. El subsidio se obtuvo en septiembre, por un total de 6M ARS. Con un desembolso del 70% en una primera fase y el 30% restante al completar la primera, esperábamos comprar 18 NVIDIA A10, con unos 4M ARS.

«No hay A10»

El 12 de diciembre, el Gobierno Nacional depositó los ~4M ARS, y la situación se había modificado, no por el tipo de cambio, sino por la escasez de chips. La línea A10, A30, A40 y la minera CMP 170HX presentan una relación desempeño/precio y desempeño/consumo asombrosas para diversos tipos de workloads, desde dinámica molecular a minado de criptomonedas. En definitiva no había A10, pero si A30.

Con un precio 30% superior por unidad, obteníamos según los benchmarks de NVIDIA, un 30% más de rendimiento en BERT-LARGE y ResNet50, dos workloads representativos de lo que se hace en ML dentro de la UNC.

La comparativa de las placas es la siguiente

    Slots PCIePow  Pow         Proc   BW fp32 fp64 
A10     1    8pin 150W GA102-890-A1  600   31  0.9
A30     2    8pin 165W       GA-100  933   10  5.1

A grosso modo una A30 es media A100 y una A10 es una RTX 3080 Ti. Perdíamos 60% de la potencia de cálculo de precisión simple, pero ganábamos un 50% de ancho de banda a memoria. ¿Qué era lo más importante?
Como ya sabíamos que las A10 funcionaban en los viejos Supermicro 1027GR-TSF, podíamos estar casi seguros que las A30 también lo harían.

Llegan once A30

Con los 4M ARS rápidamente compramos 11 placas PNY A30 y el día de ayer el CPA CONICET Marcos Mazzini, las recibió, desempacó y colocó una en Nabucodonosor. Queríamos saber que pasaba.

¡Funcionan!

Marcos corrió nvidia-smi y allí estaba. Nabu se transformó en una mezcla de placas, un pequeño lab para probar rendimiento in-situ.

Marcos probó GROMACS 2020.2, Jorge Sánchez aprendizaje automático para su investigación actual, y Nicolás Wolovick cuánto hashrate de ETH se obtiene con Phoenix Miner 5.6d que soporta arquitectura Ampere.

      1080Ti        A10        A30
MD   ?? ns/day  267 ns/day   268 ns/day
ML   32 m/iter   25 m/iter    17 m/iter
ETH  32 MH/s     27 MH/s     103 MH/s

En definitiva, compramos once placas que no solo van bien como las A10, en workloads de ML son 47% más rápidas. Resulta notable como, aunque el la potencia pico de precisión simple de la A30 sea un tercio que la A10, el desempeño en resulta similar. En la mayoría de los workloads de HPC, lo que prima es el ancho de banda a memoria y el HBM2 se nota.