Llegaron las GPUs para modernizar Mendieta. Empieza la transformación a Nabucodonosor. Son 11 NVIDIA A30 que fueron compradas con el 70% del subsidio PFI que obtuvimos en septiembre. Su relación desempeño/precio es excelente. Funcionan perfectamente en un servidor que estaba homologado para tarjetas de hace cuatro generaciones.
Cuando presentamos el proyecto PFI dirigido por el Dr. Francisco Tamarit, se pensó en comprar 21 placas aceleradoras NVIDIA A10. El subsidio se obtuvo en septiembre, por un total de 6M ARS. Con un desembolso del 70% en una primera fase y el 30% restante al completar la primera, esperábamos comprar 18 NVIDIA A10, con unos 4M ARS.
«No hay A10»
El 12 de diciembre, el Gobierno Nacional depositó los ~4M ARS, y la situación se había modificado, no por el tipo de cambio, sino por la escasez de chips. La línea A10, A30, A40 y la minera CMP 170HX presentan una relación desempeño/precio y desempeño/consumo asombrosas para diversos tipos de workloads, desde dinámica molecular a minado de criptomonedas. En definitiva no había A10, pero si A30.
Con un precio 30% superior por unidad, obteníamos según los benchmarks de NVIDIA, un 30% más de rendimiento en BERT-LARGE y ResNet50, dos workloads representativos de lo que se hace en ML dentro de la UNC.
La comparativa de las placas es la siguiente
Slots PCIePow Pow Proc BW fp32 fp64 A10 1 8pin 150W GA102-890-A1 600 31 0.9 A30 2 8pin 165W GA-100 933 10 5.1
A grosso modo una A30 es media A100 y una A10 es una RTX 3080 Ti. Perdíamos 60% de la potencia de cálculo de precisión simple, pero ganábamos un 50% de ancho de banda a memoria. ¿Qué era lo más importante?
Como ya sabíamos que las A10 funcionaban en los viejos Supermicro 1027GR-TSF, podíamos estar casi seguros que las A30 también lo harían.
Llegan once A30
Con los 4M ARS rápidamente compramos 11 placas PNY A30 y el día de ayer el CPA CONICET Marcos Mazzini, las recibió, desempacó y colocó una en Nabucodonosor. Queríamos saber que pasaba.
¡Funcionan!
Marcos corrió nvidia-smi
y allí estaba. Nabu se transformó en una mezcla de placas, un pequeño lab para probar rendimiento in-situ.
Marcos probó GROMACS 2020.2, Jorge Sánchez aprendizaje automático para su investigación actual, y Nicolás Wolovick cuánto hashrate de ETH se obtiene con Phoenix Miner 5.6d que soporta arquitectura Ampere.
1080Ti A10 A30 MD ?? ns/day 267 ns/day 268 ns/day ML 32 m/iter 25 m/iter 17 m/iter ETH 32 MH/s 27 MH/s 103 MH/s
En definitiva, compramos once placas que no solo van bien como las A10, en workloads de ML son 47% más rápidas. Resulta notable como, aunque el la potencia pico de precisión simple de la A30 sea un tercio que la A10, el desempeño en resulta similar. En la mayoría de los workloads de HPC, lo que prima es el ancho de banda a memoria y el HBM2 se nota.