El cluster Eulogia surge en 2017 cuando se realizan gestiones con el Rector de la UNC el Dr. Hugo Juri a fin de reemplazar la Supercomputadora Cristina, que ya presentaba una muy mala relación entre potencia de cálculo y consumo eléctrico.
El primer chasis de 2U con 4 nodos se compra a través del Rectorado y luego dos chasis más con 8 nodos a través del Sistema Nacional de Computación de Alto Desempeño (SNCAD).
Luego se agregaron los chasis #5 comprados con subsidios PAMEG-PROMINF de FaMAF-UNC y el chasis #4 comprado con el PMT2017 de SeCyT-UNC.
La fase final se compuso de tres chasis comprados en una oferta en Lambda Labs con KNL 7210, sin RAM ni SSD que fueron completados con compras comunitarias de las usuarias/os.
El total de Eulogia es de 8*4=32 nodos KNL.
Hardware
Cada módulo se compone de 4 computadoras basadas en el producto Intel Xeon Phi:
- KNL Xeon Phi 7210/7250 + 16 GiB MCDRAM.
- 96 GiB RAM DDR4-2400.
- Placa madre Intel S7200AP.
- Placa Mellanox ConnectX dual port MT26428 Infiniband QDR.
Respecto a la potencia de cálculo, cada Xeon Phi 7210 tiene un desempeño de pico teórico de 2.66 TFLOPS en doble precisión, gracias a sus 64 núcleos con SMT-4 (256 núcleos virtuales en total), y unidades vectoriales de 512 bits que soportan operaciones FMA. El Xeon Phi 7250 con sus 68 núcleos y un reloj ligeramente superior (1.4GHz en vez de 1.3GHz) eroga 3.04 TFLOPS, un 14% más.
El mix de procesadores es 8*7250 + 24*7210 y esto implica una potencia de cálculo pico doble precisión de 56.32 TFLOPS, también denominada Rpeak.
Respecto a Rmax, la potencia de cálculo medida corriendo HPL, el benchmark utilizado para rankear en TOP500, medimos un conjunto de 4 procesadores 7250 arrojando:
T/V N NB P Q Time Gflops -------------------------------------------------------------------------------- WR00C2R2 204000 336 16 16 1167.03 4.850e+03
Resultados absolutamente a la par de los obtenidos en los nodos de Stampede 2, una configuración casi idéntica a Eulogia:
the Intel S7200AP Cluster (Stampede-KNL) at the Texas Advanced Computing Center (TACC) achieves 842.9~TFLOP/s with 504 nodes, which amounts to 1.67~TFLOP/s per node.
Extrapolando esta información, el conjunto de toda Eulogia arrojaría un Rmax de alrededor de 8*1.21 + 24*1.05 = 34.88 TFLOPS.
El NAS se comparte con Serafín a través de un enlace Infiniband.
Software
Eulogia hace provisioning a los nodos utilizando Ansible sobre la distribución de Linux CentOS 7.9. El administrador de recursos es SLURM-20.11.9.
El software instalado incluye:
- Compiladores: gcc@7.3, intel@2018
- Bibliotecas: mkl@2018, tbb@2018, libxsmm@1.9, elpa@2017.05
- Debugging y profiling: vtune@2018, gdb@8.2
- Comunicación: openmpi@3.1.5
- Simulación: QuantumESPRESSO@{6.2,6.2.1,6.7}, OpenFOAM@{6,v1812,v2006}, GROMACS@{2018.4,2019.3}, LAMMPS@{2018.03.16,2020.10.29}, NAMD@2.13, Beast@{1.10.0,1.10.4,1.10.5pre}, siesta@4.0.2, rdock@2013.1, viardo@2.2.2, dftbplus@19.1, ambertools@21.
Materiales
- Seminario sobre KNL y su instalación en Eulogia dictado por Carlos Bederián, 20180425.