Volver a Equipamiento

Cluster Eulogia

El cluster Eulogia surge en 2017 cuando se realizan gestiones con el Rector de la UNC el Dr. Hugo Juri a fin de reemplazar la Supercomputadora Cristina, que ya presentaba una muy mala relación entre potencia de cálculo y consumo eléctrico.

El primer chasis de 2U con 4 nodos se compra a través del Rectorado y luego dos chasis más con 8 nodos a través del Sistema Nacional de Computación de Alto Desempeño (SNCAD).

Luego se agregaron los chasis #5 comprados con subsidios PAMEG-PROMINF de FaMAF-UNC y el chasis #4 comprado con el PMT2017 de SeCyT-UNC.

La fase final se compuso de tres chasis comprados en una oferta en Lambda Labs con KNL 7210, sin RAM ni SSD que fueron completados con compras comunitarias de las usuarias/os.

El total de Eulogia es de 8*4=32 nodos KNL.

Hardware

Cada módulo se compone de 4 computadoras basadas en el producto Intel Xeon Phi:

  • KNL Xeon Phi 7210/7250 + 16 GiB MCDRAM.
  • 96 GiB RAM DDR4-2400.
  • Placa madre Intel S7200AP.
  • Placa Mellanox ConnectX dual port MT26428 Infiniband QDR.

Respecto a la potencia de cálculo, cada Xeon Phi 7210 tiene un desempeño de pico teórico de 2.66 TFLOPS en doble precisión, gracias a sus 64 núcleos con SMT-4 (256 núcleos virtuales en total), y unidades vectoriales de 512 bits que soportan operaciones FMA. El Xeon Phi 7250 con sus 68 núcleos y un reloj ligeramente superior (1.4GHz en vez de 1.3GHz) eroga 3.04 TFLOPS, un 14% más.

El mix de procesadores es 8*7250 + 24*7210 y esto implica una potencia de cálculo pico doble precisión de 56.32 TFLOPS, también denominada Rpeak.
Respecto a Rmax, la potencia de cálculo medida corriendo HPL, el benchmark utilizado para rankear en TOP500, medimos un conjunto de 4 procesadores 7250 arrojando:

T/V                N    NB     P     Q               Time                 Gflops
--------------------------------------------------------------------------------
WR00C2R2      204000   336    16    16            1167.03              4.850e+03

Resultados absolutamente a la par de los obtenidos en los nodos de Stampede 2, una configuración casi idéntica a Eulogia:

the Intel S7200AP Cluster (Stampede-KNL) at the Texas Advanced Computing Center (TACC) achieves 842.9~TFLOP/s with 504 nodes, which amounts to 1.67~TFLOP/s per node.

Extrapolando esta información, el conjunto de toda Eulogia arrojaría un Rmax de alrededor de 8*1.21 + 24*1.05 = 34.88 TFLOPS.

El NAS se comparte con Serafín a través de un enlace Infiniband.

Software

Eulogia hace provisioning a los nodos utilizando Ansible sobre la distribución de Linux CentOS 7.9. El administrador de recursos es SLURM-20.11.9.

El software instalado incluye:

  • Compiladores: gcc@7.3, intel@2018
  • Bibliotecas: mkl@2018, tbb@2018, libxsmm@1.9, elpa@2017.05
  • Debugging y profiling: vtune@2018, gdb@8.2
  • Comunicación: openmpi@3.1.5
  • Simulación: QuantumESPRESSO@{6.2,6.2.1,6.7}, OpenFOAM@{6,v1812,v2006}, GROMACS@{2018.4,2019.3}, LAMMPS@{2018.03.16,2020.10.29}, NAMD@2.13, Beast@{1.10.0,1.10.4,1.10.5pre}, siesta@4.0.2, rdock@2013.1, viardo@2.2.2, dftbplus@19.1, ambertools@21.

Materiales

  • Seminario sobre KNL y su instalación en Eulogia dictado por Carlos Bederián, 20180425.