Volver a Equipamiento

Cluster Serafín

Serafín son 60 nodos de cálculo en 15 chasis Server Supermicro AS-2124BT-HTR de 2U con un total de 120 AMD EPYC 7532 de 32 núcleos cada uno. La potencia pico es de 147 TFLOPS (Rpeak float64) y una potencia máxima estimada en 130 TFLOPS (Rmax float64).

Serafín surge del PAGE (Programa de Adquisición de Grandes Equipos), un concurso de proyectos de la UNC, donde la propuesta de Serafín salió con el puntaje más alto de la convocatoria 2019. Este Programa cuyo titular es el Dr. Marcelo Mariscal de FCQ, involucra 40 proyectos de investigación y 119 investigadores, colaboradores, becarios y personal técnico.

Cada nodo incluye:

  • 2 AMD EPYC 7532 de 200W con 32 núcleos de micro arquitectura Zen2.
  • 128 GiB de RAM DDR4-3200, dispuestos en 16 módulos de 8 GiB para completar los 8+8 canales de memoria que disponen los dos procesadores.
  • Placa de red Infiniband HDR100, NVIDIA MCX653105A-ECAT-SP ConnectX-6.
  • Almacenamiento SSD NVME M.2 Samsung PM983 de 1.92TB con una durabilidad de 1.3 DWPD.

El resto del equipamiento incluye:

  • 1 server Supermicro AS-1114S-WTRT: nodo cabecera con un AMD EPYC 7532 y 64 GiB de RAM.
  • 1 switch Mellanox MQM8790-HS2F: 40 puertos no-bloqueante HDR 200 Gbps, utilizado como switch de 80 puertos HDR 100 Gbps.
  • 1 switch Supermicro SSE-G2252: 48 puertos no-bloqueantes 1 GigE, con 4 puertos SFP 1G.
  • 33 cables Mellanox CMP7H50-H002R26: cable InfiniBand que parte HDR 200Gb/s a 2x100Gb/s, con un conector QSFP56 en una punta y dos QSFP56 en la otra.
  • 130 cables Supermicro CBL-C6-BL13FT: cables de 10 GigE CAT6 de 4 mts.
  • 7 PDU AP7553: conector de electricidad de 230V y 32A, con 20 conectores C13 y 4 conectores C19.
  • Algunas partes de repuesto: una motherboard, dos fuentes, cuatro módulos de RAM, discos, y ventiladores.

El cluster completo

Foto de Marcos Mazzini

Potencia de Cálculo

Rpeak = nodes*pkgs*cores*FPUs*SIMDwidth*OpsCycle*Freq = 60*2*32*2*4*2*2.4 = 147456.0 = 147.456 TFLOPS
Rmax de un nodo: 2.2 TFLOPS con AMD-HPL+MKL+aocc.
Rmax: aun no medido, se estima en 2.2*60 = 132 TFLOPS.

Software de Base

Sistema Operativo: Rocky Linux 8.8, con Linux Kernel 4.18
Sistema de archivos distribuído: BeeGFS 7.3.4
Despliegue: Ansible 2.9.23
Administrador de recursos: SLURM 22.05.6
Administrador de paquetes: Spack 0.20
Drivers Infiniband: knem 1.1.4.90, OFED 5.1.2
Administrador de módulos: Modules 5.1.1

Paquetes de Software de Aplicación

Compiladores: gcc@12.3.0, aocc@4.1.0
Comunicación: ompi@4.1.6, hpcx@2.9.0
Debuggers, profilers: gdb@12.3.0, vtune@2021.6.0
Química clásica y cuántica: gromacs@2023.2, lammps@20230802, nwchem@7.2.0, quantum-espresso@7.2
CFD: openfoam@2306.

Actualización de Memoria

En agosto 2023, los nodos [1-43] se actualizaron a 256 GiB por problemas de fabricación de los chips de Hynix.

Pertenencia a Sistemas Nacionales

El 2 de noviembre de 2021 con ID 311 correspondiente al Centro de Computación de Alto Desempeño (CCAD) UNC, se otorgó ingreso al SNCAD a Serafín con ID Equipo 1461 y la descripción: «Serafín» 60 nodos / 64 cores por nodo.

Notas