Volver a Cluster Mendieta (retirado)

Como Utilizarlo

>Consultar la Wiki, tiene información más detallada<

Mendieta cuenta con SLURM como sistema de manejo de recursos.

Se definen 3 particiones o colas en el uso de recursos:

  • Mono: corren en los 8 nodos fase-1 (Xeon E5-2680 v1), sin GPU, hasta 8 cores, hasta 7 días de ejecución,
  • Multi: corren en los 13 nodos fase-2 (Xeon E5-2680 v2), sin GPU, de 2 a 8 nodos, hasta 20 cores por nodo, hasta 4 días de ejecución.
  • GPU: corren en los nodos con GPU, un nodo, hasta 8 cores, al menos una GPU, hasta 7 días de ejecución.

El tiempo por defecto es de 1 día.

Las colas ordenan los trabajos pendientes por prioridad sin backfill.
La prioridad se computa a través de múltiples factores, donde el más importante es el tiempo de cómputo.

Envío de Trabajos

sbatch ./submit_job.sh

Scripts de Ejemplo

Un solo nodo, OpenMP, todos los núcleos disponibles, por 5:30 horas

#!/bin/bash
#SBATCH --job-name=program_openmp
#SBATCH --partition=mono
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=8
#SBATCH --time 0-5:30
. /etc/profile
export OMP_NUM_THREADS=8
export MKL_NUM_THREADS=8
module load gcc
srun programomp

Tres nodos MPI, todos los núcleos disponibles en el nodo, por 7 horas.

#!/bin/bash
#SBATCH --job-name=program_mpi
#SBATCH --nodes=3
#SBATCH --ntasks-per-node 20
#SBATCH --time 0-7:00
. /etc/profile
module load openmpi
srun programmpi

Un nodo, un core, una GPU, por un día.

#!/bin/bash
#SBATCH --job-name=program_gpu
#SBATCH --nodes=1
#SBATCH --gres=gpu:1
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=1
export OMP_NUM_THREADS=1
#SBATCH --time 1-0:00
. /etc/profile
module load cuda
srun programgpu

¿Cuánto estoy utilizando?

Listar todos los consumos desde el primer día de 2018, en horas/core.

sreport cluster -t hours AccountUtilizationByUser start=2018-01-01

Listar los 10 usuarios de mayor consumo en octubre 2018, en horas/core.

sreport user -t hours Topusage start=2018-10-01 end=2018-10-31