>Consultar la Wiki, tiene información más detallada<
Mendieta cuenta con SLURM como sistema de manejo de recursos.
Se definen 3 particiones o colas en el uso de recursos:
- Mono: corren en los 8 nodos fase-1 (Xeon E5-2680 v1), sin GPU, hasta 8 cores, hasta 7 días de ejecución,
- Multi: corren en los 13 nodos fase-2 (Xeon E5-2680 v2), sin GPU, de 2 a 8 nodos, hasta 20 cores por nodo, hasta 4 días de ejecución.
- GPU: corren en los nodos con GPU, un nodo, hasta 8 cores, al menos una GPU, hasta 7 días de ejecución.
El tiempo por defecto es de 1 día.
Las colas ordenan los trabajos pendientes por prioridad sin backfill.
La prioridad se computa a través de múltiples factores, donde el más importante es el tiempo de cómputo.
Envío de Trabajos
sbatch ./submit_job.sh
Scripts de Ejemplo
Un solo nodo, OpenMP, todos los núcleos disponibles, por 5:30 horas
#!/bin/bash #SBATCH --job-name=program_openmp #SBATCH --partition=mono #SBATCH --ntasks=1 #SBATCH --cpus-per-task=8 #SBATCH --time 0-5:30 . /etc/profile export OMP_NUM_THREADS=8 export MKL_NUM_THREADS=8 module load gcc srun programomp
Tres nodos MPI, todos los núcleos disponibles en el nodo, por 7 horas.
#!/bin/bash #SBATCH --job-name=program_mpi #SBATCH --nodes=3 #SBATCH --ntasks-per-node 20 #SBATCH --time 0-7:00 . /etc/profile module load openmpi srun programmpi
Un nodo, un core, una GPU, por un día.
#!/bin/bash #SBATCH --job-name=program_gpu #SBATCH --nodes=1 #SBATCH --gres=gpu:1 #SBATCH --ntasks-per-node=1 #SBATCH --cpus-per-task=1 export OMP_NUM_THREADS=1 #SBATCH --time 1-0:00 . /etc/profile module load cuda srun programgpu
¿Cuánto estoy utilizando?
Listar todos los consumos desde el primer día de 2018, en horas/core.
sreport cluster -t hours AccountUtilizationByUser start=2018-01-01
Listar los 10 usuarios de mayor consumo en octubre 2018, en horas/core.
sreport user -t hours Topusage start=2018-10-01 end=2018-10-31