Como Utilizarlo

Mendieta cuenta con SLURM como sistema de manejo de recursos.

Se definen 3 particiones o colas en el uso de recursos:

  • Capacity: corren en los 8 nodos originales (Xeon E5-2680), sin GPU, hasta 16 cores, hasta 4 días,
  • Capability: corren en los 14 nodos nuevos (Xeon E5-2680 v2), sin GPU, al menos dos nodos, hasta 8 nodos, hasta 18 cores por nodo, hasta 4 días.
  • GPU: corren en los nodos con GPU, al menos una GPU, sin restricciones de cores, hasta 7 días.

El tiempo por defecto es de 1 día.

Las colas ordenan los trabajos pendientes por prioridad sin backfill.
La prioridad se computa a través de múltiples factores, donde el más importante es el tiempo de cómputo.

Envío de Trabajos

 sbatch ./submit_job.sh 

Scripts de Ejemplo

Un solo nodo, OpenMP, todos los núcleos disponibles, por 5:30 horas

	#!/bin/bash
	#SBATCH --job-name=program_openmp
	#SBATCH --partition=capacity
	#SBATCH --ntasks=1
	#SBATCH --cpus-per-task=16
	#SBATCH --gres=gpu:0
	#SBATCH --time 0-5:30
	. /etc/profile
	export OMP_NUM_THREADS=16
	export MKL_NUM_THREADS=16
	module load libs/openblas/0.2.14-gcc_4.9.2
	srun program

Tres nodos MPI, todos los núcleos disponibles en el nodo, por 7 horas.

	#!/bin/bash
	#SBATCH --job-name=program_mpi
	#SBATCH --nodes=3
	#SBATCH --ntasks-per-node 18
	#SBATCH --time 0-7:00
	. /etc/profile
	module load mpi/openmpi/1.8.4-gcc_4.9.2
	srun program

Un nodo, un core, una GPU, por un día.

	#!/bin/bash
	#SBATCH --job-name=program_gpu
	#SBATCH --nodes=1
	#SBATCH --gres=gpu:1
	#SBATCH --ntasks-per-node=1
	#SBATCH --cpus-per-task=1
	export OMP_NUM_THREADS=1
	#SBATCH --time 1-0:00
	. /etc/profile
	module load cuda/7.0
	srun program_gpu

¿Cuánto estoy consumiento?

Listar todos los consumos desde el primer día de 2013, en minutos de CPU.

 sreport cluster AccountUtilizationByUser start=2013-01-01 

Listar los 10 usuarios de mayor consumo en Octubre 2014, en minutos de CPU.

 sreport user Topusage start=2014-10-01 end=2014-10-31 

Errores comunes

–ToDo–