Los tres grandes problemas del HPC son dos, el metadata server

El sistema de archivos de Serafín fue actualizado en hardware y en software. Más capacidad de SSD para metadatos, nuevos procesadores, nueva placa de comunicaciones y actualizaciones de software. Te contamos de que se trata.

¿Para que tener mucho cómputo si el almacenamiento tiene mucha latencia o poco ancho de banda? ¿Y si te decimos el sistema de archivos subyacente tiene un bug que puede corromper toda la estructura de datos del disco? Da pena y miedo a la vez. Los CPA del IFEG (Bederián, Mazzini) y del CIEM (Silva, Schachner) que trabajan en el CCAD se lo tomaron seriamente.

A mediados de noviembre apareció un bug horrible de ZFS, tal vez el peor de los escenarios, una secuencia de comandos o llamadas a sistema podría potencialmente corromper toda la estructura lógica del disco y perder datos. La comunidad rápidamente trabajó y a principios de noviembre ya había parches para ZFS 2.1.4, la versión que usamos por debajo de BeeGFS para el servidor de archivos de Serafín.

En septiembre, un usuario de OpenFOAM generó tantos archivos pequeños que el metadataserver se llenó, es decir, había espacio en los discos de datos, pero no en los discos que almacenan los metadatos. Luego de hacer un escaneo de las y los más consumidores de i-nodos obtuvimos el siguiente Top-10 debidamente anonimizado.

17.96M user1
6.18M user2
5.69M user3
3.97M user4
3.08M user5
2.72M user6
2.47M user7
1.90M user8
1.53M user9

El user0, el que más usaba, no pudo ser listado, aunque Carlos Bederián calculó «un output de OpenFOAM con 9 archivos pequeños + 3 directorios * 64 procesadores * 259000 time steps son ~200M i-nodos«.
Para solucionar esto se compraron 3 Intel Optane 900D de 280 GiB cada uno y se re-compiló OpenFOAM con la opción -fileHandler collated por defecto, hasta poder agregar los discos.

Desde el jueves pasado hasta hoy ser realizaron varias tareas para aliviar el cuello de botella en capacidad, latencia y ancho de banda que estaba poniendo el metadataserver de BeeGFS:

  • Agregado de un Optane 900D (quedan 2 de repuesto).
  • Mejora de placa Infiniband a una de 100 Gbps.
  • Cambio de procesadores, salieron dos pastillas de E5-2680v1 y pusieron dos E5-2690v2.
  • Actualizar la versión de ZFS por el bug.

El metadataserver está en orden. Felices fiestas.

Nicolás Wolovick
Director del CCAD