¡Nuevo NAS!

Dante Paz y Federico Stasyszyn sacando uno de los NAS de su caja.

El viejo NAS con un chasis de 9U Chenbro RM91250 remozado en 2016 con dos Xeon E5-2620v3 y 64 GiB de RAM que fuera originalmente comprado para Cristina en 2010, consiguió finalmente un apoyo para almacenar los datos de los usuarios del CCAD-UNC.

El financiamiento fue provisto en dos terceras partes por la UNC y el tercio restante fue asignado en 2016 por parte del SNCAD. Como siempre la compra estuvo plagada de problemas y luego de declarar desierto el concurso de precios en varias oportunidades accedimos por parte del SNCAD a la posibilidad de una compra directa en noviembre del año pasado. Transcurrieron cinco meses hasta obtener los fondos del ex-MinCyT y poder finalizar la compra.

 

El equipamiento son dos servidores de archivos idénticos con las siguientes características técnicas:

El espacio para los 48 discos que serán ocupados por una mezcla entre los discos de 4 TiB intercambiados con DF@UBA que recibimos hace un mes y los discos de 8 TiB de compra comunitaria que hicimos a fin del año pasado.

Se espera que luego de las vacaciones de julio esté activo, a fin de mejorar la velocidad de los home y de la partición scratch.

El CPA Darío Graña en Barcelona

Darío Graña, uno de los tres CPA-CONICET trabajando en el CCAD-UNC, está en una estancia de trabajo en Barcelona, España.
Su lugar de trabajo es Instituto de Ciencias del Espacio (ICECSIC) a través del programa LACEGAL, y sus tareas diarias se desarrollan en el PIC.
Actualmente está trabajando en un algoritmo para calcular la función de correlación de galaxias sobre grandes volúmenes de datos, obtenidos a partir de observaciones y también simulaciones. Las herramientas utilizadas son Hadoop y la biblioteca TreeCorr. El objetivo es realizar el cálculo de la función de manera distribuida, utilizando distintos tipos de coordenadas que varían de acuerdo a los datos.
Este intercambio ha sido posible gracias al Instituto de Astronomía Teórica y Experimental (IATECONICET) donde Darío tiene radicado su cargo de CPA, que forma parte como uno de los nodos de LACEGAL. La estancia tiene una duración total de tres meses.

Eulogia suma 10 TFLOPS

Aunque parezca mentira, hace minutos al ejecutar la lista de trabajos pendientes tenemos 4 nuevos KNLs 7250 en Eulogia.

$ squeue -a
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
...
8509 soporte xhpl build R 24:16 4 knl[17-20]

Esta es la conclusión de un larguísimo proceso de compra que empezó a fines de 2017 con la adjudicación de un PMT de $300.000 de la SeCyT-UNC para la compra de un nodo más para Eulogia. En este año y medio, los fondos perdieron la mitad de su poder adquisitivo, el ROECYT se venció, tuvimos innumerables problemas para que el SNCAD desenbolse un remanente de dinero que había quedado para gastar; además de tener que buscar nosotros mismos quien nos provea del equipamiento, ya que con la demora, el proveedor adjudicado solo podía encontrar KNMs, luego de que Intel discontinuara toda la línea Xeon Phi a mediados de 2018.

Con este agregado Eulogia ahora cuenta con 5 unidades de 2U de altura, cada una con 4 nodos KNL, totalizando más de 50 TFLOPS Rpeak de potencia de cálculo pico en doble precisión.
La medición del nuevo nodo de 4 KNLs arroja 4.85 TFLOPS, lo cual implica que en conjunto tenemos 24.25 TFLOPS Rmax. Recordemos que la computadora más lenta del Top500 11/2018 tiene 36 veces más potencia que Eulogia, nuestra computadora más potente.

T/V                N    NB     P     Q               Time                 Gflops
--------------------------------------------------------------------------------
WR00C2R2      204000   336    16    16            1167.03              4.850e+03

Estimamos que luego de las pruebas, y conociendo la cantidad de trabajos encolados que hay en espera, estos 4 nuevos procesadores se ocuparán instantáneamente.

Actualización

Se ocupó instantáneamente. Ver lado derecho del gráfico de utilización.

UNC y UBA intercambian partes para mantener infraestructura de HPC

¿Qué hacer cuando no hay plata para comprar más figuritas y querés completar el álbum? Una estrategia posible es intercambiar con otros, lo que para unos es una «repe» para otros es necesaria y viceversa.

En abril de este año los técnicos que mantienen los clusters del DF@UBA, Roberto Dhios, y los clusters del CCAD-UNC, Carlos Bederián, entran en contacto para intercambiar partes. Por un lado el Departamento de Física de UBA había recibido la donación de servidores y discos y el Centro de Computación de Alto Desempeño tenía también producto de una donación, placas y switches Infiniband. Dirac necesitaba mejorar su red y Mendieta, Mulatona y Eulogia necesitaban ampliar un poco su viejo NAS que data de la época de Cristina.

El viernes 31 de mayo se produjo el intercambio. Martín Santos, encargado del hardware del DF, vino de CABA con su auto y trajo infraestructura de almacenamiento:

llevándose a su regreso infraestructura Infiniband DDR:

  • 1 switch Flextronics FX-430073.
  • 33 adaptadores Mellanox MHGS18-XTC.
  • 33 cables Mellanox MCC4L30-002.

 

El resultado del intercambio será provechoso para ambas partes, aunque los discos sean de 2012 y la red de 2005.
El DF@UBA migrará Dirac de gigabit Ethernet que es rápida, pero de alta latencia, a una red Infiniband, que aunque tiene más de 12 años de antigüedad, su prestaciones para el cálculo distribuido son muy superiores gracias a su baja latencia.
Nosotros, en el CCAD-UNC podremos aumentar la capacidad de almacenamiento de nuestro NAS compuesto de 9 Western Digital WD40EFRX-68WT0N0 de 4 TiB y 6 WD WD10EADS-65M2B0 de 1 TiB, pasando de 42 TiB de almacenamiento crudo a 120 TiB de almacenamiento crudo.

Seguimos buscando formas de mantenernos productivos y no tan desactualizados.
Tal vez este sea un tip más para agregar en el artículo de Nature «Seven ways scientists handle technology challenges in resource-poor settings«. Esperemos que sea el último.

Actualización 30 agosto 2019

Las placas IB DDR ya están instaladas en Dirac@DF.UBA y con buenos resultados: ancho de banda TCP/IP de 1.1 GiB/s, latencia de 16.6 µs y un ancho de banda de BeeGFS efectivo de 844 MiB/s.
Todo esto representa una mejora importante para este cluster hecho prácticamente todo de deshechos.