Mulatona y Eulogia reinstaladas con software nuevo

Actualizamos los clusters más viejos con el software más nuevo posible. Una segunda y última vida a Mulatona y Eulogia, que gracias a las actualizaciones mejoraron su desempeño en aplicaciones muy usadas como Quantum Espresso.

Mulatona y Eulogia son nuestros clusters más viejos. Mulatona es algo asi como modelo 2016 y Eulogia 2018. Teniendo en cuenta que los clusters empiezan a calentar más de lo que producen al cabo de 5-8 años, ambos están en el periodo final de su vida útil (EOL).

En vez de dejar que se vuelvan inoperativos por potencia de cómputo, ancho de banda a memoria y stack de software obsoleto, hicimos lo que pudimos con el capital más importante que tenemos, los recursos humanos.

En enero y febrero baja mucho la demanda computacional por las vacaciones de verano, y por eso el CPA Principal de IFEG-CONICET, Carlos Bederián, aprovechó para reinstalar de cero, primero Mulatona y luego Eulogia.

El resultado fue que Mulatona pasó a Rocky Linux release 9.1 (Blue Onyx) y eso implica un Linux kernel@5.14 y un compilador gcc@11.3.1 de base. Sobre esto y usando Spack se compiló e instaló compiladores aun más nuevos: gcc@12.2.0 intel@2021.8.0 y oneapi@2023.0.0. Mulatona, la más vieja de todas tiene el stack de sistema operativo, bibliotecas base y compiladores más nuevos de todo el CCAD. Si la Ley de Proebsting se cumple, tendremos mejoras importantes en la eficiencia del código emitido por estos compiladores.

Eulogia siempre fue/es/será un caso especial. La arquitectura KNL tiene sus bemoles, no tanto en la instalación del sistema base, sino en la elección del compilador. Intel volvió obsoleta la arquitectura Knights Landing desde agosto de 2021 para sus compiladores y GCC no emite tan buen código de máquina como Intel en KNL. Para que intel@2021 funcione se necesitaba correr en Rocky Linux release 8.7 (Green Obsidian). Aunque Bederián trabajó para que corra en Blue Onyx, no hubo caso y tuvo que volver atrás una versión. Esto implicó que Eulogia, por más que es una arquitectura dos años más joven que Mulatona, requiera de software más viejo para poder correr y más del doble de trabajo. La lección ya la conocemos: arquitecturas raras, problemas por todos lados.
De todas maneras pruebas preliminares con QE@7.1 compilado con intel@2021 muestran una mejora de entre 2x y 3x respecto a la instalación anterior.

En ambos casos se necesitaron drivers del kernel para las placas InfiniBand QDR, y aunque estas placas tienen un excelente desempeño tanto en ancho de banda como en latencia, no están soportados por ninguna distribución de Linux actual. La placa MT26428 es hardware que salió en 2010. La comunidad siempre presente, esta vez a través de El Repo, le permitió a Bederián tener drivers de las versiones de Linux kernel correspondientes para estas placas obsoletas en software, pero tremendamente útiles en sus prestaciones.

Cuando pasan estas cosas, siempre se me viene a la cabeza la viñeta que la artista Christiann Macauley publicó en su sitio Sticky Comics.

por Nicolás Wolovick, Director del CCAD-UNC

Compras de fin de año

En el CCAD no le decimos que no a nada, y a fin de año hicimos un llamado para aprovechar los restos de proyectos PICT o SeCyT-UNC.

Cerraba diciembre y ya casi sin aliento pegamos el último empujón antes de que se terminara todo. Convocamos a las usuarias y usuarios del CCAD que tuvieran algún remanente de gastos de sus proyectos para que hicieran contribuciones para el funcionamiento del Centro.

Tuvimos varios aportes:

  • Germán Soldano, FCQ-INFIQC, PICT, 5 SSD 240 GiB para booteo.
  • Federico Pont, FaMAF-IFEG, PICT, 2 SSD 240 GiB para booteo.
  • Cristian Giuppone, FaMAF-IATE, PICT, 12 Arduino nano para monitoreo de los racks.
  • Carlos Kozameh, FaMAF-IFEG, SeCyT-UNC, 2823 horas-core Eulogia.
  • Gustavo Castellano, FaMAF, SeCyT-UNC, 10000 horas-core MendietaF2.
  • Reinaldo Pis Diez, UNLP, PICT 2017-1628, 16000 horas-core MendietaF2.

Todo suma, todo sirve.

por Nicolás Wolovick, director del CCAD

Donación de Mercado Libre oficina Córdoba

La oficina Córdoba de Mercado Libre se comunicó con el Prosecretario de Informática de la UNC para contarle que tenían hardware ocioso. El CCAD tomó este ofrecimiento y se hizo de servers, firewalls y un NAS.

Tres servers Dell R720, dos firewalls Palo Alto PA-3020 y un NAS NetApp DS4246 fue el resultado de una donación de Mercado Libre al CCAD. Los aparatos tienen aproximadamente 10 años de antigüedad y funcionan correctamente. Serán utilizado para provisioning de los 4 clusters actualmente en producción.​

Agradecemos las gestiones a Jazmín Quevedo, Florencia Carcar, Ángeles Castagnino, Mauro Miskovic, Franco Oviedo y Daniel Gándara de Mercado Libre.

 

Diez Milan y ocho A10 para CCT-Rosario

Con fondos de la Provincia de Santa Fé, el CCT-Rosario compra equipamiento de HPC. Dos servidores ultradensos uno de CPU y otro de GPU, más un switch Infiniband conforman este combo que se suma al cómputo de CyT de Santa Fé.

Casi al finalizar el año, llegaron al CCT-Rosario, los equipos que se obtuvieron del concurso de la Agencia Santafesina de Ciencia, Tecnología e Innovación (Asactei) con código PEICE-2021-014. Pablo Granito y Fabio Busnengo fueron los titulares del este proyecto, que fué adjudicado a MultiTech.

Hay tres partes del equipamiento. Primero que todo un switch Infiniband exactamente igual al de Serafín, un Mellanox HDR-200. En Rosario harán el mismo aprovechamiento que nosotros utilizando los cables splitter de 1 HDR-200 a 2 HDR-100.

La segunda parte es un server BigTwin de Supermicro ultradenso conteniendo 4 nodos cada uno con:

  • 2 EPYC 7513, arquitectura Milan, de 32 núcleos y 1.33 TFLOPS.
  • 256 GiB DRAM ECC DDR4-3200, llenando los 16 canales del nodo.
  • NIC IB HDR100 conectado a PCIe 4.0 16x.
  • NVMe 256 GiB.

Los 4 nodos están en un chasis Supermicro AS-2124BT-HNTR, y totalizan 8*1.33=10.64 TFLOPS Rpeak. El Dr. Busnengo estima que han aumentado en un 50% la capacidad de cómputo en doble precisión.

Finalmente adquirieron un chasis AS-2114GT-DNR también de Supermicro que contiene dos nodos con:

  • 2 EPYC 7513, arquitectura Milan, de 32 núcleos y 1.33 TFLOPS.
  • 128 GiB DRAM ECC DDR4-3200, llenando los 16 canales del nodo.
  • NIC IB HDR100 conectada por PCIe 4.0 16x.
  • NVMe 256 GiB.
  • 4 NVIDIA A10, arquitectura Ampere GA102, con 24 GiB GDDR6 conectados por PCIe 4.0 16x. Cada una eroga 31 TFLOPS en precisión simple.

Las 8 GPUs totalizan 248 TFLOPS para cómputo de aprendizaje automático.

Tanto la solución de CPU como la de GPU tienen muy buen ancho de banda a memoria. La primera supera los 350 GiB/s por nodo a sus 256 GiB, mientras que la GPU permite un máximo de 600 GiB/s a sus 24 GiB de memoria.

Nos alegra saber y comunicar que los Centros de HPC del país siguen creciendo.

 

Nicolás Wolovick, Director del CCAD-UNC

Más GPUs para MendietaF2

Mendieta Fase 2, es la supercomputadora más vieja y más nueva del CCAD. Utilizando equipos end-of-life como base, los remozamos con placas GPU NVIDIA Ampere. Pasamos de 14 placas funcionando a 24 y en breve a 26.

7 A30, las 4 restantes ya estaban en los servers.

Las 11 placas nuevas para MendietaF2 que costaron más de 38.000 dólares estadounidenses, surgen del aporte de tres partes:

En este momento MendietaF2 ya tiene 24 placas NVIDIA A30 funcionando. Cuando terminemos de instalar las 2 restantes, completaremos una máquina con 26 GPUs totalizando 135 TFLOPS de doble precisión y 268 TFLOPS para precisión simple, el cluster GPU más grande que el CCAD haya tenido. De las 15 placas anteriores, 11 fueron compradas con fondos del PFI 2021 y 4 con fondos propios del CCAD.

Los workloads de Dinámica Molecular y de Aprendizaje Automático son los grandes beneficiados por esta máquina, que es en definitiva, la concreción de un proyecto planteado en el 2020.

Llevar adelante todo el proceso de compra e importación nos llevó 133 días y su instalación física y lógica, les llevó a Marcos Mazzini y a Marcos Tolcachir una mañana. Eso habla por un lado de la eficiencia de nuestros técnicos, y todo el trabajo previo que hizo Carlos Bederián sobre el stack de software, y por el otro lado habla de la cantidad de procesos administrativos necesarios para realizar una compra al exterior.

Marcos Mazzini y Marcos Tolcachir, colocando las dos A30 por nodo y cambiando la pasta térmica de los dos E5-2680v2.

Agradecemos a toda una cadena de apoyo que hizo posible que hoy las placas estuvieran produciendo ciencia. A SIASA LLC que nos vendió las placas en particular a Andrés S. Marcone, Sonia Alonso y Astrid Valarche; a Adriana LaGattina nuestra oficial de cuenta FedEx que hizo el pickup en EEUU; a Luciana Beladelli de la UVT de CEPROCOR que administra el PFI 2021; a Marcela Giomi y Mario Farías de ComEx-UNC encargados de ROECYT y del pago al exterior, y finalmente a Gonzalo Jaimez y Laura Grassetti del Área Económico Financiera de la PSI-UNC que llevan adelante las cuentas.

 

 

por: Nicolás Wolovick, Director del CCAD-UNC

Técnicos del CCAD en SC22 Digital Experience

Supercomputing es la conferencia #1 del mundo en temas de HPC. Se desarrolló esta semana en Dallas, EEUU. Aunque no teníamos presupuesto para que nuestros técnicos estuvieran allá, hicimos uso de la modalidad remota a fin de que ellos puedan desarrollarse técnicamente y contribuir a la comunidad.

Los CPA Profesionales del CCAD, el Lic. Carlos Bederián y el Lic. Marcos Mazzini participaron de Supercomputing que se desarrolló durante la semana.

A través de su modalidad Digital Experience Carlos y Marcos pudieron acceder a charlas, workshops, presentaciones de trabajos científicos y a una montaña de información para que ambos se mantengan actualizados sobre toda la problemática del HPC.

Este año no sólo invertimos en formación para el personal técnico, sino también en equipamiento, herramientas de trabajo y medidas de seguridad, para que estén en las mejores condiciones para realizar su trabajo. Sabemos que sin ellos, la comunidad podría computar poco o nada. Los cuidamos, son un recurso muy valioso, pero escaso.

Agradecemos especialmente a la Cra. Laura Grassetti y al Cr. Gonzalo Jaimez que hicieron lo imposible y finalmente lograron realizar el pago de la inscripción.

 

por: Nicolás Wolovick, Director del CCAD-UNC

Limpieza profunda del UNC Data Center

Se realizó una limpieza profunda en las instalaciones del CCAD para prevenir un eventual daño en los equipos . Para ello se contrataron los servicios de la empresa TA Telecomunicaciones.

Acicalando a Serafín.

Hace un tiempo que con el personal de la PSI-UNC y los miembros y técnicos del CCAD veíamos con preocupación la tierra que quedó luego de algunas terminaciones finales en el UNC Data Center. Esa tierra eventualmente vuela y pasa por los cientos de pequeñas turbinas que tienen cada uno de los servidores de la PSI y el CCAD. Nos preguntábamos ¿Se limpian los Data Centers? ¿Quién limpia los Data Centers?

La respuesta a la primera pregunta era afirmativa, pero la segunda no tenía una respuesta clara. De las consultas que pudimos hacer a otros centros de datos, el personal mismo hacía la limpieza con sus máquinas y productos. Luego de contactar a TA Telecomunicaciones que nos visitó en abril de este año y saber que ellos se encargan del mantenimiento general del data center de EPEC luego de hacer su instalación, obtuvimos un presupuesto y realizaron la tarea.

Un barrido completo del piso técnico.

Daniel Toranzo y Javier Toranzo, bajo la supervisión de los ingenieros Gabriel Balegno y Gerardo Piermattei, trabajaron una jornada y media para realizar una limpieza profunda de todo el DC. Esta incluyó el piso técnico donde había mayor concentración de tierra y algunos restos de materiales. El listado de tareas que realizaron fué:

  • Limpieza de piso técnico y aspirado bajo piso.
  • Limpieza exterior de tuberías, travesaños y puertas.
  • Limpieza de placas de piso.
  • Limpieza de placas perforadas y rejillas.
  • Limpieza exterior de servidores y equipamiento de red.
Luego del trabajo de la empresa, el UNC Data Center quedó como nuevo, o en cero, en lo que respecta a limpieza.

Se terminó aspirando todo el piso técnico inferior.

 

por Nicolás Wolovick, Director del CCAD-UNC

Nuevo NAS para el CCT-Rosario

El CCT-Rosario adquirió a la firma SIASA mediante financiamiento del SNCAD y la contrapartida de la UNR, equipamiento para mejorar las prestaciones de almacenamientos de sus clusters de HPC. Esté reemplazará y actualizará el anterior NAS que tenían operativo desde 2008 cuya capacidad era 2.7 TiB efectivos y que ya mostraba alarmas de todo tipo.

  • Chasis: Marca Supermicro
  • Mother: Supermicro H12SSL-i
  • Procesador: AMD EPYC 7513 (Zen3 cores) de 32 núcleos, con 128 GiB DDR4.
  • Discos: 6 x 12TiB SAS3 + 2 x SSD 960GiB.
  • Fuente: 2 x 960W.
La configuración del nuevo almacenamiento les permite aumentar la capacidad efectiva a 44 TiB.
En cuanto al software se utilizó TrueNAS@13.0-U2 agrupando los discos en un RAID 6 (4 discos de datos, 2 discos de paridad) con posibilidad de falla de hasta dos discos. El sistema de archivos subyacente es ZFS.
Agradecemos a Javier Rodríguez Peña y a Fabio Busnengo por la información y las fotografías.
por: Nicolás Wolovick, Director del CCAD

En los medios

 

CIMEC potencia su cluster Pirayú

Es un triunfo. Luego de obtener en 2017, el Préstamo BID AR/L 3497 Programa de Modernización de Equipamiento PME 2015-0036 con Mario Storti como Investigador Responsable, la suma de $16,910,000 pudo ser ejecutada y convertida en cómputo para atender las necesidades del CIMEC-CONICET y de toda la comunidad de Ciencia y Técnica del país.

Es un triunfo, porque a pesar de todas las dificultades del proceso, las sucesivas devaluaciones, Mario y su equipo no bajaron los brazos y el cómputo está. Tal vez eso sea lo más importante.

El equipamiento consta de 44 nodos con:

  • 2 x Intel Xeon Gold 6126, arquitectura Skylake, 6 canales de memoria.
  • 64 GiB RAM DDR4-2666 MT/s.
  • Infiniband FDR-56.

Teniendo en cuenta que cada pastilla devenga 652.8 GFLOPS, el conjunto de 88 Xeon Gold 6126 devenga una potencia pico de 57.4 TFLOPS. Esto es duplicar la potencia de Pirayú original que tenía 26 TFLOPS.

Las buenas noticias no terminan ahí, ya que gracias al PICT-E 2018-0271 de Mario Storti (CIMEC) – Paola Quaino (IQAL), se compraron 11 nodos más de marca AMD, con las siguientes características:

  • 2 x AMD EPYC 7401, architectura Zen1 (Naples), 8 canales de memoria.
  • 64 GiB DDR4-2666 MT/s, 128 GiB DDR4-2666 MT/s.
  • 1 GigE.

Con un ancho de banda a memoria más interesante, aproximadamente 150 GiB/s por procesador, el conjunto devenga una potencia pico de 8.44 TFLOPS.

Agradecemos al Dr. Luciano Garelli por toda la información y las fotos de los clusters.

 

 

por Nicolás Wolovick, Director del CCAD-UNC.

Nueva Compra Comunitaria: 25 discos 8 TiB

Esta nueva compra comunitaria habilitará un nuevo NAS para Mendieta Fase 2, que reemplazará un viejo equipo Chembro de la época de la Supercomputadora Cristina. Aportaron desde trece Proyectos de Investigación de usuarias y usuarios de todo el país.

Luego de un proceso de casi 4 meses terminó una nueva compra comunitaria del Centro de Computación de Alto Desempeño (CCAD, UNC). En este tipo de compras las y los usuarios aportan lo que pueden, en este caso, discos HDD 8 TiB, con un costo aproximado de 340 USD por unidad. Esto permite, por un lado, aumentar el sentido de pertenencia de las y los usuarios y, por el otro, eficientizar el gasto de cada uno de los pequeños subsidios individuales que cada investigadora o investigador posee. Compramos 8000 USD -o sea $1.000.000-, que sería poco menos que imposible para los flacos subsidios actuales de un Grupo de Investigación.

Jenga de 21 HDDs, por Marcos Mazzini

Se compraron 25 discos rotacionales de 8 TiB de 10000 RPM con interfaz SAS3, que serán conectados a uno de los dos JBOD  adquiridos por el Dr. Cristian Giuppone (OAC-UNC, IATE-CONICET), que están prontos a llegar.

Las y los aportantes fueron:

  • 1, Mariana Cécere, OAC-UNC, IATE-CONICET, PICT 2016-2480.
  • 4, Cecilia Giménez.
  • 8, Daniel A. García, IIBYT-CONICET,
  • 2, María Angélica Perillo.
  • 1, Orlando Vito Billoni, GTMC-FaMAF-UNC.
  • 1, Sergio Ribone, FCQ-UNC, PICT 2019-3461.
  • 1, Paola Quaino, Universidad Nacional del Litoral, PICT 2017-1342.
  • 1, Mario del Pópolo, Universidad Nacional de Cuyo, Proyectos SIIP 06/M107 y M074.
  • 1, Gustavo Belletti, Universidad Nacional del Litoral, PICT 2019-3392.
  • 1, Carlos Bederián y Nicolás Wolovick, FaMAF-UNC, Subsidio SeCyT.
  • 1, José Luis Borioni, FCQ-UNC, Subsidio SeCyT.
  • 2, María Eugenia Budén, FCQ-UNC, PICT 2021-0376.
  • 1, Emilio Donoso, ICATE-CONICET, Universidad Nacional de San Juan, Proyecto PUE22920180100059CO.

Con los 24 discos más 1 de respuesto, tendremos un almacenamiento de 192 TiB totales y 145 TiB usables, una vez que Carlos Bederián y Marcos Mazzini los instalen y configuren en RAID60.

Agradecemos la paciencia de Alejandro Jabo de Multitech, que estuvo contando disco por disco, transferencia por transferencia, para que tuviéramos estos 25 discos.

[Actualización]

Se agregó un disco, y ahora tenemos dos discos hot spare.

  • 1, Dra. Albertina Moglioni PIP0098, IQUIMEFA-CONICET y FFYB, Universidad Nacional de Buenos Aires, Proyecto PIP0098.

 

*Por Nicolás Wolovick, Director del CCAD