Se anunció la creación del Centro Nacional de Supercómputo

Se anunció la creación del Centro Nacional de Supercómputo y la instalación de la supercomputadora más potente del país en el Servicio Meteorológico Nacional.

El pasado 4 de octubre el Ministro de Defensa, Jorge Taiana, anunció en el 149vo. aniversario del Servicio Meteorológico Nacional, la creación del Centro Nacional de Supercómputo (CNS) que surgirá a partir de un acuerdo entre el Ministerio de Ciencia y Técnica y el Ministerio de Defensa de la Nación. En el acto estuvo presente la Directora del Servicio Meteorológico Nacional, Dra. Celeste Saulo, titular del SMN donde residirá la supercomputadora que formará parte de este Centro Nacional.

En este clip del acto por el aniversario, el Ministro Taiana hace el anuncio.

Anteriormente hubo algunos anuncios por parte del Secretario de Articulación Científico Tecnológica, el Dr. Juan Pablo Paz.

Este anuncio se cristalizó tres días después.

Se desconoce por ahora el monto total de la inversión y en que porción participará el MinCyT y el MinDef. Algunos trascendidos indican que sería el primer TOP500 de la Argentina. Al parecer el HPC empieza a ser una política de estado.

 

Supermicro muestra a Serafín como un caso de éxito

Los proveedores de Serafín fueron una tríada entre Supermicro, AMD y MultiTech. El caso fue tan importante para ellos que sacaron un whitepaper contando el caso de éxito.

Algunas apostillas del informe:

«We are glad to see how Supermicro and AMD have a strong
momentum in the R&D and HPC areas in Argentina,»
– Diego Lavalle, CEO Multitech Argentina, Supermicro local distributor.

On the AMD side with our EPYC server processor, the challenge posed
by the UNC led us to work with Supermicro and Multitech, on an HPC
platform that will deliver the best teraflop-per-dollar ratio in the market,
and also allow us to support the development of the scientific
community of Argentina and the region.
Juan Moscoso, Regional Datacenter Sales, AMD

«We knew we had a limited budget, and we also knew this was a one-in-
five-years opportunity of financial support. Supermicro and AMD
together provided us with outstanding value for the money. We bought
50% more processing power of what we originally envisioned.»
-Oscar Reula, PhD,CCAD HPC Center Director, Universidad Nacional de Córdoba.

[PDF]

El staff técnico del CCAD en «Polémica en el /var»

«Polémica en el /var» es un prestigioso programa de entrevistas a sysops/devops de Argentina. Los 3 CPA-CONICET del CCAD, Carlos Bederián, Darío Graña y Marcos Mazzini fueron los invitados en esta ocasión donde contaron que hacen y sobre todo como fué la activación de Serafín.

El pasado 10 de septiembre, se emitió en vivo el programa «Supercomputadoras, todo lo que quisiste saber» dentro del programa semanal de SysArmy la comunidad más importante de sysops/devops de Argentina.

Durante una hora y media Carlos, Darío y Marcos estuvieron hablando con @godlike64 contando la historia reciente del CCAD y pusieron foco en Serafín, nuestra nueva supercomputadora.

https://www.youtube.com/watch?v=rkK-xERMeHk

Hablaron de todas las problemáticas de mantener en funcionamiento los equipos del CCAD-UNC: eficiencia energética, eficiencia en el gasto de equipamiento TFLOPS/USD, refrigeración, red, administración de usuarios, cableado, software, clientes, calidad de servicio. También explicaron algunos malentendidos que suele tener el público en general como por ejemplo «Con 4 RTX 3090 ya hago un Serafín».

Algunos extractos imperdibles:

  • CB: «Equipo que conseguimos, equipo que se usa el 90% del tiempo por todos esos años».
  • CB: «esos 70 nodos (de Cristina) consumían unos 20 KW por unos 4 TFLOPS y Mendieta que es un cluster de 2 o 3 años más tarde con GPUs tiraba 24 TFLOPS y consumía 11 KW».
  • DG: «cuando terminamos apagando Cristina, lo reemplazamos por 3 chasis de Eulogia con 4 nodos cada uno, que eran 6KW. Ahi bajamos de 20 a 6.»
  • MM: «La lógica es exprimir al mango todo lo que se pueda, y maximizar el poder de cómputo por dólar».
  • CB: «La responsabilidad que tenemos va por ahi. Si la pagamos (a la electricidad) la pagamos todos, como empleados públicos tenemos la responsabilidad de hacer buen uso de los fondos de todos».
  • CB: «En una época tuvimos un equipo de STC2000 haciendo simulaciones de aerodinámica para mejorar sus autos».
  • CB: «El motivo por el que está todo tan alto (la posición de Serafín en los racks) es porque estos cables splitter de 200Gbps a 100Gbps son de 2mts de largo entonces es hasta donde llegue el cable».
  • MM: (respecto a lo anterior) «Nos ahorramos 50000 dólares».
  • DG: «Tenemos Infiniband en algunos casos bastante viejo andando, pero nos sigue dando mejores resultados que Ethernet, asi que le seguimos sacando el jugo».
  • DG: «Por precompilado entiéndase que lo compilan los administradores, no es que descargamos un binario ya funcionando, sino que normalmente Charlie se encarga de sacarle el jugo a esos binarios al 101% anque 110%».
  • MM: «Contamos con un manejador de paquetes, yo no puedo hacer un dnf installen la cabacera y en los nodos, queremos performance, todo lo que proveemos a los usuarios es compilado from source y también sus dependencias y también las dependencias que no son compatibles entre si de las 20 versiones de librería que se les ocurra».

Como no podía ser de otra manera, mostraron en vivo un htop de lo que estaba ejecutando el investigador en astronomía Federico Stasyszyn, en este caso tenía hace 5hs 16 nodos, donde cada uno se mostraba como abajo: 64 cores al 100%. Esto es el día a día en el CCAD.

Probamos la NVIDIA A10 en los viejos servers de Mendieta

Cuando supimos que obtuvimos el subsidio PFI2021 por $6.000.000, rápidamente adquirimos una placa NVIDIA A10 para probarla en un nodo de Mendieta para ver que todo estuviera ok antes de comprar 21 placas más.

Los nodos de Mendieta fase 2 son Supermicro 1027GR-TSF. Unos servidores dual Xeon 2680 v2, con lugar para poner 3 GPUs / XeonPhi en PCIe 3.0 de ese tiempo. Básicamente está pensado para placas Teslas m2070/75/90 K20m y K40m, placas NVIDIA de 5 generaciones atrás, y los XeonPhi de primera generación como por ejemplo los 31S1P, todos de enfriamento pasivo y conectores de power PCIe en el contrafrente.

Las placas NVIDIA A10 son de 2021, PCIe 4.0 y con una potencia de cálculo 20 veces mayor a las placas que estaban previstas para ese servidor. En estos casi 10 años muchas cosas pueden cambiar, así que decidimos adquirir una con fondos del CCAD y probar si nuestra intuición era correcta: que estas placas no homologadas para el 1027GR-TSF funcionan correctamente.

El CPA CONICET Marcos Mazzini intervino una Nabucodonosor, le retiró una GTX 1080 Ti, cambió los ventiladores para que vuelvan a estar por debajo y colocó la Tesla A10 que se muestra en la foto superior. La máquina encendió y reconoció la placa correctamente.

El investigador de CONICET Jorge Adrián Sánchez gentilmente accedió a probar entrenar sus modelos de ML en Nabu1 con la A10 y hasta ahora tiene resultados muy prometedores. En particular pudo aumentar el batch size de 32 a 128 gracias a que las A10 tienen 24 GiB contra los 11 GiB de las GTX 1080 Ti.

Vemos que la corrida está exigiendo térmicamente la A10 con una temperatura de 90C, ya que no bajamos los ventiladores a su lugar original. Gracias al DVFS de las placas NVIDIA de alta gama, se mantiene la GPU a temperatura máxima sin que resulte dañada y aun asi se obtiene un buen rendimiento de cómputo.

Otro hecho notable es la eficiencia energética. Las placas 1080 Ti consumen ~250W y las A10 ~130W, cuando resultados preliminares muestran que las A10 son al menos el doble de rápido. Esperamos cuadriplicar la eficiencia energética para la mayoría de los workloads de ML y MD que correrán en Nabucodonosor.

Objetos, historias e instituciones. El Balde.

«… tengo grabada la imagen cuando con la camiseta de la selección y balde en mano (se refiere a Antonio Russo) limpiaron la salita de Ingeniería … un Charly contagiado de entusiasmo estaba allí …»

El verano de 2016 fue casi tan difícil como el del 2015 en cuanto a lluvias estivales en Córdoba. En esos momentos el CCAD tenía en una Sala de Ingeniería, especialmente preparada, a sus dos clusters Cristina y Mendieta. La sala se acondicionó en 2010 para la llegada de Cristina, el primer cluster del CCAD y sirvió para ese propósito varios años hasta que luego de ese verano decidimos mudarnos. Por las lluvias, claro.

Ya habíamos tenido alguna filtración por el techo hacia dentro de la sala. Nada importante, pero estábamos alerta que ese enfriamiento por agua a la criolla, no destruyera el equipamiento que tanto esfuerzo y plata costó a un montón de gente. Pero un día llovió demasiado, el nivel de agua por fuera de los caños de desagüe era mayor que el nivel interno y como la sala está en el piso inferior del edificio de FCEFyN de la UNC en Ciudad Universitaria, el agua empezó a brotar del piso.

Hubo un día después y esta foto se tornó para nosotros icónica

Antonio, hace poco incorporado al CCAD como CPA Profesional, recién venido de Francia, de diseñar, licitar, instalar y operar clusters TOP500, estaba junto a sus compañeros Carlos Bederián y Darío Graña, sacando el agua y el barro de la sala. Tuvimos mucha suerte esa noche de tormenta. El nivel del agua no subió demasiado como para arruinar placas madres y conectores.

En julio se planeó la mudanza y en agosto ya se estaba haciendo. Mendieta se fué para el Datacenter de la PSI, Cristina se quedó, tal vez para ser apagada donde fue encendida.

Hoy Marcos Mazzini, cumpliendo sus funciones habituales sacó un servidor de la Sala de Ingeniería y se encontró con el balde, nuestro balde.

Hoy estamos en el flamante UNC Data Center, con todo lo que tiene que tener, pero sobre todo sin goteras y con 1.5 mts de piso técnico para que sólo otro diluvio universal pueda hacer naufragar a Serafín, Eulogia y Mulatona. Extraño objeto, que en su historia nos muestra como institución. Hoy ya lo pusimos donde tiene que estar.

Con un puñado de usuarios, se llenó Serafín

A poco de abrirse Serafín en beta-test, un puñado de usuarios llenó el cluster de trabajos, muchos de ellos de una cantidad grande de nodos. Lo que esperábamos se cumplió. Aunque Serafín tiene 3x más capacidad que todos nuestros clusters anteriores, se necesita más, mucho más. Mostramos quienes fueron, que hacen y que sensación tuvieron.

El jueves pasado el CPA Profesional Principal de CONICET, Lic. Carlos S. Bederián, pudo compilar de manera correcta OpenMPI en Serafín para que trabaje con la red Infiniband HDR de 100 Gbps y así convertir un conjunto de servidores potentes en una supercomputadora.

La mañana del viernes, el cluster mostraba este panorama.

Los 60 nodos estaban trabajando a pleno. Martín Zoloff (FCQ), Diego Masone (IHEM-CONICET), Rafael A. Jara Toro (FCQ), Fabio Negreiros Ribeiro (FCQ), Mario Agustín Sgró (OAC, IATE-CONICET) trabajando con Federico A. Stasyszyn y Dante Paz del mismo instituto.

No solo tuvimos 60 nodos a pleno y que aun siguen así, sino que además son jobs relativamente grandes. Martín Zoloff con uno de 24 nodos, Mario Agustín Sgró con uno de 8 nodos y el resto entre 3 y 4 nodos. La minoría son los de un solo nodo. Eso es una gran noticia, porque gran parte del costo de Serafín está en su red de alta velocidad que permite utilizar varios nodos como una computadora a través de MPI.

Esta no es una situación nueva, en marzo de 2018 cuando abrimos Eulogia a las y los usuarios de Mendieta, se llenó en menos de un día.

Los beta-testers resultan cruciales para comprobar tanto los sistemas de refrigeración, como para certificar que todos los sistemas de redes, cómputo y almacenamiento, tengan los parámetros e infraestructura óptima para la etapa de producción, asi los usuarios finales tienen un entorno de trabajo de alta calidad.

Hicimos una breve entrevista a algunos de los beta-testers de Serafín.

Diego Masone

CCAD: ¿Nos podés contar cuál es tu campo de estudio?
DM: Me dedico a la biología computacional, que abarca modelos matemáticos y técnicas de simulación numéricas para el estudio de sistemas biológicos, como las proteínas humanas y las membranas celulares.

CCAD: ¿Desde hace cuánto usás HPC para hacer ciencia?
DM: ¡Desde que era joven! Empecé con HPC al inicio del doctorado en el Barcelona Supercomputing Center.

CCAD: ¿Qué paquetes de software usás?
DM: GROMACS y PLUMED abarcan más del 90% de lo que hago.

CCAD: ¿Contanos cuál fue la primera impresión al hacer corridas en Serafín con toda su funcionalidad al 100%?
DM: ¡De lujo! ¡Me estoy frotando las manos! Ahora sí que va a aumentar la generación de conocimiento.

CCAD: ¿Qué tenés planeado hacer con el nuevo poder de cómputo?
DM: Vamos a estudiar el poro de fusión. Esta es la maquinaria que tiene la naturaleza para transportar moléculas entre organelas, dentro de células como las neuronas o entre espermatozoides y ovocitos. Las implicancias son importantísimas para el avance de la biomedicina en el estudio de neuropatologías y de la reproducción humana.

Martin E. Zoloff Michoff

CCAD: ¿Nos podés contar cuál es tu campo de estudio?
MZ: Estudio las propiedades de materiales activos para baterías de litio de la próxima generación a partir de cálculos de estructura electrónica de primeros principios.

CCAD: ¿Desde hace cuánto usás HPC para hacer ciencia?
MZ: HPC «en serio» hace aproximadamente 10 años, desde que entró en servicio «Cristina«.

CCAD: ¿Qué paquetes de software usás?
MZ: Principalmente Quantum Espresso, pero también Siesta, AIMD y Gaussian, todas diferentes implementaciones de la Teoría del Funcional de la Densidad Electrónica (DFT).

CCAD: ¿Contanos cuál fue la primera impresión al hacer corridas en Serafín con toda su funcionalidad al 100%?
MZ: Qué es entre 2 a 3 veces más rápido que los clusters que estaba usando hasta ahora.

CCAD: ¿Qué tenés planeado hacer con el nuevo poder de cómputo?
MZ: Dada la posibilidad de escalar a muchos más cores, tengo pensado modelar sistemas con muchos más átomos. Para los sistemas que me interesan es de crucial importancia poder incluir al solvente de manera explícita, por ejemplo, lo cual es muy costoso desde el punto de vista computacional.

Federico A. Stasyszyn

CCAD: ¿Nos podés contar cuál es tu campo de estudio?
FS: Estudio los efectos y evolución de campos magnéticos en astrofísica. En particular en cosmología.

CCAD: ¿Desde hace cuánto usás HPC para hacer ciencia?
FS: Desde mi doctorado. Justamente mi trabajo de doctorado fue la implementación de las ecuaciones de la magnetohidrodinámica en códigos cosmológicos.

CCAD: ¿Qué paquetes de software usás?
FS: La mayoría son códigos propios o desarrollados entre varios grupos internacionales, pero específicos del área (SWIFT, Gizmo, Enzo, GADGET-4, etc). En cuanto a bibliotecas comunes, son clásicas como FFTW, GSL, HDF5, METIS, etc.

CCAD: ¿Contanos cuál fue la primera impresión al hacer corridas en Serafín con toda su funcionalidad al 100%?
FS: Que actualmente estamos testeando Serafín con simulaciones que antes eran de producción. Como que se corrió la vara, aunque aún no la pude usar 100%.

CCAD: ¿Qué tenés planeado hacer con el nuevo poder de cómputo?
FS: Hay grupos de simulaciones que no pudimos completar anteriormente por falta de tiempo de computo (ya usábamos la mitad de los clusters). Pensamos en añadirles procesos astrofísicos para que sean más realistas y esperamos llegar a tener mejor estadística que con las que ya trabajamos. Asimismo, pensamos en diseñar grupos de simulaciones nuevas pensando en las resoluciones y objetos que estudian y necesitan los grupos del trabajo del OAC-IATE.

Fabio Negreiros Ribeiro

CCAD: ¿Nos podés contar cuál es tu campo de estudio?
FNR: Simulación computacional atomística de nanomateriales.

CCAD: ¿Desde hace cuánto usás HPC para hacer ciencia?
FNR: 15 años.

CCAD: ¿Qué paquetes de software usás?
FNR: Quantum Espresso, CP2K, Berkeley-GW.

CCAD: ¿Contanos cuál fue la primera impresión al hacer corridas en Serafín con toda su funcionalidad al 100%?
FNR: Muy rápido y dinámico. Nada de negativo a declarar.

CCAD: ¿Qué tenés planeado hacer con el nuevo poder de cómputo?
FNR: El nuevo cluster permitirá estudiar otras propiedades de nanomateriales, como la estabilidad estructural y las propiedades ópticas, que no podían ser analizadas en los otros HPCs. Esto permitirá una caracterización mas completa de los materiales, y por lo tanto será más fácil hacer un puente con la aplicación o conexión con la industria.

El CCAD obtuvo un PFI por $6M para actualizar Mendieta para ML y MD

El CCAD-UNC con el apoyo del Córdoba Technology Cluster y el CEPROCOR, logró un subsidio de 6.000.000 de pesos para modernizar Mendieta con GPUs de última generación y mejorar las prestaciones para aprendizaje automático (ML) y dinámica molecular (MD).

Cuando a fines de mayo Carlos Bederián apuntó a los Proyectos Federales de Inversión 2021 (PFI) del COFECYT, vimos que era una posibilidad de materializar un plan que ya teníamos desde el año pasado: actualizar Mendieta con GPUs específicas para ML y MD y así extender la experiencia de Nabucodonosor.

Rápidamente todos los actores nos alineamos, el Córdoba Technology Cluster, a través de su Presidente Pablo Gigy y la Lic. Lorena Llanes, nos ayudaron a armar la propuesta y buscar una UVT para manejar el envío y la eventual obtención del subsidio. Asi conocimos a la UVT del CEPROCOR y entramos en contacto con la Cra. Luciana Beladelli. La presentación fue apoyada también desde SeCyT-UNC por parte de la Dra. Carla Giacomelli. El Ministerio de Ciencia y Tecnología, a través del Lic. Gonzalo Valenci, brindó apoyo para que esta y todas las presentaciones que se hicieron desde Córdoba, estuvieran presupuestariamente correctas. El día 8 de julio teníamos todo presentado.

El proyecto, dirigido por el Dr. Francisco Tamarit, «Prestaciones de Computación de Alto Desempeño para Inteligencia Artificial y Dinámica Molecular» fue seleccionado esta semana y estamos elevando la documentación complementaria y poder empezar a tramitar la compra FOB.

Con este subsidio vamos a adquirir 21 placas NVIDIA Tesla A10 de 24 GiB de RAM DDR6, 31.2 TFLOPS de potencia pico float32 y 150 W TDP. Esta placa resulta notable respecto a su relación TFLOPS/$ y TFLOPS/W, sextuplicando la eficiencia energética respecto a las GTX 1080 Ti que usábamos en Nabucodonosor.

Cuando tengamos la totalidad de las placas habremos generado capacity computing por un total de 655.2 TFLOPS float32 pico, lo cual implica multiplicar por 10 la capacidad de cómputo y multiplicar por 7 la cantidad de RAM respecto a los dos nodos de Nabucodonosor. Las comunidades de Machine Learning y Molecular Dynamics se verán enormemente beneficiadas y esto implicará  más modelos y con más detalles en ambas ramas de la ciencia, que tienen una aplicación directa en desarrollos tecnológicos con impacto productivo.

Serafín y UNC Data Center, detrás de escena

Cada vez que se saca una foto aparecen dos cosas, quienes están de un lado de la lente y los que están del otro, atrás del CCD, atrás de todo lo que hizo posible sacar esa foto.

El miércoles 4 de agosto inauguramos dos cosas muy importantes para la PSI y el CCAD: el UNC Data Center y Serafín, nuestra última y más potente supercomputadora.

Este video realizado por Viviana Iglesias (PSI), a partir de fotos del proceso, muestra el enorme trabajo realizado.
Tanto el UNC Data Center como Serafín comparten algo en común, son todo lo contrario de un llave en mano. El UNC Data Center se diseñó enteramente en la UNC, cada una de sus partes, bajo requerimientos de la PSI y el CCAD, que se canalizaron a través de la Dirección de Planificación de la UNC. Todo esto llevó mucho tiempo de estudio y aprendizaje, se diseñó cada aspecto y se controló el proceso completo hasta la instalación y puesta en funcionamiento. Esto obligó a muchas licitaciones  y procesos de coordinación
Serafín corrió una suerte similar, fue un diseño propio a partir de partes del mercado, con algunas vueltas de tuerca extrañas como por ejemplo usar conectividad HDR200 para utilizarla como dos HDR100. El montaje, la configuración y la instalación, como siempre de mano del CCAD.
En resumen, todo diseño UNC.

Esta gran tarea que maximizó el poder de compra de los recursos del Estado, requiere de muchas personas involucradas, cada una aportando lo mejor de sí para lograrlo.

El viernes 13 de agosto nos juntamos a mostrar el detrás de cámara del UNC Data Center y de Serafín.

De izquierda a derecha:

  • Carla Giacomelli, Secretaria Ciencia y Tecnología de la UNC.
    Organizó el PAGE del cual salió Serafín. Nos convenció que Serafín no pase Navidad, Año Nuevo y las vacaciones de Enero en el Depósito de Aduana Córdoba, generando una copiosa deuda.
  • Patricia Paredes, integrante del directorio del CCAD por la FCQ.
    Tareas de administración, mover expedientes, organizar gente, hacer avanzar los trámites, correr QE en cualquier cosa con doble precisión.
  • Juan Pablo Pelatía, PSI.
    Trasladar equipos, rackeo, control de obra, pruebas de funcionamiento
  • Mauro Pereira, PSI.
    Traslado y armado de equipos, instalación y rackeo, control de obra, pruebas de funcionamiento
  • Guillermo Getar, PSI.
    Elaborar pliegos de especificaciones técnicas, participar de las comisiones de evaluación en las licitaciones, trasladar, armar, instalar y rackear equipos, controlar la obra, pruebas de funcionamiento, aire acondicionado, generadores, UPS, extensión de incendios.
  • Lucas Arena, PSI.
    Trasladar, armar, instalar y rackear equipos, control de obra, pruebas de funcionamiento.
  • Jorge Olmi, Dirección de Planeamiento Físico.
    Elaborar pliego de especificaciones técnicas de redes, telefonía, seguridad, cerramientos, pasillos fríos, ductos.
  • Mauro E. Bordón, Becario de FaMAF trabajando para CCAD.
    Mover e instalar equipos, cablear, reorganizar placas, ayudar en lo que se necesite.
  • Marcos Bettucci, PSI.
    Diseñar data center, red y comunicaciones. Elaborar pliegos de especificaciones técnicas, participar de las comisiones de evaluación en las licitaciones, control de obra, pruebas de funcionamiento.
  • Darío Graña, CPA CONICET por IATE.
    Instalación física, manejo de camioneta, medición con la amperiométrica, cableado, configuración de todas las computadoras de red routers.  A veces en la Puna, a veces en Barrio Observatorio.
  • Ignacio Segura, PSI.
    Configuración de redes de acceso al Data Center.
  • Fernando Menzaque, PSI.
    Orquestar casi todos los aspectos de la construcción del UNC Data Center, dirigir al personal de la PSI, para realizar sus diferentes tareas, aceitar acciones a realizar.
  • Carlos Bederián, CPA Principal CONICET por IFEG.
    Diseñar Serafín, colocar Serafín, instalar Serafín, probar Serafín. Ídem con los servidores de almacenamiento.
  • Marcela Giomi, Comercio Exterior.
    Traer a Serafín y muchísimo equipamiento más de manera segura y bajando los costos todo lo posible. La persona del ROECYT.
  • Marcos Mazzini, CPA CONICET por CCAD, Secretario Técnico del CCAD.
    Recibir paquetes, instalador de Serafín, configurador de redes y sistemas, interfaz con las y los usuarios.
  • Oscar Reula, Director del CCAD.
    Hacer de interfaz con Rectorado, con CONICET, con las y los trabajadores. Llevar papeles de acá para allá. De vez en cuando corre unos jets de agujeros negros.
  • Miguel Montes, Prosecretario de Informática.
    Hacer de interfaz con Rectorado, con la PSI, con RRHH y con ideas. Conseguir plata.

Faltó mucha más gente en la foto, que son:

  • Marcelo Mariscal, FCQ, titular del Proyecto PAGE de donde salió Serafín.
    Juntar casi 30 grupos de investigación, escribir un proyecto y no aflojarle hasta que escoltaron, junto a Oscar Reula, el vetusto Mercedes Benz 1114 que trajo Serafín a la UNC.
  • María Isabel Brunetto, Oficina de Compras, SeCyT.
    Realizar todo el proceso de la Licitación Pública Nacional de donde surge Searfín.
  • Ian Dutari, Titular de Área Planificación Institucional Estratégica en UNC.
    Ordenar las piezas con decenas de proveedores, contratistas y empresas para llevar el UNC Data Center a buen puerto.
  • Pablo Senmartin, Subsecretaría de Planeamiento Físico.
    Luchar cuerpo a cuerpo con la dirección de obra del UNC Data Center.
  • Mathias Molina Castro, PSI.
    Diseñar racks, elaborar pliegos de especificaciones técnicas, participar de las comisiones de evaluación en las licitaciones. Trasladar, armar, instalar y rackear equipos, controlar la obra, probar funcionamiento.·
  • Camilo Martínez, PSI.
    Diseñar racks, elaborar pliegos de especificaciones técnicas, participar de las comisiones de evaluación en las licitaciones. Trasladar, armar, instalar y rackear equipos, controlar la obra, probar funcionamiento.
  • Héctor Dario Barros Villagra, PSI.
    Trasladar equipos, control de obra, testear equipamiento, probar funcionamiento, rackear, controlar la obra, recibir equipos.
  • Mariano Chiappini, ex PSI.
    Diseñar datacenter, diseñar racks, elaborar pliegos de especificaciones técnicas, participar de las comisiones de evaluación en las licitaciones.
  • Miguel Brunello (QEPD), PSI.
    Diseñar datacenter, elaborar pliegos de especificaciones técnicas, participar de las comisiones de evaluación en las licitaciones.
  • Dante Paz, miembro del CCAD por el OAC.
    Bautizar el cluster, escribir el Proyecto PAGE y su plan de negocios, coordinar la búsqueda de firmas.
  • Federico Stasyszyn, miembro del CCAD por el OAC.
    Tirar simulaciones y cargar cajas con servers.
  • Mario Agustín Sgró, miembro del CCAD por el OAC. Secretario Administrativo del CCAD.
    GDE ninja, hacedor de actas, informes y planes.
  • Nicolás Wolovick, miembro del CCAD por FaMAF.
    Actualiza la página, escanea IPs buscando clusters nuevos, contacto con los vendedores de hardware, hacer remeras y pines.
  • Marcela Yorio, Aduana Córdoba.
    Hacer todos los papeles que permitieron entrar 850 Kg de equipos electrónicos en tiempo y forma entre fines de enero y principios de febrero.
  • María Laura Grassetti, contadora de la PSI y CCAD.
    Hacer la magia necesaria para que haya paz entre el fisco y nosotros. Atender pedidos de formas de pago delirantes. Saber cuanta plata tenemos (poca, siempre poca).
    Llegó un poquito tarde, pero llegó. Es la primera a la izquierda.

¿Cómo estamos con Serafín respecto al TOP500?

Actualizamos y corregimos datos de la potencia de cálculo de algunas supercomputadoras importantes de Argentina y mostramos como está Serafín respecto al TOP500.

Anteriormente publicamos, en conjunto con Antonio Russo, algunas cifras sobre la potencia de cálculo de diferentes supercomputadoras argentinas a lo largo del la historia de la computación en el país.

El año pasado Antonio en su turno en el Ciclo de Charlas del CCAD, actualizó, corrigió y completó este cuadro con la presencia de Huayra Muyu el #1 de Argentina.
Ahora agregaremos a Serafín el #2 del país, para saber nuevamente que porcentaje del último cluster del TOP500 estamos y de paso corregimos algunos detalles.

Año Nombre Modelo Rpeak Rpeak_min %Rpeak_min
1962 Clementina Ferranti Mercury 5 KFLOPS
2/2000 Clementina 2 SGI Origin 2000 (40 cores) 24 GFLOPS 35 GFLOPS 68%
2/2001 Deepblue 2 16×2×Pentium II 25 GFLOPS 62 GFLOPS 40%
2/2009 Cristina 70×2×Xeon 5420 5.6 TFLOPS 23 TFLOPS 24%
6/2010 ISAAC 144×Xeon X3220 5 TFLOPS 28 TFLOPS 18%
6/2014 Mendieta (fase 2) 14×2×Xeon 2680v2 + 12×m2090 + 8×K20 23 TFLOPS 145 TFLOPS 16%
10/2015 TUPAC 72×4×Opteron 6276 42 TFLOPS 181 TFLOPS 23%
6/2019 Huara Muyu 128×2×Xeon 6142 370 TFLOPS 1164 TFLOPS 31%
8/2021 Serafín 60×2×EPYC 7532 147 TFLOPS 1792 TFLOPS 8.2%

La última columna es la más importante y refleja que porcentaje es el Rpeak de la máquina (potencia teórica de cálculo) respecto al mínimo Rpeak del ranking TOP500 al momento que la máquina entró en producción.
Las cifras no muestran un avance claro y dejan bastante en blanco sobre negro como se hacen inversiones esporádicas que parecería que van a torcer la tendencia, pero son picos transitorios.

El país necesita una inversión sostenida en HPC, más allá del hecho simbólicamente importante de poner por primera vez una computadora adquirida por el Estado Nacional en el TOP500.

Apagado y mudanza de Mulatona y Eulogia

En el marco de la puesta en funcionamiento de los equipos del CCAD en el nuevo UNC Data Center, esta semana se mudaron Mulatona y Eulogia, asi como servidores de archivos, de instalación y nodos frontales.

El lunes pasado se inició la mudanza de Multatona, Eulogia, los NAS, los servers de provisioning y el headnode. Todo este equipamiento estaba en el DataCenter de la Prosecretaría de Informática (PSI) de la UNC y ahora está localizado en el nuevo UNC Data Center.

Los dos cluster se suman a Serafín que ya está instalado entre los 7 racks que el CCAD tiene asignado allí. Acá vemos una panorámica de como está nuestra sección.

Eulogia y Mulatona comparten ahora un rack. Y los NAS, tanto el viejo y querido Chenbro que data de la compra del Cluster Cristina en 2010, así como los dos nuevos NAS que compramos estos últimos años y donde la mitad de los discos fue una compra comunitaria de las y los usuarios.

       

Mientras tanto en el Datacenter de la PSI, se queda solo Mendieta y muchos lugares vacíos.

Mendieta aunque está completamente end-of-life, estamos buscando subsidios para extender aun más su vida útil y transformarlo en computadoras del tipo de Nabucodonosor, con mucha potencia de cálculo float32 en base a GPUs que servirá tanto para aprendizaje automático como para dinámica molecular.