Charla abierta «Accediendo al CCAD»

Este miércoles 20 de Abril, de 15:30 a 18:30 Marcos Mazzini del CCAD dará una charla inicial e introductoria para quienes nunca han utilizado un cluster de cómputo o sistemas LINUX, en el marco de las «Friends of Friends Hybrid Meeting 2022» organizado por el Observatorio Astronómico de Córdoba (OAC, UNC). La participación es abierta y será presencial o remota.
Temas:
Fundamentos básicos de Linux
Iniciación en el uso de la consola, conexión a un sistema remoto y uso del sistema de colas
Shell, comandos, filesystem, procesos, conexion SSH, sistema de colas SLURM.
Requisitos: No es necesario experiencia previa con sistemas Linux
Inscripciones en la página N° 7 del formulario

El CCAD recibió la visita de la Universidad Nacional de Hurlingham

Fue en el marco de un proyecto de vinculación entre el Instituto de Tecnología e Ingeniería de la UNAHUR y el Centro de Cómputos de Alto Desempeño de la UNC


El pasado jueves 31 de marzo, un equipo del Instituto de Tecnología e Ingeniería de la Universidad Nacional de Hurlingham visitó Córdoba para conocer en profundidad los Data Centers del CCAD de la Universidad Nacional de Córdoba y de la Empresa Provincial de Energía de Córdoba (EPEC). Visitar dichos centros, modernos y de alta capacidad, les permitió interiorizarse sobre algunos aspectos de la instalación de Cómputo de Alto Desempeño, como parte de un proyecto de vinculación tecnológica.

Participaron del encuentro Carlos Bederián del CCAD-UNC; Mathias Molina de la UNC; Gustavo Medrano, Director del Instituto de Tecnología e Ingeniería y Fernando Puricelli, Director de Tecnicatura Universitaria y Licenciatura en Informática, ambos de la UNAHUR; Adolfo Ivan Lelli y Sonia Dona de EPEC; Javier Proyector, ex-alumno FaMAF-UNC, Presidente de TA Telecomunicaciones y Gerardo Piermattei, Ignacio Arrieta y Gabriel Balegno, de TA Telecomunicaciones.

Reunión Virtual Abierta de Usuarios CCAD

El próximo lunes 4 de abril, a las 10 hs, se llevará a cabo la Reunión Virtual Abierta de Usuarios CCAD, destinada a usuarios/as actuales y potenciales. Para participar, deben inscribirse previamente en el siguiente formulario: Reunión virtual abierta de usuarias/os CCAD 2022 (google.com)

Actualización

Se inscribieron 162 personas y se conectaron alrededor de 100 personas a la charla inicial y luego hubo en las 4 salas en paralelo alrededor de 25 personas en cada una. Se obtuvo muy buen feedback de las y los usuarios que nos servirá para implementar mejoras.

Materiales

Serafín: supercomputación y conexiones neuronales

Científicos pertenecientes a un instituto mendocino, describen el funcionamiento de una proteína clave para la sinapsis neuronal, utilizando simulaciones numéricas realizadas en el CCAD.

Di Bartolo y Masone. Foto: Gentileza UNCuyo

Existen redes federales, que esquivan los centros y posibilitan poderosas conexiones. En este caso, Serafín del Centro de Computación de Alto Desempeño de la Universidad Nacional de Córdoba (CCAD – UNC), estuvo al servicio del grupo mendocino liderado por Diego Masone, perteneciente al Instituto de Histología y Embriología de Mendoza “Dr. Mario H. Burgos” (IHEM, CONICET-UNCUYO). Esta vez, la analogía que explica el funcionamiento del cerebro comparándolo con el de una computadora, alcanzó otro nivel y la metáfora se convirtió en herramienta: nuestra supercomputadora permitió describir uno de los mecanismos moleculares de una proteína clave para la sinapsis neuronal.
Es que el CCAD, como sabemos, tiene una enorme potencia para apuntalar y maximizar las capacidades de los grupos de investigación de las diversas áreas y disciplinas científicas, poniendo a disposición tecnología de alto nivel a un costo realista en relación a los recursos disponibles. En ese sentido, el propio Masone asegura que «las simulaciones numéricas asociadas a este trabajo fueron sumamente costosas en términos de tiempo de cálculo. Sólo fueron posibles con el tiempo de supercomputación que teníamos en Serafín, de otra manera ni siquiera nos hubiésemos planteado abordar un problema de esta envergadura«.
Es por esto que, a pesar de sus limitaciones, Serafín constituye una herramienta indispensable para el desarrollo de una ciencia argentina federal. De ahí la importancia de que el CCAD siga creciendo, en equipamiento y recursos.

La investigación
El pasado 23 de febrero el trabajo de Lautaro Di Bartolo -becario del CONICET- y Diego Masone -investigador del CONICET-, del IHEM (CONICET-UNCUYO), salió publicado en la prestigiosa revista internacional Chemical Science. Ahí, los científicos describieron uno de los mecanismos mediante los cuales una proteína llamada Sinaptotagmina 1 regula la sinapsis, es decir, el proceso mediante el que las neuronas se comunican entre sí.
Tal como aseguran en una nota desde el CONICET, “este estudio representa un avance para entender el funcionamiento de esta familia de proteínas, con aplicaciones directas en medicina. Una mejor descripción de estos mecanismos permitirá pensar en soluciones para el tratamiento de neuropatologías degenerativas como el Alzheimer. ‘Si uno tiene un problema muy complicado que resolver no hay manera de dar con una solución factible si primero no se entiende el mecanismo del problema. Cuando entendamos con claridad, y a nivel molecular, cómo es el proceso completo de la sinapsis neuronal, sólo entonces podremos pensar en tratarla con objetivos médicos’, concluye Masone”.

Di Bartolo y Masone. Foto: Gentileza UNCuyo

El software
Para realizar las simulaciones numéricas, no sólo se utilizó Software Libre Científico, si no que además se creó un plugin específico para las necesidades de esta investigación. Lautaro Di Bartolo, bajo la supervisión de Masone, usó PLUMED, un módulo que permite insertar código que implementa variables complejas dentro de la simulación realizada en el motor de dinámica molecular GROMACS, a fin de poder estudiar mejor los mecanismos involucrados. El plugin MEMFUSION que diseñaron, programaron y optimizaron fue aceptado dentro de PLUMED, por lo que ahora se encuentra libremente disponible para que pueda utilizarse en otros trabajos científicos.

Para conocer más sobre la investigación:
https://www.conicet.gov.ar/describen-el-funcionamiento-de-una-proteina-clave-para-la-sinapsis-neuronal/

https://www.unidiversidad.com.ar/como-una-supercomputadora-ayudo-a-cientificos-de-la-uncuyo-a-conocer-un-mecanismo-del-cerebro

https://www.google.com/url?q=https://soundcloud.com/fundacionmedife/dr-diego-masone-instituto-de&sa=D&source=docs&ust=1648036649070115&usg=AOvVaw2hyJtJh5nwKl3A_Q6yxN7R (A partir del minuto 4:22)

https://www.uncuyo.edu.ar/prensa/ciencia-argentina-describen-como-funciona-una-proteina-clave-para-la-sinapsis-neuronal23

«Todos los sysadmin van al cielo» o «Chau Roberto»

Busco información si es cierto y encuentro esto «Choque de galaxias… se llama Dhios … sospechoso …» [1], absolutamente random, absolutamente Roberto.

Hace poco me enteraba gracias a la comunidad SysArmy que Roberto Dhios o @radhios estaba internado y no bien. Reviso su último uptime en mensajería instantánea y había sido hace una semana. Me preocupo. Reviso su último post en Twitter y era de enero. «Hola Roberto, que te anda pasando» por IM, como un ping que no llega. Un par de mensajes con Fernando Gleiser y confirman el panorama. Un mail que fue cadena con Pablo Mininni y aun más detalles. Roberto no está bien, pero hay  una pequeña luz de esperanza.

Hoy Fernando me avisa que Roberto no está mas. ¿Todos los Sysadmin van al cielo? Seguramente no, el estigma de BOFH pesa sobre ellos, pero este es un caso especial.

ImageRoberto era el padre de Dirac, el cluster del Departamento de Física de la UBA y un verdadero entusiasta. No dudó un segundo en pedirle a Martín Santos que viniera a Córdoba a buscar IB que nos sobraba y traernos unos HDD.
Un macana tantas cosas que no van a poder ser. Te necesitaba en al menos dos cosas importantes: la Superbrain y bootear el HPC en Argentina. Nunca te conocí IRL, pero en este mundo que vivimos, el de las TTYs, no es tan necesario.

Abrazo, Nico y todo el CCAD-UNC.

Estamos contratando

CONICET abrió un llamado para la Carrera Profesional de Apoyo (CPA) para trabajar en el CCAD-UNC como técnica/o en HPC.

Desde hoy lunes 14 de febrero hasta el miércoles 2 de marzo se receptarán postulantes para un cargo de Carrera Profesional de Apoyo (CPA) de CONICET para trabajar junto a los CPAs Carlos Bederián, Darío Graña y Marcos Mazzini dentro del Centro de Computación de Alto Desempeño de la UNC, el centro de HPC más importante del país.

El perfil que buscamos es un persona que conozca las tecnologías Ansible, GIT, Kubernetes, sepa de HPC y Compiladores. El trabajo día a día es muy variado, pero una vez que los clusters están instalados se entra en un ciclo de adaptación de playbooks, compilación de paquetes, atención a los casi 200 usuarias/os que tenemos de todo el Sistema de Ciencia y Técnica del país.

El trabajo es desafiante, vas a usar computadoras de punta en un Datacenter nuevísimo. Además, vas a aprender mucho de Carlos, Darío y Marcos que ya acumulan más de una década de experiencia en el rubro.

Para más información sobre como aplicar, dirigirse al Sitio de Convocatorias CPA-CONICET y buscar:

¡Serafín y ellos te esperan!Dudas y consultas, escribir a Nicolás Wolovick, () Director del CCAD.

Nuevos representantes de FaMAF en CCAD

Se continua con el proceso de renovación de las y los representantes en el CCAD-UNC. En este caso el HCD de la Facultad de Matemática, Astronomía y Física cambió sus representantes a fines de 2021.

La resolución RHCD-2021-431 de FaMAF indica que el Dr. Nicolás Wolovick (titular), actual Director del CCAD y el Dr. Juan Ignacio Perotti (suplente), serán los representantes de FaMAF-UNC. Anteriormente estaban Oscar Reula y Nicolás Wolovick.

Le damos la bienvenida a Juan, docente de la Lic. en Física de FaMAF e investigador del IFEG-CONICET en temas de Redes Complejas.

 

Llegaron las placas NVIDIA A30 del PFI

Llegaron las GPUs para modernizar Mendieta. Empieza la transformación a Nabucodonosor. Son 11 NVIDIA A30 que fueron compradas con el 70% del subsidio PFI que obtuvimos en septiembre. Su relación desempeño/precio es excelente. Funcionan perfectamente en un servidor que estaba homologado para tarjetas de hace cuatro generaciones.

Cuando presentamos el proyecto PFI dirigido por el Dr. Francisco Tamarit, se pensó en comprar 21 placas aceleradoras NVIDIA A10. El subsidio se obtuvo en septiembre, por un total de 6M ARS. Con un desembolso del 70% en una primera fase y el 30% restante al completar la primera, esperábamos comprar 18 NVIDIA A10, con unos 4M ARS.

«No hay A10»

El 12 de diciembre, el Gobierno Nacional depositó los ~4M ARS, y la situación se había modificado, no por el tipo de cambio, sino por la escasez de chips. La línea A10, A30, A40 y la minera CMP 170HX presentan una relación desempeño/precio y desempeño/consumo asombrosas para diversos tipos de workloads, desde dinámica molecular a minado de criptomonedas. En definitiva no había A10, pero si A30.

Con un precio 30% superior por unidad, obteníamos según los benchmarks de NVIDIA, un 30% más de rendimiento en BERT-LARGE y ResNet50, dos workloads representativos de lo que se hace en ML dentro de la UNC.

La comparativa de las placas es la siguiente

    Slots PCIePow  Pow         Proc   BW fp32 fp64 
A10     1    8pin 150W GA102-890-A1  600   31  0.9
A30     2    8pin 165W       GA-100  933   10  5.1

A grosso modo una A30 es media A100 y una A10 es una RTX 3080 Ti. Perdíamos 60% de la potencia de cálculo de precisión simple, pero ganábamos un 50% de ancho de banda a memoria. ¿Qué era lo más importante?
Como ya sabíamos que las A10 funcionaban en los viejos Supermicro 1027GR-TSF, podíamos estar casi seguros que las A30 también lo harían.

Llegan once A30

Con los 4M ARS rápidamente compramos 11 placas PNY A30 y el día de ayer el CPA CONICET Marcos Mazzini, las recibió, desempacó y colocó una en Nabucodonosor. Queríamos saber que pasaba.

¡Funcionan!

Marcos corrió nvidia-smi y allí estaba. Nabu se transformó en una mezcla de placas, un pequeño lab para probar rendimiento in-situ.

Marcos probó GROMACS 2020.2, Jorge Sánchez aprendizaje automático para su investigación actual, y Nicolás Wolovick cuánto hashrate de ETH se obtiene con Phoenix Miner 5.6d que soporta arquitectura Ampere.

      1080Ti        A10        A30
MD   ?? ns/day  267 ns/day   268 ns/day
ML   32 m/iter   25 m/iter    17 m/iter
ETH  32 MH/s     27 MH/s     103 MH/s

En definitiva, compramos once placas que no solo van bien como las A10, en workloads de ML son 47% más rápidas. Resulta notable como, aunque el la potencia pico de precisión simple de la A30 sea un tercio que la A10, el desempeño en resulta similar. En la mayoría de los workloads de HPC, lo que prima es el ancho de banda a memoria y el HBM2 se nota.

Eulogia/Modelo para armar

Eulogia está completa. Con 32 nodos operativos, se terminó de armar este rompecabezas de muchas piezas armado por muchas personas.

La puesta en funcionamiento del nodo número 7 de Eulogia (knl07) por parte del CPA-CONICET Marcos Mazzini, pone fin a un proceso de construcción de un cluster que marcó una época en el CCAD. Gestado a mediados de 2017 como el inicio del cluster que iba a reemplazar a Cristina por una fracción del costo y consumo, se fueron sumando partes y piezas.

En noviembre de 2017 ya estaba levantada una versión inicial donde también se incorporaron 8 nodos más con aportes del SNCAD. Un poco después, ya en 2018, se utilizaron fondos de PAMEG+PROMINF adjudicados a FaMAF para la compra de 4 nodos más a la firma Exxact de EEUU. En paralelo llegaron 4 nodos más que empezaron a comprarse en 2017, pero diferentes problemas hicieron que SIASA entregara en 2018, y que en realidad fueran los mismos 4 nodos que los anteriores.

Cuando Intel discontinuó el proyecto Larrabee, quedaron saldos de estos valiosos e interesantes equipos, tal como lo describe Matt Pharr en su «Elegy for Larrabee«, o Tom Forsyth en su «Why didn’t Larrabee failed?«. Carlos Bederían encontró una oferta y entre 2019 y 2020, pandemia mediante, llegaron 12 nodos más para completar Eulogia.

Todo 2020 y parte del 2021 se siguió completando la computadora. Los últimos nodos de oferta venían sin memoria, discos ni placas de red. La mayoría de las cosas se solucionó a través de compras comunitarias, una en 2020 y otra en 2021. Aun así faltaban módulos de memoria y lo más importante las placas Infiniband FDR para tener comunicación rápida y poder hacer capability computing como nos decía Tron Thomas Sterling en su CSC 7600. Los módulos de memoria restantes salieron de Proyectos Institucionales IDTyA de interés regional 2020, de la FCQ (Patricia Paredes) y FaMAF (Nicolás Wolovick).

Las placas FDR fueron otra jugada de Bederián. Compramos 11 MCX354A-FCBT reacondicionadas en MET Servers, por una fracción del costo en el mercado local.

Modelo terminado

Foto sacada en el UNC Data Center en agosto de 2021.

De arriba hacia abajo chasis con 4 nodos cada uno: cantidad, año(s) de compra, origen y modelo de procesador KNL.

  • 1* 2018: PAMEG/PROMINF FaMAF, Exxact USA, 7250.
  • 1* 2017-2018: PMT 2017, SIASA comprado a Exxact USA, 7250.
  • 3 * 2019-2020: fondos propios CCAD, oferta de Lambda Labs, 7210.
  • 2 * 2017: SNCAD, SIASA, 7210.
  • 1 * 2017: Rectorado UNC, SIASA, 7210.

El total son 32 procesadores KNL divididos en 8*7250 + 24*7210.
La potencia pico total (Rpeak) de 8*3.04 + 24*2.66 = 88.16 TFLOPS.
La potencia máxima estimada (Rmax) de 8*1.21 + 24*1.05 = 34.88 TFLOPS.

Esta foto de SLURM tomada a mediados de diciembre 2021 muestra los 32 nodos a pleno uso.

Estimamos que Eulogia estará transformando energía en cómputo hasta el 2023/24, cuando ya probablemente no tenga sentido tenerla prendida y sea reemplazada por un chasis de cuatro nodos densos dual Graviton5 de 256 núcleos cada uno.

Eulogia está terminada y marca una época, donde la única manera de crecer era de a poco, nodo a nodo, RAM a RAM, avanzando, para que la Ley de Moore no nos lleve puestos y tengamos que hacer downsizing de nuestra ciencia.