Nueva Compra Comunitaria: 25 discos 8 TiB

Esta nueva compra comunitaria habilitará un nuevo NAS para Mendieta Fase 2, que reemplazará un viejo equipo Chembro de la época de la Supercomputadora Cristina. Aportaron desde trece Proyectos de Investigación de usuarias y usuarios de todo el país.

Luego de un proceso de casi 4 meses terminó una nueva compra comunitaria del Centro de Computación de Alto Desempeño (CCAD, UNC). En este tipo de compras las y los usuarios aportan lo que pueden, en este caso, discos HDD 8 TiB, con un costo aproximado de 340 USD por unidad. Esto permite, por un lado, aumentar el sentido de pertenencia de las y los usuarios y, por el otro, eficientizar el gasto de cada uno de los pequeños subsidios individuales que cada investigadora o investigador posee. Compramos 8000 USD -o sea $1.000.000-, que sería poco menos que imposible para los flacos subsidios actuales de un Grupo de Investigación.

Jenga de 21 HDDs, por Marcos Mazzini

Se compraron 25 discos rotacionales de 8 TiB de 10000 RPM con interfaz SAS3, que serán conectados a uno de los dos JBOD  adquiridos por el Dr. Cristian Giuppone (OAC-UNC, IATE-CONICET), que están prontos a llegar.

Las y los aportantes fueron:

  • 1, Mariana Cécere, OAC-UNC, IATE-CONICET, PICT 2016-2480.
  • 4, Cecilia Giménez.
  • 8, Daniel A. García, IIBYT-CONICET,
  • 2, María Angélica Perillo.
  • 1, Orlando Vito Billoni, GTMC-FaMAF-UNC.
  • 1, Sergio Ribone, FCQ-UNC, PICT 2019-3461.
  • 1, Paola Quaino, Universidad Nacional del Litoral, PICT 2017-1342.
  • 1, Mario del Pópolo, Universidad Nacional de Cuyo, Proyectos SIIP 06/M107 y M074.
  • 1, Gustavo Belletti, Universidad Nacional del Litoral, PICT 2019-3392.
  • 1, Carlos Bederián y Nicolás Wolovick, FaMAF-UNC, Subsidio SeCyT.
  • 1, José Luis Borioni, FCQ-UNC, Subsidio SeCyT.
  • 2, María Eugenia Budén, FCQ-UNC, PICT 2021-0376.
  • 1, Emilio Donoso, ICATE-CONICET, Universidad Nacional de San Juan, Proyecto PUE22920180100059CO.

Con los 24 discos más 1 de respuesto, tendremos un almacenamiento de 192 TiB totales y 145 TiB usables, una vez que Carlos Bederián y Marcos Mazzini los instalen y configuren en RAID60.

Agradecemos la paciencia de Alejandro Jabo de Multitech, que estuvo contando disco por disco, transferencia por transferencia, para que tuviéramos estos 25 discos.

 

*Por Nicolás Wolovick, Director del CCAD

«Todos los sysadmin van al cielo» o «Chau Roberto»

Busco información si es cierto y encuentro esto «Choque de galaxias… se llama Dhios … sospechoso …» [1], absolutamente random, absolutamente Roberto.

Hace poco me enteraba gracias a la comunidad SysArmy que Roberto Dhios o @radhios estaba internado y no bien. Reviso su último uptime en mensajería instantánea y había sido hace una semana. Me preocupo. Reviso su último post en Twitter y era de enero. «Hola Roberto, que te anda pasando» por IM, como un ping que no llega. Un par de mensajes con Fernando Gleiser y confirman el panorama. Un mail que fue cadena con Pablo Mininni y aun más detalles. Roberto no está bien, pero hay  una pequeña luz de esperanza.

Hoy Fernando me avisa que Roberto no está mas. ¿Todos los Sysadmin van al cielo? Seguramente no, el estigma de BOFH pesa sobre ellos, pero este es un caso especial.

ImageRoberto era el padre de Dirac, el cluster del Departamento de Física de la UBA y un verdadero entusiasta. No dudó un segundo en pedirle a Martín Santos que viniera a Córdoba a buscar IB que nos sobraba y traernos unos HDD.
Un macana tantas cosas que no van a poder ser. Te necesitaba en al menos dos cosas importantes: la Superbrain y bootear el HPC en Argentina. Nunca te conocí IRL, pero en este mundo que vivimos, el de las TTYs, no es tan necesario.

Abrazo, Nico y todo el CCAD-UNC.

Estamos contratando

CONICET abrió un llamado para la Carrera Profesional de Apoyo (CPA) para trabajar en el CCAD-UNC como técnica/o en HPC.

Desde hoy lunes 14 de febrero hasta el miércoles 2 de marzo se receptarán postulantes para un cargo de Carrera Profesional de Apoyo (CPA) de CONICET para trabajar junto a los CPAs Carlos Bederián, Darío Graña y Marcos Mazzini dentro del Centro de Computación de Alto Desempeño de la UNC, el centro de HPC más importante del país.

El perfil que buscamos es un persona que conozca las tecnologías Ansible, GIT, Kubernetes, sepa de HPC y Compiladores. El trabajo día a día es muy variado, pero una vez que los clusters están instalados se entra en un ciclo de adaptación de playbooks, compilación de paquetes, atención a los casi 200 usuarias/os que tenemos de todo el Sistema de Ciencia y Técnica del país.

El trabajo es desafiante, vas a usar computadoras de punta en un Datacenter nuevísimo. Además, vas a aprender mucho de Carlos, Darío y Marcos que ya acumulan más de una década de experiencia en el rubro.

Para más información sobre como aplicar, dirigirse al Sitio de Convocatorias CPA-CONICET y buscar:

¡Serafín y ellos te esperan!Dudas y consultas, escribir a Nicolás Wolovick, () Director del CCAD.

Nuevos representantes de FaMAF en CCAD

Se continua con el proceso de renovación de las y los representantes en el CCAD-UNC. En este caso el HCD de la Facultad de Matemática, Astronomía y Física cambió sus representantes a fines de 2021.

La resolución RHCD-2021-431 de FaMAF indica que el Dr. Nicolás Wolovick (titular), actual Director del CCAD y el Dr. Juan Ignacio Perotti (suplente), serán los representantes de FaMAF-UNC. Anteriormente estaban Oscar Reula y Nicolás Wolovick.

Le damos la bienvenida a Juan, docente de la Lic. en Física de FaMAF e investigador del IFEG-CONICET en temas de Redes Complejas.

 

Llegaron las placas NVIDIA A30 del PFI

Llegaron las GPUs para modernizar Mendieta. Empieza la transformación a Nabucodonosor. Son 11 NVIDIA A30 que fueron compradas con el 70% del subsidio PFI que obtuvimos en septiembre. Su relación desempeño/precio es excelente. Funcionan perfectamente en un servidor que estaba homologado para tarjetas de hace cuatro generaciones.

Cuando presentamos el proyecto PFI dirigido por el Dr. Francisco Tamarit, se pensó en comprar 21 placas aceleradoras NVIDIA A10. El subsidio se obtuvo en septiembre, por un total de 6M ARS. Con un desembolso del 70% en una primera fase y el 30% restante al completar la primera, esperábamos comprar 18 NVIDIA A10, con unos 4M ARS.

«No hay A10»

El 12 de diciembre, el Gobierno Nacional depositó los ~4M ARS, y la situación se había modificado, no por el tipo de cambio, sino por la escasez de chips. La línea A10, A30, A40 y la minera CMP 170HX presentan una relación desempeño/precio y desempeño/consumo asombrosas para diversos tipos de workloads, desde dinámica molecular a minado de criptomonedas. En definitiva no había A10, pero si A30.

Con un precio 30% superior por unidad, obteníamos según los benchmarks de NVIDIA, un 30% más de rendimiento en BERT-LARGE y ResNet50, dos workloads representativos de lo que se hace en ML dentro de la UNC.

La comparativa de las placas es la siguiente

    Slots PCIePow  Pow         Proc   BW fp32 fp64 
A10     1    8pin 150W GA102-890-A1  600   31  0.9
A30     2    8pin 165W       GA-100  933   10  5.1

A grosso modo una A30 es media A100 y una A10 es una RTX 3080 Ti. Perdíamos 60% de la potencia de cálculo de precisión simple, pero ganábamos un 50% de ancho de banda a memoria. ¿Qué era lo más importante?
Como ya sabíamos que las A10 funcionaban en los viejos Supermicro 1027GR-TSF, podíamos estar casi seguros que las A30 también lo harían.

Llegan once A30

Con los 4M ARS rápidamente compramos 11 placas PNY A30 y el día de ayer el CPA CONICET Marcos Mazzini, las recibió, desempacó y colocó una en Nabucodonosor. Queríamos saber que pasaba.

¡Funcionan!

Marcos corrió nvidia-smi y allí estaba. Nabu se transformó en una mezcla de placas, un pequeño lab para probar rendimiento in-situ.

Marcos probó GROMACS 2020.2, Jorge Sánchez aprendizaje automático para su investigación actual, y Nicolás Wolovick cuánto hashrate de ETH se obtiene con Phoenix Miner 5.6d que soporta arquitectura Ampere.

      1080Ti        A10        A30
MD   ?? ns/day  267 ns/day   268 ns/day
ML   32 m/iter   25 m/iter    17 m/iter
ETH  32 MH/s     27 MH/s     103 MH/s

En definitiva, compramos once placas que no solo van bien como las A10, en workloads de ML son 47% más rápidas. Resulta notable como, aunque el la potencia pico de precisión simple de la A30 sea un tercio que la A10, el desempeño en resulta similar. En la mayoría de los workloads de HPC, lo que prima es el ancho de banda a memoria y el HBM2 se nota.

Eulogia/Modelo para armar

Eulogia está completa. Con 32 nodos operativos, se terminó de armar este rompecabezas de muchas piezas armado por muchas personas.

La puesta en funcionamiento del nodo número 7 de Eulogia (knl07) por parte del CPA-CONICET Marcos Mazzini, pone fin a un proceso de construcción de un cluster que marcó una época en el CCAD. Gestado a mediados de 2017 como el inicio del cluster que iba a reemplazar a Cristina por una fracción del costo y consumo, se fueron sumando partes y piezas.

En noviembre de 2017 ya estaba levantada una versión inicial donde también se incorporaron 8 nodos más con aportes del SNCAD. Un poco después, ya en 2018, se utilizaron fondos de PAMEG+PROMINF adjudicados a FaMAF para la compra de 4 nodos más a la firma Exxact de EEUU. En paralelo llegaron 4 nodos más que empezaron a comprarse en 2017, pero diferentes problemas hicieron que SIASA entregara en 2018, y que en realidad fueran los mismos 4 nodos que los anteriores.

Cuando Intel discontinuó el proyecto Larrabee, quedaron saldos de estos valiosos e interesantes equipos, tal como lo describe Matt Pharr en su «Elegy for Larrabee«, o Tom Forsyth en su «Why didn’t Larrabee failed?«. Carlos Bederían encontró una oferta y entre 2019 y 2020, pandemia mediante, llegaron 12 nodos más para completar Eulogia.

Todo 2020 y parte del 2021 se siguió completando la computadora. Los últimos nodos de oferta venían sin memoria, discos ni placas de red. La mayoría de las cosas se solucionó a través de compras comunitarias, una en 2020 y otra en 2021. Aun así faltaban módulos de memoria y lo más importante las placas Infiniband FDR para tener comunicación rápida y poder hacer capability computing como nos decía Tron Thomas Sterling en su CSC 7600. Los módulos de memoria restantes salieron de Proyectos Institucionales IDTyA de interés regional 2020, de la FCQ (Patricia Paredes) y FaMAF (Nicolás Wolovick).

Las placas FDR fueron otra jugada de Bederián. Compramos 11 MCX354A-FCBT reacondicionadas en MET Servers, por una fracción del costo en el mercado local.

Modelo terminado

Foto sacada en el UNC Data Center en agosto de 2021.

De arriba hacia abajo chasis con 4 nodos cada uno: cantidad, año(s) de compra, origen y modelo de procesador KNL.

  • 1* 2018: PAMEG/PROMINF FaMAF, Exxact USA, 7250.
  • 1* 2017-2018: PMT 2017, SIASA comprado a Exxact USA, 7250.
  • 3 * 2019-2020: fondos propios CCAD, oferta de Lambda Labs, 7210.
  • 2 * 2017: SNCAD, SIASA, 7210.
  • 1 * 2017: Rectorado UNC, SIASA, 7210.

El total son 32 procesadores KNL divididos en 8*7250 + 24*7210.
La potencia pico total (Rpeak) de 8*3.04 + 24*2.66 = 88.16 TFLOPS.
La potencia máxima estimada (Rmax) de 8*1.21 + 24*1.05 = 34.88 TFLOPS.

Esta foto de SLURM tomada a mediados de diciembre 2021 muestra los 32 nodos a pleno uso.

Estimamos que Eulogia estará transformando energía en cómputo hasta el 2023/24, cuando ya probablemente no tenga sentido tenerla prendida y sea reemplazada por un chasis de cuatro nodos densos dual Graviton5 de 256 núcleos cada uno.

Eulogia está terminada y marca una época, donde la única manera de crecer era de a poco, nodo a nodo, RAM a RAM, avanzando, para que la Ley de Moore no nos lleve puestos y tengamos que hacer downsizing de nuestra ciencia.

El CCAD UNC tiene nuevo director

El Dr. Nicolás Wolovick de la FaMAF fue designado por Resolución Rectoral 1526/2021 como nuevo Presidente del Directorio del Centro de Computación de Alto Desempeño de la UNC.

El Dr. en Computación sucede al Dr. en Física Oscar Reula que estuvo como director desde el año 2014. A su vez el Dr. Reula sucedió al Dr. en Ciencias Químicas Cristián G. Sánchez quien fuera su primer director.

30 años del Supercómputo en México, por Alfredo Santillán

La primera lista Top500 fue en junio de 1993, allí en el puesto #246 aparecía una computadora mexicana de 1991, una Cray Y-MP4/432 de 4 procesadores y 1.33 GFLOPS. Han pasado treinta años desde aquella máquina y el Dr. en Astrofísica, Alfredo Santillán nos relatará este viaje del supercómputo latinoamericano.

30 años del Supercómputo en México.

Alfredo J. Santillán G.
DGTIC-UNAM

Resumen

En noviembre de este año se cumplen tres décadas de la llegada de la primera supercomputadora a nuestro país, un equipo Cray Y-MP4/432, denominado Sirio, que revolucionó por completo el uso del cómputo en nuestro país. En esta charla haremos un recorrido histórico de cómo en la UNAM ha evolucionado el cómputo de alto desempeño, así como su impacto en una variedad de proyectos vinculados a un espectro amplio de áreas científicas, como la astrofísica, para resolver problemas de frontera tanto nacionales como internacionales.

Semblanza de Alfredo Santillán

Realizó su Licenciatura en Física en la Universidad Autónoma Metropolitana–Iztapalapa, su Maestría y Doctorado en Ciencias (Astrofísica) en la Universidad Nacional Autónoma de México (UNAM). Actualmente es Profesor Investigador Titular de la Dirección General de Cómputo y Tecnologías de Información y Comunicación (DGTIC) de la UNAM. Su Campo de especialidad es la Astrofísica Computacional y el Cómputo de Alto Rendimiento (HPC). Ha sido Coordinador de la Unidad de Investigación en Cómputo Aplicado (UICA), UNAM; Coordinador del Plan de Becarios de Su​_percómputo del Centro de Cómputo de la UNAM; Presidente del Comité de Aplicaciones y Asignación de Fondos de la Corporación Universitaria para el Desarrollo de Int​_ernet (CUDI) y miembro del Sistema Nacional de Investigadores (SNI), CONACyT. Actualmente es miembro de la International Astronomical Union (IAU) y de la Sociedad Mexicana de Física.

Coordenadas de la videoconferencia

30 años de Supercómputo en México
Lunes, 1 de noviembre · 6:00 – 7:30pm
https://meet.google.com/enc-xbvk-nch

Actualización