Más GPUs para MendietaF2

Mendieta Fase 2, es la supercomputadora más vieja y más nueva del CCAD. Utilizando equipos end-of-life como base, los remozamos con placas GPU NVIDIA Ampere. Pasamos de 14 placas funcionando a 24 y en breve a 26.

7 A30, las 4 restantes ya estaban en los servers.

Las 11 placas nuevas para MendietaF2 que costaron más de 38.000 dólares estadounidenses, surgen del aporte de tres partes:

En este momento MendietaF2 ya tiene 24 placas NVIDIA A30 funcionando. Cuando terminemos de instalar las 2 restantes, completaremos una máquina con 26 GPUs totalizando 135 TFLOPS de doble precisión y 268 TFLOPS para precisión simple, el cluster GPU más grande que el CCAD haya tenido. De las 15 placas anteriores, 11 fueron compradas con fondos del PFI 2021 y 4 con fondos propios del CCAD.

Los workloads de Dinámica Molecular y de Aprendizaje Automático son los grandes beneficiados por esta máquina, que es en definitiva, la concreción de un proyecto planteado en el 2020.

Llevar adelante todo el proceso de compra e importación nos llevó 133 días y su instalación física y lógica, les llevó a Marcos Mazzini y a Marcos Tolcachir una mañana. Eso habla por un lado de la eficiencia de nuestros técnicos, y todo el trabajo previo que hizo Carlos Bederián sobre el stack de software, y por el otro lado habla de la cantidad de procesos administrativos necesarios para realizar una compra al exterior.

Marcos Mazzini y Marcos Tolcachir, colocando las dos A30 por nodo y cambiando la pasta térmica de los dos E5-2680v2.

Agradecemos a toda una cadena de apoyo que hizo posible que hoy las placas estuvieran produciendo ciencia. A SIASA LLC que nos vendió las placas en particular a Andrés S. Marcone, Sonia Alonso y Astrid Valarche; a Adriana LaGattina nuestra oficial de cuenta FedEx que hizo el pickup en EEUU; a Luciana Beladelli de la UVT de CEPROCOR que administra el PFI 2021; a Marcela Giomi y Mario Farías de ComEx-UNC encargados de ROECYT y del pago al exterior, y finalmente a Gonzalo Jaimez y Laura Grassetti del Área Económico Financiera de la PSI-UNC que llevan adelante las cuentas.

 

 

por: Nicolás Wolovick, Director del CCAD-UNC

Técnicos del CCAD en SC22 Digital Experience

Supercomputing es la conferencia #1 del mundo en temas de HPC. Se desarrolló esta semana en Dallas, EEUU. Aunque no teníamos presupuesto para que nuestros técnicos estuvieran allá, hicimos uso de la modalidad remota a fin de que ellos puedan desarrollarse técnicamente y contribuir a la comunidad.

Los CPA Profesionales del CCAD, el Lic. Carlos Bederián y el Lic. Marcos Mazzini participaron de Supercomputing que se desarrolló durante la semana.

A través de su modalidad Digital Experience Carlos y Marcos pudieron acceder a charlas, workshops, presentaciones de trabajos científicos y a una montaña de información para que ambos se mantengan actualizados sobre toda la problemática del HPC.

Este año no sólo invertimos en formación para el personal técnico, sino también en equipamiento, herramientas de trabajo y medidas de seguridad, para que estén en las mejores condiciones para realizar su trabajo. Sabemos que sin ellos, la comunidad podría computar poco o nada. Los cuidamos, son un recurso muy valioso, pero escaso.

Agradecemos especialmente a la Cra. Laura Grassetti y al Cr. Gonzalo Jaimez que hicieron lo imposible y finalmente lograron realizar el pago de la inscripción.

 

por: Nicolás Wolovick, Director del CCAD-UNC

Limpieza profunda del UNC Data Center

Se realizó una limpieza profunda en las instalaciones del CCAD para prevenir un eventual daño en los equipos . Para ello se contrataron los servicios de la empresa TA Telecomunicaciones.

Acicalando a Serafín.

Hace un tiempo que con el personal de la PSI-UNC y los miembros y técnicos del CCAD veíamos con preocupación la tierra que quedó luego de algunas terminaciones finales en el UNC Data Center. Esa tierra eventualmente vuela y pasa por los cientos de pequeñas turbinas que tienen cada uno de los servidores de la PSI y el CCAD. Nos preguntábamos ¿Se limpian los Data Centers? ¿Quién limpia los Data Centers?

La respuesta a la primera pregunta era afirmativa, pero la segunda no tenía una respuesta clara. De las consultas que pudimos hacer a otros centros de datos, el personal mismo hacía la limpieza con sus máquinas y productos. Luego de contactar a TA Telecomunicaciones que nos visitó en abril de este año y saber que ellos se encargan del mantenimiento general del data center de EPEC luego de hacer su instalación, obtuvimos un presupuesto y realizaron la tarea.

Un barrido completo del piso técnico.

Daniel Toranzo y Javier Toranzo, bajo la supervisión de los ingenieros Gabriel Balegno y Gerardo Piermattei, trabajaron una jornada y media para realizar una limpieza profunda de todo el DC. Esta incluyó el piso técnico donde había mayor concentración de tierra y algunos restos de materiales. El listado de tareas que realizaron fué:

  • Limpieza de piso técnico y aspirado bajo piso.
  • Limpieza exterior de tuberías, travesaños y puertas.
  • Limpieza de placas de piso.
  • Limpieza de placas perforadas y rejillas.
  • Limpieza exterior de servidores y equipamiento de red.
Luego del trabajo de la empresa, el UNC Data Center quedó como nuevo, o en cero, en lo que respecta a limpieza.

Se terminó aspirando todo el piso técnico inferior.

 

por Nicolás Wolovick, Director del CCAD-UNC

Nuevo NAS para el CCT-Rosario

El CCT-Rosario adquirió a la firma SIASA mediante financiamiento del SNCAD y la contrapartida de la UNR, equipamiento para mejorar las prestaciones de almacenamientos de sus clusters de HPC. Esté reemplazará y actualizará el anterior NAS que tenían operativo desde 2008 cuya capacidad era 2.7 TiB efectivos y que ya mostraba alarmas de todo tipo.

  • Chasis: Marca Supermicro
  • Mother: Supermicro H12SSL-i
  • Procesador: AMD EPYC 7513 (Zen3 cores) de 32 núcleos, con 128 GiB DDR4.
  • Discos: 6 x 12TiB SAS3 + 2 x SSD 960GiB.
  • Fuente: 2 x 960W.
La configuración del nuevo almacenamiento les permite aumentar la capacidad efectiva a 44 TiB.
En cuanto al software se utilizó TrueNAS@13.0-U2 agrupando los discos en un RAID 6 (4 discos de datos, 2 discos de paridad) con posibilidad de falla de hasta dos discos. El sistema de archivos subyacente es ZFS.
Agradecemos a Javier Rodríguez Peña y a Fabio Busnengo por la información y las fotografías.
por: Nicolás Wolovick, Director del CCAD

En los medios

 

CIMEC potencia su cluster Pirayú

Es un triunfo. Luego de obtener en 2017, el Préstamo BID AR/L 3497 Programa de Modernización de Equipamiento PME 2015-0036 con Mario Storti como Investigador Responsable, la suma de $16,910,000 pudo ser ejecutada y convertida en cómputo para atender las necesidades del CIMEC-CONICET y de toda la comunidad de Ciencia y Técnica del país.

Es un triunfo, porque a pesar de todas las dificultades del proceso, las sucesivas devaluaciones, Mario y su equipo no bajaron los brazos y el cómputo está. Tal vez eso sea lo más importante.

El equipamiento consta de 44 nodos con:

  • 2 x Intel Xeon Gold 6126, arquitectura Skylake, 6 canales de memoria.
  • 64 GiB RAM DDR4-2666 MT/s.
  • Infiniband FDR-56.

Teniendo en cuenta que cada pastilla devenga 652.8 GFLOPS, el conjunto de 88 Xeon Gold 6126 devenga una potencia pico de 57.4 TFLOPS. Esto es duplicar la potencia de Pirayú original que tenía 26 TFLOPS.

Las buenas noticias no terminan ahí, ya que gracias al PICT-E 2018-0271 de Mario Storti (CIMEC) – Paola Quaino (IQAL), se compraron 11 nodos más de marca AMD, con las siguientes características:

  • 2 x AMD EPYC 7401, architectura Zen1 (Naples), 8 canales de memoria.
  • 64 GiB DDR4-2666 MT/s, 128 GiB DDR4-2666 MT/s.
  • 1 GigE.

Con un ancho de banda a memoria más interesante, aproximadamente 150 GiB/s por procesador, el conjunto devenga una potencia pico de 8.44 TFLOPS.

Agradecemos al Dr. Luciano Garelli por toda la información y las fotos de los clusters.

 

 

por Nicolás Wolovick, Director del CCAD-UNC.

Nueva Compra Comunitaria: 25 discos 8 TiB

Esta nueva compra comunitaria habilitará un nuevo NAS para Mendieta Fase 2, que reemplazará un viejo equipo Chembro de la época de la Supercomputadora Cristina. Aportaron desde trece Proyectos de Investigación de usuarias y usuarios de todo el país.

Luego de un proceso de casi 4 meses terminó una nueva compra comunitaria del Centro de Computación de Alto Desempeño (CCAD, UNC). En este tipo de compras las y los usuarios aportan lo que pueden, en este caso, discos HDD 8 TiB, con un costo aproximado de 340 USD por unidad. Esto permite, por un lado, aumentar el sentido de pertenencia de las y los usuarios y, por el otro, eficientizar el gasto de cada uno de los pequeños subsidios individuales que cada investigadora o investigador posee. Compramos 8000 USD -o sea $1.000.000-, que sería poco menos que imposible para los flacos subsidios actuales de un Grupo de Investigación.

Jenga de 21 HDDs, por Marcos Mazzini

Se compraron 25 discos rotacionales de 8 TiB de 10000 RPM con interfaz SAS3, que serán conectados a uno de los dos JBOD  adquiridos por el Dr. Cristian Giuppone (OAC-UNC, IATE-CONICET), que están prontos a llegar.

Las y los aportantes fueron:

  • 1, Mariana Cécere, OAC-UNC, IATE-CONICET, PICT 2016-2480.
  • 4, Cecilia Giménez.
  • 8, Daniel A. García, IIBYT-CONICET,
  • 2, María Angélica Perillo.
  • 1, Orlando Vito Billoni, GTMC-FaMAF-UNC.
  • 1, Sergio Ribone, FCQ-UNC, PICT 2019-3461.
  • 1, Paola Quaino, Universidad Nacional del Litoral, PICT 2017-1342.
  • 1, Mario del Pópolo, Universidad Nacional de Cuyo, Proyectos SIIP 06/M107 y M074.
  • 1, Gustavo Belletti, Universidad Nacional del Litoral, PICT 2019-3392.
  • 1, Carlos Bederián y Nicolás Wolovick, FaMAF-UNC, Subsidio SeCyT.
  • 1, José Luis Borioni, FCQ-UNC, Subsidio SeCyT.
  • 2, María Eugenia Budén, FCQ-UNC, PICT 2021-0376.
  • 1, Emilio Donoso, ICATE-CONICET, Universidad Nacional de San Juan, Proyecto PUE22920180100059CO.

Con los 24 discos más 1 de respuesto, tendremos un almacenamiento de 192 TiB totales y 145 TiB usables, una vez que Carlos Bederián y Marcos Mazzini los instalen y configuren en RAID60.

Agradecemos la paciencia de Alejandro Jabo de Multitech, que estuvo contando disco por disco, transferencia por transferencia, para que tuviéramos estos 25 discos.

 

*Por Nicolás Wolovick, Director del CCAD

«Todos los sysadmin van al cielo» o «Chau Roberto»

Busco información si es cierto y encuentro esto «Choque de galaxias… se llama Dhios … sospechoso …» [1], absolutamente random, absolutamente Roberto.

Hace poco me enteraba gracias a la comunidad SysArmy que Roberto Dhios o @radhios estaba internado y no bien. Reviso su último uptime en mensajería instantánea y había sido hace una semana. Me preocupo. Reviso su último post en Twitter y era de enero. «Hola Roberto, que te anda pasando» por IM, como un ping que no llega. Un par de mensajes con Fernando Gleiser y confirman el panorama. Un mail que fue cadena con Pablo Mininni y aun más detalles. Roberto no está bien, pero hay  una pequeña luz de esperanza.

Hoy Fernando me avisa que Roberto no está mas. ¿Todos los Sysadmin van al cielo? Seguramente no, el estigma de BOFH pesa sobre ellos, pero este es un caso especial.

ImageRoberto era el padre de Dirac, el cluster del Departamento de Física de la UBA y un verdadero entusiasta. No dudó un segundo en pedirle a Martín Santos que viniera a Córdoba a buscar IB que nos sobraba y traernos unos HDD.
Un macana tantas cosas que no van a poder ser. Te necesitaba en al menos dos cosas importantes: la Superbrain y bootear el HPC en Argentina. Nunca te conocí IRL, pero en este mundo que vivimos, el de las TTYs, no es tan necesario.

Abrazo, Nico y todo el CCAD-UNC.

Estamos contratando

CONICET abrió un llamado para la Carrera Profesional de Apoyo (CPA) para trabajar en el CCAD-UNC como técnica/o en HPC.

Desde hoy lunes 14 de febrero hasta el miércoles 2 de marzo se receptarán postulantes para un cargo de Carrera Profesional de Apoyo (CPA) de CONICET para trabajar junto a los CPAs Carlos Bederián, Darío Graña y Marcos Mazzini dentro del Centro de Computación de Alto Desempeño de la UNC, el centro de HPC más importante del país.

El perfil que buscamos es un persona que conozca las tecnologías Ansible, GIT, Kubernetes, sepa de HPC y Compiladores. El trabajo día a día es muy variado, pero una vez que los clusters están instalados se entra en un ciclo de adaptación de playbooks, compilación de paquetes, atención a los casi 200 usuarias/os que tenemos de todo el Sistema de Ciencia y Técnica del país.

El trabajo es desafiante, vas a usar computadoras de punta en un Datacenter nuevísimo. Además, vas a aprender mucho de Carlos, Darío y Marcos que ya acumulan más de una década de experiencia en el rubro.

Para más información sobre como aplicar, dirigirse al Sitio de Convocatorias CPA-CONICET y buscar:

¡Serafín y ellos te esperan!Dudas y consultas, escribir a Nicolás Wolovick, () Director del CCAD.

Nuevos representantes de FaMAF en CCAD

Se continua con el proceso de renovación de las y los representantes en el CCAD-UNC. En este caso el HCD de la Facultad de Matemática, Astronomía y Física cambió sus representantes a fines de 2021.

La resolución RHCD-2021-431 de FaMAF indica que el Dr. Nicolás Wolovick (titular), actual Director del CCAD y el Dr. Juan Ignacio Perotti (suplente), serán los representantes de FaMAF-UNC. Anteriormente estaban Oscar Reula y Nicolás Wolovick.

Le damos la bienvenida a Juan, docente de la Lic. en Física de FaMAF e investigador del IFEG-CONICET en temas de Redes Complejas.

 

Llegaron las placas NVIDIA A30 del PFI

Llegaron las GPUs para modernizar Mendieta. Empieza la transformación a Nabucodonosor. Son 11 NVIDIA A30 que fueron compradas con el 70% del subsidio PFI que obtuvimos en septiembre. Su relación desempeño/precio es excelente. Funcionan perfectamente en un servidor que estaba homologado para tarjetas de hace cuatro generaciones.

Cuando presentamos el proyecto PFI dirigido por el Dr. Francisco Tamarit, se pensó en comprar 21 placas aceleradoras NVIDIA A10. El subsidio se obtuvo en septiembre, por un total de 6M ARS. Con un desembolso del 70% en una primera fase y el 30% restante al completar la primera, esperábamos comprar 18 NVIDIA A10, con unos 4M ARS.

«No hay A10»

El 12 de diciembre, el Gobierno Nacional depositó los ~4M ARS, y la situación se había modificado, no por el tipo de cambio, sino por la escasez de chips. La línea A10, A30, A40 y la minera CMP 170HX presentan una relación desempeño/precio y desempeño/consumo asombrosas para diversos tipos de workloads, desde dinámica molecular a minado de criptomonedas. En definitiva no había A10, pero si A30.

Con un precio 30% superior por unidad, obteníamos según los benchmarks de NVIDIA, un 30% más de rendimiento en BERT-LARGE y ResNet50, dos workloads representativos de lo que se hace en ML dentro de la UNC.

La comparativa de las placas es la siguiente

    Slots PCIePow  Pow         Proc   BW fp32 fp64 
A10     1    8pin 150W GA102-890-A1  600   31  0.9
A30     2    8pin 165W       GA-100  933   10  5.1

A grosso modo una A30 es media A100 y una A10 es una RTX 3080 Ti. Perdíamos 60% de la potencia de cálculo de precisión simple, pero ganábamos un 50% de ancho de banda a memoria. ¿Qué era lo más importante?
Como ya sabíamos que las A10 funcionaban en los viejos Supermicro 1027GR-TSF, podíamos estar casi seguros que las A30 también lo harían.

Llegan once A30

Con los 4M ARS rápidamente compramos 11 placas PNY A30 y el día de ayer el CPA CONICET Marcos Mazzini, las recibió, desempacó y colocó una en Nabucodonosor. Queríamos saber que pasaba.

¡Funcionan!

Marcos corrió nvidia-smi y allí estaba. Nabu se transformó en una mezcla de placas, un pequeño lab para probar rendimiento in-situ.

Marcos probó GROMACS 2020.2, Jorge Sánchez aprendizaje automático para su investigación actual, y Nicolás Wolovick cuánto hashrate de ETH se obtiene con Phoenix Miner 5.6d que soporta arquitectura Ampere.

      1080Ti        A10        A30
MD   ?? ns/day  267 ns/day   268 ns/day
ML   32 m/iter   25 m/iter    17 m/iter
ETH  32 MH/s     27 MH/s     103 MH/s

En definitiva, compramos once placas que no solo van bien como las A10, en workloads de ML son 47% más rápidas. Resulta notable como, aunque el la potencia pico de precisión simple de la A30 sea un tercio que la A10, el desempeño en resulta similar. En la mayoría de los workloads de HPC, lo que prima es el ancho de banda a memoria y el HBM2 se nota.