El staff técnico del CCAD en «Polémica en el /var»

«Polémica en el /var» es un prestigioso programa de entrevistas a sysops/devops de Argentina. Los 3 CPA-CONICET del CCAD, Carlos Bederián, Darío Graña y Marcos Mazzini fueron los invitados en esta ocasión donde contaron que hacen y sobre todo como fué la activación de Serafín.

El pasado 10 de septiembre, se emitió en vivo el programa «Supercomputadoras, todo lo que quisiste saber» dentro del programa semanal de SysArmy la comunidad más importante de sysops/devops de Argentina.

Durante una hora y media Carlos, Darío y Marcos estuvieron hablando con @godlike64 contando la historia reciente del CCAD y pusieron foco en Serafín, nuestra nueva supercomputadora.

Hablaron de todas las problemáticas de mantener en funcionamiento los equipos del CCAD-UNC: eficiencia energética, eficiencia en el gasto de equipamiento TFLOPS/USD, refrigeración, red, administración de usuarios, cableado, software, clientes, calidad de servicio. También explicaron algunos malentendidos que suele tener el público en general como por ejemplo «Con 4 RTX 3090 ya hago un Serafín».

Algunos extractos imperdibles:

  • CB: «Equipo que conseguimos, equipo que se usa el 90% del tiempo por todos esos años».
  • CB: «esos 70 nodos (de Cristina) consumían unos 20 KW por unos 4 TFLOPS y Mendieta que es un cluster de 2 o 3 años más tarde con GPUs tiraba 24 TFLOPS y consumía 11 KW».
  • DG: «cuando terminamos apagando Cristina, lo reemplazamos por 3 chasis de Eulogia con 4 nodos cada uno, que eran 6KW. Ahi bajamos de 20 a 6.»
  • MM: «La lógica es exprimir al mango todo lo que se pueda, y maximizar el poder de cómputo por dólar».
  • CB: «La responsabilidad que tenemos va por ahi. Si la pagamos (a la electricidad) la pagamos todos, como empleados públicos tenemos la responsabilidad de hacer buen uso de los fondos de todos».
  • CB: «En una época tuvimos un equipo de STC2000 haciendo simulaciones de aerodinámica para mejorar sus autos».
  • CB: «El motivo por el que está todo tan alto (la posición de Serafín en los racks) es porque estos cables splitter de 200Gbps a 100Gbps son de 2mts de largo entonces es hasta donde llegue el cable».
  • MM: (respecto a lo anterior) «Nos ahorramos 50000 dólares».
  • DG: «Tenemos Infiniband en algunos casos bastante viejo andando, pero nos sigue dando mejores resultados que Ethernet, asi que le seguimos sacando el jugo».
  • DG: «Por precompilado entiéndase que lo compilan los administradores, no es que descargamos un binario ya funcionando, sino que normalmente Charlie se encarga de sacarle el jugo a esos binarios al 101% anque 110%».
  • MM: «Contamos con un manejador de paquetes, yo no puedo hacer un dnf installen la cabacera y en los nodos, queremos performance, todo lo que proveemos a los usuarios es compilado from source y también sus dependencias y también las dependencias que no son compatibles entre si de las 20 versiones de librería que se les ocurra».

Como no podía ser de otra manera, mostraron en vivo un htop de lo que estaba ejecutando el investigador en astronomía Federico Stasyszyn, en este caso tenía hace 5hs 16 nodos, donde cada uno se mostraba como abajo: 64 cores al 100%. Esto es el día a día en el CCAD.