Apagado y mudanza de Mulatona y Eulogia

En el marco de la puesta en funcionamiento de los equipos del CCAD en el nuevo UNC Data Center, esta semana se mudaron Mulatona y Eulogia, asi como servidores de archivos, de instalación y nodos frontales.

El lunes pasado se inició la mudanza de Multatona, Eulogia, los NAS, los servers de provisioning y el headnode. Todo este equipamiento estaba en el DataCenter de la Prosecretaría de Informática (PSI) de la UNC y ahora está localizado en el nuevo UNC Data Center.

Los dos cluster se suman a Serafín que ya está instalado entre los 7 racks que el CCAD tiene asignado allí. Acá vemos una panorámica de como está nuestra sección.

Eulogia y Mulatona comparten ahora un rack. Y los NAS, tanto el viejo y querido Chenbro que data de la compra del Cluster Cristina en 2010, así como los dos nuevos NAS que compramos estos últimos años y donde la mitad de los discos fue una compra comunitaria de las y los usuarios.

       

Mientras tanto en el Datacenter de la PSI, se queda solo Mendieta y muchos lugares vacíos.

Mendieta aunque está completamente end-of-life, estamos buscando subsidios para extender aun más su vida útil y transformarlo en computadoras del tipo de Nabucodonosor, con mucha potencia de cálculo float32 en base a GPUs que servirá tanto para aprendizaje automático como para dinámica molecular.

Encender una supercomputadora

El viernes se prendió Serafín completo por primera vez. Se hicieron 2 corridas de 20 minutos del HPL de AMD para probar que todo estuviera funcionando. La prueba pasó con éxito, lo que indica que a priori todos los componentes funcionan correctamente.

El 2 de julio se encendió la chispa, por primera vez los técnicos del CCAD prendieron a través de la red de administración IPMI los 60 nodos dual EPYC 7532 que componen Serafín. Solo esto ya implica un gran paso, ya que sabemos que las 60 motherboards funcionan correctamente, así como la red de administración.

Luego se hicieron dos corridas de 20 minutos de AMD HPL, un benchmark que utiliza todos los núcleos y gran parte de la memoria RAM de los nodos. Durante estas corridas el consumo es máximo y sirve para probar otras partes de Serafín. Ahora sabemos que no hay problemas de alimentación tanto en PDUs como en cables, todos los microprocesadores funcionan, las turbinas internas de los nodos enfrían, que el sandwich CPU/compuesto/disipador tiene baja resistencia térmica, que la RAM está OK, y que el aire acondicionado del UNC Data Center está operativo.
Tal vez la única falla que se detectó es un nodo que no baja la velocidad de sus turbinas cuando no está con carga y por lo tanto sigue generando parte del ruido ensordecedor que se escucha dentro del centro de datos.

En plena corrida de HPL, el Rack 53, uno de los dos donde hay mayor densidad con 6 chasis y por lo tanto 24 nodos, acusó un consumo de 23.6 amperios. Esto indica un consumo por nodo un poco más bajo de lo esperado. Si dividimos por 6 y luego por 4 y multiplicamos por 220 voltios, da un total de 216 watts por nodo. Seguramente haremos más pruebas porque el valor está muy por debajo del TDP de cada procesador que son 200W, y cada nodo tiene 2 de estos.

Debido a la ola de frío que hay en todo el país, el UNC Data Center estaba a muy baja temperatura, y a pesar que los chasis generaban mucho calor, el aire acondicionado solo encendió en un momento y para re-circular el aire. También hay que hacer más pruebas en este aspecto, ya que los veranos resultan tórridos en Córdoba Capital.

Los próximos pasos serán mover Mulatona, Eulogia y el server de provisioning desde el Data Center de la PSI.
Ya falta menos para que podamos dar acceso a Serafín a partir de las cuentas de CCAD y utilizar este recurso tan valioso para la ciencia.

La Provincia se suma al NodoAI Córdoba

El 24 de junio, la Provincia de Córdoba ingresó al NodoAICba con el propósito de apoyar y fortalecer el desarrollo de la IA y la ciencia de datos en Córdoba.

El Presidente del CTC Córdoba Technology Cluster (Pablo Gigy), el Ministro de Ciencia y Tecnología de la Provincia de Córdoba (Pablo de Chiara), el Vicedecano de la FaMAF-UNC (Gustavo Monti) y el Director del CCAD-UNC (Oscar Reula), firmaron el pasado jueves 24 de junio, un convenio de cooperación entre las entidades que conforman el NodoAICba.

Con esto se impulsa aun más el NodoAICba y se incorpora un actor muy importante en el sistema de I+D cordobés, el Ministerio de Ciencia y Tecnología.

Recordemos que el NodoAICba nació el 16 de agosto 2017, con una propuesta  del CCAD-UNC para fortalecer todo el ecosistema de inteligencia artificial, incluyendo infraestructura (computadoras Nabucodonosor), formación (Diplomatura en Ciencia de Datos), y vinculación Universidad-Empresa que se viene realizando de manera sostenida todos estos años con ayuda del CTC.

En los medios

Se inició la instalación de Serafín en el UNC Data Center

Luego que la Subsecretaría de Planeamiento Físico de la UNC a través del Arq. Pablo Senmartín, nos diera el OK, se comenzó con la instalación de los 15 chasis del Cluster Serafín conteniendo los 60 nodos de cómputo dual AMD 7532 en el UNC Data Center

Carlos Bederián, Darío Graña, Marcos Mazzini y Mauro Bordón, estuvieron trabajando todo el día en el UNC Data Center para colocar los 15 chasis 2U y el switch Infiniband. Gracias al IATE-CONICET tuvimos una camioneta para trasladar los equipos.

La disposición actual ocupará 3 racks a fin de ser inicialmente conservadores y balancear el consumo y el calor disipado. Cada chasis tiene una carga estimada en 2550W, ya que cada uno contiene 8 procesadores de 200W TDP cada uno. También se tuvo en cuenta para la disposición el largo de los cables Infiniban splitter. Recordemos que se utilizará un switch Infiniband de 40 bocas de 200 Gbps, divididas en 80 conectores de 100 Gbps. La configuración por ahora será de (6, 3, 6) chasis en cada rack. Luego de que podamos medir consumo real y el funcionamiento del aire acondicionado, probablemente podamos compactar el espacio. Estar en un lugar nuevo y con máquinas nuevas, implica hacer las cosas de manera que minimicemos los posibles problemas.

La semana que viene, pandemia mediante, se terminará con el cableado eléctrico y se empezarán las pruebas de carga eléctrica y de enfriamiento, a fin de verificar que toda la instalación esté adecuada al el funcionamiento de los equipos a pleno.
Luego se trasladarán desde el Datacenter de la PSI, Mulatona, Eulogia, el NAS viejo, el headnode de estos clusters y los servidores de provisioning que también servirán a Serafín.

Timelapse

Mauro Bordón se suma al CCAD como becario

Desde hoy Mauro Bordón, estudiante de cuarto año de la Lic. en Ciencias de la Computación de FaMAF es el primer becario del CCAD-UNC.

A través de una beca BIyDT (Beca de Investigación y Desarrollo
Tecnológico) financiada por el CCAD, se llamó por RD-2021-171 a estudiantes que quisieran realizar esta beca.

Mauro quedó primero en el orden de mérito y desde el primero de junio comienza su beca de 6 meses. El ya se hizo presente en el Datacenter de la PSI para conocer los equipos en funcionamiento, así como en el nuevo UNC Data Center a donde estamos a punto de mudarnos e instalar Serafín.

¡Esperamos que los 800 Kg de equipos para instalar más unos 500 Kg para mudar no le quiten esta sonrisa del primer día!

 

CCAD brinda infraestructura computacional a ARPH.AI

El CCAD está brindando infraestructura de cómputo, almacenamiento y resguardo de datos para el proyecto ARPH.AI. El proyecto, diseñado y ejecutado por el CIECTI (Centro Interdisciplinario de Estudios en Ciencia, Tecnología e Innovación), se diseñó en un contexto marcado por la pandemia COVID-19, con el propósito de utilizar inteligencia artificial y ciencia de datos para detectar de forma temprana potenciales brotes epidémicos y pandémicos.

Desde el mes de abril el CCAD-UNC está dando servicios de cómputo exclusivo para el desarrollo de un proyecto de Aprendizaje Automático y Ciencia de Datos que busca fortalecer políticas sanitarias, políticas de I+D+i y políticas de equidad. El proyecto ARPH.AI (Argentinian Public Health Research on Data Science and Artificial Intelligence for Epidemic Prevention) busca contribuir a detectar brotes potencialmente epidémicos y desarrollar una solución tecnológica basada en Inteligencia Artificial y Machine Learning. De manera particular, el objetivo es apoyar la toma de decisiones a partir de la disponibilidad de una Historia Clínica Electrónica con funcionalidades ampliadas, tratando de mitigar sesgos en varias dimensiones, tales como género, orientación sexual, geografía, entre otros.

Este proyecto es financiado por el IDRC (Centro de Investigación para el Desarrollo Internacional) y Sida (Agencia Sueca de Cooperación para el Desarrollo Internacional).

Para esto se puso a disposición de manera exclusiva un nodo de Mendieta, con 20 núcleos de procesamiento, 64 GiB de RAM y almacenamiento de estado sólido de 2 TiB. La infraestructura de VPN y backups provistas por la PSI (Prosecretaría de Informática) de la UNC.

La infraesturctura será utilizada durante 12 meses y en ese periodo el CCAD brindará servicios de administración de sistema que incluye vigilancia pro-activa, actualización de software de sistema, manutención del repositorio de paquetes y configuración.

Mapa de la infraestructura del CCAD-UNC

Marcos Mazzini, el CPA de CONICET, resumió en un esquema toda la infraestructura del CCAD actual y la que estamos por instalar apenas podamos entrar en el UNC Data Center.

Actualmente toda la parte de Serafín está durmiendo en cajas. En breve mudaremos todo, menos Mendieta, del Data-center de la PSI al nuevo UNC Data Center.

El diagrama muestra algunos cambios de las máquinas que están en producción:

Se muestra también la composición interna de cada uno de los nodos de los cuatro clusters en cuanto a Unidad Central de Procesamiento (CPU) y memoria RAM, asi como la capacidad de cálculo en Unidades de Procesamiento Gráfico (GPU).El diagrama de redes en los nodos se muestra a continuación.

Finalmente los puntos de montaje de cada uno de los filesystems dentro de los nodos y las conexiones de red para comunicarse.

El diagrama completo y vectorial se puede descargar en [PDF].

Curso «Instrumentación dinámica con BPF»

El CCAD-UNC ofrecerá el curso «Instrumentación Dinámica en el Kernel de Linux utilizando eBPF«.
Este curso se dará en 2 encuentros de 2 horas, con 1:30 de exposición y 30 minutos de preguntas. Será a través de la plataforma Google Meet que tiene contratada la UNC.

El curso está a cargo del Ing. Fernando Gleiser (@fergleiser)
Fernando es Ing. Electrónico de FIUBA, y tiene mas de 25 años de experiencia en UNIX y Linux. Es socio fundador y director de ingeniería en DC Solutions empresa de servicios profesionales de IT. Sus áreas de interés son los Sistemas Operativos, performance, redes, file systems y herramientas para descubrir por que los programas no andan como deberían.

Plan de clases

Clase 1. Base teórica, miércoles 19 mayo a las 18hs.
Instrumentación dinámica. ¿Qué es y para qué sirve? Antecedentes. Historia de BPF.
Tipos de programas BPF. Evitando código peligroso en el kernel, el rol del BPF verifier. BPF maps: tipos y operaciones. Tracing con BPF: probes y tracepoints. Comandos útiles y ejemplos.

Clase 2: Aplicaciones, miércoles 9 de junio a las 18hs.
Manejo de tráfico de red de alta performance: Xpress Data Path. Instrumentación simple con BPF: bpftrace. Ejemplos prácticos del mundo real. Haciendo programas mas complejos: BPF Compiler Collection (BCC). Ejemplos con programas ya hechos.

El curso es libre y gratuito para toda la comunidad.

Se requiere conocimiento intermedio de Sistemas Operativos, redes y C/Python. Hay que saber que es un kernel, un puntero a struct y que es un stack de protocolos de red. Se va a hablar de Linux interno, «C» y problemas de Sistemas Operativos modernos todo el tiempo.

El siguiente es un enlace a un formulario de inscripción para las personas interesadas en tomar el curso. Una semana antes, nos pondremos en contacto para enviar información.

[Formulario de Inscripción]

Convenio con FAdeA para correr CFD en nuestros clusters

La Fábrica Argentina de Aviones «Brig. San Martín» S.A. (FAdeA) firmó un convenio de cooperación con CCAD-UNC, donde el Centro de HPC de la UNC le proveerá horas de cómputo a la fábrica para realiza cálculos de dinámica de fluidos computacional (CFD) sobre el entrenador Malvina.

Juan Domingo Vidal de FAdeA nos comenta detalles de lo que están corriendo.

Se está utilizando Mendieta, en la cual se realizaron diversas simulaciones de CFD en el marco del programa del desarrollo de avión de entrenamiento primario IA-100 MALVINA.

En la primer etapa del proyecto se hicieron diversos testeos del programa que permitieron mejorar la implementación en paralelo, y con ello optimizar el uso de los recursos computacionales disponibles. El programa, desarrollado en el IUA, resuelve las ecuaciones de Navier-Stokes incompresibles mediante el método de Elementos Finitos, mediante un algoritmo de pasos fraccionados.


En la segunda etapa se analizaron dos casos: el primero de ellos correspondió a la configuración limpia del avión. En este análisis se obtuvieron los coeficientes CL, CD y el Cm en función del ángulo de ataque.

En el segundo caso se estudió el comportamiento del alerón en un modelo reducido que comprendía solo el ala con la superficie móvil. Este análisis permitió obtener los momentos de charnela del alerón (Cha) en función del ángulo de ataque y de la  deflexión del mismo.

El trabajo realizado hasta el momento demandó 17 simulaciones que en promedio tardaron alrededor de 6 hs cada una, utilizando 4 cores.

Este convenio facilita el uso de horas de cómputo en equipos de la UNC, que anteriormente se compraban al extranjero, siendo los resultados muchas veces sensibles en materia de seguridad para los desarrollos de la empresa, que al hacerlo en equipos de la UNC pueden configurar las prestaciones más eficientemente. Asimismo posibilita que técnicos del CCAD asesoren y/o desarrollen soluciones con personal de FAdeA, como ya se hizo exitosamente con otras empresas (Tarjeta Naranja, M.A. Competición, PROMEDON, etc.).
Es uno de los primeros convenios que tenemos en su tipo, siendo otra muestra de las sinergia que puede haber entre la industria local y la UNC.

El Convenio Específico fue aprobado en Resolución Rectoral 1376/2020 y ya se encuentra en plena ejecución dentro de nuestros equipos de cómputo.

Nueva compra comunitaria de RAM y SSD para Eulogia

Llegaron 29 módulos de RAM y 6 SSD financiados con aportes de la comunidad de usuarios del CCAD-UNC por un monto que ronda los 5000 USD. Con estos elementos podremos poner a producir 4 nodos más de computo y agregar 10.4 TFLOPS de potencia de cálculo.

Parecería que luego de la llegada de un equipo de más de un tercio de millón de dólares y 150 TFLOPS de pontencia, sumar unos módulos de RAM y unidades SSD por 5000 USD para agregar 10 TFLOPS a Eulogia, resulta una trivialidad. Sin embargo no lo es.

Lo que muestra la historia del HPC en Argentina es que aproximadamente cada 7 años se produce una inversión importante en equipamiento en los centros grandes, y luego hay que sobrevivir con eso, esperando la nueva ola. ¿Qué sucede al medio? La nada misma, o en realidad un flujo de caja chica, para mantener los equipos en funcionamiento. En el caso del CCAD-UNC, el aporte anual de la unidades académicas asociadas.

Desde el CCAD-UNC promovemos las compras comunitarias [1,2,3,4,5] como una forma de saltar estos baches y no solo mantener la capacidad de cálculo, almacenamiento y red, sino también de incrementarla. Así logramos compras importantes a partir de magros subsidios personales a investigadoras/es de la UNC que no llegarían a comprar una computadora modesta. Con esta modalidad generamos comunidad e impulsamos una inversión eficiente de los recursos estatales, evitando la compra de equipos personales que duermen la gran parte del tiempo bajo los escritorios.

El aporte de las y los investigadores alcanzó para

En este caso la lista de aportantes es larga y variada, con aportes que van desde 1 módulo de RAM cercano a los $12000 hasta 8 módulos de RAM cercano a los $100000.

  • Ezequiel Leiva, FCQ, UNC.
  • Fábio Negreiros Ribeiro, FCQ, UNC.
  • Promedon S.A., pago del tiempo de cómputo por un servicio de vinculación.
  • FaMAF-UNC, aporte del Decanato.
  • Orlando Billoni, Física, FaMAF, UNC.
  • Mariana Cécere/Federico Stasyszyn, Grupo de Plasmas Astrofísicos, OAC, IATE-CONICET, UNC.
  • Cristian Vay, Matemática, FaMAF, UNC.
  • Carlos Nicolás Kozameh, Física, FaMAF, UNC.
  • Marcelo M Mariscal, FCQ, UNC.
  • Germán J. Soldano, FCQ, UNC.
  • Andrea Costa, OAC, IATE-CONICET, UNC.
  • Miguel Pagano, Computación, FaMAF, UNC.
  • Maximiliano A. Burgos Paci, FCQ, UNC.
  • Carlos Bederián/Nicolás Wolovick, Computación, FaMAF, UNC.

Una vez que se instalen estas partes, Eulogia que ya pasó de 56 TFLOPS a 66 TFLOPS con la compra comunitaria anterior, subirá a 76 TFLOPS float64 pico.

Para completar los últimos cuatro nodos de Eulogia solo faltan 19 módulos de RAM. Estamos pidiendo subsidios a la SeCyT-UNC desde FCQ y FaMAF. Esperemos completar los 12 nodos de Eulogia para mediados de año y que ésta sea el escalón necesario para saltar al nuevo Serafín.