El mes pasado fue la máxima marca de horas-cores producidas por Serafín, nuestro clúster insignia. Esto muestra dos cosas, un conjunto de máquinas bien mantenidas en software y hardware y por el otro una demanda generada y debidamente atendida.
Durante julio se produjeron 2.767.321 horas-core, esto quiere decir que si tuviéramos una computadora con un solo núcleo Zen2, los cálculos que se produjeron en julio demorarían 2.7 millones de horas o sea aproximadamente 316 años. Al ser Serafín masivamente paralelo y tener 120 pastillas de 32 cores cada una, eso quiere decir que cada core estuvo trabajando 720 horas en el mes, o sea 30 días. Se tomó un solo día de vacaciones es decir ¡Una utilización del 96%!
Estos números no solo dicen lo obvio: «usamos todo lo que tenemos», sino que muestra una necesidad de cómputo que debe ser atendida. Tenemos una base de más de 200 usuarios en una plataforma que establemente entrega cómputo a la comunidad científica y tecnológica del país y esas usuarias necesitan más. En un email privado, un usuario me decía:
«Te escribo porque, desde hace un par de semanas, veo usuarios del CCAD que usan más de 4 nodos, y la cola [de trabajos de Serafín] se está volviendo un infierno.»
El usuario es externo a la UNC, y por lo tanto entra dentro del esquema del 20% que damos a usuarias/os externos, y al estar tan demandado el clúster, los externos tienen una demora importante.
Es interesante pensar que pasará con este usuario, que tiene una necesidad concreta de cómputo en nuestros clústers que está acostumbrado a usar. Tal vez espere, tal vez su trabajo científico se atrase, tal vez empiece a pensar en hacer menos cómputo, o moverse a otro clúster fuera de Argentina.
Recordemos que esta y todas las supercomputadoras del CCAD producen cómputo que sirve para generar papers y vinculación. Tenemos papers en Science y Nature. Tenemos a Y-TEC corriendo modelos para exploración de gas y petróleo. Tenemos 60 publicaciones científicas por año producidas con esta infraestructura de supercómputo.
Esto es un buen ejemplo de lo que significa el HPC en un país donde esta tecnología es emergente, se tiene que construir demanda y oferta de manera sincronizada. Si generamos una oferta de cómputo excesiva, será subutitlizada y por lo tanto los indicadores mostrarán que la inversión no fue necesaria. Si generamos una demanda que el cómputo no puede atender, esta migrará a cómputo fuera del país en el mejor de los casos (donde los proyectos deberán cambiar en beneficio de esos países) o esa demanda desaparecerá.
El desafío tiene varias dimensiones y un timing preciso: generar demanda, tener equipamiento operativo, crecer en hardware y repetir. Todo esto sobre una fino colchón de Ley de Moore, donde un equipo de supercómputo se vuelve obsoleto en 5 años.
Queremos al menos llegar a un estado estacionario donde comprar una computadora de 5M USD cada dos o tres años sea una política de estado.
Evolución del cómputo en Serafín
Es interesante notar que tenemos 3 períodos claramente diferenciados.
- [jul2020-jul2021] Inicio de la infraestructura, donde toma casi un año que las y los usuarios adopten esta tecnología, debido a la inercia de permanecer en clusters donde ya tienen todo instalado.
- [ago2021-ago2023] Empiezan los problemas con los módulos de RAM y tenemos entre un 20 y un 30% de los nodos abajo.
- [sep2023 a la fecha] Se sostiene el crecimiento de la demanda, llegando al pico durante el mes pasado.
Por: Nicolás Wolovick
Director CCAD-UNC