Las trabajadoras y trabajadores del Área Económico-Financiera de la PSI que prestan servicios al CCAD, visitaron el UNC Data Center para conocer todos lo bienes que posibilitaron comprar.
Laura Grassetti, Ana Laura Calderón y Gonzalo Jaimez, están detrás de la operación diaria del CCAD. Ellos gestionan los fondos y realizan todas y cada una de las compras, desde Serafín a un cable miniSAS. Hasta ayer nunca habían visto siquiera un stick de memoria que han comprado.
En la visita, tal vez la más curiosa que haya realizado, los dos contadores y la administradora de empresas hicieron un recorrido diferente. El énfasis no estaba en como se refrigera, o en que tecnologías se utilizan para el cómputo y el almacenamiento, tampoco en que tipos de redes usamos. Su recorrido fue por proveedores, marcas, licitaciones y compras directas. Cada objeto del UNC Data Center pasó, de alguna manera, por sus teclados.
Ayer tratamos de acercar a las personas con su objeto de trabajo. Esperemos haberlo logrado.
Los contenedores y sus orquestadores son una gran oportunidad para facilitar la innovación manteniendo la resiliencia de los servicios en centros de datos. Fernando Gleiser de DC Solutions, brindó una charla sobre «Observabilidad en Kubernetes» dada en FaMAF e invitado por el CCAD-UNC.
Kubernetes está de moda, todo se dockeriza y se orquesta. Las ventajas son muchas. Podés hacer deploy incremental de nuevas features, con posibilidad de rápido rollback para que la QoS siga siendo alta, pero favoreciendo la innovación, el cambio en las infraestructuras que brindan servicios.
Sin embargo esto tiene costos muchas veces ocultos. ¿Cómo lograr debugging y performance analysis de una maraña de containers con microservicios orquestados? La respuesta está en la observabilidad y esto es lo que el Ing. Fernando Gleiser mostró el pasado lunes en el Auditorio de FaMAF.
Utilizando herramientas en containers que por debajo se paran sobre eBPF, Fernando mostró que esta galleta de µservicios se pueden comprender para que el ciclo de mejora ya sea en bugs o en desempeño, no se convierta en un arte oscuro que solo pocas/os dominan. La clave está en saber que existen las herramientas para hacerle las preguntas adecuadas al sistema.
Esto es lo que presentó durante 45 minutos de charla y 45 minutos de live-demo, que dejaron slides, videos y todos los punteros para seguir estudiando y profundizando en el tema.
A partir de una colaboración académica se podrá acceder a cómputo interactivo en la nube y esto permite utilizar técnicas avanzadas de procesamiento de datos aplicados al desarrollo de las Ciencias Farmacéuticas.
Desde hace algunos meses, el Centro de Computación de Alto Desempeño (CCAD, UNC) participa de Catalyst Project, un proyecto que busca crear un servicio de cómputo interactivo para América Latina y África (ver más). En este marco, y a través del CCAD, la Unidad de Investigación y Desarrollo en Tecnología Farmacéutica (UNITEFA, CONICET-UNC) creó la primera comunidad en la UNC, dirigida por el investigador Mario Alfredo Quevedo.
UNITEFA es una unidad ejecutora del CONICET y la UNC, donde se llevan a cabo una gran diversidad de estudios relacionados con las Ciencias Farmacéuticas. “En ese contexto, se planean y ejecutan una gran diversidad de experimentos, lo cuáles generan alta cantidad de datos que requieren manejo y procesamiento adecuado a los fines de extraer/analizar las conclusiones correspondientes. En ese marco, la disciplina de Ciencia de Datos, constituye una herramienta muy valiosa en el nicho científico que ocupa UNITEFA” explica Quevedo. “Sin embargo, la mayor parte del personal no se encuentra entrenada en técnicas avanzadas de manejo y procesamientos de datos a escala media-alta, como así tampoco respecto de la automatización de workflows para análisis de rutina. En la actualidad gran parte del personal emplea las técnicas clásicas y de baja eficiencia para atender dicho procesamiento de datos”, agregó el investigador.
En ese contexto, un grupo de investigadores que poseen conocimientos en el manejo y procesamiento de datos empleando el lenguaje de programación Python, decidieron socializar estas habilidades. En el marco de un proyecto más amplio (más información) y con el objetivo de potenciar las capacidades del UNITEFA para el aprovechamiento de recursos de cómputo en la nube, se realizó una Jornada de Ciencia de Datos. Dicha jornada de capacitación estuvo orientada a investigadores/as, becarios/as y estudiantes que desempeñan sus tareas en el UNITEFA, con la finalidad de potenciar sus capacidades científicas a través del procesamiento de datos y el acceso a recursos de cómputo en la nube.
Según explican desde UNITEFA, esta tecnología “nos permite analizar nuestros datos experimentales con mayor capacidad, tanto en el tipo de análisis, como así también en el volúmen de datos que se pueden manejar. A esos beneficios hay que sumarle una mayor rapidez y facilidad de procesamiento una vez que se han programado los procedimientos requeridos”.
“El CCAD es parte del Catalyst Project, y además de haber generado esta primera comunidad, colaborará para desplegar el servicio de JupyterHub de 2i2c (https://2i2c.org/) en infraestructura propia, logrando asi la soberanía del cómputo. Alejandro Silva comenzó el pasado martes 17 de octubre, su pasantía en 2i2c, donde se entrenará para entender el flujo de trabajo y así ganar knowhow para en el plazo de un año poder desplegar desde el CCAD el servicio de cómputo interactivo en infraestructura propia dentro del UNC Data Center. Este es el objetivo planteado en colaboración con 2i2c y CCAD que por un lado le permitirá a 2i2c validar que es posible desplegar su servicio en nubes locales y por el otro lado dará a Latinoamérica mayor soberanía en el cómputo interactivo”, explicó Nicolás Wolovick.
Agrupaciones estudiantiles de UNC y UNLP organizaron una charla para conocer más sobre la supercomputadora Clementina Siglo XXI recientemente inaugurada. Nuestro CPA, el Lic. Marcos Mazzini estuvo contando sobre las características del primer TOP500 de la Argentina.
¿Qué es, cómo funciona y para qué se va a usar un TOP500 en Argentina? Durante una hora, el CPA de CONICET que trabaja en CCAD-UNC, el Lic. Marcos Mazzini estuvo tratando de responder estas preguntas, en una charla organizada por las agrupaciones estudiantiles La Fuente de Info-UNLP y GURI de FaMAF-UNC.
Marcos dejó en claro que lo más importante es lograr que le máquina esté al 100% por lo cual se requiere un trabajo intenso de generación de demanda de supercómputo. También contó los desafíos de aprovechamiento de las GPUs Intel Ponte Vecchio (PVC) que son las que erogan la mayor potencia de cómputo.
Investigadores del Instituto Interdisciplinario de Ciencias Básicas (ICB, CONICET-UNCUYO), usando simulaciones realizadas en el CCAD, participaron de un trabajo internacional que creó líquidos con alta compresibilidad.
«La compresibilidad es la capacidad que tiene un material de cambiar su volumen ante un cambio de presión, y que da origen a aplicaciones tecnológicas en neumática e hidráulica. Es una propiedad inherente a todos los materiales, pero los líquidos son prácticamente incompresibles. No obstante, puede obtenerse un líquido compresible si se suspenden nanopartículas porosas con cavidades hidrofóbicas en una solución acuosa: al aplicar una presión externa suficiente, las moléculas de solución logran ingresar a las cavidades. Tal líquido pudo desarrollarse a partir de nanopartículas suspendidas en agua y en soluciones acuosas de metanol», explica Mario Del Pópolo, investigador del CONICET en el ICB y docente en la Universidad Nacional de Cuyo.
«El material obtenido, además de ser compresible, se comportó como un amortiguador y pudo volver a su volumen original cuando se liberó la presión. Se observó además que si se agregan sales o metanol, se puede aumentar o disminuir, respectivamente, la presión necesaria para comprimir el sistema», agregó el científico.
El trabajo fue producto de una colaboración entre grupos experimentales y computacionales del Reino Unido y de Argentina. «En nuestro país, esta labor se llevó a cabo en el grupo de Simulaciones en Biofísica y Materia Blanda del ICB CONICET/UNCUYO. La mayor parte de las simulaciones y cálculos con los que contribuyó el equipo argentino se llevó a cabo en los clústeres Mendieta Fase 2 y Serafín del Centro de Cómputo de Alto Desempeño (CCAD) de la Universidad Nacional de Córdoba. Hubiera sido imposible emprender esta tarea, que insumió un gran tiempo de cómputo por la extensión de las simulaciones y el tamaño de los sistemas simulados, sin los recursos y la asistencia del CCAD«, expresó Del Pópolo.
A propósito de las posibles implicancias prácticas del trabajo, el científico comentó que estos materiales «todavía no tienen aplicaciones concretas, pero tampoco están tan lejos. Podrían usarse para fabricar amortiguadores, que son dispositivos que sirven para absorber impactos».
Finalmente, tal como se afirma en una nota aparecida en el portal de CONICET, «El estudio cambia el paradigma sobre la incompresibilidad de los líquidos y aporta datos sobre potenciales aplicaciones industriales que podrían estar relacionadas con la amortiguación o la absorción de impactos. Por lo pronto, los investigadores continúan trabajando para entender cómo funciona el proceso a nivel molecular. Nuestro trabajo es simular el proceso y el comportamiento de las moléculas adentro de este material. Seguimos trabajando en eso. Todavía quedan muchas preguntas por responder», concluye Del Pópolo.
Referencia bibliográfica
Beibei Lai, Siyuan Liu, John Cahir, Yueting Sun, Haixia Yin, Tristan Youngs, Jin-Chong Tan, Sergio F. Fonrouge, Mario G. Del Pópolo, José L. Borioni, Deborah E. Crawford, Francesca M. Alexander, Chunchun Li, Steven E. J. Bell, Barry Murrer, Stuart L. James, «Liquids with High Compressibility. Advanced Materials«, Adv. Mater.2023, 2306521.
Durante la décima edición de la Conferencia Latinoamericana de HPC, miembros del CCAD participaron como disertantes en un workshop, dictando un tutorial y asistiendo a las diversas actividades que se ofrecieron en Colombia entre el 18 y el 22 de septiembre.
Los CPA del Centro de Computación de Alto Desempeño, Marcos Mazzini y Alejandro Silva, y el director, Nicolás Wolovick, viajaron a Cartagena, Colombia, para participar de CARLA 2023. Esta conferencia se realiza todos los años con el fin de proveer un foro que permita fortalecer el crecimiento de la comunidad del HPC en Latinoamérica a través del intercambio y difusión de nuevas ideas, técnicas e investigación.
El día lunes 18 tuvo lugar el tutorial “HPL for the Global South”, dictado por Marcos Mazzini y Nicolás Wolovick. «Fue interesante también participar como instructor de un tutorial y encontrarme con administradores de otros centros. Pudimos intercambiar visiones sobre las implicancias de algo tan técnico como instalar y ejecutar un benchmark pero dándole un enfoque de por qué en el norte global se cuestiona su utilidad mientras que para nosotros puede ser importante igual poder ejecutarlo eficientemente», expresó Marcos. Y añadió “por otro lado ofrecimos un entorno de Spack para instalar el benchmark HPL, así que todos los que participaron pudieron llevarse algo. Había muchos que no utilizaban Spack y les resultó de gran ayuda”.
El martes 19 se desarrolló el workshop “Good Practices in HPC Management” que coordinaron Nicolás Wolovick, Ivan Girotto (ICTP) y Ferndo Posada (Temple University College of Science and Technology). El objetivo del workshop era acercar a los encargados de administrar y coordinar los recursos, con los técnicos y expertos, para discutir tecnologías, casos prácticos y prácticas óptimas que permitan mejorar el aprovechamiento de los recursos disponibles en HPC, adecuándose a las realidades particulares. “Se hizo con una dinámica grupal, donde cada equipo tenía que responder una serie de consignas y a raíz de eso los grupos se conocieron, pusieron cosas en común sobre preguntas que tienen una respuesta particular para nuestra idiosincrasia cultural y nuestras particularidades económicas. El resultado fue muy positivo y además se generaron muchos vínculos, que era el principal objetivo”, describió Wolovick.
Con respecto a la experiencia en general, Marcos Mazzini contó que «es la primera vez que participo de esta conferencia. La verdad que me pareció muy positivo que la comunidad de HPC de Latinoamérica tenga un lugar de encuentro. No es una comunidad tan grande y todos nos encontramos con desafíos similares».
Por su parte, también significó la primera participación para Alejandro Silva, quien a partir de una beca ICTP de Trieste, está realizando una estadía en la Escuela de HPC Barranquilla. Gracias a esta experiencia pudo acceder a la conferencia como asistente. “Tuve la increíble suerte de que uno de los organizadores, Javier Montoya, además de darnos una clase muy interesante en el curso del ICTP, nos ofreciera becas a los estudiantes que quisiéramos asistir a CARLA. Fuimos 3 los que decidimos quedarnos más tiempo e ir, toda una aventura. Asistir a las charlas, tutoriales y workshops fue reencontrarse con los temas que vimos en el curso, pero, esta vez, aplicado a problemas y clusters reales, en el contexto latinoamericano”, expresa Silva.
“Esperamos con ansias CARLA 2024 que va a tener lugar en Santiago de Chile. Va a ser una gran oportunidad para seguir avanzando. CARLA pegó un salto muy fuerte este año, fue la edición que mayor concurrencia tuvo, y en 2024 voy a ser el Sponsors Manager, con el objetivo de que las vinculaciones del sector académico, el tecnológico y las empresas sean lo más fructíferas posible” comenta Wolovick.
“Planeamos también hacer una competencia de estudiantes en clusters y también planeamos que los vendors, traigan equipamiento para mostrar. Queremos que esto se transforme en una mini feria de HPC pensando en que el hardware para nosotros es casi lo más importante así que tiene que estar presente”, concluyó el director del CCAD, con miras a futuro.
El evento organizado por la Unión Industrial de Córdoba tuvo lugar el pasado 14 de septiembre y posibilitó el intercambio y discusión entre el sector privado, el público y el académico.
El Centro de Computación de Alto Desempeño (CCAD) de la UNC, participó en una nueva entrega del evento más importante del sector industrial de Córdoba. En dicho encuentro, se hicieron presentes autoridades gubernamentales, reconocidos académicos, destacados referentes de la industria y más de 600 empresarios y empresarias industriales de la provincia de Córdoba con el objetivo de debatir qué se necesita para propiciar el desarrollo económico y social del país.
En este marco, y casi al final de la jornada, se llevó a cabo el Panel “Tendencias Emergentes: Inteligencia Artificial, Hidrógeno y el Espacio” en el que participaron Nicolás Wolovick, director del CCAD; Álvaro Soldano, subgerente de Aplicaciones y Productos en la Gerencia de Observación de la Tierra de la CONAE y Julio Mateo, Economista y consultor de transición energética; con Gabriela Origlia, periodista Telefé Córdoba y corresponsal La Nación, como moderadora.
En dicho Panel, cada disertante expresó porqué el sector al que representa es estratégico en el desarrollo del país, pero también en la competitividad de las empresas. Al mismo tiempo, acordaron en que es necesario “subirse al tren” de estos avances tecnológicos si se quiere participar de una economía mundial con perspectivas de crecimiento nacional.
En relación al Hidrógeno verde, Julio Mateo expresó la importancia que tiene en diversos sectores económicos como la industria minera o la industria alimenticia, en diversos puntos de la producción. “El hidrógeno y su cadena de valor, es energía renovable pero es toda producción industrial encadenada que nos abre una oportunidad enorme en un sector dinámico”, aseguró. “El hidrógeno verde podría suplir a los combustibles fósiles en la generación de energía y también crear alternativas más eficientes y con una menor huella ecológica”, añadió.
Por su parte, Álvaro Soldano, historizó el desarrollo de la industria aeroespacial en el país y aseguró que en la actualidad constituye un área activa, en crecimiento y generadora de divisas para el país. “Los satélites permiten apuntalar a diferentes sectores y en eso se vienen empleando: servicio de agua potable, agro, minería, litio, monitoreo de plataforma marítima y otros sectores estratégicos, tanto dentro del país como internacionalmente”, comentó.
Finalmente, Nicolás Wolovick habló de las posibilidades y los desafíos que implican las nuevas tecnologías relacionadas a la Inteligencia Artificial. “El aprendizaje automático, más precisamente, es necesario para aumentar la competitividad de las empresas porque permite usar las computadoras para mejorar los procesos y también los productos con mayor rapidez y sin necesidad de hacer pruebas prácticas”, explicó. Y agregó que, en ese sentido, se creó localmente el NODO AI, donde convergen el sector público, el privado y la academia. Nos hemos puesto de acuerdo y trabajamos en conjunto para hacer crecer la IA en Córdoba y en el país, porque lo consideramos estratégico.
Desafíos del desarrollo de la IA
Por un lado, Wolovck señaló que existe una carencia de aceleradores de GPUs a nivel mundial por la grandísima demanda que genera el crecimiento de las IA. “La demanda está creciendo más rápido que la capacidad de cómputo de los procesadores, por ende se necesitan muchos más aceleradores de los que se pueden producir. En la actualidad demoran unas 53 semanas desde que se efectúa una compra en llegar, y esto es porque el mundo entero se está volcando al desarrollo de las IA”.
Por otra parte, el director señaló una seria dificultad en relación al gran consumo energético de las computadoras que llevan a cabo las tareas necesarias para mantener esta gran maquinaria funcionando. “Hay investigaciones en Suecia que indican que si continúa este crecimiento exponencial de las IA, con la ley de Moore, ya no va a haber energía que sostenga a los centros de computación. Y eso es un desafío que tiene que ver con las energías verdes pero también para nuestra ciencia porque tenemos que aprender a hacer más con menos, la eficiencia energética desde el hardware y el software”.
Por último, ante la pregunta de la moderadora frente al temor que tienen algunas personas de que las IA reemplacen a los seres humanos, Wolovick explicó que “la inteligencia artificial es diferente a la inteligencia humana. Hay muchos tipos de inteligencias y estamos ahora creando una nueva. Pero me parece que el Cuco está mal pensado, el Cuco está en los niveles de desigualdad. En este momento las empresas que son capaces de entrenar estos grandes mitos de la inteligencia artificial de los últimos años, chat GTP y esas cosas, son muy pocas en el planeta. La concentración del poder que se está dando gracias a la inteligencia artificial y todo lo que trae, me parece que es lo verdaderamente problemático. La IA va a ser una herramienta, que va a potenciar a los humanos, va a ser otro tipo de herramienta y va a mejorar la vida, sin dudas, pero hay que tener muchísimo cuidado con esas otras variables porque justamente, si nosotros no tenemos desarrollo local, en algún momento, así como nos quedamos sin el combustible de Europa del Este, también nos podemos quedar sin cómputo de esos países. Estos modelos toman muchísima energía y muchísimo trabajo de gente para ser entrenados. Por ahora nos lo están dando gratis, mañana no sabemos”.
“Tenemos nosotros la capacidad de entrenar nuestros propios modelos, con nuestras propias necesidades? No. En este momento, no. Y en eso sí hay que trabajar, se está trabajando en políticas sostenidas para el desarrollo de la IA, a nivel nacional, ya conté el caso local de lo que estamos haciendo. Pero bueno, como decía, en algo estamos más que de acuerdo los tres, es que el Estado tiene que sostener políticas, en espacial lo ha hecho, en energía lo ha hecho, y en educación lo ha hecho. Nosotros tres somos producto de la universidad pública y hace 50, 60, 70 años que se invierte muchísimo dinero. Y muchos de nosotros sabemos que Argentina tiene que ver con una educación de altísima calidad y pública. Entonces me parece que en ese sentido es un común denominador de estas cosas, continuar con las políticas sobre todo en las temáticas donde está claro que van a ser más que importantes, como son estas tres a futuro.”, concluyó Wolovick.
El prestigioso ICTP de Trieste apuesta a diversificar geográficamente la formación de recursos humanos en tecnologías, fundamentos y prácticas para el desarrollo científico. Alejandro Silva, CPA CONICET con lugar de trabajo en CCAD, fue becado y está participando de esta Escuela.
El ICTP (International Center for Theoretical Physics) es un instituto que promueve la ciencia del más alto nivel para países en vías de desarrollo. A través de sus Escuelas de Verano (SMR) realiza capacitaciones intensivas con prácticas, dictadas por equipos de primer nivel. En ellas estudiantes de doctorado e investigadoras/es se reúnen durante dos semanas con un régimen de tiempo completo y asi poder estrechar lazos entre las diferentes comunidades que representan y avanzar en temas específicos.
Alejandro Silva se incorporó al CCAD en agosto de este año, se presentó para el «3rd Latin American Introductory School on Parallel Programming and Parallel Architecture for HPC» | (smr 3872) y quedó seleccionado con beca completa incluyendo el viaje.
La escuela se está desarrollando en la Universidad Simón Bolivar de Barranquilla, y los docentes son:
S. Di Gioia, ICTP, Italy.
I. Girotto, ICTP, Italy.
A. Kohlmeyer, ICTP/Temple University, USA.
J.A. Leyva Rojas, Simon Bolivar University, Colombia.
El paleontólogo Martín Ezcurra corrió análisis de filogenia en las computadoras del CCAD para un artículo que terminó publicado en la tapa de la revista Nature del 17 de agosto de 2023.
En septiembre de 2022 el Paleontólogo Martín Ezcurra nos escribía:
«Estimado Nicolás Wolovick: soy Martín Ezcurra, paleontólogo del CONICET-Museo Argentino de Ciencias Naturales en Buenos Aires. Estoy averiguando porque necesito realizar un análisis filogenético de inferencia Bayesiana (con el programa MrBayes) y requiere mucho tiempo computacional. Comencé a correr el análisis en mi computadora de escritorio y ya va a llegar casi a una semana y parece estar lejos de terminar. Entonces mi consulta es si su cluster está solo disponible para usuarios de la UNC o si está abierto también para otras instituciones? Muchas gracias, Martin»
En un mes ya estaba corriendo en una workstation poderosa donde nos asociamos el CCAD y FAMAF para tener 48 núcleos Zen3, 128 GiB DRAM DDR4 y 3.4 TiB de NVMe 4.0.
El resultado fue más que positivo y en pocas jornadas obtuvo los resultados que le hubieran tomado meses en su computadora personal. Se publicó en Nature (620)7974. El trabajo fue reseñado en en los portales más influyentes del planeta como el NYT.
La clave no fue el poder de cómputo o la capacidad técnica en HPC, si no atender las necesidades básicas de los investigadores de Ciencia y Técnica del país, algo que seguiremos haciendo porque está en nuestro ADN: satisfacer las necesidades de cómputo científico y tecnológico de la envergadura que sean.
Una falla de fabricación de los chips de RAM de Serafín derivó en un recambio por parte del fabricante de más del 70% de la memoria. En estos 43 nodos la memoria pasó de 128 GiB a 256 GiB. Se aprovechó la parada total para hacer una actualización de software completa.
«Uncorrectable ECC» En febrero de 2022 empezamos a tener reportes de errores simples de RAM (corregibles) y algunos dobles (reinicio). Luego de descartar problemas en la calidad del suministro eléctrico, y comprobar que no había grandes fuentes de RF que pudieran meter ruido, empezamos a realizar recambio de los módulos que iban fallando, ya que no había correlación espacial ni temporal alguna de las fallas. Los errores aparecen de esta forma en la BMC, donde todos los que son errores incorregibles implica un reinicio del nodo.
En octubre de 2022 enviamos 30 módulos 8GB 1Rx8 PC4-3200AA-RD1-12. En marzo de 2023 enviamos 65 módulos más y sin prisa, pero sin pausa, la tasa de fallo iba en aumento. En mayo de 2023 nos avisan desde Supermicro que un lote de memoria con chips Hynix tenía una error de difusión que acumulaba.
El 28 de junio, Rodrigo Díaz el FAE de Supermicro nos decía: «como resultado del Failure Analysis hecho en los DIMMs que fallaron anteriormente y tras negociaciones que sostuvimos con el proveedor la acción inmediata que tomaremos es reemplazar 699 DIMMs de 8 GiB del total de 960 que tienen actualmente por 699 DIMMs de 16 GiB. El problema de manufactura durante el Photoresist Strip Process, genera una falla en el contacto bajo el M0C, este fallo hace que durante los ciclos de uso de la memoria las variaciones normales de temperaturas, sin necesidad de llegar a picos térmicos, se pierda cada vez más el contacto entre los componentes, lo que en un plazo indeterminado conduce a una completa falta de contacto y a su vez dará errores Multi Bit«.
El recambio
Con las 688 memorias para los 43 nodos y 11 módulos más para reemplazo en la mano, el viernes 4 de agosto se empezaron a drenar las colas de trabajos y el lunes con la computadora ya vacía, los 3 CPA CONICET que trabajan en el CCAD movieron los 960 módulos de RAM DDR4 que tiene Serafín, cambiaron las 60 pilas de las placas madres y sopletearon todos los nodos para eliminar polvo de yeso.
Carlos Bederián, Alejandro Silva y Marcos Mazzini entraron al UNC Data Center temprano a la mañana y salieron cuando el sol ya no estaba. Algo que varios estimábamos que iba a tomar tres días como mínimo, se hizo en uno solo.
A partir del martes empezó un trabajo aun más largo y preciso. Había dos necesidades urgentes de actualización, una cambiar el kernel por ZenBleed (24 julio 2023) y la otra por la salida de la última versión del compilador AOCC, (4 agosto 2023). También era necesario actualizar el software de las 3 computadoras que componen el BeeGFS de Serafín. Cambiar el kernel implicó pasar a Rocky 8.8, cambiar el compilador implicó rehacer todo el stack de software. En definitiva se reinstaló todo Serafín de cero.
Luego de 10 días de parada, el resumen fue:
Subir de 128 GiB a 256 GiB de RAM los primeros 43 nodos.
Actualizar el sistema operativo de la cabecera y nodos de cómputo a Rocky@8.8.
Actualizar los compiladores las versiones más nuevas disponibles: aocc@4.1.0, gcc@12.3.0.
Actualizar las versiones de las aplicaciones instaladas: gromacs@2023.2, lammps@20230802, nwchem@7.2.0, quantum-espresso@7.2.
Actualizar el software del sistema de almacenamiento distribuído del cluster (BeeGFS).
La máquina recuperó la confiabilidad y podrá producir más horas/core por mes. Nos queda ir a dejar las pilas usadas a algún punto de acopio.