Nuevos representantes de FCEFyN en CCAD

Se continua con el proceso de renovación de las y los representantes en el Centro de Computación de Alto Desempeño de la UNC. En este caso la Facultad de Ciencias Exactas, Físicas y Naturales, nombró por primera vez a sus representantes para integrar el Directorio del CCAD. Como titular asumió Nehuen Gonzalez Montoro y como suplente, Renato Cherini.

Nehuen Gonzalez Montoro es Ingeniero electrónico (UNC), profesor de Informática e investigador del Laboratorio de Comunicaciones Digitales y Centro de Vinculación de Comunicaciones Digitales de la FCEFyN. Se especializa en algoritmos y modelos para el análisis, planificación y aprovisionamiento en redes ópticas.

 

 

Renato Cherini es Doctor en Ciencias de la Computación (FAMAF-UNC), Profesor en FAMAF y FCEFyN. Participa de numerosos proyectos de investigación en verificación formal de programas, filosofía de la computación, y más recientemente, deep learning geométrico. Además participa en proyectos de vinculación tecnológica con el sector aeroespacial y de telecomunicaciones.

Diez Milan y ocho A10 para CCT-Rosario

Con fondos de la Provincia de Santa Fé, el CCT-Rosario compra equipamiento de HPC. Dos servidores ultradensos uno de CPU y otro de GPU, más un switch Infiniband conforman este combo que se suma al cómputo de CyT de Santa Fé.

Casi al finalizar el año, llegaron al CCT-Rosario, los equipos que se obtuvieron del concurso de la Agencia Santafesina de Ciencia, Tecnología e Innovación (Asactei) con código PEICE-2021-014. Pablo Granito y Fabio Busnengo fueron los titulares del este proyecto, que fué adjudicado a MultiTech.

Hay tres partes del equipamiento. Primero que todo un switch Infiniband exactamente igual al de Serafín, un Mellanox HDR-200. En Rosario harán el mismo aprovechamiento que nosotros utilizando los cables splitter de 1 HDR-200 a 2 HDR-100.

La segunda parte es un server BigTwin de Supermicro ultradenso conteniendo 4 nodos cada uno con:

  • 2 EPYC 7513, arquitectura Milan, de 32 núcleos y 1.33 TFLOPS.
  • 256 GiB DRAM ECC DDR4-3200, llenando los 16 canales del nodo.
  • NIC IB HDR100 conectado a PCIe 4.0 16x.
  • NVMe 256 GiB.

Los 4 nodos están en un chasis Supermicro AS-2124BT-HNTR, y totalizan 8*1.33=10.64 TFLOPS Rpeak. El Dr. Busnengo estima que han aumentado en un 50% la capacidad de cómputo en doble precisión.

Finalmente adquirieron un chasis AS-2114GT-DNR también de Supermicro que contiene dos nodos con:

  • 2 EPYC 7513, arquitectura Milan, de 32 núcleos y 1.33 TFLOPS.
  • 128 GiB DRAM ECC DDR4-3200, llenando los 16 canales del nodo.
  • NIC IB HDR100 conectada por PCIe 4.0 16x.
  • NVMe 256 GiB.
  • 4 NVIDIA A10, arquitectura Ampere GA102, con 24 GiB GDDR6 conectados por PCIe 4.0 16x. Cada una eroga 31 TFLOPS en precisión simple.

Las 8 GPUs totalizan 248 TFLOPS para cómputo de aprendizaje automático.

Tanto la solución de CPU como la de GPU tienen muy buen ancho de banda a memoria. La primera supera los 350 GiB/s por nodo a sus 256 GiB, mientras que la GPU permite un máximo de 600 GiB/s a sus 24 GiB de memoria.

Nos alegra saber y comunicar que los Centros de HPC del país siguen creciendo.

 

Nicolás Wolovick, Director del CCAD-UNC

Conocer la diversidad genética de las antiguas poblaciones pampeanas a través de Mendieta

Angelina García -investigadora- y Nicolás Pastor -personal de apoyo- del IDACOR (CONICET-UNC), emplean los recursos del CCAD para estudiar la variabilidad genética de diferentes poblaciones humanas de Argentina.

El sur de la región pampeana de nuestro país fue uno de los primeros espacios geográficos en ser ocupados en el continente americano. Sin embargo, la dinámica evolutiva de los poblaciones que habitaron esta región ha sido escasamente documentada y preguntas relacionadas con la continuidad e interacciones con otros grupos siguen abiertas. Justamente, en esos puntos vacíos se centra el trabajo en el que participan Angelina García, investigadora del CONICET, y Nicolás Pastor, profesional de apoyo del CONICET, en el Instituto de Antropología de Córdoba (IDACOR, CONICET-UNC). “Nuestro proyecto marco tiene por objetivo comprender los procesos microevolutivos que dieron forma a la variabilidad genética de diferentes poblaciones humanas de nuestro país, y así contribuir al conocimiento de su historia evolutiva. En este estudio describimos los patrones espaciales y temporales de la diversidad genética por línea materna de grupos humanos procedentes del sur de la región pampeana”, explica la investigadora.

Dicho estudio se centró en el análisis de mitogenomas, es decir, de todo el ADN que se encuentra en las mitocondrias -ubicadas en el citoplasma de las células, en lugar del núcleo como el resto del ADN- y que se hereda exclusivamente por línea materna. Para elaborar los patrones espaciales y temporales de la dinámica poblacional de la región, se compararon los datos obtenidos en este estudio con una base de datos que recopila 2.577 mitogenomas modernos y 160 mitogenomas antiguos, procedentes de datos previamente publicados de poblaciones sudamericanas.

Mendieta Fase 2 (MendietaF2) es fundamental en este proceso ya que, si bien estos análisis pueden realizarse fácilmente en computadoras personales cuando son a pequeña escala (en el orden de cientos de secuencias con cientos de bases), el análisis de miles de secuencias de mitogenomas completos (cada uno con 16.569 pares de bases) se torna computacionalmente ineficiente. “Previo a que tomáramos contacto con el CCAD, realizábamos estos análisis en nuestras computadoras personales, dedicadas exclusivamente a este procesamiento durante semanas, a fin de completar una sola corrida. Actualmente, aprovechando las GPUs NVIDIA A30 del cluster MendietaF2, podemos completar una corrida en menos del tiempo límite de ejecución del nodo (48 hs)”, comenta Pastor. “Esto claramente potencia nuestro trabajo ya que nos permite ejecutar más corridas en un mismo período de análisis, y así poner a pruebas diferentes modelos, incluyendo los más complejos que serían prohibitivos en computadoras personales. Todo ello, nos posibilita estar a la altura del estándar internacional para análisis de este tipo, sin necesidad de comprometernos en colaboraciones forzadas por la disponibilidad a los recursos computacionales, brindándonos autonomía para llevar adelante nuestras investigaciones y soberanía sobre las preguntas que las motivan”, agrega Pastor.

 

Mendieta y BEAST, al servicio de la Genética de Poblaciones Humanas

Los trabajos que hemos ejecutando en el cluster MendietaF2 implicaron la utilización del programa BEAST, con el cual se realizaron análisis Bayesianos a partir de secuencias de ADN mitocondrial, utilizando el método de Monte Carlo basado en cadenas de Markov (MCMC). De forma general, a partir de las secuencias de ADN , combinando diferentes modelos teóricos de evolución molecular y datos externos, como el fechado de las muestras antiguas, podemos estimar el tiempo del ancestro común más reciente de diferentes linajes. Esto permite reconstruir la historia evolutiva de los linajes en forma de árboles, estimar la edad a la que ocurrió la divergencia entre los linajes e inferir cambios en los tamaños de las poblaciones a lo largo del tiempo.

 

La evolución de la Genética de Poblaciones Humanas como disciplina científica.

La Genética de Poblaciones Humanas (GPH) es una disciplina sintética que surge a partir de la aplicación combinada de los métodos y teorías de la Genética y Biología Evolutiva, para investigar las causas de la diversidad genética de las poblaciones humanas en el presente y la historia evolutiva que la ha generado. En el inicio, la escasez de datos empíricos redundó en una fecunda base teórica de la disciplina. Durante una fase intermedia, desde los años setenta hasta principios de los noventa, cuando los marcadores genéticos clásicos y moleculares se tipificaban con facilidad, predominaron los análisis descriptivos de la variación genética. Cuando los modelos demográficos y genéticos se volvieron más complejos eran teóricamente intratables o computacionalmente prohibitivos.

En la actualidad, la comunidad científica nacional e internacional está constantemente produciendo datos a partir de genomas completos mitocondriales y nucleares o de centenares de miles o millones de variantes genéticas, para un número mayor de muestras. “En consecuencia, el tamaño y complejidad creciente de los conjuntos de datos generados dificultó aún más la validez y eficacia en las inferencias estadísticas para responder a preguntas de la GPH. A pesar de ello, el uso de datos genómicos masivos se convirtió en el estándar de los estudios de GPH, útiles para comparar e integrar a los estudios que desarrollamos en distintos laboratorios de nuestro país. Esto significa que es primordial para la comunidad científica disponer de los exigidos recursos computacionales para el manejo de dicho volumen de datos y de los métodos estadísticos necesarios para su procesamiento”, concluye García.

CCAD UX: Experiencia como usuario del CCAD

Finalmente después de 5 años de desarrollo pudimos enviar a una revista nuestro trabajo titulado: «Guess the cheese flavour by the size of its holes: A cosmological test using the abundance of Popcorn voids«. El 13 de Diciembre del 2022 al mismo tiempo que el árbitro pitaba el comienzo del partido entre Argentina y Croacia, nosotros estábamos enviando el artículo a arxiv.org (link al articulo), buscando colarnos en los primeros lugares del listado de preprints que este sitio publica día a día.

Nuestro objetivo: desarrollar un software (link al repositorio open source) que permitiera medir en simulaciones cosmológicas la forma y el volumen de los grandes intersticios en la estructura a gran escala del universo, los llamados vacíos cósmicos. Estas regiones con densidades de materia hasta un 90% menores que la media universal se expanden a una tasa mucho mayor que el resto del cosmos y resultan por diversas razones laboratorios ideales para analizar el contenido de energía y materia oscura del Universo.

Las zonas oscuras representan las regiones vacías de materia en esta visualización de una simulación cosmológica, las regiones brillantes se corresponden con los halos de materia oscura.

En el título de nuestro trabajo evocamos la imagen de un queso con agujeros: así como estando en la cola de la fiambrería uno observa un pedazo de queso gruyere o pategrás y ya puede saborearlo con los ojos, nuestra intención era desarrollar un test cosmológico que permitiera medir los valores de los parámetros cosmológicos mediante el estudio de la abundancia de vacíos según su tamaño. Las bases teóricas y prácticas de este tipo de test ya se venían desarrollando en diversos grupos en el mundo, y fueron la base de la tesis doctoral de Carlos Correa en FaMAF (link ads a la tesis).

Visualización de un vacío tipo Popcorn (click para ver la animación)

Cuando comenzamos a trabajar en el problema, hallamos una manera de definir a estos vacíos como la unión de multiples esferas, lo que facilitaba el cálculo de una cantidad importante para la teoría de formación de estas regiones (la densidad integrada en el volumen). No obstante nos encontrarnos con que el cálculo numérico de volúmenes de uniones de varias esferas  mediante Métodos de Montecarlo era sumamente prohibitivo (conocíamos solo fórmulas analíticas de uniones de hasta 3 esferas). Debíamos repetir este cálculo miles de veces para cada una de las decenas de miles de regiones vacías que se encuentran en un volumen cosmológico razonable, en un algoritmo recursivo. Debido a la cantidad de memoria requerida un enfoque basado en GPUs no era muy viable o al menos dado nuestro nivel de conocimiento (nuestras primeras armas en GPUs las habiamos adquirido en una Escuela organizada por el CCAD). Aquí es cuando el pertenecer a una comunidad científica diversa como la del CCAD nos da la primera ayuda: luego de haber sido expuestos durante varias reuniones de usuarios a los métodos desarrollados y utilizados en la comunidad de Ciencias Químicas se nos ocurrió preguntar y nos enteramos que el problema del cálculo de volúmenes de esferas ya se había resuelto en esta ciencia de manera óptima. El cálculo del volumen de macromoléculas en solventes, algo común para ellos, nos daba la pieza que nos faltaba para destrabar nuestro trabajo.

Aún así, luego de desarrollar un software robusto (o al menos eso pensamos) que nos daba resultados correctos científicamente, se nos dificultaba por limitaciones de hardware validar nuestros métodos en simulaciones cosmológicas medianamente competitivas. Eulogia y Mulatona habían sido claves en nuestro trabajo hasta el momento pero seguían siendo insuficientes y el analisis de simulaciones grandes era como remar en dulce de leche. Aquí es cuando el CCAD vuelve a ser determinante: la llegada de Serafín lo cambia todo. Aún no conseguimos explicarnos cómo, pero Serafín utilizando una cantidad equivalente de cores a la que usábamos en Mulatona nos daba un factor entre 20x y 30x en velocidad, permitiéndonos plantear por primera vez un estudio en una simulación suficientemente grande y con estadística adecuada como para plantear un test cosmológico.

Finalmente, en el último tramo de nuestro trabajo, cuando empezábamos a recibir indirectas de nuestros colegas usuarios, preguntando que estábamos haciendo y que podía necesitar tanto cómputo, llamamos la atención de Carlos Bederián, legendario administrador de los equipos del CCAD y autoridad en HPC del país, lo cual nos puso algo nerviosos. Charly, con su ojo clínico se dio cuenta de problemas en la performance de nuestro código, de los desbalances de carga que este tenía y de cómo a veces varios hilos, o incluso nodos enteros quedaban a la espera de que algún core terminara el trabajo que venía realizando. Gracias al trabajo de Charly el código aceleró aún más, entre 6 y 7 veces más rápido que antes, lo cual facilitaba enormemente la tarea: una corrida de más de un día pasaba a correr en el transcurso de una mañana. Esto permitió realizar muchas más corridas y ajustar los parámetros adecuados en el programa y fue determinante para poder redactar nuestro artículo.

Aún estamos a la espera del primer reporte del referee, y esperemos tener una respuesta positiva, no obstante a ello, no quería demorarme en escribir estas líneas en agradecimiento al CCAD. Este centro es más que un lugar que gestiona los equipos de cómputo de la universidad, es una comunidad que está abierta a cualquier científico del país y está pensada para facilitar la tarea de aquellos que investigan, buscando mejorar la ciencia que se realiza en Argentina. Es para mi un privilegio ser usuario del CCAD.

 

por Dante Paz, Instituto de Astronomía Teórica y Experimental, Observatorio Astronómico de la UNC.