Camila Clemente ¿Qué se corre en el CCAD respecto a la terapia de rescate de COVID-19 con ibuprofeno?

Hace un par de meses abrimos una cuenta a la investigadora Camila Clemente de FCQ-UNC para correr AMBER20 en las dos Nabucodonosor, los servers de cálculo para Machine Learning (ML) que tiene el CCAD-UNC. Rápidamente se transformó en una usuaria ávida de recursos computacionales. La entrevistamos para saber porque le resulta tan conveniente una plataforma de machine learning para hacer dinámica molecular.

CCAD: Hola Camila, contanos tu formación y para que estás usando Nabucodonosor.
Camila Clemente: Hola. Soy Farmacéutica graduada de la Facultad de Ciencias Químicas-UNC y actualmente estoy transitando mis últimos años del Doctorado en Ciencias Químicas en la misma facultad. En este último tiempo me he abocado al área de la bioinformática, en particular, al desarrollo de estudios in silico para el diseño y desarrollo de drogas para enfermedades infecciosas desatendidas.
En colaboración con el Dr. Ariel Garro y el Dr. Dante Beltramo, investigadores del Centro de Excelencia en Productos y Procesos de Córdoba (CEPROCOR), estamos llevando a cabo estudios de la dinámica de una proteína de interés de SARS-CoV-2 en complejo con la molécula del ibuprofeno. Dichos estudios son llevados a cabo mediante simulaciones de dinámica molecular (MD) en Nabucodonosor.

CCAD: En el htop y nvidia-smi vemos que corrés AMBER20, y utilizás a pleno las GTX 1080 Ti. ¿Cómo fue tu experiencia con AMBER corriendo en CPU y en GPU?
CC: La experiencia fue muy buena. Las MD las pude realizar en AMBER20 debido a una licencia académica solicitada. Realizar las MD en AMBER20 corriendo GPU fue muy beneficioso para nuestra investigación ya que logré acelerar muchísimo el procesamiento de mis simulaciones, debíamos simular 120 nanosegundos por simulación y es prácticamente imposible simular ese tiempo en CPU y obtener los resultados en días. Corrí CPU en Mendieta y nunca llegue a correr 120 ns en CPU. Aproximadamente, lo que en una semana me tardaba correr en CPU, en 4 nodos con 80 procesadores, en GPU me llevaba 6 horas.

CCAD: Contanos que cosas te habilita este factor de aceleración fenomenal.
CC: Como mencioné anteriormente, correr el GPU me facilitó las simulaciones ya que no necesitábamos correr una única simulación sino varias porque estamos analizando el comportamiento de una proteína de SARS-CoV-2 con el ibuprofeno en diversos entornos salinos. Además, luego de cada simulación se logró acelerar los cálculos de energía de unión de la proteína con el ligando a través de los métodos MM-PBSA y MM-GBSA. En resumen, realizar dichas simulaciones sin GPU no hubiera sido viable para la necesidad inmediata que posee nuestra investigación.

CCAD: ¿Las simulaciones que estás realizando luego tienen un correlato experimental? ¿Cuál?
CC: El objetivo de estas simulaciones parten del interés de poder investigar el comportamiento a nivel molecular de una proteína de SARS-CoV-2 con el fármaco ibuprofeno. Esta investigación surge del tratamiento que lidera el Dr. Beltramo frente a pacientes con COVID-19, cabe destacar que este tratamiento ya se realiza en pacientes con COVID-19 de nuestra provincia.
El motivo de realizar estas simulaciones se debe a que no se conoce exactamente el modo de acción a nivel molecular de este nuevo tratamiento. En particular, se desconoce cómo podría estar actuando a nivel molecular la molécula del ibuprofeno con una proteína específica de SARS-CoV-2. Es por ello, que uno de los objetivos de la investigación es poder realizar una caracterización estructural de la proteína de interés en los diferentes entornos simulados para realizar un aporte a la comunidad científica. A su vez, a través de estas simulaciones podemos generar hipótesis de lo que podría estar sucediendo a nivel molecular para luego corroborarlo a través de diferentes ensayos.

CCAD: ¿Cuál fue tu experiencia de usuaria respecto a los equipos del CCAD-UNC? ¿Tenías experiencia previa en uso de recursos de HPC?
CC: Mi experiencia en uso de recursos de HPC es solamente con los equipos de CCAD-UNC (Mendieta y Nabucodonosor) y la misma fue excelente. Empecé a ser usuaria de Linux debido a que es software libre y muchas herramientas de análisis biológico y químico solo corren en este sistema operativo. Las herramientas y habilidades para correr en una máquina de HPC remota las fui adquiriendo a través de cursos, lectura y curiosidad personal. Cabe destacar, que la Lic. en Bioinformática María I. Freiberger forma parte de dicho proyecto y me ayudo bastante en todos estos aspectos computacionales.

CCAD: Muchas gracias Camila por tu tiempo.
CC: Gracias a ustedes, por proveerme el acceso al recurso y la buena predisposición  frente a mis consultas.

 


¿Por qué una computadora para Machine Learning sirve para Dinámica Molecular?

En HPC se habla de workloads similares, independientemente de que es lo que hace ese trabajo.

Por un lado tenemos Machine Learning (ML) que desde siempre se ha promocionado como el nicho donde las Graphics Processing Units (GPUs) resultan muy convenientes respecto a la relación de cálculos/tiempo (velocidad) y calculos/inversión (eficiencia económica). Esto es así porque las GPUs presentan una forma de paralelismo, ancho de banda a memoria y tipos de datos que es muy convenientes para este workload que tiene muchos cálculos de punto flotante de simple y media precisión (float32, float16, bfloat16, tfloat16, float24).

Por otra parte en Molecular Dynamics (MD), se empezó a utilizar cada vez más una técnica que se denomina mixed precision [1], para aprovechar el desbalance entre unidades de cómputo float64 y float32 que hay en las GPUs gamers (1:8, 1:32) respecto al diseño en CPU (1:2), además de aprovechar mejor la memoria en tamaño y ancho de banda, ya que para representar la posición de un átomo alcanza con float32. Lentamente todos los paquetes de MD empezaron a incorporar esta técnica y actualmente, la gran mayoría de estos paquetes hace casi todo sus cálculos en float32 [2].

Una GPU gamer es básicamente utilizar gran parte de esos aproximadamente 400m² de silicio para transistores de aproximadamente 10nm en unidades de cómputo para float32, ya que ese es el tipo de datos que los juegos utilizan para lograr el realismo 3D que la industria del videojuego requiere.

Los workloads de ML y MD son, a los ojos de las y los usuarios, dos cargas de trabajo en la cual la GPU brilla, tanto por su velocidad  — TFLOPS como en su conveniencia económica — TFLOPS/USD.

Esperamos conseguir más GPUs para apoyar de manera precisa y económica a estos dos tipos de workloads de gran importancia que tenemos en el CCAD-UNC.

Referencias

[1] Scott Le Grand, Andreas W.Götz, Ross C.Walker, «SPFP: Speed without compromise—A mixed precision model for GPU accelerated molecular dynamics simulations«, Computer Physics Communications, 184(2), 2013.

[2] Carsten Kutzner, Szilárd Páll, Martin Fechner, Ansgar Esztermann, Bert L. de Groot, Helmut Grubmüller, «More bang for your buck: Improved use of GPU nodes for GROMACS 2018«, Journal of Computational Chemistry, 40(27), 2019.