CCAD brinda infraestructura computacional a ARPH.AI

El CCAD está brindando infraestructura de cómputo, almacenamiento y resguardo de datos para el proyecto ARPH.AI. El proyecto, diseñado y ejecutado por el CIECTI (Centro Interdisciplinario de Estudios en Ciencia, Tecnología e Innovación), se diseñó en un contexto marcado por la pandemia COVID-19, con el propósito de utilizar inteligencia artificial y ciencia de datos para detectar de forma temprana potenciales brotes epidémicos y pandémicos.

Desde el mes de abril el CCAD-UNC está dando servicios de cómputo exclusivo para el desarrollo de un proyecto de Aprendizaje Automático y Ciencia de Datos que busca fortalecer políticas sanitarias, políticas de I+D+i y políticas de equidad. El proyecto ARPH.AI (Argentinian Public Health Research on Data Science and Artificial Intelligence for Epidemic Prevention) busca contribuir a detectar brotes potencialmente epidémicos y desarrollar una solución tecnológica basada en Inteligencia Artificial y Machine Learning. De manera particular, el objetivo es apoyar la toma de decisiones a partir de la disponibilidad de una Historia Clínica Electrónica con funcionalidades ampliadas, tratando de mitigar sesgos en varias dimensiones, tales como género, orientación sexual, geografía, entre otros.

Este proyecto es financiado por el IDRC (Centro de Investigación para el Desarrollo Internacional) y Sida (Agencia Sueca de Cooperación para el Desarrollo Internacional).

Para esto se puso a disposición de manera exclusiva un nodo de Mendieta, con 20 núcleos de procesamiento, 64 GiB de RAM y almacenamiento de estado sólido de 2 TiB. La infraestructura de VPN y backups provistas por la PSI (Prosecretaría de Informática) de la UNC.

La infraesturctura será utilizada durante 12 meses y en ese periodo el CCAD brindará servicios de administración de sistema que incluye vigilancia pro-activa, actualización de software de sistema, manutención del repositorio de paquetes y configuración.

Mapa de la infraestructura del CCAD-UNC

Marcos Mazzini, el CPA de CONICET, resumió en un esquema toda la infraestructura del CCAD actual y la que estamos por instalar apenas podamos entrar en el UNC Data Center.

Actualmente toda la parte de Serafín está durmiendo en cajas. En breve mudaremos todo, menos Mendieta, del Data-center de la PSI al nuevo UNC Data Center.

El diagrama muestra algunos cambios de las máquinas que están en producción:

Se muestra también la composición interna de cada uno de los nodos de los cuatro clusters en cuanto a Unidad Central de Procesamiento (CPU) y memoria RAM, asi como la capacidad de cálculo en Unidades de Procesamiento Gráfico (GPU).El diagrama de redes en los nodos se muestra a continuación.

Finalmente los puntos de montaje de cada uno de los filesystems dentro de los nodos y las conexiones de red para comunicarse.

El diagrama completo y vectorial se puede descargar en [PDF].

Curso «Instrumentación dinámica con BPF»

El CCAD-UNC ofrecerá el curso «Instrumentación Dinámica en el Kernel de Linux utilizando eBPF«.
Este curso se dará en 2 encuentros de 2 horas, con 1:30 de exposición y 30 minutos de preguntas. Será a través de la plataforma Google Meet que tiene contratada la UNC.

El curso está a cargo del Ing. Fernando Gleiser (@fergleiser)
Fernando es Ing. Electrónico de FIUBA, y tiene mas de 25 años de experiencia en UNIX y Linux. Es socio fundador y director de ingeniería en DC Solutions empresa de servicios profesionales de IT. Sus áreas de interés son los Sistemas Operativos, performance, redes, file systems y herramientas para descubrir por que los programas no andan como deberían.

Plan de clases

Clase 1. Base teórica, miércoles 19 mayo a las 18hs.
Instrumentación dinámica. ¿Qué es y para qué sirve? Antecedentes. Historia de BPF.
Tipos de programas BPF. Evitando código peligroso en el kernel, el rol del BPF verifier. BPF maps: tipos y operaciones. Tracing con BPF: probes y tracepoints. Comandos útiles y ejemplos.

Clase 2: Aplicaciones, miércoles 9 de junio a las 18hs.
Manejo de tráfico de red de alta performance: Xpress Data Path. Instrumentación simple con BPF: bpftrace. Ejemplos prácticos del mundo real. Haciendo programas mas complejos: BPF Compiler Collection (BCC). Ejemplos con programas ya hechos.

El curso es libre y gratuito para toda la comunidad.

Se requiere conocimiento intermedio de Sistemas Operativos, redes y C/Python. Hay que saber que es un kernel, un puntero a struct y que es un stack de protocolos de red. Se va a hablar de Linux interno, «C» y problemas de Sistemas Operativos modernos todo el tiempo.

El siguiente es un enlace a un formulario de inscripción para las personas interesadas en tomar el curso. Una semana antes, nos pondremos en contacto para enviar información.

[Formulario de Inscripción]

Convenio con FAdeA para correr CFD en nuestros clusters

La Fábrica Argentina de Aviones «Brig. San Martín» S.A. (FAdeA) firmó un convenio de cooperación con CCAD-UNC, donde el Centro de HPC de la UNC le proveerá horas de cómputo a la fábrica para realiza cálculos de dinámica de fluidos computacional (CFD) sobre el entrenador Malvina.

Juan Domingo Vidal de FAdeA nos comenta detalles de lo que están corriendo.

Se está utilizando Mendieta, en la cual se realizaron diversas simulaciones de CFD en el marco del programa del desarrollo de avión de entrenamiento primario IA-100 MALVINA.

En la primer etapa del proyecto se hicieron diversos testeos del programa que permitieron mejorar la implementación en paralelo, y con ello optimizar el uso de los recursos computacionales disponibles. El programa, desarrollado en el IUA, resuelve las ecuaciones de Navier-Stokes incompresibles mediante el método de Elementos Finitos, mediante un algoritmo de pasos fraccionados.


En la segunda etapa se analizaron dos casos: el primero de ellos correspondió a la configuración limpia del avión. En este análisis se obtuvieron los coeficientes CL, CD y el Cm en función del ángulo de ataque.

En el segundo caso se estudió el comportamiento del alerón en un modelo reducido que comprendía solo el ala con la superficie móvil. Este análisis permitió obtener los momentos de charnela del alerón (Cha) en función del ángulo de ataque y de la  deflexión del mismo.

El trabajo realizado hasta el momento demandó 17 simulaciones que en promedio tardaron alrededor de 6 hs cada una, utilizando 4 cores.

Este convenio facilita el uso de horas de cómputo en equipos de la UNC, que anteriormente se compraban al extranjero, siendo los resultados muchas veces sensibles en materia de seguridad para los desarrollos de la empresa, que al hacerlo en equipos de la UNC pueden configurar las prestaciones más eficientemente. Asimismo posibilita que técnicos del CCAD asesoren y/o desarrollen soluciones con personal de FAdeA, como ya se hizo exitosamente con otras empresas (Tarjeta Naranja, M.A. Competición, PROMEDON, etc.).
Es uno de los primeros convenios que tenemos en su tipo, siendo otra muestra de las sinergia que puede haber entre la industria local y la UNC.

El Convenio Específico fue aprobado en Resolución Rectoral 1376/2020 y ya se encuentra en plena ejecución dentro de nuestros equipos de cómputo.

Nueva compra comunitaria de RAM y SSD para Eulogia

Llegaron 29 módulos de RAM y 6 SSD financiados con aportes de la comunidad de usuarios del CCAD-UNC por un monto que ronda los 5000 USD. Con estos elementos podremos poner a producir 4 nodos más de computo y agregar 10.4 TFLOPS de potencia de cálculo.

Parecería que luego de la llegada de un equipo de más de un tercio de millón de dólares y 150 TFLOPS de pontencia, sumar unos módulos de RAM y unidades SSD por 5000 USD para agregar 10 TFLOPS a Eulogia, resulta una trivialidad. Sin embargo no lo es.

Lo que muestra la historia del HPC en Argentina es que aproximadamente cada 7 años se produce una inversión importante en equipamiento en los centros grandes, y luego hay que sobrevivir con eso, esperando la nueva ola. ¿Qué sucede al medio? La nada misma, o en realidad un flujo de caja chica, para mantener los equipos en funcionamiento. En el caso del CCAD-UNC, el aporte anual de la unidades académicas asociadas.

Desde el CCAD-UNC promovemos las compras comunitarias [1,2,3,4,5] como una forma de saltar estos baches y no solo mantener la capacidad de cálculo, almacenamiento y red, sino también de incrementarla. Así logramos compras importantes a partir de magros subsidios personales a investigadoras/es de la UNC que no llegarían a comprar una computadora modesta. Con esta modalidad generamos comunidad e impulsamos una inversión eficiente de los recursos estatales, evitando la compra de equipos personales que duermen la gran parte del tiempo bajo los escritorios.

El aporte de las y los investigadores alcanzó para

En este caso la lista de aportantes es larga y variada, con aportes que van desde 1 módulo de RAM cercano a los $12000 hasta 8 módulos de RAM cercano a los $100000.

  • Ezequiel Leiva, FCQ, UNC.
  • Fábio Negreiros Ribeiro, FCQ, UNC.
  • Promedon S.A., pago del tiempo de cómputo por un servicio de vinculación.
  • FaMAF-UNC, aporte del Decanato.
  • Orlando Billoni, Física, FaMAF, UNC.
  • Mariana Cécere/Federico Stasyszyn, Grupo de Plasmas Astrofísicos, OAC, IATE-CONICET, UNC.
  • Cristian Vay, Matemática, FaMAF, UNC.
  • Carlos Nicolás Kozameh, Física, FaMAF, UNC.
  • Marcelo M Mariscal, FCQ, UNC.
  • Germán J. Soldano, FCQ, UNC.
  • Andrea Costa, OAC, IATE-CONICET, UNC.
  • Miguel Pagano, Computación, FaMAF, UNC.
  • Maximiliano A. Burgos Paci, FCQ, UNC.
  • Carlos Bederián/Nicolás Wolovick, Computación, FaMAF, UNC.

Una vez que se instalen estas partes, Eulogia que ya pasó de 56 TFLOPS a 66 TFLOPS con la compra comunitaria anterior, subirá a 76 TFLOPS float64 pico.

Para completar los últimos cuatro nodos de Eulogia solo faltan 19 módulos de RAM. Estamos pidiendo subsidios a la SeCyT-UNC desde FCQ y FaMAF. Esperemos completar los 12 nodos de Eulogia para mediados de año y que ésta sea el escalón necesario para saltar al nuevo Serafín.

Llegó Serafín, la #2 de Argentina

La supercomputadora Serafín de 156 TFLOPS de potencia de cálculo ya está en la UNC. Con esta adquisición la UNC se posiciona como la institución líder en Computación de Alto Desempeño de la Argentina. Serafín está muy cerca de los 209 TFLOPS de la #1 en Argentina, Huayra Muyu del SMN.

El inicio de la semana estuvo marcado por muchos mensajes instantáneos, correos, llamadas por teléfono y viajes a distintos puntos de la ciudad. El resultado final se puede ver acá.

El Dr. Marcelo Mariscal, vicedecano de la FCQ y titular del Proyecto PAGE, sostiene junto al Dr. Oscar Reula, director del CCAD, una de las quince unidades Server Supermicro AS-2124BT-HTR que incluyen 4 nodos duales AMD EPYC 7532 de 32 núcleos cada una y 128 GiB de RAM DDR4-3200. Las siglas tal vez ocultan lo potente de esta caja, que totalizan 512 GiB de RAM y 9.83 TFLOPS de potencia de cálculo, es decir la misma potencia de cálculo en CPU que toda Mendieta.

Los paquetes que llegaron a TCA Córdoba por camión desde Chile pesan aproximadamente 850 Kg y contienen:

  • 15 Server Supermicro AS-2124BT-HTR: nodos de cómputo.
  • 1 Server Supermicro AS-1114S-WTRT: nodo cabecera.
  • 1 Switch Mellanox MQM8790-HS2F: switch de red de alta velocidad.
  • 33 Cable Mellanox CMP7H50-H002R26: cables de red de alta velocidad.
  • 130 Cable Supermicro CBL-C6-BL13FT: cables de red de administración.
  • 7 PDU AP7553: «zapatillas» largas específicas para racks.
  • Algunas partes de repuesto que agregaron: una mother, dos fuentes, cuatro módulos de RAM, discos, y por supuesto ventiladores.

El total invertido por la UNC es de 371.784 dólares estadounidenses. La compra maximizó la cantidad de TFLOPS por dólar que se adquirieron, a tal punto que una cuenta rápida nos muestra que solamente el valor de mercado de los 120 AMD EPYC 7532 (3200 dólares la unidad), supera el monto del sistema completo.

Un montón de gente por fuera del CCAD colaboró en todo el proceso, pero mencionamos y agradecemos a las y los que estuvieron fuertemente colaborando este lunes y martes: Diego Lavalle, titular de Army Technologies/Multitech, ganador de la licitación; Marcela Giomi y Mario Farías, Comercio Exterior de la UNC; Marcela Yorio, Aduana Córdoba de calle Buenos Aires; Carla de Barba, LATAM Cargo; y María Isabel Brunetto, SeCyT-UNC.

En una semana se terminarán los trabajos en el UNC Data Center, y los técnicos del CCAD Carlos Bederián, Darío Graña y Marcos Mazzini empezarán el ensamble y la instalación. Esperamos que marzo nos encuentre con el cluster operativo para transformar electricidad en ciencia.

Notas periodísticas

Pre-inscripción Diplomatura Ciencia de Datos

Está abierta la pre-inscripción para la edición 2021 de la Diplomatura  en Ciencia de Datos, Aprendizaje Automático y Sus Aplicaciones de la FaMAF junto con el Nodo AI CBA del cual el CCAD-UNC forma parte.

La pre-inscripción hay que rellenar el formulario hasta el 19/2.
La pre-inscripción es sin costo.

La «Diplomatura en Ciencia de Datos, Aprendizaje Automático y Sus Aplicaciones» tiene ya tres años de continuidad y ha formado en este tópico a una gran cantidad de especialistas de diversas áreas, tanto de la industria, como de la administración pública, como de la academia.

Desde el CCAD proveemos recursos computacionales para el análisis de datos y el aprendizaje automático a través de las computadoras Nabucodonosor.

Propuesta Cluster Argentino para MD y ML

Luego de la exitosa experiencia de reposicionamiento del hardware de Mendienta Fase 2 con las Supecomputadora para machine learning Nabucodonosor, estamos buscando reconvertir los doce (12) nodos restantes de Mendieta Fase 2.

Doce Nabucodonosor más.

Queremos aumentar el soporte de computación para machine learning ML y dinámica molecular MD. Ambas disciplinas tienen un perfil de cómputo muy parecido entre sí, ya que hacen un uso intensivo de aceleradores de cómputo. Muchos usuarias y usuarios de todo el país están haciendo simulaciones con paquetes como GROMACS, AMBER y LAMMPS, los cuales tienen un excelente soporte para hacer offloading a GPUs.

Con esta propuesta estamos apuntando lograr un cluster de 360 TFLOPS pico de precisión simple en GPUs y además reutilizar los nodos de Mendieta Fase 2 que están en su fin de vida útil. La relación TFLOPS/USD es muy buena, gracias a que solo hay que comprar las GPUs y pagar el servicio de adaptación.

La propuesta está firmada por más de cien investigadoras e investigadores de todo el país que están interesados en contar con esta herramienta que les permitirá mejorar su producción científica.

Documento en PDF: Cluster Argentino de Bajo Costo para MD y ML

Pre-vista:

CCAD ayuda al LaES a modernizar código

El CPA Principal de CONICET Carlos Bederián trajo al 2020 un código «C» que tranquilamente podría haber sido escrito en 1980 para una PDP-11/70. En este back to the future, Carlos logró que el código sea diez veces más rápido, es decir 10 veces más simulaciones o sistemas 10 veces más grandes.

A mediados de agosto el investigador del LaES, Ezequiel Leiva, nos escribe para saber si podemos paralelizar un código que sirve para hacer simulaciones de litio. Nos comenta que el código es secuencial y que lo hicieron con sus rudimentarios conocimientos de «C». Luego de una semana de haber recibido el código, el código se reescribió en C++ paralelizando con OpenMP, se utilizó el sistema de construcción  Meson BuildGoogle Test para pruebas unitarias que confirmaban que los resultados eran exactamente iguales al código original.

Dos semanas más tarde Bederián codifica una variación de sumas acumuladas (prefix sum) específica para este problema utilizando AVX2 intrinsics, obteniendo entre 25% y 40% más de desempeño..

Los resultados en un servidor dual Xeon E5-2680 v4 (28 cores en total) son notables. El punto rojo abajo a la izquierda representa el código original. Con 16 núcleos ya llega a 10x de speedup.

Notamos que GCC presenta algunos problemas de escalabilidad en la implementación GOMP, que Clang-LLVM no tiene. El compilador de Intel, esta vez, proporciona un 20% más de desempeño que sus competidores FLOSS.

El Dr. Leiva nos explica la importancia de este programa.

Este código tiene por objeto simular la inserción de iones de litio en grafito, en sistemas de tamaño finito mediante modelos reticulares. El grafito es el material empleado por excelencia como ánodo en todas las baterías comerciales (ej. celulares), y algunas de las características de este material eran ignoradas hasta hace poco:

  • «A theoretical model to determine intercalation entropy and enthalpy: Application to lithium/graphite», E.M. Perassi, E.P.M. Leiva, Electrochem Commun 65 (2016) 48-52.2
  • «The kinetic origin of the Daumas-Hérold model for the Li-ion/graphite intercalation system», E.M. Gavilán-Arriazu, O.A. Pinto, B.A. López de Mishima, D.E. Barraco, O.A. Oviedo, E.P.M. Leiva, Electrochemistry Communications 93(2018)133–137.

El código modificado va a permitir extender las simulaciones a tamaños que permitan extrapolar el comportamiento de nanosistemas a sistemas mayores, en los que se realizarán simulaciones con herramientas de continuo.

 

Camila Clemente ¿Qué se corre en el CCAD respecto a la terapia de rescate de COVID-19 con ibuprofeno?

Hace un par de meses abrimos una cuenta a la investigadora Camila Clemente de FCQ-UNC para correr AMBER20 en las dos Nabucodonosor, los servers de cálculo para Machine Learning (ML) que tiene el CCAD-UNC. Rápidamente se transformó en una usuaria ávida de recursos computacionales. La entrevistamos para saber porque le resulta tan conveniente una plataforma de machine learning para hacer dinámica molecular.

CCAD: Hola Camila, contanos tu formación y para que estás usando Nabucodonosor.
Camila Clemente: Hola. Soy Farmacéutica graduada de la Facultad de Ciencias Químicas-UNC y actualmente estoy transitando mis últimos años del Doctorado en Ciencias Químicas en la misma facultad. En este último tiempo me he abocado al área de la bioinformática, en particular, al desarrollo de estudios in silico para el diseño y desarrollo de drogas para enfermedades infecciosas desatendidas.
En colaboración con el Dr. Ariel Garro y el Dr. Dante Beltramo, investigadores del Centro de Excelencia en Productos y Procesos de Córdoba (CEPROCOR), estamos llevando a cabo estudios de la dinámica de una proteína de interés de SARS-CoV-2 en complejo con la molécula del ibuprofeno. Dichos estudios son llevados a cabo mediante simulaciones de dinámica molecular (MD) en Nabucodonosor.

CCAD: En el htop y nvidia-smi vemos que corrés AMBER20, y utilizás a pleno las GTX 1080 Ti. ¿Cómo fue tu experiencia con AMBER corriendo en CPU y en GPU?
CC: La experiencia fue muy buena. Las MD las pude realizar en AMBER20 debido a una licencia académica solicitada. Realizar las MD en AMBER20 corriendo GPU fue muy beneficioso para nuestra investigación ya que logré acelerar muchísimo el procesamiento de mis simulaciones, debíamos simular 120 nanosegundos por simulación y es prácticamente imposible simular ese tiempo en CPU y obtener los resultados en días. Corrí CPU en Mendieta y nunca llegue a correr 120 ns en CPU. Aproximadamente, lo que en una semana me tardaba correr en CPU, en 4 nodos con 80 procesadores, en GPU me llevaba 6 horas.

CCAD: Contanos que cosas te habilita este factor de aceleración fenomenal.
CC: Como mencioné anteriormente, correr el GPU me facilitó las simulaciones ya que no necesitábamos correr una única simulación sino varias porque estamos analizando el comportamiento de una proteína de SARS-CoV-2 con el ibuprofeno en diversos entornos salinos. Además, luego de cada simulación se logró acelerar los cálculos de energía de unión de la proteína con el ligando a través de los métodos MM-PBSA y MM-GBSA. En resumen, realizar dichas simulaciones sin GPU no hubiera sido viable para la necesidad inmediata que posee nuestra investigación.

CCAD: ¿Las simulaciones que estás realizando luego tienen un correlato experimental? ¿Cuál?
CC: El objetivo de estas simulaciones parten del interés de poder investigar el comportamiento a nivel molecular de una proteína de SARS-CoV-2 con el fármaco ibuprofeno. Esta investigación surge del tratamiento que lidera el Dr. Beltramo frente a pacientes con COVID-19, cabe destacar que este tratamiento ya se realiza en pacientes con COVID-19 de nuestra provincia.
El motivo de realizar estas simulaciones se debe a que no se conoce exactamente el modo de acción a nivel molecular de este nuevo tratamiento. En particular, se desconoce cómo podría estar actuando a nivel molecular la molécula del ibuprofeno con una proteína específica de SARS-CoV-2. Es por ello, que uno de los objetivos de la investigación es poder realizar una caracterización estructural de la proteína de interés en los diferentes entornos simulados para realizar un aporte a la comunidad científica. A su vez, a través de estas simulaciones podemos generar hipótesis de lo que podría estar sucediendo a nivel molecular para luego corroborarlo a través de diferentes ensayos.

CCAD: ¿Cuál fue tu experiencia de usuaria respecto a los equipos del CCAD-UNC? ¿Tenías experiencia previa en uso de recursos de HPC?
CC: Mi experiencia en uso de recursos de HPC es solamente con los equipos de CCAD-UNC (Mendieta y Nabucodonosor) y la misma fue excelente. Empecé a ser usuaria de Linux debido a que es software libre y muchas herramientas de análisis biológico y químico solo corren en este sistema operativo. Las herramientas y habilidades para correr en una máquina de HPC remota las fui adquiriendo a través de cursos, lectura y curiosidad personal. Cabe destacar, que la Lic. en Bioinformática María I. Freiberger forma parte de dicho proyecto y me ayudo bastante en todos estos aspectos computacionales.

CCAD: Muchas gracias Camila por tu tiempo.
CC: Gracias a ustedes, por proveerme el acceso al recurso y la buena predisposición  frente a mis consultas.

 


¿Por qué una computadora para Machine Learning sirve para Dinámica Molecular?

En HPC se habla de workloads similares, independientemente de que es lo que hace ese trabajo.

Por un lado tenemos Machine Learning (ML) que desde siempre se ha promocionado como el nicho donde las Graphics Processing Units (GPUs) resultan muy convenientes respecto a la relación de cálculos/tiempo (velocidad) y calculos/inversión (eficiencia económica). Esto es así porque las GPUs presentan una forma de paralelismo, ancho de banda a memoria y tipos de datos que es muy convenientes para este workload que tiene muchos cálculos de punto flotante de simple y media precisión (float32, float16, bfloat16, tfloat16, float24).

Por otra parte en Molecular Dynamics (MD), se empezó a utilizar cada vez más una técnica que se denomina mixed precision [1], para aprovechar el desbalance entre unidades de cómputo float64 y float32 que hay en las GPUs gamers (1:8, 1:32) respecto al diseño en CPU (1:2), además de aprovechar mejor la memoria en tamaño y ancho de banda, ya que para representar la posición de un átomo alcanza con float32. Lentamente todos los paquetes de MD empezaron a incorporar esta técnica y actualmente, la gran mayoría de estos paquetes hace casi todo sus cálculos en float32 [2].

Una GPU gamer es básicamente utilizar gran parte de esos aproximadamente 400m² de silicio para transistores de aproximadamente 10nm en unidades de cómputo para float32, ya que ese es el tipo de datos que los juegos utilizan para lograr el realismo 3D que la industria del videojuego requiere.

Los workloads de ML y MD son, a los ojos de las y los usuarios, dos cargas de trabajo en la cual la GPU brilla, tanto por su velocidad  — TFLOPS como en su conveniencia económica — TFLOPS/USD.

Esperamos conseguir más GPUs para apoyar de manera precisa y económica a estos dos tipos de workloads de gran importancia que tenemos en el CCAD-UNC.

Referencias

[1] Scott Le Grand, Andreas W.Götz, Ross C.Walker, «SPFP: Speed without compromise—A mixed precision model for GPU accelerated molecular dynamics simulations«, Computer Physics Communications, 184(2), 2013.

[2] Carsten Kutzner, Szilárd Páll, Martin Fechner, Ansgar Esztermann, Bert L. de Groot, Helmut Grubmüller, «More bang for your buck: Improved use of GPU nodes for GROMACS 2018«, Journal of Computational Chemistry, 40(27), 2019.