Angelina García -investigadora- y Nicolás Pastor -personal de apoyo- del IDACOR (CONICET-UNC), emplean los recursos del CCAD para estudiar la variabilidad genética de diferentes poblaciones humanas de Argentina.
El sur de la región pampeana de nuestro país fue uno de los primeros espacios geográficos en ser ocupados en el continente americano. Sin embargo, la dinámica evolutiva de los poblaciones que habitaron esta región ha sido escasamente documentada y preguntas relacionadas con la continuidad e interacciones con otros grupos siguen abiertas. Justamente, en esos puntos vacíos se centra el trabajo en el que participan Angelina García, investigadora del CONICET, y Nicolás Pastor, profesional de apoyo del CONICET, en el Instituto de Antropología de Córdoba (IDACOR, CONICET-UNC). “Nuestro proyecto marco tiene por objetivo comprender los procesos microevolutivos que dieron forma a la variabilidad genética de diferentes poblaciones humanas de nuestro país, y así contribuir al conocimiento de su historia evolutiva. En este estudio describimos los patrones espaciales y temporales de la diversidad genética por línea materna de grupos humanos procedentes del sur de la región pampeana”, explica la investigadora.
Dicho estudio se centró en el análisis de mitogenomas, es decir, de todo el ADN que se encuentra en las mitocondrias -ubicadas en el citoplasma de las células, en lugar del núcleo como el resto del ADN- y que se hereda exclusivamente por línea materna. Para elaborar los patrones espaciales y temporales de la dinámica poblacional de la región, se compararon los datos obtenidos en este estudio con una base de datos que recopila 2.577 mitogenomas modernos y 160 mitogenomas antiguos, procedentes de datos previamente publicados de poblaciones sudamericanas.
Mendieta Fase 2 (MendietaF2) es fundamental en este proceso ya que, si bien estos análisis pueden realizarse fácilmente en computadoras personales cuando son a pequeña escala (en el orden de cientos de secuencias con cientos de bases), el análisis de miles de secuencias de mitogenomas completos (cada uno con 16.569 pares de bases) se torna computacionalmente ineficiente. “Previo a que tomáramos contacto con el CCAD, realizábamos estos análisis en nuestras computadoras personales, dedicadas exclusivamente a este procesamiento durante semanas, a fin de completar una sola corrida. Actualmente, aprovechando las GPUs NVIDIA A30 del cluster MendietaF2, podemos completar una corrida en menos del tiempo límite de ejecución del nodo (48 hs)”, comenta Pastor. “Esto claramente potencia nuestro trabajo ya que nos permite ejecutar más corridas en un mismo período de análisis, y así poner a pruebas diferentes modelos, incluyendo los más complejos que serían prohibitivos en computadoras personales. Todo ello, nos posibilita estar a la altura del estándar internacional para análisis de este tipo, sin necesidad de comprometernos en colaboraciones forzadas por la disponibilidad a los recursos computacionales, brindándonos autonomía para llevar adelante nuestras investigaciones y soberanía sobre las preguntas que las motivan”, agrega Pastor.
Mendieta y BEAST, al servicio de la Genética de Poblaciones Humanas
Los trabajos que hemos ejecutando en el cluster MendietaF2 implicaron la utilización del programa BEAST, con el cual se realizaron análisis Bayesianos a partir de secuencias de ADN mitocondrial, utilizando el método de Monte Carlo basado en cadenas de Markov (MCMC). De forma general, a partir de las secuencias de ADN , combinando diferentes modelos teóricos de evolución molecular y datos externos, como el fechado de las muestras antiguas, podemos estimar el tiempo del ancestro común más reciente de diferentes linajes. Esto permite reconstruir la historia evolutiva de los linajes en forma de árboles, estimar la edad a la que ocurrió la divergencia entre los linajes e inferir cambios en los tamaños de las poblaciones a lo largo del tiempo.
La evolución de la Genética de Poblaciones Humanas como disciplina científica.
La Genética de Poblaciones Humanas (GPH) es una disciplina sintética que surge a partir de la aplicación combinada de los métodos y teorías de la Genética y Biología Evolutiva, para investigar las causas de la diversidad genética de las poblaciones humanas en el presente y la historia evolutiva que la ha generado. En el inicio, la escasez de datos empíricos redundó en una fecunda base teórica de la disciplina. Durante una fase intermedia, desde los años setenta hasta principios de los noventa, cuando los marcadores genéticos clásicos y moleculares se tipificaban con facilidad, predominaron los análisis descriptivos de la variación genética. Cuando los modelos demográficos y genéticos se volvieron más complejos eran teóricamente intratables o computacionalmente prohibitivos.
En la actualidad, la comunidad científica nacional e internacional está constantemente produciendo datos a partir de genomas completos mitocondriales y nucleares o de centenares de miles o millones de variantes genéticas, para un número mayor de muestras. “En consecuencia, el tamaño y complejidad creciente de los conjuntos de datos generados dificultó aún más la validez y eficacia en las inferencias estadísticas para responder a preguntas de la GPH. A pesar de ello, el uso de datos genómicos masivos se convirtió en el estándar de los estudios de GPH, útiles para comparar e integrar a los estudios que desarrollamos en distintos laboratorios de nuestro país. Esto significa que es primordial para la comunidad científica disponer de los exigidos recursos computacionales para el manejo de dicho volumen de datos y de los métodos estadísticos necesarios para su procesamiento”, concluye García.