Why do we need more reference genomes of the human species?

Scientific dissemination | Knowledge transfer

Why do we need more reference genomes of the human species?

Un estudio dirigido por la Universidad Johns Hopkins reafirma la necesidad de disponer de más genomas humanos de referencia, al analizar los genomas de 910 personas de origen africano y detectar en ellos cerca de 300 millones de pares de bases que no están incluidas en el actual genoma humano de referencia.

Uno de los principales objetivos del Proyecto Genoma Humano era la obtención de una secuencia de referencia del genoma de nuestra especie. Disponer de una secuencia con la que comparar el ADN que se fuera obteniendo en los diversos estudios genéticos y clínicos sería una pieza clave para poder ensamblar genomas individuales, estudiar la variabilidad humana y para poder identificar las diferencias en el ADN que dan lugar a enfermedades. De hecho, hoy en día, el Genoma Humano de Referencia es una herramienta esencial, tanto en investigación como en sus aplicaciones clínicas.

El genoma de cada persona es diferente: miles de variantes genéticas hacen que no haya dos genomas humanos iguales. No obstante, al igual que es posible hacer estándares para nuestro cuerpo o para diferentes características, a gran escala, todas las personas compartimos un genoma cuyo análisis puede diferenciarnos inmediatamente de otras especies. En este contexto tiene sentido que la secuencia de referencia del genoma humano que se utiliza en la actualidad no se corresponda a la de una única persona, sino que sea una secuencia consenso que deriva del ADN de diferentes voluntarios. Su última versión, GRCh38, la más detallada y precisa, fue publicada en 2014 y desde entonces se actualiza unas cuatro veces al año.

A pesar de su innegable utilidad, el actual genoma de referencia tiene ciertas limitaciones. En primer lugar, todavía contiene ciertos huecos, regiones del genoma que muestran una dificultad especial para ser secuenciadas y cuya secuencia no reúne todavía la calidad suficiente como para incluirlas. Afortunadamente, las limitaciones técnicas para resolver estos espacios se van resolviendo conforme mejora la capacidad de secuenciación por lo que poco a poco cada vez son menos. La otra gran limitación del genoma humano de referencia es que no recoge la gran variabilidad genética de la especie. Al estar basado en unos pocos individuos, el genoma humano de referencia tiene menos utilidad cuando se analiza el ADN de personas cuyo acervo genético no está incluido en él. En estos casos es difícil saber si cualquier diferencia es debida o no a variaciones propias de esa población, o si esa diferencia esconde información importante sobre la biología o sobre la salud. Para solucionar este problema, algunos grandes proyectos y consorcios de secuenciación han elaborado genomas de referencia para diversas poblaciones humanas. Sin embargo, su calidad y detalle está alejada de la del genoma humano de referencia.

Con el objetivo de ver hasta qué punto puede fallar el genoma humano de referencia en su representación de la especie en su conjunto, un equipo de investigadores de la Universidad John Hopkins ha reanalizado los datos de secuenciación de 910 personas con ascendencia africana en el contexto del genoma de referencia.

Los investigadores alinearon más de un billón de lecturas de ADN de las 910 personas con el genoma de referencia y recopilaron todas aquellas lecturas que fallaron en su correspondencia. Estas lecturas fueron ensambladas hasta formar secuencias contiguas que compararon entre sí, con el fin de identificar todas aquellas regiones del genoma africano que no están presentes en el genoma de referencia.

El equipo encontró que cerca de 300 millones de pares de bases presentes en poblaciones de origen africano (distribuidas en unos 126.000 fragmentos) no están en el genoma humano de referencia. De media el genoma de cada persona analizada contenía 856 de estos fragmentos. Teniendo en cuenta que el tamaño del genoma de referencia es de 3.000 millones de pares de bases, la diferencia, equivalente a un 10% del genoma de referencia, es considerable, especialmente si se tiene en cuenta que si solo se considera la variación registrada en el genoma de referencia, ese 10% del genoma presente en personas de origen africano no será considerado.

De momento se desconoce la repercusión biológica o funcional que pueden tener los fragmentos de ADN identificados en las personas de ascendencia africana cuyo ADN fue analizado en el estudio. Los investigadores todavía no han evaluado la función de cada secuencia. Lo que sí parece estar claro es que para estudiar la variabilidad de la especie humana y su relación con la susceptibilidad a enfermedades y otros rasgos, será necesario ampliar la disponibilidad de genomas de referencia que recojan las peculiaridades de cada población.

“El mundo entero confía en lo que esencialmente es un genoma de referencia único y cuando un análisis de ADN en particular no encaja con la referencia y se rechazan las secuencias que no encajan, esos bits descartados podrían de hecho tener las respuestas y pistas que se están buscando”, señala Steven Salzberg, profesor en la Universidad Johns Hopkins y director del trabajo.

Los investigadores del trabajo destacan que los resultados obtenidos demuestran que el genoma humano de referencia carece de una cantidad importante de secuencias de ADN si se tienen en cuenta otras poblaciones. Estos resultados refuerzan la idea de que para poder registrar todo el ADN presente en humanos no es suficiente disponer de un único genoma de referencia sino que será necesario elaborar otros genomas de referencia que representen otras poblaciones humanas.

“Si eres un científico buscando variaciones del genoma relacionadas con una condición que es más prevalente en cierta población, querrías comparar los genomas con un genoma de referencia más representativo de la población”, indica Rachel Sherman, investigadora en la Universidad Johns Hopkins y primera firmante del trabajo.