Cuando el Proyecto del Genoma Humano anunció que había completado el primer genoma humano en 2003, fue un logro trascendental: por primera vez, se desbloqueó el modelo de ADN de la vida humana. Pero vino con una trampa: en realidad no pudieron reunir toda la información genética en el genoma. Había lagunas: regiones sin llenar, a menudo repetitivas, que eran demasiado confusas para unirlas.
Con los avances tecnológicos que podrían manejar estas secuencias repetitivas, los científicos finalmente llenaron esos vacíos en mayo de 2021, y el primer genoma humano completo se publicó oficialmente el 31 de marzo de 2022.
Soy un biólogo del genoma que estudia secuencias de ADN repetitivas y cómo dan forma a los genomas a lo largo de la historia evolutiva. Formé parte del equipo que ayudó a caracterizar las secuencias repetidas que faltan en el genoma. Y ahora, con un genoma humano verdaderamente completo, estas regiones repetitivas descubiertas finalmente se exploran en su totalidad por primera vez.
Las piezas del rompecabezas que faltan
El botánico alemán Hans Winkler acuñó la palabra “genoma” en 1920, combinando la palabra “gen” con el sufijo “-ome”, que significa “conjunto completo”, para describir la secuencia completa de ADN contenida dentro de cada célula. Los investigadores todavía usan esta palabra un siglo después para referirse al material genético que constituye un organismo.
Una forma de describir el aspecto de un genoma es compararlo con un libro de referencia. En esta analogía, un genoma es una antología que contiene las instrucciones del ADN para la vida. Está compuesto por una gran variedad de nucleótidos (letras) que se empaquetan en cromosomas (capítulos). Cada cromosoma contiene genes (párrafos) que son regiones de ADN que codifican las proteínas específicas que permiten que un organismo funcione.
Si bien cada organismo vivo tiene un genoma, el tamaño de ese genoma varía de una especie a otra. Un elefante usa la misma forma de información genética que la hierba que come y las bacterias en su intestino. Pero no hay dos genomas exactamente iguales. Algunos son cortos, como el genoma de la bacteria que habita en insectos Nasuia deltocephalinicola con solo 137 genes en 112,000 nucleótidos. Algunos, como los 149 mil millones de nucleótidos de la planta con flores Paris japonica, son tan largos que es difícil tener una idea de cuántos genes están contenidos dentro.
Pero los genes, tal como se han entendido tradicionalmente, como tramos de ADN que codifican proteínas, son solo una pequeña parte del genoma de un organismo. De hecho, constituyen menos del 2 por ciento del ADN humano.
El genoma humano contiene aproximadamente 3.000 millones de nucleótidos y poco menos de 20.000 genes que codifican proteínas, aproximadamente el 1 por ciento de la longitud total del genoma. El 99 por ciento restante son secuencias de ADN no codificantes que no producen proteínas. Algunos son componentes reguladores que funcionan como un panel de control para controlar cómo funcionan otros genes. Otros son pseudogenes o reliquias genómicas que han perdido su capacidad de funcionar.
Y más de la mitad del genoma humano es repetitivo, con múltiples copias de secuencias casi idénticas.
¿Qué es el ADN repetitivo?
La forma más simple de ADN repetitivo son bloques de ADN repetidos una y otra vez en tándem llamados satélites. Si bien la cantidad de ADN satélite que tiene un genoma determinado varía de persona a persona, a menudo se agrupan hacia los extremos de los cromosomas en regiones llamadas telómeros. Estas regiones protegen a los cromosomas de la degradación durante la replicación del ADN. También se encuentran en los centrómeros de los cromosomas, una región que ayuda a mantener intacta la información genética cuando las células se dividen.
Los investigadores aún carecen de una comprensión clara de todas las funciones del ADN satelital. Pero debido a que el ADN satelital forma patrones únicos en cada persona, los biólogos forenses y los genealogistas usan esta “huella digital” genómica para hacer coincidir las muestras de la escena del crimen y rastrear la ascendencia. Más de 50 trastornos genéticos están vinculados a variaciones en el ADN satélite, incluida la enfermedad de Huntington.
Otro tipo abundante de ADN repetitivo son los elementos transponibles, o secuencias que pueden moverse por el genoma.
Algunos científicos los han descrito como ADN egoísta porque pueden insertarse en cualquier parte del genoma, sin importar las consecuencias. A medida que el genoma humano evolucionó, muchas secuencias transponibles acumularon mutaciones que reprimían su capacidad de moverse para evitar interrupciones dañinas. Pero es probable que algunos aún puedan moverse. Por ejemplo, las inserciones de elementos transponibles están vinculadas a varios casos de hemofilia A, un trastorno hemorrágico genético.
Pero los elementos transponibles no son solo disruptivos. Pueden tener funciones reguladoras que ayuden a controlar la expresión de otras secuencias de ADN. Cuando se concentran en los centrómeros, también pueden ayudar a mantener la integridad de los genes fundamentales para la supervivencia celular.
También pueden contribuir a la evolución. Los investigadores descubrieron recientemente que la inserción de un elemento transponible en un gen importante para el desarrollo podría ser la razón por la cual algunos primates, incluidos los humanos, ya no tienen cola. Los reordenamientos cromosómicos debidos a elementos transponibles incluso están relacionados con la génesis de nuevas especies como los gibones del sudeste asiático y los canguros de Australia.
Completando el rompecabezas genómico
Hasta hace poco, muchas de estas regiones complejas podían compararse con el lado oculto de la luna: se sabía que existían, pero no se veían.
Cuando el Proyecto del Genoma Humano se lanzó por primera vez en 1990, las limitaciones tecnológicas hicieron imposible descubrir por completo las regiones repetitivas del genoma. La tecnología de secuenciación disponible solo podía leer alrededor de 500 nucleótidos a la vez, y estos fragmentos cortos tenían que superponerse entre sí para recrear la secuencia completa. Los investigadores utilizaron estos segmentos superpuestos para identificar los siguientes nucleótidos en la secuencia, extendiendo gradualmente el ensamblaje del genoma un fragmento a la vez.
Estas regiones de brecha repetitivas eran como armar un rompecabezas de 1,000 piezas de un cielo nublado: cuando cada pieza se ve igual, ¿cómo sabes dónde comienza una nube y termina otra? Con tramos superpuestos casi idénticos en muchos puntos, la secuenciación completa del genoma por partes se volvió inviable. Millones de nucleótidos permanecieron ocultos en la primera iteración del genoma humano.
Desde entonces, los parches de secuencia han ido rellenando poco a poco los huecos del genoma humano. Y en 2021, el Consorcio Telomere-to-Telomere (T2T), un consorcio internacional de científicos que trabajan para completar un ensamblaje del genoma humano de principio a fin, anunció que finalmente se llenaron todos los vacíos restantes.
Esto fue posible gracias a una tecnología de secuenciación mejorada capaz de leer secuencias más largas de miles de nucleótidos de longitud. Con más información para ubicar secuencias repetitivas dentro de una imagen más grande, se hizo más fácil identificar su lugar adecuado en el genoma. Al igual que simplificar un rompecabezas de 1000 piezas a un rompecabezas de 100 piezas, las secuencias de lectura larga hicieron posible ensamblar grandes regiones repetitivas por primera vez.
Con el poder cada vez mayor de la tecnología de secuenciación de ADN de lectura larga, los genetistas están posicionados para explorar una nueva era de la genómica, desenredando secuencias repetitivas complejas entre poblaciones y especies por primera vez. Y un genoma humano completo y sin brechas proporciona un recurso invaluable para que los investigadores investiguen regiones repetitivas que dan forma a la estructura y variación genética, la evolución de las especies y la salud humana.
Pero un genoma completo no lo captura todo. Los esfuerzos continúan para crear diversas referencias genómicas que representen completamente a la población humana y la vida en la Tierra. Con referencias genómicas más completas, “telómero a telómero”, la comprensión de los científicos sobre la materia oscura repetitiva del ADN será más clara.
Gabrielle Hartley es Ph.D. candidato en biología molecular y celular en la Universidad de Connecticut. Ella recibe fondos de la Fundación Nacional de Ciencias.
Este artículo se vuelve a publicar de The Conversation bajo una licencia Creative Commons. Usted puede encontrar el articulo original aquí.