Com uma topografia complexa e diversa de genes e sequências regulatórias, o genoma humano é frequentemente comparado a uma paisagem. Mas em muitos lugares, este terreno é uma vista menos dramática e mais uma rodovia deserta: vasta e repetitiva.
Considere o centrômero de um cromossomo, que liga seus dois braços carregados de genes. Os centrômeros compreendem milhares de sequências de satélite α quase idênticas – unidades de 171 pares de bases que precisam ser organizadas corretamente para garantir a estabilidade cromossômica e a divisão celular. No entanto, duas décadas após a publicação do esboço do genoma humano, essas e outras características desafiadoras do DNA permanecem como lacunas teimosas em nosso atlas cromossômico. E, até alguns anos atrás, alguns pesquisadores tinham desespero de preenchê-los.
Beth Sullivan, pesquisadora centrômero da Duke University em Durham, Carolina do Norte, lembra de uma conversa em 2014 com Karen Miga, pesquisadora de genômica da Universidade da Califórnia, em Santa Cruz. “Ela me disse: ‘Se algo não acontecer drasticamente com a tecnologia, vamos ficar presos aqui por muito tempo’”, diz Sullivan.
Mas algo aconteceu: o desenvolvimento de tecnologias de sequenciamento que podem ler longos trechos de DNA sem interrupções. Agora, Miga e seus colegas no consórcio Telomere to Telomere (T2T) estão prontos para completar a odisséia de 20 anos que começou com o lançamento da primeira sequência de rascunho. Seu objetivo é produzir, para cada cromossomo, um mapa do genoma de ponta a ponta que se estende de um telômero (os elementos da sequência repetitiva que cobrem as extremidades cromossômicas) até o outro. “Não era apenas por fazer”, diz Miga. “Foi porque eu acho que há uma biologia muito legal nisso.” Mas para encontrá-lo, o mundo da genômica precisará sequenciar muitos desses genomas, destruindo a variação dessas regiões genômicas ainda mal compreendidas.
Preso no meio
Publicado há 20 anos neste mês 1 , o primeiro esboço do genoma humano foi um marco. Mas também estava cheio de buracos. Cientistas do Projeto Genoma Humano geraram um grande número de sequências curtas de DNA cromossômico. Onde eles se sobrepunham com seus vizinhos, eles eram montados em trechos maiores e contíguos conhecidos como contigs. Idealmente, cada cromossomo seria representado por um único contig, mas o primeiro esboço consistia em 1.246 desses fragmentos.
Desde então, os cientistas que trabalham como parte do Genome Reference Consortium (GRC) têm desenvolvido o conjunto, verificando-o manualmente e usando a análise de sequenciamento para identificar segmentos com erros e lacunas de informação. A versão mais recente do genoma humano, chamada GRCh38, foi lançada em 2013. Desde então, foi repetidamente ‘corrigido’. Mesmo assim, ainda está faltando de 5 a 10% do genoma, incluindo todos os centrômeros e outras regiões desafiadoras, como a grande coleção de genes que codificam as sequências de RNA que formam organelas produtoras de proteínas chamadas ribossomos. Eles estão presentes em longos trechos de numerosas cópias repetidas de genes. “Essa é uma grande parte das lacunas que ainda não foram superadas”, diz Adam Phillippy, bioinformático do Instituto Nacional de Pesquisa do Genoma Humano dos EUA em Bethesda, Maryland, e co-presidente do T2T.
Essas seções desafiadoras continuaram a frustrar os esforços de montagem do genoma. Isso porque a maior parte do sequenciamento até agora foi feita com tecnologias de leitura curta, como a plataforma amplamente usada comercializada pela empresa de biotecnologia Illumina em San Diego, Califórnia. Os sequenciadores Illumina geram dados extremamente precisos, mas normalmente em apenas algumas centenas de bases – muito curtos para abranger as longas repetições e posicionar as sequências de forma inequívoca. “Os genes são geralmente fáceis de montar”, diz Kerstin Howe, bióloga computacional do Wellcome Sanger Institute em Hinxton, Reino Unido, que faz parte do GRC. “Mas tudo o mais naquele espaço intergênico ou com muitas repetições era basicamente não endereçável.”
Alcançando as lacunas
Duas tecnologias de leitura longa agora estão fechando essas lacunas. A empresa de biotecnologia Pacific Biosciences em Menlo Park, Califórnia, usa um sistema de imagem para ler diretamente centenas de milhares ou até milhões de fitas de DNA em paralelo, cada uma abrangendo milhares de bases. Outra abordagem, comercializada pela firma britânica Oxford Nanopore Technologies, filamentos de DNA por minúsculos poros de proteína, ou nanoporos, lendo dezenas a centenas de milhares de bases medindo as mudanças sutis na corrente elétrica que ocorrem quando os nucleotídeos atravessam o canal.
Quando foram lançadas pela primeira vez (tecnologia da Pacific Biosciences em 2010 e Oxford Nanopore em 2014), essas tecnologias eram mais propensas a erros do que a Illumina, que oferece precisão superior a 99% para leituras individuais. “Estamos falando de taxas de erro de 15 a 20% nas primeiras leituras do PacBio”, diz Phillippy. Os sequenciadores de nanoporos de primeira geração podem produzir erros em mais de 30% das bases.
Mas o desempenho melhorou constantemente e, com isso, o comprimento da leitura. “Nos últimos três ou quatro anos, agora podemos obter comprimentos de leitura de mais de 100 kilobases”, diz Phillippy. “Foi quando Karen e eu lançamos este consórcio T2T.”

Cromossomos humanos fotografados por um microscópio eletrônico de varredura. Crédito: Power and Syred / SPL
Criado no início de 2019, o consórcio tem como objetivo produzir conjuntos de ponta a ponta de alta qualidade para cada cromossomo humano. Mais de 100 especialistas em sequenciamento e genômica de todo o mundo se inscreveram, muitos dos quais já estavam demonstrando ativamente o poder da análise baseada em leituras longas.
Dois artigos publicados em 2018 destacam seu trabalho. Em um 2 , o biólogo computacional Matthew Loose da Universidade de Nottingham, Reino Unido, e seus colegas descreveram o primeiro genoma humano montado inteiramente a partir de dados do Oxford Nanopore. Os assemblies de leitura longa anteriores usaram dados da Illumina para corrigir a saída de nanoporos sujeita a erros. Mas Loose e seus colegas cobriram cerca de 90% do GRCh38 com 99,8% de precisão usando apenas dados de nanoporos, ao mesmo tempo que fechava uma dúzia de lacunas importantes no genoma de referência.
No segundo estudo 3 , Miga e sua equipe remontaram o centrômero do cromossomo Y humano, o menor do genoma. Eles produziram inúmeras leituras longas em toda a região para gerar sequências de consenso de alta qualidade nas quais erros aleatórios pudessem ser prontamente identificados e eliminados. “Nós realmente poderíamos atravessar todo o caminho através do centrômero”, diz Miga. “Mas ainda era muito manual naquele ponto – apenas olhar os padrões e costurá-los.”
Primeiro a terminar
Esses sucessos deixaram claro que o objetivo do T2T estava ao seu alcance. Para simplificar seu trabalho, o consórcio se concentrou na CHM13, uma linha celular derivada de tumor com um genoma que compreende dois conjuntos idênticos de cromossomos. Isso elimina a complexidade dos genomas diplóides, com cópias cromossômicas distintas de cada pai.
No final de 2020, os cientistas do T2T publicaram os dois primeiros conjuntos completos, para os cromossomos X 4 e 8 (como uma pré-impressão) 5 . Os pesquisadores usaram a tecnologia Oxford Nanopore para sequenciar pedaços dos dois cromossomos que rotineiramente excediam 70.000 bases de comprimento, com uma leitura ultrapassando um milhão de bases. “Com eles, fomos capazes de essencialmente ter uma representação de backbone desses cromossomos de telômero em telômero, mas com menor precisão”, diz Phillippy. Em seguida, eles complementaram esses dados com leituras da Illumina and Pacific Biosciences para polir suas montagens.
Glennis Logsdon, um pós-doutorado no laboratório do cientista do genoma Evan Eichler na Universidade de Washington em Seattle e primeiro autor no trabalho do cromossomo 8, diz que as diferentes tecnologias de sequenciamento têm peculiaridades distintas. Por exemplo, os cientistas do T2T descobriram que a química da Pacific Biosciences pode lutar com regiões genômicas altamente enriquecidas em bases G e A, enquanto a tecnologia de nanoporos às vezes tropeça em longas repetições do mesmo nucleotídeo. “Se um conjunto de dados tem um defeito que o outro não tem, eles acabam se complementando bem por causa disso”, diz Logsdon.
Concluir e verificar os fatos das montagens exigiu ferramentas de software especializadas desenvolvidas por pesquisadores, incluindo Phillippy e o biólogo computacional Pavel Pevzner da Universidade da Califórnia, San Diego. A equipe adotou uma abordagem cautelosa. “Iríamos apenas colar duas sequências se fossem basicamente 100% idênticas em 7.000 bases de seu comprimento”, diz Phillippy. “Depois de introduzir um erro na montagem, é muito difícil consertá-lo.” Mas, com tanto cuidado, diz ele, tornou-se possível produzir assemblies com 99,99% de precisão no nível de nucleotídeo.
O trabalho inicial 4 com o cromossomo X também se beneficiou do conhecimento prévio do centrômero desse cromossomo, que foi bem estudado em nível estrutural. “Usamos uma variedade de técnicas moleculares para garantir que o tamanho da montagem da matriz do satélite α a partir das informações de sequenciamento estava correto”, disse Sullivan. “No geral, fiquei realmente impressionado com a quantidade de validação que entrou naquele primeiro estudo.”
Os pesquisadores também exploraram técnicas de mapeamento, como a desenvolvida pela Bionano Genomics, empresa de biotecnologia de San Diego, Califórnia, que permitem medir as distâncias que separam as sequências de DNA de um cromossomo.
Fechando na conclusão
Embora bem-sucedida, a abordagem T2T para os cromossomos 8 e X foi laboriosa e meticulosa. Mas um avanço importante durante esse tempo deu aos esforços da equipe um tiro certeiro. Os instrumentos da Pacific Biosciences apóiam um processo conhecido como sequenciamento de consenso circular (CCS), no qual fitas individuais de DNA são convertidas em loops fechados que podem ser lidos repetidamente. Ao comparar essas leituras repetidas, os pesquisadores podem eliminar erros aleatórios para produzir um resultado altamente preciso.
As primeiras versões do CCS atingiram o limite de alguns milhares de bases, limitando seu uso na montagem do genoma. Mas em 2019, a empresa reformulou esse processo 6 e a abordagem de alta fidelidade resultante agora produz leituras de consenso que ultrapassam 20.000 bases com mais de 99% de precisão. “Alguns centrômeros que agora podemos montar completamente a partir de leituras de alta fidelidade – nenhuma ajuda extra é necessária”, diz Pevzner, embora ele acrescente que algoritmos bem calibrados que podem trabalhar com esses dados também são necessários.
Pevzner compara a reconstrução do centrômero à montagem de um quebra-cabeça de céu azul aparentemente claro, no qual todas as peças inicialmente parecem indistinguíveis. “Há poucas nuvens, quase invisíveis, que podem distinguir as diferentes peças do quebra-cabeça”, diz ele. Encontrar essas nuvens revela a organização do quebra-cabeça – e a abordagem renovada faz o mesmo com os centrômeros, detectando com sensibilidade diferenças sutis de sequência que podem fornecer marcos para algoritmos de montagem.
A combinação dessa abordagem com leituras de nanoporos cada vez maiores acelerou notavelmente o progresso do T2T – Logsdon relata que alongamentos de cem mil bases agora são rotineiros. “Demoramos um ano ou mais para fazer cada um dos projetos do cromossomo X e 8”, diz Phillippy, “mas fomos capazes de terminar essencialmente todos os cromossomos restantes em um período de dois meses.” Agora o fim está à vista. “Acendemos com luz verde todos os arranjos centroméricos, exceto o do cromossomo 9”, diz Miga. Este centrômero, diz ela, é enorme – abrangendo 27 milhões de bases – e representa um desafio especial em termos de validação. A equipe também está finalizando os genes de RNA ribossômico altamente duplicados. Mas o consórcio já está compartilhando seus dados no GitHub, e Miga antecipa que o lançamento do genoma completo para a linha de células CHM13 chegará este ano.
Os dados já estão gerando insights. Logsdon e outros têm usado o sequenciamento de nanoporos para encontrar padrões de modificação química do DNA que podem influenciar a função cromossômica. “A maior parte do centrômero é metilado, mas há essa queda na metilação que parece ser encontrada em todos os centrômeros”, diz ela. A queda parece marcar a localização do cinetocoro, uma estrutura centromérica essencial que gerencia a partição igual do DNA durante a divisão celular. Logsdon espera usar essas descobertas para projetar centrômeros mínimos para cromossomos sintéticos.
A abordagem do T2T também fez um trabalho relativamente curto dos vastos e complexos conjuntos de genes que codificam as regiões variáveis de anticorpos e receptores na superfície das células T do sistema imunológico. “Eles são altamente repetitivos e notoriamente difíceis de montar”, diz Pevzner. “Até hoje, temos apenas duas referências para esta região.” A capacidade de acessar e caracterizar esses segmentos genômicos desafiadores pode orientar os esforços para compreender a resposta imune a infecções e vacinas.
Fim do começo
Por mais desafiador que seja sua construção, um único genoma ponta a ponta oferece aos pesquisadores valor limitado, sem outros genomas de diversos indivíduos com os quais compará-lo. Para aumentar sua utilidade, no final de 2020, o T2T começou a trabalhar mais estreitamente com um esforço paralelo, o Human Pangenome Reference Consortium (HPRC). O HPRC foi lançado em 2019 com o objetivo de substituir o GRCh38 por um genoma de referência que captura melhor o escopo da diversidade humana, com base em dados do genoma completo de pelo menos 350 indivíduos. “Quanto mais a medicina genômica se torna rotina, mais você vai querer remover qualquer preconceito que dependa da ancestralidade de uma pessoa”, diz Tobias Marschall, biólogo computacional do Instituto Max Planck de Informática em Saarbrücken, Alemanha, que faz parte do o esforço.
Yuta Suzuki, pesquisadora associada do laboratório do biólogo computacional Shinichi Morishita da Universidade de Tóquio, usou o sequenciamento da Pacific Biosciences para estudar os centrômeros de 36 indivíduos do Japão e de outras partes do mundo 7 . “Apenas na população japonesa, vemos centrômeros diferentes para praticamente todas as amostras que investigamos”, diz Suzuki. “Não basta ter apenas uma referência, ou mesmo apenas uma referência para cada população.”
Morishita planeja analisar centenas de centrômeros humanos adicionais, e ele observa que várias dezenas de variações genéticas associadas a doenças foram mapeadas para essas regiões. “Isso sugere que há algo errado com as repetições centroméricas, e nossa impressão é que sua estabilidade pode ser destruída devido a variações estruturais”, diz ele. Por sua vez, Phillippy vê a oportunidade de entender melhor as doenças associadas à maquinaria de produção de proteína celular, uma vez que os genes do RNA ribossomal podem ser resolvidos de forma rotineira.
Mas, primeiro, os pesquisadores devem descobrir como aplicar o processo T2T a um genoma diplóide. Determinar quais sequências residem em quais cópias do cromossomo exige que os cientistas identifiquem marcos genéticos únicos o suficiente para montar contigs distintos para cada fita de DNA, um feito difícil em regiões ultra-repetitivas como o centrômero. Em sua pré-impressão do cromossomo 8, Logsdon, Eichler e seus colegas descrevem a viabilidade de reconstruir regiões centroméricas diplóides de chimpanzés e humanos, mas apenas quando os dois cromossomos são altamente distintos geneticamente. “Precisaremos de leituras muito mais precisas ou mais longas para abranger toda a região do centrômero de um genoma diplóide”, diz Morishita.
Atualmente, a maioria dos esforços de genômica clínica concentra-se em genes conhecidos – uma abordagem rápida e econômica para a análise do genoma. Mas os pioneiros que exploram esse novo terreno esperam que análises abrangentes acabem se tornando um dispositivo padrão, embora provavelmente mais caro, na genômica médica e de pesquisa – particularmente quando os pesquisadores começam a explorar rotineiramente o impacto clínico das variações nessas regiões antes impossíveis de mapear. “Se meu filho estivesse doente e eu soubesse que poderia obter 100% do genoma com a leitura longa, gostaria de pagar essa diferença”, diz Miga.
Publicado na Revista Nature 590 , 679-681 (2021)
Referências
- 1
Consórcio Internacional de Sequenciação do Genoma Humano. Nature 409 , 860–921 (2001).
- 2
Jain, M. et al. Nature Biotechnol. 36 , 338-345 (2018).
- 3 –
Jain, M. et al. Nature Biotechnol. 36 , 321–323 (2018).
- 4 –
Miga, KH et al. Nature 585 , 79–84 (2020).
- 5
Logsdon, GA et al. Pré-impressão em bioRxiv https://doi.org/10.1101/2020.09.08.285395 (2020).
- 6
Wenger, AM et al. Nature Biotechnol. 37 , 1155–1162 (2019).
- 7
Suzuki, Y., Myers, EW & Morishita, S. Sei. Adv. 6 , eabd9230 (2020).