Com uma topografia complexa e diversa de genes e sequências regulatórias, o genoma humano é frequentemente comparado a uma paisagem. Mas em muitos lugares, este terreno é uma vista menos dramática e mais uma rodovia deserta: vasta e repetitiva.
Considere o centrômero de um cromossomo, que liga seus dois braços carregados de genes. Os centrômeros compreendem milhares de sequências de satélite α quase idênticas – unidades de 171 pares de bases que precisam ser organizadas corretamente para garantir a estabilidade cromossômica e a divisão celular. No entanto, duas décadas após a publicação do esboço do genoma humano, essas e outras características desafiadoras do DNA permanecem como lacunas teimosas em nosso atlas cromossômico. E, até alguns anos atrás, alguns pesquisadores tinham desespero de preenchê-los.
Beth Sullivan, pesquisadora centrômero da Duke University em Durham, Carolina do Norte, lembra de uma conversa em 2014 com Karen Miga, pesquisadora de genômica da Universidade da Califórnia, em Santa Cruz. “Ela me disse: ‘Se algo não acontecer drasticamente com a tecnologia, vamos ficar presos aqui por muito tempo’”, diz Sullivan.
Mas algo aconteceu: o desenvolvimento de tecnologias de sequenciamento que podem ler longos trechos de DNA sem interrupções. Agora, Miga e seus colegas no consórcio Telomere to Telomere (T2T) estão prontos para completar a odisséia de 20 anos que começou com o lançamento da primeira sequência de rascunho. Seu objetivo é produzir, para cada cromossomo, um mapa do genoma de ponta a ponta que se estende de um telômero (os elementos da sequência repetitiva que cobrem as extremidades cromossômicas) até o outro. “Não era apenas por fazer”, diz Miga. “Foi porque eu acho que há uma biologia muito legal nisso.” Mas para encontrá-lo, o mundo da genômica precisará sequenciar muitos desses genomas, destruindo a variação dessas regiões genômicas ainda mal compreendidas.
Preso no meio
Publicado há 20 anos neste mês 1 , o primeiro esboço do genoma humano foi um marco. Mas também estava cheio de buracos. Cientistas do Projeto Genoma Humano geraram um grande número de sequências curtas de DNA cromossômico. Onde eles se sobrepunham com seus vizinhos, eles eram montados em trechos maiores e contíguos conhecidos como contigs. Idealmente, cada cromossomo seria representado por um único contig, mas o primeiro esboço consistia em 1.246 desses fragmentos.
Desde então, os cientistas que trabalham como parte do Genome Reference Consortium (GRC) têm desenvolvido o conjunto, verificando-o manualmente e usando a análise de sequenciamento para identificar segmentos com erros e lacunas de informação. A versão mais recente do genoma humano, chamada GRCh38, foi lançada em 2013. Desde então, foi repetidamente ‘corrigido’. Mesmo assim, ainda está faltando de 5 a 10% do genoma, incluindo todos os centrômeros e outras regiões desafiadoras, como a grande coleção de genes que codificam as sequências de RNA que formam organelas produtoras de proteínas chamadas ribossomos. Eles estão presentes em longos trechos de numerosas cópias repetidas de genes. “Essa é uma grande parte das lacunas que ainda não foram superadas”, diz Adam Phillippy, bioinformático do Instituto Nacional de Pesquisa do Genoma Humano dos EUA em Bethesda, Maryland, e co-presidente do T2T.
Essas seções desafiadoras continuaram a frustrar os esforços de montagem do genoma. Isso porque a maior parte do sequenciamento até agora foi feita com tecnologias de leitura curta, como a plataforma amplamente usada comercializada pela empresa de biotecnologia Illumina em San Diego, Califórnia. Os sequenciadores Illumina geram dados extremamente precisos, mas normalmente em apenas algumas centenas de bases – muito curtos para abranger as longas repetições e posicionar as sequências de forma inequívoca. “Os genes são geralmente fáceis de montar”, diz Kerstin Howe, bióloga computacional do Wellcome Sanger Institute em Hinxton, Reino Unido, que faz parte do GRC. “Mas tudo o mais naquele espaço intergênico ou com muitas repetições era basicamente não endereçável.”
Alcançando as lacunas
Duas tecnologias de leitura longa agora estão fechando essas lacunas. A empresa de biotecnologia Pacific Biosciences em Menlo Park, Califórnia, usa um sistema de imagem para ler diretamente centenas de milhares ou até milhões de fitas de DNA em paralelo, cada uma abrangendo milhares de bases. Outra abordagem, comercializada pela firma britânica Oxford Nanopore Technologies, filamentos de DNA por minúsculos poros de proteína, ou nanoporos, lendo dezenas a centenas de milhares de bases medindo as mudanças sutis na corrente elétrica que ocorrem quando os nucleotídeos atravessam o canal.
Quando foram lançadas pela primeira vez (tecnologia da Pacific Biosciences em 2010 e Oxford Nanopore em 2014), essas tecnologias eram mais propensas a erros do que a Illumina, que oferece precisão superior a 99% para leituras individuais. “Estamos falando de taxas de erro de 15 a 20% nas primeiras leituras do PacBio”, diz Phillippy. Os sequenciadores de nanoporos de primeira geração podem produzir erros em mais de 30% das bases.
Mas o desempenho melhorou constantemente e, com isso, o comprimento da leitura. “Nos últimos três ou quatro anos, agora podemos obter comprimentos de leitura de mais de 100 kilobases”, diz Phillippy. “Foi quando Karen e eu lançamos este consórcio T2T.”
Cromossomos humanos fotografados por um microscópio eletrônico de varredura. Crédito: Power and Syred / SPL



