03 de abril de 2013

De Sanger ao NGS e de volta

Francisco Prosdocimi faz um elogio a Fred Sanger ao relatar brevemente a história do sequenciamento de DNA desde sua criação até as modernas técnicas de nova-geração.

De Sanger…

Em 1977, Frederick Sanger e Alan Coulson publicaram dois trabalhos onde reportavam metodologias eficazes para a determinação da sequência de DNA de organismos, abrindo as portas para uma completa revolução na biologia com o desvendamento da seqüência completa de genes e genomas (Sanger et al., 1977a; Sanger et al., 1977b).

Em um desses trabalhos, o genoma completo do fago phi X174 era apresentado; tendo sido este o primeiro genoma de um organismo a ser completamente desvendado por seres humanos. Estes trabalhos renderam a Sanger seu segundo prêmio Nobel em química, entregue no ano de 1980.

Sua esplêndida técnica de sequenciamento de DNA utilizando os chamados didesoxinucleotídeos imperou absoluta na ciência genômica ao longo dos 30 anos que se seguiram à sua publicação original. Não é exagero dizer, portanto, que Sanger tenha sido o verdadeiro pai das ciências genômicas; de fato, um dos maiores centros de genômica do mundo, localizado no distrito de Hinxton, ao lado de Cambridge, na Inglaterra, tem o nome dedicado a ele: o Wellcome Trust Sanger Institute –- onde realizei meu estágio de doutoramento sanduíche.

Sanger portanto abriu as portas para toda a análise informacional em ciências genômicas e mostrou que era definitivamente possível compreender genomas ao soletrá-los unidimensionalmente através da sequência de bases químicas do DNA: A, C, T e G.

Fred Sanger (1918-) é um bioquímico inglês e está entre as únicas 5 pessoas que já foram agraciadas com dois prêmios Nobel. Os dois prêmios de Sanger foram em química. O segundo prêmio Nobel de Sanger (1980) foi vencido devido ao fato de que ele foi capaz de descobrir o genoma completo de um vírus que infecta bactéria em 1977. Este primeiro genoma foi sequenciado devido a uma técnica inovadora inventada por Sanger.

... ao NGS ...

Mas eis que a hegemonia de Sanger pode estar chegando ao fim.

Com a corrida pelo genoma humano nos fins da década de noventa e começo do novo século (Davies, 2001), novas estratégias começaram a ser pensadas para a produção de sequências genômicas de forma ainda mais massiva do que utilizando os sequenciadores de eletroforese capilar baseados em didesoxinucleotídeos fluorescentes (Boysen et al., 1997). Empresas biotecnológicas e mentes inovadores rapidamente perceberam que surgimento de uma tecnologia de sequenciamento mais veloz certamente proporcionaria mais um salto ainda maior em nossa compreensão sobre os genomas de organismos.

Foi em 2005 que os primeiros resultados dos esforços dos engenheiros em produzir máquinas ainda mais eficientes de sequenciamento de DNA foram sentidos (Margulies et al., 2005). A empresa 454 Life Sciences anuncia então sua técnica de sequenciamento por síntese, onde cada base era lida à medida que fosse adicionada à cadeia recém-formada de DNA (Schuster, 2008). No método de Sanger, a base lida era verificada pela marcação fluorescente e pelo peso molecular da molécula contendo a sequência parcial do DNA através de uma análise eletroforética. O novo método que a inserção de cada base parecia ser bastante mais confiável.

No trabalho original publicado na revista Nature, os autores descrevem um "sistema de sequenciamente altamente paralelo e escalável com automatização significativamente maior do que os instrumentos padrão de eletroforese capilar" (Margulies et al., 2005). O equipamento da empresa 454 era capaz de produzir 25 milhões de pares de bases com precisão de 99% ou mais em apenas uma análise de quatro horas na máquina. Isso representava um aumento de 100 vezes na produção de sequências de DNA quando comparado à tecnologia mais moderna existente -- um melhoramento grandioso da tecnologia originalmente descrita por Sanger realizado nos fins da década de noventa (Venter et al., 1996; Boysen et al., 1997). E para provar seus resultados e sua ideologia de "uma nova revolução genômica" está para acontecer, o trabalho original da 454 Life Sciences apresentava o resequenciamento da bactéria Mycoplasma genitalium com altíssima acurácia (99.96%) e realizado em uma única corrida dessas máquinas inovadoras (Margulies et al., 2005).

Todavia este trabalho foi recebido com cautela pela comunidade científica, que preferiu evidenciar as vantagens do sequenciamento Sanger sobre esta técnica do que abraçá-la sem hesitação.

De fato, a nova técnica ainda produzia sequências pequenas e de difícil análise (Wommack et al., 2008). Enquanto a técnica de Sanger produzia seqüências de aproximadamente 750 pares de bases; a nova técnica gerava seqüências contendo apenas cerca de 100 ou 200 letras de DNA encadeadas (Margulies et al., 2005). Já em 2006, entretanto, novos trabalhos publicados principalmente na área da metagenômica demonstravam a versatilidade e eficácia da nova técnica de sequenciamento ao amostrar a diversidade microbiana observada em uma mina (Edwards et al, 2006) ou nas profundezas do mar (Sogin et al., 2006), além de genomas virais observados em oceanos (Angly et al., 2006). Além disso, ao longo dos últimos anos, a tecnologia de pirosequenciamento já evoluiu e a cada dia que passa o tamanho médio dos reads NGS alcança o tamanho médio conseguido por reads baseados na técnica de Sanger.

A máquina Genome Analyser da empresa Illumina, uma das novas máquinas capazes de produzir dados genômicos em larga escala através de técnicas de sequenciamento por síntese. A cada execução da máquina com uma amostra diferente, milhões de sequências genômicas podem ser produzidas que ajudarão os pesquisadores na busca pela compreensão da biologia dos organismos -- busca esta que invariavelmente trás benefícios para a sociedade, como na descoberta de alvos para fármacos ou enzimas de utilização biotecnológica.

Trabalhos subsequentes têm então demonstrado a extensa aplicabilidade de plataformas de sequenciamento de nova geração para a genômica em diversas áreas da pesquisa científica, como por exemplo: descobertas de rearranjos genômicos em tumores (Morozova e Marra, 2008a); genômica funcional (Morozova e Marra, 2008b); análise do transcriptoma em larga escala (Asmann et al., 2008); testes de diagnósticos moleculares (Voelkerding et al, 2009); variação genética em diversos organismos (Imelfort et al., 2009), incluindo humanos (Guryev e Cuppen, 2009); descoberta de vacinas (Dhiman et al., 2009); melhoramento genético de plantas cultivadas (Varshney et al., 2009) e muitos outros.

Além disso, a produção e análise completa de genomas humanos, inaugura a era da genômica individual com a publicação do genoma diplóide de James Watson totalmente sequenciado por máquinas de nova geração (Wheller et al., 2008). O projeto 1000 genomas também apresenta o sequenciamento completo de diversos genomas individuais diplóides de seres humanos (http://www.1000genomes.org), indicando que em talvez menos de uma década já poderemos conhecer a sequência completa de nosso próprio genoma.

E em mais alguns anos quiçá poderemos saber nossas susceptibilidades a diferentes drogas através de estudos de farmacogenômica; sendo que um médico poderá nos receitar apenas a quantidade adequada ao nosso metabolismo. Definitivamente estamos em uma era de avanço tecnológico nas áreas ligadas à genômica e precisamos produzir metodologias eficientes de análise computacional de dados se quisermos ser capazes de sair à frente nos esforços para conhecer a natureza molecular dos organismos vivos e explorar biotecnologicamente todas as suas possibilidades. Financiemos, portanto, e estudemos a bioinformática.

... e de volta

Finalmente, vale dizer que a técnica básica de sequenciamento criada por Sanger, ou seja, a que usa didesoxinucleotídeos e eletroforese, ainda tem muita e certamente continuará tendo, num futuro a se perder de vista, um enorme interesse por parte da comunidade de médicos e biólogos moleculares. Há inúmeras aplicações para, por exemplo o sequenciamento de produtos de PCR em estudos de diagnósticos moleculares de doenças e estudos em genética de populações, como a busca por mutações (SNPs).

O sequenciamento Sanger continua sendo a forma mais comum e mais eficiente de se sequenciar um trecho de DNA. Se ela perde por não poder ser automatizável em escala de altíssima eficiência (high-throughput), isso se torna de fato uma vantagem, pois evidencia sua simplicidade que, associada ao baixo custo de técnica já tão bem dominada pela comunidade, fazem com que o legado intelectual de Sanger se torne verdadeiramente imortal.

Referências bibliográficas

* Angly FE, Felts B, Breitbart M, Salamon P, Edwards RA, Carlson C, Chan AM, Haynes M, Kelley S, Liu H, Mahaffy JM, Mueller JE, Nulton J, Olson R, Parsons R, Rayhawk S, Suttle CA, Rohwer F. The marine viromes of four oceanic regions. PLoS Biol. 2006 Nov;4(11):e368. PubMed PMID: 17090214; PubMed Central PMCID: PMC1634881.
* Asmann YW, Wallace MB, Thompson EA. Transcriptome profiling using next-generation sequencing. Gastroenterology. 2008 Nov;135(5):1466-8. Epub 2008 Oct 9. Review. PubMed PMID: 18848555.
* Boysen C, Simon MI, Hood L. Fluorescence-based sequencing directly from bacterial and P1-derived artificial chromosomes. Biotechniques. 1997 Dec;23(6):978-82. PubMed PMID: 9421619.
* Davies K. (2001) Decifrando o genoma: a corrida para desvendar o DNA humano. COMPANHIA DAS LETRAS.
* Dhiman N, Smith DI, Poland GA. Next-generation sequencing: a transformative tool for vaccinology. Expert Rev Vaccines. 2009 Aug;8(8):963-7. Review. PubMed PMID: 19627178.
* Edwards RA, Rodriguez-Brito B, Wegley L, Haynes M, Breitbart M, Peterson DM, Saar MO, Alexander S, Alexander EC Jr, Rohwer F. Using pyrosequencing to shed light on deep mine microbial ecology. BMC Genomics. 2006 Mar 20;7:57. PubMed PMID: 16549033; PubMed Central PMCID: PMC1483832.
* Guryev V, Cuppen E. Next-generation sequencing approaches in genetic rodent model systems to study functional effects of human genetic variation. FEBS Lett. 2009 Jun 5;583(11):1668-73. Epub 2009 Apr 18. Review. PubMed PMID: 19379744.
* Imelfort M, Duran C, Batley J, Edwards D. Discovering genetic polymorphisms in next-generation sequencing data. Plant Biotechnol J. 2009 May;7(4):312-7. Review. PubMed PMID: 19386039.
* Margulies M, Egholm M, Altman WE, Attiya S, Bader JS, Bemben LA, Berka J,Braverman MS, Chen YJ, Chen Z, Dewell SB, Du L, Fierro JM, Gomes XV, Godwin BC, He W, Helgesen S, Ho CH, Irzyk GP, Jando SC, Alenquer ML, Jarvie TP, Jirage KB, Kim JB, Knight JR, Lanza JR, Leamon JH, Lefkowitz SM, Lei M, Li J, Lohman KL, Lu H, Makhijani VB, McDade KE, McKenna MP, Myers EW, Nickerson E, Nobile JR, Plant R, Puc BP, Ronan MT, Roth GT, Sarkis GJ, Simons JF, Simpson JW, Srinivasan M, Tartaro KR, Tomasz A, Vogt KA, Volkmer GA, Wang SH, Wang Y, Weiner MP, Yu P, Begley RF, Rothberg JM. Genome sequencing in microfabricated high-density picolitre reactors. Nature. 2005 Sep 15;437(7057):376-80. Epub 2005 Jul 31.PubMed PMID: 16056220.
* Morozova O, Marra MA. From cytogenetics to next-generation sequencing technologies: advances in the detection of genome rearrangements in tumors. Biochem Cell Biol. 2008 Apr;86(2):81-91. Review. PubMed PMID: 18443621.
* Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA,
Slocombe PM, Smith M. Nucleotide sequence of bacteriophage phi X174 DNA. Nature.
1977 Feb 24;265(5596):687-95. PubMed PMID: 870828.
* Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminatinginhibitors. Proc Natl Acad Sci U S A. 1977(a) Dec;74(12):5463-7. PubMed PMID:271968; PubMed Central PMCID: PMC431765.
* Schuster SC. Next-generation sequencing transforms today's biology. Nature Methods - 5, 16 - 18 (2008); doi:10.1038/nmeth1156
* Sogin ML, Morrison HG, Huber JA, Mark Welch D, Huse SM, Neal PR, Arrieta JM, Herndl GJ. Microbial diversity in the deep sea and the underexplored "rare biosphere". Proc Natl Acad Sci U S A. 2006 Aug 8;103(32):12115-20. Epub 2006 Jul 31. PubMed PMID: 16880384; PubMed Central PMCID: PMC1524930.
* Varshney RK, Nayak SN, May GD, Jackson SA. Next-generation sequencing technologies and their implications for crop genetics and breeding. Trends Biotechnol. 2009 Sep;27(9):522-30. Epub 2009 Aug 11. Review. PubMed PMID: 19679362.
* Venter JC, Smith HO, Hood L. A new strategy for genome sequencing. Nature. 1996 May 30;381(6581):364-6. PubMed PMID: 8632789.
* Voelkerding KV, Dames SA, Durtschi JD. Next-generation sequencing: from basic research to diagnostics. Clin Chem. 2009 Apr;55(4):641-58. Epub 2009 Feb 26. Review. PubMed PMID: 19246620.
* Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT, Gomes X, Tartaro K, Niazi F, Turcotte CL, Irzyk GP, Lupski JR, Chinault C, Song XZ, Liu Y, Yuan Y, Nazareth L, Qin X, Muzny DM, Margulies M, Weinstock GM, Gibbs RA, Rothberg JM. The complete genome of an individual by massively parallel DNA sequencing. Nature. 2008 Apr 17;452(7189):872-6. PubMed PMID: 18421352.
* Wommack KE, Bhavsar J, Ravel J. Metagenomics: read length matters. Appl Environ Microbiol. 2008 Mar;74(5):1453-63. Epub 2008 Jan 11. PubMed PMID: 18192407; PubMed Central PMCID: PMC2258652.

 

Francisco Prosdocimi
Instituto de Bioquímica Médica,
Universidade Federal do Rio de Janeiro
prosdocimi @ bioqmed.ufrj.br

Aviso

Todo o conteúdo publicado no texto acima é de responsabilidade do seu autor.

Sobre o autor Francisco Prosdocimi

Francisco Prosdocimi Biólogo, Mestre em Genética, Doutor em Bioinformática. Trabalha com montagem e anotação de genomas animais, genômica e transcriptômica comparativa, filogenômica e genética de ...