Publicado em 21/10/2016

Um programa para a identificação de locos anônimos em genomas de primatas

A utilização e geração de novas ferramentas, técnicas computacionais e programas de informática que possibilitem compreender o imenso conteúdo de dados genômicos disponíveis nos bancos de dados é de grande relevância para o estudo da biologia contemporânea.

Publicado em 19 de Julho de 2016, pelo periódico de alto impacto Genome Research (IF = 11.3), o estudo ''In silico phylogenomics using complete genomes: a case study on the evolution of hominoids'', que teve o Prof.  Francisco Prosdocimi do IBqM como um dos autores, apresentou um novo software chamado ALFIE para a busca exaustiva de marcadores genéticos neutros chamados de locos anônimos. Desenvolvido pelo grupo do LAMPADA, ALFIE foi capaz de ampliar o nosso entendimento sobre a evolução dos hominídeos e permitir uma melhor compreensão dos eventos evolutivos que aconteceram em nossos ancestrais mais diretos.

Para a validação da nova ferramenta, o trabalho usou dados de genomas completos de membros da família Hominidae, ou seja, o genoma humano, do chimpanzé, do gorila e do orangotango. Os resultados permitiram que fosse recalculado, com maior exatidão, o tamanho efetivo populacional das populações ancestrais desses macacos do velho mundo e também o tempo de divergência entre as espécies.

O programa foi desenvolvido pelo mestre em Química Biológica Igor R. Costa, pelo Prof. Francisco Prosdocimi e pelo Prof. W Bryan Jennings do Museu Nacional. O programa começou a ser desenvolvido em linguagem PERL, em 2012, pelo Prof. Francisco e só agora foi publicado em uma nova versão desenvolvida pelo aluno Igor Costa, em linguagem python. ALFIE possui um módulo para encontrar automaticamente o número total de regiões anônimas do genoma humano e um módulo para descartar regiões anônimas proximamente relacionadas ou ligadas entre si (gene linkage). Além disso, ele contém scripts para realizar análise filogenômica em larga-escala, identificar a distribuição de locos por cromossomo, identificar o modelo de substituição ideal de nucleotídeos e desenhar primers automaticamente. Bem-vindos ao mundo da bioinformática!

 insilicoTitle

Convidamos o Prof. Francisco Prosdócimi para esclarecer algumas questões sobre seu trabalho publicado.

PORTAL BIOQMED. Bom dia professor, Francisco! Gostaríamos de agradecê-lo por responder algumas perguntas de seu artigo publicado a parabenizá-lo pelo desenvolvimento do software! Vocês desenvolveram um programa capaz de realizar tarefas para a obtenção de sequência de ortólogos de genomas de primatas do velho mundo e montagem de alinhamentos de sequências de DNA concatenadas, certo? Primeiro, gostaríamos que nos explicasse como funciona o novo software desenvolvido?

PROF. FRANCISCO PROSDÓCIMI. Oi Larissa, agradeço pelo interesse e leitura do nosso trabalho! Para entendermos o funcionamento do ALFIE primeiro temos que entender o que são esses locos anônimos.

Os locos anônimos são, em teoria, as melhores regiões de um genoma para se estudar a evolução dos organismos. Isso acontece por que esses locos evoluem de acordo com um modelo mais próximo possível da neutralidade e respeitam, tanto quanto possível, as pressuposições dos métodos filogenéticos -- que são feitos teoricamente para funcionarem em regiões que evoluem segundo o modelo neutro.

A evolução é melhor compreendida em regiões que evoluem neutramente por que a seleção natural guia a mudança genética em uma direção pré-determinada pelo fenótipo. Isso significa que as regiões gênicas do genoma estão sob constante pressão seletiva para que suas proteínas funcionem bem e para que o fenótipo resultante garanta a sobrevivência do organismo. Da mesma forma, as regiões que estão próximas dos genes normalmente também sofrem um tipo de efeito-carona (hitch-hiking) da seleção natural -- que atua molecularmente para manter as sequencias dos genes (e das proteínas) funcionando corretamente.

Antigamente, para encontrar esses locos anônimos, os pesquisadores faziam um procedimento de bancada exaustivo e laborioso, que podia demorar meses ou até anos para dar algum resultado. Com a bioinformática, agora a gente consegue fazer isso em cerca de três horas de computação. Na primeira versão que fizemos do programa, realizada por mim em linguagem PERL, a gente simulava o procedimento de bancada no computador, produzindo primers eletrônicos para amplificar regiões do genoma sorteadas aleatoriamente. Depois verificávamos a distância dessas regiões para os genes e víamos se elas estavam distantes de qualquer gene por uma determinada distância. Usamos um valor em quilobases (Kb) para definirmos o ponto ideal onde essas sequências anônimas que queremos estudar parariam de pegar esse efeito-carona forte da seleção natural.

Já na versão mais nova do ALFIE desenvolvida pelo Igor, em Python, o que o nosso programa faz é obter o arquivo FASTA com as sequencias de todos os cromossomos humanos e um arquivo no formato GFF, que identifica a posição de todos os genes e regiões regulatórias do genoma humano. Depois que ele faz isso, a gente usa esse filtro que definimos com um tamanho de 200Kb e encontra o que chamamos de regiões anônimas -- que são todas as regiões do genoma humano que estão a distâncias maiores de 200.000 pares de bases de qualquer gene ou região regulatória. Essas regiões estão tão distantes de genes que seria muito pouco provável que tivessem pegado essa carona da seleção natural (gene linkage) e possivelmente evoluíram, senão neutralmente, de forma mais próxima possível do modelo neutro e da teoria neutralista da evolução molecular.

A principal diferença entre a primeira e a segunda versões é que a primeira selecionava regiões aleatórias e depois verificava a distância de genes pra selecionar os locos putativos, simulando a versão experimental. Na segunda versão, idealizada pelo Igor, a busca exaustiva das regiões anônimas otimizaram a busca pelos locos anônimos.

Eu não poderia também deixar de agradecer e ressaltar aqui a importância do outro co-autor do trabalho, o herpetólogo e professor visitante do Museu Nacional, Dr. Bryan Jennings. Foi o Bryan que inicialmente nos introduziu ao mundo dos locos anônimos, já que ele já havia realizado um trabalho com locos anônimos de salamandra, obtidos em bancada. Ele já havia sentido na pele a dificuldade em produzir esses marcadores e estava convicto da importância deles no estudo da biologia evolutiva. O nosso contato foi feito através da Prof. Débora Fogel e do Prof. Paulo Buckup que sabiam que tínhamos interesses em comum. Desde nosso primeiro meeting para discutirmos bioinformática e genética de populações, já desenvolvemos o embrião da ideia do que viria a ser o ALFIE. Não sabíamos que desde esse dia seriam 4 anos de pesquisa até a publicação desse primeiro artigo. Foi um trabalho muito duro e Bryan não foi apenas paciente, mas nos incentivava a cada dia e propunha novos desafios, buscando na literatura os principais métodos para definir pontos-chave de corte (cutt-offs) para o programa. Além disso, Bryan coordenou e executou toda a parte de análise populacional que justifica e torna nosso programa verdadeiramente aplicável e informativo ao analisar o principal e mais bem curado conjunto de dados da genômica evolutiva: os grandes primatas.

Voltando aos locos anônimos, justamente por estarem distantes de genes e evoluírem de forma mais próxima do modelo neutro é que essas regiões guardam informações evolutivas muito úteis para o estudo da evolução de grupos naturais. Eles são o "sonho de consumo" dos biólogos evolutivos para estudar a evolução populacional.

 

PORTAL BIOQMED. Ah, interessante. E depois que o ALFIE encontra essas regiões anônimas, quais as principais tarefas que são realizadas pelo programa?

PROF. FRANCISCO. Bem, depois que a gente encontra essas regiões anônimas, a gente parte elas em pedaços de 1Kb que são buscados nos genomas dos outros primatas. A ideia é que regiões de 1.000 pares de base contêm informações suficientes para fornecer dados evolutivos de alta importância. Essas regiões de 1Kb são chamadas de locos anônimos putativos e quando a gente encontra que esses locos podem ser localizados nos genomas dos organismos proximamente relacionados com os quais a gente quer comparar, a gente define os locos anônimos finais com os quais a gente vai trabalhar.

Uma coisa interessante sobre esse trabalho é que, até antes dele, ninguém sabia ao certo quantas regiões anônimas ou quantos locos anônimos o ser humano possui em seu genoma. Ou seja, qual seria a parcela do genoma que evoluiria mais próximo do modelo neutralista? A gente demonstrou que cerca de 8% do nosso genoma parece evoluir de forma neutra (regiões anônimas) e encontramos 292 locos anônimos finais-validados que estão distantes pelo menos 200Kb de genes (e 200Kb distantes entre si também) e que puderam ser encontrados nos genomas de todos os outros organismos da família Hominidae.

Depois que esses 292 locos foram encontrados, a gente fez o alinhamento múltiplo de cada um deles entre os 4 hominídeos com os quais trabalhamos e fizemos análises evolutivas sofisticadas a partir desses dados. Com esses alinhamentos, a gente teve o maior e mais bem definido conjunto de dados já obtido até então para estudarmos o tempo de divergência e o tamanho efetivo das populações ancestrais dos grandes primatas.

 

PORTAL BIOQMED. E qual a importância de sabermos o tamanho efetivo das populações ancestrais ou o tempo de divergência entre espécies?

PROF. FRANCISCO. Muita gente esquece que um dos principais conceitos e ideias do pensamento evolutivo e que foi também uma das cinco teorias de Darwin, segundo o teórico Ernst Mayr, é o pensamento populacional. A evolução acontece a partir de populações que migram, que mudam de comportamento, que vão de um lugar a outro. E assim, para entendermos a atual diversidade dos organismos vivos, precisamos entender como e de onde eles evoluíram. E, para isso, é importante termos uma ideia no número efetivo da população ancestral entre esses organismos. A ideia de que um homem e uma mulher fundaram toda a humanidade é errada e deve ser compreendida apenas como uma simbologia religiosa, não tendo nenhuma relação com a realidade.

Nossas análises sugerem que o tamanho mais provável da população ancestral que deu origem aos humanos e chimpanzés era de cerca de 54.000 indivíduos. E em nossa opinião, essa é a melhor estimativa realizada até hoje! Isso por que ela usa os melhores dados para o cálculo, ou seja, os locos anônimos que demonstraram evoluir segundo um modelo neutralista. Por isso também o nosso artigo pôde ser publicado nessa revista de alto impacto.

E essa divergência entre esses grandes símios parece ter acontecido ainda mais cedo do que os cálculos anteriores mostravam, ou seja, o ser humano parece ter divergido do chimpanzé há nem tanto tempo assim... Nossos dados indicam que isso pode ter acontecido há algo entre 3.8 e 4.1 milhões de anos atrás. E embora todos esses números sejam predições teóricas, esses são os melhores números que a ciência atual pode nos dar, pois foram realizados usando os melhores marcadores possíveis para fornecer essas informações, ou seja, os 292 locos anônimos encontrados pelo ALFIE.

 

PORTAL BIOQMED. E quais as perspectivas futuras do trabalho?

PROF. FRANCISCO. A verdade é que só agora a ciência começa a entrar em uma área a qual chamamos de genômica populacional. Nosso trabalho foi feito com os melhores marcadores genéticos possíveis, mas usou os dados de apenas 4 genomas, ou seja, 1 genoma humano, 1 genoma de chimpanzé, 1 de gorila e 1 de orangotango. A gente sabe que o projeto 1000 genomas já apresenta dados parciais de mais de 1000 genomas humanos e que há também projetos similares de menor escala começando a ser realizados para outros dos grandes primatas. Ainda vai demorar um pouco para que a gente consiga usar todos esses dados em conjunto e recalcular esses números. Mas o ALFIE já foi desenvolvido pensando que esses dados vão estar prontos algum dia... possivelmente num futuro menos distante do que se poderia imaginar. E quando eles estiverem prontos, ali estaremos nós para pegarmos essa informação e realizarmos um novo estudo levando todas essas informações em conta e fazermos uma atualização dessas informações.

Além disso, por ora também já é possível buscar e analisar locos anônimos em diversos outros tipos de modelos animais e vegetais. Estamos particularmente interessados em realizar estudos similares nos genomas das aves que são na verdade o carro-chefe de estudos em nosso laboratório. Além disso, sabemos que a aplicação do estudo de locos anônimos em diversos outros modelos animais e vegetais podem vir a elucidar de forma mais completa e profunda a evolução de diferentes clados importantes na história da vida no planeta Terra. Estar contribuindo de forma ativa para esse avançar esse conhecimento é algo que nos motiva e nos alegra imensamente!

 

PORTAL BIOQMED. Finalmente, será que o senhor poderia comentar o que acha da política científica nacional atualmente? E também das políticas internas da UFRJ e do IBqM?

PROF. FRANCISCO. Estou bastante preocupado com a evolução das políticas públicas em todas as escalas em nosso país. Uma das coisas que me parece que aconteceu e que levou ao estado atual é que muitas pessoas foram elevadas ao poder e não conseguiram fazer o país, a universidade e o instituto se desenvolverem bem. Porém, quando perceberam que a crise ia chegar, ao invés de darem lugar para outras pessoas se elevassem para tentar reorganizar a casa, estes se viram gananciosas com o poder e não quiseram arredar o pé desse lugar onde foram colocados. Na minha opinião, a alternância de poder é uma coisa extremamente importante em todos níveis, para qualquer instituição. Cheguei na UFRJ e no IBqM há cerca de seis anos e, em muitos casos, vejo as mesmas pessoas nas mesmas posições desde que cheguei. Acredito sinceramente que isso é muito prejudicial, já que essas pessoas se acostumaram com seus pequenos poderes e se vêm donas de determinado pequeno nicho que, sim, ajudaram a construir. Acontece que a universidade é pública e que ninguém deveria achar que é dono de nada que está aqui. Entretanto o que vemos é a ganância e a estagnação do sistema.

Com o advento da internet e da facilidade em se adquirir informação hoje em dia, a dinâmica do mundo anda mais rápido e os sistemas têm uma imensa dificuldade em acompanhar essa evolução. Em um ano hoje possivelmente acontecem mais coisas notáveis em termos intelectuais do que acontecia em décadas no passado. As pessoas têm dificuldades em acompanhar essa evolução e as instituições também. A manutenção de velhos coronéis em posições de liderança está estagnando de forma comprometedora um futuro brilhante que poderia vir caso houvesse um real interesse e compromisso dos gestores em melhorar as instituições, ao invés de evitar a luta contra o conformismo e o coronelismo. Mas os gestores em geral -- e não estou aqui para acusar ninguém em particular -- engolem sapos dos antigos coronéis e donos do poder para não causarem uma revolução no pensamento científico, administrativo ou organizacional. Na minha opinião estamos em uma nova era: uma era totalmente diferente de tudo que já veio no passado e precisamos sim tomarmos uma atitude revolucionária em diversos sentidos!

E a situação política do Brasil -- que também se reflete na universidade e no instituto -- é uma luta das antigas oligarquias em manter esse poder antigo em um mundo novo, diferente, mais conectado e mais inteligente. No final, apesar de todo esse movimento inercial, eu acredito que a revolução do século XXI vai chegar de qualquer forma e isso será excelente para as novas gerações! Estes novos indivíduos já têm visão menos egoísta e parecem pensar mais no bem público e no bem da população em geral do que em suas próprias aquisições pessoais, salariais, de carreira ou currículo. Enfim, como disse o crítico literário brasileiro Antonio Candido, precisamos ser pessimistas na análise porém otimistas na atitude. A atitude otimista do nosso laboratório pode ser vista em tudo o que fazemos: na orientação dos alunos, na escolha dos temas de trabalho, na escrita dos artigos e nas palestras e aulas que apresentamos! Obrigado pela entrevista! :-)

 PortalFrancisco

Créditos da imagem: Francisco Prosdócimi e Freepik

Recomendamos fortemente a leitura do artigo ”In silico phylogenomics using complete genomes: a case study on the evolution of hominoids” no site do periódico através do endereço eletrônico: http://m.genome.cshlp.org/content/26/9/1257.long?view=long&pmid=27435933

Formato para citação:

* Costa IR, Prosdocimi F, Jennings WB. In silico phylogenomics using complete genomes: a case study on the evolution of hominoids. Genome Res. 2016 Sep;26(9):1257-67. doi: 10.1101/gr.203950.115. Epub 2016 Jul 19. PubMed PMID: 27435933.

O programa ALFIE está disponível no seguinte endereço: https://github.com/igorrcosta/alfie

Um  manual explicando como utilizar o programa  está disponível em: https://github.com/igorrcosta/alfie/raw/master/manual.pdf

 

Por Larissa Haerolde para o portal BIOQMED.