Pular para o conteúdo

Ferramenta de IA inspirada no ChatGPT lê DNA e rastreia ancestrais comuns

Mulher cientista analisa sequência de DNA em computador em laboratório moderno.

Cientistas criaram uma ferramenta de IA capaz de ler código genético do mesmo jeito que o ChatGPT lê texto - vasculhando o DNA em busca de padrões de mutação para rastrear genes ao longo do tempo até seus ancestrais comuns.

Além de ser mais rápida do que as alternativas atuais, ela funciona mesmo com dados incompletos e pode transformar a forma como pesquisadores investigam desde mosquitos transmissores de malária até a história evolutiva humana.

O trabalho foi realizado na University of Oregon (UO). A ferramenta foi desenvolvida pelo biólogo computacional Andrew Kern e seu laboratório.

Genomas como linguagem

A semelhança entre DNA e linguagem escrita vai além de uma figura de linguagem. Na prática, genomas são montados como um texto: um alfabeto de quatro letras - A, T, C e G - combinado em diferentes sequências para formar genes e cromossomos.

O foco principal do laboratório de Kern, porém, está nos “erros de ortografia”: mutações, isto é, mudanças nas sequências de DNA que se acumulam ao longo do tempo e são transmitidas de geração em geração, deixando um rastro que permite aos cientistas voltar no tempo pela história evolutiva.

Os métodos tradicionais para fazer esse tipo de inferência - baseados em matemática e estatística - são o padrão-ouro e, na maioria dos cenários, é difícil superá-los. Ainda assim, eles são lentos e têm dificuldade quando o conjunto de dados é grande ou incompleto.

Decodificar um único cromossomo de mosquito pode levar horas ou até dias. Para quem trabalha em grande escala, isso vira um gargalo importante.

Pegando emprestado do ChatGPT

Para contornar esse problema, Kern e sua equipe adaptaram o GPT-2 - a arquitetura de aprendizado de máquina mais antiga que está na base do ChatGPT.

Em vez de treinar o modelo com enormes volumes de texto em inglês, eles o treinaram com simulações de evolução genética em uma variedade de espécies, incluindo bactérias, roedores, mosquitos e primatas.

“Não dá para repetir a evolução, então um dos fluxos de trabalho centrais que temos é desenvolver simulações”, disse Kevin Korfmann, autor principal do estudo.

“As simulações imitam processos evolutivos e, em seguida, usamos os resultados como dados de treinamento para nossos modelos de aprendizado profundo.”

Com isso, o modelo aprende a identificar padrões de mutação e a usá-los para estimar quando dois genes compartilharam, pela última vez, um ancestral comum - uma medida que geneticistas chamam de “tempo de coalescência”. Trechos de DNA com muitas mutações costumam apontar para um ancestral comum mais distante.

Já regiões com menos mutações provavelmente se separaram há menos tempo. É o mesmo princípio que ajuda a explicar por que chimpanzés são considerados nossos parentes vivos mais próximos, enquanto esponjas-do-mar - geneticamente separadas há mais de 700 milhões de anos - estão entre as mais distantes.

Uma ferramenta rápida e eficiente

Ao comparar a nova ferramenta com métodos estatísticos de última geração, a equipe viu que o desempenho ficou no mesmo nível - algo que realmente surpreendeu.

“Você nunca sabe de fato o que vai funcionar quando está, essencialmente, pegando técnicas de um mundo totalmente diferente e aplicando a um novo problema”, disse Kern. “Mas este foi um caso em que as coisas funcionaram muito bem.”

A diferença de velocidade, no entanto, foi enorme. Enquanto abordagens tradicionais podem precisar de horas ou dias para processar um cromossomo de mosquito, a ferramenta nova faz o mesmo em minutos.

Segundo Korfmann, isso acontece porque o esforço estatístico pesado é realizado no treinamento, e não a cada análise individual.

“Ela simplesmente lê os padrões porque todo o trabalho estatístico caro foi feito antes, durante o treinamento, o que contorna o gargalo”, afirmou.

Outro ponto é que a ferramenta consegue lidar com dados incompletos - um problema comum em pesquisas de genética - sem “desmoronar”. Para Kern, que com frequência trabalha com bancos de dados genéticos de mosquitos cheios de lacunas em suas pesquisas sobre malária, isso está longe de ser apenas uma comodidade.

Por que os mosquitos importam

Inseticidas são, há muito tempo, uma das principais armas contra mosquitos que espalham malária. Só que mosquitos, como qualquer organismo, evoluem.

Hoje, a resistência a inseticidas vem aparecendo em populações de mosquitos no mundo todo, e compreender como e quando essa resistência surgiu é essencial para se antecipar ao problema.

“Um grande desafio para impedir a disseminação da malária tem sido entender a evolução da resistência a inseticidas”, disse Kern.

“Agora, podemos entrar com nosso modelo de IA, perguntar há quanto tempo esses genes de resistência surgiram na população e aprender sobre a história evolutiva desse importante vetor da malária.”

Caminhos para pesquisas futuras

No momento, o modelo rastreia a ancestralidade entre pares de genes. O próximo passo é ampliar isso reconstruindo árvores genealógicas completas em múltiplas linhagens ao mesmo tempo.

Alguns métodos tradicionais já conseguem fazer esse tipo de reconstrução, mas Kern e Korfmann querem chegar lá por uma abordagem de aprendizado de máquina.

“Há muita coisa acontecendo no campo do aprendizado de máquina que ainda não aplicamos na nossa área”, disse Korfmann. “Há muito trabalho de tradução a fazer para colocar esses novos algoritmos funcionando em biologia.”

Em outras palavras, a distância entre a pesquisa em IA e a aplicação biológica ainda é grande. Mas ela está diminuindo.

O estudo foi publicado na revista Proceedings of the National Academy of Sciences.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário