Cientistas criaram uma IA que escreve DNA. Ela já sabe projetar vírus sozinha.

Evo 2, do Arc Institute, foi treinada em 9.3 trilhões de nucleotídeos e identifica mutações causadoras de doenças com mais de 90% de precisão.

Bruno Silva
Bruno Silva Entusiasta de hardware e overclocker nas horas vagas
5 de março de 2026 5 min
Representação científica de estrutura molecular e dados genéticos
!!

O Arc Institute acabou de publicar na Nature o maior modelo de IA para genoma já criado. O Evo 2 foi treinado em 9,3 trilhões de nucleotídeos - as letras A, T, C e G que formam o código genético de todo ser vivo - extraídos de mais de 128 mil genomas completos de mais de 100 mil espécies. O modelo é open source, está disponível no GitHub, e já consegue identificar mutações que causam doenças com mais de 90% de precisão.

Pra colocar em perspectiva: os modelos de linguagem como o ChatGPT aprenderam a escrever texto lendo trilhões de palavras da internet. O Evo 2 fez o equivalente, só que lendo DNA.

O que o Evo 2 faz

O modelo funciona como um “ChatGPT do DNA”. Ele lê sequências genéticas e entende padrões que levam décadas de pesquisa experimental pra identificar. Mas vai além de ler: ele também escreve. O Evo 2 consegue gerar sequências genéticas sintéticas do tamanho de genomas bacterianos inteiros.

Na prática, isso significa três coisas concretas.

Primeiro, o modelo identifica mutações patogênicas - alterações no DNA que causam doenças. Em testes com o gene BRCA1, associado a câncer de mama e ovário, o Evo 2 acertou mais de 90% das vezes ao distinguir variantes perigosas das inofensivas. Pesquisadores já estão aplicando a mesma abordagem para avaliar risco de Alzheimer.

Segundo, ele projeta bacteriófagos sintéticos - vírus que atacam bactérias específicas. Isso abre caminho pra tratamentos contra bactérias resistentes a antibióticos, um problema que a OMS considera uma das maiores ameaças à saúde global. O biólogo computacional Hani Goodarzi descreveu a possibilidade de criar terapias genéticas que funcionem “apenas em neurônios para evitar efeitos colaterais, ou apenas em células do fígado.”

Terceiro, o modelo processa até 1 milhão de nucleotídeos de uma vez - oito vezes mais que seu antecessor, o Evo 1. Isso permite que ele enxergue relações entre partes distantes de um genoma, algo que seria impossível com janelas de análise menores.

Representação de estrutura de DNA em formato de dupla hélice

Como foi construído

O Arc Institute, sediado em Palo Alto na Califórnia, liderou o projeto em colaboração com a NVIDIA, Stanford, UC Berkeley e UC San Francisco. Um detalhe curioso: Greg Brockman, cofundador da OpenAI, contribuiu com trabalho de arquitetura durante um período sabático.

O treinamento usou um conjunto de dados chamado OpenGenome2, com 8,8 trilhões de bases genéticas cobrindo os três domínios da vida - bactérias, arqueias e eucariotos (o grupo que inclui humanos, plantas e animais) - mais vírus que infectam bactérias. São 30 vezes mais dados de treinamento que o Evo 1.

A infraestrutura computacional veio da NVIDIA: mais de 2.000 GPUs H100 rodando por meses na plataforma DGX Cloud via AWS. A arquitetura do modelo se chama StripedHyena 2, desenvolvida especificamente pra processar sequências genéticas longas de forma eficiente.

Patrick Hsu, cofundador do Arc Institute e professor em Berkeley, descreveu o resultado: “Máquinas agora conseguem ler, escrever e pensar na linguagem dos nucleotídeos.” Brian Hie, pesquisador de Stanford que co-liderou o projeto, complementou dizendo que os padrões refinados por milhões de anos de evolução contêm sinais sobre interações moleculares que o modelo aprende a interpretar.

Dave Burke, outro pesquisador envolvido, usou uma analogia de computação: “Pense no modelo quase como o kernel de um sistema operacional” - a camada fundamental sobre a qual aplicações específicas podem ser construídas.

Open source e segurança

O Evo 2 é totalmente open source. O código e os pesos do modelo estão no GitHub do Arc Institute e integrados ao framework BioNeMo da NVIDIA. Qualquer pesquisador pode baixar, rodar e adaptar o modelo pra seus projetos. Isso faz dele, segundo os desenvolvedores, o maior modelo de IA totalmente aberto já publicado.

Mas quando uma IA consegue escrever genomas, a pergunta sobre segurança é inevitável. O time tomou precauções: organismos patogênicos para humanos foram deliberadamente excluídos dos dados de treinamento, e o modelo foi configurado pra recusar consultas produtivas sobre patógenos perigosos. Tina Hernandez-Boussard liderou a implementação dos protocolos de desenvolvimento responsável.

É suficiente? Provavelmente não pra sempre. A Nature publicou uma reportagem paralela com o título “IA pode escrever genomas - quanto tempo até criar vida sintética?”, e a pergunta não é retórica. Mas a decisão de manter o modelo aberto tem uma lógica: se a tecnologia vai existir de qualquer forma, é melhor que a comunidade científica inteira possa auditá-la do que deixar isso nas mãos de laboratórios fechados.

Por que isso importa

A genômica está vivendo seu momento “ChatGPT”. Até agora, analisar o genoma de um paciente e entender o que cada variação significa era um trabalho manual e lento. O Evo 2 não substitui geneticistas, mas funciona como um filtro poderoso: em vez de analisar milhares de variantes uma a uma, o modelo aponta as que provavelmente importam.

Pra o Brasil, onde o Sistema Único de Saúde atende mais de 150 milhões de pessoas e a genômica clínica ainda é restrita a centros de referência e laboratórios privados, uma ferramenta open source desse calibre pode ser transformadora. Universidades brasileiras como a USP e a Unicamp já têm grupos de bioinformática que poderiam adaptar o modelo pra populações locais - algo essencial, já que a maioria dos bancos genômicos do mundo é enviesada pra populações europeias.

O modelo não faz diagnóstico sozinho, não substitui médico e não vai curar câncer amanhã. Mas a capacidade de ler 9,3 trilhões de nucleotídeos e entender o que significam é o tipo de ferramenta que muda a velocidade com que a ciência avança. E o fato de ser open source significa que qualquer laboratório do mundo pode usar, sem precisar pagar licença ou depender de uma big tech.

Bruno Silva
AUTOR

Bruno Silva

Entusiasta de hardware e overclocker nas horas vagas

100% FREE * SEM SPAM

FICA POR
DENTRO

Todo domingo, um drop com o que você precisa saber sobre cultura pop e tech. Rápido, curado, sem spam.