
Em 2018, o Deepmind, laboratório de inteligência artificial do Google, lançou um algoritmo que causou um grande impacto no mundo da biologia. Chamado AlphaFold, o software foi capaz de prever com precisão a estrutura de proteínas — um problema complexo considerado um grande avanço científico.
Compreender como as proteínas interagem é essencial para diversas áreas da biotecnologia, indo da melhoria do sabor dos alimentos à criação de culturas agrícolas mais resistentes às mudanças climáticas e ao desenvolvimento de tratamentos contra o câncer. Desde seu lançamento, AlphaFold, sua versão aprimorada AlphaFold2 e as centenas de milhões de estruturas de proteínas que gerou nos últimos anos, se tornaram ferramentas fundamentais para pesquisadores da área de biotecnologia em todo o mundo.
No entanto, embora o software tenha impulsionado a indústria, ele tem suas limitações. Os pesquisadores ainda estão longe do Santo Graal da biologia sintética: um modelo de IA que consiga partir de uma estrutura proteica desejada e determinar como criá-la, identificando a substância química ideal para interagir com ela ou projetando uma molécula completamente nova, inexistente na natureza.
Os cientistas da Basecamp Research, startup de biotecnologia sediada em Londres, anunciaram que estão um passo mais perto desse objetivo graças a um novo modelo de IA desenvolvido a partir dos algoritmos de código aberto do AlphaFold2.
A Basecamp afirma que seu modelo, chamado BaseFold, treinado em um conjunto de dados muito mais amplo, consegue criar previsões mais corretas de estruturas de proteínas do que o AlphaFold2. A empresa também divulgou que trabalhará com a Nvidia para otimizar o modelo para uso na plataforma de IA generativa para descoberta de medicamentos da gigante dos chips, a BioNeMo.
Glen Gowers, cofundador e CEO da Basecamp, afirma que seu software melhora em três vezes a precisão na previsão de como as estruturas de proteínas mudam ao interagir com pequenas moléculas, um dado crucial no processo de descoberta de medicamentos.
A empresa publicou um artigo relatando seus resultados no servidor de pré-impressão bioRxiv, mas o estudo ainda não passou por revisão por pares. Até o momento, a Basecamp levantou um total de US$ 25 milhões (R$ 142,5 milhões) em capital e tem uma avaliação de mercado de US$ 71 milhões (R$ 404,7 milhões), segundo a PitchBook, plataforma de inteligência de mercado que fornece dados, análises e insights sobre investimentos de capital de risco, private equity e fusões e aquisições.
Embora este seja um marco importante para a startup, fundada há quatro anos, Gowers, de 29 anos, acredita que o software o aproxima de seu objetivo final: projetar proteínas — ou até mesmo novos organismos — para atender às necessidades de seus clientes.
“Não queremos ser apenas uma empresa de estruturas proteicas”, disse à Forbes. “Estamos aplicando isso amplamente a qualquer tarefa gerativa ou preditiva, como adaptação da função das proteínas, geração de novas proteínas e até mesmo de novos genomas.”
Gowers teve a ideia de criar a Basecamp em 2019, quando ele e alguns colegas pesquisadores passaram um mês na Islândia vivendo fora da rede elétrica. Durante esse período, sequenciaram os genomas de um grupo especial de microrganismos que haviam evoluído para sobreviver tanto ao calor extremo quanto ao frio intenso, pois viviam próximos a uma fonte termal e ao gelo.
A maior parte dos dados que sua equipe coletou nesse mês era composta de “matéria escura” — proteínas desconhecidas, sequências desconhecidas de origem desconhecida, segundo Gowers. Foi essa descoberta que o levou a perceber que os conjuntos de dados genômicos disponíveis publicamente e utilizados para treinar o AlphaFold equivalem a “cinco gotas d’água em comparação com o oceano Atlântico inteiro de espécies conhecidas.”
O mundo dos chatbots de IA
O volume de dados sobre proteínas é um fator crucial na previsão de como essas estruturas fundamentais da vida se dobram, pois existem inúmeras variáveis que influenciam esse processo. Tantas, de fato, que é praticamente impossível calcular diretamente, por causa da complexidade matemática envolvida. No entanto, quando um modelo de aprendizado de máquina é treinado com bilhões de diferentes estruturas proteicas, padrões emergem, permitindo previsões mais precisas sobre como uma determinada proteína se dobrará.
Pense nisso da mesma forma que os chatbots de IA que surgiram nos últimos anos. Se um bot for treinado em um subconjunto pequeno da linguagem humana — como, por exemplo, apenas o Twitter — ele pode acabar se comportando de maneira descontrolada, como a Microsoft descobriu em 2016.
Já o ChatGPT e seus concorrentes foram treinados com dados de partes muito mais amplas e diversas da internet, o que resulta em respostas mais precisas e menos propensas a insultos. Da mesma forma, a coleta de um conjunto de dados genômicos maior e mais diverso leva a previsões mais precisas sobre o dobramento de proteínas.
Por essa razão, a Basecamp vem trabalhando para diversificar o conjunto de dados proteicos que seus modelos utilizam. Desde sua fundação em 2020, a empresa tem colaborado com pesquisadores ao redor do mundo para sequenciar informações genômicas de alta qualidade de dezenas de milhões de microrganismos, plantas e animais. Esses pesquisadores, por sua vez, recebem royalties sobre a receita gerada pela Basecamp com os dados.
Além de sequenciar o DNA desses organismos, os pesquisadores coletam também informações contextuais, fornecendo ainda mais dados que a IA pode usar para compreender por que as proteínas se dobram da maneira como o fazem. “Para cada entrada em nosso banco de dados, coletamos centenas de dimensões adicionais”, disse Phillip Lorenz, CTO da empresa, de 31 anos.
Isso inclui dados sobre temperatura local, pH, salinidade da água onde os organismos foram encontrados, disponibilidade de luz, entre outros fatores. A diversidade geográfica das amostras também é impressionante, acrescentou Lorenz, abrangendo desde cavernas na Hungria até fontes hidrotermais nas profundezas do oceano. “Vamos a todos os biomas do mundo, de ilhas vulcânicas até a Antártica.”
A Basecamp já está gerando receita, disse Gowers à Forbes, utilizando sua modelagem preditiva para resolver problemas de clientes (ele não divulgou valores). Por exemplo, a empresa está trabalhando com a Colorfix, sediada no Reino Unido, para projetar novas proteínas que permitam tingir tecidos sem o uso de produtos químicos agressivos.
Também está auxiliando a startup Protein Evolution, de Connecticut, a descobrir novas proteínas capazes de decompor plásticos para que possam ser reciclados. Além disso, Gowers espera aplicar sua capacidade computacional no desenvolvimento de novos medicamentos em parceria com empresas farmacêuticas.
Gowers admite que a empresa não poderá operar de forma enxuta para sempre. Para competir com concorrentes mais bem capitalizados, a Basecamp planeja captar novos investimentos em breve. “Treinar novos modelos e desenvolver novas arquiteturas, especialmente quando os dados são extremamente volumosos, é um negócio extremamente caro”, afirmou.