A IA co-cientista do Google e o potencial do ‘test-time scaling’ na pesquisa

Na quarta-feira, o Google anunciou que aprimorou seu modelo de inteligência artificial Gemini 2.0 para gerar novas hipóteses científicas em muito menos tempo do que as equipes de pesquisadores humanos em laboratório. A empresa descreve esse "co-cientista de IA" como um "avanço promissor em direção a tecnologias assistidas por IA para cientistas, ajudando a acelerar descobertas", e um programa projetado para funcionar com um humano "no circuito", atuando como um assistente e colaborador valioso para cientistas e para acelerar o processo de descoberta científica.

Além disso, isso demonstra como os modelos de IA de raciocínio estão utilizando recursos computacionais em níveis cada vez mais altos, para cruzar referências, avaliar, classificar, ordenar e realizar muitas outras tarefas, tudo após o comando ser digitado pelo usuário. O co-cientista de IA do Google foi projetado para ter um "humano no circuito", que orienta as diversas operações da máquina, como revisão de literatura e formação de hipóteses.

Em uma combinação audaciosa entre publicação científica e marketing, os pesquisadores do Google publicaram um artigo técnico que descreve uma hipótese gerada pelo co-cientista, ao mesmo tempo em que um grupo de cientistas humanos do Imperial College London publicava a mesma hipótese. A hipótese formada pelo co-cientista, que se referia a uma forma específica de como as bactérias evoluem para se tornarem novos patógenos, levou dois dias para ser produzida, enquanto o trabalho elaborado por humanos foi o resultado de uma década de estudos e trabalho em laboratório, segundo afirmações do Google.

O Google descreve a máquina como uma ferramenta de formulação de hipóteses que utiliza múltiplos agentes. Conforme mencionado no blog do Google, "dado um objetivo de pesquisa especificado em linguagem natural, o co-cientista de IA é projetado para gerar novas hipóteses de pesquisa, uma visão geral detalhada da pesquisa e protocolos experimentais. Para isso, ele utiliza uma coalizão de agentes especializados: Geração, Reflexão, Classificação, Evolução, Proximidade e Meta-revisão."

O design do co-cientista de IA permite que um usuário insira um objetivo de pesquisa na solicitação, a partir da qual uma série de agentes trabalham em paralelo para revisar a literatura, formular e avaliar hipóteses. A estrutura do co-cientista é projetada para realizar múltiplas tarefas de agentes em paralelo, respaldada por uma função de gerenciamento de memória para armazenar resultados intermediários. O co-cientista inicia seu trabalho assim que o pesquisador digita seu objetivo de pesquisa "junto com preferências, restrições experimentais e outros atributos". O Google afirma que o programa vai além da simples revisão da literatura, pois "descobre novos conhecimentos originais e formula hipóteses de pesquisa e propostas demonstravelmente novas, baseadas em evidências anteriores e adaptadas a objetivos específicos de pesquisa".

A adaptação do Gemini 2.0 enfatiza o uso de "escalonamento em tempo de teste", onde os agentes de IA utilizam quantidades crescentes de poder computacional para revisar e reformular suas saídas de forma iterativa. O escalonamento em tempo de teste se tornou mais notável não apenas no Gemini, mas também no modelo o1 da OpenAI e no DeepSeek AI, todos exemplos de modelos de raciocínio que passam muito mais tempo respondendo a uma solicitação, gerando resultados intermediários. O co-cientista de IA é uma espécie de escalonamento em tempo de teste elevado.

No trabalho formal, que teve participação de um membro da equipe do Google, os autores relacionam seu trabalho como uma forma de aprimoramento do que o modelo R1 do DeepSeek já havia pioneirado. "Avanços recentes, como o modelo DeepSeek-R1, demonstram ainda mais o potencial do cálculo em tempo de teste, aproveitando o aprendizado por reforço para aprimorar a ‘cadeia de pensamento’ do modelo e melhorar a capacidade de raciocínio complexo ao longo de horizontes mais longos. Neste trabalho, propomos um escalonamento significativo do paradigma de cálculo em tempo de teste, utilizando vieses indutivos derivados do método científico para conceber uma estrutura mult-agente destinada ao raciocínio científico e à geração de hipóteses, sem qualquer técnica de aprendizagem adicional."

O co-cientista é constituído por uma seleção de agentes de IA que podem acessar recursos externos. "Eles também estão equipados para interagir com ferramentas externas, como mecanismos de busca na web e modelos de IA especializados, através de interfaces de programação de aplicativos", explicam os pesquisadores. O escalonamento em tempo de teste se torna evidente na noção de um "torneio", onde o co-cientista compara e classifica as múltiplas hipóteses que gerou, utilizando "escores Elo", um sistema de medição comum usado para classificar jogadores de xadrez e atletas.

Os autores descrevem que um dos agentes, um "Agente de Classificação", tem a principal responsabilidade de avaliar as diferentes hipóteses de maneira competitiva. "Uma abstração importante no sistema co-cientista é a noção de um torneio, onde diferentes propostas de pesquisa são avaliadas e classificadas, permitindo melhorias iterativas. O agente de classificação implementa e orquestra um torneio baseado em Elo para avaliar e priorizar as hipóteses geradas a qualquer momento, o que envolve comparações diretas, facilitadas por debates científicos simulados, permitindo uma avaliação mais sutil dos méritos relativos de cada proposta."

A classificação tem como objetivo destacar as melhores hipóteses. "Esta classificação serve para comunicar aos cientistas uma lista ordenada de hipóteses e propostas de pesquisa alinhadas com o objetivo da pesquisa", explicam os autores. O Google afirma que os dados mostram que quanto mais computação, classificação e reclassificação são aplicados, melhores se tornam as hipóteses, segundo avaliações de observadores humanos.

Conforme quinze especialistas humanos revisaram a saída do co-cientista, o programa se aprimora à medida que dedica mais tempo computacional à formulação e avaliação de hipóteses. O Google afirma que o co-cientista supera a qualidade relativa do Gemini 2.0 não adaptado à medida que o orçamento computacional aumenta, levando a escores Elo mais altos, semelhante ao que ocorre em partidas de xadrez e competições esportivas. "À medida que o sistema passa mais tempo raciocinando e aprimorando, a qualidade autovalorada dos resultados melhora e supera modelos e especialistas humanos não assistidos", observam os autores.

Os observadores humanos geralmente atribuíram ao co-cientista "maior potencial de novidade e impacto, e preferiram suas saídas em comparação com outros modelos", como o Gemini 2.0 não adaptado e o modelo de raciocínio o1 da OpenAI. Dada a ênfase no aprimoramento do esforço computacional, é decepcionante que a equipe não mencione em seu relatório técnico de 70 páginas exatamente quanto de computação foi utilizada para o co-cientista. No entanto, a hipótese que compartilham é que a rápida redução nos custos de computação, como demonstra o DeepSeek R1, deve tornar algo como o co-cientista utilizável por laboratórios de pesquisa em geral. "As tendências com destilação e custos de tempo de inferência indicam que tais sistemas de IA inteligentes e gerais estão se tornando rapidamente mais acessíveis e disponíveis", concluem os pesquisadores.

Referência: ZDNET

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima