Recentemente, os avanços em inteligência artificial generativa incluem agentes de IA que conseguem acessar a web para buscar respostas a perguntas. Embora essa tecnologia seja promissora, ainda está em desenvolvimento. Em um artigo publicado na semana passada, pesquisadores da OpenAI relatam que a tecnologia Deep Research da empresa, que foi projetada para utilizar a web, demonstra um desempenho significativamente melhor do que outros modelos da OpenAI ao responder perguntas online. Além disso, mostra-se superior aos humanos em tarefas que exigem horas de pesquisa.
Entretanto, a Deep Research ainda enfrenta dificuldades, falhando em quase cinquenta por cento das tentativas. Um novo teste, intitulado BrowseComp, sugere que a Deep Research pode ser mais persistente na busca por respostas do que pesquisadores humanos em determinadas tarefas, embora ainda cometa erros com frequência. Os autores do estudo, Jason Wei e sua equipe, descrevem BrowseComp como “um benchmark simples, porém desafiador, para medir a capacidade de agentes de navegar na web”. A ideia é que os agentes de IA – isto é, modelos de IA que podem navegar por “milhares de páginas da web” – têm o potencial de serem muito mais engenhosos que os humanos, que possuem memória limitada, ficam fatigados ao acessar a web e podem se concentrar apenas em uma coisa de cada vez, não conseguindo operar em múltiplas vertentes de pensamento simultaneamente. “A inteligência de máquinas, por outro lado, possui um recall muito mais extenso e pode operar incansavelmente sem distrações”, afirmam Wei e sua equipe.
Os autores basearam suas pesquisas em um trabalho anterior de 2022, chamado “SimpleQ&A”, que avalia a capacidade dos modelos de IA em responder a “perguntas curtas e que buscam fatos”. As perguntas abrangiam assuntos como curiosidades de TV e cinema, ciência, história, música, videogames, política, entre outros. O conjunto de perguntas do BrowseComp, composto por 1.266 questões, foi elaborado para ir além da simples recuperação de informações. Em vez disso, as perguntas exigem uma busca por informações mais complexas, que estão “embarcadas em informações difíceis de encontrar na web.”
Um exemplo de pergunta é: “Identifique o título de uma publicação de pesquisa lançada antes de junho de 2023, que menciona tradições culturais, processos científicos e inovações culinárias, coautorada por três indivíduos, incluindo um ex-professor assistente em Bengala Ocidental e outro que possui um doutorado.” (Resposta: “The Fundamentals of Bread Making: The Science of Bread”). Os especialistas destacam que esta questão é facilmente verificável, pois a resposta está contida em uma única frase que é “auto-suficiente”.
As perguntas e respostas foram elaboradas por “treinadores” humanos e foram selecionadas por serem impossíveis de resolver apenas com o ChatGPT da OpenAI, com ou sem habilidades de navegação. As perguntas também eram insolúveis para uma “versão inicial” da Deep Research. Para demonstrar a dificuldade dos humanos em buscar na web, inicialmente foram testados indivíduos que estavam “familiarizados com o conjunto de dados” para responder às perguntas.
Os resultados não foram animadores para os humanos. Em 70% dos casos, eles desistiram após duas horas de tentativa, respondendo apenas cerca de 30% das perguntas, e suas respostas foram incorretas em 14% das vezes. Wei e sua equipe especulam que seres humanos com habilidades de busca mais apuradas poderiam obter melhores resultados, sugerindo que muitos problemas que eles abandonaram poderiam ser resolvidos por profissionais experientes, como detetives ou jornalistas investigativos, se tivessem tempo suficiente.
Após os testes com humanos, a equipe avaliou a Deep Research em comparação ao GPT-4o da OpenAI (tanto com quanto sem capacidade de navegação), além dos modelos GPT-4.5 e o o1. Os resultados foram desastrosos. “GPT-4o e GPT-4.5 tiveram quase zero de precisão, evidenciando a dificuldade do benchmark”, observam os pesquisadores. “Sem um raciocínio robusto ou uso de ferramentas, os modelos não conseguem recuperar os tipos de fatos obscuros e interdependentes que o BrowseComp busca.”
O modelo o1 apresentou um desempenho melhor, o que “[sugere] que algumas das respostas do BrowseComp podem ser acessadas por inferência de conhecimento interno.” Com uma taxa de acertos de 51,5%, a Deep Research se mostrou “significativamente melhor” e é “particularmente eficaz em responder perguntas não intuitivas que requerem a navegação por vários sites”, informam Wei e sua equipe.
Contudo, eles também notaram que tanto o GPT-4o com navegação quanto a Deep Research podem cometer erros por serem “excessivamente confiantes” em respostas incorretas, o que é conhecido como erro de calibração. “Modelos com habilidades de navegação, como o GPT-4o com navegação e a Deep Research, exibem um erro de calibração mais elevado”, escrevem, “sugerindo que o acesso a ferramentas da web pode aumentar a confiança do modelo em respostas erradas.” Essa constatação se alinha ao fato de que a Deep Research enfrenta dificuldades com a calibração de confiança e muitas vezes não consegue transmitir incerteza de forma precisa em seu estado atual.
Para corrigir o erro de calibração, eles realizaram outro teste com a Deep Research, no qual o modelo teve que gerar até 64 respostas para cada pergunta. Depois, foi solicitado que o modelo escolhesse a melhor delas. Ao fazer isso, a Deep Research mostrou uma boa capacidade de seleção da resposta correta entre todas as propostas. Essa capacidade sugere que “o modelo frequentemente ‘sabe’ quando está correto, mesmo que tenha dificuldade em expressar essa certeza como uma probabilidade calibrada.”
Os pesquisadores também afirmam que o sucesso da Deep Research cresce com o aumento da capacidade computacional durante a busca na web. Em outras palavras, “o desempenho aumenta de maneira contínua à medida que se incrementa a computação utilizada no teste.” Isso está em linha com a tendência crescente de adicionar mais chips de GPU à tarefa de inferência.
Wei e sua equipe não apresentam uma hipótese clara sobre o porquê da Deep Research falhar em quase metade das vezes, mas a resposta implícita reside na escalabilidade de suas capacidades com mais poder computacional. À medida que executam mais tarefas em paralelo e solicitam que o modelo avalie diversas respostas, a precisão aumenta para mais de 75% das perguntas respondidas. A implicação é que é crucial escolher estratégias que forcem o modelo a reavaliar seus esforços, ao invés de simplesmente perseguir uma única resposta. Sem essa fase de avaliação, o modelo enfrenta dificuldades consideráveis.
Um ponto fraco do BrowseComp, reconhecem os autores, é que ele é limitado a perguntas que são fáceis de serem interpretadas pelo computador e cujas respostas são simples de verificar. Nenhuma das 1.266 perguntas incluía “respostas longas ou a capacidade de resolver ambiguidades nas consultas dos usuários.” Portanto, argumentam que o BrowseComp testa funções “centrais” dos agentes de IA, mas não é abrangente. “O modelo deve ser muito competente em localizar informações difíceis de encontrar, mas isso não garante que essa habilidade se generalize para todas as tarefas que exigem navegação.”
A Deep Research está disponível para usuários das assinaturas Plus e Pro da OpenAI.
Referencia: https://www.openai.com/research/deep-research
Posts relacionados:



