Pesquisa da Salesforce estabelece bases para agentes de IA empresarial mais confiáveis.

O valor dos agentes de IA, sistemas capazes de executar tarefas para humanos, é evidente, especialmente em relação aos ganhos de produtividade para os negócios. No entanto, o desempenho dos grandes modelos de linguagem (LLMs) pode dificultar a implementação eficaz desses agentes. A pesquisa da Salesforce em IA busca resolver esse problema.

Na quinta-feira, a Salesforce lançou seu primeiro relatório "Salesforce AI Research in Review", destacando inovações da empresa de tecnologia, incluindo novos desenvolvimentos fundamentais e artigos de pesquisa do último trimestre. A Salesforce espera que esses materiais ajudem a fundamentar o desenvolvimento de agentes de IA confiáveis e competentes que possam atuar adequadamente em ambientes empresariais.

"Na Salesforce, chamamos esses avanços de ‘descobertas discretas’ — não porque sejam sem importância, mas porque são silenciosamente eficazes, escaláveis com confiabilidade e projetados para perdurar", afirmou o chefe de pesquisa em IA da Salesforce. "Eles são tão integrados que alguns podem até subestimá-los."

Vamos explorar algumas das principais inovações e conclusões do relatório.

O Problema: Inteligência Irregular

Se você já utilizou modelos de IA para tarefas simples do dia a dia, pode ter se surpreendido com a natureza primária de alguns de seus erros. Mais intrigante é que o mesmo modelo que falhou em suas questões básicas teve um desempenho excepcional em testes que avaliavam suas habilidades em temas complexos, como matemática, ciências e programação. Essa contradição é o que a Salesforce designa como "inteligência irregular".

A Salesforce aponta que essa "irregularidade" — a discrepância entre a inteligência bruta de um LLM e seu desempenho consistente em situações do mundo real — representa um desafio significativo para empresas que necessitam de um desempenho operacional confiável, especialmente em ambientes imprevisíveis. Contudo, lidar com esse problema exige primeiro uma mensuração, o que destaca outra questão.

"A IA atual é irregular, então precisamos trabalhar nisso — mas como podemos agir em algo sem antes medi-lo?" disse um dos gerentes sêniores de pesquisa em IA da Salesforce.

Medidas

O novo benchmark SIMPLE da Salesforce é projetado para enfrentar exatamente essa questão. Ele apresenta um conjunto público de dados com 225 perguntas de raciocínio que são fáceis para os humanos, mas desafiadoras para a IA, devido à irregularidade dos LLMs. Para ter uma ideia da simplicidade das perguntas, o cartão de dados do conjunto no Hugging Face descreve os problemas como "solucionáveis por pelo menos 10% dos estudantes do ensino médio, com caneta, papel ilimitado e uma hora para pensar".

Embora não analise tarefas supercomplexas, o benchmark SIMPLE deve ajudar as pessoas a entender como um modelo pode raciocinar em ambientes e aplicações do mundo real, especialmente no desenvolvimento da Inteligência Geral Empresarial (EGI). Esses sistemas de IA competentes lidam com aplicações comerciais de forma confiável.

Outro benefício do benchmark é que ele deve aumentar a confiança dos líderes de negócios na implementação de sistemas de IA, como agentes de IA, em suas empresas, uma vez que terão uma compreensão muito melhor da consistência no desempenho do modelo.

Outro benchmark desenvolvido pela Salesforce é o ContextualJudgeBench, que adota uma abordagem diferente, avaliando juízes habilitados por IA em vez dos próprios modelos. Os benchmarks de modelos de IA costumam utilizar avaliações realizadas por outros modelos de IA. O ContextualJudgeBench foca nos LLMs que avaliam outros modelos, com a ideia de que, se o avaliador for confiável, suas avaliações também serão. O benchmark testa mais de 2.000 pares de respostas.

CRMArena

No último trimestre, a Salesforce lançou uma estrutura de benchmarking de agentes, chamada CRMArena. Essa estrutura avalia como os agentes de IA executam tarefas de gerenciamento de relacionamento com o cliente (CRM), como a maneira como a IA resume e-mails de vendas e transcrições, faz recomendações comerciais, entre outros.

"Esses agentes não precisam resolver teoremas, não precisam transformar minha prosa em versos shakesperianos — [eles] precisam realmente se concentrar nas necessidades críticas das empresas em diferentes setores", afirmou Savarese.

Outras Mencões Notáveis

O relatório completo inclui mais pesquisas para ajudar a melhorar a eficiência e a confiabilidade dos modelos de IA. Aqui está um resumo simplificado de alguns desses destaques:

  • SFR-Embedding: A Salesforce aprimorou seu modelo SFR-Embedding, que converte informações baseadas em texto em dados estruturados para sistemas de IA, como agentes. A empresa também adicionou o SFR-Embedding-Code, uma família de modelos especializados em codificação.

  • SFR-Guard: Uma família de modelos treinados em dados para avaliar o desempenho de agentes de IA em áreas-chave dos negócios, como detecção de toxicidade e injeção de comandos.

  • xLAM: A Salesforce atualizou sua família de modelos Large Action Model (xLAM) com "suporte a conversas de múltiplas interações e uma gama mais ampla de modelos menores para aumentar a acessibilidade".

  • TACO: Esta família multimodal de modelos gera cadeias de pensamento-ação (CoTA) para abordar problemas complexos e de múltiplos passos.

Referência: Getty Images / picture alliance / Contributor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima