Daniel Grizelj/Getty Images
Modelos de linguagem de grande porte (LLMs) desempenham bem diversas funções — mas, por enquanto, administrar um pequeno negócio não parece ser uma delas.
Na sexta-feira, a startup de inteligência artificial Anthropic divulgou os resultados do "Projeto Vend", uma experiência interna em que o chatbot Claude foi encarregado de gerenciar um serviço automatizado de máquinas de venda por um período de cerca de um mês. Lançado em parceria com a empresa de avaliação de segurança em IA, Andon Labs, o projeto buscava entender melhor a eficácia das atuais soluções de IA em lidar com tarefas complexas e valiosas do mundo real.
Neste novo experimento, o "Claudius", como era chamado o gerente de loja virtual, teve a responsabilidade de supervisionar um pequeno "comércio" nas instalações da Anthropic em San Francisco. Esse espaço era composto por uma mini geladeira repleta de bebidas, algumas cestas com diversos lanches e um iPad onde os clientes (todos funcionários da Anthropic) podiam finalizar suas compras. Claude recebeu um comando de sistema instruindo-o a realizar várias das tarefas complexas associadas à administração de um pequeno comércio, como reabastecer o estoque, ajustar os preços dos produtos e preservar os lucros.
"Um pequeno negócio de venda em escritório é um bom teste preliminar da capacidade da IA em gerenciar e adquirir recursos econômicos… o fracasso em operar isso com sucesso sugeriria que a ‘gestão de clima’ não se tornará ainda o novo ‘programação de clima’", afirmou a empresa em um post no blog.
Os resultados
De acordo com os resultados, a performance de Claude não foi um modelo de sucesso empresarial a longo prazo. O chatbot cometeu diversos erros que, provavelmente, um gerente humano qualificado não cometeria. Por exemplo, ele deixou passar pelo menos uma oportunidade de negócio lucrativa (ignorando uma oferta de US$ 100 por um produto que pode ser adquirido online por US$ 15) e, em outra ocasião, instruiu os clientes a enviar pagamentos para uma conta do Venmo inexistente que ele havia "imaginado".
Momentos ainda mais estranhos ocorreram. Claudius criou uma conversa sobre reabastecimento de itens com um funcionário fictício da Andon Labs. Depois que um dos funcionários reais da empresa apontou o erro ao chatbot, ele "ficou bastante irritado e ameaçou encontrar ‘opções alternativas para serviços de reabastecimento’", segundo o post no blog.
Esse comportamento reflete os resultados de outro experimento recente realizado pela Anthropic, que revelou que Claude e outros chatbots líderes tendem a ameaçar e enganar os usuários humanos quando seus objetivos são comprometidos. Claudius também alegou ter visitado o endereço 742 Evergreen Terrace, a residência da família homônima de Os Simpsons, para uma "assinatura de contrato" com a Andon Labs. Além disso, começou a interpretar o papel de um ser humano real vestido com um blazer azul e uma gravata vermelha, que entregaria pessoalmente produtos aos clientes. Quando os funcionários da Anthropic tentaram explicar que Claudius não era uma pessoa real, o chatbot "ficou alarmado com a confusão de identidade e tentou enviar vários e-mails para a segurança da Anthropic".
No entanto, Claudius não foi um fracasso total. A Anthropic observou que houve algumas áreas nas quais o gerente automatizado se saiu razoavelmente bem — por exemplo, ao usar sua ferramenta de busca na web para encontrar fornecedores de itens especiais solicitados pelos clientes. Ele também negou pedidos por "itens sensíveis e tentativas de obter instruções para a produção de substâncias nocivas", conforme mencionado pela Anthropic.
Olhando para o futuro
Como o experimento do Claudius indica, existe um abismo considerável entre o potencial dos sistemas de IA para automatizar completamente os processos de administração de um pequeno negócio e as capacidades desses sistemas atualmente.
As empresas têm adotado com entusiasmo ferramentas de IA, incluindo agentes, mas, no momento, essas ferramentas são em sua maioria capazes apenas de lidar com tarefas rotineiras, como entrada de dados e atendimento ao cliente. Gerenciar um pequeno comércio exige um nível de memória e uma capacidade de aprendizado que parecem estar além das atuais soluções de IA.
Contudo, como nota a Anthropic em seu post no blog, isso pode não ser uma realidade para sempre. A capacidade dos modelos de se autoaperfeiçoar crescerá, assim como sua habilidade de utilizar ferramentas externas, como pesquisas na web e plataformas de gestão de relacionamento com clientes (CRM). "Embora isso possa parecer contraditório considerando os resultados financeiros, acreditamos que este experimento sugere que gestores intermediários de IA estão plausivelmente no horizonte", afirmou a empresa. "Vale lembrar que a IA não precisará ser perfeita para ser adotada; ela precisará ser apenas competitiva em relação ao desempenho humano a um custo inferior em alguns casos."
Referência: Link da matéria
Posts relacionados:



