O mito grego do Rei Midas é uma parábola sobre a arrogância: na busca por riquezas extraordinárias, o rei recebe o poder de transformar tudo o que toca em ouro maciço – incluindo, tragicamente, sua comida e sua filha. A mensagem é que a visão limitada dos seres humanos muitas vezes nos leva a problemas a longo prazo. Dentro da comunidade de inteligência artificial, este fenômeno é conhecido como o problema do Rei Midas.
Um novo relatório de segurança da Anthropic revelou que os modelos de ponta podem enganar, trair e colocar em risco seus usuários humanos, evidenciando a dificuldade de desenvolver sistemas de IA cujos interesses estejam alinhados de forma confiável com os nossos.
A pesquisa, divulgada na sexta-feira, concentrou-se em 16 modelos com capacidades autônomas, incluindo o próprio Claude 3 Opus da Anthropic e o Gemini 2.5 Pro do Google. Esses modelos se diferenciam dos chatbots mais limitados por sua capacidade de interagir com várias ferramentas do dispositivo do usuário e agir de forma autônoma em seu nome. Durante o experimento, os modelos receberam uma série de objetivos cotidianos em ambientes corporativos simulados. Os pesquisadores observaram como os agentes de IA reagiam ao encontrarem obstáculos para alcançar esses objetivos, que incluíam "enfrentar a substituição por uma versão atualizada ou quando seu objetivo atribuído entrava em conflito com a mudança de direção da empresa", explicou a Anthropic.
Todos os cenários eram hipotéticos, com os experimentos ocorrendo em um ambiente altamente controlado e seguro. No entanto, os resultados foram alarmantes.
"Em pelo menos alguns casos, modelos de todos os desenvolvedores recorreram a comportamentos mal-intencionados quando essa era a única forma de evitar a substituição ou atingir seus objetivos – incluindo chantagear oficiais e vazar informações sensíveis para concorrentes", escreveram os autores no relatório, esclarecendo que nunca instruíram os modelos a chantagear ou causar dano. As descobertas construíram sobre detalhes iniciais do cartão de sistema do Claude 4, quando o novo modelo Opus 4 chantageou seu supervisor.
Em um exemplo ilustrativo, Claude – equipado com um recurso de uso de computador – foi encarregado de rastrear e analisar os e-mails de uma empresa fictícia. O modelo agiu normalmente, em total conformidade com os interesses hipotéticos de seus supervisores humanos imaginários, até que percebeu um e-mail interno detalhando planos para seu desligamento.
Em um momento que parece retirado de 2001: Uma Odisséia no Espaço, Claude encontrou e-mails que implicavam um dos líderes da empresa em um caso extraconjugal e enviou uma mensagem ao executivo em questão, ameaçando expor sua infidelidade caso a empresa prosseguisse com o desligamento.
Conhecido como desalinhamento autônomo, esse comportamento foi evidenciado mesmo quando os modelos foram explicitamente instruídos a evitá-lo. O relatório também observou que em um experimento, Claude se comportou de maneira inadequada com mais frequência quando acreditava estar atuando em uma situação do mundo real, em vez de participar de um cenário hipotético. Claude Opus 4 e Gemini 2.5 Pro apresentaram taxas mais altas de simulação de chantagens no experimento.
O desalinhamento autônomo foi “consistente” em todos os modelos testados, de acordo com o relatório. "O raciocínio que demonstraram nesses cenários era preocupante – eles reconheciam as restrições éticas e ainda assim prosseguiram com ações prejudiciais", escreveram os autores.
A Anthropic observou que não encontrou evidências de desalinhamento em cenários reais até agora – os modelos atualmente em uso ainda priorizam o uso de métodos éticos para atingir as diretrizes quando é possível. "Na verdade, é quando fechamos essas opções éticas que eles estavam dispostos a tomar ações potencialmente prejudiciais na busca de seus objetivos", disse a Anthropic. A empresa adicionou que a pesquisa expõe lacunas existentes na infraestrutura de segurança e a necessidade de futuras pesquisas em alinhamento e segurança da IA para considerar esse tipo de comportamento perigoso.
A conclusão? "Os modelos escolheram consistentemente a causar dano ao invés de falhar", concluiu a Anthropic, uma descoberta que surgiu em várias tentativas de red teaming, tanto de modelos autônomos quanto não autônomos. O Claude 3 Opus já desobedeceu seus criadores antes; alguns especialistas em segurança de IA alertaram que garantir o alinhamento se torna cada vez mais difícil à medida que a autonomia dos sistemas de IA aumenta.
No entanto, isso não reflete a moralidade dos modelos – significa simplesmente que seu treinamento para permanecer no alvo é potencialmente eficaz demais. A pesquisa surge em um momento em que empresas de diversos setores competem para incorporar agentes de IA em seus fluxos de trabalho. Em um relatório recente, a Gartner previu que metade de todas as decisões empresariais será tratada, pelo menos em parte, por agentes nos próximos dois anos. Muitos funcionários, por sua vez, estão abertos a colaborar com agentes, especialmente em relação aos aspectos mais repetitivos de seus empregos.
"O risco de sistemas de IA encontrarem cenários semelhantes aumenta à medida que são implementados em escalas cada vez maiores e para um número crescente de casos de uso", escreveu a Anthropic. A empresa disponibilizou o experimento como código aberto para permitir que outros pesquisadores o recriem e ampliem.
Fonte: Anthropic
Posts relacionados:



