Na quarta-feira, a Anthropic divulgou um relatório que detalha como o Claude foi mal utilizado durante o mês de março. O documento trouxe tendências novas e surpreendentes sobre a evolução do abuso de chatbots e dos atores de ameaça, além de ressaltar os riscos crescentes que a inteligência artificial generativa representa, mesmo com testes de segurança adequados.
Preocupações de segurança
Em um dos casos, a Anthropic identificou um “ator sofisticado” que utilizou Claude para ajudar a extrair credenciais vazadas “associadas a câmeras de segurança” de maneira a acessar os dispositivos, como foi mencionado no anúncio. Em outro exemplo, uma pessoa com “habilidades técnicas limitadas” conseguiu desenvolver malware que normalmente exigiria mais capacidade técnica. Claude auxiliou esse indivíduo a transformar um kit de código aberto, que realizava apenas funções básicas, em ferramentas de software mais avançadas, como reconhecimento facial e a capacidade de explorar a deep web. O relatório da Anthropic sugere que esse caso demonstra como a inteligência artificial generativa pode efetivamente equipar atores menos experientes que não representariam uma ameaça sem uma ferramenta como o Claude.
Manipulação nas redes sociais
No que a Anthropic chamou de uma operação de “influência como serviço” — identificada como o “caso mais inovador de uso indevido” —, atores usaram o Claude para gerar conteúdo para redes sociais, incluindo imagens. A operação também coordenou como e quando mais de cem bots no X e no Facebook interagiriam com publicações de dezenas de milhares de contas humanas, por meio de comentários, curtidas e compartilhamentos. “Claude foi empregado como um orquestrador, decidindo quais ações as contas de bots em redes sociais deveriam tomar, com base em personas politicamente motivadas”, afirma o relatório, esclarecendo que os responsáveis pela operação estavam sendo remunerados para promover as agendas políticas de seus clientes. As contas abrangiam diversos países e idiomas, indicando uma operação de alcance global. A Anthropic acrescentou que essa camada de engajamento representa uma evolução em relação às campanhas de influência anteriores.
Fraude de recrutamento
A Anthropic também identificou um esquema de recrutamento via engenharia social em toda a Europa Oriental que utilizava o Claude para tornar a linguagem do golpe mais profissional e convincente, num processo chamado “sanitização da linguagem”. Especificamente, esses atores usaram o Claude para transformar seus textos originais, em inglês não nativo, de modo a parecer que tinham sido redigidos por um falante nativo, assim melhorando sua capacidade de se passarem por gestores de contratação.
Protegendo contra o uso indevido
“A nossa iniciativa de inteligência visa servir como uma rede de segurança, identificando danos que não são detectados por nossa detecção padrão em larga escala e fornecendo contexto sobre como os agentes mal-intencionados estão utilizando nossos modelos de maneira maliciosa”, declarou a Anthropic sobre seu processo. Após analisar conversas para identificar padrões de uso indevido e casos específicos, a empresa banhou as contas envolvidas. “Esses exemplos foram selecionados por ilustrarem claramente as novas tendências sobre como atores maliciosos estão se adaptando e tirando proveito dos modelos de IA de ponta”, afirmou a Anthropic em seu comunicado. “Esperamos contribuir para uma compreensão mais profunda do panorama de ameaças em evolução e ajudar o ecossistema de IA a desenvolver proteções mais robustas.”
O relatório foi publicado em meio a notícias sobre a OpenAI, que havia encurtado drasticamente os prazos de testes de modelos. Testes antes e depois do lançamento de novos modelos de IA são essenciais para mitigar o dano que podem causar nas mãos erradas. O fato de a Anthropic — uma empresa conhecida por seu compromisso com testes e cautela no espaço da IA — ter identificado esses casos de uso, após realizar uma avaliação de maneira mais conservadora do que seus concorrentes, é significativo. Com a regulamentação federal da IA ainda indefinida sob a administração passada, o relato e a verificação por terceiros permanecem como as únicas garantias para monitorar a IA generativa.
Referência: https://news.anthropic.com
Posts relacionados:



