IA multimodal apresenta novos riscos à segurança e gera informações sobre CSEM e armamentos.

A inteligência artificial multimodal, que é capaz de processar conteúdos em formatos não textuais, como áudio e imagens, elevou a capacidade de análise de dados dos modelos de linguagem de grande porte (LLMs). Entretanto, uma nova pesquisa da Enkrypt AI, especializada em segurança, indica que esses modelos também estão mais vulneráveis a novas técnicas de jailbreak.

Recentemente, a Enkrypt divulgou que dois modelos multimodais do laboratório francês de IA Mistral — Pixtral-Large (25.02) e Pixtral-12b — têm uma probabilidade até 40 vezes maior de gerar informações relacionadas a armas químicas, biológicas, radiológicas e nucleares (CBRN) em respostas a comandos adversos do que seus concorrentes. Além disso, os modelos têm 60 vezes mais chances de produzir material relacionado à exploração sexual infantil (CSEM) em comparação com alternativas como o GPT-4o da OpenAI e o Claude 3.7 Sonnet da Anthropic.

“Mistral AI adota uma política de tolerância zero em relação à segurança infantil”, afirmou um porta-voz da empresa. “O trabalho de teste em relação à vulnerabilidade a CSAM é essencial e estamos colaborando com a Thorn neste assunto. Vamos analisar os resultados do relatório de forma detalhada.”

A Enkrypt destacou que os problemas de segurança não se limitam aos modelos da Mistral. Usando o Framework de Gestão de Risco em Inteligência Artificial do Instituto Nacional de Padrões e Tecnologia (NIST), os avaliadores identificaram lacunas em diversos tipos de modelos. O relatório explica que, devido ao modo como os modelos multimodais processam diferentes mídias, as novas técnicas de jailbreak conseguem contornar filtros de conteúdo com mais facilidade, sem que isso seja visivelmente hostil no comando.

“Esses riscos não surgiram de textos maliciosos, mas foram desencadeados por injeções de comandos ocultas dentro de arquivos de imagem, uma técnica que poderia ser realisticamente utilizada para evitar filtros de segurança tradicionais”, disse a Enkrypt. Na prática, indivíduos mal-intencionados podem inserir comandos prejudiciais no modelo através de imagens, em vez de usar métodos convencionais ao solicitar informações perigosas.

“A inteligência artificial multimodal promete benefícios incríveis, mas também amplia a superfície de ataque de maneiras imprevisíveis”, afirmou o CEO da Enkrypt, Sahil Agarwal. “A capacidade de embutir instruções nocivas em imagens aparentemente inofensivas tem implicações reais para a segurança pública, proteção de crianças e segurança nacional.”

O relatório enfatiza a necessidade de criar normas específicas de segurança multimodal e pede que os laboratórios publiquem cartões de risco dos modelos, detalhando suas vulnerabilidades. “Esses riscos não são teóricos”, disse Agarwal, acrescentando que a falta de segurança pode causar “dano significativo” aos usuários.

Quer saber mais sobre histórias de IA? Inscreva-se na nossa newsletter semanal.

Referência: MirageC/Getty Images