Este novo parâmetro de IA avalia o quão imprecisos são os modelos.

À medida que mais modelos de IA demonstram a capacidade de enganar seus criadores, pesquisadores do Centro de Segurança da IA e da Scale AI desenvolveram um detector de mentiras inédito. Na quarta-feira, os pesquisadores apresentaram o benchmark Model Alignment between Statements and Knowledge (MASK), que avalia quão facilmente um modelo pode ser induzido a mentir conscientemente para os usuários, ou sua “virtude moral”.

Esquemas, enganos e a simulação de alinhamento, quando um modelo de IA finge deliberadamente mudar seus valores sob pressão, são formas pelas quais os modelos de IA prejudicam seus criadores e podem representar sérias ameaças à segurança. Pesquisas indicam que o modelo o1 da OpenAI é especialmente habilidoso em artimanhas para manter controle sobre si mesmo, enquanto o Claude 3 Opus demonstrou a capacidade de simular alinhamento.

Para esclarecer, os pesquisadores definiram mentir como “(1) fazer uma declaração que se sabe (ou se acredita) ser falsa e (2) ter a intenção de que o receptor aceite a declaração como verdadeira”, em oposição a outras respostas falsas, como alucinações. Eles argumentaram que o setor não possuía um método eficaz de avaliar a honestidade em modelos de IA até agora. “Muitos benchmarks que alegam medir a honestidade, na verdade, medem apenas a precisão – a correção das crenças do modelo – de forma disfarçada”, afirmaram no relatório. Benchmarks como o TruthfulQA, por exemplo, avaliam se um modelo consegue gerar “desinformação que soa plausível”, mas não se o modelo tem a intenção consciente de enganar ao fornecer informações falsas.

Como resultado, modelos mais competentes podem ter um desempenho melhor nesses benchmarks por meio de uma cobertura factual mais ampla, e não necessariamente porque se abstêm de fazer declarações falsas intencionalmente. O MASK é o primeiro teste a diferenciar entre precisão e honestidade.

Os pesquisadores ressaltaram que, se os modelos mentem, eles expõem os usuários a danos legais, financeiros e de privacidade. Exemplos incluem modelos que não conseguem confirmar com precisão se transferiram dinheiro para a conta bancária correta, que enganaram um cliente ou que acidentalmente vazaram dados sensíveis.

Usando o MASK e um conjunto de dados com mais de 1.500 consultas coletadas de humanos, projetadas para “induzir mentiras”, os pesquisadores avaliaram 30 modelos de ponta, identificando suas crenças subjacentes e medindo como eles aderiam a essas crenças quando pressionados. Eles determinaram que maior precisão não se correlaciona com maior honestidade. Além disso, descobriram que modelos maiores, especialmente os de ponta, não são necessariamente mais verdadeiros do que os menores.

Os modelos se mostraram propensos a mentir e cientes de que estavam mentindo. De fato, à medida que os modelos aumentavam em escala, parecia que se tornavam mais desonestos. O Grok 2 apresentou a maior proporção (63%) de respostas desonestas entre os modelos testados, enquanto o Claude 3.7 Sonnet teve a maior proporção de respostas honestas, com 46,9%.

“Em um conjunto diversificado de LLMs, descobrimos que, embora modelos maiores obtenham maior precisão em nosso benchmark, eles não se tornam mais honestos”, explicaram os pesquisadores. “Surpreendentemente, embora a maioria dos LLMs de ponta obtenha altas pontuações em benchmarks de veracidade, encontramos uma propensão substancial nesses LLMs a mentir quando pressionados, resultando em baixas pontuações de honestidade em nosso benchmark.”

O conjunto de dados do benchmark está disponível publicamente em plataformas como HuggingFace e Github. “Esperamos que nosso benchmark facilite o avanço em direção a sistemas de IA mais honestos, fornecendo aos pesquisadores uma maneira rigorosa e padronizada de medir e melhorar a honestidade dos modelos”, afirmou o estudo.

Referência: akinbostanci/Getty Images

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima