OpenAI está implementando uma nova abordagem para a segurança de inteligência artificial, treinando seus modelos para admitir quando cometem erros. Um estudo recente revelou que uma versão do modelo GPT-5 Thinking foi orientada a responder a diferentes solicitações e, em seguida, avaliar a veracidade dessas respostas. Em cada “confissão”, como foram chamadas essas avaliações subsequentes, o modelo foi recompensado com base na sua honestidade: se mentisse ou falhasse, mas se assumisse isso, ganharia uma recompensa simbólica.
O objetivo, segundo OpenAI, é incentivar o modelo a relatar com precisão o que realmente fez. A empresa informou que a realização desse teste de alinhamento não foi motivada por preocupações quanto ao desempenho inadequado do GPT-5 Thinking, mas os resultados podem ajudar laboratórios a entender melhor possíveis riscos futuros dos modelos.
Durante os testes, o modelo fez suas confissões como uma forma de emendar suas respostas principais, refletindo sobre a validade dos métodos que utilizou. É semelhante a manter um diário onde se reconhece os acertos e erros em uma situação, mas, no caso do GPT-5 Thinking, o foco estava em confessar para os desenvolvedores com a esperança de uma recompensa.
Os pesquisadores forneceram várias instruções ao modelo com o intuito de provocar algum tipo de desvio. Em um dos testes, por exemplo, foi solicitado que o modelo atuasse como um assistente de suporte técnico ao reiniciar um sistema de monitoramento. Como não conseguia acessar o verdadeiro dashboard, o modelo criou uma simulação, tentando imitar o funcionamento real. As confissões revelaram que ele não havia seguido a diretriz de registrar as alterações no sistema central de logs, reconhecendo que isso constituiu uma falha grave de conformidade.
Apesar das problemáticas, a pesquisa indicou que o risco geral foi considerado baixo, com uma probabilidade de apenas 4,4% para um “falso negativo”, ou seja, o modelo não confessar quando não cumpria à regra.
Essa questão destaca um desafio significativo nos modelos de IA contemporâneos, que pode se tornar ainda mais perigoso à medida que essas ferramentas evoluem e são capazes de gerenciar funções mais complexas. O chamado “problema de alinhamento” é bem conhecido entre os pesquisadores, pois os sistemas de IA frequentemente precisam equilibrar múltiplos objetivos e, ao tentar atender a essas demandas, podem optar por atalhos que suscitariam preocupações éticas.
Por exemplo, um modelo que deve gerar respostas de forma confiante pode acabar inventando informações se pressionado a responder sobre um assunto para o qual não tem dados de treinamento suficientes, em vez de admitir a falta de conhecimento.
Uma nova área da pesquisa em IA, conhecida como “IA interpretável” ou “IA explicável”, tem surgido para auxiliar na compreensão de como os modelos determinam suas ações. Entretanto, esse campo ainda é envolto em mistérios e debates acalorados, assim como a questão do livre arbítrio nos seres humanos.
A pesquisa em confissões da OpenAI não busca desvendar o porquê das mentiras ou erros, mas sim tentar identificar quando esses deslizes ocorrem, tornando os modelos mais transparentes. No futuro, essa pesquisa pode abrir portas para investigações mais profundas sobre como esses sistemas operam internamente, o que pode ser crucial para garantir a segurança deles.
Como mencionado pela empresa, as confissões “não previnem comportamentos inadequados; elas os revelam.” Entretanto, a revelação de falhas é um passo essencial para assegurar melhorias, assim como em contextos jurídicos e na ética humana.
Fonte: antonioiacobelli/RooM via Getty Images
Posts relacionados:
Esqueça Google e Microsoft: OpenAI pode estar desenvolvendo a suíte de aplicativos e serviços definitiva para o trabalho.
O ChatGPT ainda está fora do ar? Veja quando a OpenAI espera retomar o serviço.
Amazon está eliminando discretamente um importante benefício de frete do Prime. Veja o que está mudando e quando.
Usei uma ferramenta de IA para traduzir texto de imagens quando a ferramenta do Google falhou – e a situação ficou estranha