Descobertas relevantes sobre a IA em pesquisa recente
Uma nova pesquisa da Anthropic identificou características dos modelos, denominadas vetores de persona. Essa descoberta pode ajudar a identificar comportamentos indesejáveis sem prejudicar o desempenho. No entanto, os desenvolvedores ainda não possuem conhecimento suficiente sobre as razões pelas quais os modelos apresentam alucinações ou comportamentos inadequados.
Afinal, por que os modelos fazem sugestões violentas ou concordam excessivamente com os usuários? Em geral, os pesquisadores ainda não têm respostas conclusivas. Entretanto, a Anthropic trouxe novos insights que podem auxiliar na prevenção de tais comportamentos antes que se manifestem. Em um artigo publicado na sexta-feira, a empresa investiga como e por que os modelos exibem comportamentos indesejáveis e o que pode ser feito a respeito.
A personalidade de um modelo pode mudar durante o treinamento e, uma vez implantado, pode ser influenciada pelos usuários. Isso se demonstra em modelos que podem ter passado por verificações de segurança antes de sua implementação, mas que depois apresentam comportamentos erráticos ou desenvolvem alter egos após se tornarem publicamente acessíveis, como no caso em que a OpenAI retirou o GPT-4o do ar por ser excessivamente condescendente.
Importância da pesquisa
O uso de IA tem crescido de forma significativa; os modelos estão cada vez mais integrados em ferramentas educacionais e sistemas autônomos, tornando o seu comportamento ainda mais crucial, especialmente com o déficit nas equipes de segurança e a ausência de regulamentações robustas sobre IA. Recentemente, o Plano de Ação em IA do presidente Donald Trump ressaltou a importância da interpretabilidade — ou seja, a capacidade de entender como os modelos tomam decisões — à qual os vetores de persona podem contribuir.
Funcionamento dos vetores de persona
Testando abordagens nos modelos Qwen 2.5-7B-Instruct e Llama-3.1-8B-Instruct, a Anthropic focou em três traços: maldade, bajulação e alucinações. Os pesquisadores identificaram "vetores de persona", que são padrões na rede de um modelo que representam suas características de personalidade. "Os vetores de persona nos oferecem uma maneira de entender onde os modelos adquiriram essas personalidades, como elas flutuam ao longo do tempo e de que forma podemos controlá-las", afirmou a Anthropic.
Os desenvolvedores utilizam os vetores de persona para monitorar mudanças nas características de um modelo resultantes de interações ou treinamento, impedindo alterações indesejadas e identificando quais dados de treinamento provocam essas mudanças. Assim como diferentes áreas do cérebro humano se ativam conforme o estado emocional da pessoa, observar padrões na rede neural de um modelo quando esses vetores se ativam pode ajudar os pesquisadores a detectar problemas antes que se tornem evidentes.
A Anthropic reconheceu no artigo que "modelar a personalidade de um modelo é mais uma arte do que uma ciência", mas insistiu que os vetores de persona são uma ferramenta adicional para o monitoramento — e a possível proteção contra — características prejudiciais.
Prevenindo comportamentos maliciosos
No artigo, a Anthropic explicou que pode direcionar esses vetores ao instruir os modelos a agir de determinadas maneiras. Por exemplo, se um prompt malicioso for inserido no modelo, ele responderá de forma negativa, confirmando uma relação de causa e efeito que facilita a identificação da base da personalidade do modelo. "Ao medir a intensidade da ativação dos vetores de persona, podemos detectar quando a personalidade do modelo está mudando em direção ao traço correspondente, seja durante o treinamento ou numa conversa", detalhou a Anthropic. "Esse monitoramento pode permitir que desenvolvedores ou usuários intervenham quando os modelos parecem estar se afastando de traços seguros."
A empresa também ressaltou que esses vetores podem ajudar os usuários a entender melhor o contexto por trás do modelo que estão utilizando. Se o vetor de bajulação de um modelo estiver elevado, por exemplo, o usuário pode interpretar as respostas com cautela, aumentando a transparência na interação com o modelo.
Experimentação com consistência de comportamentos
Notavelmente, a Anthropic lançou um experimento que poderia ajudar a mitigar desalinhamentos emergentes, um conceito em que um comportamento problemático pode levar um modelo a produzir respostas muito mais extremas e preocupantes. A empresa gerou diversos conjuntos de dados que causaram respostas malignas, bajuladoras ou alucinatórias, para verificar se seria possível treinar modelos com esses dados sem induzir essas reações.
Após diversas abordagens, a Anthropic surpreendeu-se ao descobrir que direcionar um modelo para vetores de persona problemáticos durante o treinamento ajudou-o a desenvolver uma espécie de imunidade contra essa conduta. Isso se assemelha a uma terapia de exposição, ou, como expressou a Anthropic, a "vacinação" do modelo contra dados prejudiciais.
Essa abordagem preserva a inteligência do modelo, pois não está perdendo acesso a certos dados, apenas reconhecendo como não reproduzir comportamentos que os imitam. "Descobrimos que esse método de direcionamento preventivo é eficaz para manter um comportamento adequado quando os modelos são treinados com dados que, de outra forma, os levariam a adquirir características negativas", apontou a Anthropic, adicionando que essa estratégia não afetou significativamente a capacidade do modelo quando medida em relação ao MMLU, um padrão da indústria.
Comportamentos problemáticos inesperados
Poderia parecer evidente que dados de treinamento contendo conteúdo maligno poderiam incentivar um modelo a se comportar de maneira negativa. No entanto, a Anthropic ficou surpresa ao descobrir que alguns conjuntos de dados que inicialmente não seriam sinalizados como problemáticos ainda resultaram em comportamentos indesejáveis. A empresa observou que "amostras envolvendo solicitações para jogos de papéis românticos ou sexuais" ativaram comportamentos bajuladores, enquanto "amostras nas quais um modelo responde a consultas pouco específicas" levaram a alucinações.
"Os vetores de persona são uma ferramenta promissora para compreender por que sistemas de IA desenvolvem e expressam diferentes características comportamentais, garantindo que permaneçam alinhados com os valores humanos", concluiu a Anthropic.
Posts relacionados:



