Reddit processa empresa por coletar conteúdo de usuários sem autorização

A lista de processos judiciais contra empresas de inteligência artificial está aumentando: o Reddit se juntou a essa onda com uma ação contra a Anthropic. Na quarta-feira, a empresa registrou uma reclamação na Califórnia, alegando que a Anthropic — criadora do Claude — ignora o Protocolo de Exclusão de Robôs (REP), ou robots.txt, que impede que crawlers de IA acessem o conteúdo de um site. Pesquisas indicam que outras empresas de IA também estão adotando essa prática: em março, o Tow Center da Columbia revelou que vários chatbots, incluindo o Perplexity, conseguiram acessar artigos de publicações que haviam bloqueado seus crawlers utilizando o REP.

A denúncia afirma que “a Anthropic, na verdade, treina intencionalmente seus sistemas com os dados pessoais dos usuários do Reddit, sem nunca obter o consentimento deles”, o que viola o acordo de privacidade de usuários do Reddit. Em julho de 2024, quando o Reddit criticou publicamente a Anthropic por usar indevidamente seu conteúdo, a queixa prossegue, “os bots da Anthropic continuaram a acessar os servidores do Reddit mais de 100.000 vezes”, apesar de ter afirmado que havia interrompido suas interações com o site.

Esse processo é mais um capítulo do conflito entre sites que criam e hospedam conteúdo — como publicações, organizações de notícias e fóruns de usuários como o Reddit — e as empresas de IA que coletam esse conteúdo para utilizá-lo como base de dados de treinamento. No final de 2023, o The New York Times se tornou o primeiro veículo a processar a OpenAI e a Microsoft por usar seu conteúdo para treinar seus modelos, sem a devida permissão ou pagamento. Em abril, a Ziff Davis, empresa-mãe desta publicação, processou a OpenAI por violação de direitos autorais, citando instâncias semelhantes em que a empresa de IA acessou sites da Ziff Davis mesmo com a proibição. Autores e criativos também processaram a OpenAI e a Meta com fundamentos similares.

O que diferencia o Reddit nesta situação é que ele também é uma empresa de tecnologia, ao contrário das publicações que estão por trás dos processos anteriores. O Reddit possui acordos de licenciamento com a OpenAI e com o Google.

Outras publicações, como Dotdash Meredith, Financial Times e AP, adotaram uma abordagem diferente, buscando ativamente acordos de licenciamento com empresas de IA que permitem o acesso a parte ou todo o seu conteúdo em troca de ferramentas de IA internas e colocação preferencial na citação de respostas de chatbots. No entanto, pesquisas mostram que os chatbots ainda enfrentam dificuldades para citar com precisão e priorizar histórias de publicações, o que torna incerto se esses benefícios estão realmente sendo alcançados.

www.exemplo.com (link fictício apenas para referência)