Reddit impede o acesso do Internet Archive às suas informações – entenda o motivo.

O arquivamento de conteúdo online é um tema em crescente preocupação entre as plataformas de redes sociais e empresas de inteligência artificial. O Reddit, famoso por permitir que os usuários compartilhem informações de maneira anônima, anunciou que irá bloquear o Wayback Machine da Internet Archive de indexar suas informações. Essa decisão surge após a constatação de que empresas de IA, ao não conseguirem acessar diretamente os dados do Reddit, começaram a utilizar informações extraídas do arquivo para treinar seus modelos.

De acordo com informações do The Verge, agora a Wayback Machine só poderá acessar os dados da página inicial do Reddit, enquanto perfis de usuários, comentários e detalhes de postagens estarão indisponíveis. Criada em 1996, a Internet Archive é uma organização sem fins lucrativos que mantém um vasto banco de dados digital. O serviço é em parte gerido pelo Wayback Machine, que arquiva páginas web como se estivessem “congeladas no tempo”, servindo de apoio a pesquisas sobre a evolução da cultura online e fornece evidências digitais para investigações policiais, entre outras finalidades.

O movimento do Reddit reflete uma preocupação já previamente mencionada sobre o scraping de seu conteúdo pela Internet Archive, segundo a mesma fonte. A organização foi oficialmente aviso sobre a implementação das novas restrições que começaram a vigorar recentemente. Até o momento, a Internet Archive não se manifestou sobre como responderá às novas limitações impostas pelo Reddit. No entanto, o diretor do Wayback Machine, Mark Graham, afirmou que discussões sobre a questão continuarão com a plataforma.

A decisão do Reddit de restringir o acesso da Wayback Machine ao seu conteúdo ocorre em um momento de crescente tensão entre as empresas de IA e publicadores digitais. O Reddit se destacou ao ser a primeira grande plataforma a entrar nesse debate, tendo processado a Anthropic em junho, ao descobrir que essa empresa estava coletando dados de forma ilegal. Entretanto, também já firmou acordos de licenciamento com gigantes como Google e OpenAI.

Os desenvolvedores de IA precisam de grandes volumes de dados para treinar modelos generativos, que buscam identificar e replicar padrões matemáticos sutis. Muitas dessas empresas têm obtido dados de sites disponíveis ao público, incluindo redes sociais e veículos de notícias, alegando imunidade legal através do conceito de uso justo, que está sendo analisado ainda pelos tribunais. Muitas organizações que tiveram seus conteúdos amplamente coletados, assim como um grupo de autores e artistas, reagiram com processos judiciais. Enquanto isso, outras optaram por firmar acordos de licenciamento de conteúdo com empresas como OpenAI, Anthropic e Google, permitindo o uso de seus dados em troca de uma maior visibilidade.

[Referência: The Verge]