A importante Rede de Distribuição de Conteúdo (CDN) da internet, Cloudflare, declarou uma batalha contra as empresas de inteligência artificial (IA). A partir de 1º de julho, a Cloudflare começou a bloquear por padrão os rastreadores da web de IA que acessam o conteúdo dos sites sem autorização ou compensação.
Essa mudança responde a um problema real. Meu pequeno site, onde acompanho todas as minhas histórias, o Prática Tecnologia, experimentou lentidão significativa em alguns momentos devido aos rastreadores de IA. Não sou o único. Vários proprietários de sites relataram que rastreadores de IA, como o GPTBot da OpenAI e o ClaudeBot da Anthropic, geram volumes enormes de solicitações automatizadas, congestionando os sites e tornando-os extremamente lentos. O GoogleBot já informou que o serviço de hospedagem em nuvem Vercel sobrecarrega os sites que hospeda com mais de 4,5 bilhões de solicitações por mês.
Esses bots de IA costumam explorar os sites de maneira muito mais agressiva do que os rastreadores tradicionais dos motores de busca. Às vezes, eles revisitavam as mesmas páginas a cada poucas horas ou realizavam centenas de solicitações por segundo em determinados sites. Embora as empresas de IA neguem que seus bots sejam os responsáveis, as evidências apresentam um cenário distinto.
Assim, em nome de seus mais de dois milhões de clientes, que representam 20% da web, a Cloudflare agora bloqueia os rastreadores de IA. Para qualquer novo site que se inscrever em seus serviços, os rastreadores de IA serão automaticamente impedidos de acessar seu conteúdo, a menos que o proprietário do site conceda autorização explícita. Além disso, a Cloudflare promete identificar “rastreadores ocultos” — bots que tentam evitar a detecção — utilizando análise comportamental e aprendizado de máquina. O que é benéfico para os fornecedores de IA deve ser igualmente vantajoso para os demais.
Essa mudança reverte a situação anterior, onde os proprietários de sites precisavam optar por não permitir a coleta de dados por IA. Agora, o bloqueio é o padrão, e os fornecedores de IA devem solicitar acesso e esclarecer suas intenções, seja para treinamento de modelos, pesquisa ou outras finalidades, antes de receberem autorização.
Tal mudança se origina não só de proprietários de sites frustrados. Várias empresas de publicação, como a Associated Press, Condé Nast e a ZDNET, cuja controladora é a Ziff Davis, estão descontentes com o “extrativismo” das empresas de IA em relação ao conteúdo disponível na web. Muitas vezes, isso ocorre sem compensação ou consentimento e, em algumas ocasiões, ignorando protocolos padrões como robots.txt, que têm o intuito de bloquear rastreadores.
Além disso, decisões recentes da justiça favoreceram a Meta e a Anthropic, concluindo que o uso de obras protegidas por direitos autorais era legal segundo a doutrina do uso justo. Não é necessário dizer que escritores, artistas e editores desaprovam completamente essa situação. As publicações ainda temem que o governo federal conceda às empresas de IA total liberdade para utilizar seus conteúdos.
Grandes empresas de IA, como a OpenAI e o Google, continuam a pressionar o governo para classificar o treinamento em dados protegidos por direitos autorais como uso justo. Vale ressaltar que, depois que o Escritório de Direitos Autorais lançou uma versão preliminar de seu relatório sobre copyrights e IA, que buscou um meio-termo ao apoiar essas indústrias vitais para o avanço econômico e cultural, foi afirmado que, embora algumas IAs geradoras possam constituir um uso “transformador”, a coleta massiva de dados não se qualificava como tal. No dia seguinte, a administração Trump demitiu a responsável pelo Escritório de Direitos Autorais e a substituiu por um advogado sem experiência prévia na área.
Frente a tudo isso, não é de se admirar que as publicações tenham buscado um aliado na tecnologia. Como afirmou o CEO da Cloudflare, Matthew Prince, em um comunicado, sua nova política visa “dar aos editores o controle que merecem e construir um novo modelo econômico que funcione para todos — criadores, consumidores, os futuros fundadores de IA e para o futuro da própria web”.
Para complementar essa iniciativa de bloquear os rastreadores de IA, a Cloudflare lançou seu programa “Pay Per Crawl”. Isso permite que os editores definam suas próprias tarifas para as empresas de IA que desejam acessar seu conteúdo. Esse sistema está atualmente em versão beta privada e busca criar uma estrutura onde as empresas de IA possam pagar pelo acesso ou serem negadas caso se recusem.
De forma técnica, isso será feito reativando uma antiga resposta de servidor web, o HTTP 402, que responde com uma mensagem de erro “Pagamento Requerido”. Isso significa que deverá ser simples de implementar e compatível com os websites já existentes e sua infraestrutura.
No geral, essa é uma grande evolução. Dado que a Cloudflare opera uma parte considerável da internet, uma quantidade significativa de conteúdo online poderá tornar-se inacessível para as empresas de IA, a não ser que elas negociem acesso ou paguem taxas de licenciamento. Como observou Nicholas Thompson, CEO da Atlantic, “Até agora, as empresas de IA não precisavam pagar por licenças de conteúdo porque podiam simplesmente coletá-lo sem consequências. Agora elas terão que negociar”.
Nesse sentido, a maioria das empresas de IA tem se oposto ativamente ao pagamento por conteúdo. Como afirmou Sir Nick Clegg, ex-vice-primeiro-ministro do Reino Unido e executivo da Meta, recentemente, simplesmente pedir permissão aos artistas antes de coletar conteúdo protegido por direitos autorais “básicamente mataria a indústria de IA”.
A nova política da Cloudflare é uma resposta direta a essa abordagem e ao aumento no volume e na intrusividade dos rastreadores de IA que surgiram. Trata-se também de uma tentativa de evitar a perda de tráfego que, de outra forma, beneficiaria as publicações. Desde a ascensão da IA, o tráfego para os sites de notícias despencou. Por exemplo, o tráfego do Business Insider caiu mais da metade, 55%, de abril de 2022 a abril de 2025. Se não forem controladas, Thompson previu recentemente que, graças à IA, a equipe da Atlantic deverá esperar um tráfego proveniente do Google que se aproxime de zero.
O que acontecerá a seguir? Será que outras CDNs, como a Akamai, seguirão essa tendência? Fique atento. Por enquanto, a era de coleta irrestrita de dados por IA parece estar chegando ao fim, pelo menos para a quinta parte da internet que flui pelos servidores da Cloudflare.
Referência: iStock / Getty Images Plus
Posts relacionados:



