A principal Rede de Distribuição de Conteúdo (CDN) da Internet, a Cloudflare, declarou uma guerra contra empresas de inteligência artificial. A partir de 1º de julho, a Cloudflare passa a bloquear por padrão os rastreadores da AI que acessam conteúdos de seus sites sem autorização ou remuneração.
Essa mudança aborda um problema real. Meu site pequeno, onde acompanho minhas histórias, o Practical Technology, já foi drasticamente afetado por esses rastreadores de AI. E não sou o único. Muitos proprietários de sites relataram que os crawlers de AI, como o GPTBot da OpenAI e o ClaudeBot da Anthropic, geram volumes massivos de solicitações automatizadas que congestionam os sites, tornando-os extremamente lentos. O GoogleBot, por exemplo, informa que o serviço de hospedagem Vercel sobrecarrega os sites que hospeda com mais de 4,5 bilhões de solicitações por mês.
Esses bots de AI costumam rastrear sites de maneira muito mais agressiva em comparação aos rastreadores de mecanismos de busca tradicionais. Eles podem visitar as mesmas páginas a cada poucas horas ou até mesmo bombardear sites com centenas de solicitações por segundo. Embora as empresas de AI neguem que seus bots sejam responsáveis, as evidências mostram um cenário diferente.
Em defesa de seus mais de dois milhões de clientes, que representam 20% da web, a Cloudflare decidiu bloquear os crawlers de AI. Para qualquer novo site que se inscreva em seus serviços, essas ferramentas serão automaticamente impedidas de acessar o conteúdo, a menos que o proprietário do site conceda permissão explícita. Além disso, a Cloudflare se compromete a identificar "raspadores sombrios" — bots que tentam se esquivar da detecção — por meio de análise comportamental e aprendizado de máquina. O que é bom para a AI também deve ser bom para os criadores.
Essa mudança inverte a situação anterior, em que os proprietários de sites precisavam optar pela exclusão do rastreamento por parte das AIs. Agora, o bloqueio é a regra padrão, e as empresas de AI devem solicitar acesso e esclarecer suas intenções, seja para treinamento de modelos, busca ou outros usos, antes de serem autorizadas a acessar o conteúdo.
Essas alterações não surgem apenas devido à frustração dos proprietários de websites. Muitas empresas de publicação, como The Associated Press, Condé Nast e a própria ZDNET, estão insatisfeitas com o fato de que empresas de AI têm "explorado" a web para obter conteúdo. Muitas vezes, isso é feito sem compensação ou consentimento, ignorando protocolos padrão como o robots.txt, que visam bloquear crawlers.
Além disso, casos judiciais recentes decidiram a favor da Meta e da Anthropic, afirmando que seu uso de obras protegidas por direitos autorais era legal sob a doutrina do uso justo. É desnecessário dizer que escritores, artistas e editores estão insatisfeitos com essa situação. Eles ainda estão preocupados que o governo federal permitirá que AIs façam o que quiserem com seus conteúdos. Gigantes da AI como OpenAI e Google continuam a pressionar o governo para classificar o treinamento de IA em dados protegidos como uso justo.
Vale mencionar também que, após o Escritório de Direitos Autorais divulgar uma versão pré-publicação de seu relatório de 108 páginas sobre direitos autorais e AI, que buscou um meio-termo ao apoiar as indústrias que contribuem para o nosso avanço econômico e cultural, foi ressaltado que embora algumas IAs geradoras possam ser consideradas "transformativas", a raspagem em massa de dados não se qualificava como uso justo. No dia seguinte, a administração de Trump demitiu o chefe do Escritório de Direitos Autorais e a substituiu por um advogado sem experiência prévia em legislação de direitos autorais.
Diante de tudo isso, não é surpresa que os editores busquem um aliado na tecnologia. Como declarou o CEO da Cloudflare, Matthew Prince, a nova política visa "dar aos editores o controle que eles merecem e construir um novo modelo econômico que funcione para todos — criadores, consumidores, futuros fundadores de AI e o futuro da web".
Para complementar essa ação de bloqueio, a Cloudflare também lançou seu programa "Pay Per Crawl", que permite que os editores definam suas próprias tarifas para empresas de AI que desejem acessar seu conteúdo. Esse sistema, atualmente em beta privado, busca criar uma estrutura onde as empresas de AI possam pagar pelo acesso, ou ser negadas caso se recusem. Na prática, isso será realizado ao reutilizar uma antiga resposta de servidor web, o HTTP 402, que retorna a mensagem de erro "Pagamento Requerido". Isso promete ser fácil de implementar e compatível com sites e infraestrutura existentes.
De modo geral, essa é uma grande mudança. Com a Cloudflare suportando uma parte significativa da internet, uma quantidade expressiva de conteúdo web pode se tornar inacessível para empresas de AI, a menos que negociem o acesso ou paguem taxas de licenciamento. Como observou Nicholas Thompson, CEO da Atlantic, "Até agora, as empresas de AI não precisaram pagar por licenças de conteúdo, pois podiam simplesmente tirá-lo sem repercussões. Agora, elas precisarão negociar".
Neste contexto, a maioria das empresas de AI tem se mostrado contrária ao pagamento por conteúdo. Como disse Sir Nick Clegg, ex-primeiro-ministro do Reino Unido e executivo da Meta, recentemente, simplesmente pedir permissão aos artistas antes de rasparem conteúdo protegido "basicamente matará a indústria de AI".
A nova política da Cloudflare é uma resposta direta a essa abordagem e ao aumento do volume e intrusividade dos crawlers de AI que surgiram com isso. Também visa impedir o desvio de tráfego que, de outra forma, beneficiaria os editores. Desde o surgimento da AI, o tráfego para sites de notícias caiu drasticamente. Por exemplo, o tráfego do Business Insider caiu mais da metade, 55%, de abril de 2022 a abril de 2025. Se não for controlado, Thompson recentemente previu que, devido à AI, a equipe da Atlantic deve esperar que o tráfego do Google caia para zero.
O que acontecerá a seguir? Outras CDNs, como a Akamai, seguirão o exemplo? Fique atento. Por ora, a era do rastreamento irrestrito por parte das AIs parece estar chegando ao fim, ao menos para a quinta parte da internet que flui através da rede da Cloudflare.
Referência: matéria original
Posts relacionados:



