Cloudflare bindt strijd aan met AI-scrapers die ongevraagd content van sites halen

Cloudflare gaat makers op internet helpen voorkomen dat AI-ontwikkelaars hun content gebruiken voor het trainen van LLM’s. Deze dienst gaat deel uitmaken van Clouflare’s bestaande CDN-platform voor het veilig beheren van webcontent.

De reden waarom Cloudflare extra functionaliteit gaat bieden om het scrapen van webcontent door AI-ontwikkelaars met behulp van speciale bots tegen te gaan, is dat die bots steeds geavanceerder worden en hun ware identiteit steeds beter verhullen.

Volgens de CDN-aanbieder proberen AI-ontwikkelaars hun scraping bots te maskeren als legitieme webbrowsers. Dit gebeurt dan met behulp van een gespoofde user agent. Dat maakt het moeilijk echte bezoeken van een bot te onderscheiden en het ongewenste verkeer te blokkeren. Cloudflare geeft aan dat het een methode heeft ontwikkeld om deze spoofing-methode te detecteren met zijn eigen machine learning-model.

Eén van de AI-ontwikkelaars die deze vorm van scraping gebuikt, is bijvoorbeeld Perplexity AI, wist Wired te ontdekken.

Tip: Toont Perplexity de AI-gedreven toekomst van zoekmachines?

Score rating van websitebezoeken

Als antwoord op deze onvrijwillige scrapingpraktijken komt Cloudflare met een no-code oplossing binnen zijn CDN-platform die nagaat of website-verkeer mogelijk van een scraping bot afkomstig is, ook als de AI scraping bot zich probeert te verbergen.

Hiervoor krijgt ieder websitebezoek dat door de CDN-specialist wordt verwerkt een score van tussen de 1 tot 99. Hoe lager de score, hoe zekerder het is dat een bepaald verzoek van een bot afkomstig is. De scraping bot van Perplexity AI krijgt bijvoorbeeld zelfs een score lager dan 30.

De gebruikte technologie voor het toewijzen van de scores geeft Cloudflare de kans bepaalde tools en frameworks die scrapers gebruiken voor het verzamelen van data een bepaalde ‘vingerafdruk’ te geven. Voor iedere vingerafdruk gebruikt het bedrijf zijn eigen netwerk dat ongeveer 57 miljoen webverzoeken per seconde verwerkt. Hiermee wil Cloudflare aangeven dat het erg op deze technologie vertrouwt.

Rapporteringstools

Naast deze identificatie van mogelijke bezoeken van AI scraper bots, krijgen gebruikers van Cloudflare ook een speciaal rapporteringstool waarmee zij het bedrijf op de hoogste kunnen stellen van mogelijke actieve bots op hun website. Grootzakelijke Enterprise Bot Management-klanten kunnen ook een False Negative Feedback Loop-rapport via Bot Analytics versturen. Dit door eenvoudigweg het dataverkeersegment aan te klikken wanneer zij verdacht gedrag signaleren dat niet automatisch door Cloudflare’s eigen tech wordt opgemerkt.

De Cloudflare-tools tegen het scrapen van webcontent door AI-ontwikkelaars is zowel beschikbaar voor de gratis als de betaalde versies van het Cloudflare CDN-platform.

AI-content scraping is lastig dossier

Het scrapen van content door AI-ontwikkelaars staat al lang ter discussie. OpenAI en Google bieden wel opt-outmogelijkheden, maar andere LLM-ontwikkelaars doen dit nog steeds zonder autorisatie.

Contentleveranciers proberen daarom niet alleen dit scrapen te voorkomen, maar gaan bijvoorbeeld ook deals aan met AI-ontwikkelaars voor het gebruik van hun content. Denk daarbij bijvoorbeeld aan Reddit. Dit communityplatform heeft exclusieve betaalde deals met OpenAI en Google, maar weert actief AI scraping van andere ontwikkelaars.

Lees ook: Reddit weert data scraping van AI-bedrijven zonder lucratieve deal