Wikimedia kampt met 50 procent toename in bandbreedte door AI-crawlers

Wikimedia heeft sinds januari 2024 een stijging van 50 procent gezien in het bandbreedtegebruik van Wikipedia. Deze enorme toename komt echter niet door menselijke gebruikers die plotseling massaal Wikipedia-artikelen lezen of video’s bekijken, maar door AI-crawlers die geautomatiseerd content scrapen om AI-modellen te trainen. Dit zorgt voor nieuwe uitdagingen voor de stichting.

De plotselinge toename van verkeer door AI-bots kan de toegang tot Wikimedia’s pagina’s en bestanden vertragen, vooral tijdens gebeurtenissen die veel aandacht trekken. Zo ontstonden er bijvoorbeeld vertragingen bij het laden van pagina’s toen Jimmy Carter in december overleed en veel mensen geïnteresseerd waren in de video van zijn presidentieel debat met Ronald Reagan.

Lees ook: Wikidata ontsluit eigen kennisbank door vectorizeren van data

Verschil tussen menselijk verkeer en AI-crawlers

Wikimedia is goed uitgerust om pieken in verkeer van menselijke bezoekers op te vangen, maar “de hoeveelheid verkeer gegenereerd door scraper bots is ongekend en vormt groeiende risico’s en kosten”, aldus de stichting. Dit komt door een fundamenteel verschil in gebruikspatronen.

Menselijke bezoekers zoeken vaak naar specifieke en vergelijkbare onderwerpen. Wanneer iets trending is, kijken veel mensen naar dezelfde content. Wikimedia maakt daarom een cache van veelgevraagde inhoud in het dichtstbijzijnde datacentrum, wat het laden versnelt. Maar artikelen en content die lang niet zijn bekeken, moeten worden geleverd vanuit een centrale database zonder uitgebreide cache, wat meer resources vereist en dus meer kost.

AI-crawlers lezen in tegenstelling tot mensen massaal pagina’s in bulk, inclusief obscure inhoud die uit de centrale database moet worden opgehaald. Bij nader onderzoek bleek dat 65 procent van het resource-intensieve verkeer afkomstig is van bots.

Constante storingen

Dit veroorzaakt nu al constante storingen voor het Site Reliability team van Wikimedia. Zij moeten voortdurend crawlers blokkeren voordat deze de toegang voor echte gebruikers significant vertragen. Maar het werkelijke probleem, zoals Wikimedia stelt, is dat de groei plaatsvindt zonder dat er sprake is van bronvermelding of een aanwas van nieuwe menselijke gebruikers die willen deelnemen aan de Wikipedia community.

Een stichting die afhankelijk is van donaties van mensen om te kunnen blijven functioneren, moet nieuwe gebruikers aantrekken en ervoor zorgen dat ze betrokken raken. “Onze content is gratis, onze infrastructuur niet”, aldus de stichting.

Op zoek naar een duurzame toekomst

Wikimedia zoekt nu naar duurzame manieren voor ontwikkelaars en gebruikers om toegang te krijgen tot de content. Dit is noodzakelijk omdat Wikimedia niet verwacht dat het AI-gerelateerde verkeer snel zal afnemen.

De situatie benadrukt een groter vraagstuk in de AI-industrie: hoe om te gaan met het grootschalig scrapen van openbaar beschikbare content voor het trainen van commerciële AI-modellen. Terwijl Wikimedia’s missie draait om vrije kennis te verspreiden, komt de huidige manier waarop AI-bedrijven de inhoud gebruiken zonder voldoende erkenning in toenemende mate in conflict met de duurzaamheid van het platform. Het ligt voor de hand dat AI-organisaties moeten gaan betalen om toegang te krijgen tot Wikpedia content. De vraag is of ze daar ook toe bereid zijn.