Fietje: klein Nederlandstalig AI-model dat op een telefoon kan draaien

Belgisch KU Leuven-onderzoeker Bram Vanroy heeft “Fietje” uitgebracht. Dit kleine AI-model is specifiek getraind op Nederlandse tekstgeneratie.

Fietje is een aangepaste versie van Microsofts Phi-2 model, dat eind vorig jaar verscheen. Net als dat “small language model” (SLM) weet het op sommige benchmarks imposante resultaten te behalen. Er zijn drie varianten van Fietje beschikbaar op GitHub, elk met 2,7 miljard parameters. Fietje-2b geldt als het basismodel, terwijl 2b-instruct en 2b-chat elk een stukje beter toegespitst zijn op chatinteracties.

Een eerder Nederlandstalig AI-model van Vanroy, GEITje-7B-ultra, was gebaseerd op een Mistral-LLM. Wie het nieuwe model wil uitproberen, kan direct op Hugging Face aan de slag. Let wel: bij drukte kan de tool foutmeldingen geven.

Tip: Microsoft introduceert piepklein AI-model: Phi-3 Mini

Hoogwaardige data

Op het ScandEval-scorebord voor AI-vaardigheden in het Nederlands scoort Fietje bijzonder goed. Meta’s grootste variant van Llama 3 (met 70 miljard parameters) gaat aan kop, maar fietje-2b-chat is te vinden tussen LLM’s met aanzienlijk meer parameters tot hun beschikking. Hoe meer parameters, hoe complexer het model.

Hoewel Microsoft met Phi-2 de basis voor Fietje heeft gelegd, vereiste verdere verfijning van het model hoogwaardige Nederlandstalige data. Informatie vanuit Wikipedia en CulturaX golden als de basis, vertelt Vanroy.

Vanroy geeft tegenover Tweakers aan dat we de vaardigheden van het kleine Fietje niet moeten overdrijven. “Hoewel Fietje het in benchmarks bijna zo goed doet als GEITje 7B Ultra, is het in de praktijk toch minder krachtig. Het is dan ook bedoeld als een stap naar het lokaal draaien van LLMs, ook op kleine apparaten zoals een Raspberry PI of een telefoon, mogelijk maken.”

Niet state-of-the-art

Vanroy duidt de creatie van Fietje nog verder in een reactie onder het Tweakers-nieuwsbericht. “Ik vreesde al dat gebruikers de vergelijking zouden maken met andere, krachtigere modellen.” Dat vindt de onderzoeker begrijpelijk, maar hij benadrukt dat dit niet het doel is van Fietje. “De bedoeling is NIET om een nieuwe state-of-the-art vast te leggen, dat kan ook gewoon niet met deze grootte.”

In plaats daarvan zocht Vanroy naar de juiste balans tussen prestaties en een zo klein mogelijk formaat. Fietje vult desondanks weldegelijk een andere niche: een model dat specifiek gericht is op de Nederlandse taal. Een ander project met dit doel is GPT-NL, mede opgezet door TNO en ICT-coöperatie SURF. Echter is daar nog geen eindproduct van beschikbaar.

Vanroy hoopt met Fietje “community-building” en transparantie te bevorderen. “Daarom zijn mijn datasets, modellen, trainingscode, trainingslog allemaal openbaar en voor iedereen beschikbaar in de hoop om andere onderzoekers te motiveren om even transparant te zijn, en samen te werken aan betere taaltechnologie voor het Nederlands.”

Tip: GPT-NL: Nederland stopt 13,5 miljoen in eigen LLM

Keuze van de redactie

Top story

NetSuite maakt platform efficiënter met doelgerichte AI

Organisaties sneller laten innoveren

Coen van Eenbergen 1 april 2025

Tech career

Whitepapers

Fietje: klein Nederlandstalig AI-model dat op een telefoon kan draaien

Hoogwaardige data

Niet state-of-the-art

Blijf op de hoogte, abonneer!

In Delft opent een nieuwe quantum-hub

Datalek bij ministeries veroorzaakt door foutief uploaden documenten

Groot datalek treft meerdere Nederlandse ministeries, impact nog onduidelijk

Kwart van securityprofessionals onbekend met NIS2

CTRL+ALT+INVEST steekt 800.000 euro in startup Attic Security

NIS2: Hoe IT-teams en MSP’s zich kunnen voorbereiden

NIS2: wet mist toekomstgerichtheid, uitdagende ambities en recovery-aspect

Cloud Account Executive – Slack

AI & Data Architect

Probeer gratis het nieuwste high-end Synology backup-systeem

Versterk je cybersecurity met DNS best practices

Navigeren door technologische ontwrichting

Hoe selecteer je het juiste ERP-systeem?

VeeamON 2025

GITEX ASIA

SAS Innovate 2025

.NEXT 2025

LambdaConf 2025

Qlik Connect 2025