Belgisch KU Leuven-onderzoeker Bram Vanroy heeft “Fietje” uitgebracht. Dit kleine AI-model is specifiek getraind op Nederlandse tekstgeneratie.
Fietje is een aangepaste versie van Microsofts Phi-2 model, dat eind vorig jaar verscheen. Net als dat “small language model” (SLM) weet het op sommige benchmarks imposante resultaten te behalen. Er zijn drie varianten van Fietje beschikbaar op GitHub, elk met 2,7 miljard parameters. Fietje-2b geldt als het basismodel, terwijl 2b-instruct en 2b-chat elk een stukje beter toegespitst zijn op chatinteracties.
Een eerder Nederlandstalig AI-model van Vanroy, GEITje-7B-ultra, was gebaseerd op een Mistral-LLM. Wie het nieuwe model wil uitproberen, kan direct op Hugging Face aan de slag. Let wel: bij drukte kan de tool foutmeldingen geven.
Tip: Microsoft introduceert piepklein AI-model: Phi-3 Mini
Hoogwaardige data
Op het ScandEval-scorebord voor AI-vaardigheden in het Nederlands scoort Fietje bijzonder goed. Meta’s grootste variant van Llama 3 (met 70 miljard parameters) gaat aan kop, maar fietje-2b-chat is te vinden tussen LLM’s met aanzienlijk meer parameters tot hun beschikking. Hoe meer parameters, hoe complexer het model.
Hoewel Microsoft met Phi-2 de basis voor Fietje heeft gelegd, vereiste verdere verfijning van het model hoogwaardige Nederlandstalige data. Informatie vanuit Wikipedia en CulturaX golden als de basis, vertelt Vanroy.
Vanroy geeft tegenover Tweakers aan dat we de vaardigheden van het kleine Fietje niet moeten overdrijven. “Hoewel Fietje het in benchmarks bijna zo goed doet als GEITje 7B Ultra, is het in de praktijk toch minder krachtig. Het is dan ook bedoeld als een stap naar het lokaal draaien van LLMs, ook op kleine apparaten zoals een Raspberry PI of een telefoon, mogelijk maken.”
Niet state-of-the-art
Vanroy duidt de creatie van Fietje nog verder in een reactie onder het Tweakers-nieuwsbericht. “Ik vreesde al dat gebruikers de vergelijking zouden maken met andere, krachtigere modellen.” Dat vindt de onderzoeker begrijpelijk, maar hij benadrukt dat dit niet het doel is van Fietje. “De bedoeling is NIET om een nieuwe state-of-the-art vast te leggen, dat kan ook gewoon niet met deze grootte.”
In plaats daarvan zocht Vanroy naar de juiste balans tussen prestaties en een zo klein mogelijk formaat. Fietje vult desondanks weldegelijk een andere niche: een model dat specifiek gericht is op de Nederlandse taal. Een ander project met dit doel is GPT-NL, mede opgezet door TNO en ICT-coöperatie SURF. Echter is daar nog geen eindproduct van beschikbaar.
Vanroy hoopt met Fietje “community-building” en transparantie te bevorderen. “Daarom zijn mijn datasets, modellen, trainingscode, trainingslog allemaal openbaar en voor iedereen beschikbaar in de hoop om andere onderzoekers te motiveren om even transparant te zijn, en samen te werken aan betere taaltechnologie voor het Nederlands.”