Redeneermodellen zijn er al, maar komen met een ongunstig effect. Doordat problemen worden opgedeeld en in aparte blokken worden behandeld, lopen de kosten van deze modellen namelijk snel op. Onderzoekers hebben een nieuwe methode gevonden om het model budgetbeperkingen op te leggen en niet in te boeten aan kwaliteit.
Onderzoekers van het Amerikaanse Carnegie Mellon University hebben een nieuwe techniek gevonden om de kosten van redeneermodellen te kunnen drukken. De methode moet wel al tijdens de ontwikkeling van het model worden toegepast.
LCPO
Ontwikkelaars van AI-modellen kunnen de techniek length controlled policy optimization (LCPO) inzetten om de gedachten van deze LLM’s te kunnen beperken. De sterkte van redeneermodellen ligt alleen net in het langer nadenken en separaat behandelen van verschillende delen van de informatie. Volgens de onderzoekers daalt het niveau van het antwoord niet terug naar LLM’s die de redeneerstap overslaan.
De gedachte van de LLM wordt beperkt door het model een maximum aantal tokens te geven waarbinnen het antwoord moet worden gevonden. Een goed antwoord, maar met inzet van teveel tokens, resulteert in een straf. Het model moet dan een nieuw redeneerplan opstellen dat past binnen het aantal opgegeven tokens.
Voor het onderzoek werden de modellen L1-max en L1-exact gecreëerd. Deze redeneermodellen bevatten 1,5 miljard parameters. “Voor zover wij weten is dit de eerste demonstratie dat een 1,5B-model beter kan presteren dan frontiermodellen zoals GPT-4o, ondanks dat dezelfde generatielengte wordt gebruikt”, schrijven de onderzoekers. Het gaat om een winst van twee procent.
Tip! Claude 3.7 Sonnet denkt langer na als de gebruiker het wil