2min Devops

Docker Model Runner maakt lokaal draaien LLM’s eenvoudiger

Docker Model Runner maakt lokaal draaien LLM’s eenvoudiger

Docker introduceert Model Runner in bèta voor macOS op Apple silicon. Daardoor kunnen ontwikkelaars eenvoudig lokaal met Large Language Models (LLM’s) werken.

Het lokaal draaien van LLM’s is voor veel ontwikkelaars nog steeds een uitdaging. Tussen het kiezen van het juiste model, het omgaan met hardwarebeperkingen en het optimaliseren van prestaties, kunnen ontwikkelaars vastlopen voordat ze überhaupt kunnen beginnen met bouwen. Docker Model Runner wil hier verandering in brengen. De nieuwe tool, die standaard beschikbaar is in Docker Desktop 4.40, belooft het mogelijk te maken AI-modellen zonder complexe setup te draaien via een OpenAI-compatibele API en biedt GPU-versnelling op Apple-hardware.

Wat maakt Model Runner bijzonder?

In de initiële bètaversie van Docker Model Runner biedt het een geïntegreerde engine bovenop llama.cpp, toegankelijk via een OpenAI-compatibele API. Dit betekent dat bestaande code die werkt met OpenAI’s API eenvoudig kan worden aangepast om lokaal te draaien met Model Runner.

Een belangrijk voordeel is de GPU-versnelling op Apple silicon. Door de inferentie-engine direct als hostproces uit te voeren, kan Model Runner optimaal gebruikmaken van de grafische capaciteiten van Apple’s hardware. Daarnaast zijn de modellen verpakt als standaard OCI-artefacten, waardoor ze gemakkelijk te distribueren en hergebruiken zijn via bestaande Container Registry-infrastructuur.

Aan de slag met Model Runner

Docker Model Runner is standaard ingeschakeld in Docker Desktop 4.40 voor macOS op Apple silicon. Mocht je de functie hebben uitgeschakeld, dan kun je deze opnieuw activeren met één simpel commando: docker desktop enable model-runner.

Standaard is Model Runner alleen toegankelijk via de Docker-socket op de host of via het speciale endpoint model-runner.docker.internal voor containers. Voor wie de functie via TCP wil gebruiken vanuit een hostproces, bijvoorbeeld om een OpenAI SDK direct te verbinden, kan Model Runner ook inschakelen met een specifieke poort: docker desktop enable model-runner –tcp 12434.

Docker Model Runner bevindt zich nog in de bètafase, maar belooft al een vereenvoudigde manier om lokaal met AI-modellen te experimenteren en te ontwikkelen.

Tip: Docker onthult Docker Enterprise 3.0 en Docker Applications