Samenwerking Hugging Face en AWS belooft pakketvoordeel bij AI-ontwikkeling

Samenwerking Hugging Face en AWS belooft pakketvoordeel bij AI-ontwikkeling

Gebruikers van AI-hub Hugging Face kunnen nu makkelijker AWS Inferentia2 AI-accelerators gebruiken voor het draaien van hun LLM’s. Dit via AWS Sagemaker of met dedicated EC2-instances. Volgens beide partijen brengt dit voor AI-ontwikkelaars meer efficiency en lagere operationele kosten met zich mee.

Dankzij de aangekondigde samenwerking kunnen AI-ontwikkelaars die de talloze LLM’s aanwezig in Hugging Face gebruiken voor het ontwikkelen van eigen modellen, nu ook in de productiefase draaien op de Inferentia2 AI-accelerator van AWS.

Volgens Hugging Face en AWS biedt dit AI-ontwikkelaars vooral meer efficiency en ook kostenbeparingen. De AWS Inferentia2-processors zouden vooral geschikt zijn voor de vele inference-handelingen die LLM’s uitvoeren in de productiefase.

Daarnaast hoopt AWS met deze samenwerking natuurlijk ook dat meer AI-ontwikkelaars zijn cloudomgeving voor het ontwikkelen van dergelijke modellen gaan gebruiken. Met andere woorden: voordelen voor alle betrokken partijen, zo is de belofte.

Voortborduren op eerdere samenwerking

Meer specifiek kunnen gebruikers van Hugging Face deze speciale AI-acceleratorprocessors gebruiken via een tweetal opties. De eerste optie bouwt voort op de eerder dit jaar aangekondigde samenwerking tussen beide partijen waarbij cloud-based machine-learningplatform AWS Sagemaker een rol speelt. Hierbij kan een LLM als Meta’s LLama 3 via deze tool voor inference-taken op AWS Inferentia2-accelerators draaien. In de nieuwe constellatie is deze functionaliteit nu uitgebreid naar meer dan 100.000 publieke LLMs, waaronder 14 LLM-architecturen.

De tweede aangeboden optie, vooral voor het gebruik van Llama 3, is het uitrollen van LLM’s via de Hugging Face Inference Endpoints-oplossing. Hierbij kunnen eindgebruikers hun LLM’s uitrollen met specifieke AWS Inferentia2 EC2-instances.

Bij deze optie gebruikt de Hugging Face Inference Endpoints-oplossing zogenoemde Text Generation Inference for Neuron (TGI)-technologie om LLama 3 op de AWS Inferentia2-accelerator te draaien. Deze technologie is speciaal ontwikkeld voor het op grote schaal ondersteunen van LLM’s voor productieworkloads. Dit onder meer met continuous batching- en streaming-functionaliteit. De kosten worden per capaciteit/seconde afgerekend en op basis van op- en afschalen.

Twee smaken

Voor het uitrollen van hun LLM’s, vooral voor Llama 3, via de AWS EC2-optie krijgen gebruikers wederom twee opties, een goedkopere en een duurdere. In de eerste plaats een AWS EC2 Inf2-small instance met twee cores en 32 GB aan geheugen. Deze is volgens Hugging Face uitstekend geschikt voor gebruik met Llama 3 8B en kost 0,75 dollarcent per uur.

De tweede optie is Inf2-xlarge EC2-instance met 24 cores en 384 GB aan geheugen. Deze optie is zeer geschikt voor gebruik in combinatie met Llama 3 70B. De kosten hiervan zijn 12 dollar per uur aan gebruik.

Lees ook: Meta onthult krachtig open-source model Llama 3 en chatbot Meta AI