VASA-1-model van Microsoft laat foto’s praten

Microsoft heeft onlangs een onderzoek gepubliceerd waarin het bedrijf het AI-model VASA-1 presenteerde. Dit model laat met behulp van portretfoto’s en daaraan gekoppelde audiobestanden realistische ‘talking heads’ zien. Deze technologie biedt creatieve opties, maar brengt serieuze risico’s met zich mee.

Het VASA-1 AI-model bevindt zich nog in een onderzoeksfase. Microsoft laat al wel zien dat het portretfoto’s van personen in combinatie met audiobestanden ‘realistisch’ kan laten praten. De getoonde gezichtsuitdrukkingen zijn contextgevoelig, waardoor ze zich aanpassen aan de geconstateerde toon van de audio.

Zeer realistisch

De personen in de gebruikte portretfoto’s hoeven niet direct in de camera te kijken. Daarnaast beschikt het AI-model over veel mogelijkheden zoals het bepalen van de blik van de ogen, de afstand tot het hoofd en zelfs van emotionele uitdrukkingen.

Hierdoor krijgen de bewerkte beelden een zeer realistische ‘look and feel’ als zij lijken te praten, stelt Microsoft. Met de technologie zijn deze ‘pratende foto’s’ onder meer in staat liedjes te zingen.

Volgens Microsoft is VASA-1 speciaal ontworpen voor het animeren van virtuele karakters. De beelden die de techreus bij het onderzoek heeft uitgebracht zouden virtuele voorbeelden zijn die zijn aangemaakt met DALL-E van OpenAI.

Collage van verschillende gezichtsuitdrukkingen van meerdere individuen, die emoties zoals vreugde, verwarring en verrassing demonstreren, voor een visuele audiosynchronisatieanalyse.

Use cases en serieuze risico’s

De nieuwe technologie biedt vanzelfsprekend veel mogelijke toepassingen. Vanzelfsprekend kan het gebruikt worden voor het ontwikkelen van meer realistische AI-karakters, compleet met ‘normale’ lipsynchronisatie en gezichtsuitdrukkingen voor meer diepgang. Ook is het het hierdoor mogelijk om avatars aan te maken voor social media-video’s. Microsoft bedacht zelf om ook de Mona Lisa te laten zingen als frappant voorbeeld voor de zeer gevarieerde manieren waarop de technologie gebruikt kan worden.

Toch zijn er ook risico’s aan deze nieuwe AI-technologie verbonden. Als de technologie publiekelijk beschikbaar was, kon het direct leiden tot veel overtuigendere deepfakes. Juist het mogelijk kwaadwillig gebruiken van de technologie is voor Microsoft een reden om de specifieke details van VASA-1 voorlopig nog voor zichzelf te houden. Daarbij waarschuwen de onderzoekers ervoor dat hoewel de technologie goede bedoelingen heeft voor vooral de creatieve sector, de gevaren voor misbruik zeer zeker op de loer liggen.

Keuze van de redactie

Insight: IT in Retail

Top story

NetSuite maakt platform efficiënter met doelgerichte AI

Organisaties sneller laten innoveren

Coen van Eenbergen 1 april 2025

Tech calendar

Whitepapers

VASA-1-model van Microsoft laat foto’s praten

Zeer realistisch

Use cases en serieuze risico’s

Blijf op de hoogte, abonneer!

Tech-aandelen schieten omhoog na verlaging Trump-tarieven

Datalek bij ministeries veroorzaakt door foutief uploaden documenten

Einde support van Exchange 2016 en 2019 nadert, opvolger laat op zich wachten

Groot datalek treft meerdere Nederlandse ministeries, impact nog onduidelijk

Aanbieder van e-commerceoplossingen zet eigen portfolio in de etalage

Freshworks: AI moet direct te gebruiken zijn en de business ondersteunen

Manhattan Associates levert supply chain-software, is het meer dan een fancy naam?

Slimme camera’s schudden retail op

VeeamON 2025

GITEX ASIA

SAS Innovate 2025

.NEXT 2025

LambdaConf 2025

Qlik Connect 2025

Cloud Account Executive – Slack

AI & Data Architect

Probeer gratis het nieuwste high-end Synology backup-systeem

Versterk je cybersecurity met DNS best practices

Navigeren door technologische ontwrichting

Hoe selecteer je het juiste ERP-systeem?