AI van IBM genereert stem op basis van korte gesprekken

Onderzoekers van IBM hebben een nieuwe lichtgewicht en modulaire methode ontwikkeld voor het genereren van spraak. Volgens de onderzoekers is het nu moeilijk om spraak van hoge kwaliteit in real-time te genereren, door verschillende aspecten van de stem van een spreker aan te leren.

Met de methode wordt het dus mogelijk om modellen aan te passen op nieuwe spraakstijlen en stemmen, aan de hand van kleine hoeveelheden data. Dat meldt Venturebeat.

Dat is een grote doorbraak, aangezien de meeste Text-to-Speech (TTS) systemen grote en complexe neural network-modellen nodig hebben om spraak van hoge kwaliteit te produceren, vertellen onderzoekers Zvi Kons, Slava Shechtman en Alex Sorin.

Die modellen zijn moeilijk om te trainen en maken het niet mogelijk om in real-time spraak te genereren, zelfs wanneer er GPU’s worden ingezet. “Om die uitdagingen aan te pakken heeft ons team een nieuwe methode ontwikkeld voor neural speech synthesis, op basis van een modulaire architectuur.”

Drie verbonden delen

Het team van IBM heeft een systeem gemaakt dat bestaat uit drie onderling verbonden delen. Het gaat om een prosody feature predictor, een acoustic feature predictor en een neural vocoder.

De prosody prediction leert over de duur, hoogte en energie van de spraakmonsters, om zo de stijl van de spreker beter te representeren. De akoestische functie maakt representaties van de stem van de spreker in de training of adaptation data. De vocoder genereert tot slot spraakmonsters van de akoestische functies.

Al die componenten werken samen om een gesynthetiseerde stem aan te passen via retraining, op basis van een kleine hoeveelheid data van de spreker.

Vijf minuten

De onderzoekers hebben de methode ook getest. Daarbij vroegen ze vrijwilligers om paren van gegenereerde en natuurlijke spraakmonsters te beluisteren en de kwaliteit hiervan de bepalen. Volgens het team behoudt het model hoge kwaliteit en vergelijkbaarheid met de originele spreker nog bij stemmen die getraind zijn op slechts vijf minuten aan spraak.

Het onderzoek is de basis voor de nieuwe Watson TTS-dienst van IBM.

Keuze van de redactie

CVE-database MITRE op allerlaatste moment gered

De Amerikaanse overheid verlengt de financiering voor de Common Vulne...

Insight: SentinelOne

Lees meer over Analytics

Top story

Synthetische data en het gevaar van ‘model collapse’

Nvidia heeft start-up Gretel, gespecialiseerd in synthetische data, gekocht. Als onderdeel van 's werelds gro...

Erik van Klinken 21 maart 2025

Tech calendar

AI van IBM genereert stem op basis van korte gesprekken

Drie verbonden delen

Vijf minuten

Blijf op de hoogte, abonneer!

OpenAI lanceert GPT-4.1 modellen, met focus op ontwikkelen

Gaat AI de software ontwikkelaar helpen of vervangen?

CVE-database MITRE op het nippertje gered van de ondergang

CVE-database MITRE op allerlaatste moment gered

CyberArk en SentinelOne bundelen krachten voor betere identiteitsecurity

SentinelOne promoveert Purple AI van security-assistent naar autonome SOC-analist

SentinelOne brengt het autonome SOC een stap dichterbij

VeeamON 2025

GITEX ASIA

SAS Innovate 2025

.NEXT 2025

LambdaConf 2025

Qlik Connect 2025

Probeer gratis het nieuwste high-end Synology backup-systeem

Versterk je cybersecurity met DNS best practices

Navigeren door technologische ontwrichting

Hoe selecteer je het juiste ERP-systeem?

Cloud Account Executive – Slack

AI & Data Architect