AI & Taal - Hey Siri, kloon mijn stem!

Jouw stem klonen was nooit eenvoudiger!

… maar is dat wel zo’n goed idee?

Het duurt maar een tiental minuten. Je leest een script zorgvuldig voor met een microfoon of je laadt een bestaande opname in (bijvoorbeld de stem van David Attenborough). Je tikt een zelfgekozen zin in en daarna even geduld en ... bingo! Plots hoor je daar de ietwat robotachtige stem die akelig lijkt op de jouwe. Of die van David Attenborough. AI-David in dat geval, want je gebruikte net een AI-model om te spreken zoals jij dat doet. Het klonen van jouw stem was nooit eenvoudiger. Maar wat kan je ermee doen? Wil je dat wel? Wat zijn de gevaren en valkuilen?

Waarvoor zou ik dat gebruiken?

Jouw eigen slimme assistent of chatbot

Siri, Google, Cortana of Alexa ken je misschien al wel. Digitale spraakassistenten die ons helpen bij het afspelen van muziek, aan- en uitschakelen van lampen, timers zetten in de keuken ... Je kan ze instellen met een hele selectie aan stemmen in diverse talen.

Maar wat als je jouw eigen stem kon kiezen? Wat als je de digitale assistent zo kon trainen dat die reageert zoals jij zou spreken? Klinkt best freaky, maar louter technisch gezien zou het mogelijk zijn.

Een boek voorlezen

Fan van audioboeken maar zou je zelf graag een maken? Zoiets vergt uren tijd om allemaal in te spreken! Maar stel je voor dat je het boek, stukken tekst dus, gewoon kon invoeren in een programma. Een programma met een AI-model welke getraind is op jouw stem. Het programma zet de tekst om naar spraak via een ‘Text-To-Speech’ of ‘TTS’ systeem. Ineens hoor je het verhaal verteld worden door jouw stem!

Jouw ingame avatar lijkt op- én klinkt als jou!

Bij het starten van een videogame, zeker bij role playing games, krijg je de optie om jouw eigen personage te maken. Jouw eigen avatar. Je kiest zelf hoe je eruit ziet ingame, en kan jouw avatar op jou laten lijken. Zo een avatars, zeker in een RPG, hebben een voorgeprogrammeerde stem of helemaal geen stem. Stel je voor dat je jouw eigen stem kon inladen. Een avatar maken die niet alleen lijkt op jou, maar ook klinkt zoals jij doet!

Ben je bekend? Populair? Jouw stem as a service!

Je kent wellicht een bekende stemacteur, of bent er heel misschien zelf eentje! Deze stemacteurs worden vaak gevraagd om een stukje tekst in te spreken, bijvoorbeeld voor een radiospot of een heuse Disney animatiefilm. Stel je voor dat die stemacteurs niet voor elke film, voor elk spotje of voor elke opname, moeten afzakken naar de studio? Stel je voor dat we voldoende opnames hebben zodat we een AI-model kunnen bouwen op basis van die stem! Dat je jouw stem kan inzetten als een soort licentie en nooit nog een dag in jouw leven moet spenderen met het inspreken van een nieuw spotje voor een of andere winkelketen!

Maar … Is jouw stem nog echt van jou en zijn alle stemacteurs binnenkort werkloos?

Voorgaande klinkt als luilekkerland voor sommige stemacteurs, maar brengt ons wel bij een fundamentele vraag: wie is eigenaar van jouw stem, mag je wel zomaar een AI-model maken van iemands stem, en wat is een faire verloning voor een stemacteur?

Na de lancering van Siri van Apple, kwam er ook een Nederlandstalige (Vlaamse) stem uit voor de dienst. De persoon, Libelia Desplenter, die deze stem had ingesproken voor het bedrijf Lernout & Hauspie, wist van niets. Ze had een jaren voordien een reeks stemmen opgenomen, werd daarvoor betaald ... de kous leek af. Blijkbaar werden die opnames later verkocht en gebruikt om het stemmodel te trainen voor Siri, welke gebruikt kan worden op miljoenen toestellen. Werd die persoon wel adequaat vergoed? En wat als je gewoon een stemopname kan vinden op het internet en die gebruiken voor jouw AI-model?

Achter de AI-schermen!

Wanneer we denken aan stemacteurs en de systemen achter Siri of Alexa, steekt daar enorm veel rekenkracht en geld achter. Het AI-model dat hier vaak voor wordt gebruikt is een Text To Speech model, kortweg TTS. Zo een systeem zet geschreven tekst om naar gesproken tekst. Klinkt vrij simpel in theorie, maar dat is sneller ... gezegd ... dan gedaan. Om een goed TTS-systeem te maken, hebben we enkele zaken nodig:

De stemacteurs voor zo'n systemen spenderen uren in een studio waar ze de meest diverse zinnen moeten inspreken. Deze zinnen vormen samen de dataset waarop het AI-model zal trainen;
Een AI-model wordt getraind met een grote hoeveelheid rekenkracht, gedurende een lange periode. Vaak wordt dit gedaan op servers in datacenters;
Eenmaal gemaakt, moet dat model over zoveel rekenkracht beschikken dat het heel snel jouw audiocommando kan inlezen, omzetten naar tekst, begrijpen, een antwoord formuleren en terugzenden.

Wij in de klas hebben zoveel tijd, geld en middelen niet. Wij pakken het dus anders aan!

Onze aanpak moet:

Te draaien zijn op een laptop of een smartphone;
Opnames kunnen gemaakt worden met de microfoon van een laptop, zonder in een studio te duiken;
Werken zonder uren en uren aan opgenomen spraak;
Binnen enkele seconden of minuten resultaat opleveren.

We zullen in dit geval werken met een zero-shot aanpak. Dit wil zeggen: het AI-model zal vooraf niet getraind worden op onze spraak. Het resultaat zal met deze aanpak niet even goed zijn als een Siri of Alexa, maar wel te bereiken met een fractie van de middelen!

Aan de slag!

AI Dialoogje

Stel je een gesprek voor op de speelplaats, een bestelling bij de bakker of een gesprek in de winkel. Alleen hebben deze gesprekken nooit plaatsgevonden! Deze gesprekken zijn gemaakt door AI-modellen. Leerlingen gingen aan de slag, schreven een kort eigen dialoogje, maakten klonen van hun stem en lieten deze kopieën het woord voeren. Letterlijk! Het resultaat zie en hoor je hieronder.

Vragen, opmerkingen …?

Heb je vragen over dit onderwijsproject of andere? Dan is er maar één adres:

Contact

AI & TAAL - Hey Siri, kloon mijn stem!