Praat mar Frysk (mei amper data): speech synthesis for low-resource languages with cross-lingual transfer learning

Kunstmatig spraaksysteem voor het Fries met ‘cross-lingual transfer learning’
Text-to-Speech (TTS) is een kunstmatig spraaksysteem dat wordt gebruikt in digitale assistenten als Siri en Alexa, toegankelijkheidstools en toepassingen om een taal te leren. Sprekers van grote talen als het Engels en Chinees kunnen ervan profiteren, omdat grote spraakcorpora met opnames van hoge kwaliteit beschikbaar zijn, waarmee TTS wordt getraind. Dat is niet het geval bij ‘low-resource languages’ (LRLs), als het Urdu, Swahili of Oezbeeks. Phat Do onderzocht of cross-lingual transfer learning een oplossing is voor het ontwikkelen van Tekst-to-Speech voor het Fries. Het resultaat is open-source Fries TTS-model dat iedereen kan gebruiken: https://phat-do.github.io/Frysk-TTS.
Cross-lingual transfer betekent dat een TTS-systeem eerst wordt getraind op een brontaal met overvloedige data (zoals Engels), voordat het wordt aangepast aan de LRL met behulp van een kleine dataset. In zijn project werkte Phat Do aan de best practices voor deze aanpak. Ten eerste is onderzocht hoe de brontaal het beste kan worden geselecteerd. Ten tweede is gekeken hoe je het beste kunt omgaan met de verschillende klanksystemen van talen. Ten derde is onderzocht hoe de kwaliteit van TTS efficiënt kan worden geëvalueerd met minder menselijke inspanning. Tot slot is er geëxperimenteerd met het omzeilen van het gebrek aan een uitspraakwoordenboek, dat vaak ontbreekt bij LRLs.
De bevindingen werden ook gevalideerd met andere LRLs: Bulgaars, Georgisch, Kazachs, Swahili, Urdu en Oezbeeks. De veelbelovende resultaten van het project dragen bij aan het toegankelijker maken van moderne TTS van hoge kwaliteit voor LRLs en verbeteren de inclusiviteit van taaltechnologie in onze steeds digitalere wereld.