Normalization and parsing algorithms for uncertain input

Promotie:	Dhr. R.M. (Rob) van der Goot
Wanneer:	04 april 2019
Aanvang:	14:30
Promotors:	prof. dr. G.J.M. (Gertjan) van Noord, M. (Malvina) Nissim, Prof
Waar:	Academiegebouw RUG
Faculteit:	Letteren

Computer vertaalt taal op social media naar normale taal

Een tweet met daarin ‘kheb da gezien’. Als lezer weet je wat er bedoeld wordt, maar een computer heeft moeite dit te begrijpen. In social media komen veel taalkundige fenomenen voor die niet tot de standaardtaal behoren. Dankzij promovendus Rob van der Goot is het nu een stuk gemakkelijker zulke afwijkende teksten te analyseren met een computer. Hij heeft een systeem ontworpen om teksten op social media te ‘normaliseren’, zodat de computer het daarna goed kan ontleden en interpreteren.

Het automatisch ontleden van natuurlijke taal is een belangrijk onderdeel van veel applicaties voor natuurlijke taalverwerking (zoekmachines, automatische vertaling, spraakherkenning, etc.), omdat het de eerste stap is naar interpretatie. Voor standaardteksten, zoals nieuwsartikelen, werken automatische ontleders al erg goed. Maar voor user-generated content, zoals teksten op social media, werken deze ontleders veel slechter.

Van der Goot heeft voor zijn promotieonderzoek geprobeerd om de automatische analyse van spontane taal te verbeteren door het te vertalen naar 'normale' taal. Deze vertaling wordt ook 'normalisatie' genoemd. Bijvoorbeeld de zin "kheb da gezien" wordt vertaald naar "ik heb dat gezien". In deze voorbeeldzin komen verschillende fenomenen voor: 'kheb' is samengesteld uit twee woorden, voor 'k' is de eerste klinker weggelaten, bij 'da' is de laatste medeklinker weggelaten. Gebaseerd op de observatie dat het normalisatieprobleem uit een verscheidenheid van sub-problemen bestaat, heeft Van der Goot een modulair normalisatiesysteem ontworpen: MoNoise. Dit normalisatiemodel behaalt een nieuwe state-of-the-art score voor een verscheidenheid aan talen.

‘Als we dit normalisatiesysteem om tekst te normaliseren gebruiken voordat we de tekst ontleden, zien we dat de ontleders betere analyses genereren. In deze basissetup wordt alleen de beste normalisatiekandidaat aan de ontleder doorgegeven, inclusief eventuele fouten,’ aldus Van der Goot. ‘Om dit te voorkomen introduceer ik twee nieuwe technieken om de normalisatie te integreren in de ontleder. Dit leidt tot een verdere verbeteringen.’

Zie ook de demo op de site van Van der Goot.

Proefschrift: http://hdl.handle.net/11370/d932190d-3917-486f-b5a6-4f45e0ca243e