Skip to ContentSkip to Navigation
Over ons Actueel Evenementen Promoties

A bigger fish to fry

Scaling up the Automatic Understanding of Idiomatic Expressions
Promotie:Dhr. H. (Hessel) Haagsma
Wanneer:03 september 2020
Aanvang:16:15
Promotors:prof. dr. J. (Johan) Bos, M. (Malvina) Nissim, Prof
Waar:Academiegebouw RUG
Faculteit:Letteren
A bigger fish to fry

Creëren grote dataset met potentieel idiomatische uitdrukkingen is mogelijk

Hessel Haagsma heeft voor zijn promotie idiomatische uitdrukkingen in het Engels onderzocht en hoe deze binnen de natuurlijke taalverwerking moeten worden behandeld. Idiomatische uitdrukkingen zijn woordgroepen met een betekenis die niet direct gebaseerd is op de betekenis van de losse woorden, bijvoorbeeld 'aan het kortste eind trekken'.

Haagsma geeft in zijn proefschrift een overzicht van bestaand onderzoek naar idiomen dat gedaan is op basis van grote tekstverzamelingen en onderzoek naar de automatische verwerking van idiomen. Vervolgens richt hij zich op het maken van een systeem om automatisch mogelijke idiomen uit tekst te halen en gebruikt hij dit systeem bij het bouwen van een grote idiomendataset met behulp van crowdsourcing. Tot slot kijkt Haagsma naar zowel 'unsupervised' als 'supervised' methodes voor het interpreteren van idiomatische uitdrukkingen. Hij verbetert een bestaand unsupervised systeem en vergelijkt dit met andere bestaande systemen. Gezien de relatief slechte prestaties van dit systeem ontwikkelt hij daarnaast een supervised model gebaseerd op diepe neurale netwerken. Hieruit blijkt dat een model met twee afzonderlijke modules, die elk naar verschillende informatiebronnen kijken, het best presteert.

Al met al laat dit werk de haalbaarheid van het creëren van een grote dataset met potentieel idiomatische uitdrukkingen zien en de voordelen die zo’n dataset biedt voor verder onderzoek. Het biedt de mogelijkheid om snel theorieën over idiomen te testen, het maakt het mogelijk om data-verslindende methoden zoals diepe neurale netwerken te gebruiken en het zorgt ervoor dat systemen voor het interpreteren van idiomen uitgebreider en nauwkeurig geëvalueerd kunnen worden.