Domain adaptation for parsing
Promotie: mw. B. Plank, 12.45 uur, Aula Academiegebouw, Broerstraat 5, Groningen
Proefschrift: Domain adaptation for parsing
Promotor(s): prof.dr. G.J.M. van Noord, prof.dr.ir. J. Nerbonne
Faculteit: Letteren
Onderzoek naar domeinafhankelijkheid van automatische ontleedsystemen
Het doel van de computationele taalkunde is het maken van systemen die in staat zijn natuurlijke taal te begrijpen en te produceren, net zoals mensen dat doen. Het maken van dergelijke systemen is moeilijk, onder andere vanwege het probleem van de ambiguïteit van natuurlijke taal. Barbara Plank onderzocht het automatisch ontleden, het bepalen van welke woorden en woordgroepen bij elkaar horen, en wat de functie van de verschillende woordgroepen is. Het probleem van ambiguïteit doet zich ook hier voor omdat er vaak meerdere ontledingen bestaan voor een uiting.
Om het probleem van ambiguïteit aan te pakken wordt veelal gebruik gemaakt van machinaal leren. Een model wordt geleerd door parameters te berekenen op basis van soms wel duizenden kenmerken van de trainingsdata. Die data bestaan uit duizenden zinnen waarvoor de correcte ontleding handmatig is vastgelegd. Het blijkt dat deze aanpak voor het automatisch ontleden goede resultaten geeft zolang de trainingsdata representatief zijn. Als de data bestaan uit krantenartikelen uit de Volkskrant dan zal het resulterende model vooral goede prestaties halen op andere krantenartikelen uit de Volkskrant. Maar als het model wordt toegepast op bijvoorbeeld een wetenschappelijk essay over oceanografie, dan worden de prestaties snel veel minder. Automatische ontleedsystemen zijn dus sterk afhankelijk van het domein van de teksten waaruit de trainingsdata is opgebouwd.
Plank beschrijft deze domeinafhankelijkheid van automatische ontleedsystemen. Na een inleiding in het automatisch ontleden en het probleem van domeinafhankelijkheid gaat ze in op de effectiviteit van nieuwe en bestaande algoritmes voor het aanpassen van modellen aan andere domeinen. Deze worden geëvalueerd in het kader van een automatisch ontleedsysteem voor het Nederlands dat gebaseerd is op een handgeschreven grammatica, de Alpino parser. Eerder werk was gericht op domeinafhankelijkheid van ontleedsystemen die in zijn geheel zijn gebaseerd op data (datagedreven ontleedsystemen). Ook bekijkt Plank de gevoeligheid van verschillende soorten ontleedsystemen op domeinverschuivingen. Ze test de hypothese dat het grammatica-gebaseerde systeem Alpino minder beïnvloed wordt door domeinverschuivingen en dat datagebaseerde systemen meer behoefte hebben aan technieken voor aanpassing aan nieuwe domeinen. Vervolgens ontwikkelt Plank een meetinstrument om aan te geven in hoeverre twee teksten tot een verschillend of juist tot een vergelijkbaar domein behoren. De meeste studies nemen aan dat er data van het nieuwe domein ter beschikking staan. Dit is echter niet altijd het geval. Daarom evalueert ze maten om automatisch geschikte trainingsdata te selecteren voor een nieuw domein. De resultaten tonen aan dat een eenvoudige techniek gebaseerd op frequenties van woorden effectief is voor het selecteren van trainingsdata voor beide onderzochte talen, het Engels en het Nederlands.
Barbara Plank (Italië, 1983) studeerde Language and Communication Technologies aan de Universiteit van Amsterdam en de Vrije Universiteit in Bolzano, Italië. Ze verrichtte haar onderzoek bij de vakgroep Computational Linguistics van het Center for Language and Cognition Groningen aan de Faculteit der Letteren, RUG. Plank werkt als postdoc aan de Universiteit van Trento, Italië.
Laatst gewijzigd: | 13 maart 2020 01:09 |
Meer nieuws
-
01 mei 2025
AI en vrijheid van meningsuiting
Zaterdag 3 mei is de Internationale Dag van de Persvrijheid. Een dag om ons bewust te zijn van het belang van persvrijheid en van onze plicht om die vrijheid van meningsuiting te respecteren en te beschermen. Die bewustwording is geen overbodige luxe...
-
22 april 2025
Liekuut | De Verenigde Staten zijn altijd al minder democratisch geweest dan we denken
De vurigheid waarmee Donald Trump de Amerikaanse democratie aan het uithollen is, lijkt nooit eerder te zijn voorgekomen. In het verleden hebben presidenten wel vaker hun macht aangewend om presidentiële decreten uit te vaardigen, maar niet in het...
-
24 maart 2025
RUG 28e in World’s Most International Universities 2025 ranglijst
De Rijksuniversiteit Groningen is door Times Higher Education gerangschikt op de 28e plek in de World’s Most International Universities 2025 ranglijst. Daarmee laat de RUG instellingen als MIT en Harvard achter zich. De 28e plek betekent een stijging...