Skip to ContentSkip to Navigation
Over ons Actueel Nieuws Nieuwsberichten

Domain adaptation for parsing

08 december 2011

Promotie: mw. B. Plank, 12.45 uur, Aula Academiegebouw, Broerstraat 5, Groningen

Proefschrift: Domain adaptation for parsing

Promotor(s): prof.dr. G.J.M. van Noord, prof.dr.ir. J. Nerbonne

Faculteit: Letteren

Onderzoek naar domeinafhankelijkheid van automatische ontleedsystemen

Het doel van de computationele taalkunde is het maken van systemen die in staat zijn natuurlijke taal te begrijpen en te produceren, net zoals mensen dat doen. Het maken van dergelijke systemen is moeilijk, onder andere vanwege het probleem van de ambiguïteit van natuurlijke taal. Barbara Plank onderzocht het automatisch ontleden, het bepalen van welke woorden en woordgroepen bij elkaar horen, en wat de functie van de verschillende woordgroepen is. Het probleem van ambiguïteit doet zich ook hier voor omdat er vaak meerdere ontledingen bestaan voor een uiting.

Om het probleem van ambiguïteit aan te pakken wordt veelal gebruik gemaakt van machinaal leren. Een model wordt geleerd door parameters te berekenen op basis van soms wel duizenden kenmerken van de trainingsdata. Die data bestaan uit duizenden zinnen waarvoor de correcte ontleding handmatig is vastgelegd. Het blijkt dat deze aanpak voor het automatisch ontleden goede resultaten geeft zolang de trainingsdata representatief zijn. Als de data bestaan uit krantenartikelen uit de Volkskrant dan zal het resulterende model vooral goede prestaties halen op andere krantenartikelen uit de Volkskrant. Maar als het model wordt toegepast op bijvoorbeeld een wetenschappelijk essay over oceanografie, dan worden de prestaties snel veel minder. Automatische ontleedsystemen zijn dus sterk afhankelijk van het domein van de teksten waaruit de trainingsdata is opgebouwd.

Plank beschrijft deze domeinafhankelijkheid van automatische ontleedsystemen. Na een inleiding in het automatisch ontleden en het probleem van domeinafhankelijkheid gaat ze in op de effectiviteit van nieuwe en bestaande algoritmes voor het aanpassen van modellen aan andere domeinen. Deze worden geëvalueerd in het kader van een automatisch ontleedsysteem voor het Nederlands dat gebaseerd is op een handgeschreven grammatica, de Alpino parser. Eerder werk was gericht op domeinafhankelijkheid van ontleedsystemen die in zijn geheel zijn gebaseerd op data (datagedreven ontleedsystemen). Ook bekijkt Plank de gevoeligheid van verschillende soorten ontleedsystemen op domeinverschuivingen. Ze test de hypothese dat het grammatica-gebaseerde systeem Alpino minder beïnvloed wordt door domeinverschuivingen en dat datagebaseerde systemen meer behoefte hebben aan technieken voor aanpassing aan nieuwe domeinen. Vervolgens ontwikkelt Plank een meetinstrument om aan te geven in hoeverre twee teksten tot een verschillend of juist tot een vergelijkbaar domein behoren. De meeste studies nemen aan dat er data van het nieuwe domein ter beschikking staan. Dit is echter niet altijd het geval. Daarom evalueert ze maten om automatisch geschikte trainingsdata te selecteren voor een nieuw domein. De resultaten tonen aan dat een eenvoudige techniek gebaseerd op frequenties van woorden effectief is voor het selecteren van trainingsdata voor beide onderzochte talen, het Engels en het Nederlands.

Barbara Plank (Italië, 1983) studeerde Language and Communication Technologies aan de Universiteit van Amsterdam en de Vrije Universiteit in Bolzano, Italië. Ze verrichtte haar onderzoek bij de vakgroep Computational Linguistics van het Center for Language and Cognition Groningen aan de Faculteit der Letteren, RUG. Plank werkt als postdoc aan de Universiteit van Trento, Italië.

Laatst gewijzigd:13 maart 2020 01:09
View this page in: English

Meer nieuws

  • 16 april 2024

    Rijksuniversiteit Groningen ondertekent Barcelona Declaration on Open Research Information

    De Rijksuniversiteit Groningen heeft de Barcelona Declaration on Open Research Information (Verklaring Open Onderzoeksinformatie) officieel ondertekend. Dit wordt gezien als een grote stap richting verantwoordelijke onderzoeksbeoordeling en open...

  • 15 april 2024

    ‘De Europese verkiezingen worden weer ouderwets saai’

    RUG-onderzoekers Ritumbra Manuvie, Pieter de Wilde en Lisa Gaufman blikken in een drieluik vooruit op de verkiezingen in respectievelijk India, Europa en de Verenigde Staten. Deze week: Pieter de Wilde.

  • 02 april 2024

    Vliegen op houtstof

    In Makers van de RUG belichten we elke twee weken een onderzoeker die iets concreets heeft ontwikkeld: van zelfgemaakte meetapparatuur voor wetenschappelijk onderzoek tot kleine of grote producten die ons dagelijks leven kunnen veranderen. Zo...