Research database

Publication

Domain adaptation for parsing

Plank, B. 2011 Groningen: s.n.. 210 p.

Research output: ScientificDoctoral Thesis

Documents

  • 09complete.pdf

    Publisher final version (usually the publisher pdf) , 1 MB, PDF-document

  • 00atit.pdf

    Publisher final version (usually the publisher pdf) , 127 KB, PDF-document

  • 00backn.pdf

    Publisher final version (usually the publisher pdf) , 85 KB, PDF-document

  • 00ccont.pdf

    Publisher final version (usually the publisher pdf) , 86 KB, PDF-document

  • 01c1.pdf

    Publisher final version (usually the publisher pdf) , 116 KB, PDF-document

  • 02c2.pdf

    Publisher final version (usually the publisher pdf) , 320 KB, PDF-document

  • 03c3.pdf

    Publisher final version (usually the publisher pdf) , 239 KB, PDF-document

  • 04c4.pdf

    Publisher final version (usually the publisher pdf) , 245 KB, PDF-document

  • 05c5.pdf

    Publisher final version (usually the publisher pdf) , 266 KB, PDF-document

  • 06c6.pdf

    Publisher final version (usually the publisher pdf) , 334 KB, PDF-document

  • 07c7.pdf

    Publisher final version (usually the publisher pdf) , 334 KB, PDF-document

  • 08summ.pdf

    Publisher final version (usually the publisher pdf) , 116 KB, PDF-document

  • 08bapp.pdf

    Publisher final version (usually the publisher pdf) , 151 KB, PDF-document

  • 08cbibliogr.pdf

    Publisher final version (usually the publisher pdf) , 138 KB, PDF-document

  • 08dsv.pdf

    Publisher final version (usually the publisher pdf) , 107 KB, PDF-document

  • 08egrodil.pdf

    Publisher final version (usually the publisher pdf) , 112 KB, PDF-document

Links

  • Barbara Plank
Het doel van de computationele taalkunde is het maken van systemen die in staat zijn natuurlijke taal te begrijpen en te produceren, net zoals wij mensen dat doen. Het maken van dergelijke systemen is moeilijk, onder andere vanwege het probleem van de ambiguïteit van natuurlijke taal. In dit proefschrift ligt de focus op het automatisch ontleden, het bepalen van welke woorden en woordgroepen bij elkaar horen, en wat de functie van de verschillende woordgroepen is. Het probleem van ambiguïteit doet zich ook hier voor omdat er vaak meerdere ontledingen bestaan voor een uiting. Om het probleem van ambiguïteit aan te pakken wordt veelal gebruik gemaakt van machinaal leren. Een model wordt geleerd door parameters te berekenen op basis van soms wel duizenden kenmerken van de trainingdata. Die trainingdata bestaat uit duizenden zinnen waarvoor de correcte ontleding handmatig is vastgelegd. Het blijkt dat deze aanpak voor het automatisch ontleden goede resultaten geeft zolang de trainingdata representatief is. Dus, als de trainingdata bestaat uit krantenartikelen uit de Volkskrant dan zal het resulterende model vooral goede prestaties halen op andere krantenartikelen uit de Volkskrant. Maar als we dat model toepassen op bijvoorbeeld een wetenschappelijk essay over oceanografie, dan worden de prestaties snel veel minder. Automatische ontleedsystemen zijn dus sterk afhankelijk van het domein van de teksten waaruit de trainingdata is opgebouwd. Dit proefschrift onderzoekt de domeinafhankelijkheid van automatische ontleedsystemen. De belangrijkste bijdragen van dit proefschrift zijn de volgende. Na een inleiding in het automatisch ontleden en het probleem van domeinafhankelijkheid onderzoeken we in het tweede deel van dit proefschrift de effectiviteit van nieuwe en bestaande algoritmes voor het aanpassen van modellen aan andere domeinen. Deze worden geëvalueerd in het kader van een automatisch ontleedsysteem voor het Nederlands dat gebaseerd is op een handgeschreven grammatica, de Alpino parser. Eerder werk was gericht op domeinafhankelijkheid van ontleedsystemen die in zijn geheel zijn gebaseerd op data (datagedreven ontleedsystemen). In het derde deel bekijken we de gevoeligheid van verschillende soorten ontleedsystemen op domeinverschuivingen. De hypothese dat het grammatica-gebaseerde systeem Alpino minder beïnvloed wordt door domeinverschuivingen wordt getest, en, dus, dat datagebaseerde systemen meer behoefte hebben aan technieken voor aanpassing aan nieuwe domeinen. Het hoofdstuk laat zien dat Alpino robuust is in vergelijking met de ontleedsystemen die in zijn geheel gebaseerd zijn op geannoteerde data. De laatste bijdrage van dit proefschrift is de ontwikkeling van een meetinstrument om aan te geven in hoeverre twee teksten tot een verschillend of juist tot een vergelijkbaar domein behoren. De meeste studies nemen aan dat er data van het nieuwe domein ter beschikking staat. Dit is echter niet altijd het geval. Daarom evalueren we maten om automatisch geschikte trainingdata te selecteren voor een nieuw domein. De resultaten tonen aan dat een eenvoudige techniek gebaseerd op frequenties van woorden effectief is voor het selecteren van trainingdata voor beide onderzochte talen, het Engels en het Nederlands.
Original languageEnglish
QualificationDoctor of Philosophy
Awarding Institution
  • University of Groningen
Supervisor(s)/Advisor
Publication date2011
Date of Award8-Dec-2011
Place of PublicationGroningen
Publisher
Print ISBNs978-90-367-5199-5
Electronic ISBNs9789036752008
StatePublished

Keywords

  • Proefschriften (vorm), Computerlinguèistiek, Tekstsoorten, Parseren, Ambiguèiteit, computerlinguèistiek, mathematische linguèistiek

View graph of relations

Download statistics

No data available

ID: 2080231