Lexical acquisition for computational grammars. A unified model

05 november 2012

Promotie: dhr. K.D. Cholakov, 14.30 uur, Academiegebouw, Broerstraat 5, Groningen

Proefschrift: Lexical acquisition for computational grammars. A unified model

Promotor(s): prof.dr. G.J.M. van Noord, prof.dr.ir. J. Nerbonne

Faculteit: Letteren

Nieuw model voor automatisch verkrijgen van lexicale informatie

Woorden vormen de bouwstenen voor de implementatie van veel systemen voor natuurlijke-taalverwerking. Lexicale informatie is in dergelijke systemen meestal in lexicons opgeslagen, waarin woorden verwijzen naar taalkundige beschrijvingen. Deze lexicons zullen echter altijd onvolledig zijn. Natuurlijke taal ontwikkelt zich voortdurend en er ontstaan dagelijks nieuwe woorden. Het is daarom onmogelijk elk woord in een taal in een lexicon op te slaan. Kostadin Cholakovs proefschrift beschrijft een nieuw model voor het automatisch verkrijgen van lexicale informatie.

Cholakovs model leert de morfosyntactische kenmerken van woorden die niet opgeslagen zijn in de lexicons die gebruikt worden door computationele grammatica's. Twee belangrijke eigenschappen onderscheiden dit model van bestaande technieken. Ten eerste kan het zich het volledige morfologische paradigma van een onbekend woord toe-eigenen. Ten tweede worden de verschillende contexten waarin dit woord voorkomt in overweging genomen. Dit vergroot de hoeveelheid en de diversiteit van de taalkundige informatie die beschikbaar is voor het onbekende woord.

Voor elk onbekend woord wordt automatisch een verzameling van taalkundige eigenschappen gemaakt. Deze eigenschappen worden als invoer voor een statistische classifier gebruikt, die alle vormen in het paradigma van een onbekend woord vertaalt naar beschrijvingen voor het lexicon van de grammatica. Het model voor het verkrijgen van lexicale eigenschappen is getest met computationele grammatica's voor het Nederlands en het Duits. De resultaten tonen de hoge kwaliteit van het model aan. Daarnaast is het model toegepast om correcte taalkundige beschrijvingen te vinden van woorden die incorrecte of onvolledige beschrijvingen in het lexicon van de grammatica hebben.

Ten slotte gaat dit proefschrift verder dan syntaxis. Het beschreven model wordt gecombineerd met vector-gebaseerde technieken voor semantische ruimte om de semantische eigenschappen van onbekende woorden te vinden.

Kostadin Cholakov (Bulgarije, 1984) studeerde aan de Saarland Universiteit (Duitsland). Hij verrichtte zijn onderzoek bij de Computational Linguistics Group aan de Faculteit der Letteren van de RUG. Cholakov werkt nu als onderzoeker aan de Technische Universiteit Darmstadt (Duitsand).

Laatst gewijzigd:

13 maart 2020 00:59

Deel dit Facebook Twitter LinkedIn

View this page in: English

Meer nieuws

23 april 2024

Onderzoek naar krimp is ook onderzoek naar de geschiedenis van de blijvers

Universitair docent Yuliya Hilevych van de Faculteit der Letteren onderzoekt regionale krimp in Nederland, Finland en Oekraïne door het fenomeen in sociaal-historisch perspectief te plaatsen.
22 april 2024

Trump of niet Trump, dat is de vraag

RUG-onderzoekers Ritumbra Manuvie, Pieter de Wilde en Lisa Gaufman blikken in een drieluik vooruit op de verkiezingen in respectievelijk India, Europa en de Verenigde Staten. Deze week: Lisa Gaufman.
16 april 2024

RUG ondertekent Barcelona Declaration on Open Research Information

De Rijksuniversiteit Groningen heeft de Barcelona Declaration on Open Research Information (Verklaring Open Onderzoeksinformatie) officieel ondertekend. Dit wordt gezien als een grote stap richting verantwoordelijke onderzoeksbeoordeling en open...

Lexical acquisition for computational grammars. A unified model

Meer nieuws

Onderzoek naar krimp is ook onderzoek naar de geschiedenis van de blijvers

Trump of niet Trump, dat is de vraag

RUG ondertekent Barcelona Declaration on Open Research Information