Lexical acquisition for computational grammars. A unified model

05 november 2012

Promotie: dhr. K.D. Cholakov, 14.30 uur, Academiegebouw, Broerstraat 5, Groningen

Proefschrift: Lexical acquisition for computational grammars. A unified model

Promotor(s): prof.dr. G.J.M. van Noord, prof.dr.ir. J. Nerbonne

Faculteit: Letteren

Nieuw model voor automatisch verkrijgen van lexicale informatie

Woorden vormen de bouwstenen voor de implementatie van veel systemen voor natuurlijke-taalverwerking. Lexicale informatie is in dergelijke systemen meestal in lexicons opgeslagen, waarin woorden verwijzen naar taalkundige beschrijvingen. Deze lexicons zullen echter altijd onvolledig zijn. Natuurlijke taal ontwikkelt zich voortdurend en er ontstaan dagelijks nieuwe woorden. Het is daarom onmogelijk elk woord in een taal in een lexicon op te slaan. Kostadin Cholakovs proefschrift beschrijft een nieuw model voor het automatisch verkrijgen van lexicale informatie.

Cholakovs model leert de morfosyntactische kenmerken van woorden die niet opgeslagen zijn in de lexicons die gebruikt worden door computationele grammatica's. Twee belangrijke eigenschappen onderscheiden dit model van bestaande technieken. Ten eerste kan het zich het volledige morfologische paradigma van een onbekend woord toe-eigenen. Ten tweede worden de verschillende contexten waarin dit woord voorkomt in overweging genomen. Dit vergroot de hoeveelheid en de diversiteit van de taalkundige informatie die beschikbaar is voor het onbekende woord.

Voor elk onbekend woord wordt automatisch een verzameling van taalkundige eigenschappen gemaakt. Deze eigenschappen worden als invoer voor een statistische classifier gebruikt, die alle vormen in het paradigma van een onbekend woord vertaalt naar beschrijvingen voor het lexicon van de grammatica. Het model voor het verkrijgen van lexicale eigenschappen is getest met computationele grammatica's voor het Nederlands en het Duits. De resultaten tonen de hoge kwaliteit van het model aan. Daarnaast is het model toegepast om correcte taalkundige beschrijvingen te vinden van woorden die incorrecte of onvolledige beschrijvingen in het lexicon van de grammatica hebben.

Ten slotte gaat dit proefschrift verder dan syntaxis. Het beschreven model wordt gecombineerd met vector-gebaseerde technieken voor semantische ruimte om de semantische eigenschappen van onbekende woorden te vinden.

Kostadin Cholakov (Bulgarije, 1984) studeerde aan de Saarland Universiteit (Duitsland). Hij verrichtte zijn onderzoek bij de Computational Linguistics Group aan de Faculteit der Letteren van de RUG. Cholakov werkt nu als onderzoeker aan de Technische Universiteit Darmstadt (Duitsand).

Laatst gewijzigd:13 maart 2020 00:59

Deel dit Facebook LinkedIn

View this page in: English