Lexical acquisition for computational grammars. A unified model
Promotie: dhr. K.D. Cholakov, 14.30 uur, Academiegebouw, Broerstraat 5, Groningen
Proefschrift: Lexical acquisition for computational grammars. A unified model
Promotor(s): prof.dr. G.J.M. van Noord, prof.dr.ir. J. Nerbonne
Faculteit: Letteren
Nieuw model voor automatisch verkrijgen van lexicale informatie
Woorden vormen de bouwstenen voor de implementatie van veel systemen voor natuurlijke-taalverwerking. Lexicale informatie is in dergelijke systemen meestal in lexicons opgeslagen, waarin woorden verwijzen naar taalkundige beschrijvingen. Deze lexicons zullen echter altijd onvolledig zijn. Natuurlijke taal ontwikkelt zich voortdurend en er ontstaan dagelijks nieuwe woorden. Het is daarom onmogelijk elk woord in een taal in een lexicon op te slaan. Kostadin Cholakovs proefschrift beschrijft een nieuw model voor het automatisch verkrijgen van lexicale informatie.
Cholakovs model leert de morfosyntactische kenmerken van woorden die niet opgeslagen zijn in de lexicons die gebruikt worden door computationele grammatica's. Twee belangrijke eigenschappen onderscheiden dit model van bestaande technieken. Ten eerste kan het zich het volledige morfologische paradigma van een onbekend woord toe-eigenen. Ten tweede worden de verschillende contexten waarin dit woord voorkomt in overweging genomen. Dit vergroot de hoeveelheid en de diversiteit van de taalkundige informatie die beschikbaar is voor het onbekende woord.
Voor elk onbekend woord wordt automatisch een verzameling van taalkundige eigenschappen gemaakt. Deze eigenschappen worden als invoer voor een statistische classifier gebruikt, die alle vormen in het paradigma van een onbekend woord vertaalt naar beschrijvingen voor het lexicon van de grammatica. Het model voor het verkrijgen van lexicale eigenschappen is getest met computationele grammatica's voor het Nederlands en het Duits. De resultaten tonen de hoge kwaliteit van het model aan. Daarnaast is het model toegepast om correcte taalkundige beschrijvingen te vinden van woorden die incorrecte of onvolledige beschrijvingen in het lexicon van de grammatica hebben.
Ten slotte gaat dit proefschrift verder dan syntaxis. Het beschreven model wordt gecombineerd met vector-gebaseerde technieken voor semantische ruimte om de semantische eigenschappen van onbekende woorden te vinden.
Kostadin Cholakov (Bulgarije, 1984) studeerde aan de Saarland Universiteit (Duitsland). Hij verrichtte zijn onderzoek bij de Computational Linguistics Group aan de Faculteit der Letteren van de RUG. Cholakov werkt nu als onderzoeker aan de Technische Universiteit Darmstadt (Duitsand).
Laatst gewijzigd: | 13 maart 2020 00:59 |
Meer nieuws
-
09 september 2025
Kunst + wetenschap = 1-0 voor de medemenselijkheid
Promovendus Media Studies Marije Miedema en theatermaker Mees van den Bergh bundelden hun krachten. Het resultaat is de theatrale audio-installatie ‘Toekomst van het verleden’, een project over hoe mensen digitaal herinnerd willen worden.
-
26 augustus 2025
Teugels los voor de cryptomunt
De Canadees-Nederlandse politiek econoom Malcolm Campbell-Verduyn is gefascineerd door cryptovaluta’s. Onder de Amerikaanse president Donald Trump zijn de remmen los, zegt hij. Tegelijkertijd was de econoom zelf als adviseur betrokken bij de...
-
17 juli 2025
Veni-beurzen voor elf RUG-onderzoekers
Aan elf onderzoekers van de Rijksuniversiteit Groningen en het UMCG is een Veni-beurs van maximaal 320.000 euro toegekend: Quentin Changeat, Wen Wu, Femke Cnossen, Stacey Copeland, Bart Danon, Gesa Kübek, Hannah Laurens, Adi Stoykova, Frank Tsiwah,...