Lexical acquisition for computational grammars. A unified model
Promotie: dhr. K.D. Cholakov, 14.30 uur, Academiegebouw, Broerstraat 5, Groningen
Proefschrift: Lexical acquisition for computational grammars. A unified model
Promotor(s): prof.dr. G.J.M. van Noord, prof.dr.ir. J. Nerbonne
Faculteit: Letteren
Nieuw model voor automatisch verkrijgen van lexicale informatie
Woorden vormen de bouwstenen voor de implementatie van veel systemen voor natuurlijke-taalverwerking. Lexicale informatie is in dergelijke systemen meestal in lexicons opgeslagen, waarin woorden verwijzen naar taalkundige beschrijvingen. Deze lexicons zullen echter altijd onvolledig zijn. Natuurlijke taal ontwikkelt zich voortdurend en er ontstaan dagelijks nieuwe woorden. Het is daarom onmogelijk elk woord in een taal in een lexicon op te slaan. Kostadin Cholakovs proefschrift beschrijft een nieuw model voor het automatisch verkrijgen van lexicale informatie.
Cholakovs model leert de morfosyntactische kenmerken van woorden die niet opgeslagen zijn in de lexicons die gebruikt worden door computationele grammatica's. Twee belangrijke eigenschappen onderscheiden dit model van bestaande technieken. Ten eerste kan het zich het volledige morfologische paradigma van een onbekend woord toe-eigenen. Ten tweede worden de verschillende contexten waarin dit woord voorkomt in overweging genomen. Dit vergroot de hoeveelheid en de diversiteit van de taalkundige informatie die beschikbaar is voor het onbekende woord.
Voor elk onbekend woord wordt automatisch een verzameling van taalkundige eigenschappen gemaakt. Deze eigenschappen worden als invoer voor een statistische classifier gebruikt, die alle vormen in het paradigma van een onbekend woord vertaalt naar beschrijvingen voor het lexicon van de grammatica. Het model voor het verkrijgen van lexicale eigenschappen is getest met computationele grammatica's voor het Nederlands en het Duits. De resultaten tonen de hoge kwaliteit van het model aan. Daarnaast is het model toegepast om correcte taalkundige beschrijvingen te vinden van woorden die incorrecte of onvolledige beschrijvingen in het lexicon van de grammatica hebben.
Ten slotte gaat dit proefschrift verder dan syntaxis. Het beschreven model wordt gecombineerd met vector-gebaseerde technieken voor semantische ruimte om de semantische eigenschappen van onbekende woorden te vinden.
Kostadin Cholakov (Bulgarije, 1984) studeerde aan de Saarland Universiteit (Duitsland). Hij verrichtte zijn onderzoek bij de Computational Linguistics Group aan de Faculteit der Letteren van de RUG. Cholakov werkt nu als onderzoeker aan de Technische Universiteit Darmstadt (Duitsand).
Laatst gewijzigd: | 13 maart 2020 00:59 |
Meer nieuws
-
08 mei 2025
Prof. dr. Petra Hendriks verkozen tot lid Academia Europaea
Prof. dr. Petra Hendriks, hoogleraar Semantiek en Cognitie aan de Faculteit der Letteren en directeur van het Center for Language and Cognition Groningen (CLCG), is verkozen tot lid van de prestigieuze Academia Europaea.
-
01 mei 2025
AI en vrijheid van meningsuiting
Zaterdag 3 mei is de Internationale Dag van de Persvrijheid. Een dag om ons bewust te zijn van het belang van persvrijheid en van onze plicht om die vrijheid van meningsuiting te respecteren en te beschermen. Die bewustwording is geen overbodige luxe...
-
22 april 2025
Liekuut | De Verenigde Staten zijn altijd al minder democratisch geweest dan we denken
De vurigheid waarmee Donald Trump de Amerikaanse democratie aan het uithollen is, lijkt nooit eerder te zijn voorgekomen. In het verleden hebben presidenten wel vaker hun macht aangewend om presidentiële decreten uit te vaardigen, maar niet in het...