Skip to ContentSkip to Navigation
Over ons Actueel Nieuws Nieuwsberichten

Mining for meaning. The extraction of lexico-semanticknowledge from text

24 juni 2010

Promotie: dhr. T. van de Cruys, 14.45 uur, Academiegebouw, Broerstraat 5, Groningen

Proefschrift: Mining for meaning. The extraction of lexico-semanticknowledge from text

Promotor(s): prof.dr.ir. J. Nerbonne

Faculteit: Letteren

 

Computer kan woordbetekenis uit teksten afleiden

Het is heel goed mogelijk om woorden met een verwante betekenis automatisch uit teksten te halen, blijkt uit het promotieonderzoek van Tim van de Cruys. De context heeft invloed op de soort verwantschap: een nauwe (syntactische) context leidt tot groepen die nauw aan elkaar verwant zijn, terwijl een brede context (alle woorden in eenzelfde zin of paragraaf) woorden groepeert die tot hetzelfde betekenisveld behoren.

Woorden hebben een bepaalde betekenis. Taalgebruikers kunnen die betekenis meestal moeiteloos achterhalen, maar voor een computersysteem is dat een lastige opgave. Van de Cruys onderzocht hoe een computer de betekenis van een woord automatisch uit grote tekstcollecties kan afleiden. Dat gebeurt concreet door de context van woorden (zoals de omringende woorden, of de syntactische relaties van een woord) met elkaar te vergelijken, en zo te bepalen in welke mate woorden op elkaar lijken of van elkaar verschillen. Die informatie stelt de computer in staat om groepen van woorden die semantisch op elkaar lijken volledig automatisch uit teksten te halen.

Een belangrijk gedeelte van Van de Cruys’onderzoek is gewijd aan methodes voor dimensionaliteitsreductie, en de toepassing ervan op taal. Het gebruik van grote tekstcollecties houdt in dat het aantal verschillende contexten al snel oploopt tot enkele honderdduizenden. Met een wiskundige dimensionaliteitsreductie kan de overvloed aan individuele contexten teruggebracht worden tot een beperkt aantal dimensies. Kenmerkend hierbij is dat die dimensies latente semantiek bevatten: de waarde van een woord voor een bepaalde dimensie geeft aan hoe sterk het woord op een bepaald betekenisveld (zoals economie, transport, voedsel) scoort. De databanken die op die manier opgebouwd worden, worden daarna gebruikt in verschillende taalgerichte toepassingen, zoals het ontdekken van versteende uitdrukkingen, het onderscheiden van de verschillende betekenissen van een woord, en de extractie van typische argumenten voor werkwoorden. Van de Cruys toont aan dat een computer met enkele simpele algoritmes woordbetekenis uit teksten kan afleiden, en dat is een belangrijke stap naar een computersysteem dat echt begrijpt wat er in een tekst geschreven staat.

Tim van de Cruys (België, 1982) studeerde artificial intelligence aan de KU Leuven. Hij verrichtte zijn onderzoek bij de afdeling alfa-informatica van de Faculteit der Letteren. Van de Cruys is momenteel postdoctoraal onderzoeker bij INRIA, Institut national de recherche en informatique et automatique (Parijs).

 

Laatst gewijzigd:13 maart 2020 01:15
Deel dit Facebook LinkedIn
View this page in: English

Meer nieuws

  • 17 juli 2025

    Veni-beurzen voor elf RUG-onderzoekers

    Aan elf onderzoekers van de Rijksuniversiteit Groningen en het UMCG is een Veni-beurs van maximaal 320.000 euro toegekend:  Quentin Changeat, Wen Wu, Femke Cnossen, Stacey Copeland, Bart Danon, Gesa Kübek, Hannah Laurens, Adi Stoykova, Frank Tsiwah,...

  • 14 juli 2025

    Hoe de ooit droge Middellandse Zee met water werd gevuld

    Met behulp van hoge-resolutie landschapsevolutiemodellen toonden onderzoekers aan dat de Middellandse Zee zich al lang vóór de doorbraak van de Atlantische Oceaan begon te vullen.

  • 14 juli 2025

    Grunnegs en Drèents krijgen vaste plek in de klas met MOI

    Vanaf schooljaar 2025-2026 start het onderwijsprogramma MOI: Meertalig Onderwijs in Grunnen en Drenthe, dat streektaal een vaste plek geeft in het basisonderwijs. MOI brengt het Grunnegs en Drèents spelenderwijs de klas in, als structureel onderdeel...