Zoeken naar de naald in een hooiberg van hoogdimensionale data

23 september 2021

Een van de uitdagingen in dit tijdperk van ‘Big Data’ is wat te doen met de vele onafhankelijke variabelen, iets dat bekend staat als de ‘vloek van de dimensionaliteit’. Daarom is het nodig om algoritmes te ontwikkelen die relevante kenmerken kunnen vinden met een hoge voorspellende waarde. Hiervoor is door computerwetenschappers van de RUG een nieuwe selectief algoritme gemaakt. De beschrijving en validatie van hun methode is op 16 september gepubliceerd in het tijdschrift Expert Systems with Applications.

Het vermogen om de kleinste en beste subset van kenmerken waarmee een algoritme een specifieke naald kan vinden in een hooiberg van data is om verschillende reden wenselijk. Allereerst maakt het snellere en daarmee ook beter schaalbare analyse mogelijk. Ten tweede, het drukt de kosten van dataverzameling en -opslag. En als derde zorgt het ervoor dat de verwerking van kenmerken door het algoritme beter te begrijpen is. ‘Het is een misverstand dat je door meer kenmerken toe te voegen ook meer informatie hebt om een betere beoordeling te maken’, zegt George Azzopardi, assistent professor Computerwetenschappen aan de RUG. ‘Er zijn situaties waarin kenmerken totaal irrelevant blijken, of overbodig zijn.’ Bovendien is het lastiger uit te leggen hoe het algoritme tot een resultaat is gekomen naar mate het aantal onafhankelijke variabelen toeneemt.

‘Kenmerk selectie is wijdverbreid, en er zijn allerlei methoden voor bedacht’, zegt Ahmad Alsahaf, postdoc aan het UMCG en eerste auteur van het artikel. Het vinden van de juiste kenmerken is een uitdaging. De eenvoudigste manier om de beste subset te vinden is om alle mogelijke combinaties van kenmerken door te rekenen. ‘Maar die aanpak werkt niet meer als je veel kenmerken hebt’, zegt Alsahaf. Andere manieren gebruiken bijvoorbeeld statistische methoden om het belang van individuele kenmerken op een bepaalde variabele te bepalen.

Azzopardi: ‘Die methoden zijn zeer snel, maar ze houden geen rekening met de mogelijke interacties tussen variabelen. Het kan bijvoorbeeld zo zijn dat twee onafhankelijke variabelen elk een lage voorspellende waarde hebben, maar een veel sterkere wanneer je ze samen weegt.’ En Alsahaf vult aan: ‘Een bekend voorbeeld is de interactie tussen verschillende genen, waar de aanwezigheid van het ene gen de activiteit van het andere gen beïnvloedt. Algoritmes voor kenmerk selectie moeten dat kunnen oppikken.’

De computerwetenschappers ontwierpen een nieuw selectie algoritme voor kenmerken dat werkt volgens het zogeheten “boosting” principe. Alsahaf: ‘We gebruiken een model gebaseerd op beslisbomen om de meest relevante kenmerken te selecteren. Daarna maken en evalueren we een classificatiemodel op basis van deze kenmerken. De gegevens die hiermee onjuist worden geclassificeerd krijgen meer gewicht bij het bepalen van de volgende set met relevante kenmerken, een proces dat “boosting” heet. Deze stappen herhalen we totdat de prestaties van het model niet verder verbeteren.’

In hun artikel laten de wetenschappers zien dat hun algoritme effectief is op basis van verschillende standaard datasets met verschillende eigenschappen. Ook laten ze zien dat het beter presteert dan bekende methoden voor kenmerk-selectie, zoasl Boruta en ReliefF. Hun algoritme presteert beter met minder kenmerken op de meeste datasets die zijn gebruikt om het te testen.

De broncode van het algoritme is online gepubliceerd.

Referentie: Ahmad Alsahaf, Nicolai Petkov, Vikram Shenoy, George Azzopardi, A framework for feature selection through boosting, Expert Systems with Applications, 16 september 2021.

Diagram met de werking van het algoritme | Illustratie Azzopardi / Alsahaf

Laatst gewijzigd:

11 februari 2025 15:23

Deel dit Facebook LinkedIn

View this page in: English

Meer nieuws

04 juli 2025

RUG reikt verschillende prijzen uit tijdens Ceremony of Merits

De RUG heeft verschillende prijzen uitgereikt aan excellente onderzoekers en studenten tijdens de Ceremony of Merits op 4 juli 2025.
02 juli 2025

Relinde Weil herbenoemd als lid van Raad van Toezicht RUG

Het heeft de Minister behaagd Relinde Weil te benoemen voor een tweede termijn als lid van de Raad van Toezicht RUG.
01 juli 2025

Zomernummer Broerstraat 5

Het zomernummer van RUG-magazine Broerstraat 5 is uit.

Zoeken naar de naald in een hooiberg van hoogdimensionale data

Meer nieuws

RUG reikt verschillende prijzen uit tijdens Ceremony of Merits

Relinde Weil herbenoemd als lid van Raad van Toezicht RUG

Zomernummer Broerstraat 5