Skip to ContentSkip to Navigation
Onderdeel van Rijksuniversiteit Groningen
Science LinX Science LinX nieuws

Zoeken naar de naald in een hooiberg van hoogdimensionale data

23 september 2021

Een van de uitdagingen in dit tijdperk van ‘Big Data’ is wat te doen met de vele onafhankelijke variabelen, iets dat bekend staat als de ‘vloek van de dimensionaliteit’. Daarom is het nodig om algoritmes te ontwikkelen die relevante kenmerken kunnen vinden met een hoge voorspellende waarde. Hiervoor is door computerwetenschappers van de RUG een nieuwe selectief algoritme gemaakt. De beschrijving en validatie van hun methode is op 16 september gepubliceerd in het tijdschrift Expert Systems with Applications.

Het vermogen om de kleinste en beste subset van kenmerken waarmee een algoritme een specifieke naald kan vinden in een hooiberg van data is om verschillende reden wenselijk. Allereerst maakt het snellere en daarmee ook beter schaalbare analyse mogelijk. Ten tweede, het drukt de kosten van dataverzameling en -opslag. En als derde zorgt het ervoor dat de verwerking van kenmerken door het algoritme beter te begrijpen is. ‘Het is een misverstand dat je door meer kenmerken toe te voegen ook meer informatie hebt om een betere beoordeling te maken’, zegt George Azzopardi, assistent professor Computerwetenschappen aan de RUG. ‘Er zijn situaties waarin kenmerken totaal irrelevant blijken, of overbodig zijn.’ Bovendien is het lastiger uit te leggen hoe het algoritme tot een resultaat is gekomen naar mate het aantal onafhankelijke variabelen toeneemt.

George Azzopardi | Foto RUG
George Azzopardi | Foto RUG

‘Kenmerk selectie is wijdverbreid, en er zijn allerlei methoden voor bedacht’, zegt Ahmad Alsahaf, postdoc aan het UMCG en eerste auteur van het artikel. Het vinden van de juiste kenmerken is een uitdaging. De eenvoudigste manier om de beste subset te vinden is om alle mogelijke combinaties van kenmerken door te rekenen. ‘Maar die aanpak werkt niet meer als je veel kenmerken hebt’, zegt Alsahaf. Andere manieren gebruiken bijvoorbeeld statistische methoden om het belang van individuele kenmerken op een bepaalde variabele te bepalen.

Azzopardi: ‘Die methoden zijn zeer snel, maar ze houden geen rekening met de mogelijke interacties tussen variabelen. Het kan bijvoorbeeld zo zijn dat twee onafhankelijke variabelen elk een lage voorspellende waarde hebben, maar een veel sterkere wanneer je ze samen weegt.’ En Alsahaf vult aan: ‘Een bekend voorbeeld is de interactie tussen verschillende genen, waar de aanwezigheid van het ene gen de activiteit van het andere gen beïnvloedt. Algoritmes voor kenmerk selectie moeten dat kunnen oppikken.’

Ahmed Alsahaf | Foto UMCG
Ahmed Alsahaf | Foto UMCG

De computerwetenschappers ontwierpen een nieuw selectie algoritme voor kenmerken dat werkt volgens het zogeheten “boosting” principe. Alsahaf: ‘We gebruiken een model gebaseerd op beslisbomen om de meest relevante kenmerken te selecteren. Daarna maken en evalueren we een classificatiemodel op basis van deze kenmerken. De gegevens die hiermee onjuist worden geclassificeerd krijgen meer gewicht bij het bepalen van de volgende set met relevante kenmerken, een proces dat “boosting” heet. Deze stappen herhalen we totdat de prestaties van het model niet verder verbeteren.’

In hun artikel laten de wetenschappers zien dat hun algoritme effectief is op basis van verschillende standaard datasets met verschillende eigenschappen. Ook laten ze zien dat het beter presteert dan bekende methoden voor kenmerk-selectie, zoasl Boruta en ReliefF. Hun algoritme presteert beter met minder kenmerken op de meeste datasets die zijn gebruikt om het te testen.

De broncode van het algoritme is online gepubliceerd.

Referentie: Ahmad Alsahaf, Nicolai Petkov, Vikram Shenoy, George Azzopardi, A framework for feature selection through boosting, Expert Systems with Applications, 16 september 2021.

Diagram met de werking van het algoritme | Illustratie Azzopardi / Alsahaf
Diagram met de werking van het algoritme | Illustratie Azzopardi / Alsahaf
Laatst gewijzigd:23 september 2021 13:54
View this page in: English

Meer nieuws

  • 18 maart 2024

    VentureLab North helpt onderzoekers op weg naar succesvolle startups

    Het is menig onderzoeker al overkomen. Tijdens het werken vraag je je opeens af: zou dit niet ontzettend nuttig zijn voor de mensen buiten mijn onderzoeksveld? Er zijn allerlei manieren om onderzoeksinzichten te verspreiden. Denk bijvoorbeeld aan...

  • 04 maart 2024

    Een plantaardige sensor

    In Makers van de RUG belichten we elke twee weken een onderzoeker die iets concreets heeft ontwikkeld: van zelfgemaakte meetapparatuur voor wetenschappelijk onderzoek tot kleine of grote producten die ons dagelijks leven kunnen veranderen. Zo...

  • 11 december 2023

    Join the 'Language and AI' community

    As a part of the Jantina Tammes School, the 'Language and AI' theme is an interdisciplinary initiative that aims to encourage collaboration among academics, PhD candidates, students, and industry representatives who share a keen interest in the...