Skip to ContentSkip to Navigation
Over ons Actueel Nieuws Nieuwsberichten

Computationeel taalkundigen te terughoudend in delen van onderzoeksdata en zelfgeschreven software

08 oktober 2018

Onderzoekers binnen de computationele taalkunde zijn nog onvoldoende bereid hun onderzoeksdata en benodigde zelf geschreven software en commando’s te delen met andere onderzoekers. Dat concluderen RUG-wetenschappers Martijn Wieling, Josine Rawee en Gertjan van Noord in een onderzoek naar alle (bijna 400) wetenschappelijke artikelen die tussen 2011 en 2016 zijn gepubliceerd als zogenaamde full papers van acht pagina’s in de Proceedings van de ACL Annual Meetings. De situatie is in die jaren wel verbeterd. Terwijl vooral data relatief vaak werd gedeeld (2011: 76%, 2016: 86%), waren de computationeel taalkundigen ook in 2016 nog terughoudend in het beschikbaar stellen van de ontwikkelde zelfgeschreven software (2011: 33%, 2016: 59%).

De ACL is het meest prestigieuze congres in de computationele taalkunde: slechts circa 25% van de ingediende artikelen wordt geaccepteerd. Wieling en zijn collega’s keken eerst voor ieder artikel of er een link naar de data en/of zelfgeschreven software in het artikel stond. Was dat niet het geval, dan werden de auteurs per e-mail benaderd met het verzoek de data en zelfgeschreven software alsnog beschikbaar te stellen. De onderzoekers publiceren hun bevindingen in het internationale peer-reviewed open access tijdschrift Computational Linguistics.

Problematisch

De toename in het delen van zelfgeschreven software tussen 2011 en 2016 wordt vooral veroorzaakt doordat de onderzochte computationeel taalkundigen in hun artikelen vaker een link opnamen naar de online beschikbare zelfgeschreven software. Auteurs die dat niet deden en vervolgens werden benaderd via e-mail, konden of wilden in slechts 35% van de gevallen alsnog hun zelfgeschreven software beschikbaar stellen. Wieling: ‘Vooral binnen de computationele taalkunde, waar innovaties juist vaak betrekking hebben op de methodes en dus de onderliggende zelfgeschreven software, is dat lage percentage problematisch.’

Lastig te reproduceren

Een full paper-publicatie in de Proceedings van de ACL Annual Meetings beslaat slechts acht pagina’s. Die zeer beperkte ruimte is vaak onvoldoende om alle benodigde details en parameters zodanig uit te leggen dat hergebruik door anderen mogelijk is, stelt Wieling. Zelfs wanneer de data en zelfgeschreven software wel gedeeld worden, is het lastig de gerapporteerde resultaten te reproduceren. Bij een steekproef van tien artikelen waren Wieling en zijn collega’s in staat de resultaten van zes artikelen tot op acceptabele hoogte te reproduceren; bij slechts één artikel lukte het de resultaten exact te reproduceren.

Extra moeite loont

Dat het delen van data en zelfgeschreven software belangrijk is voor een empirisch vakgebied zoals de computationele taalkunde staat buiten kijf. Hoewel dat auteurs ongetwijfeld extra moeite kost, lijken auteurs die de zelfgeschreven software delen echter ook een voordeel te ervaren: Wieling en zijn collega’s zagen dat artikelen met een link naar de zelfgeschreven software gemiddeld vaker werden geciteerd dan artikelen waarbij die verwijzing ontbrak.

Meer informatie

Contact: Martijn Wieling
Laatst gewijzigd:12 maart 2020 21:23

Meer nieuws