Skip to ContentSkip to Navigation
Over onsNieuws en agendaNieuwsberichten

Computationeel taalkundigen te terughoudend in delen van onderzoeksdata en zelfgeschreven software

08 oktober 2018

Onderzoekers binnen de computationele taalkunde zijn nog onvoldoende bereid hun onderzoeksdata en benodigde zelf geschreven software en commando’s te delen met andere onderzoekers. Dat concluderen RUG-wetenschappers Martijn Wieling, Josine Rawee en Gertjan van Noord in een onderzoek naar alle (bijna 400) wetenschappelijke artikelen die tussen 2011 en 2016 zijn gepubliceerd als zogenaamde full papers van acht pagina’s in de Proceedings van de ACL Annual Meetings. De situatie is in die jaren wel verbeterd. Terwijl vooral data relatief vaak werd gedeeld (2011: 76%, 2016: 86%), waren de computationeel taalkundigen ook in 2016 nog terughoudend in het beschikbaar stellen van de ontwikkelde zelfgeschreven software (2011: 33%, 2016: 59%).

De ACL is het meest prestigieuze congres in de computationele taalkunde: slechts circa 25% van de ingediende artikelen wordt geaccepteerd. Wieling en zijn collega’s keken eerst voor ieder artikel of er een link naar de data en/of zelfgeschreven software in het artikel stond. Was dat niet het geval, dan werden de auteurs per e-mail benaderd met het verzoek de data en zelfgeschreven software alsnog beschikbaar te stellen. De onderzoekers publiceren hun bevindingen in het internationale peer-reviewed open access tijdschrift Computational Linguistics.

Problematisch

De toename in het delen van zelfgeschreven software tussen 2011 en 2016 wordt vooral veroorzaakt doordat de onderzochte computationeel taalkundigen in hun artikelen vaker een link opnamen naar de online beschikbare zelfgeschreven software. Auteurs die dat niet deden en vervolgens werden benaderd via e-mail, konden of wilden in slechts 35% van de gevallen alsnog hun zelfgeschreven software beschikbaar stellen. Wieling: ‘Vooral binnen de computationele taalkunde, waar innovaties juist vaak betrekking hebben op de methodes en dus de onderliggende zelfgeschreven software, is dat lage percentage problematisch.’

Lastig te reproduceren

Een full paper-publicatie in de Proceedings van de ACL Annual Meetings beslaat slechts acht pagina’s. Die zeer beperkte ruimte is vaak onvoldoende om alle benodigde details en parameters zodanig uit te leggen dat hergebruik door anderen mogelijk is, stelt Wieling. Zelfs wanneer de data en zelfgeschreven software wel gedeeld worden, is het lastig de gerapporteerde resultaten te reproduceren. Bij een steekproef van tien artikelen waren Wieling en zijn collega’s in staat de resultaten van zes artikelen tot op acceptabele hoogte te reproduceren; bij slechts één artikel lukte het de resultaten exact te reproduceren.

Extra moeite loont

Dat het delen van data en zelfgeschreven software belangrijk is voor een empirisch vakgebied zoals de computationele taalkunde staat buiten kijf. Hoewel dat auteurs ongetwijfeld extra moeite kost, lijken auteurs die de zelfgeschreven software delen echter ook een voordeel te ervaren: Wieling en zijn collega’s zagen dat artikelen met een link naar de zelfgeschreven software gemiddeld vaker werden geciteerd dan artikelen waarbij die verwijzing ontbrak.

Meer informatie

Contact: Martijn Wieling
Laatst gewijzigd:08 oktober 2018 14:44

Meer nieuws

  • 18 oktober 2018

    Nieuw tijdschrift: Virtus

    Virtus is een onafhankelijk, multidisciplinair en meertalig peer-reviewed tijdschrift met artikelen over alle aspecten van de geschiedenis van de adel. Het is zojuist toegevoegd aan de tijdschriftenlijst van University of Groningen Press.

  • 16 oktober 2018

    Digital Society Conferentie Nederlandse universiteiten

    De digitale informatietechnologie dringt steeds dieper door in onze samenleving. Daarom organiseren de veertien Nederlandse universiteiten, verenigd in de VSNU, op dinsdag 27 november de internationale Digital Society Conference in de Rijtuigenloods...

  • 10 oktober 2018

    Studenten bouwen mesohut

    In deze video vertellen studenten wat er zo interessant is aan mesolithische (Midden-Steentijd) onderkomens van ca. 7000 jaar geleden en waarom de experimentele archeologie een bijzonder inzichtelijke en verbazingwekkende subdiscipline is.