Computationeel taalkundigen te terughoudend in delen van onderzoeksdata en zelfgeschreven software
Onderzoekers binnen de computationele taalkunde zijn nog onvoldoende bereid hun onderzoeksdata en benodigde zelf geschreven software en commando’s te delen met andere onderzoekers. Dat concluderen RUG-wetenschappers Martijn Wieling, Josine Rawee en Gertjan van Noord in een onderzoek naar alle (bijna 400) wetenschappelijke artikelen die tussen 2011 en 2016 zijn gepubliceerd als zogenaamde full papers van acht pagina’s in de Proceedings van de ACL Annual Meetings. De situatie is in die jaren wel verbeterd. Terwijl vooral data relatief vaak werd gedeeld (2011: 76%, 2016: 86%), waren de computationeel taalkundigen ook in 2016 nog terughoudend in het beschikbaar stellen van de ontwikkelde zelfgeschreven software (2011: 33%, 2016: 59%).
De ACL is het meest prestigieuze congres in de computationele taalkunde: slechts circa 25% van de ingediende artikelen wordt geaccepteerd. Wieling en zijn collega’s keken eerst voor ieder artikel of er een link naar de data en/of zelfgeschreven software in het artikel stond. Was dat niet het geval, dan werden de auteurs per e-mail benaderd met het verzoek de data en zelfgeschreven software alsnog beschikbaar te stellen. De onderzoekers publiceren hun bevindingen in het internationale peer-reviewed open access tijdschrift Computational Linguistics.
Problematisch
De toename in het delen van zelfgeschreven software tussen 2011 en 2016 wordt vooral veroorzaakt doordat de onderzochte computationeel taalkundigen in hun artikelen vaker een link opnamen naar de online beschikbare zelfgeschreven software. Auteurs die dat niet deden en vervolgens werden benaderd via e-mail, konden of wilden in slechts 35% van de gevallen alsnog hun zelfgeschreven software beschikbaar stellen. Wieling: ‘Vooral binnen de computationele taalkunde, waar innovaties juist vaak betrekking hebben op de methodes en dus de onderliggende zelfgeschreven software, is dat lage percentage problematisch.’
Lastig te reproduceren
Een full paper-publicatie in de Proceedings van de ACL Annual Meetings beslaat slechts acht pagina’s. Die zeer beperkte ruimte is vaak onvoldoende om alle benodigde details en parameters zodanig uit te leggen dat hergebruik door anderen mogelijk is, stelt Wieling. Zelfs wanneer de data en zelfgeschreven software wel gedeeld worden, is het lastig de gerapporteerde resultaten te reproduceren. Bij een steekproef van tien artikelen waren Wieling en zijn collega’s in staat de resultaten van zes artikelen tot op acceptabele hoogte te reproduceren; bij slechts één artikel lukte het de resultaten exact te reproduceren.
Extra moeite loont
Dat het delen van data en zelfgeschreven software belangrijk is voor een empirisch vakgebied zoals de computationele taalkunde staat buiten kijf. Hoewel dat auteurs ongetwijfeld extra moeite kost, lijken auteurs die de zelfgeschreven software delen echter ook een voordeel te ervaren: Wieling en zijn collega’s zagen dat artikelen met een link naar de zelfgeschreven software gemiddeld vaker werden geciteerd dan artikelen waarbij die verwijzing ontbrak.
Meer informatie
Contact: Martijn WielingLaatst gewijzigd: | 12 maart 2020 21:23 |
Meer nieuws
-
17 juli 2025
Veni-beurzen voor elf RUG-onderzoekers
Aan elf onderzoekers van de Rijksuniversiteit Groningen en het UMCG is een Veni-beurs van maximaal 320.000 euro toegekend: Quentin Changeat, Wen Wu, Femke Cnossen, Stacey Copeland, Bart Danon, Gesa Kübek, Hannah Laurens, Adi Stoykova, Frank Tsiwah,...
-
14 juli 2025
Hoe de ooit droge Middellandse Zee met water werd gevuld
Met behulp van hoge-resolutie landschapsevolutiemodellen toonden onderzoekers aan dat de Middellandse Zee zich al lang vóór de doorbraak van de Atlantische Oceaan begon te vullen.
-
14 juli 2025
Grunnegs en Drèents krijgen vaste plek in de klas met MOI
Vanaf schooljaar 2025-2026 start het onderwijsprogramma MOI: Meertalig Onderwijs in Grunnen en Drenthe, dat streektaal een vaste plek geeft in het basisonderwijs. MOI brengt het Grunnegs en Drèents spelenderwijs de klas in, als structureel onderdeel...