Skip to ContentSkip to Navigation
Over onsNieuws en agendaNieuwsberichten

032 - Scroogle: Google voor oude handschriften

28 maart 2006

Honderden meters archief waarin je moet zoeken met behulp van een index met globale gegevens over de inhoud. Dat zijn in een notendop de eigenschappen van veel collecties oude handschriften. De onderzoeksafdeling Kunstmatige Intelligentie van de Rijksuniversiteit Groningen onderzoekt hoe een computer orde kan scheppen in een zee van geschreven woorden. Te beginnen bij de handschriften van het Kabinet van de Koningin. NWO honoreerde het onderzoeksproject ‘Morph’ met 430.000 euro in het kader van de Open Competitieronde Exacte Wetenschappen.

De handschriften van het Kabinet van de Koningin liggen opgeslagen bij het Nationaal Archief. Dat bevat papieren van de Rijksoverheid, alles bij elkaar zo’n 100 km aan schappen. Voortdurend komen zoekvragen binnen. Jaarlijks raadplegen ongeveer tienduizend historici, journalisten en onderzoekers van familiegeschiedenissen het archief. ‘Bij elke vraag gaat een medewerker in het acht verdiepingen tellende gebouw op zoek naar de juiste map’, zegt hoogleraar Lambert Schomaker, directeur onderzoek en educatie van Kunstmatige Intelligentie. ‘In een tijd waarin iedereen op internet zoekt, gaat dat wringen. Zeker bij een archief als het Nationaal Archief dat er alles aan doet om met de tijd mee te gaan. Daarom ontwikkelen wij Scroogle: Google voor oude handschriften.’

Regelmaat

De onderzoeksvraag van Morph is hoe je een machine kunt gebruiken om te vinden wat je zoekt in een groot archief van handschriften. Het gaat niet om handschriftherkenning, een toepassing die archivarissen al jaren geleden afschreven, omdat geen enkel systeem goed genoeg is voor de soms eeuwenoude collecties. Schomaker: ‘De clou is dat je niet moet kijken vanuit de exacte tekst die er geschreven staat. Dat werkt alleen maar frustrerend. Wij kijken in ons onderzoek naar dit handschrift door de ogen van een ‘domme’ computer die niet kan lezen of schrijven. Wat kan die computer met al deze documenten?’

Vormvergelijking

Een computer kan bijvoorbeeld zoeken naar vorm-overeenkomsten in de handschriften en regelmaat in documenten. Als je de computer vervolgens voedt met een klein aantal globale aanwijzingen van mensen over welke woorden horen bij welke vormen, kan de computer alle tussenliggende mogelijkheden en dus verschillende handschriften ‘leren’ ordenen. ‘Met deze methode voorkom je dat bijvoorbeeld het Nationaal Archief duizenden manuren moet investeren om een computer gedetailleerd te vertellen hoe hij individuele letters moet ‘lezen’. Als er voldoende tekstmateriaal 'geannoteerd' is op een globale manier, maakt het bovendien niet uit of er hier en daar een menselijke fout gemaakt is’, aldus Schomaker.

Blue Gene

De computer leert met relatief beperkte input hoe hij deze en andere collecties handschriften inzichtelijk moet maken. Beperkte input betekent echter niet in dat deze vorm van kunstmatige intelligentie kan worden uitgevoerd op de gemiddelde huiscomputer. De onderzoekers maken voor hun berekeningen gebruik van de Blue Gene supercomputer van het rekencentrum van de Groningse universiteit. Blue Gene, gebouwd door IBM, is op het ogenblik de op een na krachtigste computer in Europa.

Scratch

Het onderzoeksproject Morph is een meer fundamenteel vervolg op het bestaande NWO onderzoek Scratch (Script Access to the Cultural Heritage). Scratch richt zich op geschreven cultureel erfgoed en maakt op zijn beurt deel uit van een nationaal onderzoek naar methoden om alle cultureel erfgoed eenvoudig toegankelijk te maken. Van potscherven tot muntencollecties en oude handschriften. Scratch is vooral gericht op de praktische toepassing van het digitaal ontsluiten van oude handschriften. Morph is fundamenteel van aard omdat het de vraag probeert te beantwoorden hoe je computers kunt ‘leren’ om regelmaat te ontdekken in  massale hoeveelheden analoge gegevens zoals oude handschriften.

Noot voor de pers

Meer informatie: Lambert Schomaker, hoogleraar Kunstmatige Intelligentie, tel: 050-363 79 08, e-mail: schomaker@ai.rug.nl

Laatst gewijzigd:15 september 2017 15:23

Meer nieuws

  • 20 juli 2018

    Cursussen bij het Talencentrum, september-december 2018

    Het Talencentrum van de Rijksuniversiteit Groningen biedt in de cursusperiode september-december 2018 weer veel cursussen aan: Nederlands voor anderstaligen, Nederlands voor Nederlandstaligen, Engels, Moderne Vreemde Talen en Interculturele Communicatie...

  • 18 juli 2018

    ​Vanaf 2019 masteropleiding Mechanical Engineering

    De Rijksuniversiteit Groningen (RUG) start in het collegejaar 2019-2020 met een masteropleiding Mechanical Engineering; oftewel werktuigbouwkunde. Nadat de Commissie Doelmatigheid Hoger Onderwijs eerder dit jaar de opleiding goedkeurde, heeft de Nederlands-Vlaamse...

  • 17 juli 2018

    Wout van Bekkum, portret van een pionier

    Moeiteloos vindt hij zijn weg in Jeruzalem en in de National Library daar komt hij net zoveel bekenden tegen als in de Universiteitsbibliotheek van Groningen. Wout van Bekkum, hoogleraar Midden-Oostenstudies, is kind aan huis in de bibliotheek op de...