Skip to ContentSkip to Navigation
Over onsFaculteit der LetterenOrganisatieLetteren & Samenleving

Tussen mens en machine

Uiteraard is de computer niet meer weg te denken uit onze communicatieve samenleving. We gebruiken hem niet alleen als middel om met andere mensen te communiceren, maar we communiceren ook met computers zelf. Dat gaat natuurlijk niet altijd even goed. U kunt lachen om kromme vertalingen op Google translate en gefrustreerd raken over de spraakherkenning die uw woonplaats keer op keer verhaspelt. Maar de communicatie tussen mens en machine wordt alleen maar beter en daarmee nemen ook de mogelijkheden toe. Daarom is het vakgebied van de computationele taalkunde ook zo interessant en belangrijk.

Computationele taalkunde houdt zich bezig met hoe computers natuurlijke (dus menselijke) taal verwerken. Deze CLCG-onderzoekers begeven zich op het grensgebied tussen taalkunde en informatica en houden zich bezig met zowel theoretische, experimentele als toegepaste vragen. We tonen u hier twee voorbeelden die laten zien hoe onze onderzoekers werken aan maatschappelijk relevante projecten.

Wat kunnen computers leren van menselijke vertalers?
Wat kunnen computers leren van menselijke vertalers?

Vertalen is van grote betekenis

Vertalen is een lastige klus, dat weet hoogleraar Computationele Semantiek Johan Bos inmiddels goed. Er komt veel meer bij kijken dan woord voor woord letterlijk omzetten en rekening houden met verschillende woordvolgordes van talen. Kijk bijvoorbeeld naar “having a chat'', als je dat letterlijk vertaalt naar “een praatje hebben'' is er iets wezenlijks veranderd in de betekenis. Dus dit vinden we geen goede vertaling. Maar wat maakt iets precies een goede vertaling en hoe leer je een computer met deze subtiele verschillen om te gaan? Bos’ NWO VICI-project “Lost in translation, found in meaning” (2015-2020) richt zich op allerlei aspecten van vertalingen en de rol van betekenis daarin.

Zijn groep van zes onderzoekers bouwt o.a. aan The Parallel Meaning Bank, een grote database met bijna een miljoen Engelse zinnen, die door mensen zijn vertaald in het Nederlands, Duits en Italiaans. Het betrekken van meer talen biedt nieuwe mogelijkheden. Tot nu toe is er bij de betekenisanalyse van taal door computers vooral naar het Engels gekeken, maar juist de verschillen tussen talen kunnen meer inzicht geven in het proces en de weg vrijmaken voor allerlei toepassingen wereldwijd.

In The Parallel Meaning Bank genereert de computer van elke afzonderlijke zin via een taalkundige analyse een betekenis. Daarna kun je via een automatische analyse zoeken naar verschillen tussen vertalingen. Je verwacht dat vertaalde zinnen precies dezelfde betekenis zullen hebben, maar menselijke vertalers blijken vaak veel vrijer met zinnen om te gaan. Ze laten soms zelfs dingen weg of voegen andere informatie toe, kleine veranderingen die een vertaling verder van de oorsprong lijken te brengen en toch natuurlijker aanvoelen. Kijk bijvoorbeeld eens naar deze Engelse zin: “He removed the dishes from the table.” Een letterlijke vertaling in het Nederlands levert de grammaticale zin “Hij verwijderde het vaatwerk van de tafel.” Maar welke Nederlander zegt dat nou? U zegt ook vast “Hij ruimde de tafel af.” Het vaatwerk is ineens uit de zin verdwenen, kennelijk zit dat besloten in afruimen!

Interessante kwesties waar een zelflerend computersysteem lang aan kan rekenen en wel wat hulp van mensen bij kan gebruiken. Er is een lange weg te gaan, maar via dit project hopen we beter te begrijpen wat menselijke vertalers nu precies doen en hoe dat uiteindelijk ook computervertalingen kan verbeteren.

Gosse Bouma (portret gemaakt door studenten Linguistics)
Gosse Bouma (portret gemaakt door studenten Linguistics)

Op zoek naar goede antwoorden

Een andere vorm van communicatie tussen mens en machine vindt plaats in vraag en antwoordsessies. Je vraagt bijvoorbeeld je persoonlijke assistent op je telefoon om uit te zoeken bij welke club een voetballer speelt. Het systeem zoekt door grote tekstbestanden op het web naar combinaties van voetballer en clubs, telt de meest voorkomende en komt zo snel tot het meest waarschijnlijke antwoord. Gosse Bouma was jaren geleden al bezig met dit soort toepassingen. Dat begon met relatief eenvoudige vragen, zoals de bovenstaande, en handmatige manieren om te zoeken naar de juiste verbanden in grote tekstbestanden. Natuurlijk was hij daarbij als taalkundige geïnteresseerd in hoe grammatica kon helpen om moeilijker vragen aan te kunnen en het aantal foute antwoorden terug te dringen. Ondertussen stond de ontwikkeling van zoekmethoden niet stil en kon er gemakkelijker gezocht worden naar patronen.

Dankzij het NWO KIEM-project Direct ter zake (2015) kon Bouma zich verder verdiepen in dit terrein. In KIEM-projecten stimuleert NWO de samenwerking tussen onderzoekers en de creatieve industrie bij het zoeken naar nieuwe kennis en toepassingen. In dit geval vroeg de startup Bert Alkemade Creatieve Interactie zich af hoe computerzoeksystemen zouden kunnen helpen om professionals op een automatische manier van goede informatie te voorzien. Zo’n praktijktoepassing gaf het onderzoek richting en liet meteen zien wat er moeilijk én belangrijk is. Hoe ga je om met ingewikkelde concepten en ambtelijke teksten? Wat is nog een acceptabele foutmarge voor gebruikers?

De samenwerking beviel goed. Inmiddels is Bouma samen met Sokrates Technologies gestart met een volgend KIEM-project. Sokrates Technologies wil graag een software toepassing ontwikkelen die hulporganisaties in staat stelt om snel gerichte informatie te vinden in de VN database Reliefweb. Dat is een belangrijke bron van informatie over crises in de wereld en het is natuurlijk van levensbelang dat hulporganisaties snel alle relevante informatie paraat hebben bij een ebola-uitbraak of overstroming. De partners zullen dit keer gebruik gaan maken van deep learning, een methode die mogelijk maakt dat het systeem zichzelf kan trainen.

Laatst gewijzigd:29 juni 2017 16:37