Toward pragmatic inference in machines: relation-aware multimodal modeling of sarcasm in conversation

Computers en het begrijpen van sarcasme
Menselijke communicatie betekent vaak meer dan alleen de woorden die worden uitgesproken. Een zin als ‘Bedankt dat je op tijd bent’ kan echte dankbaarheid uitdrukken, maar kan het tegenovergestelde betekenen wanneer die wordt gezegd tegen iemand die te laat komt, vooral met een vlakke toon of een rollende blik. Xiyuan Gao onderzocht hoe ook computers de bedoelde betekenis in gesproken interactie beter kunnen begrijpen. Het doel is niet een allesbepalende sarcasmedetector te bouwen, maar sarcasme te gebruiken als een duidelijk voorbeeld van een bredere uitdaging: taaltechnologie helpen omgaan met situaties waarin de letterlijke woorden niet genoeg zijn. Al met al draagt dit onderzoek bij aan meer mensgerichte taaltechnologie: systemen die niet alleen verwerken wat mensen zeggen, maar ook helpen interpreteren wat zij bedoelen.
Mensen begrijpen verborgen betekenissen in sarcastische opmerkingen meestal door woorden te combineren met toon, gezichtsuitdrukking, lichaamstaal en sociale context. Huidige taaltechnologie leunt echter nog sterk op tekst en heeft vaak moeite met betekenis die afhangt van hoe iets wordt gezegd. In het onderzoek van Gao wordt sarcasme gebruikt als testcase, omdat het vaak zichtbaar wordt in de manier waarop woorden, stem en visueel gedrag samenwerken: soms versterken ze elkaar, soms dragen ze verschillende stukjes informatie bij, en soms ontstaat er een contrast waardoor de bedoelde betekenis verandert. Het onderzoek bekijkt hoe tekst, audio en visuele signalen kunnen worden gecombineerd in computermodellen, zodat deze modellen sarcastische betekenis beter kunnen begrijpen en betrouwbaarder blijven bij verschillende sprekers en talen.
De resultaten laten zien dat de stem op zichzelf al belangrijke aanwijzingen kan geven voor het herkennen van communicatieve bedoeling. Ook blijkt dat het combineren van tekst, audio en visuele informatie betere resultaten kan opleveren wanneer het model is ontworpen om vast te leggen hoe deze signalen op elkaar inwerken, in plaats van simpelweg meer kenmerken samen te voegen. Terwijl huidige taaltechnologie vaak uitgaat van het idee dat meer data automatisch tot betere prestaties leidt, laat dit proefschrift zien dat meer data alleen helpt wanneer de toegevoegde voorbeelden de betekenisdragende signalen van echte communicatie behouden. Het proefschrift introduceert daarnaast een Mandarijnse multimodale sarcasmedataset, waaruit blijkt dat systemen die vooral op Engels zijn getraind, moeten worden aangepast voordat ze betekenis in andere talen betrouwbaar kunnen interpreteren.