Datafusion

Miljoenen consumenten geven elke dag weer via internet en andere kanalen hun mening over de producten die ze gebruiken. Al die meningen bevatten veel nuttige informatie die bedrijven graag gebruiken als input bij de ontwikkeling van nieuwe producten. De Rijksuniversiteit Groningen (COPE) en de Technische Universiteit Eindhoven hebben samen met het bedrijfsleven nieuwe tools ontwikkeld voor het analyseren en classificeren van deze grote aantallen korte, ongestructureerde teksten met vaak informeel woordgebruik.

Nieuwe tools voor tekstanalyse zorgen voor versnelde productontwikkeling

De druk op productontwikkeling is de afgelopen jaren enorm toegenomen. De wereldwijde concurrentie groeit en groeit, innovaties volgen elkaar steeds sneller op en bedrijven maken meer en meer haast om producten snel op de markt te brengen. Tegelijkertijd stellen klanten steeds hogere eisen aan de prestaties van producten.

Ontwikkelafdelingen hebben daarom behoefte aan meer feedback van consumenten; feedback die bovendien gedetailleerder en eerder beschikbaar is dan gebruikelijk. Traditionele feedback-kanalen zoals serviceafdelingen kunnen echter niet in die behoefte voorzien. De informatie die ze leveren, is vaak pas beschikbaar als de derde generatie van het product al op de markt is. Bovendien ontbreekt vaak de kwaliteit die nodig is om mismatches tussen technische specificaties en eisen van consumenten bloot te leggen.

Internet biedt wellicht uitkomst. Productvergelijkingswebsites en social media zoals Twitter en Facebook maken het consumenten steeds gemakkelijker om feedback over producten te geven. Het is voor veel bedrijven echter onbegonnen werk om alle feedback - vaak alleen beschikbaar in de vorm van platte tekst - handmatig te scannen, te analyseren en om te zetten in nuttige informatie. In het bedrijfsleven bestaat daarom een grote behoefte aan slimme en snelle tools waarmee grote hoeveelheden tekst omgezet kunnen worden in bruikbare kennis.

Ongestructureerde teksten met emotie

De Rijksuniversiteit Groningen (COPE) en Technische Universiteit Eindhoven hebben samen met vijf fabrikanten van eindproducten vijf jaar lang onderzoek gedaan naar de feedback van consumenten en de mogelijkheden om die te analyseren en te vertalen in informatie. Dit onderzoek is mede gefinancierd door het Ministerie van Economische Zaken in het kader van het onderzoeksprogramma IOP-ICPR.

Eén van de eerste constateringen was dat veel feedback niet alleen betrekking had op het product, maar ook op de dienstverlening eromheen. Denk aan bedrijven die de belofte ‘niet goed, geld terug’ doen, maar die vervolgens – althans in de ogen van de klant die online zijn grieven uit – niet nakomt. Gaandeweg is de scope van het onderzoeksproject daarom verbreed tot meer dan alleen feedback over producten.

Daarnaast blijkt dat veel feedback bestaat uit korte, ongestructureerde teksten zonder interpunctie, vaak doordrenkt met emotie, waarin veel specifieke termen worden gebruikt. Dat maakt het nagenoeg onmogelijk om de teksten met bestaande tools voor tekstanalyse te ontrafelen en te classificeren.

Nieuwe technieken en tools

De bijdrage van COPE heeft zich met name op dit laatste onderwerp geconcentreerd. Dat heeft geleid tot de ontwikkeling van een aantal technieken om teksten verschillende bronnen te onttrekken en te clusteren, waarbij gebruik is gemaakt van algoritmes uit het vakgebied natural language processing (NLP). Uit testen met echte teksten blijkt dat de ontwikkelde algoritmes goede prestaties leveren.

De deelnemende bedrijven hebben de beschikking gekregen over nieuwe technieken en algoritmes die inmiddels in de praktijk worden toegepast. Met enkele bedrijven is samenwerking ook na het formele einde van het onderzoeksproject voortgezet, met de bedoeling de ontwikkelde tools nog verder te ontwikkelen en implementeren.

Deelonderzoek analyseren van teksten met fouten en zonder punten

Technieken voor het automatisch scannen, analyseren en classificeren van teksten bestaan al langer. In de wetenschap zijn hiervoor in de loop der jaren verschillende algoritmes ontwikkeld. “Probleem is alleen dat deze algoritmes zijn ontwikkeld voor goed geschreven, grammaticaal correcte teksten. Veel feedback van consumenten is echter alleen beschikbaar in de vorm van informele teksten, vaak kort en ongestructureerd zonder interpunctie, en wellicht met spelfouten. Voor dat soort teksten bestonden nog geen algoritmes”, vertelt Ashwin Ittoo, die aan de Rijksuniversiteit Groningen gepromoveerd is op dit onderwerp en nu universitair docent is aan de Universiteit van Luik.

Ittoo heeft zich in zijn onderzoek geconcentreerd op bestaande teksten van service centers, repair centers en call centers en op de product reviews op Amazon.com. Dat gaat om data uit gestructureerde databases, maar ook om losse aantekeningen van monteurs en productontwikkelaars. De algoritmes die Ittoo heeft ontwikkeld, zijn gevat in tools die door de aangesloten partijen zijn gebruikt. “Ze blijken goed te werken, niet alleen voor ongestructureerde maar ook voor gestructureerde teksten. Met Philips Consumer Lifestyle gaan we daarom nu nog een stap verder”, vertelt Ittoo, die veel potentie ziet voor zijn tools. Via social media zoals Twitter en Facebook plaatsen consumenten doorlopend commentaar over producten. “Voor de teksten op social media hebben we mijn algoritmes nog niet getest. Dat is de volgende stap.”