Generative adversarial networks for diverse and explainable text-to-image generation

Promotie:	Dhr. Z. (Zhenxing) Zhang
Wanneer:	07 februari 2023
Aanvang:	11:00
Promotor:	prof. dr. L.R.B. (Lambert) Schomaker
Copromotor:	S.H. (Hamidreza) Mohades Kasaei, PhD
Waar:	Academiegebouw RUG
Faculteit:	Science and Engineering

Betere omzetting van tekst naar beeld

Zhenxing Zhang bestudeerde algoritmes voor het genereren van afbeeldingen op basis van een tekstuele beschrijving (tekst-naar-beeld generatie), met als doel fotorealistische en semantisch consistente afbeeldingen te krijgen. Hiervoor gebruikte hij het Dual-Attention Generative-Adversarial Network (DTGAN), dat perceptueel plausibele afbeeldingen kan produceren die goed overeenkomen met een gegeven natuurlijke taalbeschrijving. In tegenstelling tot gangbare methoden wordt slechts een enkel generator/discriminator-paar gebruikt.

Zhang beschrijft maatregelen bedoeld om het gebrek aan diversiteit aan te pakken dat aanwezig is in de huidige eentraps-methoden. Dit doet hij doorDTGAN uit te breiden met een efficiënt en effectief eentraps raamwerk (DiverGAN) om meer diverse en nog steeds fotorealistische en semantisch gerelateerde afbeeldingen te produceren.

Vervolgens heeft Zhang twee nieuwe datasets geconstrueerd, bestaande uit zowel succesvolle als niet-succesvolle gesynthetiseerde samples (‘Good vs Bad’), en heeft hij classifiers getraind om ervoor te zorgen dat gegenereerde afbeeldingen van vogels en van menselijke gezichten natuurlijk, realistisch en geloofwaardig zijn.

Vervolgens onderzocht hij de latente ruimte en de linguïstische ruimte van een conditioneel tekst-naar-beeld GAN-model om een verbeterde verklaarbaarheid van het generatieproces te krijgen. Meer specifiek richtte Zhang zich op de relatie tussen de latente controleruimte en de verkregen beeldvariatie door onafhankelijke componentanalyse uit te voeren op de getrainde gewichtswaarden van de generator. Verder maakte hij een kwalitatieve analyse van de rollen die worden gespeeld door 'linguïstische' inbeddingen in de semantische ruimte van synthetisch beeld door lineaire en driehoeksinterpolatie tussen trefwoorden.

Het promotieonderzoek van Zhenxing Zhang vond plaats bij de afdeling Kunstmatige Intelligentie van het Bernoulli Instituut met financiering vanuit China. Hij werkt nu als postdoc aan de RUG.

Proefschrift: https://hdl.handle.net/11370/1f4cf491-3f28-4974-a8ee-07279a32128f