Project tekstanalyse
Faculteit | Letteren |
Jaar | 2022/23 |
Vakcode | LIX017P05 |
Vaknaam | Project tekstanalyse |
Voertaal | Engels |
Periode | semester II b |
ECTS | 5 |
Rooster | rooster.rug.nl |
Uitgebreide vaknaam | Project tekstanalyse | ||||||||||||
Leerdoelen | De student die de theorie en technieken uit deze cursus beheerst, zal in staat zijn om taaldata te verwerken met NLTK, van eenvoudige acties zoals tokenisatie, tot meer complexe taken zoals sense tagging tegen de WordNet database of Named Entity Recognition, eventueel met import van externe taggers. De student zal in staat zijn om annotatie van data te begrijpen, uit te voeren en te evalueren, en een project op te zetten waarbij data van nul af aan wordt gecreëerd en verwerkt. Het eindproject (met de groep) zal de student ook uitrusten met enige competenties in teamwork, en in het de-tekenen en runnen van een NLP-systeem op grotere schaal, gedeeltelijk gebruikmakend van off-the-shelf tools. De student zal zich ook bewust worden van de huidige problemen in tekstverwerking. | ||||||||||||
Omschrijving | Dit is een inleidende cursus in het verwerken van grote hoeveelheden tekstuele data. De basis van taalverwerking, zoals tokenization, POS-tagging, Named Entity Recognition, sense- tagging, etc. zal zowel vanuit een theoretisch als praktisch perspectief worden geïntroduceerd. Alle verwerkingsniveaus worden klassikaal besproken, waarbij ook de bijbehorende NLTK-functies worden getoond en vervolgens zal worden geïmplementeerd door middel van praktische opdrachten die meestal aan het einde van elk college worden uitgedeeld en waaraan vervolgens tijdens de lab-uren wordt gewerkt. Alle implementaties zullen gebeuren in Python, gebruikmakend van NLTK, een bibliotheek van Python functies speciaal ontwikkeld voor taalverwerking. Alles wat tijdens de cursus wordt geleerd vormt de bouwstenen van het eindproject, dat in groepen wordt uitgevoerd. Het project, dat van jaar tot jaar kan verschillen, zal bestaan uit het ontwikkelen van een systeem om een Natural Language Processing taak aan te pakken. Zie de studiehandleiding voor details over de opdrachten en de beoordeling. |
||||||||||||
Uren per week | 4 | ||||||||||||
Onderwijsvorm |
computerpracticum, hoorcollege
(2 uur hoorcollege, 2 uur computer practicum) |
||||||||||||
Toetsvorm | programmeeropdrachten, verslag, wekelijkse opdrachten | ||||||||||||
Vaksoort | propedeuse | ||||||||||||
Verplichte literatuur |
|
||||||||||||
Entreevoorwaarden | Na het behaald of gevolgd hebben van Tekstmanipulatie (LIX005P05) en Gevorderd Programmeren (LIX016P05). Individuele uitzonderingen kunnen worden gemaakt in overleg met de docent van het vak. | ||||||||||||
Opmerkingen | De eindbeoordeling is gebaseerd op het eindproject, een verslag en een presentatie. Het project wordt in groepen uitgevoerd, maar het verslag moet individueel worden geschreven en elke student moet zijn eigen bijdrage duidelijk specificeren. Bijdrage van elk onderdeel: 1. project: 60% verslag: 30% presentatie: 10% Het slagen voor de cursus is ondergeschikt aan het voltooien van alle wekelijkse opdrachten minus één. Let op: als je meer dan één opdracht overslaat, heb je geen recht om je eindproject project in te dienen. Gezien deze voorwaarden zal een student slagen met een cijfer >= 5,5, op voorwaarde dat het cijfer voor het project voldoende is (>= 5,5) en het cijfer voor het verslag ook voldoende is (>= 5.5). Als een herkansing nodig is, moeten de studenten een nieuwe versie inleveren van de/het gedeelte(n) van het vak dat als onvoldoende beoordeeld is (zijn). De presentatie hoeft nooit opnieuw gedaan te worden omdat het vak altijd met een onvoldoende kan worden afgesloten. |
||||||||||||
Opgenomen in |
|