Learning from Data

Faculteit Letteren
Jaar 2021/22
Vakcode LIX016M05
Vaknaam Learning from Data
Voertaal Engels
Periode semester I a
ECTS 5
Rooster rooster.rug.nl

Uitgebreide vaknaam Learning from Data
Leerdoelen De cursus is sterk gericht op de praktijk, zodat van studenten wordt verwacht dat zij in staat zijn om machine learning experimenten kunnen uitvoeren op een gegeven (NLP) probleem. Zij zullen zich de belangrijkste concepten en terminologie van machinaal leren beheersen, training- en testprocedures begrijpen, en bestaande tools die machine learning experimenten ondersteunen - meer specifiek, ze zullen gewend raken aan het gebruik van bestaande bibliotheken en software, en het voorbereiden van data daarvoor. Bij het opzetten van een experiment voor een bepaalde taak, zullen zij in staat zijn te beslissen hoe een probleem moet worden voorgesteld, kenmerken voor het leren en een geschikt algoritme te kiezen en te implementeren, en de resultaten kritisch te interpreteren, door inzicht te verwerven in de evaluatiemetriek en in mogelijke bronnen van fouten (overfitting, weinig gegevens, enz.). Zij zullen ook weten hoe zij op passende wijze verslag moeten uitbrengen over de experimenten die zij hebben uitgevoerd, zoals dat in academische publicaties gebeurt.
Omschrijving Dit is een cursus over hoe modellen te leren van (grote hoeveelheden) data, met specifieke aandacht voor taaldata en Natural Language Processing (NLP) toepassingen. De cursus brengt een evenwicht theorie en praktijk, door zowel conceptuele als implementatie aspecten te behandelen. Dit is geen theoretische cursus over de wiskundige aspecten van leren, eerder een cursus gericht op het uitrusten van de studenten met praktische vaardigheden om machine learning experimenten uit te voeren, voortbouwend op een solide theoretische achtergrond. Theorie wordt behandeld tijdens de lezingen, die de belangrijkste kwesties en onderwerpen in verband met machinaal leren voor NLP, zoals de algemene instellingen van een leerexperiment, de belangrijkste algoritmen gebruikt in classificatie, zowel supervised als unsupervised (Naive Bayes, Decision Trees, SVM, KNN, lineaire regressie, perceptron, clustering), en het concept van feature en feature selectie. Ook evaluatiekwesties worden geïntroduceerd, zoals metriek, maar ook foutinterpretatie, om te begrijpen wat er fout gaat in theorie en praktijk (overfitting, hoeveelheid trainingsdata). Semi-gesuperviseerd leer technieken zoals leren op afstand actief leren en co-training worden ook besproken. We wijden ook twee volle weken aan de introductie van Neurale Netwerken en het werken ermee. Implementatie komt aan bod in de wekelijkse opdrachten, altijd gerelateerd aan de onderwerpen die in de les behandeld worden, die tijdens de Labs besproken en uitgewerkt worden. De studenten zullen leren om ML bibliotheken te gebruiken die Python van nature gebruiken, zoals NLTK en Scikit Learn. Voor de Neurale Netwerk-gerelateerde delen van de cursus, zullen we gebruik maken van de Keras en Gensim bibliotheken. Een laatste groter project zorgt ervoor dat zowel theorie als praktijk worden gebruikt om een werkend systeem op een echt (NLP) probleem.
Uren per week 4
Onderwijsvorm hoorcollege, werkcollege
Toetsvorm computeropdrachten, verslag, wekelijkse opdrachten
Vaksoort master
Coördinator R.I.K. van Noord, PhD.
Docent(en) student-assistent , R.I.K. van Noord, PhD.
Entreevoorwaarden
Opmerkingen
Opgenomen in
Opleiding Jaar Periode Type
Course units for exchange students 4 semester I a mast
MSc Computing Science: Data Science and Systems Complexity  (Guided choice course units) - semester I a keuze
Ma Communicatie- en Informatiewetenschappen  (Information Science) 1 semester I a keuze
ReMa Taalwetenschappen / Linguistics  (ReMa Language and Communication Technologies (LCT); Erasmus Mundus) 1 semester I a keuzegroep