- Data Mining
- Summary
Course Syllabus
Obiettivi formativi
Il corso si pone come obiettivo l'acquisizione delle principali tecniche per l'esplorazione dei dati (data mining) e di apprendimento supervisionato (supervised learning) e la loro implementazione nell’ambiente di programmazione R. Durante il corso verrà data particolare enfasi al processo di modellazione dei dati per la previsione (predictive modelling).
Alla fine del corso lo studente sarà in grado di affrontare l'analisi di dati complessi a fini previsivi attraverso il processo di esplorazione, manipolazione e modellazione dei dati.
Contenuti sintetici
Il corso integra considerazioni di carattere teorico con aspetti pratico-applicativi di analisi dei dati e di programmazione in R.
- Aspetti teorici: il compromesso tra distorsione e varianza, stime vincolate/penalizzate, splines e modelli additivi generalizzati, quantificazione dell'incertezza delle previsioni
- Aspetti applicativi: esplorazione, manipolazione e modellizzazione dei dati in R per la previsione
Programma esteso
- Errore di previsione: il compromesso tra distorsione e varianza
- Il modello e il processo di modellizzazione
- Stime vincolate e penalizzate: i metodi ridge, lasso e best subset selection
- Splines e modelli additivi generalizzati
- Quantificare l'incertezza delle previsioni
- Aspetti computazionali
Prerequisiti
Si consiglia la conoscenza degli argomenti trattati nei corsi Probabilità e Statistica Computazionale M e Statistica Avanzata M.
Metodi didattici
Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.
Nel periodo di emergenza Covid-19 le lezioni si svolgeranno in modalità da remoto asincrono, eventualmente con eventi in videoconferenza sincrona e/o in presenza fisica.
Modalità di verifica dell'apprendimento
La modalità di verifica si basa su una prova finale con orale facoltativo. La prova finale è composta da due parti:
- Prova scritta: domande di teoria ed esercizi
- Homework
Il voto della prova finale è dato dalla media pesata delle parti 1. e 2. Qualora lo studente (oppure i docenti) richiedano la prova orale, il voto finale è una media dei voti della prova finale e della prova orale.
La prova scritta (parte 1.) comprende domande di teoria ed esercizi e può prevedere l'utilizzo di un computer su cui è installato il software R o RStudio. La prova scritta ha come obiettivo la verifica della comprensione degli aspetti matematico-statistici degli argomenti trattati e delle abilità di analisi dei dati e di programmazione in R.
Gli homework (parte 2.) devono essere consegnati prima dell'appello d'esame, rispettando le scadenze indicate. Uno degli homework prevede la partecipazione ad una competizione che prevede l'analisi dei dati con finalità previsiva. Agli studenti frequentanti viene data l'opportunità di svolgere gli homework in gruppi di massimo 3 persone.
Nel periodo di emergenza Covid-19 le prove d'esame saranno solo telematiche. Verranno svolte utilizzando le piattaforme WebEx e Moodle e nella pagina e-learning dell'insegnamento verrà riportato un link pubblico per l'accesso all'esame di possibili spettatori virtuali.
Testi di riferimento
- Archivio del corso: https://github.com/aldosolari/DM
- Arnold (2019) A Computational Approach to Statistical Learning, Chapman & Hall
- Azzalini, Scarpa (2004). Analisi dei dati e data mining. Springer-Verlag Italia
- Gareth, Witten, Hastie, Tibshirani (2013). Introduction to Statistical Learning with applications in R. Springer
- Hastie, Tibshirani, Friedman (2009). The Elements of Statistical Learning. Springer
- Kuhn, Johnson (2013). Applied Predictive Modelling. Springer
- Kuhn, Johnson (2019). Feature Engineering and Selection. Chapman and Hall/CRC
- Wickham, Grolemund (2015) R for Data Science. O'Reilly Cookbooks
Periodo di erogazione dell’insegnamento
Primo semestre, primo ciclo.
Lingua di insegnamento
Le lezioni si svolgono in italiano, tuttavia la maggior parte dei libri di testo è in lingua inglese.
Learning objectives
The course aims to provide an advanced understanding of the core principles and techniques for data mining and supervised learning, and their implementation in the R software environment for statistical computing. Special emphasis will be given to applied predictive modelling.
At the end of the course, students will be able to analyse complex data sets by exploring, transforming and modelling the data.
Contents
The course integrates theoretical principles with practicals of data analysis and programming in R.
- Theory: bias-variance tradeoff, regularized estimation, splines and generalized additive models, conformal prediction
- Practice: how to get your data into R, get it into the most useful structure, transform it, visualise it and model it for prediction of future observations
Detailed program
- Prediction error and the bias-variance trade-off
- The model versus the modeling process
- Regularized estimation: ridge, lasso and best subsets
- Splines and generalized additive models
- Conformal prediction
- Computational aspects
Prerequisites
Knowledge of topics covered in the courses Probability and Statistics M and Advanced Statistics M is highly recommended.
Teaching methods
Lessons are held both in classroom and in lab, integrating theoretical principles with practicals of data analysis and programming in R.
Assessment methods
The exams consists of two parts:
- written exam
- homework
The final grade is determined by a weighted average of 1. and 2. The oral exam is optional.
Textbooks and Reading Materials
- Course repository: https://github.com/aldosolari/DM
- Arnold (2019) A Computational Approach to Statistical Learning, Chapman & Hall
- Azzalini, Scarpa (2004). Analisi dei dati e data mining. Springer-Verlag Italia
- Gareth, Witten, Hastie, Tibshirani (2013). Introduction to Statistical Learning with applications in R. Springer
- Hastie, Tibshirani, Friedman (2009). The Elements of Statistical Learning. Springer
- Kuhn, Johnson (2013). Applied Predictive Modelling. Springer
- Kuhn, Johnson (2019). Feature Engineering and Selection. Chapman and Hall/CRC
- Wickham, Grolemund (2015) R for Data Science. O'Reilly Cookbooks
Semester
First semester, first cycle.
Teaching language
The lessons are held in Italian, but most of the textbooks are in English.