- Data Mining M
- Summary
Course Syllabus
Obiettivi formativi
Il corso si pone come obiettivo l'approfondimento di tecniche per l'analisi dei dati e di data mining e il perfezionamento delle abilità di modellizzazione con finalità previsiva, con relative implementazioni nell’ambiente di programmazione R.
Contenuti sintetici
- A-B-C: modelli lineari ed aspetti computazionali
- Compromesso distorsione e varianza, ottimismo
- Selezione del modello e metodi penalizzati per modelli lineari (regressione ridge, lasso, elastic-net)
- Regressione nonparametrica (regressione lineare locale, splines di regressione e di lisciamento)
- Modelli additivi (GAM and MARS)
Programma esteso
-
A-B-C
- Il modello lineare e: ripasso e notazione
- Equazioni normali, scomposizione di Cholesky ed algoritmi efficienti per i minimi quadrati
- Scomposizione QR, metodo delle ortogonalizzazioni successive
- Minimi quadrati iterati
- Modelli lineari generalizzati: ripasso e notazione
-
Compromesso distorsione e varianza, ottimismo
- Regressione polinomiale
- Insieme di stima ed insieme di verifica
- Ottimismo, compromesso distorsione varianza, indice di Mallows
- Convalida incrociata e convalida incrociata generalizzata
- Criteri di informazione (AIC, BIC, etc.)
-
Selezione del modello e metodi penalizzati per modelli lineari
- Best subset selection
- Regressione tramite componenti principali
- Regressione ridge
- Regressione LARS e Lasso
- Elastic-net
-
Regressione nonparametrica
- Regressione lineare locale
- Splines di regressione e di lisciamento
- Regressione nonparametrica, caso bivariato
- Maledizione della dimensionalità
-
Modelli additivi
- Generalized Additive Models (GAM)
- Multivariate Adaptive Regression Splines (MARS)
Prerequisiti
È caldamente raccomandata la conoscenza di (i) nozioni di algebra lineare, (ii) modelli di regressione lineare, (iii) modelli di regressione lineare generalizzati (GLM).
Si consiglia inoltre la conoscenza degli argomenti trattati nei corsi Probabilità e Statistica Computazionale M e Statistica Avanzata M.
Metodi didattici
Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.
Modalità di verifica dell'apprendimento
L'esame è composto da due parti, entrambe obbligatorie:
- (20/30) Esame scritto, in cui vengono valutati gli aspetti teorici del corso.
- (10/30) Progetto individuale (data challenge).
Il voto finale è dato dalla somma dei punteggi delle due parti.
Nella seconda metà del corso viene annunciata il tema del progetto individuale (data challenge). Gli studenti dovranno produrre ed inviare al docente delle previsioni, congiuntamente ad un report di 4-5 pagine. Il materiale del progetto deve essere inviato al docente prima dell'esame scritto e ha validità di un anno, a partire dal momento in cui la competizione è stata annunciata.
Testi di riferimento
Riferimenti principali
- Azzalini, A. and Scarpa, B. (2011), Data Analysis and Data Mining, Oxford University Press.
- Hastie, T., Tibshirani, R. and Friedman, J. (2009), The Elements of Statistical Learning, Second Edition, Springer.
Approfondimenti
- Efron, B. and Hastie, T. (2016), Computer Age Statistical Inference, Cambridge University Press.
- Lewis, Kane, Arnold (2019) A Computational Approach to Statistical Learning. Chapman And Hall/Crc.
Ulteriore materiale didattico verrà messo a disposizione nella pagina web del corso.
Periodo di erogazione dell'insegnamento
Primo semestre
Lingua di insegnamento
Inglese
Sustainable Development Goals
Learning objectives
The course aims to provide data analysis and data mining tecniques and to improve predictive modelling skills by using the R software environment for statistical computing.
Contents
- A-B-C: linear models and computational aspects
- Overfitting, bias and variance tradeoff, optimism
- Model selection and penalized methods for linear models (best subset regression, ridge regression, lasso, elastic-net)
- Nonparametric estimation (local linear regression, regression and smoothing splines)
- Additive models (GAM and MARS)
Detailed program
-
A-B-C
- Linear models and the modelling process
- Cholesky factorization
- Orthogonalization and QR decomposition
- Iterative methods
- Generalized linear models
-
Optimism, conflicts, and trade-offs
- Polynomial regression
- Training and test set
- Bias-variance trade-off, optimism
- Cross-validation and generalized cross-validation
- Information criteria (AIC, BIC, etc.)
-
Shrinkage and variable selection
- Best subset selection
- Principal components regression
- Ridge regression
- LARS and Lasso
- Elastic-net
-
Nonparametric regression
- Local linear regression
- Regression and smoothing splines
- Nonparametric regression: bivariate case
- The curse of dimensionality
-
Additive models
- Generalized Additive Models (GAM)
- Multivariate Adaptive Regression Splines (MARS)
Prerequisites
Knowledge of the topics (i) linear algebra, (ii) linear models, and (iii) generalized linear models (GLMs), is highly recommended.
Knowledge of topics covered in the courses Probability and Statistics M and Advanced Statistics M is also highly recommended.
Teaching methods
Lessons are held both in classroom and in lab, integrating theoretical principles with practicals of data analysis and programming in R.
Assessment methods
The exam is made of two parts:
- (20/30) Written examination: a pen-and-paper exam about the theoretical aspects of the course.
- (10/30) Individual assignment: a data challenge.
The final grade is obtained as the sum of the above scores.
You will be given a prediction task, and you will need to submit your predictions and produce a report of about 4-5 pages. The data challenge will be announced in the second half of the course. Both parts are mandatory and you need to submit the assignment before attempting the written part. The report expires after one year from the moment the competition has been announced.
Textbooks and Reading Materials
Required
- Azzalini, A. and Scarpa, B. (2011), Data Analysis and Data Mining, Oxford University Press.
- Hastie, T., Tibshirani, R. and Friedman, J. (2009), The Elements of Statistical Learning, Second Edition, Springer.
Optional
- Efron, B. and Hastie, T. (2016), Computer Age Statistical Inference, Cambridge University Press.
- Lewis, Kane, Arnold (2019) A Computational Approach to Statistical Learning. Chapman And Hall/Crc.
Additional teaching material will be made available in the course website.
Semester
First semester
Teaching language
English