- Area Economico-Statistica
- Corso di Laurea Magistrale
- Scienze Statistiche ed Economiche [F8204B]
- Insegnamenti
- A.A. 2024-2025
- 2° anno
- Data Mining M
- Introduzione
Syllabus del corso
Obiettivi formativi
Il corso si pone come obiettivo l'approfondimento di tecniche per l'analisi dei dati e di data mining e il perfezionamento delle abilità di modellizzazione con finalità previsiva, con relative implementazioni nell’ambiente di programmazione R.
Il corso contribuisce al raggiungimento degli obiettivi formativi nell’area di apprendimento del CdS: “Statistica”.
Contenuti sintetici
Il programma dettagliato è disponibile nella pagina web del corso. Gli argomenti principali sono:
- A-B-C: modelli lineari ed aspetti computazionali
- Compromesso distorsione e varianza, ottimismo
- Selezione del modello e metodi penalizzati per modelli lineari (regressione ridge, lasso, elastic-net)
- Regressione nonparametrica (regressione lineare locale, splines di regressione e di lisciamento)
- Modelli additivi (GAM and MARS)
Programma esteso
-
A-B-C
- Il modello lineare e: ripasso e notazione
- Equazioni normali, scomposizione di Cholesky ed algoritmi efficienti per i minimi quadrati
- Scomposizione QR, metodo delle ortogonalizzazioni successive
- Minimi quadrati iterati
- Modelli lineari generalizzati: ripasso e notazione
-
Compromesso distorsione e varianza, ottimismo
- Regressione polinomiale
- Insieme di stima ed insieme di verifica
- Ottimismo, compromesso distorsione varianza, indice di Mallows
- Convalida incrociata e convalida incrociata generalizzata
- Criteri di informazione (AIC, BIC, etc.)
-
Selezione del modello e metodi penalizzati per modelli lineari
- Best subset selection
- Regressione tramite componenti principali
- Regressione ridge
- Regressione LARS e Lasso
- Elastic-net
-
Regressione nonparametrica
- Regressione lineare locale
- Splines di regressione e di lisciamento
- Regressione nonparametrica, caso bivariato
- Maledizione della dimensionalità
-
Modelli additivi
- Generalized Additive Models (GAM)
- Multivariate Adaptive Regression Splines (MARS)
Prerequisiti
È richiesta la conoscenza di (i) nozioni di algebra lineare, (ii) modelli di regressione lineare, (iii) modelli di regressione lineare generalizzati (GLM), (iv) inferenza statistica, (v) calcolo delle probabilità. È inoltre richiesta una solida conoscenza del software R.
Si raccomanda inoltre la conoscenza degli argomenti avanzati di probabilità e statistica inferenziale trattati nei corsi Probabilità e Statistica Computazionale M e Statistica Avanzata M.
Metodi didattici
Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.
Le 47 ore di didattica saranno così suddivise:
- 35 ore di lezione svolte in modalità erogativa in presenza;
- 12 ore di attività di laboratorio svolte in modalità interattiva da remoto.
Modalità di verifica dell'apprendimento
L'esame è composto da due parti, entrambe obbligatorie:
- (20 punti su 30) Prova scritta a domande aperte, in cui vengono valutati gli aspetti teorici del corso.
- (10 punti su 30) Progetto individuale (data challenge).
Il voto finale è dato dalla somma dei punteggi delle due parti.
Nella seconda metà del corso viene annunciata il tema del progetto individuale (data challenge). Gli studenti dovranno produrre ed inviare al docente delle previsioni relative al caso studio assegnato, congiuntamente ad una relazione di 4-5 pagine. Il materiale del progetto deve essere inviato al docente prima dell'esame scritto e ha validità di un anno, a partire dal momento in cui la competizione è stata annunciata.
Testi di riferimento
Riferimenti principali
- Azzalini, A. and Scarpa, B. (2011), Data Analysis and Data Mining, Oxford University Press.
- Hastie, T., Tibshirani, R. and Friedman, J. (2009), The Elements of Statistical Learning, Second Edition, Springer.
Approfondimenti
- Efron, B. and Hastie, T. (2016), Computer Age Statistical Inference, Cambridge University Press.
- Lewis, Kane, Arnold (2019) A Computational Approach to Statistical Learning. Chapman And Hall/Crc.
Ulteriore materiale didattico verrà messo a disposizione nella pagina web del corso.
Periodo di erogazione dell'insegnamento
Secondo semestre
Lingua di insegnamento
Inglese
Sustainable Development Goals
Learning objectives
The course aims to provide data analysis and data mining tecniques and to improve predictive modelling skills by using the R software environment for statistical computing.
The course contributes to the achievement of the training objectives in the learning area of: "Statistics".
Contents
The detailed program of the course is available at course web page. The main topics are:
- A-B-C: linear models and computational aspects
- Overfitting, bias and variance tradeoff, optimism
- Model selection and penalized methods for linear models (best subset regression, ridge regression, lasso, elastic-net)
- Nonparametric estimation (local linear regression, regression and smoothing splines)
- Additive models (GAM and MARS)
Detailed program
-
A-B-C
- Linear models and the modelling process
- Cholesky factorization
- Orthogonalization and QR decomposition
- Iterative methods
- Generalized linear models
-
Optimism, conflicts, and trade-offs
- Polynomial regression
- Training and test set
- Bias-variance trade-off, optimism
- Cross-validation and generalized cross-validation
- Information criteria (AIC, BIC, etc.)
-
Shrinkage and variable selection
- Best subset selection
- Principal components regression
- Ridge regression
- LARS and Lasso
- Elastic-net
-
Nonparametric regression
- Local linear regression
- Regression and smoothing splines
- Nonparametric regression: bivariate case
- The curse of dimensionality
-
Additive models
- Generalized Additive Models (GAM)
- Multivariate Adaptive Regression Splines (MARS)
Prerequisites
Knowledge of the topics (i) linear algebra, (ii) linear models, (iii) generalized linear models (GLMs), (iv) inferential statistics, and (v) probability theory, is required. Moreover, it is required a solid knowledge of the R software.
Knowledge of topics covered in the courses Probability and Statistics M and Advanced Statistics M, i.e. advanced probability and inferential statistics, is also highly recommended.
Teaching methods
Lessons are held both in classroom and in lab, integrating theoretical principles with practicals aspects of data analysis and programming in R.
The 47 hours of teaching are organized as follows:
- 35 hours of lectures, in person;
- 12 hours of laboratory activities conducted interactively and remotely.
Assessment methods
The exam is made of two parts:
- (20/30) Written examination (open questions): a pen-and-paper exam about the theoretical aspects of the course.
- (10/30) Individual assignment: a data challenge.
The final grade is obtained as the sum of the above scores.
You will be given a prediction task, and you will need to submit your predictions about the assigned case study and produce a report of about 4-5 pages. The data challenge will be announced in the second half of the course. Both parts are mandatory and you need to submit the assignment before attempting the written part. The report expires after one year from the moment the competition has been announced.
Textbooks and Reading Materials
Required
- Azzalini, A. and Scarpa, B. (2011), Data Analysis and Data Mining, Oxford University Press.
- Hastie, T., Tibshirani, R. and Friedman, J. (2009), The Elements of Statistical Learning, Second Edition, Springer.
Optional
- Efron, B. and Hastie, T. (2016), Computer Age Statistical Inference, Cambridge University Press.
- Lewis, Kane, Arnold (2019) A Computational Approach to Statistical Learning. Chapman And Hall/Crc.
Additional teaching material will be made available in the course website.
Semester
Second semester
Teaching language
English