Skip to main content
If you continue browsing this website, you agree to our policies:
  • Condizioni di utilizzo e trattamento dei dati
Continue
x
e-Learning - UNIMIB
  • Home
  • Calendar
  • My Media
  • More
Listen to this page using ReadSpeaker
You are currently using guest access
 Log in
e-Learning - UNIMIB
Home Calendar My Media
Percorso della pagina
  1. Economics
  2. Master Degree
  3. Scienze Statistiche ed Economiche [F8206B - F8204B]
  4. Courses
  5. A.A. 2025-2026
  6. 1st year
  1. Data Mining M
  2. Summary
Insegnamento Course full name
Data Mining M
Course ID number
2526-1-F8206B007
Course summary SYLLABUS

Course Syllabus

  • Italiano ‎(it)‎
  • English ‎(en)‎
Export

Obiettivi formativi

Il corso si pone come obiettivo l'approfondimento di tecniche per l'analisi dei dati e di data mining e il perfezionamento delle abilità di modellizzazione con finalità previsiva, con relative implementazioni nell’ambiente di programmazione R.

Il corso fornisce una preparazione avanzata sull’analisi statistica dei modelli di regressione, con un equilibrio tra aspetti teorici, computazionali e applicativi. Dopo un richiamo al modello lineare e ai suoi algoritmi efficienti, vengono trattati metodi per la selezione del modello, la gestione del compromesso distorsione-varianza e i principali approcci penalizzati. Il corso approfondisce inoltre tecniche di regressione flessibili utili per modellare relazioni complesse. Gli studenti acquisiranno competenze per applicare in modo critico tali metodi a problemi reali, consolidando l’autonomia di giudizio nell’ambito dell’inferenza statistica, in linea con l’area "Statistica" del corso di laurea magistrale in Scienze Statistiche ed Economiche.

Contenuti sintetici

Il programma dettagliato è disponibile nella pagina web del corso. Gli argomenti principali sono:

  • A-B-C: modelli lineari ed aspetti computazionali
  • Compromesso distorsione e varianza, ottimismo
  • Selezione del modello e metodi penalizzati per modelli lineari (regressione ridge, lasso, elastic-net)
  • Regressione nonparametrica (regressione lineare locale, splines di regressione e di lisciamento)
  • Modelli additivi (GAM and MARS)

Programma esteso

  • A-B-C
    • Il modello lineare e: ripasso e notazione
    • Equazioni normali, scomposizione di Cholesky ed algoritmi efficienti per i minimi quadrati
    • Scomposizione QR, metodo delle ortogonalizzazioni successive
    • Minimi quadrati iterati
    • Modelli lineari generalizzati: ripasso e notazione
  • Compromesso distorsione e varianza, ottimismo
    • Regressione polinomiale
    • Insieme di stima ed insieme di verifica
    • Ottimismo, compromesso distorsione varianza, indice di Mallows
    • Convalida incrociata e convalida incrociata generalizzata
    • Criteri di informazione (AIC, BIC, etc.)
  • Selezione del modello e metodi penalizzati per modelli lineari
    • Best subset selection
    • Regressione tramite componenti principali
    • Regressione ridge
    • Regressione LARS e Lasso
    • Elastic-net
  • Regressione nonparametrica
    • Regressione lineare locale
    • Splines di regressione e di lisciamento
    • Regressione nonparametrica, caso bivariato
    • Maledizione della dimensionalità
  • Modelli additivi
    • Generalized Additive Models (GAM)
    • Multivariate Adaptive Regression Splines (MARS)

Prerequisiti

È richiesta la conoscenza di (i) nozioni di algebra lineare, (ii) modelli di regressione lineare, (iii) modelli di regressione lineare generalizzati (GLM), (iv) inferenza statistica, (v) calcolo delle probabilità. È inoltre richiesta una solida conoscenza del software R.

Si raccomanda inoltre la conoscenza degli argomenti avanzati di probabilità e statistica inferenziale trattati nei corsi Probabilità e Statistica Computazionale M e Statistica Avanzata M.

Metodi didattici

Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.

Le 47 ore di didattica saranno così suddivise:

  • 35 ore di lezione svolte in modalità erogativa in presenza;
  • 12 ore di attività di laboratorio svolte in modalità interattiva da remoto.

Modalità di verifica dell'apprendimento

L'esame è composto da due parti, entrambe obbligatorie:

  • (20 punti su 30) Prova scritta a domande aperte, in cui vengono valutati gli aspetti teorici del corso.
  • (10 punti su 30) Progetto individuale (data challenge).

Il voto finale è dato dalla somma dei punteggi delle due parti.

Nella seconda metà del corso viene annunciata il tema del progetto individuale (data challenge). Gli studenti dovranno produrre ed inviare al docente delle previsioni relative al caso studio assegnato, congiuntamente ad una relazione di 4-5 pagine. Il materiale del progetto deve essere inviato al docente prima dell'esame scritto e ha validità di un anno, a partire dal momento in cui la competizione è stata annunciata.

Testi di riferimento

Riferimenti principali

  • Azzalini, A. and Scarpa, B. (2011), Data Analysis and Data Mining, Oxford University Press.
  • Hastie, T., Tibshirani, R. and Friedman, J. (2009), The Elements of Statistical Learning, Second Edition, Springer.

Approfondimenti

  • Efron, B. and Hastie, T. (2016), Computer Age Statistical Inference, Cambridge University Press.
  • Lewis, Kane, Arnold (2019) A Computational Approach to Statistical Learning. Chapman And Hall/Crc.

Ulteriore materiale didattico verrà messo a disposizione nella pagina web del corso.

Periodo di erogazione dell'insegnamento

Secondo semestre

Lingua di insegnamento

Inglese

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ
Export

Learning objectives

The course aims to provide data analysis and data mining tecniques and to improve predictive modelling skills by using the R software environment for statistical computing.

The course provides advanced training in statistical regression analysis, balancing theoretical, computational, and applied aspects. After a review of the linear model and efficient algorithms for its implementation, the course covers model selection methods, the bias-variance trade-off, and key penalized approaches. It also explores flexible regression techniques suitable for capturing complex relationships in data. Students will develop the skills to critically apply these methods to real-world problems, strengthening their independent judgment in advanced statistical inference, in line with the “Statistics” area of the Master's program in Statistical and Economic Sciences.

Contents

The detailed program of the course is available at course web page. The main topics are:

  • A-B-C: linear models and computational aspects
  • Overfitting, bias and variance tradeoff, optimism
  • Model selection and penalized methods for linear models (best subset regression, ridge regression, lasso, elastic-net)
  • Nonparametric estimation (local linear regression, regression and smoothing splines)
  • Additive models (GAM and MARS)

Detailed program

  • A-B-C
    • Linear models and the modelling process
    • Cholesky factorization
    • Orthogonalization and QR decomposition
    • Iterative methods
    • Generalized linear models
  • Optimism, conflicts, and trade-offs
    • Polynomial regression
    • Training and test set
    • Bias-variance trade-off, optimism
    • Cross-validation and generalized cross-validation
    • Information criteria (AIC, BIC, etc.)
  • Shrinkage and variable selection
    • Best subset selection
    • Principal components regression
    • Ridge regression
    • LARS and Lasso
    • Elastic-net
  • Nonparametric regression
    • Local linear regression
    • Regression and smoothing splines
    • Nonparametric regression: bivariate case
    • The curse of dimensionality
  • Additive models
    • Generalized Additive Models (GAM)
    • Multivariate Adaptive Regression Splines (MARS)

Prerequisites

Knowledge of the topics (i) linear algebra, (ii) linear models, (iii) generalized linear models (GLMs), (iv) inferential statistics, and (v) probability theory, is required. Moreover, it is required a solid knowledge of the R software.

Knowledge of topics covered in the courses Probability and Statistics M and Advanced Statistics M, i.e. advanced probability and inferential statistics, is also highly recommended.

Teaching methods

Lessons are held both in classroom and in lab, integrating theoretical principles with practicals aspects of data analysis and programming in R.

The 47 hours of teaching are organized as follows:

  • 35 hours of lectures, in person;
  • 12 hours of laboratory activities conducted interactively and remotely.

Assessment methods

The exam is made of two parts:

  • (20/30) Written examination (open questions): a pen-and-paper exam about the theoretical aspects of the course.
  • (10/30) Individual assignment: a data challenge.

The final grade is obtained as the sum of the above scores.

You will be given a prediction task, and you will need to submit your predictions about the assigned case study and produce a report of about 4-5 pages. The data challenge will be announced in the second half of the course. Both parts are mandatory and you need to submit the assignment before attempting the written part. The report expires after one year from the moment the competition has been announced.

Textbooks and Reading Materials

Required

  • Azzalini, A. and Scarpa, B. (2011), Data Analysis and Data Mining, Oxford University Press.
  • Hastie, T., Tibshirani, R. and Friedman, J. (2009), The Elements of Statistical Learning, Second Edition, Springer.

Optional

  • Efron, B. and Hastie, T. (2016), Computer Age Statistical Inference, Cambridge University Press.
  • Lewis, Kane, Arnold (2019) A Computational Approach to Statistical Learning. Chapman And Hall/Crc.

Additional teaching material will be made available in the course website.

Semester

Second semester

Teaching language

English

Sustainable Development Goals

QUALITY EDUCATION
Enter

Key information

Field of research
SECS-S/01
ECTS
6
Term
Second semester
Activity type
Mandatory to be chosen
Course Length (Hours)
47
Degree Course Type
2-year Master Degreee
Language
English

Staff

    Teacher

  • Immagine profilo
    Tommaso Rigon

Students' opinion

View previous A.Y. opinion

Bibliography

Find the books for this course in the Library

Enrolment methods

Manual enrolments

Sustainable Development Goals

QUALITY EDUCATION - Ensure inclusive and equitable quality education and promote lifelong learning opportunities for all
QUALITY EDUCATION

You are currently using guest access (Log in)
Policies
Get the mobile app
Powered by Moodle
© 2025 Università degli Studi di Milano-Bicocca
  • Privacy policy
  • Accessibility
  • Statistics