- Area Economico-Statistica
- Corso di Laurea Triennale
- Statistica e Gestione delle Informazioni [E4102B]
- Insegnamenti
- A.A. 2024-2025
- 3° anno
- Data Mining e Machine Learning
- Introduzione
Syllabus del corso
Obiettivi formativi
Data Mining e Machine Learning (Esame Unico 15 cfu, 120 ore: 8 ore per CFU)
Materiale: https://elearning.unimib.it/course/view.php?id=55369
Sezione Data Mining
L'obiettivo principale è introdurre metodologie avanzate anche di tipo non analitico/algoritmico ad alta complessità computazionale per disegnare ed eseguire analisi di dati .
Sezione Machine learning
Tale sezione intende fornire un’introduzione alle principali tecniche statistiche di Machine learning attraverso le più moderne tecniche e strategie per l’analisi di grandi moli di dati, illustrando le problematiche connesse.
Alla fine del corso lo studente avrà la possibiltà di conoscere i principali algoritmi di DM e ML, discernendo pregi e difetti, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dati reali con R studio.
Contenuti sintetici
Il corso affronta lo studio di tecniche modellistiche algoritmiche e le principali problematiche e tecniche statistiche di Data Mining e Machine Learning
Programma esteso
Data mining section
Costruzione di un modello (stimatore) robusto a partire dalla stima di un modello base.
- (1) R and dpyir (overview)
- (2) Interpretazione di Modelli lineari complessi (Anova, Ancova, GLM) con interazioni, trasformate,
- (3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression, loess smoothing and splines)
- (4) Passi per costruzione di un modello Robusto
- (5) missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.
- (6) multilevel models for longitudinal data and hierachcal data (cenni)
- (7) missing data mechanism, sample selection models (cenni)
Machine Learning section
Problematiche connesse a grandi moli di dati, robustezza, overfitting e problematiche di validazione dei risultati, Regole associative, Modelli statistici per la classificazione supervisionata (modello lineare, analisi discriminante parametrica, modello logistico politomico e ordinale), Algoritmi per la classificazione supervisionata (Naive Bayes, Nearest Neighbour, Neural Network, Alberi decisionali e Classificativi, PLS, Bagging, Boosting e Random forest)
Prerequisiti
Superamento esame di Analisi statistica Multivariata
Metodi didattici
SOLO lezioni in presenza
Modalità di verifica dell'apprendimento
PROVA ORALE SU UN ELABORATO SVOLTO da portare all'orale (PROJECT WORK) e SUGLI ARGOMENTI SVOLTI A LEZIONE
PROJECT WORK (Sviluppo di un progetto originale a partire da una semplice idea o dall’analisi di un caso esistente)
Lavoro applicativo da svolgere autonomamente o in gruppo di max 3 persone su dataset scelti dallo studente (R o SAS) su cui applicare i principali argomenti svolti a lezione .
Di seguito le analisi da svolgere nei due project work (composto da due parti, sezione Data Mining e sezione Machine Learning):
Project work Data Mining
Analisi target quantitativo:
- costruzione di un modello robusto (analisi descrittive, trasformazioni, diagnostiche, model selection, heteroskedasticità, inferenza robusta) e una breve analisi con target binario (stampare output di una regressione logistica).
- Oppure usare un mdellopiù complesso per dati logitudinali o gerarchici e usare mutitlvel models o sample selection models in casi di campione troncato
Project work Machine learning
Analisi con con target binario (classificazione)
(Analisi descrittive, preprocessing, proposta diversi modelli, validation strategies, tuning modelli, confronto modelli, studio della soglia, score di nuovi dati)
Il dataset delle due parti può essere lo stesso (nel PW di Machine learning potete binarizzare il target quantitativo del PW di Data mining o scegliere un'altra variabile) SOLO SE DI ADEGUATA COMPLESSITA'
Portali per la scelta dei dataset:
https://archive.ics.uci.edu/ml/datasets
www.kaggle.com
SVOLGIMENTO PROVA ORALE
I principali output del PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale.
L'esame orale, per ciascuna sezione (DM, ML) consta di domande sulla TEORIA affrontata a lezione e sul commento degli output del lavoro applicativo per verificare la comprensione dei principali strumenti adottati e il conseguente "modus operandi" dell'analisi statistica svolta.
Lo studente deve dimostrare di aver appreso il funzionamento dei principali algoritmi, essendo in grado di comprenderne pregi e difetti e di applicare tali strumenti su dati reali.
LO SVOLGIMENTO DEL PROJECT WORK, ANCHE SE RITENUTO DI OTTIMA FATTURA, NON COMPORTA IL SUPERAMENTO DELL'ESAME, QUALORA EMERGESSERO CARENZE SUGLI ARGOMENTI TEORICI
**PROVA IN ITINERE DI DM
**E' prevista una prova-esame in itinere a novembre alla fine del modulo di DM (nella settimana dedicata agli appelli del I periodo).
(Project work da svolgere in gruppo e prova orale individuale)
Lo studente deve dimostrare di aver appreso COME RENDERE UN MODELLO ROBUSTO empriricamente (PW) e di conoscere la teoria statistica sottostante.
Le prove orali sono individuali, sebbene per comodità il docente tenderà ad interrogare congiuntamente tutti i componenti del gruppo che han svolto il project work (e che si presenteranno all'orale).
Testi di riferimento
Data Mining
Carter Hill, William E. Griffiths, Guay C. Lim.
Principles of Econometrics (chapters 2, 4 ,6 ,8 9, 12, 13)
An Introduction to Statistical Learning with Applications in R (Chapter 3 (no section 3.5), Chapter/section 4.1, 4.2, 4.3 , 6.1, 6.2, chapter 7)
https://hastie.su.domains/ISLR2/ISLRv2_corrected_June_2023.pdf.download.html
Lucidi del docente
Consigliati
Principles of Econometrics associate R book
https://bookdown.org/ccolonescu/RPoE4/
A Handbook of Statistical Analyses Using R (2nd Edition) Chapters 5,6,7,8,10
https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://www.ehu.eus/ccwintco/uploads/9/93/A_Handbook_of_Statistical_Analyses_Using_R_Second_Edition.pdf&ved=2ahUKEwjLzbfZq-WGAxWvgv0HHRx7AzAQFnoECBEQAQ&usg=AOvVaw0P4Jf6CnMmRwFth4y5zQsh
Machine Learning
Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R (Chapter 2-4-5-6-8-10.1, 10.2, 12(parte PCA))
https://hastie.su.domains/ISLR2/ISLRv2_corrected_June_2023.pdf.download.html
Lucidi sul moodle
Periodo di erogazione dell'insegnamento
I semestre
Sustainable Development Goals
Learning objectives
Data Mining e Machine Learning (15 cfu, 120 hours: 8 hours per CFU)
Materiale: https://elearning.unimib.it/course/view.php?id=55369
Data Mining Section
This section aims at introducing complex methotodologies for modelling statistical models both from the theoretical and from the applicative point of view
Machine learning section
The course aims at introducing statistical models of Machine learning both from the theoretical and from the applicative point of view.
The student at the end of the course should be able to understand, discern and propose complex models and algorithms, being able to assess the studied topics analyzing real dataset with R studio.
Contents
The course deals with complex/algorithmic modelling techniques and main problems and algorithm of Data Mining and Machine Learning
Detailed program
Data Mining section
Construction of a robust (estimator) model strating from a base model.
- (1) R and dplyr (overiview)
- (2) Interpretation of complex linear Models (Anova, Ancova, GLM)
- (3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression, loess smoothing and splines)
- (4) Step of robust model building
- (5) missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.
- (6) multilevel models for longitudinal data and hierachcal data (cenni)
- (7) missing data mechanism, sample selection models (cenni)
Machine learning section
Problems with large dataset, robustness, overfitting and validation strategies. Association rules, Statistical models: linear, discriminant analysis, logistic models, (polytomic and ordinal), Algorithms for the classification: (Naive Bayes, Nearest Neighbour, Neural Network, Classification and Regression TREE, PLS, Bagging, Boosting and Random forest)
Prerequisites
Students need to pass before the exam of Analisi Statistica Multivariata
Teaching methods
ONLY lesson in presence
Assessment methods
ORAL EXAM: discussion of a PROJECT WORK and theory arguments
Project work (also in group, to complete before the date of the oral exam) involving a data analysis (R or SAS) on a dataset chosen by the student to replicate arguments and analyses discussed during lab sessions. The analyses of both Project works (one for each module-section) are detaied below.
DATA MINING
Analysis of a quantitative target:
- construction of a robust model (trasformations, diagnostics, model selection, heteroskedasticity, robust inference)
or 2) fit a multilevel model (time data or hierarchical data) or a sample seletion models in case of a truncated sample
MACHINE LEARNING
Analysis of a binary target (classification)
(Descriptive analysis, preprocessing, propose different classifiers, validation strategies, tuning of models, assessment, choice of best threshold, score of new data)
Web portals for the choice of the dataset:
https://archive.ics.uci.edu/ml/datasets
www. kaggle.com
DISCUSSION ORAL EXAM
The outputs of the project work (completed during the period before the oral exam) must be printed and presented/discussed at the oral exam
The oral exam deals with questions on statistical THEORY (see arguments) and on the comments of outputs of the project work to assess the comprehension of principal statistical tools and consequently the "modus operandi" of the conducted statistical analyses.
The student should demonstrate to understand, discern and explain the functioning of complex models and algorithms, being able to explain the studied topics and to analyze real dataset.
Textbooks and Reading Materials
Data Mining
Carter Hill, William E. Griffiths, Guay C. Lim.
Principles of Econometrics (chapters 2, 4 ,6 ,8 9, 12, 13) Carter Hill, William E. Griffiths, Guay C. Lim.
An Introduction to Statistical Learning with Applications in R (Chapter 3 (no section 3.5), Chapter/section 4.1, 4.2, 4.3 , 6.1, 6.2, chapter 7)
https://hastie.su.domains/ISLR2/ISLRv2_corrected_June_2023.pdf.download.html
Slides
Suggested texts
Principles of Econometrics associate R book
https://bookdown.org/ccolonescu/RPoE4/
A Handbook of Statistical Analyses Using R (2nd Edition) Chapters 5,6,7,8,10
https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://www.ehu.eus/ccwintco/uploads/9/93/A_Handbook_of_Statistical_Analyses_Using_R_Second_Edition.pdf&ved=2ahUKEwjLzbfZq-WGAxWvgv0HHRx7AzAQFnoECBEQAQ&usg=AOvVaw0P4Jf6CnMmRwFth4y5zQsh
Machine Learning
Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R (Chapter 2-4-5-6-8-10.1, 10.2, 12(parte PCA))
https://hastie.su.domains/ISLR2/ISLRv2_corrected_June_2023.pdf.download.html
Handouts on moodle
Semester
I semester