Informazioni sul corso | Data Mining e Machine Learning

Syllabus del corso

Italiano ‎(it)‎
English ‎(en)‎

Esporta

Obiettivi formativi

Data Mining e Machine Learning (Esame Unico 15 cfu, 120 ore: 8 ore per CFU)

Materiale: https://elearning.unimib.it/course/view.php?id=55369

Sezione Data Mining
L'obiettivo principale è introdurre metodologie avanzate anche di tipo non analitico/algoritmico ad alta complessità computazionale per disegnare ed eseguire analisi di dati .

Sezione Machine learning
Tale sezione intende fornire un’introduzione alle principali tecniche statistiche di Machine learning attraverso le più moderne tecniche e strategie per l’analisi di grandi moli di dati, illustrando le problematiche connesse.

Alla fine del corso lo studente avrà la possibiltà di conoscere i principali algoritmi di DM e ML, discernendo pregi e difetti, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dati reali con R studio.

Contenuti sintetici

Il corso affronta lo studio di tecniche modellistiche algoritmiche e le principali problematiche e tecniche statistiche di Data Mining e Machine Learning

Programma esteso

Data mining section
Costruzione di un modello (stimatore) robusto a partire dalla stima di un modello base.

(1) R and dpyir (overview)
(2) Interpretazione di Modelli lineari complessi (Anova, Ancova, GLM) con interazioni, trasformate,
(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression, loess smoothing and splines)
(4) Passi per costruzione di un modello Robusto
(5) missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.
(6) multilevel models for longitudinal data and hierachcal data (cenni)
(7) missing data mechanism, sample selection models (cenni)

Machine Learning section

Problematiche connesse a grandi moli di dati, robustezza, overfitting e problematiche di validazione dei risultati, Regole associative, Modelli statistici per la classificazione supervisionata (modello lineare, analisi discriminante parametrica, modello logistico politomico e ordinale), Algoritmi per la classificazione supervisionata (Naive Bayes, Nearest Neighbour, Neural Network, Alberi decisionali e Classificativi, PLS, Bagging, Boosting e Random forest)

Prerequisiti

Superamento esame di Analisi statistica Multivariata

Metodi didattici

SOLO lezioni in presenza

Modalità di verifica dell'apprendimento

PROVA ORALE SU UN ELABORATO SVOLTO da portare all'orale (PROJECT WORK) e SUGLI ARGOMENTI SVOLTI A LEZIONE

PROJECT WORK (Sviluppo di un progetto originale a partire da una semplice idea o dall’analisi di un caso esistente)
Lavoro applicativo da svolgere autonomamente o in gruppo di max 3 persone su dataset scelti dallo studente (R o SAS) su cui applicare i principali argomenti svolti a lezione .
Di seguito le analisi da svolgere nei due project work (composto da due parti, sezione Data Mining e sezione Machine Learning):

Project work Data Mining
Analisi target quantitativo:

costruzione di un modello robusto (analisi descrittive, trasformazioni, diagnostiche, model selection, heteroskedasticità, inferenza robusta) e una breve analisi con target binario (stampare output di una regressione logistica).
Oppure usare un mdellopiù complesso per dati logitudinali o gerarchici e usare mutitlvel models o sample selection models in casi di campione troncato

Project work Machine learning
Analisi con con target binario (classificazione)
(Analisi descrittive, preprocessing, proposta diversi modelli, validation strategies, tuning modelli, confronto modelli, studio della soglia, score di nuovi dati)

Il dataset delle due parti può essere lo stesso (nel PW di Machine learning potete binarizzare il target quantitativo del PW di Data mining o scegliere un'altra variabile) SOLO SE DI ADEGUATA COMPLESSITA'

Portali per la scelta dei dataset:

https://archive.ics.uci.edu/ml/datasets

www.kaggle.com

SVOLGIMENTO PROVA ORALE

I principali output del PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale.

L'esame orale, per ciascuna sezione (DM, ML) consta di domande sulla TEORIA affrontata a lezione e sul commento degli output del lavoro applicativo per verificare la comprensione dei principali strumenti adottati e il conseguente "modus operandi" dell'analisi statistica svolta.

Lo studente deve dimostrare di aver appreso il funzionamento dei principali algoritmi, essendo in grado di comprenderne pregi e difetti e di applicare tali strumenti su dati reali.
LO SVOLGIMENTO DEL PROJECT WORK, ANCHE SE RITENUTO DI OTTIMA FATTURA, NON COMPORTA IL SUPERAMENTO DELL'ESAME, QUALORA EMERGESSERO CARENZE SUGLI ARGOMENTI TEORICI

**PROVA IN ITINERE DI DM
**E' prevista una prova-esame in itinere a novembre alla fine del modulo di DM (nella settimana dedicata agli appelli del I periodo).
(Project work da svolgere in gruppo e prova orale individuale)
Lo studente deve dimostrare di aver appreso COME RENDERE UN MODELLO ROBUSTO empriricamente (PW) e di conoscere la teoria statistica sottostante.

Le prove orali sono individuali, sebbene per comodità il docente tenderà ad interrogare congiuntamente tutti i componenti del gruppo che han svolto il project work (e che si presenteranno all'orale).

Testi di riferimento

Data Mining

Carter Hill, William E. Griffiths, Guay C. Lim.
Principles of Econometrics (chapters 2, 4 ,6 ,8 9, 12, 13)

An Introduction to Statistical Learning with Applications in R (Chapter 3 (no section 3.5), Chapter/section 4.1, 4.2, 4.3 , 6.1, 6.2, chapter 7)
https://hastie.su.domains/ISLR2/ISLRv2_corrected_June_2023.pdf.download.html

Lucidi del docente

Consigliati
Principles of Econometrics associate R book
https://bookdown.org/ccolonescu/RPoE4/

A Handbook of Statistical Analyses Using R (2nd Edition) Chapters 5,6,7,8,10
https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://www.ehu.eus/ccwintco/uploads/9/93/A_Handbook_of_Statistical_Analyses_Using_R_Second_Edition.pdf&ved=2ahUKEwjLzbfZq-WGAxWvgv0HHRx7AzAQFnoECBEQAQ&usg=AOvVaw0P4Jf6CnMmRwFth4y5zQsh

Machine Learning
Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R (Chapter 2-4-5-6-8-10.1, 10.2, 12(parte PCA))
https://hastie.su.domains/ISLR2/ISLRv2_corrected_June_2023.pdf.download.html
Lucidi sul moodle

Periodo di erogazione dell'insegnamento

I semestre

Lingua di insegnamento

ITA

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ

Esporta

Learning objectives

Data Mining e Machine Learning (15 cfu, 120 hours: 8 hours per CFU)
Materiale: https://elearning.unimib.it/course/view.php?id=55369

Data Mining Section
This section aims at introducing complex methotodologies for modelling statistical models both from the theoretical and from the applicative point of view

Machine learning section
The course aims at introducing statistical models of Machine learning both from the theoretical and from the applicative point of view.

The student at the end of the course should be able to understand, discern and propose complex models and algorithms, being able to assess the studied topics analyzing real dataset with R studio.

The course deals with complex/algorithmic modelling techniques and main problems and algorithm of Data Mining and Machine Learning

Detailed program

Data Mining section
Construction of a robust (estimator) model strating from a base model.

(1) R and dplyr (overiview)
(2) Interpretation of complex linear Models (Anova, Ancova, GLM)
(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression, loess smoothing and splines)
(4) Step of robust model building
(5) missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.
(6) multilevel models for longitudinal data and hierachcal data (cenni)
(7) missing data mechanism, sample selection models (cenni)

Machine learning section

Problems with large dataset, robustness, overfitting and validation strategies. Association rules, Statistical models: linear, discriminant analysis, logistic models, (polytomic and ordinal), Algorithms for the classification: (Naive Bayes, Nearest Neighbour, Neural Network, Classification and Regression TREE, PLS, Bagging, Boosting and Random forest)

Prerequisites

Students need to pass before the exam of Analisi Statistica Multivariata

Teaching methods

ONLY lesson in presence

Assessment methods

ORAL EXAM: discussion of a PROJECT WORK and theory arguments

Project work (also in group, to complete before the date of the oral exam) involving a data analysis (R or SAS) on a dataset chosen by the student to replicate arguments and analyses discussed during lab sessions. The analyses of both Project works (one for each module-section) are detaied below.

DATA MINING
Analysis of a quantitative target:

construction of a robust model (trasformations, diagnostics, model selection, heteroskedasticity, robust inference)
or 2) fit a multilevel model (time data or hierarchical data) or a sample seletion models in case of a truncated sample

MACHINE LEARNING
Analysis of a binary target (classification)
(Descriptive analysis, preprocessing, propose different classifiers, validation strategies, tuning of models, assessment, choice of best threshold, score of new data)

Web portals for the choice of the dataset:

https://archive.ics.uci.edu/ml/datasets

www. kaggle.com

DISCUSSION ORAL EXAM

The outputs of the project work (completed during the period before the oral exam) must be printed and presented/discussed at the oral exam
The oral exam deals with questions on statistical THEORY (see arguments) and on the comments of outputs of the project work to assess the comprehension of principal statistical tools and consequently the "modus operandi" of the conducted statistical analyses.

The student should demonstrate to understand, discern and explain the functioning of complex models and algorithms, being able to explain the studied topics and to analyze real dataset.

Textbooks and Reading Materials

Data Mining

Carter Hill, William E. Griffiths, Guay C. Lim.
Principles of Econometrics (chapters 2, 4 ,6 ,8 9, 12, 13) Carter Hill, William E. Griffiths, Guay C. Lim.

Slides

Suggested texts

Principles of Econometrics associate R book
https://bookdown.org/ccolonescu/RPoE4/

Machine Learning

Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R (Chapter 2-4-5-6-8-10.1, 10.2, 12(parte PCA))
https://hastie.su.domains/ISLR2/ISLRv2_corrected_June_2023.pdf.download.html

Handouts on moodle

Settore disciplinare

SECS-S/03

CFU

Periodo

Primo Semestre

Tipo di attività

Obbligatorio

Ore

120

Tipologia CdS

Laurea Triennale

Lingua

Italiano

Docente

Pietro Giorgio Lovaglio

Vedi valutazione del precedente anno accademico

Trova i libri per questo corso nella Biblioteca di Ateneo

Iscrizione spontanea (Studente)

Iscrizione manuale

Syllabus del corso

Obiettivi formativi

Contenuti sintetici

Programma esteso

Prerequisiti

Metodi didattici

Modalità di verifica dell'apprendimento

Testi di riferimento

Periodo di erogazione dell'insegnamento

Lingua di insegnamento

Sustainable Development Goals

Learning objectives

Contents

Detailed program

Prerequisites

Teaching methods

Assessment methods

Textbooks and Reading Materials

Semester

Teaching language

Sustainable Development Goals

Scheda del corso

Staff

Docente

Opinione studenti

Bibliografia

Metodi di iscrizione

Obiettivi di sviluppo sostenibile