Summary of Data Mining | e-Learning

Course Syllabus

Italiano ‎(it)‎
English ‎(en)‎

Export

Obiettivi formativi

Il corso si pone come obiettivo l'acquisizione delle principali tecniche per l'esplorazione dei dati (data mining) e di apprendimento supervisionato (supervised learning) e la loro implementazione nell’ambiente di programmazione R. Durante il corso verrà data particolare enfasi al processo di modellazione dei dati per la previsione (predictive modelling).

Alla fine del corso lo studente sarà in grado di affrontare l'analisi di dati complessi a fini previsivi attraverso il processo di esplorazione, manipolazione e modellazione dei dati.

Contenuti sintetici

Il corso integra considerazioni di carattere teorico con aspetti pratico-applicativi di analisi dei dati e di programmazione in R.

Aspetti teorici: il compromesso tra distorsione e varianza, stime vincolate/penalizzate, splines e modelli additivi generalizzati, quantificazione dell'incertezza delle previsioni
Aspetti applicativi: esplorazione, manipolazione e modellizzazione dei dati in R per la previsione

Programma esteso

Errore di previsione: il compromesso tra distorsione e varianza
Il modello e il processo di modellizzazione
Stime vincolate e penalizzate: i metodi ridge, lasso e best subset selection
Splines e modelli additivi generalizzati
Quantificare l'incertezza delle previsioni
Aspetti computazionali

Prerequisiti

Si consiglia la conoscenza degli argomenti trattati nei corsi Probabilità e Statistica Computazionale M e Statistica Avanzata M.

Metodi didattici

Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.

Nel periodo di emergenza Covid-19 le lezioni si svolgeranno in modalità da remoto asincrono, eventualmente con eventi in videoconferenza sincrona e/o in presenza fisica.

Modalità di verifica dell'apprendimento

La modalità di verifica si basa su una prova finale con orale facoltativo. La prova finale è composta da due parti:

Prova scritta: domande di teoria ed esercizi
Homework

Il voto della prova finale è dato dalla media pesata delle parti 1. e 2. Qualora lo studente (oppure i docenti) richiedano la prova orale, il voto finale è una media dei voti della prova finale e della prova orale.

La prova scritta (parte 1.) comprende domande di teoria ed esercizi e può prevedere l'utilizzo di un computer su cui è installato il software R o RStudio. La prova scritta ha come obiettivo la verifica della comprensione degli aspetti matematico-statistici degli argomenti trattati e delle abilità di analisi dei dati e di programmazione in R.

Gli homework (parte 2.) devono essere consegnati prima dell'appello d'esame, rispettando le scadenze indicate. Uno degli homework prevede la partecipazione ad una competizione che prevede l'analisi dei dati con finalità previsiva. Agli studenti frequentanti viene data l'opportunità di svolgere gli homework in gruppi di massimo 3 persone.

Nel periodo di emergenza Covid-19 le prove d'esame saranno solo telematiche. Verranno svolte utilizzando le piattaforme WebEx e Moodle e nella pagina e-learning dell'insegnamento verrà riportato un link pubblico per l'accesso all'esame di possibili spettatori virtuali.

Testi di riferimento

Archivio del corso: https://github.com/aldosolari/DM
Arnold (2019) A Computational Approach to Statistical Learning, Chapman & Hall
Azzalini, Scarpa (2004). Analisi dei dati e data mining. Springer-Verlag Italia
Gareth, Witten, Hastie, Tibshirani (2013). Introduction to Statistical Learning with applications in R. Springer
Hastie, Tibshirani, Friedman (2009). The Elements of Statistical Learning. Springer
Kuhn, Johnson (2013). Applied Predictive Modelling. Springer
Kuhn, Johnson (2019). Feature Engineering and Selection. Chapman and Hall/CRC
Wickham, Grolemund (2015) R for Data Science. O'Reilly Cookbooks

Periodo di erogazione dell’insegnamento

Primo semestre, primo ciclo.

Lingua di insegnamento

Le lezioni si svolgono in italiano, tuttavia la maggior parte dei libri di testo è in lingua inglese.

Export

Learning objectives

The course aims to provide an advanced understanding of the core principles and techniques for data mining and supervised learning, and their implementation in the R software environment for statistical computing. Special emphasis will be given to applied predictive modelling.

At the end of the course, students will be able to analyse complex data sets by exploring, transforming and modelling the data.

The course integrates theoretical principles with practicals of data analysis and programming in R.

Theory: bias-variance tradeoff, regularized estimation, splines and generalized additive models, conformal prediction
Practice: how to get your data into R, get it into the most useful structure, transform it, visualise it and model it for prediction of future observations

Detailed program

Prediction error and the bias-variance trade-off
The model versus the modeling process
Regularized estimation: ridge, lasso and best subsets
Splines and generalized additive models
Conformal prediction
Computational aspects

written exam
homework

The final grade is determined by a weighted average of 1. and 2. The oral exam is optional.

Textbooks and Reading Materials

Course repository: https://github.com/aldosolari/DM
Arnold (2019) A Computational Approach to Statistical Learning, Chapman & Hall
Azzalini, Scarpa (2004). Analisi dei dati e data mining. Springer-Verlag Italia
Gareth, Witten, Hastie, Tibshirani (2013). Introduction to Statistical Learning with applications in R. Springer
Hastie, Tibshirani, Friedman (2009). The Elements of Statistical Learning. Springer
Kuhn, Johnson (2013). Applied Predictive Modelling. Springer
Kuhn, Johnson (2019). Feature Engineering and Selection. Chapman and Hall/CRC
Wickham, Grolemund (2015) R for Data Science. O'Reilly Cookbooks

Semester

First semester, first cycle.

Teaching language

The lessons are held in Italian, but most of the textbooks are in English.

Enter

Field of research

SECS-S/01

ECTS

Term

Annual

Activity type

Mandatory to be chosen

Course Length (Hours)

Degree Course Type

2-year Master Degreee

Manual enrolments

Self enrolment (Student)