Summary of Data Mining and Computational Statistics

Italiano ‎(it)‎
English ‎(en)‎

(1) SAS language and R (overiview)
(2) Interpretazione di Modelli lineari complessi (Anova, Ancova, GLM) con interazioni, trasformate,
(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression,
loess smoothing and splines)
(4) Passi per costruzione di un modello Robusto
(5) missing data mechanism, missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.
(6) Logistic Regression

Statistica computazionale

COLLOQUIO DI DISCUSSIONE SULLO SCRITTO

(1) SAS language
and R (overiview)
(2) Interpretation of complex linear Models (Anova, Ancova, GLM)
(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression,
loess smoothing and splines)
(4) Step of robust model building
(5) missing data mechanism, missing imputation, (y, X)-transformation, Influence, diagnostics, eteroskedasticity, model selection
(6) Logistic Regression

Handouts on moodle

First semester

Activity type

Course Length (Hours)

Degree Course Type

Degree Course

Manual enrolments

Guest access

Self enrolment (Student)

Course Syllabus

Obiettivi formativi

Data mining e Statistica computazionale (insegnamento in due moduli)

Statistica computazionale

L'obiettivo principale del corso è introdurre strumenti software avanzati e di alta complessità computazionale per disegnare ed eseguire analisi di dati e modellazione statistica complessa.

Data mining

Il corso intende fornire un’introduzione alle principali tecniche statistiche di Data Mining attraverso le più moderne tecniche e strategie per l’analisi di grandi moli di dati, illustrando le problematiche connesse.

Alla fine del corso lo studente ha la possibiltà di proporre i principali algoritmi , discernendo pregi e difetti, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dati reali.

Contenuti sintetici

Il corso affronta lo studio di tecniche modellistiche algoritmiche e le principali problematiche e tecniche statistiche di Data Mining

Programma esteso

Statistica computazionale

(1) SAS language and R (overiview)

(2) Interpretazione di Modelli lineari complessi (Anova, Ancova, GLM) con interazioni, trasformate,

(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression, loess smoothing and splines)

loess smoothing and splines)

(4) Passi per costruzione di un modello Robusto

(5) missing data mechanism, missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.

(6) Logistic Regression

Data mining

Prerequisiti

Superamento esame di Analisi statistica Multivariata

Metodi didattici

Lezione frontale e sessioni di laboratorio

Modalità di verifica dell'apprendimento

PROVA SCRITTA

PROJECT WORK (Sviluppo di un progetto originale a partire da una semplice idea o dall’analisi di un caso esistente)

Lavoro applicativo da svolgere autonomamente o in gruppo di max 3 persone su dataset scelti dallo studente (R o SAS) su cui applicare i principali argomenti svolti a lezione .

Di seguito le analisi da svolgere per i due moduli in ogni project work (Sas base o R):

1 PROJECT WORK completo con con target quantitativo

(analisi descrittive, trasformazioni, diagnostiche, model selection, heteroskedasticità,...... fino alla costruzione di un modello robusto)

comprendente infine un' analisi di regressione logistica con target binario (discretizzare il target precedente)

utilizzando le covariate di interesse controllando collinearity e separation (opzionale model selection )

collinearity e separation (opzionale model selection )

collinearity e separation (opzionale model selection )

Data mining (sas Enterprise Miner o R)

1 PROJECT WORK, analisi con con target binario (classificazione)

(ANALISI DA SVOLGERE: analisi descrittive, proposta diversi modelli, validation strategies, preprocessing, tuning modelli, confronto modelli, score di nuovi dati)

In totale due project work (stat computazionale+Data mining) su due dataset differenti

Portali per la scelta dei dataset:

https://archive.ics.uci.edu/ml/datasets

www.kaggle.com

PROVA ORALE

I principali output del PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale.

I principali output del PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale.

I principali output del PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale.

I principali output del PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale.

I principali output del PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale.

L'esame orale, per ciascun modulo, consta di domande sulla TEORIA affrontata a lezione e sul commento degli output del lavoro applicativo per verificare la comprensione dei principali strumenti adottati e il conseguente "modus operandi" dell'analisi statistica svolta.

Lo studente deve dimostrare di aver appreso il funzionamento dei principali algoritmi, essendo in grado di comprenderne pregi e difetti e di applicare tali strumenti su dati reali.

Non sono previste prove in itinere

Testi di riferimento

Statistica computazionale

Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R

http://www-bcf.usc.edu/~gareth/ISL/

Chapter 3 (no section 3.5), Chapter 4, 6,7

Fortemente consigliato: A Handbook of Statistical Analyses Using R (2nd Edition) Chapters 5,6,7,8,10

Lucidi sul moodle

Data mining

Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R

http://www-bcf.usc.edu/~gareth/ISL/

Chapter 2-3-4-5- 8

Lucidi sul moodle

Periodo di erogazione dell’insegnamento

I semestre, cicli I e II

Lingua di insegnamento

Learning objectives

Data mining and computational statistics (divided in two modules)

Data mining and computational statistics (divided in two modules)

Computational statistics

The course aims at introducing software and complex procedures for modelling statistical models both from the theoretical and from the applicative point of view

Data mining

The course aims at introducing statistical models of DATA MINING both from the theoretical and from the applicative point of view.

The student at the end of the course should be able to understand, discern and propose complex models and algorithms, being able to assess the studied topics analyzing read dataset.

Contents

The course deals with complex/algorithmic modelling techniques and main problems and algorithm of Data Mining

Detailed program

Computational statistics

(1) SAS languageand R (overiview)

and R (overiview)

(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression,
loess smoothing and splines)

utilizzando le covariate di interesse controllando
collinearity e separation (opzionale model selection )

(1) SAS language
and R (overiview)

(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression,
loess smoothing and splines)

and finally a logistic regression with binary target (binarize the previous target) using covariates of interest,
checking collinearity and separation, fit a model

Web portals for the choice of the dataset:
https://archive.ics.uci.edu/ml/datasets

www. kaggle.com

ORAL EXAM