Course information | Data Mining | e-Learning

Course Syllabus

Italiano ‎(it)‎
English ‎(en)‎

Export

Obiettivi formativi

Data mining e Statistica computazionale (insegnamento in due moduli)

Statistica computazionale

L'obiettivo principale del corso è introdurre metodologie avanzate anche ti tipo non analitico/algoritmico ad alta complessità computazionale per disegnare ed eseguire analisi di dati.

Data mining

Il corso intende fornire un’introduzione alle principali tecniche statistiche di Data Mining attraverso le più moderne tecniche e strategie per l’analisi di grandi moli di dati, illustrando le problematiche connesse.

Alla fine del corso lo studente ha la possibiltà di proporre i principali algoritmi , discernendo pregi e difetti, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dati reali.

Contenuti sintetici

Il corso affronta lo studio di tecniche modellistiche algoritmiche e le principali problematiche e tecniche statistiche di Data Mining

Programma esteso

Statistica computazionale

(1) SAS language and R (overiview)
(2) Interpretazione di Modelli lineari complessi (Anova, Ancova, GLM) con interazioni, trasformate,
(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression,
loess smoothing and splines)
(4) Passi per costruzione di un modello Robusto
(5) missing data mechanism, missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.
(6) Time series regression

Data mining

Il Data mining, robustezza, overfitting e problematiche di validazione dei risultati, Regole associative, Modelli statistici per la classificazione supervisionata (modello lineare, analisi discriminante parametrica, modello logistico politomico e ordinale), Algoritmi per la classificazione supervisionata (Naive Bayes, Nearest Neighbour, neural network, Alberi decisionali e Classificativi, PLS, Bagging, Boosting and Random forest)

Prerequisiti

Superamento esame di Analisi statistica Multivariata

Metodi didattici

Nel periodo di emergenza Covid-19 le lezioni si svolgeranno in modalità mista: parziale presenza e lezioni sincrone (streeming) via piattaforme web.

Modalità di verifica dell'apprendimento

PROVA SCRITTA

PROJECT WORK (Sviluppo di un progetto originale a partire da una semplice idea o dall’analisi di un caso esistente)

Lavoro applicativo da svolgere autonomamente o in gruppo di max 3 persone su dataset scelti dallo studente (R o SAS) su cui applicare i principali argomenti svolti a lezione .

Di seguito le analisi da svolgere per i due moduli in ogni project work (Sas base o R):

Statistica computazionale

1 PROJECT WORK completo con

A) target quantitativo (analisi descrittive, trasformazioni, diagnostiche, model selection, heteroskedasticità, fino alla costruzione di un modello robusto)

B) analisi di una serie storica (ARIMA, stazionarietà) regressione con altre covariate in serie storica

Data mining (Sas Enterprise Miner o R)

1 PROJECT WORK, analisi con con target binario (classificazione)

(ANALISI DA SVOLGERE: analisi descrittive, proposta diversi modelli, validation strategies, preprocessing, tuning modelli, confronto modelli, score di nuovi dati)

In totale due project work (stat computazionale+Data mining) su due dataset differenti

Portali per la scelta dei dataset:

Dati cross section

https://archive.ics.uci.edu/ml/datasets

www.kaggle.com

Dati time series:

https://bookdown.org /ccolonescu /RPoE4 /

https ://otexts.com /fpp2 /

https ://www.econometrics -with-r.org /ittsraf.html#apatadlm

https ://www.economodel.com /time-series-analysis

https ://online.stat.psu.edu /stat510 /

https ://data.world /datasets /time-series

data(package = "fpp2") univariate

data(package = “AER“) multivariate

data(package = “urca“) multivariate

PROVA ORALE

I principali output del PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale.COLLOQUIO via WEB DI DISCUSSIONE SUL project work (Nel periodo di emergenza Covid-19 gli esami orali saranno solo telematici. Verranno svolti utilizzando la piattaforma WebEx e nella pagina e-learning dell'insegnamento verrà riportato un link pubblico per l'accesso all'esame di possibili spettatori virtuali.

L'esame orale, per ciascun modulo, consta di domande sulla TEORIA affrontata a lezione e sul commento degli output del lavoro applicativo per verificare la comprensione dei principali strumenti adottati e il conseguente "modus operandi" dell'analisi statistica svolta.

Lo studente deve dimostrare di aver appreso il funzionamento dei principali algoritmi, essendo in grado di comprenderne pregi e difetti e di applicare tali strumenti su dati reali.

Non sono previste prove in itinere

Testi di riferimento

Statistica computazionale

Principles of Econometrics (chapters 2, 4 ,6 ,8 9, 12, 13) Carter Hill, William E. Griffiths, Guay C. Lim.

An Introduction to Statistical Learning with Applications in R (chapters 6, 7) Carter Hill, William E. Griffiths, Guay C. Lim.

Chapter 3 (no section 3.5), Chapter 4, 6, until 6.1, 7

Lucidi del docente

Consigliati

Principles of Econometrics associate R book https ://bookdown.org /ccolonescu /RPoE4 / (consigliato)

A Handbook of Statistical Analyses Using R (2nd Edition) Chapters 5,6,7,8,10

Data mining

Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R

http://www-bcf.usc.edu/~gareth/ISL/

Chapter 2-3-4-5- 8

Lucidi sul moodle

Periodo di erogazione dell’insegnamento

I semestre, cicli I e II

Lingua di insegnamento

ITA

Export

Learning objectives

Data mining and computational statistics (divided in two modules)

Computational statistics

The course aims at introducing complex methotodologies for modelling statistical models both from the theoretical and from the applicative point of view

Data mining

The course aims at introducing statistical models of DATA MINING both from the theoretical and from the applicative point of view.

The student at the end of the course should be able to understand, discern and propose complex models and algorithms, being able to assess the studied topics analyzing read dataset.

The course deals with complex/algorithmic modelling techniques and main problems and algorithm of Data Mining

Detailed program

Computational statistics

(1) SAS language
and R (overiview)
(2) Interpretation of complex linear Models (Anova, Ancova, GLM)
(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression,
loess smoothing and splines)
(4) Step of robust model building
(5) missing data mechanism, missing imputation, (y, X)-transformation, Influence, diagnostics, eteroskedasticity, model selection
(6) Time series regression

Data mining

Principles of Data mining, robustness, over fitting and validation. Association rules, Statistical models: linear, discriminant analysis, logistic models, (polytomic and ordinal), Algorithms for the classification: (Naive Bayes, Nearest Neighbour, regression, neural network, Classification TREE, PLS, Bagging, Boosting and Random forest)

Prerequisites

Students need to pass before the exam of Analisi statistica Multivariata

Teaching methods

During Covid-19, lessons will be taken by partial presence and streeming web platforms.

Assessment methods

WRITTEN EXAM: PROJECT WORK

Project work (also in group, to complete before the date of the oral exam) involving a data analysis (R or SAS) on a dataset chosen by the student to replicate arguments and analyses discussed during lab sessions.

Analyses of the Project work of each module:

Computational statisitics (sas base or R)

1 applied Complete work with

A) quantitative target

(descriptive analysis, trasformations, diagnostics, model selection, heteroskedasticity checks, strategies to construct a robust model)

and finally a logistic regression with binary target (binarize the previous target) using covariates of interest,
checking collinearity and separation, fit a model

B) analysis with a time series (ARIMA, stazionarity) and regressione with other covariates

Data mining (sas Entreprise Miner or R)

1 applied work with binary target (classification)

(To do: descriptive analysis, propose different classifiers and validation strategies, preprocessing, tuning of models, assessment, score of new data)

Web portals for the choice of the dataset:

Cross section data:
https://archive.ics.uci.edu/ml/datasets

www. kaggle.com

Data for time series:
https://bookdown.org /ccolonescu /RPoE4 /

https ://otexts.com /fpp2 /

https ://www.econometrics -with-r.org /ittsraf.html#apatadlm

https ://www.economodel.com /time-series-analysis

https ://online.stat.psu.edu /stat510 /

https ://data.world /datasets /time-series

data(package = "fpp2") univariate

data(package = “AER“) multivariate

data(package = “urca“) multivariate

ORAL EXAM

The outputs of the project work (completed during the period before the oral exam) must be printed and presented/discussed at the oral exam

DISCUSSION OF THE PROJECT WORK via WEB platforms (during COVID19)

The oral exam deals with questions on statistical THEORY (see arguments) and on the comments of outputs of the project work to assess the comprehension of principal statistical tools and consequently the "modus operandi" of the conducted statistical analyses.

The student should demonstrate to understand, discern and explain the functioning of complex models and algorithms, being able to explain the studied topics and to analyze real dataset.

Textbooks and Reading Materials

Computazional statistics

Principles of Econometrics (chapters 2, 4 ,6 ,8 9, 12, 13) Carter Hill, William E. Griffiths, Guay C. Lim.

An Introduction to Statistical Learning with Applications in R (chapters 6, 7) Carter Hill, William E. Griffiths, Guay C. Lim.

Chapter 3 (no section 3.5), Chapter 4, 6, until 6.1, 7

Slides

Suggested texts

Principles of Econometrics associate R book https ://bookdown.org /ccolonescu /RPoE4 / (consigliato)

A Handbook of Statistical Analyses Using R (2nd Edition) Chapters 5,6,7,8,10

Data mining

Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R

http://www-bcf.usc.edu/~gareth/ISL/

Chapter 2-3-4-5- 8

Handouts on moodle

Semester

I semester cycles I and II

Teaching language

ITA

Enter

Field of research

SECS-S/01

ECTS

Term

First semester

Activity type

Mandatory

Course Length (Hours)

Degree Course Type

Degree Course

Teacher

Pietro Giorgio Lovaglio

Manual enrolments

Self enrolment (Student)

Course Syllabus

Obiettivi formativi

Data mining e Statistica computazionale (insegnamento in due moduli)

Statistica computazionale

L'obiettivo principale del corso è introdurre metodologie avanzate anche ti tipo non analitico/algoritmico ad alta complessità computazionale per disegnare ed eseguire analisi di dati.

Data mining

Il corso intende fornire un’introduzione alle principali tecniche statistiche di Data Mining attraverso le più moderne tecniche e strategie per l’analisi di grandi moli di dati, illustrando le problematiche connesse.

Alla fine del corso lo studente ha la possibiltà di proporre i principali algoritmi , discernendo pregi e difetti, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dati reali.

Contenuti sintetici

Il corso affronta lo studio di tecniche modellistiche algoritmiche e le principali problematiche e tecniche statistiche di Data Mining

Programma esteso

Statistica computazionale

(1) SAS language and R (overiview)

(2) Interpretazione di Modelli lineari complessi (Anova, Ancova, GLM) con interazioni, trasformate,

(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression, loess smoothing and splines)

loess smoothing and splines)

(4) Passi per costruzione di un modello Robusto

(5) missing data mechanism, missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.

(6) Time series regression

Data mining

Prerequisiti

Superamento esame di Analisi statistica Multivariata

Metodi didattici

Nel periodo di emergenza Covid-19 le lezioni si svolgeranno in modalità mista: parziale presenza e lezioni sincrone (streeming) via piattaforme web.

Modalità di verifica dell'apprendimento

PROVA SCRITTA

PROJECT WORK (Sviluppo di un progetto originale a partire da una semplice idea o dall’analisi di un caso esistente)

Lavoro applicativo da svolgere autonomamente o in gruppo di max 3 persone su dataset scelti dallo studente (R o SAS) su cui applicare i principali argomenti svolti a lezione .

Di seguito le analisi da svolgere per i due moduli in ogni project work (Sas base o R):

Statistica computazionale

1 PROJECT WORK completo con

A) target quantitativo (analisi descrittive, trasformazioni, diagnostiche, model selection, heteroskedasticità, fino alla costruzione di un modello robusto)

B) analisi di una serie storica (ARIMA, stazionarietà) regressione con altre covariate in serie storica

Data mining (Sas Enterprise Miner o R)

1 PROJECT WORK, analisi con con target binario (classificazione)

(ANALISI DA SVOLGERE: analisi descrittive, proposta diversi modelli, validation strategies, preprocessing, tuning modelli, confronto modelli, score di nuovi dati)

In totale due project work (stat computazionale+Data mining) su due dataset differenti

Portali per la scelta dei dataset:

Dati cross section

https://archive.ics.uci.edu/ml/datasets

www.kaggle.com

Dati time series:

https://bookdown.org/ccolonescu/RPoE4/

https://otexts.com/fpp2/

https://www.econometrics-with-r.org/ittsraf.html#apatadlm

https://www.economodel.com/time-series-analysis

https://online.stat.psu.edu/stat510/

https://data.world/datasets/time-series

data(package = "fpp2") univariate

data(package = “AER“) multivariate

data(package = “urca“) multivariate

PROVA ORALE

L'esame orale, per ciascun modulo, consta di domande sulla TEORIA affrontata a lezione e sul commento degli output del lavoro applicativo per verificare la comprensione dei principali strumenti adottati e il conseguente "modus operandi" dell'analisi statistica svolta.

Lo studente deve dimostrare di aver appreso il funzionamento dei principali algoritmi, essendo in grado di comprenderne pregi e difetti e di applicare tali strumenti su dati reali.

Non sono previste prove in itinere

Testi di riferimento

Statistica computazionale

Principles of Econometrics (chapters 2, 4 ,6 ,8 9, 12, 13) Carter Hill, William E. Griffiths, Guay C. Lim.

An Introduction to Statistical Learning with Applications in R (chapters 6, 7) Carter Hill, William E. Griffiths, Guay C. Lim.

Chapter 3 (no section 3.5), Chapter 4, 6, until 6.1, 7

Lucidi del docente

Consigliati

Principles of Econometrics associate R book https://bookdown.org/ccolonescu/RPoE4/ (consigliato)

A Handbook of Statistical Analyses Using R (2nd Edition) Chapters 5,6,7,8,10

Data mining

Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R

http://www-bcf.usc.edu/~gareth/ISL/

Chapter 2-3-4-5- 8

Lucidi sul moodle

Periodo di erogazione dell’insegnamento

I semestre, cicli I e II

Lingua di insegnamento

Learning objectives

Data mining and computational statistics (divided in two modules)

Data mining and computational statistics (divided in two modules)

Computational statistics

The course aims at introducing complex methotodologies for modelling statistical models both from the theoretical and from the applicative point of view

Data mining

The course aims at introducing statistical models of DATA MINING both from the theoretical and from the applicative point of view.

The student at the end of the course should be able to understand, discern and propose complex models and algorithms, being able to assess the studied topics analyzing read dataset.

(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression,
loess smoothing and splines)

https://bookdown.org /ccolonescu /RPoE4 /

https ://otexts.com /fpp2 /

https ://www.econometrics -with-r.org /ittsraf.html#apatadlm

https ://www.economodel.com /time-series-analysis

https ://online.stat.psu.edu /stat510 /

https ://data.world /datasets /time-series

Principles of Econometrics associate R book https ://bookdown.org /ccolonescu /RPoE4 / (consigliato)

(1) SAS language
and R (overiview)

(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression,
loess smoothing and splines)