Percorso della pagina
- Area Economico-Statistica
- Corso di Laurea Triennale
- Statistica e Gestione delle Informazioni [E4102B]
- Insegnamenti
- A.A. 2021-2022
- 3° anno
- Statistica Computazionale
- Introduzione
Unità didattica
Titolo del corso
Statistica Computazionale
Codice identificativo del corso
2122-3-E4102B085-E4102B087M
Syllabus del corso
Obiettivi formativi
L'obiettivo principale del corso è introdurre strumenti software avanzati e di alta complessità computazionale per disegnare ed eseguire analisi di dati e modellazione statistica complessa.Alla fine del corso lo studente ha la possibiltà di proporre i principali algoritmi , discernendo pregi e difetti, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dati reali.
Contenuti sintetici
Il corso affronta lo studio di tecniche modellistiche algoritmiche e le principali problematiche e tecniche
statistiche di statistica complessa
Programma esteso
(1) SAS language and R (overiview)
(2) Interpretazione di Modelli lineari complessi (Anova, Ancova, GLM) con interazioni, trasformate,
(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression, loess smoothing and splines)
(4) Passi per costruzione di un modello Robusto
(5) missing data mechanism, missing imputation, (y, X)-transformation, misure di Influenza, diagnostiche, heteroschedaticità, model selection.
(6) Binary and multinomial logistic regression
Prerequisiti
Superamento esame di Analisi statistica Multivariata
Metodi didattici
Lezione frontale e sessioni di laboratorio
Modalità di verifica dell'apprendimento
PROVA SCRITTA
PROJECT WORK (Sviluppo di un progetto originale a partire da una semplice idea o dall’analisi di un caso esistente)
Due Lavori
applicativi da svolgere autonomamente o in gruppo di max 3 persone su un dataset scelto
dallo studente (R o SAS) su cui applicare i principali argomenti
svolti a lezione .
L'elaborato (doc, html, pdf, R markdown) va spedito via mail al docente (piergiorgio.lovaglio@unimib.it) una settimana prima dell'appello con file nominato con i cognomi degli appartenenti al gruppo di lavoro
Di seguito le analisi da svolgere per le due analisi applicative (Sas base o R):
PROJECT WORK completo con
1 Analisi di regressione e sviluppo del modello robusto con target quantitativo
(analisi descrittive, collin, missing data, heteroscedasticità, dati influenti, trasformazioni, diagnostiche, costruzione modello robusto, bootstrap)
1 Analisi di regresione logistica con target binario (discretizzare il target dell'analisi precedente)
(modello logistico con tutte le covariate e con model selection, controllare solo collinearity e separation)
I principali output del PROJECT WORK sul modello robusto e sull'analisi logistica vanno stampati e portati all'orale (se in presenza)
Portali WEB per la scelta del dataset:
https://archive.ics.uci.edu/ml/datasets
www. kaggle.com
PROVA ORALE
COLLOQUIO DI DISCUSSIONE SULLO SCRITTO
L'esame orale consta di domande sulla TEORIA affrontata a lezione e sul commento degli output dei lavori applicativi per verificare la comprensione dei principali strumenti adottati e il conseguente "modus operandi" dell'analisi statistica svolta.
Testi di riferimento
Carter Hill, William E. Griffiths, Guay C. Lim. Principles of Econometrics (chapters 2, 4 ,5, 6, 7, 8, 16 fino sezione 16.3 compresa)
Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R Chapter 3 (no section 3.5), Chapter 4, 6,7Lucidi sul moodle
Consigliati
Principles of Econometrics
associate R book https://bookdown.org/ccolonescu/RPoE4/
Periodo di erogazione dell’insegnamento
I semestre, I ciclo
Lingua di insegnamento
Italiano
Learning objectives
The course aims at introducing software and complex procedures for
modelling statistical models both from the theoretical and from the applicative
point of view
The student at the end of the course should be able to understand, discern and propose complex models and algorithms, being able to assess the studied topics analyzing read dataset.
Contents
The course deals with complex/algorithmic modelling techniques and main problems and algorithm for complex statistics
Detailed program
(1) SAS language and R ovierview
(2) Interpretation of complex linear Models (Anova, Ancova, GLM)
(3) Robust methods (Bootstrap, Jacknife, Robust Regression, IRLS, WLS, nonparametric regression, loess smoothing and splines)
(4) Step of robust model building
(5) missing data mechanism, missing imputation, (y, X)-transformation, Influence, diagnostics, eteroskedasticity, model selection
(6) Binary and multinomial logistic regression
Prerequisites
To pass the exam of "Analisi statistica Multivariata"
Teaching methods
Class lessons and computer lab
Assessment methods
WRITTEN EXAM: PROJECT WORK
Project work (also in group) involving a data analysis (R or SAS) on two dataset chosen by the
student to replicate arguments and analyses discussed during lab sessions. Project works deal with the analysis of both:
1 Complete work on the construction of a robust model with quantitative target
(descriptive analysis, collin, missing data, heteroskedasticity, influence, trasformations, diagnostics, robust model construction, bootstrap)
1 More simple applied work with binary target (Binarize the previous quantitative target)
(Fit two models: with all covariates and with model selection/check only collinearity and separation)
The project work (doc, html, pdf, R
markdown) should be sent by email (piergiorgio.lovaglio@unimib.it) one week before of the oral exam
Web portals for the choice of the dataset:
https://archive.ics.uci.edu/ml/datasets
www.kaggle.com
ORAL EXAM
The oral exam deals with questions on statistical THEORY (see arguments) and on the comments of outputs of the project work to assess the comprehension of principal statistical tools and consequently the "modus operandi" of the conducted statistical analyses.
Textbooks and Reading Materials
Carter Hill, William E. Griffiths, Guay C. Lim. Principles of Econometrics (chapters 2, 4 ,5, 6, 7, 8, 16 until section 16.3)
Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R Chapter 3 (no section 3.5), Chapter 4, 6,7Lucidi sul moodle
Recommended
Principles of Econometrics associate R book https://bookdown.org/ccolonescu/RPoE4/
Semester
I semester , Cycle I
Teaching language
Italian
Scheda del corso
Settore disciplinare
SECS-S/01
CFU
6
Periodo
Primo Semestre
Tipo di attività
Obbligatorio
Ore
42
Tipologia CdS
Laurea Triennale
Lingua
Italiano