Course Syllabus
Obiettivi formativi
L'obiettivo del corso è quello di fornire gli strumenti statistici necessari per l’analisi congiunta di più variabili misurate sul medesimo insieme di unità statistiche. Le competenze acquisite nel corso mettono gli studenti in grado di:
- esplorare e sintetizzare i dati
- modellizzare i dati tramite regressione
- produrre ed interpretare l’output di analisi di dati reali effettuate tramite il linguaggio R
Contenuti sintetici
L'insegnamento (15 CFU) è articolato nelle seguenti tre parti:
- R per l'Analisi Statistica Multivariata (3 CFU) che fornisce un'introduzione al linguaggio R.
- Analisi esplorativa (6 CFU) che presenta i metodi relativi all’esplorazione dei dati al fine di identificare strutture che consentano di ridurne la complessità preservando l’informazione originariamente presente nelle misurazioni.
- Modelli statistici (6 CFU) che tratta la specificazione, la stima e la verifica di modelli interpretativi dei dati.
Programma esteso
Prima parte: R per l'Analisi Statistica Multivariata (3 CFU)
- Utilizzare i dati per rispondere a questioni statistiche
- Introduzione al linguaggio R
- Esplorazione dei dati con grafici
- Sintesi numeriche dei dati
- Associazione e tabelle di contingenza, Paradosso di Simpson
- La probabilità nella vita di tutti i giorni
- Distribuzioni campionarie
- Rappresentazioni grafiche di due o più dimensioni
- Varianza totale e generalizzata
- Il teorema di decomposizione spettrale
- Analisi delle componenti principali
- Analisi dei gruppi: metodo delle K-medie e metodi gerarchici
- Analisi fattoriale
- Regressione lineare semplice e multipla
- Specificazione del modello
- Stima dei parametri (metodo dei minimi quadrati e di massima verosimiglianza)
- Verifica di ipotesi lineari
- Metodi diagnostici
- Tecniche per la selezione delle variabili
- Previsione
Prerequisiti
Questa attività formativa deve essere preceduta dal superamento degli esami di Algebra lineare, Analisi Matematica I, Calcolo delle Probabilità e Statistica I. Si consiglia inoltre la conoscenza degli argomenti trattati nel corso di Statistica II.
Metodi didattici
Il corso è erogato in italiano e prevede lezioni frontali sia in aula sia in laboratorio informatico.
Le lezioni in aula sono mirate all'approfondimento delle conoscenze teoriche dello studente sugli argomenti del Corso ed alla loro formalizzazione. Nelle lezioni svolte in laboratorio informatico si trattano gli aspetti di implementazione dei modelli su dati reali e simulati utilizzando il software R.
Nel periodo di emergenza Covid-19 le lezioni si svolgeranno in modalità da remoto asincrono, eventualmente con eventi in videoconferenza sincrona e/o in presenza fisica.
Modalità di verifica dell'apprendimento
La modalità di verifica si basa su tre prove parziali scritte con orale facoltativo, una per ciascuna parte del corso.
Ciascuna prova scritta prevede sia domande teoriche ed esercizi numerici, che hanno l’obiettivo di verificare l'acquisizione dei concetti e della loro formalizzazione; sia l’analisi di dati tramite il software R.
Il voto finale è determinato dalla media (ponderata con i rispettivi CFU) dei voti riportati nelle tre prove parziali. Qualora lo studente (oppure i docenti) richiedano la prova orale, il voto è una media dei voti di scritto e orale, altrimenti coincide con il voto dello scritto.
Nel periodo di emergenza Covid-19 le prove d'esame saranno solo telematiche. Verranno svolte utilizzando le piattaforme WebEx e Moodle e nella pagina e-learning dell'insegnamento verrà riportato un link pubblico per l'accesso all'esame di possibili spettatori virtuali.
Testi di riferimento
Prima parte: R per l'Analisi Statistica Multivariata (3 CFU)
- Appunti delle lezioni forniti dal docente
- A. Agresti, C. Franklin (2016) “Statistica: l'arte e la scienza d'imparare dai dati”. Ediz. mylab, Pearson Education Italia
- Appunti delle lezioni forniti dal docente
- Johnson, Wichern (2007) Applied Multivariate Statistical Analysis (6th Edition), Pearson Prentice Hall
- Everitt, Hothorn (2011) An Introduction to Applied Multivariate Analysis with R, Springer
- Appunti delle lezioni fornite dal docente
- M. Grigoletto, F. Pauli, L. Ventura, Modello lineare, teoria e applicazioni con R. Giappichelli, 2017
Periodo di erogazione dell’insegnamento
- R per l'Analisi Statistica Multivariata (3 CFU) : I ciclo del I semestre
- Analisi esplorativa (6 CFU) : II ciclo del I semestre
- Modelli statistici (6 CFU) : I ciclo del II semestre
Lingua di insegnamento
Italiano
Learning objectives
The course aims at introducing multivariate statistical techniques both from the methodological and from the applicative point of view.
Contents
The course is composed of three parts: R for the Multivariate Statistical Analysis (first part, 3 CFU), Exploratory data analysis (second part, 6 CFU) and Statistical models (third part, 6 CFU).
- R for the Multivariate Statistical Analysis (3 CFU) provides “hands-on” training for learning how to analyse data in the R statistical software package. It covers data input/output, data management and manipulation, and how to make useful and informative graphics.
- Exploratory Analysis (6 CFU) offers an introduction to the statistical analysis of multivariate observations with the goal of dimensionality reduction thereby facilitating the understanding of the data.
- Statistical models (6 CFU) offers an introduction to linear regression models.
Detailed program
First part: R for the Multivariate Statistical Analysis (3 CFU)
- Reading data
- Recoding and manipulating data
- Making exploratory plots
- Multiway contingency tables and Simpson's paradox
- Performing basic statistical analysis with R
Second part: Exploratory Analysis (6 CFU)
- Graphical representation of multivariate data
- Total and generalized variance
- Spectral decomposition theorem
- Principal components analysis
- Cluster analysis: K-means and hierarchical methods
- Factorial analysis
Third part: Statistical Models (6 CFU)
- Simple and multiple linear regression
- Model specification
- Parameter estimation
- Linear hypotheses tests
- Diagnostics
- Variable selection
- Prediction
Prerequisites
Knowledge of the notions given in the courses "Statistics I", "Probability", "Matrix Algebra", and "Statistical inference (Statistics II)" is required.
Teaching methods
Class lectures and lab sessions.
Assessment methods
Students are supposed to pass three written exams (one for each part of the course) and an oral exam (optional). Each written exam consists of questions about theory, numerical exercises and analysis of data sets. The overall mark in the written exam is obtained by averaging the marks obtained in each part. The final mark is an average between written and oral ones.
Textbooks and Reading Materials
First part: R for the Multivariate Statistical Analysis (3 CFU)
- Lecture notes from the instructor
- Agresti, A. and Franklin, C. (2016) “The Art and Science of Learning from Data ”, Pearson
- Lecture notes from the instructor
- Johnson, Wichern (2007) Applied Multivariate Statistical Analysis (6th Edition), Pearson Prentice Hall
- Everitt, Hothorn (2011) An Introduction to Applied Multivariate Analysis with R, Springer
- Zani, Cerioli (2007) Analisi dei dati e data mining per le decisioni aziendali, Giuffré Editore
- Lecture notes from the instructor
- M. Grigoletto, F. Pauli, L. Ventura, Modello lineare, teoria e applicazioni con R. Giappichelli, 2017
Semester
The course is scheduled in the first semester (first and second part) and in the first six weeks of the second semester (third part).
Teaching language
Italian
Key information
Staff
-
Bernardo Nipoti
-
Tommaso Rigon
-
Aldo Solari
-
Chiara Gaia Magnani
-
Roberto Ascari