- Area Economico-Statistica
- Corso di Laurea Magistrale
- Scienze Statistiche ed Economiche [F8206B - F8204B]
- Insegnamenti
- A.A. 2025-2026
- 1° anno
- Statistica Multivariata
- Introduzione
Syllabus del corso
Obiettivi formativi
Il corso si pone come obiettivo quello di introdurre tecniche di analisi statistica multivatiata con finalità esplorativa e di applicare tali metodologie a dati reali attraverso l'utilizzo del R (R Studio).
Al termine del corso, le studentesse e gli studenti saranno in grado di applicare le tecniche di analisi a dati raccolti in molteplici contesti, quali ad esempio quello economico e sociale, e di interpretere i risultati dei suddetti modelli per l'analisi di fenomeni complessi e ad elevata dimensionalità.
Il corso contribuisce a consolidare le conoscenze nell'ambito delle metodologie statistiche e la capacità di applicare tali conoscenze, in coerenza con l'area di apprendimento di "Statistica" del corso di laurea magistrale in Scienze Statistiche ed Economiche.
Contenuti sintetici
I macro-argomenti principali del corso sono riportati di seguito.
- Fondamenti di statistica multivariata: la normale multivariata
- Metodi di classificazione
- Metodi di riduzione dimensionale e modelli a variabili latenti
- Metodi basati sulle distanze
Per maggiori dettagli si rimanda al "Programma esteso".
Programma esteso
-
Fondamenti di statistica multivariata: la normale multivariata
- Definizione e introduzione alla distanza di Mahalanobis
- Proprietà
- Stima di massima verosimiglianza
- Distribuzione degli stimatori di massima verosimiglianza e distribuzione di Wishart
- Strumenti per la verifica dell'assunzione di normalità multivariata e trasformazione di Box-Cox multivariata
-
Metodi di classificazione
- Classificazione per variabili continue
- Analisi Discriminante Lineare (ADL)
- Cenni ad estensioni
- Classificazione per variabili categoriali (miste)
- Regressione logistica (formulazione, stima, estensione multinomiale)
- Confronto ADL e regressione logistica
- Cenni ad estensioni
- Classificazione per variabili continue
-
Metodi di riduzione dimensionale e modelli a variabili latenti
- Variabili latenti continue
- Analisi delle Componenti Principali (ACP) e Analisi Fattoriale (AF)
- Structural Equation Modelling (SEM)
- Variabili latenti categoriali
- Analisi delle Corrispondenze Multiple (ACM)
- Item Response Theory (IRT)
- Variabili latenti continue
-
Metodi basati sulle distanze
- Distanze e dissimilarità
- Multidimensional Scaling (MDS)
- Relazione tra MDS, ACP e ACM
Prerequisiti
Analisi esplorativa, modelli statistici, calcolo delle probabilità, inferenza statistica, programmazione.
Metodi didattici
Il corso è erogato in lingua italiana e prevede 48 ore tra lezioni frontali e sessioni di laboratorio svolte in modalità interattiva.
Le lezioni frontali tratteranno l'introduzione e l'approfondimento delle metodologie statistiche oggetto del corso e relativi esercizi; le sessioni di laboratorio si focalizzeranno invece sulla applicazione delle suddette metodologie a dati reali mediante l'utilizzo del software R (R Studio).
Le lezioni frontali e le sessioni di laboratorio saranno erogate in presenza. Alcune lezioni potranno essere erogate a distanza (da remoto) fino ad un massimo del 20% delle ore.
Modalità di verifica dell'apprendimento
L'esame consiste in una prova scritta che si compone di domande di teoria, esercizi numerici da svolgere in forma cartacea e tramite l'utilizzo di R Studio.
Non sono previste prove in itinere.
Periodo di erogazione dell'insegnamento
Il corso è erogato nel primo periodo del secondo semestre.
Lingua di insegnamento
Italiano
Sustainable Development Goals
Learning objectives
The aim of the course is to introduce multivariate statistical techniques for exploratory purposes and to apply these methodologies to real data through the use of R (RStudio).
By the end of the course, students will be able to apply the aforementioned techniques to real data sets collected in several contexts, e.g., economics and social fields, and to interpret the results of the corresponding models for the analysis of complex and high-dimensional phenomena.
The course contributes to strengthening knowledge in statistical methodologies and the ability to apply such knowledge, in line with the "Statistics" learning area of the Master’s Degree in Statistics and Economics.
Contents
The main macro-topics of the course are listed below.
- Fundamentals of multivariate statistics: the multivariate normal distribution
- Classification methods
- Dimensionality reduction methods and latent variable models
- Distance-based methods
For further details, see the “Detailed Programme”.
Detailed program
-
Fundamentals of multivariate statistics: the multivariate normal distribution
- Definition and introduction to the Mahalanobis distance
- Properties
- Maximum likelihood estimation
- Distribution of the maximum likelihood estimators and Wishart distribution
- Tools for assessing the nromality assumption and multivariate Box-Cox transformation
-
Classification methods
- Classification for continuous variables
- Linear Discriminant Analysis (LDA)
- Brief overview of extensions
- Classification for categorical (mixed) variables
- Logistic regression (model formulation, estimation, multivariate extension)
- Comparison between LDA and logistic regression
- Brief overview of extensions
- Classification for continuous variables
-
Dimensionality reduction methods and latent variable models
- Continuous latent variables
- Principal Component Analysis (PCA) e Factorial Analysis (FA)
- Structural Equation Modelling (SEM)
- Categorical latent variables
- Mutiple Correspondence Analysis (MCA)
- Item Response Theory (IRT)
- Continuous latent variables
-
Distance-based methods
- Distances and dissimilarities
- Multidimensional Scaling (MDS)
- Relationships among MDS, PCA and MCA
Prerequisites
Exploratory data analysis, statistica models, probability theory, statistica inference, programming.
Teaching methods
The course is in Italian and consists of 47 hours of lectures and laboratory sessions conducted in an interactive format.
The lectures will cover the introduction and in-depth study of the statistical methodologies addressed in the course, along with related exercises; the laboratory sessions will focus on the application of the aforementioned methodologies to real data sets using the R (R Studio) software.
Both lectures and laboratory sessions will be conducted in person. Some lectures may be conducted remotely, for up to 20% of the total hours.
Assessment methods
The exam is a written test consisting of theoretical questions, numerical exercises, and numerical exercises to be completed using R.
There are no mid-term exams.
Semester
The course is scheduled in the first term of the second semester.
Teaching language
Italian