- Multivariate Statistics
- Summary
Course Syllabus
Obiettivi formativi
Il corso si pone come obiettivo quello di introdurre tecniche di analisi statistica multivatiata con finalità esplorativa e previsiva. Alla fine del corso lo studente sarà in grado di applicare le suddette tecniche a insiemi di dati raccolti in molteplici contesti, quali quello economico, sociale e delle scienze naturali, e che possono essere caratterizzati, per esempio, da elevata dimensionalità.
Contenuti sintetici
- Distribuzione normale multivariata in statistica
- Metodi lineari per la classificazione
- Modelli per variabili categoriali
- Modelli per variabili ordinali
- Modelli per variabili a coppie o in cluster
Programma esteso
Distribuzione normale multivariata in statistica
- definizione
- distanza di Mahalanobis
- proprietà
- stima di massima verosimiglianza
- distribuzione degli stimatori di massima verosimiglianza
- distribuzione Wishart
- strumenti per la verifica dell'assunzione di normalità multivariata
- trasformazione di Box-Cox multivariata
Metodi lineari per la classificazione
- classificazione e teoria delle decisioni
- classificatore di Bayes
- approccio naif: regressione lineare per la classificazione
- funzioni discriminanti
- analisi discriminante lineare
- analogie tra analisi discriminante lineare e regressione lineare
- analisi discriminante quadratica
- approccio di Fisher all'analisi discriminante lineare
- metodo "naive Bayes" come caso speciale dell'analisi discriminante
Modelli per variabili categoriali
- regressione logistica
- stima di massima verosimiglianza via Newton-Raphson
- regressione logistica multinomiale
- classificazione tramite regressione logistica
- parallelo tra analisi discriminante lineare e regressione logistica
- modelli alternativi per variabili binarie: modello probit, modello log-log complementare
Modelli per variabili ordinali
- modello logistico cumulato
- modelli alternativi per variabili ordinali: modello probit cumulato, modello log-log complementare cumulato
- modello proportional hazard di Cox
- modello logistico a categorie attigue
Modelli per variabili a coppie o in cluster
- approccio marginale e approccio condizionale
- modello logistico condizionale
- verosimiglianza condizionale
- modelli a effetti casuali
- modello di Rasch
- modello item-response
- modello logistico-normale
- proprietà condizionali e marginali del modello logistico-normale
- possibili generalizzazioni
- modelli a effetti casuali con distribuzione nonparametrica
Prerequisiti
Analisi esplorativa, modelli statistici, calcolo delle probabilità, inferenza statistica, programmazione.
Metodi didattici
Lezioni frontali (teoria e esercizi) e sessioni di laboratorio.
Nello specifico, sono previste:
- 7 lezioni frontali da 3 ore (modalità erogativa nella prima parte e in modo interattivo nella parte successiva)
- 7 lezioni frontali da 2 ore (modalità erogativa)
- 6 attività di laboratorio da 2 (modalità interattiva)
E' previsto che l'80% siano erogate in presenza e il 20% da remoto.
Modalità di verifica dell'apprendimento
L'esame è una prova scritta che si compone di domande di teoria, esercizi teorici e numerici da svolgere tramite l'utilizzo di R.
Non sono previste prove in itinere.
Testi di riferimento
Hastie, T., Tibshirani, R., Friedman, J.H. and Friedman, J.H., 2009. The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: springer.
Agresti, A., 2012. Categorical data analysis (Vol. 792). John Wiley & Sons.
Periodo di erogazione dell'insegnamento
Secondo semestre. Primo ciclo.
Lingua di insegnamento
Italiano
Sustainable Development Goals
Learning objectives
The aim of the course is to introduce some multivariate techniques used in exploratory data analysis and in prediction. The student will be able to apply the aforementioned techniques to real data collected, for instance, in social and economic fields and that can be characterized by high-dimensionality.
Contents
- Multivariate normal distribution in statistics
- Linear methods for classification
- Models for categorical variables
- Models for ordinal variables
- Models for paired or clustered variables
Detailed program
Multivariate normal distribution in statistics
- Definition
- Mahalanobis distance
- Properties
- Maximum likelihood estimation
- Distribution of maximum likelihood estimators
- Wishart distribution
- Tools for testing the assumption of multivariate normality
- Multivariate Box-Cox transformation
Linear methods for classification
- Classification and decision theory
- Bayes classifier
- Naive approach: linear regression for classification
- Discriminant functions
- Linear discriminant analysis
- Similarities between linear discriminant analysis and linear regression
- Quadratic discriminant analysis
- Fisher’s approach to linear discriminant analysis
- Naive Bayes method as a special case of discriminant analysis
Models for categorical variables
- Logistic regression
- Maximum likelihood estimation via Newton-Raphson
- Multinomial logistic regression
- Classification using logistic regression
- Parallel between linear discriminant analysis and logistic regression
- Alternative models for binary variables: probit model, complementary log-log model
Models for ordinal variables
- Cumulative logistic model
- Alternative models for ordinal variables: cumulative probit model, cumulative complementary log-log model
- Cox proportional hazards model
- Adjacent category logistic model
Models for paired or clustered variables
- Marginal and conditional approaches
- Conditional logistic model
- Conditional likelihood
- Random effects models
- Rasch model
- Item-response model
- Logistic-normal model
- Conditional and marginal properties of the logistic-normal model
- Potential generalizations
- Random effects models with nonparametric distribution
Prerequisites
Exploratory data analysis, statistica models, probability theory, statistica inference, programming
Teaching methods
Lectures (theory and exercises) and lab sessions.
Specifically, the schedule includes:
7 lectures of 3 hours each (instructional mode in the first part and interactive in the second part)
7 lectures of 2 hours each (instructional mode)
6 lab sessions of 2 hours each (interactive mode)
It is planned that 80% of the sessions will be conducted in-person and 20% remotely.
Assessment methods
The exam is a written test consisting of theoretical questions, theoretical exercises, and numerical exercises to be completed using R.
There are no mid-term exams.
Textbooks and Reading Materials
Hastie, T., Tibshirani, R., Friedman, J.H. and Friedman, J.H., 2009. The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: springer.
Agresti, A., 2012. Categorical data analysis (Vol. 792). John Wiley & Sons.
Semester
Secondo semeters, first cycle
Teaching language
Italian
Sustainable Development Goals
Key information
Staff
-
Bernardo Nipoti