- High Dimensional Data Analysis
- Summary
Course Syllabus
Obiettivi formativi
Questo è un corso avanzato di statistica che ha come oggetto principale l'analisi di dati ad alta dimensionalità. L'obietto del corso è quello di presentare le moderne tecniche di analisi dei dati e la teoria statistica sottostante, coniugando armoniosamente aspetti teorici, pratici e computazionali.
Contenuti sintetici
Il corso riguarda metodi di regressione e classificazione che possono essere impiegati nel caso di dati ad alta dimensionalità
Programma esteso
- Regressione lineare, bias/variance trade-off
- Regressione penalizzata, ridge regression e lasso
- Selezione del modello, metodi di validazione incrociata
- Regressione nonparametrica. k-nearest neighbors (k-NN). Kernel smoothing. Regression splines, Smoothing splines, Local regression
Prerequisiti
Sono necessarie conoscenze di probabilità ed inferenza, modellizzazione statistica, algebra lineare e programmazione in R.
Tali prerequisiti devono essere presi molto seriamente. Se non si possiede una solida comprensione dell'algebra lineare, della probabilità e dell'inferenza, oltre a una notevole esperienza di programmazione con una certa attenzione alle strutture dati, consiglio vivamente di non seguire questo corso. Tuttavia, questi prerequisiti non sono formali; piuttosto, sono imposti dal fatto che non si può comprendere il corso senza di essi.
Metodi didattici
Tutte le lezioni integreranno aspetti di carattere teorico con quelli computazionali attraverso l'uso del software R.
- 12 di lezioni in remoto con modalità sincrona;
- 30 ore di lezioni in presenza con modalità erogativa.
Modalità di verifica dell'apprendimento
Studenti frequentanti: esame scritto.
Studenti non frequentanti: esame scritto.
Durante l'esame sarà valutata la correttezza e la chiarezza delle risposte. L'esame mira a valutare le competenze descritte negli obiettivi formativi.
L'esame scritto consta di 2 domande a risposa aperta.
Testi di riferimento
- Materiale didattico fornito dal docente
- Azzalini, Scarpa (2012) Data analysis and data mining, an introduction . New York: Oxford University Press
- Gareth, Witten, Hastie, Tibshirani (2014) An Introduction to Statistical Learning, with Applications in R . Springer
- Hastie, Tibshirani, Friedman (2009) The Elements of Statistical Learning. Data Mining, Inference and Prediction . Springer
Periodo di erogazione dell'insegnamento
Primo Semestre
Lingua di insegnamento
Inglese
Sustainable Development Goals
Learning objectives
This is an advanced course focusing on the analysis of high-dimensional data. The goal is to study modern methods and their underlying theory, drawing together theory, data, computation and recent research.
Contents
This course covers methods for regression and classification which can be applied to high-dimensional data.
Detailed program
- Linear regression, bias/variance trade-off
- Regularization, ridge and lasso regression
- Model selection, cross-validation
- Nonparametric Regression. k-nearest neighbors (k-NN). Kernel smoothing. Regression splines, Smoothing splines, Local regression
Prerequisites
Basic knowledge of statistical inference and probability, statistical modeling, linear algebra, and computer programming with R.
You should take these prerequisites quite seriously. If you don't have a solid intuitive understanding of linear algebra, probability, and inference, as well as substantial programming experience with some attention to data structures, I strongly recommend not taking this course. However, the prerequisites are not formally enforced—rather, they're enforced by the fact that you won't understand the class without them.
Teaching methods
All lessons will integrate theoretical aspects with computational ones through the use of the R software.
12 hours of remote synchronous lecturing sessions;
30 hours of in-person lecturing sessions.
Assessment methods
Attending students: written exam.
Non-attending students: written exam.
During the exam, the correctness and clarity of the answers will be evaluated.
The exam aims to assess the skills described in the learning objectives.
The written exam consists of 2 open-ended questions.
Textbooks and Reading Materials
- Lecture notes provided by the instructor
- Azzalini, Scarpa (2012) Data analysis and data mining, an introduction . New York: Oxford University Press
- Gareth, Witten, Hastie, Tibshirani (2014) An Introduction to Statistical Learning, with Applications in R . Springer
- Hastie, Tibshirani, Friedman (2009) The Elements of Statistical Learning. Data Mining, Inference and Prediction . Springer
Semester
First semester
Teaching language
English