- Area di Scienze
- Corso di Laurea Magistrale
- Data Science [F9101Q]
- Insegnamenti
- A.A. 2021-2022
- 2° anno
- High Dimensional Data Analysis
- Introduzione
Syllabus del corso
Obiettivi formativi
Questo è un corso avanzato di statistica che ha come oggetto principale l'analisi di dati ad alta dimensionalità. L'obietto del corso è quello di presentare le moderne tecniche di analisi dei dati e la teoria statistica sottostante, coniugando armoniosamente aspetti teorici, pratici e computazionali.
Contenuti sintetici
Il corso riguarda metodi di regressione e classificazione che possono essere impiegati nel caso di dati ad alta dimensionalità
Programma esteso
- Regressione lineare, bias/variance trade-off
- Regressione penalizzata, ridge regression e lasso
- Sezione del modello, metodi di validazione incrociata
- Regressione nonparametrica. k-nearest neighbors (k-NN). Kernel smoothing. Regression splines, Smoothing splines, Local regression
Prerequisiti
Sono necessarie conoscenze di probabilità ed inferenza, algebra lineare, programmazione.
Metodi didattici
Tutte le lezioni si svolgono in laboratorio, integrando aspetti di carattere teorico con quelli computazionali attraverso l'uso di R.
Modalità di verifica dell'apprendimento
Prova individuale orale su argomenti trattati a lezione. Viene valutata la completezza, la correttezza delle risposte e la proprietà di linguaggio.
Testi di riferimento
- Materiale didattico fornito dal docente
- Azzalini, Scarpa (2012) Data analysis and data mining, an introduction . New York: Oxford University Press
- Gareth, Witten, Hastie, Tibshirani (2014) An Introduction to Statistical Learning, with Applications in R . Springer
- Hastie, Tibshirani, Friedman (2009) The Elements of Statistical Learning. Data Mining, Inference and Prediction . Springer
- Hastie, Tibshirani and Wainwright (2015) Statistical Learning with Sparsity: The Lasso and Generalizations . CRC Press
Periodo di erogazione dell’insegnamento
Primo Semestre
Lingua di insegnamento
Italiano
Learning objectives
This is an advanced course focusing on the analysis of high-dimensional data. The goal is to study modern methods and their underlying theory, drawing together theory, data, computation and recent research.
Contents
This course covers methods for regression and classification which can be applied to high-dimensional data.
Detailed program
- Linear regression, bias/variance trade-off
- Regularization, ridge and lasso regression
- Model selection, cross-validation
- Nonparametric Regression. k-nearest neighbors (k-NN). Kernel smoothing. Regression splines, Smoothing splines, Local regression
Prerequisites
Basic knowledge of statistics and probability, linear algebra and computer programming.
Teaching methods
Theoretical lessons and computer applications in lab with R software.
Assessment methods
Oral individual exam to assess the theoretical knowledge of the student on the topics presented during the course. The grading is based on the correctness, the completeness of the answers and the appropriateness of language.
Textbooks and Reading Materials
- Lecture notes provided by the instructor
- Azzalini, Scarpa (2012) Data analysis and data mining, an introduction . New York: Oxford University Press
- Gareth, Witten, Hastie, Tibshirani (2014) An Introduction to Statistical Learning, with Applications in R . Springer
- Hastie, Tibshirani, Friedman (2009) The Elements of Statistical Learning. Data Mining, Inference and Prediction . Springer
- Hastie, Tibshirani and Wainwright (2015) Statistical Learning with Sparsity: The Lasso and Generalizations . CRC Press
Semester
First semester
Teaching language
Italian