- High Dimensional Data Analysis
- Summary
Course Syllabus
Obiettivi formativi
Questo è un corso avanzato di statistica incentrato sull'analisi di dati ad alta dimensionalità, ovvero situazioni in cui il numero di variabili può essere grande rispetto (o persino superiore) al numero di osservazioni. Il corso si propone di introdurre metodi statistici moderni per la riduzione della dimensionalità, la regressione regolarizzata, la selezione di variabili in contesti ad alta dimensionalità. Particolare enfasi è posta sia sugli aspetti teorici sia su quelli computazionali dei metodi presentati. Durante il corso, si incoraggeranno gli studenti a sviluppare capacità di apprendimento autonomo e la capacità di valutare criticamente nuove tecniche, in linea con gli obiettivi dell’area disciplinare “Statistica” del Corso di Laurea Magistrale in Data Science.
Obiettivi formativi secondo i Descrittori di Dublino (DdD)
1. Conoscenza e capacità di comprensione
- Comprendere le sfide e i fondamenti teorici dell’analisi statistica in contesti ad alta dimensionalità.
- Apprendere tecniche chiave come la regressione penalizzata (es. Lasso, Ridge), la selezione di sottoinsiemi, la riduzione dimensionale e i criteri di selezione del modello.
- Familiarizzare con concetti quali la sparsità, il compromesso bias-varianza, l’overfitting e la "maledizione della dimensionalità".
2. Conoscenza e capacità di comprensione applicate
- Applicare tecniche di modellizzazione ad alta dimensionalità a problemi concreti in ambiti come la genomica o l’analisi di immagini.
- Utilizzare il software statistico R per implementare e valutare modelli ad alta dimensionalità.
- Interpretare i risultati dei modelli e valutarne le prestazioni attraverso studi di simulazione e tecniche di validazione incrociata.
3. Autonomia di giudizio
- Sviluppare la capacità di scegliere metodi statistici adeguati in scenari complessi e ad alta dimensionalità.
- Valutare criticamente i limiti e le assunzioni dei modelli, riconoscendo possibili fonti di bias o instabilità.
- Confrontare modelli alternativi utilizzando evidenze empiriche e criteri teorici.
4. Abilità comunicative
- Comunicare concetti e risultati statistici complessi in modo chiaro e rigoroso, sia in forma scritta sia durante le discussioni in aula.
- Presentare e discutere i risultati analitici, le assunzioni e i limiti delle tecniche di analisi ad alta dimensionalità in modo preciso e strutturato.
- Sviluppare la capacità di giustificare le scelte metodologiche e interpretare i risultati alla luce delle considerazioni teoriche ed empiriche.
5. Capacità di apprendimento
- Sviluppare la capacità di aggiornarsi autonomamente in un ambito in rapida evoluzione come l’analisi statistica e l’apprendimento in alta dimensionalità.
- Consultare e valutare criticamente la letteratura scientifica più recente, approfondendo nuove metodologie o applicazioni.
Contenuti sintetici
Il corso riguarda metodi di regressione che possono essere impiegati nel caso di dati ad alta dimensionalità
Programma esteso
- Regressione lineare, bias/variance trade-off
- Regressione penalizzata, ridge regression e lasso
- Sezione del modello, metodi di validazione incrociata
- Regressione nonparametrica. k-nearest neighbors (k-NN). Kernel smoothing. Regression splines, Smoothing splines, Local regression
- High-dimensional inference
Prerequisiti
Il corso richiede conoscenze pregresse di probabilità, inferenza statistica, algebra lineare e programmazione. Particolare attenzione è richiesta alla conoscenza del modello di regressione lineare, sia negli aspetti descrittivi che inferenziali, e alla teoria asintotica basata sull’approssimazione normale.
Metodi didattici
Il corso si svolge interamente in un’aula informatizzata, integrando l’insegnamento teorico con attività computazionali svolte mediante il software R.
Le lezioni saranno tenute in lingua inglese e si articoleranno in:
- lezioni frontali, finalizzate all’introduzione dei concetti teorici e metodologici;
- sessioni tutoriali, dedicate all’illustrazione pratica degli strumenti open-source e alla loro applicazione a problemi reali di analisi statistica ad alta dimensionalità.
Il corso prevede 42 ore complessive, erogate in presenza, organizzate in incontri della durata di 2 o 3 ore ciascuno.
Modalità di verifica dell'apprendimento
L'apprendimento sarà verificato tramite una prova scritta individuale, composta da due domande aperte, ciascuna articolata in sottosezioni che coprono aspetti teorici e applicativi dei contenuti trattati a lezione. La valutazione tiene conto della correttezza, completezza, chiarezza espositiva e proprietà di linguaggio delle risposte.
Non sono previste prove in itinere.
Il punteggio massimo complessivo è pari a 31/30, con eventuale lode assegnata in presenza di una prova particolarmente eccellente. La valutazione non segue una rigida griglia predefinita per ciascuna domanda, ma si basa su criteri di qualità complessiva delle risposte e padronanza degli argomenti, pur garantendo trasparenza e coerenza nella correzione.
Testi di riferimento
- Materiale didattico fornito dal docente
- Azzalini, Scarpa (2012) Data analysis and data mining, an introduction . New York: Oxford University Press
- Gareth, Witten, Hastie, Tibshirani (2014) An Introduction to Statistical Learning, with Applications in R . Springer
- Hastie, Tibshirani, Friedman (2009) The Elements of Statistical Learning. Data Mining, Inference and Prediction . Springer
- Hastie, Tibshirani and Wainwright (2015) Statistical Learning with Sparsity: The Lasso and Generalizations . CRC Press
Periodo di erogazione dell'insegnamento
Primo Semestre
Lingua di insegnamento
Inglese
Sustainable Development Goals
Learning objectives
This is an advanced statistics course focused on the analysis of high-dimensional data, where the number of variables may be large relative to (or even exceed) the number of observations. The course aims to introduce modern statistical methods for dimension reduction, regularized regression, variable selection in high-dimensional settings. Emphasis is placed on both the theoretical foundations and computational aspects of the methods. Throughout the course, students will be encouraged to develop autonomous learning skills and the ability to critically assess new techniques, in line with the objectives of the “Statistics” learning area of the Master’s Degree Programme in Data Science.
Learning Objectives according to Dublin Descriptors (DdD)
1. Knowledge and understanding
Understand the challenges and theoretical foundations underlying statistical analysis in high-dimensional settings.
Learn core techniques such as penalized regression (e.g., Lasso, Ridge), subset selection, dimension reduction, and model selection criteria.
Familiarize with concepts such as sparsity, bias-variance trade-off, overfitting, and the curse of dimensionality.
2. Applied knowledge and understanding
Apply high-dimensional modeling techniques to real-world problems in fields such as genomics and image analysis.
Use R statistical software to implement and evaluate high-dimensional models.
Interpret model outputs and validate models using simulation studies and cross-validation techniques.
3. Autonomy of judgment
Develop the ability to choose appropriate statistical methods in complex, high-dimensional scenarios.
Critically assess the limitations and assumptions of models, and recognize potential sources of bias or instability.
Evaluate competing models using empirical evidence and theoretical criteria.
4. Communication skills
- Communicate complex statistical concepts and results clearly and rigorously, both in written form and during in-class discussions.
- Present and discuss analytical outcomes, assumptions, and limitations of high-dimensional techniques in a precise and structured manner.
- Develop the ability to justify methodological choices and interpret statistical findings in light of theoretical and empirical considerations.
5. Ability to learn
Develop the capacity to keep up with advances in the fast-evolving field of statistical learning and high-dimensional data analysis.
Engage with recent literature and critically evaluate new methodologies or applications.
Contents
This course covers methods for regression which can be applied to high-dimensional data.
Detailed program
- Linear regression, bias/variance trade-off
- Regularization, ridge and lasso regression
- Model selection, cross-validation
- Nonparametric Regression. k-nearest neighbors (k-NN). Kernel smoothing. Regression splines, Smoothing splines, Local regression
- High-dimensional inference
Prerequisites
The course requires prior knowledge of probability, statistical inference, linear algebra, and programming. Particular emphasis is placed on familiarity with the linear regression model—both in its descriptive and inferential aspects—and with asymptotic theory based on normal approximations.
Teaching methods
The course is delivered entirely in a computer-equipped classroom, combining theoretical instruction with computational practice using the R software.
All lectures will be held in English and will include:
- frontal lectures, aimed at introducing the main theoretical and methodological concepts;
- tutorial sessions, focused on practical implementation of open-source tools and their application to real-world problems in high-dimensional data analysis.
The course consists of 42 hours of in-person instruction, organized in 2- or 3-hour sessions.
Assessment methods
Assessment will be based on a final individual written exam consisting of two open-ended questions, each subdivided into sections covering both theoretical and applied aspects of the course content. Evaluation will consider the correctness, completeness, clarity, and appropriateness of language used in the responses.
No midterm exams are planned.
The final grade is expressed on a scale up to 31/30, with honors (cum laude) awarded in the case of outstanding performance. While no rigid scoring rubric is applied to each question, grades are assigned based on the overall quality of the answers and the student's command of the material, ensuring both transparency and consistency in grading.
Textbooks and Reading Materials
- Lecture notes provided by the instructor
- Azzalini, Scarpa (2012) Data analysis and data mining, an introduction . New York: Oxford University Press
- Gareth, Witten, Hastie, Tibshirani (2014) An Introduction to Statistical Learning, with Applications in R . Springer
- Hastie, Tibshirani, Friedman (2009) The Elements of Statistical Learning. Data Mining, Inference and Prediction . Springer
- Hastie, Tibshirani and Wainwright (2015) Statistical Learning with Sparsity: The Lasso and Generalizations . CRC Press
Semester
First semester
Teaching language
English