- Non-Parametric Statistics M
- Summary
Course Syllabus
Obiettivi formativi
Il corso intende esplorare i principi fondamentali e le metodologie proprie della statistica nonparametrica moderna. I metodi considerati permetteranno di affrontare un’ampia gamma di problemi applicati e la loro implementazione avverrà mediante l’utilizzo del software open-source R. Alla fine del corso lo studente sarà in grado di: i) individuare le applicazioni in cui la metodologia nonparametrica risulti opzione più conveniente di quella parametrica, ii) effettuare un’analisi di dati completa con metodi nonparametrici tramite l’utilizzo di R, iii) valutare con adeguati strumenti teorici la performance delle diverse procedure disponibili.
Contenuti sintetici
Il corso si propone di affrontare in modo rigoroso il problema di stimare una distribuzione senza fare assunzioni parametriche. Lo stesso problema verrà formulato in termini di stima di funzioni di ripartizione e di stima di densità. Diversi strumenti e metodi saranno considerati, con attenzione a vantaggi e svantaggi, teorici e computazionali, di ciascuno. Altri temi che saranno toccati riguarderanno i modelli di regressione non parametrici e i test per il goodness-of-fit.
Il corso sarà diviso in due parti dove gli stessi temi verranno trattati seguendo un approccio prima classico e poi bayesiano. Il corso si occuperà sia dello studio delle proprietà teoriche dei modelli nonparametrici che della loro implementazione per l’analisi dati. I laboratori richiederanno l’utilizzo degli strumenti numerici più adatti all’implementazione dei modelli nonparametrici, strumenti che includono algoritmi di ottimizzazione e algoritmi di simulazione di tipo Markov chain Monte Carlo (MCMC).
Programma esteso
Parte 1 (approccio classico)
- stima di una funzione di ripartizione
- bande di confidenza per una funzione di ripartizione
- stima di funzionali statistici
- il metodo bootstrap
- smoothing
- istogramma
- stima di densità attraverso kernel
- modelli di regressione kernel (in base al tempo a disposizione)
- test per goodness-of-fit (in base al tempo a disposizione)
Parte 2 (approccio bayesiano)
- scambiabilità e prior nonparametriche
- il processo di Dirichlet
- Proprietà del processo di Dirichlet
- distribuzione predittiva del processo di Dirichlet
- stima di densità tramite misture di processo di Dirichlet
- problemi di clustering tramite misture di processo di Dirichlet
- modelli di regressione tramite misture nonparametriche (in base al tempo a disposizione)
- test bayesiano per goodness-of-fit (in base al tempo a disposizione)
Prerequisiti
Si richiede la conoscenza dei corsi base di Statistica ad un livello di laurea triennale. E’ inoltre consigliata la conoscenza della statistica bayesiana parametrica, in tal senso è fortemente consigliato il corso di “Statistica bayesiana”.
Metodi didattici
Lezioni frontali accompagnati da alcune sessioni di laboratorio
Modalità di verifica dell'apprendimento
L'esame consiste di una prova orale composta di due parti:
- (obbligatoria) colloquio sugli argomenti svolti a lezione;
- (opzionale) colloquio su argomenti di approfondimento non trattati a lezione.
La parte obbligatoria (parte 1) è individuale ed è atta alla valutazione della preparzione dello studente su tutti gli argomenti trattati durante le lezioni e i laboratori.
La parte opzionale dell'esame orale (parte 2) prevede lo svolgimento e la presentazione di un progetto di gruppo su un tema da concordare con il docente. Questa parte è volta ha valutare la capacità degli studenti di studiare, approfondire, utilizzare strumenti avanzati di statistica nonparametrica.
Testi di riferimento
- Wasserman, L., 2006. All of nonparametric statistics. Springer Science & Business Media.
Ulteriori materiale e referenze verranno forniti durante il corso.
Periodo di erogazione dell'insegnamento
Secondo semestre, primo ciclo.
Lingua di insegnamento
inglese
Sustainable Development Goals
Learning objectives
The course aims to explore the fundamental principles and methodologies of modern nonparametric statistics. The methods considered will allow addressing a wide range of applied problems, and their implementation will be carried out using the open-source software R. By the end of the course, the student will be able to: i) identify applications where nonparametric methodology is more advantageous than parametric methods, ii) conduct a comprehensive data analysis using nonparametric methods with R, iii) assess the performance of different available procedures using appropriate theoretical tools.
Contents
The course aims to rigorously address the problem of estimating a distribution without making parametric assumptions. The same problem will be formulated in terms of estimating distribution functions and density functions. Various tools and methods will be considered, with attention to their theoretical and computational advantages and disadvantages. Other topics that will be covered include nonparametric regression models and goodness-of-fit tests.
The course will be divided into two parts, where the same topics will be covered using both classical and Bayesian approaches. The course will cover both the theoretical properties of nonparametric models and their implementation for data analysis. The labs will require the use of appropriate numerical tools for implementing nonparametric models, including optimization algorithms and Markov chain Monte Carlo (MCMC) simulation algorithms.
Detailed program
Part 1 (Classical approach)
- estimation of a distribution function
- confidence bands for a distribution function
- estimation of statistical functionals
- the bootstrap method
- smoothing techniques
- Histogram
- kernel density estimation
- kernel regression models (time permitting)
- goodness-of-fit tests (time permitting)
Part 2 (Bayesian approach)
- exchangeability and nonparametric priors
- the Dirichlet process
- properties of the Dirichlet process
- predictive distribution of the Dirichlet process
- density estimation using Dirichlet process mixtures
- clustering problems using Dirichlet process mixtures
- regression models using nonparametric mixtures (time permitting)
- Bayesian goodness-of-fit tests (time permitting)
Prerequisites
Knowledge of basic statistics courses at the undergraduate level is required. Familiarity with parametric Bayesian statistics is also recommended, and in this regard, the "Bayesian Statistics" course is strongly recommended.
Teaching methods
Lectures and practical sessions in the lab
Assessment methods
The exam consists of an oral test divided into two parts:
- (mandatory) discussion on the topics covered in class;
- (optional) discussion of additional topics not covered in class.
The mandatory part (Part 1) is individual and aims to assess the student's preparation on all the topics covered during lectures and labs.
The optional part of the oral exam (Part 2) involves the completion and presentation of a group project on a topic agreed upon with the instructor. This part aims to evaluate the students' ability to study, delve deeper into, and utilize advanced nonparametric statistical tools.
Textbooks and Reading Materials
- Wasserman, L., 2006. All of Nonparametric Statistics. Springer Science & Business Media.
Additional materials and references will be provided during the course.
Semester
Second semester, first cycle
Teaching language
English
Sustainable Development Goals
Key information
Staff
-
Bernardo Nipoti