- Bayesian Inference
- Summary
Course Syllabus
Obiettivi formativi
Il corso fornisce la conoscenza dei principi di base per l’inferenza statistica in ambito Bayesiano. Il ragionamento Bayesiano viene presentato in modo integrato con l’approccio all’inferenza statistica sviluppato in senso classico.
Conoscenza e comprensione
Questo insegnamento permette allo studente di apprendere:
- la regola di Bayes e l’utilizzo delle regole probabilistiche per aggiornare l’informazione fornita dai dati osservati;
- gli elementi fondamentali dell’inferenza Bayesiana quali il calcolo delle distribuzioni a priori, della funzione di verosimiglianza e della distribuzione a posteriori;
- il metodo Monte Carlo per la simulazione della distribuzione a posteriori;
- il calcolo della distribuzione predittiva;
- gli algoritmi Markov Chain Monte Carlo: Metropolis-Hastings e Gibbs sampler;
- il modello di regressione lineare e logistica multipla Bayesiano;
- i modelli di Markov per dati longitudinali.
Capacità di applicare conoscenza e comprensione
Questo insegnamento permette allo studente:
- applicare i metodi di inferenza Bayesiana a casi di studio rilevanti nei seguenti ambiti: biostatistica, epidemiologia, medicina, biologia, ambiente, genetica e salute pubblica;
- applicare i modelli statistici utilizzando dati ripetuti nel tempo per le stesse unità;
- applicare metodi di classificazione basati su modelli statistici;
- sviluppare del codice in ambiente R e SAS;
- creare report riproducibili come strumento di presentazione dei risultati delle analisi.
Le lezioni teoriche sono affiancate da esercitazioni pratiche basate su dati reali e simulati in cui si utilizzano sia l’ambiente R, Rstudio e Rmarkdown che il software SAS.
L’inferenza Bayesiana si caratterizza quale metodo statistico imprescindibile nell'ambito teorico e dell'analisi dei dati per i contesti lavorativi di sbocco (biostatistico/statistico/demografico e affini) degli studenti del corso di laurea in Biostatistica. Il corso risulta indispensabile per il successivo percorso universitario.
Contenuti sintetici
Introduzione all’inferenza Bayesiana e alla regola di Bayes.
Metodi di specificazione del modello e delle distribuzioni a priori.
Famiglie coniugate: Gaussiana, Poisson-gamma, beta-binomiale, multinomiale-Dirichelet
Inferenza Bayesiana non parametrica.
Metodi di sintesi della distribuzione a posteriori, intervalli di credibilità e intervalli con la massima densità a posteriori.
Introduzione ai processi stocastici di Markov e proprietà delle catene di Markov. Modello passeggiata casuale.
Modello di transizione per dati longitudinali.
Modello di Markov a variabili latenti per dati longitudinali e estensioni del modello con covariate nella parte manifesta e nella parte latente.
Metodi Markov Chain Monte Carlo: Algoritmo Metropolis-Hastings e campionamento Gibbs.
Ambiente R e Rstudio, utilizzando principalmente le seguenti librerie: probBayes, learnBayes, LMest, LaplaceDemon, RMarkdown attraverso la libreria knitr per integrare il codice, i risultati delle analisi ed i commenti. Software SAS: proc MCMC.
Programma esteso
Durante il corso viene ripresa la regola di Bayes e la regola delle probabilità totali attraverso l’esempio del Bayes'billard. Vengono sviluppati gli aspetti riguardanti la specificazione delle distribuzioni a priori, la stima esatta delle distribuzioni a posteriori e l’interpretazione dei modelli. Viene introdotto il modello beta-binomiale e le altre famiglie coniugate: Gaussiana, modello Poisson-gamma, multinomiale-Dirichlet e enfasi viene posta anche sulla distribuzione predittiva. L’inferenza viene confrontata con quella derivante dall’approccio classico. Vengono illustrate le caratteristiche di scelta e di determinazione delle distribuzioni a priori considerando distribuzioni a priori informative e non informative. La nozione di scambiabilità viene illustrata attraverso il teorema di rappresentazione di De Finetti. Vengono trattati i metodi di sintesi della distribuzione a posteriori: intervalli di credibilità, intervalli con la massima densità a posteriori.
La teoria viene affiancata da svariati esempi di applicazione dei modelli Bayesiani nell’ambito della biostatistica attraverso dati reali e simulati riguardanti l’epidemiologia, la farmaco epidemiologia, la medicina e la biologia oltre che l’ecologia e le scienze ambientali.
Vengono introdotti i processi stocastici Markoviani enunciando le proprietà e le caratteristiche delle catene di Markov. Si mostrano le caratteristiche del processo passeggiata casuale, attraverso le simulazioni delle traiettorie per matrici stocastiche con diverse dimensioni. Viene introdotto il modello di transizione per dati longitudinali, ed il modello latente di Markov. Vengono illustrati anche da un punto di vista computazionale gli algoritmi di stima utilizzati nell’ambito del metodo Markov Chain Monte Carlo (MCMC): l’algoritmo Metropolis-Hastings e l’algoritmo Gibbs sampling. Vengono discusse diverse misure che permettono la valutazione diagnostica della loro convergenza.
La teoria è affiancata da numerose applicazioni a dati reali e simulati riguardanti gli ambiti applicativi del corso di laurea in modo da facilitare anche lo sviluppo della conoscenza della semantica in ambiente R e del software SAS. Gli esempi sono svolti in Rstudio con l’ausilio di RMarkdown. Lo studente durante le esercitazioni è incoraggiato, anche tramite l’apprendimento cooperativo, ad elaborare documenti riproducibili concernenti anche il commento critico ai risultati delle analisi.
Prerequisiti
Si consiglia di riprendere le nozioni impartite nei seguenti corsi: Statistica, Probabilità e Inferenza Statistica, Modelli Statistici II.
Metodi didattici
Sono previste lezioni frontali riguardanti la parte di teoria e queste sono affiancate da esercitazioni pratiche che permettono allo studente di sviluppare l’aspetto della scienza dei dati. Le lezioni sono impartire presso il laboratorio informatico. Durante il corso con l'ausilio di R nell'ambiente RStudio e del marcatore di testo RMarkdown oppure del software SAS, gli studenti imparano ad analizzare i dati e stimare i modelli Bayesiani elaborando documenti riproducibili. Settimanalmente vengono assegnati esercizi di riepilogo da svolgere con dati reali o simulati relativi alla parte di programma svolto dove gli studenti vengono incoraggiati ad affrontare il problema applicativo con lo scopo ulteriore di sviluppare l'apprendimento cooperativo.
Modalità di verifica dell'apprendimento
Le seguenti modalità di verifica dell’apprendimento riguardano sia gli studenti che non frequentanti. L’esame è in forma scritta con orale facoltativo, non sono previste prove intermedie. L'esame scritto ha durata di circa due ore e si svolge presso il laboratorio informatico. Durante la prova occorre rispondere a domande aperte di teoria e risolvere gli esercizi alla luce degli argomenti teorici sviluppati durante il corso. Le domande di teoria permettono di verificare l’apprendimento delle nozioni teoriche impartite durante il corso. Le analisi empiriche condotte tramite l'ambiente R, Rstudio e RMarkdown e SAS e permettono di verificare la capacità di comprensione del problema, la sua risoluzione tramite l'applicazione di modelli statistici avanzati a dati reali o simulati e l’elaborazione di report con la descrizione del procedimento e l’illustrazione dei risultati. L’esame è a libro aperto e gli studenti possono consultare il codice R utilizzato durante il corso. Lo studente supera la prova con una votazione almeno pari a 18/30.
Testi di riferimento
Le dispense di teoria e di applicazioni redatte dal docente costituiscono il materiale didattico principale che è reso disponibile nella pagina della piattaforma e-learning dell’ateneo dedicata al corso al termine di ogni lezione. Il materiale didattico comprende: le slides, i programmi di calcolo, gli esercizi, alcuni testi testi d’esame riferiti agli appelli precedenti.
I principali testi di riferimento sono elencati nella bibliografia delle dispense. Alcuni tra questi anche disponibili in e-book sono i seguenti:
Albert, J. (2009). Bayesian computation with R. Springer Science & Business Media.
Albert, J., Hu, J. (2019). Probability and Bayesian modeling. Chapman and Hall/CRC.
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Migon, H. S., Gamerman, D., Louzada, F. (2014). Statistical inference: an integrated approach. Chapman & Hall.
Pennoni, F. (2022). Dispensa di Inferenza Bayesiana: Teoria e applicazioni con R e SAS. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
Robert, C., Casella, G. (2004). Monte Carlo Statistical Methods (second edition). Springer–Verlag, New York.
Dipak, D. K., Ghosh, S. K., Mallick, B. K. (2000). Generalized linear models: A Bayesian perspective. CRC press.
SAS/STAT PROC MCMC, User’s guide, SAS Institute, 2012.
R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
Periodo di erogazione dell'insegnamento
1° semestre, Ciclo II, Novembre 2022-Gennaio 2023
Lingua di insegnamento
Il corso viene erogato in lingua italiana. Gli studenti Erasmus possono utilizzare il materiale didattico in Inglese e richiedere al docente lo svolgimento della prova d’esame in lingua inglese.
Sustainable Development Goals
Learning objectives
The course provides knowledge of the basic and advanced statistical principles under the Bayesian paradigm. The Bayesian methods are illustrated according to an integrated approach with classical statistical inference.
Knowledge and understanding
The course allows the student to learn:
- the Bayes’ rule and the use of probability to update the information provided from the observed data;
- Bayesian inferential methods: priors,
computation of the likelihood and posterior distributions; - Monte Carlo methods to simulate the posterior distribution;
- calculus of the predictive distribution for features predictions and model checking;
- Markov Chain Monte Carlo algorithms: Metropolis-Hastings and Gibbs sampler;
- Bayesian inference and prediction for the multiple linear and logistic regression models;
- latent Markov models for the analysis of longitudinal data.
Ability to apply knowledge and understanding
The course allows the student:
- to apply the Bayesian methodology by using data available in the field of biostatistics, epidemiology, medicine, biology, environmental impact, genetics, and public health;
- to apply suitable statistical models when repeated observations for the same unit are available over time;
- to apply model-based classification methods;
- to implement suitable R and SAS code to carry out the analyses;
- to provide reproducible documents with code, results, and comments.
The theory is supported by practical applications based on real and simulated data. R is used within the Rstudio interface, and Rmarkdown, SAS is also proposed so that the student gets a deep knowledge of two program languages.
This course provides the main concepts of Bayesian inference, an essential statistical method in the theoretical and data analysis fields for the job contexts (biostatistics/statistics/demography and related) of students in the Biostatistics degree program. The course is found to be essential for the subsequent courses.
Contents
Introduction to Bayesian inference and Bayes' rule. Methods of model specification and prior distributions.
Determination of the posterior distribution by exact methods.
Conjugate families: Gaussian, Poisson-gamma, beta-binomial, multinomial-Dirichelet.
Introduction to Bayesian non-parametric inference.
Methods to summarize the posterior distribution: credibility intervals and intervals with the highest posterior density.
Introduction to stochastic Markov processes, random walk.
Markov chain models for longitudinal data and
introduction to the latent Markov models with covariates.
Introduction to the Markov Chain Monte Carlo Methods: Metropolis-Hastings algorithm and Gibbs sampler.
R environment and RStudio interface using, in particular, the following libraries: probBayes, learnBayes, LMest, LaplaceDemon.
RMarkdown will be employed to produce reproducible documents and to integrate code and output within the knitr library.
SAS software with proc MCMC.
Detailed program
The Bayesian paradigm is introduced and compared with the frequentist approach along with the Bayes‘ rule and the total probability rule. A short introduction to the Bayesian non-parametric methods is provided and the notions of exchangeability and De Finetti’s theorem are explained. The beta-binomial model is introduced along with the other conjugate families Gaussian, Poisson-gamma, beta-binomial, and multinomial-Dirichlet distributions. Choice of the prior distribution is considered. Inference is compared with that of the classical approach. Methods to draw conclusions from the posterior distribution: Bayesian interval estimation, credible intervals, and intervals with the highest posterior density. The prediction context is also explored along with the empirical Bayes estimation.
Theory is supported by several examples of the application of Bayesian models in biostatistics through real and simulated data concerning epidemiology, drug epidemiology, medicine and biology, ecology and environmental sciences.
An introduction to the stochastic processes within the Markov random field is proposed. Properties and features of the Markov chains are illustrated and explained with the use of simulations. The random walk process is also described.
Markov chain models for longitudinal data are explained, and the latent Markov models with covariates are introduced both from a theoretical and applied perspective.
Markov Chain Monte Carlo (MCMC) algorithms are provided with a focus on Metropolis-Hastings and Gibbs sampling algorithms. Diagnostic evaluations of the convergence are considered.
Some time is devoted to explaining the theory by imparting the flavor of the applications using observed data arising from different fields. The examples are developed within the statistical environment R, RStudio, RMarkdown to make reproducible documents. The SAS software is proposed to perform the analyses to estimate Bayesian linear and logistic models with PROC MCMC. During the exercises, the student is encouraged, also through cooperative learning, to develop reproducible documents also concerning critical comments on the results of the analyses.
Prerequisites
The student is encouraged to know the content of the following courses: Statistics, Probability, and Statistical Inference and Statistical Models II.
Teaching methods
The lectures are held in the lab since the theoretical part is placed side-by-side with the computer's applications using R and SAS software. Many practical examples based on real and simulated data referred to different contexts are proposed to the students so that they can learn to analyze data and estimate Bayesian models with R through the RMarkdown interface and SAS softwares. The student is also encouraged to develop cooperative learning to interact with each other and finalize the required steps of the analysis. Exercises are carried out to report in a written form the results by adding critical comments and creating reproducible documents.
Assessment methods
The following methods of verifying learning apply to both students attending and non-attending lectures in presence. The examination is in written form with open questions and with optional oral; there are no intermediate tests. The written exam has a maximum total duration of two hours and takes place in the computer lab. During the examination, open theory questions must be answered, and exercises must be solved in the light of the theoretical topics developed during the course. The theory questions allow verifying the learning of the theoretical concepts taught during the course. The empirical analyses are conducted using the R environment, Rstudio, and RMarkdown and SAS and allow verifying the ability to understand the problem and its resolution by applying advanced statistical models to real or simulated data and the elaboration of reports in which the procedure is described, and the results are illustrated. The examination is open book and students can consult the R code used during the course. The student passes the test with a mark of at least 18/30.
Textbooks and Reading Materials
The main teaching material consists of theory and application handouts prepared by the teacher. They are made available on the page of the e-learning platform of the university dedicated to the course at the end of each lecture. The teaching material includes the slides, the calculation programs, the exercises, the datasets, the solutions of the exercises, and some examination tests referred to previous examinations.
The primary reference texts are listed in the bibliography of the handouts; among others, the following are noted. Some of these are also available in ebook.
Albert, J. (2009). Bayesian computation with R. Springer Science & Business Media.
Albert, J., Hu, J. (2019). Probability and Bayesian modeling. Chapman and Hall/CRC.
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Migon, H. S., Gamerman, D., Louzada, F. (2014). Statistical inference: an integrated approach. Chapman & Hall.
Pennoni, F. (2022). Dispensa di Inferenza Bayesiana: Teoria e applicazioni con R e SAS. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
Robert, C., Casella, G. (2004). Monte Carlo Statistical Methods (second edition). Springer–Verlag, New York.
Dipak, D. K., Ghosh, S. K., Mallick, B. K. (2000). Generalized linear models: A Bayesian perspective. CRC press.
SAS/STAT PROC MCMC, User’s guide, SAS Institute, 2012.
R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
Semester
Semester I, cycle II, November 2022-January 2023
Teaching language
The course is delivered in Italian. Erasmus students may use the teaching material in English and request the teacher to conduct the examination in English.