- Bayesian Inference
- Summary
Course Syllabus
Obiettivi formativi
Il corso permette allo studente di apprendere le procedure analitiche ed inferenziali in ambito Bayesiano. Il ragionamento Bayesiano viene presentato in modo integrato con l’approccio all’inferenza statistica sviluppato in senso classico.
Conoscenza e comprensione
Lo studente viene introdotto alla conoscenza dei principali modelli statistici Bayesiani per l’analisi di dati con diverse tipologie di variabili risposta. Si illustrano anche le relative ipotesi alla base della teoria considerando i modelli coniugati e gli algoritmi di stima per ottenere tramite simulazioni la distribuzione a posteriori. Lo studente impara anche a trattare i dati longitudinali e alcuni modelli statistici che tengono conto delle misure ripetute. L’analisi dei dati viene condotta sia utilizzando il software R e l’ambiente RMarkdown che permette di creare documenti riproducibili contenenti il codice, i risultati ed i commenti, sia utilizzando specifiche procedure per l’analisi Bayesiana con il software SAS. Gli esempi applicativi riguardano dati reali e simulati provenienti da diversi ambiti di riferimento per il corso di studi. Lo studente è incoraggiato a fornire anche una valutazione critica circa i risultati ottenuti con le analisi empiriche.
Capacità di applicare conoscenza e comprensione
Il corso fornisce competenze nell'utilizzo dei modelli Bayesiani per applicazioni a casi di studio rilevanti nei seguenti ambiti: biostatistica, epidemiologia, medicina, biologia, ambiente, genetica e salute pubblica Attraverso R e RStudio gli studenti imparano ad impostare in modo organico il ragionamento statistico attraverso l’analisi dei dati e la redazione di relazioni che illustrino il codice, le analisi ed i risultati. Attraverso l’utilizzo del software SAS gli studenti imparano a stimare tramite simulazioni complessi modelli Bayesiani e ad impostare gli input richiesti dagli algoritmi di stima. La teoria viene affiancata da applicazioni pratiche. Il corso consente agli studenti di acquisire solide basi teoriche e capacità di applicare i modelli statistici proposti a dati reali. Lo studente è incoraggiato a fornire anche una valutazione critica circa i risultati ottenuti con le analisi empiriche.
L’insegnamento è indispensabile per il successivo percorso universitario in quanto fornisce i concetti essenziali per lo sviluppo dei metodi Bayesiani sia in ambito teorico che applicativo per i contesti lavorativi di sbocco (biostatistico/statistico/demografico e affini) degli studenti del corso di laurea in Biostatistica.
Contenuti sintetici
Introduzione all’inferenza Bayesiana e alla regola di Bayes. Metodi di specificazione del modello e delle distribuzioni a priori.
Famiglie coniugate: Gaussiana, Poisson-gamma, beta-binomiale, multinomiale-Dirichelet Inferenza Bayesiana non parametrica.
Metodi di sintesi della distribuzione a posteriori, regioni di credibilità e intervalli con la massima densità a posteriori.
Introduzione ai processi stocastici di Markov e proprietà delle catene di Markov. Modello passeggiata casuale. Modello di transizione per dati longitudinali.
Modello di Markov a variabili latenti per dati longitudinali ed estensioni del modello con covariate sia nel modello osservato che nel modello latente.
Metodi Markov Chain Monte Carlo: Algoritmo Metropolis-Hastings e campionamento Gibbs. Test diagnostici per la convergenza.
Applicazioni a dati reali svolte utilizzando l’ambiente R, RStudio ed il software SAS.
Programma esteso
Durante il corso viene ripresa la regola di Bayes e la regola delle probabilità totali attraverso l’esempio del Bayes'billard. Vengono sviluppati gli aspetti riguardanti la specificazione delle distribuzioni a priori, la stima esatta delle distribuzioni a posteriori e l’interpretazione dei modelli. Viene introdotto il modello beta-binomiale e le altre famiglie coniugate: Gaussiana, modello Poisson-gamma, multinomiale-Dirichlet e enfasi viene posta anche sulla distribuzione predittiva. L’inferenza viene confrontata l’inferenza intesa in senso classico. Vengono illustrate le caratteristiche di scelta e di determinazione della distribuzione a priori sia informativa che non informativa. La nozione di scambiabilità viene illustrata attraverso il teorema di rappresentazione di De Finetti. La distribuzione a posteriori viene sintetizzata attraverso le regioni di credibilità, e gli intervalli con la massima densità a posteriori.
La teoria viene affiancata da svariati esempi di applicazione dei modelli Bayesiani nell’ambito della biostatistica attraverso dati reali e simulati riguardanti l’epidemiologia, la farmacoepidemiologia, la medicina e la biologia oltre che l’ecologia e le scienze ambientali.
Vengono introdotti i processi stocastici Markoviani enunciando le proprietà e le caratteristiche delle catene di Markov. La passeggiata casuale viene illustrate attraverso le simulazioni delle traiettorie per matrici stocastiche con diverse dimensioni. Viene introdotto il modello di transizione per dati longitudinali, ed il modello latente di Markov. Vengono illustrati anche da un punto di vista computazionale gli algoritmi di stima utilizzati nell’ambito del metodo Markov Chain Monte Carlo (MCMC): l’algoritmo Metropolis-Hastings e l’algoritmo Gibbs sampling. Vengono discusse diverse misure riferite sia alle analisi grafiche che ai test statistici che permettono la valutazione diagnostica della convergenza.
La teoria è affiancata da numerose applicazioni a dati reali e simulati riguardanti gli ambiti applicativi del corso di laurea in modo da facilitare anche lo sviluppo della conoscenza della semantica in ambiente R e del software SAS. Gli esempi sono svolti in Rstudio con l’ausilio di RMarkdown. Lo studente durante le esercitazioni è incoraggiato, anche tramite l’apprendimento cooperativo, ad elaborare documenti riproducibili concernenti anche il commento critico ai risultati delle analisi.
Ambiente R e Rstudio, utilizzando principalmente le seguenti librerie: probBayes, learnBayes, LMest, LaplaceDemon, RMarkdown attraverso la libreria knitr per integrare il codice, i risultati delle analisi ed i commenti. Software SAS attraverso la libreria proc MCMC.
Prerequisiti
Si consiglia di riprendere le nozioni impartite nei seguenti corsi: Statistica, Probabilità e Inferenza Statistica, Modelli Statistici II.
Metodi didattici
Sono previste lezioni frontali riguardanti la parte di teoria e queste sono affiancate da esercitazioni pratiche che permettono allo studente di sviluppare l’aspetto della scienza dei dati. Le lezioni sono impartite presso il laboratorio informatico. Durante il corso con l'ausilio di R nell'ambiente RStudio e del marcatore di testo RMarkdown oppure del software SAS, gli studenti imparano ad analizzare i dati e stimare i modelli Bayesiani elaborando documenti riproducibili. Settimanalmente vengono assegnati esercizi di riepilogo da svolgere con dati reali o simulati dove gli studenti vengono incoraggiati ad affrontare il problema applicativo riferito all’ambito teorico illustrato a lezione con lo scopo ulteriore di sviluppare l'apprendimento cooperativo.
Modalità di verifica dell'apprendimento
Le seguenti modalità di verifica dell'apprendimento si applicano sia agli studenti frequentanti che a quelli non frequentanti le lezioni che si svolgono in presenza. L'esame è composto da una parte scritta con domande aperte e da una parte orale facoltativa. Durante il corso sono previste anche prove intermedie. L'esame scritto ha una durata massima due ore e si svolge in laboratorio informatico. Durante l'esame, gli studenti devono rispondere a domande aperte di teoria e risolvere gli esercizi basandosi sugli argomenti teorici trattati e sulle esercitazioni pratiche assegnate settimanalmente durante il corso. Le domande di teoria valutano l'apprendimento dei concetti teorici insegnati. Le analisi empiriche sono condotte utilizzando l'ambiente R, RStudio e RMarkdown ed il software SAS e permettono di verificare la capacità degli studenti di applicare modelli statistici Bayesiani a dati reali o simulati e di elaborare report riproducibili che descrivano i dati, le procedure e i risultati ottenuti. Durante l'esame è consentito l'utilizzo del materiale di studio e del codice R implementato durante il corso. Ogni domanda avrà un punteggio di circa 2 o 3 punti. Lo studente supera l'esame con una votazione di almeno 18/30.
Testi di riferimento
Le dispense di teoria e di applicazioni redatte dal docente costituiscono il materiale didattico principale che è reso disponibile nella pagina della piattaforma e-learning dell’ateneo dedicata al corso al termine di ogni lezione. Il materiale didattico comprende: le slides, i programmi di calcolo, gli esercizi, alcuni testi d’esame riferiti agli appelli precedenti.
I principali testi di riferimento sono elencati nella bibliografia delle dispense. Alcuni tra questi anche disponibili in e- book sono i seguenti:
Albert, J. (2009). Bayesian computation with R. Springer Science & Business Media.
Albert, J., Hu, J. (2019). Probability and Bayesian modeling. Chapman and Hall/CRC.
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Migon, H. S., Gamerman, D., Louzada, F. (2014). Statistical inference: an integrated approach. Chapman & Hall.
Pennoni, F. (2023). Dispensa di Inferenza Bayesiana: Teoria e applicazioni con R e SAS. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
Robert, C., Casella, G. (2004). Monte Carlo Statistical Methods (second edition). Springer–Verlag, New York. Dipak, D. K., Ghosh, S. K., Mallick, B. K. (2000). Generalized linear models: A Bayesian perspective. CRC press.
SAS/STAT PROC MCMC, User’s guide, SAS Institute, 2012.
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
Periodo di erogazione dell'insegnamento
1° semestre, Ciclo II, Novembre 2023-Gennaio 2024
Lingua di insegnamento
Il corso viene erogato in lingua italiana. Gli studenti Erasmus possono utilizzare il materiale didattico predisposto in lingua inglese e fornito dal docente su richiesta. Possono inoltre richiedere di svolgere la prova d’esame in lingua inglese.
Sustainable Development Goals
Learning objectives
The course enables the student to learn analytical and inferential procedures under the Bayesian paradigm. The Bayesian methods are illustrated according to an integrated approach with classical statistical inference.
Knowledge and understanding
The student is introduced to the main Bayesian statistical models for analysing data with different types of response variables. The relevant assumptions underlying the theory are also illustrated by considering conjugate models and estimation algorithms to obtain the a posteriori distribution through simulations. The student also learns how to deal with longitudinal data and some statistical models that take repeated measures into account. Data analysis is conducted both using R software and the RMarkdown environment, which allows reproducible documents containing code, results and comments, and using specific procedures for Bayesian analysis with SAS software. The applications cover real and simulated data from different fields of reference for the course of study. The student is also encouraged to provide a critical evaluation of the results obtained from the empirical analyses.
Ability to apply knowledge and understanding
The course provides skills in the use of Bayesian models for applications to relevant case studies in the following fields: biostatistics, epidemiology, medicine, biology, environment, genetics and public health Through R and RStudio, students learn how to organically set up statistical reasoning by analysing data and writing reports that illustrate the code, analyses and results. Through the use of SAS software, students learn to estimate complex Bayesian models through simulations and to set up the inputs required by the estimation algorithms. Theory is complemented by practical applications. The course enables students to acquire a solid theoretical foundation and the ability to apply the proposed statistical models to real data. The student is also encouraged to critically evaluate the results obtained from the empirical analyses.
The teaching is fundamental for the subsequent university course as it provides the essential concepts for the development of Bayesian methods in both the theoretical and applied fields for the target job contexts (biostatistics/statistics/demography and related) of students on the Biostatistics degree course.
Contents
Introduction to Bayesian inference and Bayes' rule. Methods of model specification and prior distributions. Determination of the posterior distribution by exact methods.
Conjugate families: Gaussian, Poisson-gamma, beta-binomial, multinomial-Dirichelet. Introduction to Bayesian non-parametric inference.
Methods to summarize the posterior distribution: credibility intervals and intervals with the highest posterior density. Introduction to stochastic Markov processes, random walk.
Markov chain models for longitudinal data and introduction to the latent Markov models with covariates.
Introduction to the Markov Chain Monte Carlo Methods: Metropolis-Hastings algorithm and Gibbs sampler.
R environment and RStudio interface using, in particular, the following libraries: probBayes, learnBayes, LMest, LaplaceDemon.
RMarkdown will be employed to produce reproducible documents and to integrate code and output within the knitr library. SAS software with proc MCMC.
Detailed program
The Bayesian paradigm is introduced and compared with the frequentist approach, Bayes‘ rule, and the total probability rule. A short introduction to the Bayesian non-parametric methods is provided, and the notions of exchangeability and De Finetti’s theorem are explained. The beta-binomial model and the other conjugate families Gaussian, Poisson-gamma, beta-binomial, and multinomial-Dirichlet distributions are introduced. The choice of the prior distribution is considered. Inference is compared with that of the classical approach. The methods to draw conclusions from the posterior distribution include Bayesian interval estimation, credible intervals, and intervals with the highest posterior density. The prediction context is also explored along with the empirical Bayes estimation.
Several examples of the application of Bayesian models in biostatistics through real and simulated data concerning epidemiology, drug epidemiology, medicine and biology, ecology, and environmental sciences support theory.
An introduction to the stochastic processes within the Markov random field is proposed. The properties and features of the Markov chains are illustrated and explained using simulations. The random walk process is also described.
Markov chain models for longitudinal data are explained, and the latent Markov models with covariates are introduced both from a theoretical and applied perspective.
Markov Chain Monte Carlo (MCMC) algorithms are explained with a focus on Metropolis-Hastings and Gibbs sampling algorithms. Diagnostic evaluations of the convergence are considered.
Some time is devoted to explaining the theory by imparting the flavor of the applications using observed data arising from different fields. The examples are developed within the statistical environment R, RStudio, and RMarkdown to make reproducible documents. The SAS software is proposed to perform the analyses to estimate Bayesian linear and logistic models with PROC MCMC. During the exercises, the student is encouraged, also through cooperative learning, to develop reproducible documents concerning critical comments on the results of the analyses.
Prerequisites
The student is encouraged to know the content of the following courses: Statistics, Probability, and Statistical Inference and Statistical Models II.
Teaching methods
The lectures are held in the lab since the theoretical part is placed side-by-side with the computer's applications using R and SAS software. Many practical examples based on real and simulated data referred to different contexts are proposed to the students so that they can learn to analyze data and estimate Bayesian models with R through the RMarkdown interface and SAS softwares. The student is also encouraged to develop cooperative learning to interact with each other and finalize the required steps of the analysis. Exercises are carried out to report in a written form the results by adding critical comments and creating reproducible documents.
Assessment methods
The following methods of verifying learning apply to students attending and non-attending lectures held in the lab. The examination is written with open questions and optional oral; there are not intermediate tests. The written exam has a maximum total duration of two hours in the computer lab. During the examination, open theory questions must be answered, and exercises must be solved in light of the theoretical topics covered during the course and the practical exercises assigned weekly during the course. The theory questions verify the learning of the theoretical concepts taught during the course. The empirical analyses are conducted using the R environment, Rstudio, and RMarkdown. They allow demonstrating the ability to understand the problem and its resolution by applying advanced statistical models to real or simulated data and the elaboration of reproducible reports in which the procedure is described, and the results are illustrated. During the examination, the use of the study material and R code implemented during the course is permitted. Each question will be marked approximately 2 or 3 points. The student passes the test with a mark of at least 18/30.
Textbooks and Reading Materials
The main teaching material consists of theory and application handouts prepared by the teacher. They are made available on the page of the e-learning platform of the university dedicated to the course at the end of each lecture. The teaching material includes the slides, the calculation programs, the exercises, the datasets, the solutions of the exercises, and some examination tests referred to previous examinations.
The primary reference texts are listed in the bibliography of the handouts; among others, the following are noted. Some of these are also available in ebook.
Albert, J. (2009). Bayesian computation with R. Springer Science & Business Media.
Albert, J., Hu, J. (2019). Probability and Bayesian modeling. Chapman and Hall/CRC.
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Migon, H. S., Gamerman, D., Louzada, F. (2014). Statistical inference: an integrated approach. Chapman & Hall.
Pennoni, F. (2023). Dispensa di Inferenza Bayesiana: Teoria e applicazioni con R e SAS. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
Robert, C., Casella, G. (2004). Monte Carlo Statistical Methods (second edition). Springer–Verlag, New York. Dipak, D. K., Ghosh, S. K., Mallick, B. K. (2000). Generalized linear models: A Bayesian perspective. CRC press.
SAS/STAT PROC MCMC, User’s guide, SAS Institute, 2012.
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
Semester
Semester I, cycle II, November 2023-January 2024
Teaching language
The course is delivered in Italian. Erasmus students may use the teaching material in English and request the teacher to conduct the examination in English.
Sustainable Development Goals
Key information
Staff
-
Luca Brusa
-
Fulvia Pennoni