Course information | Statistical Models II

Course Syllabus

Italiano ‎(it)‎
English ‎(en)‎

Export

Obiettivi formativi

L’insegnamento rientra nelle aree di apprendimento delle scienze statistiche, dell’informatica e delle scienze sociali. Mira a fornire agli studenti una preparazione riguardanti i seguenti approcci inferenziali: bootstrap non parametrico, distribuzione Gaussiana multivariata, modelli lineari generalizzati per dati di conteggio, modelli mistura Gaussiani univariati e multivariati, nonché modelli predittivi.
Durante l’attività didattica lo studente sviluppa una comprensione critica delle assunzioni alla base dei modelli teorici, attraverso applicazioni empiriche su dati reali e simulati. Lo studente acquisisce anche competenze relative alla messa in atto di ricerche riproducibili e replicabili. Inoltre, sviluppa abilità comunicative scritte, poiché è richiesta la redazione di testi che accompagnino i risultati delle analisi svolte.

Conoscenza e comprensione

L'insegnamento consente agli studenti di:

• Analizzare i dati utilizzando modelli statistici avanzati sviluppati per variabili risposta univariate e multivariate, sia di natura categoriale che continua.
• Sviluppare la conoscenza dei metodi di simulazione.
• Utilizzare la semantica del software R, anche attraverso l'ambiente RMarkdown, per sviluppare un metodo di ricerca replicabile e riproducibile. I documenti generati includono il codice, i risultati e i commenti al codice e alle analisi svolte.
• Interpretare i risultati delle elaborazioni in modo rigoroso sviluppando capacità espressive e di sintesi testuale anche per scopi divulgativi rivolti a un pubblico non accademico. In questo modo sviluppa autonomia di giudizio e affina le proprie abilità comunicative.

Capacità di applicare conoscenza e comprensione

L'insegnamento consente agli studenti di:

• Condurre l’inferenza statistica tramite tecniche di ricampionamento (bootstrap);
• Stimare, selezionare ed interpretare i modelli di miscugli di distribuzioni per popolazioni eterogenee;
• Concettualizzare i modelli a variabili latenti, stimare i parametri con il principio di massima verosimiglianza e interpretare i risultati;
• Applicare le conoscenze teoriche per analizzare dati di diverse tipologie derivanti dagli ambiti applicativi del corso di studio quali l'epidemiologia, la medicina, la biologia, la genetica e la salute pubblica.
• Implementare codice con il linguaggio del software open source R per le analisi descrittive ed inferenziali adottando un approccio open source che garantisca la riproducibilità e la replicabilità delle analisi.

L’insegnamento permette agli studenti di acquisire solidi elementi di teoria e di sviluppare le applicazioni pratiche attraverso un approccio di “problem solving”. L’insegnamento si inserisce nell’ambito della scienza dei dati, conoscenza oggi essenziale per i contesti lavorativi di sbocco degli studenti del corso di laurea in Biostatistica. Al termine dell’insegnamento, grazie al materiale fornito (le dispense del docente corredate da un’ampia bibliografia, i codici per i software R e l’interfaccia RMarkdown), lo studente è in grado di proseguire in modo autonomo nell’approfondimento di questa disciplina.

Contenuti sintetici

Nella prima parte dell’insegnamento vengono richiamate le principali distribuzioni probabilistiche che si utilizzano per simulare delle realizzazioni da variabili casuali. Viene presentato il procedimento di ricampionamento noto come bootstrap per ottenere misure di precisione in ambito non parametrico per alcuni stimatori di interesse.
Nella seconda parte dell’insegnamento viene presentato il modello lineare generalizzato basato sulla distribuzione binomiale negativa e viene introdotto l’algoritmo Expectation-Maximization (EM) come metodo di imputazione dei dati mancanti utilizzando le stime di massima verosimiglianza dei parametri di un modello lineare generalizzato. Dopo aver presentato la distribuzione Gaussiana multivariata si illustrano i modelli miscuglio Gaussiani. Vengono descritti i passi dell’algoritmo EM per la stima di massima verosimiglianza dei parametri dei modelli e dei modelli a variabili latenti con distribuzione discreta. Le lezioni di teoria sono affiancate da esercitazioni pratiche. L’insegnamento fornisce competenze nell'uso della semantica del software R, utilizzando anche la libreria RMarkdown tramite la libreria knitr per integrare il codice, i risultati delle analisi ed i commenti.

Programma esteso

La prima parte dell’attività didattica riguarda i metodi lineari congruenziali per la generazione di numeri pseudo-casuali ed i test grafici per la verifica della pseudo-casualità. La teoria è affiancata da esempi di simulazioni di dati da alcune distribuzioni probabilistiche, tra cui la distribuzione Gaussiana, beta e di Poisson.
Nella seconda parte dell’attività didattica, dopo una breve introduzione sull’impianto concettuale dell’inferenza statistica, viene presentato il procedimento di ricampionamento noto come bootstrap per ottenere misure di precisione in ambito non parametrico per alcuni stimatori di interesse. Si illustrano gli intervalli di confidenza ottenuti sia con il metodo del percentile che con il metodo BCA che permette di correggere per la distorsione.
Viene introdotto il modello autoregressivo di Poisson per dati di conteggio e l’analogo modello basato sulla distribuzione Binomiale Negativa per tener conto dell’overdispersion. I modelli vengono applicati all’analisi dei conteggi relativi alle capacità riproduttive delle specie animali.
L’algoritmo Expectation-Maximization viene illustrato negli step E e M sia come algoritmo di stima di massima verosimiglianza dei parametri dei modelli a variabili latenti con distribuzione discreta, sia come metodo di imputazione dei valori mancanti di una tabella a doppia entrata utilizzando i parametri un modello lineare generalizzato. Si introducono sia la formulazione che le caratteristiche della distribuzione normale multivariata. Si simulano i valori da questa distribuzione utilizzando diverse matrici di varianza-covarianza.
Si illustrano i modelli miscuglio (finite mixture models) univariati e multivariati per variabili risposta quantitative assumendo una distribuzione di Gauss per le componenti del miscuglio. In particolare si considera la stima della densità e la classificazione delle unità statistiche con il metodo della massima probabilità a posteriori.

La teoria è affiancata da esercitazioni pratiche in cui vengono sviluppate, nell’ambiente R e con l’ausilio del marcatore di testo RMarkdown, numerose applicazioni volte all’analisi e all’adattamento dei modelli statistici per dati reali e simulati riguardanti gli ambiti della biostatistica. Le principali librerie del software R utilizzate sono skimr, MASS, boot, bootstrap, mclust, MultiLCIRT. Lo studente è incoraggiato ad elaborare documenti riproducibili in cui commenta in forma testuale il codice ed i risultati delle analisi in modo critico anche tramite apprendimento cooperativo. Settimanalmente vengono assegnati degli esercizi e gli studenti nello svolgimento sono incoraggiati a scrivere reports in cui commentano il codice, ed offrono una spiegazione del procedimento di analisi svolto oltre ad una descrizione critica dei risultati ottenuti. Durante l’attività didattica vengono discusse le soluzioni agli esercizi assegnati.

Prerequisiti

Per una più agevole comprensione dei contenuti dell’insegnamento è necessario conoscere le nozioni di Probabilità e di Inferenza Statistica e la semantica di base del linguaggio di programmazione in ambiente R.

Metodi didattici

Sono previste lezioni frontali, le lezioni di teoria sono affiancate da esercitazioni pratiche che consentono agli studenti di apprendere tramite problem solving analizzando dati reali e simulati. Le lezioni si svolgono in laboratorio informatico. Settimanalmente vengono assegnati degli esercizi di riepilogo relativi al programma svolto. Durante l’insegnamento con l'ausilio di R nell'ambiente RStudio e l'interfaccia di RMarkdown, gli studenti imparano ad elaborare documenti riproducibili che contengono codice, descrizioni e commenti ai risultati delle analisi. Sono incoraggiati a collaborare tra di loro nella risoluzione dei problemi applicativi, al fine di promuovere l'apprendimento cooperativo. Le ore previste di didattica erogativa sono 30 e quelle di didattica interattiva sono 17 e queste ultime che vengono prevalentemente svolte. Nella seconda parte delle lezioni che constano di 3 ore vengono si tende a coinvolgere gli studenti in modo interattivo. Le esercitazioni sono svolte in modalità interattiva in presenza presso il laboratorio informatico. Vengono rese disponibili nella pagina di e-elearning le video-registrazioni in asincrono sia delle lezioni che delle esercitazioni.

Modalità di verifica dell'apprendimento

Le seguenti modalità di verifica dell'apprendimento si applicano sia agli studenti frequentanti che a quelli non frequentanti le lezioni frontali. L’esame è in forma scritta con orale facoltativo, non sono previste prove intermedie ma durante lo svolgimento delle lezioni è prevista l’acquisizione di 2 punti bonus con la consegna di alcuni esercizi che concorrono al punteggio finale. L'esame scritto ha una durata massima di due ore e si svolge in laboratorio informatico. Le domande aperte di teoria a cui gli studenti devono rispondere mirano a valutare la comprensione dei concetti essenziali dell’inferenza statistica condotta con metodi avanzati, mentre gli esercizi applicativi condotti utilizzando l'ambiente R, RStudio e RMarkdown, permettono di verificare la capacità degli studenti di applicare le metodologie proposte nonché di elaborare report riproducibili che descrivano i dati, le procedure e i risultati ottenuti.

La prova mira anche a promuovere la capacità degli studenti di pianificare e gestire in modo efficace il tempo necessario per la stesura dell’elaborato. Durante l'esame è consentito l'utilizzo del materiale di studio e del codice R implementato durante l’insegnamento e personalmente dallo studente. Ogni punto di ogni esercizio ha una valutazione di circa 3 punti. Lo studente supera l'esame con una votazione non inferiore a 18/30.

Testi di riferimento

Il materiale didattico principale consiste nelle dispense preparate dal docente, che coprono, gli argomenti teorici, le applicazioni sviluppate con il software R, gli esercizi e le soluzioni. Queste dispense saranno rese disponibili sulla pagina della piattaforma e-learning dell'università dedicata all'insegnamento. Inoltre, il docente pubblica alla fine di ogni lezione le slides, i programmi di calcolo e i dataset utilizzati. Settimanalmente vengono assegnati esercizi, e le relative soluzioni. Sulla stessa pagina web sono disponibili degli esempi del testo d'esame.
I riferimenti bibliografici principali sono elencati nella bibliografia delle dispense alcuni dei quali sono i seguenti che risultano disponibili presso la biblioteca di Ateneo anche in formato ebook:

I principali testi di riferimento sono elencati nella bibliografia delle dispense alcuni dei quali sono i seguenti che sono anche disponibili in ebook presso la biblioteca dell’Ateneo:

Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.

Bishop, Y. M., Fienberg, S. E., Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.

Blitzstein, J. K., Hwang, J. (2014). Introduction to probability, Chapman & Hall/CRC.

Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.

Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.

Pennoni, F. (2025). Dispensa di Modelli Statistici II, parte di teoria e applicazioni con R. Dipartimento di Statistica e
Metodi Quantitativi, Università degli Studi di Milano-Bicocca.

R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.

Periodo di erogazione dell'insegnamento

Semestre I, ciclo I, Settembre-Novembre 2025

Lingua di insegnamento

Il corso viene erogato in lingua italiana. Gli studenti Erasmus possono utilizzare il materiale didattico predisposto in lingua inglese e fornito dal docente su richiesta. Possono inoltre richiedere di svolgere la prova d’esame in lingua inglese.

Sustainable Development Goals

SALUTE E BENESSERE | RIDURRE LE DISUGUAGLIANZE | LOTTA CONTRO IL CAMBIAMENTO CLIMATICO

Export

Learning objectives

The course falls within the learning areas of statistical sciences, computer science, and social sciences. The course aims to provide students with preparation regarding analytical and inferential procedures concerning: non-parametric bootstrap, multivariate Gaussian distribution, generalized linear models for count data, and univariate and multivariate Gaussian mixture models, as well as predictive models. The course aims to develop a critical understanding of the model assumptions underlying the theory through empirical applications with real and simulated data. The student also acquires skills related to conducting reproducible and replicable research. In addition, they develop written communication skills, as they are required to produce texts accompanying the results of the analyses carried out.

Knowledge and understanding

This teaching enables the student to:

• Analyze data with advanced univariate and multivariate statistical models developed for both categorical and continuous response variables; implement simulations independently.
• Develop simulation methods.
• Use the semantics of R software, including through the RMarkdown environment, to learn a replicable and reproducible research method. The generated documents include code, results, and comments on the code and performed analyses.
• Interpret the results of the analyses rigorously, developing expressive and summarizing skills, including for dissemination purposes aimed at a non-academic audience. In this way, the student develops independent judgment and refines their communication skills.

Ability to apply knowledge and understanding

The course allows the student to:

• Develop statistical inference using modern bootstrap techniques.
• Estimate, select, and interpret the statistical model-based clustering techniques especially considering finite mixtures of distributions for heterogeneous populations;
• Apply theoretical knowledge to the analysis of data collected in various fields, including epidemiology, medicine, biology, genetics, and public health;
• Conceptualize, and estimate through the maximum likelihood method models with latent variables
• Implement code with the open source software R.

The course enables students to acquire solid theoretical foundations and to develop applications through a "problem-solving" approach. The course pertains to data science, which is now essential for the target job contexts (biostatistics/statistics/demography and related) of graduates in Biostatistics.

In the first part of the course, the main probability distributions used to simulate realizations from random variables are reviewed. The resampling procedure known as bootstrap is presented to obtain precision measures in a non-parametric context for some estimators of interest.
In the second part of the course, after introducing the multivariate Gaussian distribution, the Expectation-Maximization (EM) algorithm is illustrated in each E and M step as a method for imputing missing data using maximum likelihood estimates of the parameters of a generalized linear model. After introducing Gaussian mixture models, the steps of the EM algorithm for the maximum likelihood estimation of the parameters of these models and latent variable models with discrete distribution are described. Theoretical lessons are accompanied by practical exercises conducted with many different data. The course provides skills in using the semantics of the R software, also utilizing the RMarkdown library through the knitr package to integrate code, analysis results, and comments. At the end of the course, thanks to the provided materials (the instructor's handouts accompanied by an extensive bibliography, code for the R and SAS software, and the RMarkdown interface), the student is able to independently continue deepening their understanding of the subject.

Detailed program

The first part of the course deals with simulation methods and linear congruential methods to generate pseudo- random numbers. Graphical tools for testing the series are illustrated. Simulation of random numbers from specific distributions is considered such the exponential, binomial, and Gaussian distributions.
Resampling methods, such as the jackknife and bootstrap, are introduced in the second part of the course. The bootstrap is applied for bias adjustment and the estimation of dispersion. Bootstrap confidence intervals based on the percentile method and the bias-corrected accelerated bootstrap method are explained.
The autoregressive Poisson model for count data and a similar model based on the negative binomial distribution to account for overdispersion are introduced. These models are applied to monitor endangered species.
Among the optimization methods, the Expectation-Maximization algorithm is considered and explained first as a tool to impute missing values through a generalized linear model and then as a tool to maximize the log-likelihood function for incomplete data problems. Finite mixture models are introduced both for continuous and categorical data, and a particular focus is given to the mixture of Gaussian distributions and latent variable models for categorical data.

Some time is devoted to explaining the theory by imparting the flavor of the empirical applications using data collected from different fields arising in epidemiology, pharmacoepidemiology, medicine and biology, and ecology and environmental sciences. They are developed within the statistical software R, RStudio with the RMarkdown interface. The main R packages used are bootstrap, dplyr, MASS, MultiLCIRT, tscount, mclust e skimr.

The student is encouraged to develop reproducible documents in which he/she critically comments on the code and the analysis results, also through cooperative learning. Weekly exercises are assigned, and students are encouraged to write reports in which they comment on the code and provide the reader with an explanation of the analysis procedure performed, along with a critical description of the results obtained. Students are invited to work on the assigned exercises in groups to promote cooperative learning. During the course, the solutions to the assigned exercises are discussed.

Prerequisites

For an easier understanding of the course content, it is recommended to know Probability and Statistical Inference notions. The student should also know the basic semantics of the programming language in the R environment

Teaching methods

Lectures are scheduled, and the theory lessons are accompanied by practical exercises that allow students to learn through problem solving by analyzing real and simulated data. The lessons take place in the computer lab. Weekly review exercises related to the covered syllabus are assigned. During the course, with the use of R in the RStudio environment and the RMarkdown interface, students learn to produce reproducible documents that include code, explanations, and comments on the analysis results. They are encouraged to collaborate with each other in solving applied problems in order to promote cooperative learning.
The number of scheduled lecture hours is 30, while interactive teaching hours amount to 17. In the second part of the three-hour lessons, students are actively engaged in an interactive way. The exercises are conducted interactively and in person in the computer lab. Asynchronous video recordings of both the lectures and the exercises are made available on the e-learning platform.

Assessment methods

The following methods of verifying learning apply to both students attending and non-attending lectures in presence. The examination is written with open questions and an optional oral part is possible. There are no intermediate tests, but with the submission of certain exercises, the student can earn two bonus points, which will contribute to the final grade. The written exam has a maximum total duration of two hours and takes place in the computer lab. During the exam, open theory questions must be answered, and exercises must be solved based on the theoretical topics covered during the course. The theory questions assess the understanding of the theoretical concepts taught during the course. The empirical analyses are conducted using the R environment, Rstudio, and RMarkdown allowing verification of the ability to understand the problem and resolve it by applying advanced statistical models to real or simulated data.

The exam also aims to promote students' ability to effectively plan and manage the time needed to write their report. During the exam, the use of study materials and R code developed during the course and personally by the student is allowed. Each part of each exercise is worth approximately 3 points. The student passes the exam with a score of no less than 18 out of 30.

Textbooks and Reading Materials

The teaching material consists mainly of handouts prepared by the teacher. These cover theory, applications, exercise and solutions developed with R software. All the files are available on the course page of the university's e-learning platform. In addition, the teacher publishes at the end of each lesson: the slides, the calculation programs, the exercises, the datasets, and the solutions to the exercises. Previous exam texts are also published on the same page.

The main references are listed in the bibliography of the handouts, some of which are as follows and are available in the university library, also in ebook format:

Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein, J. K., Hwang, J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin. Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2025). Dispensa di Modelli Statistici II, parte di teoria e applicazioni con R. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.

Field of research

SECS-S/01

ECTS

Term

First semester

Activity type

Mandatory

Course Length (Hours)

Degree Course Type

2-year Master Degree

Language

Italian

Teacher

LB

Luca Brusa
Fulvia Pennoni

Manual enrolments

Self enrolment (Student)

Course Syllabus

Obiettivi formativi

Contenuti sintetici

Programma esteso

Prerequisiti

Metodi didattici

Modalità di verifica dell'apprendimento

Testi di riferimento

Periodo di erogazione dell'insegnamento

Lingua di insegnamento

Sustainable Development Goals

Learning objectives

Contents

Detailed program

Prerequisites

Teaching methods

Assessment methods

Textbooks and Reading Materials

Semester

Teaching language

Sustainable Development Goals

Key information

Staff

Teacher

Enrolment methods

Sustainable Development Goals