- Statistical Models II
- Summary
Course Syllabus
Obiettivi formativi
Il corso permette allo studente di apprendere le procedure analitiche ed inferenziali riguardanti modelli statistici avanzati e di sviluppare una conoscenza critica delle assunzioni dei modelli alla base della teoria attraverso le applicazioni a dati reali.
Conoscenza e comprensione
L'insegnamento consente agli studenti di:
• Analizzare i dati utilizzando modelli statistici avanzati sviluppati per variabili risposta univariate e multivariate, sia di natura categoriale che continua.
• Apprendere l'implementazione di studi di simulazione.
• Utilizzare la semantica del software R, anche attraverso l'ambiente RMarkdown, per creare documenti riproducibili che includono il codice, i risultati e i commenti delle analisi, con l'obiettivo di garantire la replicabilità dei risultati.
• Interpretare i risultati delle elaborazioni in modo rigoroso, fornendo una descrizione completa degli stessi, anche per scopi divulgativi rivolti a un pubblico non accademico.
Capacità di applicare conoscenza e comprensione
L’insegnamento permette allo studente di:
Condurre l’inferenza statistica tramite tecniche di ricampionamento (bootstrap);
Stimare, selezionare ed interpretare i modelli di miscugli di distribuzioni per popolazioni eterogenee; stimare modelli a variabili latenti e interpretare i risultati;
Applicare le conoscenze teoriche per analizzare dati derivanti dagli ambiti applicativi del corso di studio quali l'epidemiologia, la medicina, la biologia, la genetica e la salute pubblica.
Implementare codice per analisi descrittive ed inferenziali con il software R.
Il corso consente agli studenti di acquisire solide basi teoriche e capacità di applicare i modelli statistici proposti a dati reali. L’insegnamento è indispensabile per il successivo percorso universitario in quanto fornisce i concetti essenziali per lo sviluppo dei metodi statistici parametrici e non parametrici sia in ambito teorico che applicativo per i contesti lavorativi di sbocco degli studenti del corso di laurea in Biostatistica.
Contenuti sintetici
Nella prima parte del corso vengono richiamate le principali distribuzioni probabilistiche che si utilizzano per simulare delle realizzazioni da variabili casuali. Viene presentato il procedimento di ricampionamento noto come bootstrap per ottenere misure di precisione in ambito non parametrico per alcuni stimatori di interesse.
Nella seconda parte del corso viene introdotto l’algoritmo Expectation-Maximization (EM) come metodo di imputazione dei dati mancanti utilizzando le stime di massima verosimiglianza dei parametri di un modello lineare generalizzato. Dopo aver introdotto i modelli miscuglio Gaussiani, vengono descritti i passi dell’algoritmo EM per la stima di massima verosimiglianza dei parametri di questi modelli e dei modelli a variabili latenti con distribuzione discreta. Le lezioni di teoria sono affiancate da esercitazioni pratiche. Il corso fornisce competenze nell'uso della semantica del software R, utilizzando anche la libreria RMarkdown tramite la libreria knitr per integrare il codice, i risultati delle analisi ed i commenti.
Programma esteso
La prima parte del corso riguarda i metodi di simulazione come i metodi lineari congruenziali per la generazione di numeri pseudo-casuali, i test grafici e statistici, tra cui il test Kolmogorov-Smirnov e il test Chi- Quadrato per la verifica della pseudo-casualità. La teoria è affiancata da esempi applicativi utilizzando diversi modelli distributivi dai quali vengono simulate realizzazioni quali: la distribuzione esponenziale, la distribuzione binomiale e di la distribuzione Gaussiana.
Nella seconda parte del corso si introducono i principali metodi di ricampionamento: Jackknife e bootstrap, gli intervalli di confidenza bootstrap ottenuti sia con il metodo del percentile che con il metodo BCA che permette di correggere per la distorsione.
Viene introdotto il modello autoregressivo di Poisson per dati di conteggio e l’analogo modello basato sulla distribuzione Binomiale Negativa per tener conto dell’overdispersion. I modelli vengono applicati all’analisi dei conteggi dei soggetti affetti da COVID-19 in base alle serie dei dati nazionali settimanali forniti ufficialmente in Italia dall’inizio della pandemia. L’algoritmo Expectation-Maximization viene illustrato dettagliatamente sia come algoritmo di stima dei parametri dei modelli a variabili latenti discrete sia come metodo per l’imputazione dei valori mancanti in una tabella a doppia entrata in relazione un modello lineare generalizzato.
Si illustrano i modelli miscuglio (finite mixture models) per variabili risposta sia quantitative che categoriali assumendo una distribuzione di Gauss per le componenti del miscuglio. In particolare si considera la stima della densità e alla classificazione delle unità statistiche con il metodo della massima probabilità a posteriori.
La teoria è affiancata da esercitazioni in cui vengono sviluppate, nell’ambiente R e con l’ausilio del marcatore di testo RMarkdown, numerose applicazioni volte all’analisi e all’adattamento dei modelli statistici per dati reali e simulati riguardanti gli ambiti della biostatistica. Le principali librerie del software R utilizzate sono skimr, MASS, dplyr, tscount, boot, bootstrap, mclust, MultiLCIRT. Lo studente è incoraggiato ad elaborare documenti riproducibili in cui commenta il codice ed i risultati delle analisi in modo critico anche tramite apprendimento cooperativo.
Prerequisiti
Per una più agevole comprensione dei contenuti del corso è necessario conoscere le nozioni di Probabilità e di Inferenza Statistica e la semantica di base del linguaggio di programmazione in ambiente R.
Metodi didattici
Sono previste lezioni frontali riguardanti la parte teorica sui concetti di base dei modelli statistici. Le lezioni di teoria sono affiancate da esercitazioni pratiche che consentono agli studenti di apprendere la teoria applicando i modelli per l'analisi di dati reali e simulati. Le lezioni si svolgono in laboratorio informatico. Settimanalmente vengono assegnati degli esercizi di riepilogo relativi al programma svolto. Durante il corso con l'ausilio di R nell'ambiente RStudio e l'interfaccia di RMarkdown, gli studenti imparano ad elaborare documenti riproducibili che contengono codice, descrizioni e commenti ai risultati delle analisi. Sono incoraggiati a collaborare tra di loro nella risoluzione dei problemi applicativi, al fine di promuovere l'apprendimento cooperativo.
Modalità di verifica dell'apprendimento
Le seguenti modalità di verifica dell'apprendimento si applicano sia agli studenti frequentanti che a quelli non frequentanti le lezioni che si svolgono in presenza. L’esame è in forma scritta con orale facoltativo, non sono previste prove intermedie. Durante il corso non sono previste prove intermedie. Gli studenti frequentanti avranno l'opportunità di ricevere un bonus se consegneranno alcuni degli esercizi assegnati nelle date indicate. L'esame scritto ha una durata massima di due ore e si svolge in laboratorio informatico. Durante l'esame, gli studenti devono rispondere a domande aperte di teoria e risolvere gli esercizi basandosi sugli argomenti teorici trattati e sulle esercitazioni pratiche assegnate settimanalmente durante il corso. Le domande di teoria valutano l'apprendimento dei concetti teorici insegnati. Le analisi empiriche sono condotte utilizzando l'ambiente R, RStudio e RMarkdown e permettono di verificare la capacità degli studenti di applicare modelli statistici avanzati a dati reali o simulati e di elaborare report riproducibili che descrivano i dati, le procedure e i risultati ottenuti. Durante l'esame è consentito l'utilizzo del materiale di studio e del codice R implementato durante il corso. Ogni domanda avrà un punteggio di circa 2 o 3 punti. Lo studente supera l'esame con una votazione di almeno 18/30.
Testi di riferimento
Il materiale didattico principale consiste nelle dispense preparate dal docente, che coprono sia gli argomenti teorici che le applicazioni sviluppate con il software R. Queste dispense saranno rese disponibili sulla pagina della piattaforma e-learning dell'università dedicata al corso. Inoltre, il docente pubblica alla fine di ogni lezione le slides, i programmi di calcolo e i dataset utilizzati. Settimanalmente vengono assegnati esercizi, alcuni dei quali verranno accompagnati dalle relative soluzioni. Sulla stessa pagina web sono disponibili degli esempi del testo d'esame.
I riferimenti primari saranno elencati nella bibliografia delle dispense; tra gli altri, si segnalano i seguenti disponibili presso la biblioteca o in ebook.
I principali testi di riferimento sono elencati nella bibliografia delle dispense alcuni dei quali sono i seguenti che sono anche disponibili in ebook presso la biblioteca dell’Ateneo:
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein, J. K., Hwang, J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.
Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2023). Dispensa di Modelli Statistici II, parte di teoria e applicazioni con R. Dipartimento di Statistica e
Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.
Periodo di erogazione dell'insegnamento
Semestre I, ciclo I, Ottobre-Novembre 2023
Lingua di insegnamento
Il corso viene erogato in lingua italiana. Gli studenti Erasmus possono utilizzare il materiale didattico predisposto in lingua inglese e fornito dal docente su richiesta. Possono inoltre richiedere di svolgere la prova d’esame in lingua inglese.
Sustainable Development Goals
Learning objectives
The course aims are to provide analytical and inferential procedures using advanced statistical models and simulations. The content is presented to develop a critical understanding of the underlying theoretical underlying assumptions.
Knowledge and understanding
This teaching enables the student to:
- Analyze data with advanced statistical models developed for both categorical and continuous response variables; implement simulations independently;
- Use the semantics of the R software also through the RMarkdown environment to create reproducible documents containing the code, results, and comments of the analysis;
- Rigorously interpret the results of the empirical analyses and provide a description also for dissemination purposes.
Ability to apply knowledge and understanding
The course allows the student to:
- Develop statistical inference using modern bootstrap techniques;
- Estimate, select, and interpret the statistical model-based clustering techniques especially considering finite mixtures of distributions for heterogeneous populations;
- Apply theoretical knowledge to the analysis of data collected in various fields, including epidemiology, medicine, biology, genetics, and public health;
- Estimate models with latent variables
- Implement the code in the language of the R software.
The exercises that are assigned weekly are aimed at integrating the theory part with explanations of the procedures and results of empirical analysis through applications in an organic manner.
The teaching is fundamental for the subsequent university course as it provides the essential concepts for the development in both the theoretical and applied fields of statistics for the target job contexts (biostatistics/statistics/demography and related) of students on the Biostatistics degree course.
Contents
In the first part of the course, methods are introduced to generate pseudo-realizations from random variables. Next, the student is introduced to some resampling methods: bootstrap and jackknife, along with their inferential purposes.
The Expectation-Maximization (EM) algorithm is illustrated for incomplete-data problems through the estimated parameters of a generalized linear model. Then it is illustrated as an optimization method for the estimation model parameters of the finite mixture models of Gaussian distributions and latent variable models such as the latent class model. The course provides skills in the use of the semantic of the software R.
Detailed program
The first part of the course deals with simulation methods and linear congruential methods to generate pseudo- random numbers. Graphical tools for testing the series and statistical tests such as Kolmogorov-Smirnov and Chi-Squared tests are illustrated. Simulation of random numbers from specific distributions is considered. Some theoretical features of the exponential, binomial, and Gaussian distributions and convolution of random variables are exposed. The convolution of random variables and the generation of realizations from it are considered.
The main resampling methods, such as the jackknife and bootstrap, are introduced in the second part of the course. The bootstrap is applied for bias adjustment and the estimation of dispersion. Bootstrap confidence intervals based on the percentile method and the bias-corrected accelerated bootstrap method are explained.
The autoregressive Poisson model for count data and the similar model based on the negative binomial distribution to account for overdispersion are introduced. The models are applied to the analysis of COVID-19 counts based on daily national data series.
Among the optimization methods, the Expectation-Maximization Algorithm is considered and explained first as a tool to impute missing values through a generalized linear model and then as a tool to maximize the log-likelihood function for incomplete data problems. Finite mixture models are introduced both for continuous and categorical data, and a particular focus is given to the mixture of Gaussian distributions and latent variable models for categorical data.
Some time is devoted to explaining the theory by imparting the flavor of the empirical applications using data collected from different fields arising in epidemiology, pharmacoepidemiology, medicine and biology, and ecology and environmental sciences. They are developed within the statistical software R, RStudio with the RMarkdown interface. The main R packages used are bootstrap, dplyr, MASS, MultiLCIRT, tscount, mclust e skimr.
The student is encouraged to develop reproducible documents in which he/she critically comments on the code and the analysis results, also through cooperative learning.
Prerequisites
For an easier understanding of the course content, it is recommended to know Probability and Statistical Inference notions. The student should also know the basic semantics of the programming language in the R environment.
Teaching methods
Lectures are provided on the theoretical part concerning the basic concepts of statistical models. The theory lessons are complemented by practical exercises that allow the student to learn theory and data analysis techniques. Lessons take place in the computer lab. Weekly summarising exercises are assigned based on the application of the proposed models to real or simulated data related to the syllabus. During the course with the help of R in the RStudio environment and the RMarkdown interface, students learn to process reproducible documents. They are encouraged to tackle the application problem with the further aim of developing cooperative learning.
Assessment methods
The following methods of verifying learning apply to both students attending and non-attending lectures in presence. The examination is in written form with open questions and with optional oral; there are no intermediate tests. Students may receive a bonus if they provide selected excercises when required. The written exam has a maximum total duration of two hours and takes place in the computer lab. During the examination, open theory questions must be answered, and exercises must be solved in the light of the theoretical topics developed during the course. The theory questions allow verifying the learning of the theoretical concepts taught during the course. The empirical analyses are conducted using the R environment, Rstudio, and RMarkdown and allow verifying the ability to understand the problem and its resolution by applying advanced statistical models to real or simulated data and the elaboration of reports in which the procedure is described, and the results are illustrated. The examination is open book and students can consult the R code used during the course. The student passes the test with a mark of at least 18/30.
Textbooks and Reading Materials
The teaching material consists mainly of handouts prepared by the teacher. They cover both the theory topics and the applications developed with R or SAS software. All the files are available on the page of the e-learning platform of the university dedicated to the course. In addition, the teacher publishes at the end of each lesson: the slides, the calculation programs, the exercises, the datasets, and the solutions of the exercises. On the same page are also published some previous exam texts.
The primary reference texts are listed in the bibliography of the handouts; among others, the following are noted. Some of these also available in ebook the following:
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein, J. K., Hwang, J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.
Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2023). Dispensa di Modelli Statistici II, parte di teoria e applicazioni con R. Dipartimento di Statistica e
Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.
Semester
Semester I, cycle I, October-November 2023
Teaching language
The course is provided in Italian. Erasmus students can use the handouts material in English and ask the teacher to carry out the exam in English.
Sustainable Development Goals
Key information
Staff
-
Luca Brusa
-
Fulvia Pennoni