- Statistical Models II
- Summary
Course Syllabus
Obiettivi formativi
Il corso introduce alle procedure analitiche ed inferenziali condotte tramite modelli statistici avanzati e alle simulazioni utili per l’inferenza statistica con l’intento di sviluppare una conoscenza critica delle assunzioni dei modelli alla base della teoria.
Conoscenza e comprensione
L’insegnamento permette allo studente di:
- analizzare i dati con modelli statistici sviluppati per variabili risposta sia categoriali che continue;
- implementare le simulazioni;
- servirsi della semantica del software R anche tramite l'ambiente RMarkdown per creare dei documenti riproducibili contenenti il codice, risultati ed i commenti delle analisi;
- interpretare i risultati delle elaborazioni in modo rigoroso, fornendo una descrizione esaustiva degli stessi anche per finalità divulgative.
Capacità di applicare conoscenza e comprensione
L’insegnamento permette allo studente di:
- condurre l’inferenza statistica tramite tecniche di ricampionamento (bootstrap);
- stimare, selezionare ed interpretare i modelli di miscugli di distribuzioni per popolazioni eterogenee;
- stimare modelli a variabili latenti e interpretarne i risultati;
- applicare le conoscenze teoriche per l’analisi dei dati derivanti dagli ambiti applicativi del corso di studio quali l'epidemiologia, la medicina, la biologia, la genetica e la salute pubblica.
- implementare il codice riferito al software R.
Lo studente viene incoraggiato a presentare la teoria ed i risultati delle applicazioni in modo organico.
L’insegnamento è indispensabile per il successivo percorso universitario in quanto fornisce i concetti essenziali per lo sviluppo dei metodi statistici parametrici e non parametrici sia in ambito teorico che applicativo per i contesti lavorativi di sbocco degli studenti del corso di laurea in Biostatistica (biostatistico/statistico/demografico e affini).
Contenuti sintetici
Nella prima parte del corso vengono trattati i concetti di probabilità utili per simulare delle realizzazioni da variabili casuali. Vengono introdotte le principali procedure di ricampionamento utilizzate per l’inferenza statistica: bootstrap e Jackknife.
Nella seconda parte del corso viene introdotto l’algoritmo Expectation-Maximization (EM) come metodo di imputazione dei dati mancanti utilizzando le stime di massima verosimiglianza dei parametri di un modello lineare generalizzato. I passi dell’algoritmo sono anche illustrati in relazione alla stima dei parametri dei modelli miscuglio (finite mixture models) e dei modelli a variabili latenti. Le lezioni di teoria sono affiancate da esercitazioni pratiche in cui lo studente approfondisce anche la conoscenza della semantica del software R.
Programma esteso
La prima parte del corso riguarda i metodi di simulazione e comprende i metodi lineari congruenziali per la generazione di numeri pseudo-casuali, i test grafici e statistici, tra cui il test Kolmogorov-Smirnov e il test Chi-Quadrato per la verifica della pseudo-casualità. Vengono esaminati alcuni metodi per la generazione di realizzazioni da variabili casuali. La teoria è affiancata da esempi applicativi utilizzando diversi modelli distributivi: la distribuzione esponenziale, binomiale e di Gauss. Si considera la convoluzione di variabili casuali e la generazione di realizzazioni dalla stessa.
Nella seconda parte si introducono i principali metodi di ricampionamento: Jackknife e bootstrap. Si illustra l’utilizzo del bootstrap per l’inferenza statistica, in particolare per il calcolo degli intervalli di confidenza ottenuti con il metodo del percentile e con la correzione per la distorsione. Viene introdotto il modello autoregressivo di Poisson per dati di conteggio e l’analogo modello basato sulla distribuzione Binomiale Negativa per tener conto dell’overdispersion. I modelli vengono applicati all’analisi dei conteggi dei soggetti affetti da COVID-19 in base alle serie dei dati nazionali giornalieri. L’algoritmo Expectation-Maximization viene illustrato dettagliatamente sia come algoritmo di stima dei parametri dei modelli a variabili latenti sia come metodo per l’imputazione dei valori mancanti in una tabella a doppia entrata utilizzando le stime di massima verosimiglianza dei parametri di un modello lineare generalizzato. Si introducono i modelli miscuglio per variabili risposta sia quantitative che categoriali assumendo una distribuzione di Gauss per le componenti del miscuglio. Si presta particolare attenzione all'interpretazione dei risultati rispetto alla stima della densità e alla classificazione delle unità statistiche con il metodo della massima probabilità a posteriori.
La teoria è affiancata da esercitazioni in cui vengono sviluppate, nell’ambiente R e con l’ausilio del marcatore di testo RMarkdown, numerose applicazioni volte all’analisi e all’adattamento dei modelli statistici per dati reali e simulati riguardanti gli ambiti della biostatistica. Le principali librerie del software R utilizzate durante le esercitazioni sono skimr, MASS, dplyr, tscount, boot, bootstrap e mclust. Lo studente è incoraggiato ad elaborare documenti riproducibili in cui commenta il codice ed i risultati delle analisi in modo critico anche tramite apprendimento cooperativo.
Prerequisiti
Per una più agevole comprensione dei contenuti del corso è necessario conoscere le nozioni di Probabilità e di Inferenza Statistica e la semantica di base del linguaggio di programmazione in ambiente R.
Metodi didattici
Sono previste lezioni frontali riguardanti la parte teorica sui concetti di base dei modelli statistici. Le lezioni di teoria sono affiancate da esercitazioni pratiche che permettono allo studente di sviluppare la tecniche di analisi dei dati. Le lezioni si svolgono in laboratorio informatico. Settimanalmente vengono assegnati degli esercizi di riepilogo basati sull’applicazione dei modelli proposti a dati reali o simulati relativi al programma svolto. Durante il corso con l'ausilio di R nell'ambiente RStudio e l'interfaccia di RMarkdown, gli studenti imparano ad elaborare documenti riproducibili. Gli stessi vengono incoraggiati ad affrontare il problema applicativo con lo scopo ulteriore di sviluppare l'apprendimento cooperativo.
Modalità di verifica dell'apprendimento
Le seguenti modalità di verifica dell’apprendimento riguardano sia gli studenti che non frequentanti. L’esame è in forma scritta con orale facoltativo, non sono previste prove intermedie. L'esame scritto ha durata di circa due ore e si svolge presso il laboratorio informatico. Durante la prova occorre rispondere a domande aperte di teoria e risolvere gli esercizi alla luce degli argomenti teorici sviluppati durante il corso. Le domande di teoria permettono di verificare l’apprendimento delle nozioni teoriche impartite durante il corso. Le analisi empiriche condotte tramite l'ambiente R, Rstudio e RMarkdown permettono di verificare la capacità di comprensione del problema, la sua risoluzione tramite l'applicazione di modelli statistici avanzati a dati reali o simulati e l’elaborazione di report con la descrizione del procedimento e l’illustrazione dei risultati. L’esame è a libro aperto e gli studenti possono consultare il codice R utilizzato durante il corso. Lo studente supera la prova con una votazione almeno pari a 18/30.
Testi di riferimento
Il materiale didattico è costituito principalmente dalle dispense redatte dal docente. Queste riguardano sia gli argomenti di teoria che le applicazioni sviluppate con il software R oppure SAS, gli esercizi e le soluzioni. Il materiale predisposto dal docente viene reso disponibile nella pagina della piattaforma e-learning dell’ateneo dedicata al corso. Il docente pubblica al termine di ogni lezione: le slides, i programmi di calcolo, gli esercizi, i dataset, e le soluzioni degli esercizi. Nella stessa pagina vengono anche pubblicati alcuni testi delle precedenti prove d’esame.
I principali testi di riferimento sono elencati nella bibliografia delle dispense alcuni dei quali sono i seguenti che sono anche disponibili in ebook presso la biblioteca dell’Ateneo:
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein, J. K., Hwang, J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.
Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2022). Dispensa di Modelli Statistici II, parte di teoria e applicazioni con R. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.
Periodo di erogazione dell'insegnamento
Semestre I, ciclo I, Ottobre-Novembre 2022
Lingua di insegnamento
Il corso viene erogato in lingua italiana. Gli studenti Erasmus possono utilizzare il materiale didattico predisposto in Inglese e richiedere al docente di svolgere la prova d’esame in lingua inglese.
Sustainable Development Goals
Learning objectives
The course aims are to provide analytical and inferential procedures using advanced statistical models and simulations. The content is presented to develop a critical understanding of the underlying theoretical underlying assumptions.
Knowledge and understanding
This teaching enables the student to:
- analyze data with statistical models developed for both categorical and continuous response variables;
- implement simulations independently;
- use the semantics of the R software also through the RMarkdown environment to create reproducible documents containing the code, results, and comments of the analysis;
- rigorously interpret the elaborations' results and provide a detailed and precise description of the same for dissemination purposes.
Ability to apply knowledge and understanding
The course allows the student to:
- develop statistical inference using modern bootstrap techniques;
- estimate, select, and interpret models of mixtures of distributions for heterogeneous populations;
- fit models to latent variables;
- apply theoretical knowledge to the analysis of data collected in various fields, including epidemiology, medicine, biology, genetics, and public health;
- Implement the code in the language of the R software.
The exercises that are assigned weekly are aimed at integrating the theory part with explanations of the procedures and results of empirical analysis through applications in an organic manner.
This is compulsory for the next course of student’ studies as it provides the essential concepts for the development of parametric and non-parametric statistical methods in both the theoretical and applicative spheres for the work contexts of the students of the Biostatistics degree course.
Contents
In the first part of the course, methods are introduced to generate pseudo-realizations from random variables. Next, the student is introduced to some resampling methods: bootstrap and jackknife, along with their inferential purposes.
The Expectation-Maximization (EM) algorithm is illustrated for incomplete-data problems through the estimated parameters of a generalized linear model. Then it is illustrated as an optimization method for the estimation model parameters of the finite mixture and latent variable models. The course provides skills in the use of the semantic of the software R.
Detailed program
The first part of the course deals with simulation methods and linear congruential methods to generate pseudo-random numbers. Graphical tools for testing the series are illustrated along with some statistical tests such as Kolmogorov-Smirnov and Chi-Squared tests. Transformations of uniform deviate and simulation of random numbers from specific distributions are considered. Some theoretical features of the exponential, binomial, and Gaussian distributions and convolution of random variables are exposed. The convolution of random variables and the generation of realisations from it are considered.
In the second part of the course, the main resampling methods such as the jackknife and bootstrap are introduced. The bootstrap is applied for bias adjustment and the estimation of dispersion. Bootstrap confidence intervals based on the percentile method and the bias-corrected accelerated bootstrap method are explained.
The autoregressive Poisson model for count data and the similar model based on the negative binomial distribution to account for overdispersion are introduced. The models are applied to the analysis of COVID-19 counts based on daily national data series.
Among the optimization methods, the Expectation-Maximization Algorithm is considered and explained first as a tool to impute missing values through a generalized linear model and then as a tool to maximize the log-likelihood function for incomplete data problems. Finite mixture models are introduced both for continuous and categorical data, and a particular focus is given on the mixture of Gaussian distributions and latent variable models for categorical data.
Some time is devoted to explaining the theory by imparting the flavor of the empirical applications using data collected from different fields arising in epidemiology, pharmacoepidemiology medicine and biology, and ecology and environmental sciences. They are developed within the statistical software R, RStudio with the RMarkdown interface. The main R packages used are: bootstrap, dplyr, MASS, MultiLCIRT, tscount, mclust e skimr.
The student is encouraged to develop reproducible documents in which he/she comments on the code and the results of the analysis critically, also through cooperative learning.
Prerequisites
For an easier understanding of the course content, it is recommended to know Probability and Statistical Inference notions. The student should also know the basic semantics of the programming language in the R environment.
Teaching methods
Lectures are provided on the theoretical part concerning the basic concepts of statistical models. The theory lessons are complemented by practical exercises that allow the student to learn theory and data analysis techniques. Lessons take place in the computer lab. Weekly summarising exercises are assigned based on the application of the proposed models to real or simulated data related to the syllabus. During the course with the help of R in the RStudio environment and the RMarkdown interface, students learn to process reproducible documents. They are encouraged to tackle the application problem with the further aim of developing cooperative learning.
Assessment methods
The following methods of verifying learning apply to both students attending and non-attending lectures in presence. The examination is in written form with open questions and with optional oral; there are no intermediate tests. The written exam has a maximum total duration of two hours and takes place in the computer lab. During the examination, open theory questions must be answered, and exercises must be solved in the light of the theoretical topics developed during the course. The theory questions allow verifying the learning of the theoretical concepts taught during the course. The empirical analyses are conducted using the R environment, Rstudio, and RMarkdown and allow verifying the ability to understand the problem and its resolution by applying advanced statistical models to real or simulated data and the elaboration of reports in which the procedure is described, and the results are illustrated. The examination is open book and students can consult the R code used during the course. The student passes the test with a mark of at least 18/30.
Textbooks and Reading Materials
The teaching material consists mainly of handouts prepared by the teacher. They cover both the theory topics and the applications developed with R or SAS software. All the files are available on the page of the e-learning platform of the university dedicated to the course. In addition, the teacher publishes at the end of each lesson: the slides, the calculation programs, the exercises, the datasets, and the solutions of the exercises. On the same page are also published some previous exam texts.
The primary reference texts are listed in the bibliography of the handouts; among others, the following are noted. Some of these also available in ebook the following:
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein, J. K., Hwang, J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.
Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2022). Dispensa di Modelli Statistici II, parte di teoria e applicazioni con R. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.
Semester
Semester I, cycle I, October-November 2022
Teaching language
The course is given in Italian. Erasmus students can use the handouts material in English and ask the teacher to carry out the exam in English.
Sustainable Development Goals
Key information
Staff
-
Luca Brusa
-
Fulvia Pennoni