- Statistical Models II
- Summary
Course Syllabus
Obiettivi formativi
Il corso rientra nelle aree di apprendimento delle scienze statistiche, dell’informatica e delle scienze sociali. Il corso mira a fornire agli studenti una preparazione circa le procedure analitiche ed inferenziali riguardanti: il bootstrap non parametrico, la distribuzione Gaussiana multivariata, i modelli lineari generalizzati per dati di conteggio, e i modelli mistura Gaussiani univariati e multivariati, nonché modelli predittivi. Il corso mira a sviluppare una conoscenza critica delle assunzioni dei modelli alla base della teoria attraverso applicazioni empiriche con dati reali e simulati.
Conoscenza e comprensione
L'insegnamento consente agli studenti di:
• Analizzare i dati utilizzando modelli statistici avanzati sviluppati per variabili risposta univariate e multivariate, sia di natura categoriale che continua.
• Sviluppare metodi di simulazione.
• Utilizzare la semantica del software R, anche attraverso l'ambiente RMarkdown, per apprendere un metodo di ricerca replicabile e riproducibile. I documenti generati includono il codice, i risultati e i commenti al codice e alle analisi svolte.
• Interpretare i risultati delle elaborazioni in modo rigoroso sviluppando capacità espressive e di sintesi anche per scopi divulgativi rivolti a un pubblico non accademico.
Capacità di applicare conoscenza e comprensione
• Condurre l’inferenza statistica tramite tecniche di ricampionamento (bootstrap).
• Stimare, selezionare ed interpretare i modelli di miscugli di distribuzioni per popolazioni eterogenee.
• Concettualizzare i modelli a variabili latenti, stimare i parametri con il principio di massima verosimiglianza e interpretare i risultati.
• Applicare le conoscenze teoriche per analizzare dati di diverse tipologie derivanti dagli ambiti applicativi del corso di studio quali l'epidemiologia, la medicina, la biologia, la genetica e la salute pubblica.
• Implementare codice con il software open source R per le analisi descrittive ed inferenziali.
Il corso permette agli studenti di acquisire solidi elementi di teoria e di sviluppare le applicazioni attraverso un approccio di “problem solving”. Il corso è inerente alla scienza dei dati, conoscenza oggi essenziale per i contesti lavorativi di sbocco degli studenti del corso di laurea in Biostatistica.
Contenuti sintetici
Nella prima parte del corso vengono richiamate le principali distribuzioni probabilistiche che si utilizzano per simulare delle realizzazioni da variabili casuali. Viene presentato il procedimento di ricampionamento noto come bootstrap per ottenere misure di precisione in ambito non parametrico per alcuni stimatori di interesse.
Nella seconda parte del corso viene introdotto l’algoritmo Expectation-Maximization (EM) come metodo di imputazione dei dati mancanti utilizzando le stime di massima verosimiglianza dei parametri di un modello lineare generalizzato. Dopo aver introdotto i modelli miscuglio Gaussiani, vengono descritti i passi dell’algoritmo EM per la stima di massima verosimiglianza dei parametri di questi modelli e dei modelli a variabili latenti con distribuzione discreta. Le lezioni di teoria sono affiancate da esercitazioni pratiche. Il corso fornisce competenze nell'uso della semantica del software R, utilizzando anche la libreria RMarkdown tramite la libreria knitr per integrare il codice, i risultati delle analisi ed i commenti.
Programma esteso
La prima parte del corso riguarda i metodi di simulazione come i metodi lineari congruenziali per la generazione di numeri pseudo-casuali, i test grafici e statistici, tra cui il test Kolmogorov-Smirnov e il test Chi-Quadrato per la verifica della pseudo-casualità. La teoria è affiancata da esempi di simulazioni di dati da diverse distribuzioni probabilistiche quali: la distribuzione esponenziale, la distribuzione binomiale e di la distribuzione Gaussiana.
Nella seconda parte del corso, dopo una breve introduzione sull’impianto concettuale dell’inferenza statistica, viene presentato il procedimento di ricampionamento noto come bootstrap per ottenere misure di precisione in ambito non parametrico per alcuni stimatori di interesse. Si considerano gli intervalli di confidenza ottenuti sia con il metodo del percentile che con il metodo BCA che permette di correggere per la distorsione.
L’algoritmo Expectation-Maximization viene illustrato dettagliatamente sia come algoritmo di stima con il metodo della massima verosimiglianza dei parametri dei modelli a variabili latenti con distribuzione discreta sia come metodo per l’imputazione dei valori mancanti in una tabella a doppia entrata in relazione un modello lineare generalizzato.
Si illustrano i modelli miscuglio (finite mixture models) per variabili risposta sia quantitative assumendo una distribuzione di Gauss per le componenti del miscuglio, sia categoriali. In particolare si considera la stima della densità e la classificazione delle unità statistiche con il metodo della massima probabilità a posteriori.
La teoria è affiancata da esercitazioni in cui vengono sviluppate, nell’ambiente R e con l’ausilio del marcatore di testo RMarkdown, numerose applicazioni volte all’analisi e all’adattamento dei modelli statistici per dati reali e simulati riguardanti gli ambiti della biostatistica. Le principali librerie del software R utilizzate sono skimr, MASS, dplyr, tscount, boot, bootstrap, mclust, MultiLCIRT. Lo studente è incoraggiato ad elaborare documenti riproducibili in cui commenta il codice ed i risultati delle analisi in modo critico anche tramite apprendimento cooperativo.
Settimanalmente vengono assegnati degli esercizi e gli studenti nello svolgimento sono incoraggiati a scrivere report in cui commentano il codice, ed offrono al lettore una spiegazione del procedimento di analisi svolto oltre ad una descrizione critica rispetto ai risultati ottenuti.
Gli studenti sono invitati a svolgere gli esercizi assegnati anche in gruppo, allo scopo di promuovere l'apprendimento cooperativo. Durante il corso vengono discusse le soluzioni agli esercizi assegnati.
Prerequisiti
Per una più agevole comprensione dei contenuti del corso è necessario conoscere le nozioni di Probabilità e di Inferenza Statistica e la semantica di base del linguaggio di programmazione in ambiente R.
Metodi didattici
Sono previste lezioni frontali in presenza; le lezioni di teoria sono affiancate da esercitazioni pratiche che consentono agli studenti di apprendere la teoria applicando i modelli per l'analisi di dati reali e simulati. Settimanalmente vengono assegnati degli esercizi di riepilogo relativi al programma svolto. Durante il corso con l'ausilio di R nell'ambiente RStudio e l'interfaccia di RMarkdown, gli studenti imparano ad elaborare documenti riproducibili che contengono codice, descrizioni e commenti ai risultati delle analisi. Sono incoraggiati a collaborare tra di loro nella risoluzione dei problemi applicativi, al fine di promuovere l'apprendimento cooperativo. Le ore previste di didattica erogativa sono 30 e quelle di didattica interattiva sono 24 e comprendono le lezioni di esercitazione.
Modalità di verifica dell'apprendimento
Le seguenti modalità di verifica dell'apprendimento si applicano sia agli studenti frequentanti che a quelli non frequentanti le lezioni frontali. L’esame è in forma scritta con orale facoltativo, non sono previste prove intermedie. L'esame scritto ha una durata di circa un’ora e mezza e si svolge in laboratorio informatico. Durante l'esame, gli studenti devono rispondere a domande aperte di teoria e risolvere gli esercizi applicativi basandosi sugli argomenti teorici trattati e sulle esercitazioni pratiche assegnate settimanalmente durante il corso. Le domande di teoria valutano l'apprendimento dei concetti essenziali dell’inferenza statistica con metodi avanzati. Le analisi empiriche devono essere condotte utilizzando l'ambiente R, RStudio e RMarkdown e permettono di verificare la capacità degli studenti di applicare le metodologie proposte nonché di elaborare report riproducibili che descrivano i dati, le procedure e i risultati ottenuti. Durante l'esame è consentito l'utilizzo del materiale di studio e del codice R implementato durante il corso. Ogni domanda avrà un punteggio variabile da 2 a 3 punti. Lo studente supera l'esame con una votazione non inferiore a 18/30.
Testi di riferimento
Il materiale didattico principale consiste nelle dispense preparate dal docente, che coprono, gli argomenti teorici, le applicazioni sviluppate con il software R, gli esercizi e le soluzioni. Queste dispense saranno rese disponibili sulla pagina della piattaforma e-learning dell'università dedicata al corso. Inoltre, il docente pubblica alla fine di ogni lezione le slides, i programmi di calcolo e i dataset utilizzati. Settimanalmente vengono assegnati esercizi, e le relative soluzioni. Sulla stessa pagina web sono disponibili degli esempi del testo d'esame.
I riferimenti bibliografici principali sono elencati nella bibliografia delle dispense alcuni dei quali sono i seguenti che risultano disponibili presso la biblioteca di Ateneo anche in formato ebook:
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein, J. K., Hwang, J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.
Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2023). Dispensa di Modelli Statistici II, Teoria e Applicazioni con R. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.
Periodo di erogazione dell'insegnamento
Semestre I, ciclo I, Ottobre-Novembre 2024
Lingua di insegnamento
Il corso viene erogato in lingua italiana. Gli studenti Erasmus possono utilizzare il materiale didattico predisposto in lingua inglese e fornito dal docente su richiesta. Possono inoltre richiedere di svolgere la prova d’esame in lingua inglese.
Sustainable Development Goals
Learning objectives
The course falls within the learning areas of statistical sciences, computer science, and social sciences. The course aims to provide students with preparation regarding analytical and inferential procedures concerning: non-parametric bootstrap, multivariate Gaussian distribution, generalized linear models for count data, and univariate and multivariate Gaussian mixture models, as well as predictive models. The course aims to develop a critical understanding of the model assumptions underlying the theory through empirical applications with real and simulated data.
Knowledge and understanding
Teaching enables the student to:
• Analyze data with advanced univariate and multivariate statistical models developed for both categorical and continuous response variables.
• Develop simulation methods.
• Use the semantics of the R software, also through the RMarkdown environment, to learn a replicable and reproducible research method. The generated documents include code, results, and comments on the code and performed analyses.
• Rigorously interpret the results of the empirical analyses and provide a description also for dissemination purposes to non-academic audience.
Ability to apply knowledge and understanding
The course allows the student to:
• Develop statistical inference using modern bootstrap techniques.
• Estimate, select, and interpret the statistical model-based clustering techniques especially considering finite mixtures of Gaussian distributions for heterogeneous populations.
• Apply theoretical knowledge to the analysis of data collected in various fields, including epidemiology, medicine, biology, genetics, and public health.
• Conceptualize and estimate through the maximum likelihood method models with latent variables.
• Implement code with the open source software R.
The course enables students to acquire solid theoretical foundations and to develop applications through a "problem-solving" approach. The course pertains to data science, which is now essential for the target job contexts (biostatistics/statistics/demography and related) of graduates in Biostatistics.
Contents
In the first part of the course, the main probability distributions used to simulate realizations from random variables are reviewed. The resampling procedure known as bootstrap is presented to obtain precision measures in a non-parametric context for some estimators of interest.
In the second part of the course, the Expectation-Maximization (EM) algorithm is introduced as a method for imputing missing data using maximum likelihood estimates of the parameters of a generalized linear model. After introducing Gaussian mixture models, the steps of the EM algorithm for the maximum likelihood estimation of the parameters of these models and latent variable models with discrete distribution are described. Theoretical lessons are accompanied by practical exercises conducted with many different data. The course provides skills in using the semantics of the R software, also utilizing the RMarkdown library through the knitr package to integrate code, analysis results, and comments.
Detailed program
The first part of the course deals with simulation methods and linear congruential methods to generate pseudo- random numbers. Graphical tools for testing the series and statistical tests such as Kolmogorov-Smirnov and Chi-Squared tests are illustrated. Simulation of random numbers from specific distributions is considered. Some theoretical features of the exponential, binomial, and Gaussian distributions and convolution of random variables are exposed.
Resampling methods, such as jackknife and bootstrap, are introduced in the second part of the course. The bootstrap is applied for bias adjustment and the estimation of dispersion. Bootstrap confidence intervals based on the percentile method and the bias-corrected accelerated bootstrap method are explained.
Among the optimization methods, the Expectation-Maximization algorithm is considered and explained first as a tool to impute missing values through a generalized linear model and then as a tool to maximize the log-likelihood function for incomplete data problems. Finite mixture models are introduced both for continuous and for categorical data, and a particular focus is given to mixture of Gaussian distributions and latent variable models for categorical data.
Some time is devoted to explaining the theory by imparting the flavor of the empirical applications using data collected from different fields arising in epidemiology, pharmacoepidemiology, medicine, biology, ecology, and environmental sciences. They are developed within the statistical software R, RStudio with the RMarkdown interface. The main R packages used are bootstrap, dplyr, MASS, MultiLCIRT, tscount, mclust e skimr.
The student is encouraged to develop reproducible documents in which he/she critically comments on the code and the analysis results, also through cooperative learning.
Weekly exercises are assigned, and students are encouraged to write reports in which they comment on the code and provide the reader with an explanation of the analysis procedure performed, along with a critical description of the results obtained.
Students are invited to work on the assigned exercises in groups to promote cooperative learning. During the course, the solutions to the assigned exercises are discussed.
Prerequisites
For an easier understanding of the course content, it is recommended to know Probability and Statistical Inference notions. The student should also know the basic semantics of the programming language in the R environment.
Teaching methods
Classroom lectures cover the theoretical aspects of some advanced statistical models, theory is complemented by practical exercises that enable students to learn both the theory and data analysis techniques. Weekly summarizing exercises are assigned, which involve applying the proposed models to real or simulated data. During the course, with the help of R in the RStudio environment and the RMarkdown interface, students learn to create reproducible documents. They are encouraged to tackle application problems with the additional goal of developing cooperative learning. The scheduled hours of traditional teaching are 30, and those of interactive teaching are 24, including lesson concerning exercises.
Assessment methods
The following methods of verifying learning apply to both students attending and non-attending lectures in presence. The examination is written with open questions and an optional oral part is possible; there are no intermediate tests. The written exam lasts around an hour and a half and takes place in the computer lab. During the exam, open theory questions must be answered, and exercises must be solved based on the topics covered during the course. The theory questions assess the understanding of the theoretical concepts taught during the course. The empirical analyses are conducted using the R environment, Rstudio, and RMarkdown allowing verification of the ability to understand the problem and resolve it by applying advanced statistical models to real or simulated data. Students must also elaborate on reports in which the procedure is described, and the results are illustrated. The examination is open book, and students can consult all the material as well as the R code provided during the lectures. The student passes the test with a mark of at least 18/30.
Textbooks and Reading Materials
The teaching material consists mainly of handouts prepared by the teacher. These cover theory, applications, exercise and solutions developed with R software. All the files are available on the course page of the university's e-learning platform. In addition, the teacher publishes the following material at the end of each lesson: slides, R and SAS code, exercises, datasets, and solutions to some of the exercises. Previous exam texts are also published on the same page.
The main references are listed in the bibliography of the handouts, some of which are as follows and are available in the university library, also in ebook format:
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein, J. K., Hwang, J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.
Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2023). Dispensa di Modelli Statistici II, Teoria e Applicazioni con R. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.
Semester
Semester I, cycle I, October-November 2024
Teaching language
The course is provided in Italian. Erasmus students can use the handouts material in English and ask the teacher to carry out the exam in English.
Sustainable Development Goals
Key information
Staff
-
Luca Brusa
-
Fulvia Pennoni