- Statistical Models II
- Summary
Course Syllabus
Obiettivi formativi
Il corso introduce alle procedure analitiche ed inferenziali condotte tramite modelli statistici avanzati e simulazioni con l’intento di sviluppare una conoscenza critica delle assunzioni alla base della teoria. Argomenti principali sono il bootstrap ed i modelli di miscugli di distribuzioni.
Conoscenza e comprensione
Questo insegnamento permette allo studente:
- di analizzare i dati con modelli statistici sviluppati sia per variabili risposta categoriali che continue
- di sviluppare i metodi di simulazione;
- di servirsi della semantica di R anche tramite l'ambiente RMarkdown per creare codice e documenti che permettono di riprodurre i risultati delle analisi;
- d’interpretare i risultati delle elaborazioni in modo rigoroso e di fornire una descrizione chiara degli stessi con finalità divulgative.
Capacità di applicare conoscenza e comprensione
Lo studente sarà in grado di:
- Sviluppare l’inferenza statistica tramite tecniche di bootstrap;
- Stimare, selezionare ed interpretare i modelli di miscugli di distribuzioni per popolazioni eterogenee;
- Trattare modelli con variabili latenti;
- Applicare le conoscenze teoriche a dati riguardanti gli ambiti dell'epidemiologia, della medicina, della biologia, della genetica e la salute pubblica.
- Sviluppare del codice in ambiente R.
Lo studente viene incoraggiato a presentare la teoria ed i risultati delle applicazioni in modo organico sia a livello scritto che nell’esposizione orale.
L'insegnamento fornisce i concetti principali per lo sviluppo di metodi statistici parametrici e non parametrici essenziali nell'ambito teorico e dell'analisi dei dati per i contesti lavorativi di sbocco degli studenti del corso di laurea in Biostatistica (biostatistico/statistico/demografico e affini). L’insegnamento risulta pertanto indispensabile per il successivo percorso universitario.
Contenuti sintetici
Nella prima parte del corso vengono impartiti i concetti di base per simulare delle realizzazioni da variabili casuali. Vengono introdotte le principali procedure di ricampionamento: bootstrap e Jackknife e la loro applicazione nell’ambito dell’inferenza statistica.
L’algoritmo Expectation-Maximization (EM) viene introdotto come metodo di imputazione dei dati mancanti attraverso la stima dei parametri del modello lineare generalizzato. Viene illustrato il suo utilizzo per la stima dei parametri dei modelli miscuglio (finite mixture models) e a variabili latenti. Lo studente approfondisce le competenze nell'utilizzo della semantica del software R.Programma esteso
La prima parte riguarda i metodi di simulazione e concerne anche i metodi lineari congruenziali per la generazione di numeri pseudo-casuali, i test grafici e statistici (test Kolmogorov-Smirnov e test Chi-Quadrato) per la verifica della pseudo-casualità. Vengono esaminati alcuni metodi per la generazione di realizzazioni da variabili casuali: metodo della trasformata inversa, metodo di accettazione/rifiuto. La teoria è affiancata da esempi applicativi utilizzando diversi modelli distributivi tra cui la distribuzione esponenziale, binomiale e di Gauss. Si considera la convoluzione di variabili casuali e la generazione di realizzazioni dalla stessa.
Nella seconda parte si introducono i principali metodi di ricampionamento: jackknife e bootstrap. Si illustra l’utilizzo del bootstrap per l’inferenza statistica tramite gli intervalli di confidenza ottenuti con il metodo del percentile e con la correzione per la distorsione Vengono illustrati alcuni metodi di ottimizzazione tra cui l’algoritmo Expectation-Maximization. Applicazione del metodo per l'imputazione dei valori mancanti in una tabella a doppia entrata tramite un modello lineare generalizzato. Si introducono i modelli miscuglio per variabili quantitative e categoriali in particolare con componenti assunti con distribuzione di Gauss. Si illustra la stima dei modelli miscuglio con l'algoritmo Expectation-Maximization e l'interpretazione dei risultati comprendente la stima della densità e la classificazione delle unità statistiche.
La teoria è affiancata da numerose applicazioni a dati reali e simulati riguardanti gli ambiti della biostatistica in modo da facilitare anche l’apprendimento dell’ambiente R con l’ausilio di RMarkdown. Le principali librerie utilizzate sono boot, bootstrap e mclust. Lo studente, anche tramite apprendimento cooperativo, è incoraggiato ad elaborare documenti riproducibili e sviluppare i commenti ai risultati delle analisi in modo critico.Prerequisiti
Per una più agevole comprensione dei contenuti del corso è consigliato conoscere le nozioni di Probabilità e di Inferenza Statistica. Lo studente deve inoltre conoscere la semantica di base del linguaggio di programmazione in ambiente R.
Metodi didattici
Sono previste lezioni frontali riguardanti la parte teorica sui concetti di base dei modelli statistici. Le lezioni di teoria sono affiancate da esercitazioni pratiche che permettono allo studente di sviluppare l’aspetto della scienza dei dati. Vengono assegnati ogni settimana degli esercizi di riepilogo basati su dati reali o simulati relativi alla parte di programma svolto. Le lezioni si svolgono in laboratorio informatico in modo da poter sviluppare le applicazioni al computer. Durante il corso con l'ausilio di R nell'ambiente RStudio e l'interfaccia di RMarkdown,gli studenti imparano ad elaborare documenti riproducibili. Gli stessi vengono incoraggiati ad affrontare il problema applicativo con lo scopo ulteriore di sviluppare l'apprendimento cooperativo.
Durante il periodo di emergenza Covid-19 le lezioni si svolgeranno in modalità da remoto (lezioni videoregistate) con incontri periodici (ogni 2 settimane) in videoconferenza tramite piattaforma webex secondo le calendarizzazioni previste che verranno rese note nella pagina del corso nella sezione ORARI.
Modalità di verifica dell'apprendimento
L’esame è in forma scritta con orale obbligatorio, non sono previste prove intermedie. Le seguenti modalità di verifica dell’apprendimento riguardano sia gli studenti che non frequentanti. L'esame scritto ha durata complessiva di un’ora e trenta minuti e si svolge presso il laboratorio informatico. Durante la prova occorre risolvere gli esercizi applicati alla luce degli argomenti teorici sviluppati durante il corso. Le analisi sono condotte tramite l'ambiente R, Rstudio e RMarkdown. Gli esercizi permettono di verificare la capacità di comprensione del problema, la sua risoluzione tramite l'applicazione di modelli statistici avanzati a dati reali o simulati e l’elaborazione di report in cui si descrive il procedimento e si illustrano i risultati.
Con esito positivo (ovvero con votazione di almeno 18/30) lo studente accede alla prova orale in cui discute la prova scritta in riferimento agli aspetti teorici trattati nel corso. Entrambe le prove devono essere sostenute nella stessa sessione d’esame. La prova orale permette di verificare la comprensione della teoria e la capacità argomentativa dello studente nonché l’apprendimento delle nozioni teoriche impartite durante il corso.
Durante il periodo di emergenza Covid-19 la modalità di esame sarà la stessa e a seconda delle disposizioni di ateneo si svolgerà in laboratorio informatico oppure in videoconferenza tramite piattaforma webex.
Testi di riferimento
Il materiale didattico è composto principalmente dalle dispense redatte dal docente riguardanti sia la parte teorica che le applicazioni. Questo è reso disponibile nella pagina della piattaforma e-learning dell’ateneo dedicata al corso. Il docente pubblica al termine di ogni lezione anche le slides, i programmi di calcolo, i dati, gli esercizi e le soluzioni. Nella stessa pagina sono pubblicati alcuni testi d’esame.
I principali testi di riferimento sono elencati nella bibliografia delle dispense, tra gli altri si segnalano i seguenti:
Il materiale didattico è costituito principalmente dalle dispense redatte dal docente riguardanti sia la parte teorica che le applicazioni. Tutto il materiale è disponibile nella pagina della piattaforma e-learning dell’ateneo dedicata al corso. Il docente pubblica al termine di ogni lezione anche le slides, i programmi di calcolo, gli esercizi, i dati, e le soluzioni di ogni lezione. Nella stessa pagina sono pubblicati alcuni testi d’esame.
Durante il periodo di emergenza Covid-19 nella pagina del corso vengono anche pubblicate le videoregistrazioni delle lezioni.
I principali testi di riferimento sono elencati nella bibliografia delle dispense. Alcuni tra questi anche disponibili in ebook i seguenti:
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., & Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein J. K. and Hwang J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.
Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2020). Dispensa di Modelli Statistici II, parte di teoria e applicazioni con R. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
Rizzo M. L. (2008). Statistical Computing with R, Chapman & Hall/CRC, New York.
R Core Team (2020). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.Periodo di erogazione dell’insegnamento
1° Semestre, Ciclo I, Ottobre-Novembre 2020
Lingua di insegnamento
Il corso viene erogato in lingua italiana. Gli studenti Erasmus possono utilizzare il materiale didattico in Inglese e richiedere al docente che la prova d’esame sia svolta in lingua inglese.
Learning objectives
The aim of the course is to provide analytic and inferential advanced statistical procedures also conducted by simulations. The content is presented to develop a critical understanding of the underlying assumptions. The main arguments are bootstrap and mixture models.
Knowledge and understanding
The course allows the student to:
- to develop a critical knowledge of the assumptions;
- to develop simulation methods;
- to apply the models using the R semantic with the RMarkdown interface;
- to interpret and explain the results with rigor and to provide a clear description of the same.
Ability to apply knowledge and understanding
The course allows the student to:
- to apply statistical inferential methods such as bootstrap;
- Estimate, select and interpret mixture models for heterogenous populations;
- Apply latent variable models;
- Apply models to data arising in the fields of epidemiology, medicine, biology, environmental, genetics and public health.
The student is encouraged to explain the theory and the results of the applications by providing written text and at the oral part.
The course provides the main concepts for parametric and non-parametric statistical models which are essential for the analysis of the data arising in the working contexts of biostatistics, statistics, demography and public health. It is compulsory for the next course of student’ studies.
Contents
In the first part of the simulation methods are introduced to generate pseudo-realizations from random variables. The student is introduced to some resampling methods: bootstrap and jackknife along with their use for inferential purposes.
The Expectation-Maximization (EM) algorithm is illustrated for incomplete-data problems through the estimated parameters of a generalized linear model. Then it is illustrated as an optimization method for the estimation model parameters of finite mixture and latent variable models. The course provides skills in use of the semantic of the software R.
Detailed program
The first part of the course deals with simulation methods and linear congruential methods to generate pseudo-random numbers. Graphical tools for testing the series are illustrated along with some statistical tests such as Kolmogorov-Smirnov and Chi-Squared tests. Transformations of uniform deviates and simulation of random numbers from specific distributions are considered. Some theoretical features of the exponential, binomial and Gaussian distributions and convolution of random variables are exposed.
The main resampling methods such as the jackknife and the bootstrap are introduced. The bootstrap is applied for bias adjustment, and for the estimation of dispersion. Bootstrap confidence intervals based on the percentile method and the bias corrected accelerated bootstrap method are explained. Applications of the bootstrap are provided involving the skewness estimator, the relative risk estimator and some estimators derived from the linear regressions coefficients.
Among the optimization methods the Expectation-Maximization Algorithm is considered and explained first as a tool to impute missing values through a generalized linear model and then as a tool to maximize the log-likelihood function for incomplete data problems. Finite mixture models are introduced both for continuous and categorical data and a special focus is given on the mixture of Gaussian distributions and on latent variable models for categorical data.
Some amount of time is devoted to explain the theory by imparting flavor of the empirical applications on real data collected from different fields arising in epidemiology, pharmacoepidemiology medicine and biology as well as ecology and environmental sciences. They are developed within the statistical environment R, RStudio with the RMarkdown interface so as to provide live code and make reproducible documents. The main R packages are boot, bootstrap MultiLCIRT and mclust.
Prerequisites
Knowledge on Probability and Statistical Inference is required as well as the basic knowledge of the R programming language.
Teaching methods
The lectures are held in the lab since the theoretical part is placed side by side with the applications carried out with the computer. During the lectures, many practical examples based on real and simulated data referred to different contexts are proposed to the students to be solved with R through the RMarkdown interface. The student is also encouraged to develop the cooperative learning in order to interact each other and finalize the required steps of the analysis. Exercises are carried out to report in a written form the results by adding critical comments and create reproducible documents.
During the Covid-19 emergency period the lessons will take place in the online asynchronous mode (videotaped lessons) with scheduled videoconferences meetings and some live meetings according to the scheduled days indicated at the elearning page of the course
Assessment methods
The following assessment methods are valid also for students not attending lectures. The written examination is performed in the lab where the student has to solve the exercises by showing that she/he is able to apply simulations and statistical models to real data in the field of biostatistics. The exercises are planned to evaluate the analytical skills of the students and his/her ability to solve the problem with R and the RMarkdown interface as well as to provide a reproducible document.
The following assessment methods are valid also for students not attending lectures. The written examination is performed in the lab where the student has to solve the exercises by showing that she/he is able to apply simulations and statistical models to real data in the field of biostatistics. The exercises are planned to evaluate the analytical skills of the students and his/her ability to solve the problem with R and the RMarkdown interface as well as to provide a reproducible document.
The results of the written examination are published in the e-learning page. With a positive score (from 18/30 and above) the student has to sustain an oral exam where she/he is explaining the theoretical features raised in the written part and the theory in the program of the course. In this way it is possible to evaluate the comprehension of the theoretical models. The written and the oral part are compulsory and should be carried out during the same examination term. Intermediate assessments are not planned.
During the Covid-19 emergency the exam will be same but it will carried out in the lab or in videoconference through Webex according to the guidelines of the University.
Textbooks and Reading Materials
The teaching material is made by the lecture notes concerning the theory and the applicative examples. Slides, R scripts, datasets and exercises with solutions are available after each lecture. The material is downloadable from the web page of the e-learning platform of the university.
The main
texts are illustrated in the lecture notes. Some of them are the following and they are available in e-book:
Bartolucci, F., Farcomeni, A., Pennoni, F. (2013). Latent Markov Models for longitudinal data, Chapman and Hall/CRC, Boca Raton.
Bishop, Y. M., Fienberg, S. E., & Holland, P. W. (2007). Discrete multivariate analysis: theory and practice. Springer Science & Business Media, New York.
Blitzstein J. K. and Hwang J. (2014). Introduction to probability, Chapman & Hall/CRC.
Gentle, J. E., Hardle W., Mori Y. (2004). Handbook of computational statistics. Springer-Berlin.
Lange, K. (2010). Numerical analysis for statisticians, 2nd Edition, Springer, New York.
Pennoni, F. (2020). Dispensa di Modelli Statistici II, parte di teoria e applicazioni con R. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
Rizzo M. L. (2008). Statistical Computing with R, Chapman & Hall/CRC, New York.
R Core Team (2020). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.Semester
Semester I, cycle I, October-November 2019.