- Area Economico-Statistica
- Corso di Laurea Magistrale
- Biostatistica [F8203B]
- Insegnamenti
- A.A. 2021-2022
- 1° anno
- Laboratorio R per la Biostatistica
- Introduzione
Syllabus del corso
Obiettivi formativi
Il corso si propone di fornire le basi teoriche e le conoscenze
di R utili alla gestione e analisi di dati raccolti mediante un
disegno epidemiologico sperimentale o osservazionale. Verranno inoltre forniti esempi di utilizzo di tecniche di machine learning in questo contesto.
Conoscenza e comprensione
Questo insegnamento fornirà conoscenze e capacità di comprensione relativamente a:
- la gestione dei dati con R
- l'uso di diversi modelli e tecniche biostatistiche con R
- l'applicazione di tecniche di machine learning di classificazione e di selezione delle variabili negli studi sperimentali ed osservazionali
Capacità di applicare conoscenza e comprensione
Alla fine dell'insegnamento gli studenti saranno in grado di:
- gestire con il linguaggio R il database di partenza per una buona sintesi e visualizzazione dei dati
- analizzare con il linguaggio R i dati provenienti da uno studio sperimentale o osservazionale
- applicare tecniche di classificazione e di selezione delle variabili nella costruzione dei modelli statistici
Contenuti sintetici
Gestione dei dati con R
Metodi statistici per l’analisi dei principali disegni sperimentali e osservazionali in R
Metodi di machine learning in R per la classificazione e la selezione delle variabili
Programma esteso
Gestione dei dati con R: i) Introduzione al linguaggio R, ii) metodi per la pulizia dei dati, iii) metodi per la creazione di report e la visualizzazione dei dati
Metodi statistici per l’analisi dei principali disegni sperimentali e osservazionali in R: i) analisi di uno studio trasversale, ii) analisi di uno studio di coorte, iii) analisi di uno studio caso-controllo, iv) analisi di uno studio sperimentale
Metodi di machine learning in R per la: i) verifica della capacità discriminatoria di un test diagnostico, ii) selezione delle variabili in un modello multivariato
Prerequisiti
Nessuna propedeuticità formale. Si richiede però la conoscenza dei
contenuti degli insegnamenti di Modelli statistici I
Metodi didattici
Lezioni frontali alternate a esercitazioni pratiche su dati reali erogate in laboratorio informatico.
In caso di emergenza COVID-19, le attività didattiche si svolgeranno da remoto secondo le modalità indicate sulla piattaforma e-learning.
Modalità di verifica dell'apprendimento
Modalità prova finale
Lavoro di gruppo di analisi su dati reali da consegnare prima della prova orale che consiste nell'esposizione del lavoro svolto. Tale modalità d'esame consentirà di valutare nei candidati la capacità di elaborazione critica dei metodi applicati e dei risultati ottenuti.
Non sono previste prove in itinere.
La modalità d'esame è la stessa per frequentanti e non frequentanti
Le modalità sopra descritte potranno subire variazioni in base all'andamento dell'emergenza Covid-19. Se saranno necessarie delle variazioni verranno tempestivamente rese disponibili in questa pagina.
Testi di riferimento
Slide delle lezioni e materiale integrativo disponibili sulla piattaforma della didattica online
http://elearning.unimib.it/.
Periodo di erogazione dell’insegnamento
I semestre, II periodo (approssimativamente novembre-gennaio).
Lingua di insegnamento
L'insegnamento è completamente erogato in italiano. La maggior parte del materiale di riferimento è in inglese.
Learning objectives
The course aims to provide the theoretical basis and knowledge of R useful for the management and analysis of data collected through an experimental or observational design. It will provide examples of machine learning techniques in this context.
Knowledge and understanding
This teaching will provide knowledge and understanding in relation to:
- the management of data with R
- the use of different models and biostatistical techniques in the R environment
- the application of machine learning techniques for classification and selection of variables in experimental and observational studies
Ability to apply knowledge and understanding
At the end of the course the students will be able:
- to manage database with R for a correct visualization of information
- to analyze with the R language the data coming from an experimental or observational study
- to apply classification techniques and variable selection in the construction of statistical models
Contents
Management of database with R
Statistical methods for the analysis of the main experimental and observational designs in R
Machine learning methods in R for the classification and selection of variables
Detailed program
Management of data with R: i) Introduction to R language, ii) methods for cleaning data, iii) methods for reporting and visualization of data
Statistical methods for the analysis of the main experimental and observational designs in R: i) analysis of a crossectional study, ii) analysis of a cohort study, iii) analysis of a case-control study, iv) analysis of an experimental study
Machine learning methods in R for: i) evaluating the discriminant performance of a diagnostic test, ii) selecting variables for multiple regression models
Prerequisites
No formal prerequisites. It requires, however, knowledge of the
content of the following courses: Statistical models
Teaching methods
Lectures and computer lab classes
If the Covid-19 emergency period will continue, the lessons and the computer lab classes will be recorded and available online on the elearning page. Will be scheduled some video-conferences in streaming.
Assessment methods
Final test mode
Lab work of analysis of real data. The report of this work will be deliver one week before the oral test. The oral test which consists in the exposition of the work done.
In this way the teacher will be able to evaluate the students' critical processing capacity of the methods applied and the results obtained.
There are no intermediate exams.
The exam is the same for attending and non-attending students.
Textbooks and Reading Materials
Slides from http://elearning.unimib.it/. Other material will be provided by the teacher
Semester
I semester, II period (from November to January).
Teaching language
The language of the course is the Italian. Scientific text and articles are in English language.