- Economics
- Bachelor Degree
- Statistica e Gestione delle Informazioni [E4102B]
- Courses
- A.A. 2019-2020
- 2nd year
- Statistical Models
- Summary
Course Syllabus
Obiettivi formativi
Il corso intende sviluppare le conoscenze teoriche e applicative circa il modello di regressione lineare multipla. Lo studente impara il metodo statistico della regressione lineare multipla e le relative assunzioni, in modo da poter analizzare i dati e verificare la sostenibilità del modello. Vengono trattati aspetti di analisi grafica, e analisi computazionale utilizzando la notazione matriciale. Il corso sviluppa le competenze per l’analisi dei dati aventi natura multivariata e provenienti da varie fonti informative: contesti aziendali, economici, biologici, fisici, medici, astronomici, sociali e sportivi. Lo studente approfondisce le competenze nell'utilizzo della semantica di R e di SAS sia per le analisi di statistica descrittiva che per l'applicazione del modello di regressione lineare multipla. Il corso si qualifica come indispensabile per il successivo percorso universitario di formazione professionale nella scienza dei dati.
Contenuti sintetici
Durante il corso gli argomenti vengono trattati secondo la seguente sintesi. Lo studente viene richiamato allo schema concettuale dell'inferenza statistica e alle analisi grafiche multivariate ancorché all’utilizzo dei coefficienti di correlazione totali e parziali come misure di associazione.
Si introduce la funzione di regressione lineare multipla nel caso di tre variabili e si esplicitano le assunzioni sottostanti. Viene spiegato il metodo di stima dei minimi quadrati ed esposte le proprietà principali degli stimatori dei parametri del modello. Si illustra la distribuzione di Gauss bivariata e multivariata e le relative proprietà vengono enunciate sia a livello teorico che con esempi applicativi su dati reali e simulati.
Si considera il modello di regressione lineare multipla a fini esplicativi e presivisi e si impara a valutare il modello considerando i seguenti aspetti: gli indici di adattamento, la scelta del numero di variabili esplicative, le analisi grafiche dei residui, ed i criteri d'informazione. Si discute e si valuta la presenza di multicollinearità e si accenna ai metodi di linearizzazione. Viene introdotto il modello di regressione logistica generale.
Nelle prime tre settimane di corso gli esempi su dati reali e simulati vengono svolti nell’ambiente R con l’ausilio di RMarkdown per integrare codice e output. In questo modo lo studente apprende anche effettuare analisi riproducibili. Nelle ultime settimane viene spiegato l’utilizzo delle procedure SAS sia in riferimento alle analisi preliminari dei dati sia per l’adattamento del modello di regressione lineare multipla.
Programma esteso
Il corso viene introdotto accennando all’impianto concettuale dell’inferenza statistica e alle differenze tra causazione e associazione. Si richiamano le tipologie dei caratteri, la rappresentazione matriciale dei dati e l’indice di correlazione tra caratteri quantitativi.
Il modello di regressione lineare multipla è introdotto come funzione di regressione che coinvolge tre variabili sia nella notazione estesa che nella notazione matriciale. Si illustra la scomposizione della devianza totale. Nel caso del modello con due variabili esplicative si dettaglia il metodo del determinante per ottenere le stime dei parametri con il metodo dei minimi quadrati ed il calcolo dell'indice di determinazione lineare. Viene considerato il miglioramento in varianza residua passando dalla retta di regressione lineare al piano di regressione. Vengono illustrate le proprietà degli stimatori in base alle assunzioni del modello e l'inferenza sui coefficienti di regressione viene presentata sia a livello del singolo parametro che per coppie di parametri attraverso la determinazione degli intervalli di confidenza congiunti.
Si introduce con notazione formale la distribuzione di Gauss bivariata e multivariata e si ottengono delle realizzazioni simulate da entrambe le distribuzioni. Si utilizzano i grafici a dispersione a due e a tre dimensioni, viene illustrato anche l’ellissoide di concentrazione. In particolare si utilizzano le matrici di varianza e covarianza, di correlazione e delle correlazioni parziali.
Per la valutazione del modello si illustrano le principali analisi diagnostiche riguardanti i residui. Si introduce il criterio d’informazione Bayesiano e le tecniche di selezione delle variabili esplicative. Si accenna al problema della multicollinearità e alla sua misurazione e viene introdotto l'indice d’inflazione della varianza. Viene spiegato l’utilizzo del modello a fini predittivi sia per un singolo valore della risposta sia per il valore medio.
Nel corso si introducono anche gli aspetti seguenti: i) il metodo di stima della massima verosimiglianza; ii) trasformazione delle variabili; iii) variabili esplicative categoriali; iv) modelli con ordini di interazione tra variabili esplicative; v) variabile risposta categoriale con riferimento al modello generale di regressione logistica.
Gli argomenti trattati a livello teorico sono affiancati dall'illustrazione di numerose applicazioni su dati reali e simulati che vengono sviluppate tramite l’ambiente statistico R, Rstudio con RMarkdown per sviluppare analisi riproducibili. Nelle ultime due settimane di corso lo studente impara anche la semantica del software SAS per le analisi descrittive e per la stima del modello di regressione lineare multipla attraverso le procedure proc sgscatter, proc reg, proc glmselect.
Prerequisiti
Si richiede di aver superato gli esami degli insegnamenti propedeutici come da regolamento didattico: Statistica I, Analisi Matematica I, Algebra Lineare, Calcolo delle Probabilità. Per una più agevole comprensione dei contenuti del corso è consigliato aver già sostenuto l’esame di inferenza statistica.
Metodi didattici
Sono previste lezioni frontali riguardanti la parte di teoria, queste vengono affiancate da esercitazioni pratiche. Tutte le lezioni si svolgono in laboratorio informatico in modo da poter coniugare la parte teorica con le applicazioni a problemi concreti relativi a dati multivariati sia reali che simulati e riferiti a svariati ambiti applicativi. Sono inoltre previste delle lezioni di tutoraggio in modo che lo studente possa svolgere gli esercizi assegnati settimanalmente affiancato dell’esercitatore.
Durante le esercitazioni con l'ausilio di R nell'ambiente RStudio e dell'interfaccia RMarkdown lo studente impara a sviluppare il linguaggio di programmazione e a creare documenti riproducibili. Attraverso l’utilizzo del software SAS gli studenti sono incoraggiati ad affrontare il problema applicativo. E’ incentivato l'apprendimento cooperativo durante le esercitazioni volte a riconoscere la problematica dell'esercizio, individuare la metodologia adatta, applicare le analisi e commentare i risultati.
Modalità di verifica dell'apprendimento
L’esame è in forma scritta con orale facoltativo, non sono previste prove intermedie. Le seguenti modalità di verifica dell’apprendimento riguardano sia gli studenti che frequentano le lezioni sia coloro che non possono essere presenti alle lezioni. L'esame scritto ha durata complessiva di un’ora e trenta minuti e si svolge presso il laboratorio informatico. Questo consiste in una prima parte a libro chiuso riguardante la parte di teoria con domande aperte su tre argomenti diversi trattati nel programma da svolgere sul foglio. La prima prova pesa 1/3 sul totale del punteggio complessivo assegnato in fase di valutazione.
La seconda prova si svolge al computer e lo studente rispondendo ai punti dell’esercizio deve dimostrare la sua abilità nell'applicare il modello di regressione lineare multipla utilizzando i dati reali o simulati forniti dal docente. Deve fornire un elaborato con dei commenti dettagliati rispetto alle domande volte a valutare la capacità di utilizzare il modello di regressione lineare multipla ed illustrare gli aspetti rilevanti dei risultati sia dal punto di vista statistico che di contenuto specifico inerente l'ambito applicativo. Lo svolgimento avviene tramite l’ambiente R oppure con il software SAS. Lo studente può disporre del materiale fornito durante il corso e del codice illustrato durante le lezioni e le esercitazioni. La prova permette la verifica delle nozioni teoriche e della capacità di comprensione del problema applicativo nonché di risoluzione tramite l'analisi dei dati, e la creazione di report.
La prova orale è facoltativa e può essere richiesta da coloro che hanno un esito di almeno 18/30 alla prova scritta al momento della pubblicazione degli esiti. Questi sono pubblicati sulla pagina di e-learning dedicata al corso e tutti gli studenti devono presentarsi nella data indicata per la visione del compito.
Testi di riferimento
Il materiale didattico è composto principalmente dalle dispense redatte dal docente riguardanti sia la parte teorica che le applicazioni. E’ reso disponibile nella pagina della piattaforma e-learning dell’ateneo dedicata al corso. Il docente pubblica al termine di ogni lezione anche le slides, i programmi di calcolo, gli esercizi, i dati, e le soluzioni. Nella stessa pagina sono pubblicati alcuni testi d’esame. I principali testi di riferimento sono elencati nella bibliografia delle dispense, tra gli altri si segnalano i seguenti:
Faraway, J. J. (2014). Linear models in R, Second Edition, Chapman & Hall, CRC Press.
Johnson, R. A., and Wichern, D. W. (2002). Applied multivariate statistical analysis, Pearson Education International, Prentice Hall.
Hastie, T., D. & Tibshirani, R. (2013). An introduction to statistical learning, New York, Springer.
Nolan, D., & Lang, D. T. (2015). Data Science in R: A Case Studies Approach to Computational Reasoning and Problem Solving. Chapman & Hall, CRC Press.
Pennoni, F. (2019). Dispensa di Analisi Statistica Multivariata –Modulo Modelli Statistici- parte di teoria e applicazioni con R e SAS. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2019). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
SAS/STAT 9.4. PROC SGSCATTER, PROC CORR, PROC REG, PROC GLMSELECT, User’s guide, SAS Institute, 2012.
Periodo di erogazione dell’insegnamento
II Semestre, III Ciclo: febbraio - aprile 2020.
Lingua di insegnamento
Il corso viene erogato in lingua italiana. Gli studenti Erasmus possono utilizzare il materiale didattico in Inglese e possono richiedere al docente che la prova d’esame sia svolta in lingua inglese.
Learning objectives
The course aims to provide students with methodological and applied background on the multiple linear regression model in order to perform solid statistical analysis in many different applied contexts. The student learns the methods and the underlying assumptions and he/she is introduced to the analyses of data derived by multiple informative sources such as economics, business, biology, physics, astronomy and social sciences.
Some theory related to computations using the matrix algebra is considered. The course provides skills in use of the semantic of R and SAS for descriptive multivariate data analysis and for the application of the multiple linear regression as well as to the techniques developed in the statistical literature to verify the tenability of the model.
Theory and practical applications on real and simulated data are jointly explained to support the student also with a deep practical knowledge. The course concerns data science and it is compulsory for the next course of student studies.
Contents
During the course the following main issues are raised. The student is introduced to the big picture of statistical inference and to the multivariate graphical examination of the data as well as to the use of linear total and partial correlation coefficients to inspect the linear associations among variables.>
The multiple linear regression function is introduced according to the basic assumptions. The ordinary least square estimation method is explained and the main basic properties of the estimators are illustrated. The bivariate and multivariate Gauss distributions are illustrated with their properties also through applicative examples and simulations.
The model is evaluated by considering the following aspects: fit indices, information criteria, selection of explicative variables. Model diagnostics tools for checking model assumptions and unusual observations are taken into account along with the multicollinearity issue. Prediction and linearization methods are introduced.
The RMarkdown interface is employed to develop live code and output in the same interface and to make reproducible documents. SAS is employed to develop students’ skills on multivariate data analysis and multiple linear regression.
Detailed program
The course start with an introduction to the big picture of statistical inference and some recall on causal inference. The type of variables, the variance and covariance matrix, the correlation and partial correlation matrices are recalled.
The multiple linear regression model is introduced first considering three variables with the extended notation and then through the matrix notation. The deviance decomposition is explained. For the model with two explicative variables the estimation of the model parameters is carried out by considering the determinant’ rule applied to the variance-covariance matrix. The improvement related to the reduction of the residual variance from the linear to the multiple linear regression is considered. The properties of the ordinal least square estimators are discussed according with the model assumptions. Inference for the regression coefficients is illustrated.
During the course the knowledge of the student based on univariate distributions is extended to include the bivariate and multivariate Gaussian distributions. Random realizations are drawn and they are illustrated by means of the scatterplots in two and three dimensions. The contours of the Bivariate Gauss distribution are depicted.
Many diagnostic tools are proposed to evaluate the model’s residuals and some criteria for the variable selection such as the Bayesian Information Criterion, the Mallow Cp index are introduced. The multicollinearity is explained and the variance inflated factor is used to provide a measure. The way to forecast a new observation and average values.
Other arguments raised during the course are: i) maximum likelihood estimation method for the model parameters; ii) transformation of the variables; iii) categorical covariates; iv) models with some orders of interactions between covariates: v) categorical response variable and the general logistic model.
Some amount of time is devoted to explain the theory by imparting flavor of the applications on real data collected from different fields. They are developed within the statistical environment R, RStudio with RMarkdown to make reproducible documents. The student is introduced to the semantic of the SAS software to carry out multivariate analysis and multiple linear regression.
Prerequisites
Positive examinations are required on the following courses: Statistics I, Mathematics, Linear Algebra and Probability. It is recommended to know the content of the course of Statistical Inference.
Teaching methods
The theoretical lectures as well as exercises are held in the lab. Theory is explained and during the lectures, many practical examples based on real and simulated multivariate data referred to different contexts of application are proposed to the students to be analyzed with R, RStudio with RMarkdown to make reproducible documents and SAS.
The student is also encouraged to develop the cooperative learning in order to interact each other and finalize the required steps of the analysis. Exercises are carried out in a written form and the results are reported with comments. A tutor is available to help students with the weekly assignments.
Assessment methods
The following assessment methods are valid also for students that do not attend the lectures. The exam is written and it is held in the lab. The first part weights 1/3 of the total score and it is carried out by answering three open questions related to the theoretical part without the learning material. The second part consists of an exercise and involves real data analysis to be performed with R or SAS. The student by making a reproducible document carries descriptive analysis on real and simulated data and applies the multiple linear regression model. The learning material is available during the second part. The student has to provide explanations concerning the results from the point of view of the statistical thinking.
The exam allows to evaluate the understanding of the theoretical parts, the analytical skills as well as the ability of writing a report. The oral examination is not compulsory and can be required if the student earns a score of at least 18/30 in the written part. Intermediate assessments are not planned. The scores are published in the e-learning page and the student has to attend the scheduled meeting to see the spreadsheet.
Textbooks and Reading Materials
The professor’s lecture notes are available from the webpage of the course of the e-learning website of the university. At the end of each lecture slides, and the other supporting material including R scripts, SAS code, exercises, solutions and datasets are downloadable from the webpage of the course. The main texts are illustrated in the lecture notes, some of them are the following:
Faraway, J. J. (2014). Linear models in R, Second Edition, Chapman & Hall, CRC Press.
Johnson, R. A., and Wichern, D. W. (2002). Applied multivariate statistical analysis, Pearson Education International, Prentice Hall.
Hastie, T., D. & Tibshirani, R. (2013). An introduction to statistical learning, New York, Springer.
Nolan, D., & Lang, D. T. (2015). Data Science in R: A Case Studies Approach to Computational Reasoning and Problem Solving. Chapman & Hall, CRC Press.
Pennoni, F. (2019). Dispensa di Analisi Statistica Multivariata –Modulo Modelli Statistici- parte di teoria e applicazioni con R e SAS. Dipartimento di Statistica e Metodi Quantitativi, Università degli Studi di Milano-Bicocca.
R Core Team (2019). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
SAS/STAT 9.4. PROC SGSCATTER, CORR, REG, GLMSELECT, User’s guide, SAS Institute, 2012.
Semester
II Semester, III cycle: from February to April 2020.
Teaching language
The teaching language is Italian. Erasmus students can define with the professor English textbooks and require to carry out the exam in English.