Course Syllabus
Obiettivi formativi
Il corso si propone di richiamare gli aspetti metodologici e applicativi di base dei modelli statistici secondo i punti di vista descrittivo e inferenziale. Argomenti principali sono il modello di regressione lineare sia semplice che multipla per dati di popolazione e per dati campionari, e la loro analisi con il software SAS. Il corso si rivolge ai laureati con formazione pregressa non quantitativa o non assimilabile a quella tipicamente acquisita nelle lauree triennali in Statistica.
Conoscenza e comprensione. Questo insegnamento fornirà conoscenze e capacità di comprensione relativamente a:
- Principali metodi per lo studio del legame di dipendenza di una variabile quantitativa da una o più variabili quantitative, insieme eventualmente a variabili qualitative, e per la costruzione della relativa modellistica lineare in ambito sia descrittivo sia inferenziale
- Applicazione dei principali metodi di analisi bivariata mediante esercizi numerici svolti con la calcolatrice (ossia, senza l'ausilio del software statistico)
- Logica e funzionamento alla base del software SAS e suo utilizzo nell'ambito dell'analisi bivariata e della modellistica di regressione con le relative rappresentazioni grafiche
- Lettura e interpretazione degli output delle analisi prodotte con SAS.
Capacità di applicare conoscenza e comprensione. Alla fine dell'insegnamento gli studenti saranno in grado di:
- Applicare i metodi di base dell'analisi bivariata, stabilire nel modo più opportuno il ruolo da assegnare alle variabili (ossia se dipendenti o indipendenti), e costruire i modelli di regressione più adeguati in base agli scopi delle analisi e alla natura dei dati a disposizione
- Selezionare un modello di regressione che sia al contempo parsimonioso ma di buon adattamento in base a criteri statistici descrittivi o inferenziali
- Interpretare i risultati delle analisi in modo critico e individuare gli eventuali margini di miglioramento nella costruzione delle modellistiche di base applicate in ottica sia interpretativo-descrittiva, sia predittiva
- Importare in SAS file di dati esterni di varia provenienza e formato e utilizzare in modo autonomo la sintassi di base di SAS.
L'insegnamento consente allo studente di acquisire le principali basi teoriche e applicative relativamente all'analisi bivariata e alla costruzione dei modelli di regressione lineare necessarie in qualsiasi contesto lavorativo in cui si utilizzino file di dati e che rappresentano una base imprescindibile per il proseguimento del percorso universitario.
Contenuti sintetici
Dipendenze in media e lineare, interpolazione fra punti e per punti, funzione di regressione. Regressione lineare semplice e multipla per dati di popolazione e per dati campionari. Selezione del modello di regressione in base a criteri descrittivi e inferenziali. Applicazioni a dati reali con il software SAS.
Programma esteso
- Richiami sulle forme principali di dipendenza su dati di popolazione quantitativi: dipendenze in media e lineare. Interpolazione fra punti e per punti. Funzione di regressione. Criterio di accostamento dei minimi quadrati
- Regressione lineare: retta dei minimi quadrati, bontà di adattamento, estensione a più variabili esplicative, correlazioni multipla e parziale, regressori qualitativi
- Modello di regressione lineare semplice e multipla per dati campionari: distribuzione normale multivariata e sue proprietà, specificazione del modello, ipotesi, metodi di stima dei minimi quadrati e di massima verosimiglianza, intervalli di confidenza, verifica di ipotesi
- Selezione del modello di regressione lineare multipla: criteri descrittivi e inferenziali
- Analisi di casi empirici con SAS
Prerequisiti
Per questa attività formativa è consigliata la conoscenza degli argomenti trattati nei corsi di base di Statistica e di Inferenza Statistica.
Metodi didattici
Lezioni teoriche in aula ed esercitazioni pratiche in laboratorio statistico-informatico con il software SAS.
Le lezioni saranno tutte erogate in presenza in modalità erogativa.
Nel caso di indisponibilità dei laboratori informatici a causa dei lavori di ristrutturazione in Ateneo
(https://www.unimib.it/news/al-lavori-ristrutturazione-ed-efficientamento-energetico-degli-edifici-u5-ratio-e-u7-civitas
https://www.unimib.it/ateneo/chi-siamo/storia/bicocca-work),
le ore di didattica in laboratorio saranno erogate in modalità da remoto asincrono.
Ulteriori informazioni verranno fornite non appena disponibili all'inizio del corso.
Modalità di verifica dell'apprendimento
L'esame di Introduzione ai Modelli Statistici consiste in una prova scritta (durata complessiva: 2 ore) con tre quesiti (articolati in più punti) che riguardano gli aspetti sia teorici sia applicativi delle modellistiche trattate durante il corso. Le domande teoriche riguardano gli aspetti metodologici degli argomenti trattati e consentono di verificare le conoscenze teoriche acquisite in merito alla logica e agli aspetti di base dell'analisi affrontata su dati di popolazione o su dati campionari, dell'analisi bivariata, della specificazione formale dei modelli di regressione, dei problemi legati alla determinazione o alla stima dei parametri e alla valutazione della bontà di adattamento del modello ai dati, e della conduzione dell'inferenza statistica in un'ottica di modellistica. Permettono inoltre di verificare la capacità di utilizzare in autonomia il linguaggio simbolico-formale statistico, di fornire in modo appropriato le definizioni e di dimostrare analiticamente i principali risultati teorici. Le domande applicative riguardano la trasposizione nella pratica della teoria, e consentono di verificare le capacità di comprensione e di applicazione della teoria, e di lettura e interpretazione dei risultati delle analisi ottenute con il software SAS. Inoltre, l'esame in forma scritta permette complessivamente di verificare la capacità di espressione mediante utilizzo adeguato del linguaggio tecnico statistico.
La prova orale è facoltativa (su richiesta del docente o dello studente) e riguarda argomenti sia teorici sia pratici. L’accesso alla prova orale è subordinato al superamento della prova scritta con un esito di almeno 18/30. Si fa presente che la prova orale può comportare sia l'aumento, sia il mantenimento, che la diminuzione della valutazione conseguita alla prova scritta.
Considerata l'abbondanza di materiale didattico messo a disposizione dalla docente sulla piattaforma e-learning del corso, non si prevede alcuna distinzione fra esami per studenti frequentanti ed esami per studenti non frequentanti. Infine non si prevedono prove in itinere.
Testi di riferimento
- Materiale didattico della docente pubblicato sul sito e-learning del corso (ad accesso riservato)
- Delwiche, L.D., Slaughter, S.J. (2012), The Little SAS Book: A Primer, SAS Institute
- Freund, R. J., Wilson, W. J., and Sa, P. (2006), Regression Analysis: Statistical Modeling of a Response Variable, 2nd edition, Academic Press
- Johnston, J. (1993), Econometrica, 3rd edition, Franco Angeli, Milano
- Littell, R. C., Freund, R. J., and Spector, P. C. (2002), SAS for Linear Models, 4th Edition, Cary, NC: SAS Institute Inc.
- Piccolo, D. (2010), Statistica, Il Mulino, Bologna
- Spencer N. (2004), SAS Programming - The One-Day Course, 1st Edition, Chapman and Hall/CRC, New York
- Zelterman, D. (2010), Applied Linear Models with SAS, Cambridge University Press, New York
- Zenga, M. (2014), Lezioni di Statistica Descrittiva, Giappichelli, Torino
Periodo di erogazione dell'insegnamento
I Semestre, I periodo
Lingua di insegnamento
Italiano
Sustainable Development Goals
Learning objectives
The course deals with the fundamental methodological and applied aspects of statistical modelling, according to both the descriptive and inferential perspectives. The main topics are the simple and multiple linear regression model for population and sample data and their analysis with the SAS software. The course is addressed expressly to three-year-degree graduates without previous education in statistics or quantitative methods.
Knowledge and understanding. This teaching will provide knowledge and understanding concerning:
- the principal methods for the study of the dependency relations of a quantitative variable with one or more quantitative variables, possibly together with qualitative variables, and the construction of the pertaining linear modelling in both descriptive and inferential contexts
- the application of the primary methods for bivariate analysis through numerical exercises to be solved with the pocket calculator (i.e., without the aid of any statistical software)
- the logic and working of the SAS software and its use to carry out bivariate analyses and set up linear regression models along with the relative graphical representations
- the reading and interpretation of the analysis outputs produced by the SAS software.
Ability to apply knowledge and understanding. At the end of the course, the students will be able to:
- apply the basic methods of bivariate analysis, establish the correct role for the variables (i.e., whether dependent or independent), and build the most suitable regression models according to the purposes of the analysis and the nature of the available data
- select a linear regression model that is both parsimonious and of fair goodness of fit through descriptive or inferential statistical criteria
- interpret analysis results critically and identify any margin for improvement in the construction of the basic models applied according to either an interpretative-descriptive or a predictive perspective
- import external data files of various sources and formats into SAS and use the basic SAS syntax autonomously.
The course allows the student to acquire the main theoretical and applicative bases relating to the bivariate analysis and linear regression models necessary in any working context where data files are used and for advancing university studies.
Contents
Mean and linear dependence relationships, mathematical versus statistical interpolation, regression function. Simple and multiple linear regressions for population data and sample data. Regression model selection using descriptive and inferential criteria. Analyses of empirical cases with the SAS software.
Detailed program
- Introduction to the principal concepts of dependence for quantitative population data: Mean dependence and linear dependence. Mathematical interpolation versus statistical interpolation. Regression function. Least-squares fitting criterion
- Linear regression: Least-squares line, goodness-of-fit, extension to more than one explicative variable, multiple and partial correlations, qualitative regressors
- Simple and multiple linear regression models for sample data: Normal multivariate distribution and its properties, model specification, assumptions, least-squares and maximum likelihood estimation methods, confidence intervals, testing statistical hypotheses
- Multiple regression model selection: Descriptive and inferential criteria
- Analyses of empirical cases with the SAS software
Prerequisites
Knowledge of the topics covered in undergraduate Statistics and Statistical Inference courses is recommended.
Teaching methods
Theoretical lectures in the classroom and practical exercises in the statistical-informatics laboratory with the SAS software.
All lectures will be delivered in face-to-face mode.
In the event of computer labs being unavailable due to renovation work at the University
(https://www.unimib.it/news/al-lavori-ristrutturazione-ed-efficientamento-energetico-degli-edifici-u5-ratio-e-u7-civitas
https://www.unimib.it/ateneo/chi-siamo/storia/bicocca-work),
the lab lessons will be delivered in asynchronous remote mode.
Further information will be provided as soon as it is available at the beginning of the course.
Assessment methods
The exam consists of a written test (total duration: 2 hours) with three questions (divided into several points) that deal with both the theoretical and applicative aspects of the statistical models covered in the course. The theoretical questions concern the methodological aspects of the topics covered in the course and aim at verifying the theoretical knowledge acquired on the logic and essential aspects underlying population data analyses or sample data analyses, bivariate analyses, formal specification of regression models, determination or estimation of the parameters, assessment of model goodness-of-fit, and drawing of statistical inference in a modelling perspective. They also aim to verify the ability to use the symbolic-formal statistical language autonomously, provide definitions appropriately and prove the main theoretical results analytically. The practical questions concern the transposition of the theory into the practice and aim to verify the ability to comprehend and apply the theory and read and interpret the analysis results obtained with the SAS software. Furthermore, the exam in written form allows verifying the ability of expression through proper use of the statistical technical language.
The oral exam is optional (on request by the professor or student) and covers theoretical and practical topics. Access to the oral test is subject to passing the written test with a mark of at least 18/30. It should be noted that the oral test may involve either the increase, the maintenance, or the decrease in the evaluation achieved in the written test.
Given the abundance of teaching material uploaded on the e-learning platform of the course, no distinction is made between exams for attending students and exams for non-attending students. Finally, there is no ongoing test.
Textbooks and Reading Materials
- Teaching material uploaded on the course e-learning website (restricted access)
- Delwiche, L.D., Slaughter, S.J. (2012), The Little SAS Book: A Primer, SAS Institute
- Freund, R. J., Wilson, W. J., and Sa, P. (2006), Regression Analysis: Statistical Modeling of a Response Variable, 2nd edition, Academic Press
- Johnston, J. (1993), Econometrica, 3rd edition, Franco Angeli, Milano
- Littell, R. C., Freund, R. J., and Spector, P. C. (2002), SAS for Linear Models, 4th Edition, Cary, NC: SAS Institute Inc.
- Piccolo, D. (2010), Statistica, Il Mulino, Bologna
- Spencer N. (2004), SAS Programming - The One-Day Course, 1st Edition, Chapman and Hall/CRC, New York
- Zelterman, D. (2010), Applied Linear Models with SAS, Cambridge University Press, New York
- Zenga, M. (2014), Lezioni di Statistica Descrittiva, Giappichelli, Torino
Semester
First semester, first period
Teaching language
Italian
Sustainable Development Goals
Key information
Staff
-
Nadia Solaro