- Area Economico-Statistica
- Corso di Laurea Triennale
- Statistica e Gestione delle Informazioni [E4102B]
- Insegnamenti
- A.A. 2021-2022
- 2° anno
- Analisi Esplorativa
- Introduzione
Syllabus del corso
Obiettivi formativi
Il modulo di Analisi Esplorativa introduce i principali metodi statistici descrittivi per lo studio di due o più fenomeni osservabili congiuntamente su un insieme di unità statistiche. Si tratta di metodi finalizzati all’esplorazione dei dati multivariati per individuarne la struttura soggiacente e ridurne la dimensionalità in modo da preservare le caratteristiche principali osservate. Dal punto di vista applicativo l’analisi dei dati viene affrontata con il ricorso al software R in ambiente RStudio.
Conoscenza e comprensione. Questo insegnamento fornirà conoscenze e capacità di comprensione relativamente a:
- Principali metodologie esplorative di base dell'analisi statistica multivariata finalizzate al problema della classificazione delle unità statistiche e alla sintesi delle variabili osservate in un numero ridotto di indicatori
- Applicazione dei metodi nella pratica mediante esercizi numerici svolti con la calcolatrice (ossia, senza l'ausilio del software statistico)
- Logica e funzionamento alla base del linguaggio R e suo utilizzo nell'ambito dell'applicazione delle principali analisi statistiche per dati multidimensionali e delle relative rappresentazioni grafiche
- Lettura e interpretazione degli output delle analisi prodotte con R.
Capacità di applicare conoscenza e comprensione. Alla fine dell'insegnamento gli studenti saranno in grado di:
- Scegliere le metodologie esplorative di base dell'analisi statistica multivariata più adeguate in base agli scopi delle analisi e alla natura dei dati a disposizione
- Ridurre la dimensionalità di un dataset aggregando le unità statistiche in gruppi e/o costruendo indicatori di sintesi delle variabili osservate
- Interpretare e confrontare i risultati delle analisi ottenute con metodi diversi per stabilire quale approccio sia da ritenersi più opportuno in base a specifici criteri fissati a priori
- Importare in R file di dati esterni di varia provenienza e formato e utilizzare in modo autonomo la sintassi di base del linguaggio R.
L'insegnamento consente allo studente di acquisire solide basi teoriche e applicative relativamente ai principali metodi esplorativi dell'analisi di dati multidimensionali necessarie in qualsiasi contesto lavorativo in cui si utilizzino file di dati e che rappresentano una base imprescindibile per il proseguimento del percorso universitario.
Contenuti sintetici
Introduzione all'analisi
statistica multivariata, matrici di dati quantitativi, qualitativi e misti,
rappresentazioni grafiche per dati multidimensionali. Cluster Analysis: metodi
di raggruppamento gerarchici e non gerarchici. Analisi delle componenti
principali. Analisi discriminante lineare. Uso integrato dei metodi esplorativi
di analisi multivariata. Applicazioni a dati reali con il software R in
ambiente RStudio.
Programma esteso
- Introduzione
all’analisi statistica multivariata: scuola francese e scuola anglosassone,
classificazione delle metodologie di analisi multivariata
- Matrici
di dati quantitativi, qualitativi e misti. Principali sintesi e trasformazioni.
Rappresentazione dei dati, spazio degli individui e spazio delle variabili.
Dissimilarità e distanze fra unità, distanze fra variabili
- Cluster
Analysis: metodi di raggruppamento gerarchici e non gerarchici, bontà della
classificazione, applicazione a variabili quantitative e qualitative
- Analisi
delle componenti principali: estrazione delle componenti principali, criteri di
arresto, valutazione della variabilità riprodotta, interpretazione delle
componenti principali, applicazioni
- Analisi discriminante lineare: determinazione delle funzioni discriminanti lineari nel caso di due o più popolazioni, metodo alternativo per ricavare le funzioni discriminanti, regole decisionali e valutazione dei risultati,
applicazioni
- Uso
integrato delle tecniche esplorative di analisi multivariata
- Analisi di casi empirici con RStudio
Prerequisiti
Superamento degli esami degli insegnamenti propedeutici di I anno: Statistica I, Analisi Matematica I, Algebra Lineare, Calcolo delle Probabilità
Metodi didattici
Lezioni teoriche in aula ed esercitazioni pratiche in laboratorio statistico-informatico con il software R in ambiente RStudio.
Modalità di verifica dell'apprendimento
L'esame consiste in una prova scritta (durata complessiva: 2 ore) con tre quesiti (articolati in più punti) che riguardano gli aspetti sia teorici sia applicativi delle metodologie trattate durante il corso. Un quarto quesito è facoltativo e riguarda la programmazione con il software R. Le domande a natura teorica riguardano gli aspetti metodologici degli argomenti trattati al corso e consentono di verificare le conoscenze teoriche acquisite in merito alle nozioni di base dell'analisi statistica multivariata (in particolare, principali matrici e loro proprietà, principali tipologie di dati) e alle metodologie di analisi dei gruppi, analisi delle componenti principali e analisi discriminante lineare. Le domande a natura applicativa riguardano sia esercizi numerici (da svolgere con la calcolatrice), sia la lettura e il commento di parti di output di R, e consentono di verificare le capacità di comprensione e di applicazione della teoria, di calcolo, di interpretazione e commento dei risultati e di scelta fra analisi ottenute con opzioni diverse dei metodi. Inoltre, l'esame in forma scritta permette complessivamente di verificare la capacità di espressione mediante utilizzo adeguato del linguaggio tecnico statistico.
La prova orale è facoltativa (su richiesta del docente o dello studente) e riguarda argomenti sia teorici sia pratici. L’accesso alla prova orale è subordinato al superamento della prova scritta con un esito di almeno 18/30. Si fa presente che la prova orale può comportare sia l'aumento, sia il mantenimento, che la diminuzione della valutazione conseguita alla prova scritta.
Considerata l'abbondanza di materiale didattico messo a disposizione dalla docente sulla piattaforma e-learning del corso, non si prevede alcuna distinzione fra esami per studenti frequentanti ed esami per studenti non frequentanti. Infine non si prevedono prove in itinere.
Testi di riferimento
- Materiale didattico della docente pubblicato sul sito e-learning del corso (ad accesso riservato con password)
- Frosini, B.V. (2014). Complementi di analisi statistica multivariata, EDUCatt, Milano
- Zani, S., Cerioli, A. (2007). Analisi dei dati e data mining per le decisioni aziendali, Giuffrè Editore, Milano
- Gherghi, M., Lauro, C. (2004). Appunti di analisi dei dati multidimensionali. Metodologia ed esempi, RCE Edizioni, Napoli
- Bolasco, S. (1999). Analisi multidimensionale dei dati: strategie e criteri di interpretazione, Carocci, Roma
- Dillon, W.R., Goldstein, M. (1984). Multivariate Analysis, J. Wiley, New York
- Everitt, B.S., Hothorn, T. (2011). An Introduction to Applied Multivariate Analysis with R, Springer, Berlin
Periodo di erogazione dell’insegnamento
I Semestre, II periodo
Lingua di insegnamento
Italiano
Learning objectives
The Exploratory Analysis module introduces the main descriptive statistical methods addressed to study two or more variables jointly observed on a set of statistical units. These methods aim at exploring multidimensional data to detect underlying structures and reduce their dimensionality, however preserving the main observed features. From a practical point of view, data analysis is carried out through the R software (RStudio environment).
Knowledge and understanding. This course will provide expertise and understanding concerning:
- the principal exploratory methodologies of multivariate statistical analysis aimed at classifying statistical units in groups and synthesizing observed variables in a reduced number of indicators
- the practical application of the exploratory techniques through numerical exercises to be solved with the pocket calculator (i.e., without using statistical software)
- the logic and working of the R language and its use in the application of the main statistical analyses for multidimensional data and the related graphical representations
- the reading and interpretation of the analysis outputs produced by the R software.
Ability to apply knowledge and understanding. At the end of the course, the students will be able to:
- choose the most appropriate basic multivariate exploratory analysis methods according to the purposes of the analysis and the nature of the available data
- reduce the dimensionality of a dataset by aggregating the statistical units into groups and setting up summary indicators of the observed variables
- interpret and compare the results of the analyses obtained with different methods to establish which approach should be regarded as the most appropriate one according to specific, a priori fixed criteria
- import external data files of different sources and formats into R and autonomously use the basic syntax of the R language.
The course allows the student to acquire solid theoretical and applicative bases relative to the main exploratory analysis methods for multidimensional data, which are necessary for any working context where data files are used and for the advancement of the university studies.
Contents
Introduction to multivariate statistical analysis. Quantitative, qualitative, and mixed data matrices. Graphical representations of multidimensional data. Cluster Analysis: Hierarchical and non-hierarchical clustering methods. Principal component analysis. Linear discriminant analysis. Integrated use of exploratory multivariate methods. Applications to real data with software R (RStudio environment).
Detailed program
- Introduction to the multivariate statistical analysis: French and Anglo-Saxon schools, classification of multivariate analysis methods
- Quantitative, qualitative, and mixed-type data matrices. Main syntheses and transformations. Data representation, individual space, and variable space. Dissimilarities and distances between units, distances between variables
- Cluster analysis: Hierarchical and non-hierarchical clustering methods, goodness of classification, applications to quantitative and qualitative variables
- Principal component analysis: Extraction of the principal components, stopping criteria, evaluation of the reproduced variability, interpretation of the principal components, applications
- Linear discriminant analysis: set-up of linear discriminant functions in the presence of two or more populations, alternative method for constructing the discriminant functions, decision rules and evaluation of results, applications
- Integrated use of exploratory multivariate techniques
- Analyses of empirical cases with RStudio
Prerequisites
Passing of preliminary examinations of Calculus, Linear Algebra, Probability, Statistics I
Teaching methods
Theoretical lectures in the classroom and practical exercises in the statistical-informatics laboratory with the R software (RStudio environment).
Assessment methods
The exam consists of a written test (total duration: 2 hours) with three questions (divided into several points) that deal with both the theoretical and applicative aspects of the methodologies covered in the course. A fourth question is optional and concerns programming with R software. The theoretical questions concern the methodological aspects of the topics covered in the course and aim at verifying the theoretical knowledge acquired regarding the basic notions of multivariate statistical analysis (in particular, the fundamental matrices and their properties, the main data typologies) and the methodologies of cluster analysis, principal component analysis, and linear discriminant analysis. The practical questions involve both numerical exercises (to be performed with the pocket calculator) and reading and commenting on parts of R output, and aim at verifying the ability of comprehension and application of the theory, calculation, interpretation, comment on the results, and choice among analyses obtained with different method options. Furthermore, the exam in written form allows verifying the ability of expression through adequate use of the statistical technical language.
The oral exam is optional (on request by the professor or student) and covers both theoretical and practical topics. Access to the oral test is subject to passing the written test with a mark of at least 18/30. It should be noted that the oral test may involve either the increase, the maintenance, or the decrease in the evaluation achieved in the written test.
Given the abundance of teaching material uploaded on the e-learning platform of the course, no distinction is made between exams for attending students and exams for non-attending students. Finally, there is no ongoing test.
Textbooks and Reading Materials
- Teaching material uploaded on the course e-learning website (restricted access with password)
- Frosini, B.V. (2014). Complementi di analisi statistica multivariata, EDUCatt, Milano
- Zani, S., Cerioli, A. (2007). Analisi dei dati e data mining per le decisioni aziendali, Giuffrè Editore, Milano
- Gherghi, M., Lauro, C. (2004). Appunti di analisi dei dati multidimensionali. Metodologia ed esempi, RCE Edizioni, Napoli
- Bolasco, S. (1999). Analisi multidimensionale dei dati: strategie e criteri di interpretazione, Carocci, Roma
- Dillon, W.R., Goldstein, M. (1984). Multivariate Analysis, J. Wiley, New York
- Everitt, B.S., Hothorn, T. (2011). An Introduction to Applied Multivariate Analysis with R, Springer, Berlin
Semester
First semester, second period
Teaching language
Italian