Course Syllabus
Obiettivi formativi
Introdurre gli studenti alle moderne tecniche statistiche di classificazione non-supervisionata e riduzione della dimensionalità dei dati, con particolare enfasi su:
1. L'unita della struttura concettuale del problema e il legame tra questa e le tecniche statistiche.
2. La struttura logica e matematica sottostante gli algoritmi.
3. Le differenze e le diverse caratteristiche delle tecniche e degli algoritmi, con il relativo riflesso sui criteri di utilizzo nell'analisi dei dati.
4. I limiti intrinseci degli algoritmi statistici
In sintesi, l'obiettivo è fornire agli studenti una conoscenza e una competenza allo stato dell'arte degli strumenti di classificazione non-supervisionata, insieme ad una comprensione profonda della struttura delle tecniche e ad una capacità critica per quanto riguarda il loro utilizzo, in termini di concettualizzazione del problema da affrontare, scelta degli algoritmi, loro implementazione e validazione, analisi e interpretazione dei risultati.
In tal modo, l'insegnamento permette l'acquisizione di solide basi per le applicazioni in campo demografico, socio-economico, biostatistico e, in generale, in tutti gli ambiti in cui devono essere analizzati sistemi complessi e multidimensionali di dati.
Contenuti sintetici
Il corso introduce e motiva il problema della classificazione non-supervisionata e della riduzione della dimensionalità, mostrandone le sue applicazioni ad ambiti concreti, richiama gli strumenti matematici di base, principalmente algebrici, e illustra le principali tecniche e i principali algoritmi di classificazione/riduzione, sia di tipo lineare che non-lineare e sia per dati numerici che non-numerici e parzialmente ordinati. La spiegazione delle tecniche è supportata da numerosi esempi su dati reali o simulati e dall'illustrazione dei codici sw che ne permettono l'implementazione.
Programma esteso
- Il problema della classificazione non-supervisionata e della riduzione della dimensionalità dei dati: esempi di analisi di dati sociali, di dati economici e di dati provenienti da discipline umanistiche.
- Richiami di algebra lineare: spazi vettoriali, prodotti scalari, proiezioni ortogonali, norme matriciali.
- Tecniche di analisi lineari:
- Decomposizione a Valori Singolari (SVD) e suo legame con l'analisi delle Componenti Principali.
- Non-negative Matrix Factorization e suo confronto con SVD.
- Il lemma di Johnson-Lindestrauss e la riduzione della dimensionalità a distorsione limitata: Proiezioni Casuali
- Multidimensional Scaling.
- Tecniche non-lineari:
- Dati su varietà differenziabili: Isomap
- Self-organizing map (SOM)
- Entropia, divergenza di Kullback-Liebler e riduzione della dimensionalità: SNE e t-SNE
- Dati categoriali e parzialmente ordinati:
- Analisi delle Corrispondenze
- Estrazione di ranking da dati multidimensionali
- I limiti degli algoritmi statistici: il teorema "no-free lunch".
Prerequisiti
Non sono formalmente previsti prerequisiti, ma è necessaria un competenza di base di algebra lineare, statistica descrittiva analisi dei dati.
Metodi didattici
Lezioni frontali ed esercitazioni e simulazioni, mediante linguaggio R, condotte dal docente. Il metodo didattico prevede anche l'utilizzo di canali social, per agevolare discussioni e confronti fra studenti e con il docente.
Modalità di verifica dell'apprendimento
Esame orale, per verificare, la comprensione delle logiche di fondo delle metodologie studiate e la loro formalizzazione analitica.
La scelta di questa modalità di verifica è dettata da:
1. La tipologia di contenuti del corso, di natura metodologica.
2. L'importanza che gli studenti acquisiscano una capacità argomentativa e di organizzazione del pensiero e siano in grado di effettuare collegamenti analogici fra le parti del programma, sollecitati dalle domande del docente.
Non sono previste modalità alternative di esame per i non frequentanti, né prove in itinere.
Criteri di valutazione:
- Conoscenza dei concetti fondamentali del corso.
- Padrionanza delle tecniche fondamentali di riduzione della dimensionalità
- Copertura degli argomenti.
- Capacità di collegare le differenti parti del corso e di discuterle e confrontarle criticamente.
Testi di riferimento
Geometric Structure of High-Dimensional Data and Dimensionality Reduction, Wang J. - Springer 2012.
Methods of Multivariate Analysis, Rencher A. C., Wiley 2002
Introduction to Lattices and Order (second edition), Davey B.A:, Priestley H. A., CUP 2002 (capitolo 1).
Dispense e articoli forniti dal docente in modalità online.
Periodo di erogazione dell'insegnamento
I semestre II ciclo
Lingua di insegnamento
Italiano
Learning objectives
To introduce students to modern tools for non-supervised classification and dimensionality reduction, with a particular focus on:
- The conceptual unity underlying the problem and its connection of the statistical tools
- The logic and mathematical structure underlying the algorithms
- The differences among the algorithms and their consequences in data analysis
- The intrinsic limits of statistical algorithms
In summary, the goal of the course is to provide students with state-of-the-art knowledge and competencies on non-supervised classification tools, together with a deep comprehension of the structure of the statistical techniques and a criticism capability towards their use, in terms of problem conceptualization, algorithm selection, implementation and validation, analysis of the results and their interpretation.
This way, the course provides a sound basis for practical applications within the demographic, socio-economic and biostatistical field and, in general, in all of those areas where complex data systems are to be addressed.
Contents
The course introduces the problem of non-supervised classification and dimensionality reduction, shows its application to real context, provides basic mathematical results (mainly from linear algebra), illustrates the main statistical algorithms for linear and non-linear reduction, as well as for numerical, non-numerical and partially ordered data. The illustration of the statistical tools is complemented with and supported by examples of analysis and software coding.
Detailed program
- The problem of non-supervised classification and dimensionality reduction: examples of data analysis from socio-economics and humanities
- Elements of linear algebra: vector spaces, scalar products, orthogonal projections, matrix norms
- Linear techniques
- Singular Vaue Decomposition (SVD) and its link with Principal Component Analysis
- Non-negative Matrix Factorization and its comparison to SVD.
- The Johnson-Lindestrauss Lemma: boundend distortion dimensionality reduction: Random Projections
- Multidimensional Scaling.
- Non-linear techniques
- Data in differentiable manifolds: Isomap
- Self-organizing map (SOM)
- Entropy, Kullback-Liebler divergence and dimensionality reduction: SNE e t-SNE
- Categorical and Partially ordered data
- Correspondence Analysis
- Ranking extraction from multidimensional datasets
- The limits of statistical algorithms: the no-free lunch theorem.
Prerequisites
There are no formal prerequisites, but basic competencies on linear algebra, descriptive statistics and data analysis are necessary
Teaching methods
Frontal lessons with exercises and simulations, using the R language, held by the teacher. Social networks will be used to ease discussions among the students and with the teacher.
Assessment methods
Oral exam, so as to check for the comprehension of the logic structure behind the addressed methodologies and the knowledge of their analytical form.
Such a choice is motivated by:
- The content of the course, which is of a methodological nature.
- The relevance for the students to become capable to argue and to organize their thought, being able to perform analogical connections among the different parts of the program.
There are no special exams for students not attending the course, nor partial exams
Evaluation criteria:
- Comprehension of the fundamental concepts.
- Mastering basic techniques in dimensionality reduction.
- Topic coverage.
- Capability to link the different parts of the program and to critically discuss and compare them.
Textbooks and Reading Materials
Geometric Structure of High-Dimensional Data and Dimensionality Reduction, Wang J. - Springer 2012.
Methods of Multivariate Analysis, Rencher A. C., Wiley 2002
Introduction to Lattices and Order (second edition), Davey B.A:, Priestley H. A., CUP 2002 (chapter 1).
Papers and notes provided by the teacher online.
Semester
I semester II cycle
Teaching language
Italian
Key information
Staff
-
Marco Fattore