- Data Analytics
- Summary
Course Syllabus
Obiettivi
I principali obiettivi del corso riguardano l'acquisizione di conoscenze relative alle principali tecniche di analisi di dati, sia strutturati che non strutturati, maturando competenze specifiche di data, networks e text analytics. Gli studenti saranno inoltre in grado di progettare e realizzare applicativi per lo sviluppo di specifiche funzionalità di analytics (ad esempio, script in python ed R).
Contenuti sintetici
Introduzione al data analytics, con particolare riferimento a diverse tipologie di dati e diverse tecniche di analisi. Approfondimenti in specifici contesti di data analytics quali network analytics e text analytics.
Programma esteso
Teoria dei grafi:
- Reti statiche e dinamiche: proprietà statistiche per l’analisi strutturale
- Misure di centralità
- Clustering su grafi: algoritmi ed applicazioni (community detection)
Natural Language Processing - Basics of Natural Language Processing
- Affective Computing: lessici e modelli neurali del linguaggio (word embeddings, sentence embeddings)
- Named-Entity Recognition: Conditional Random Fields ed estensioni neurali
- Topic Extraction: Latent Dirichlet Allocation, Neural Topic Models
- Tecniche e strumenti di visualizzazione
Prerequisiti
Nessun prerequisito essenziale. Sono utili conoscenze di base di algebra lineare e teoria dei grafi.
Modalità didattica
- 8 lezioni da 2 ore svolte in modalità erogativa in presenza;
- 4 lezioni da 2 ore svolte in modalità interattiva da remoto (lezioni asincrone);
- 8 attività di laboratorio da 2 ore svolte in modalità erogativa in presenza;
- 4 attività di laboratorio da 2 ore svolta in modalità interattiva da remoto (lezioni sincrone).
Il corso sarà erogato in Italiano.
Materiale didattico
Albert-László BARABÁSI. Network science. Cambridge University Press.
Cristopher MANNING and Hinrich SCHÜTZE. Foundations of Statistical Natural Language Processing. MIT Press.
Fabio TAMBURINI. Neural Models for the Automatic Processing of Italian. Patron Editore.
Periodo di erogazione dell'insegnamento
Secondo semestre.
Modalità di verifica del profitto e valutazione
Progetto e orale. Sono assenti prove in itinere intermedie.
Il progetto consisterà nello sviluppo di uno strumento di analytics basato su metodi e modelli presentati a lezione. Il progetto prevede una valutazione espressa in un range 0-24. Per ciascun progetto verrà valutato:
- Metodologia adottata (modelli e metodi) : 7 punti
- Dimostratore e tecniche di visualizzazione adottate: 5 punti
- Analisi dei risultati sperimentali: 7 punti
- Presentazione: 5 punti
L'orale prevede 4 domande di teoria tra gli argomenti del corso elencati nel programma dettagliato. Per ciascuna domanda verrà data una valutazione compresa pari a -2, per una risposta errata o mancata risposta, e +2 punti per una risposta corretta.
Orario di ricevimento
Su appuntamento.
Aims
The main objectives of the course concern the acquisition of knowledge related to the main techniques of data analysis, considering both structured and unstructured data, developing specific skills regarding data, networks and text analytics. Students will also be able to design and deploy applications for the development of specific analytics functionalities (for example, python and R scripts).
Contents
Introduction to data analytics, with particular reference to different types of data and different analysis techniques. Focuses on specific data analytics contexts such as network analytics and text analytics.
Detailed program
Graph Teory
- Static and dynamic networks: statistical properties for structural analysis
- Measures of centrality
- Graph clustering: algorithms and applications (community detection)
Natural Language Processing - Basics of Natural Language Processing
- Affective Computing: lexicons and neural models of language (word embeddings, sentence embeddings)
- Named-Entity Recognition: Conditional Random Fields and neural extensions
- Topic Extraction: Latent Dirichlet Allocation, Neural Topic Models
- Visualization techniques and tools
Prerequisites
No essential prerequisite. Basic knowledge of linear algebra and graph theory is helpful.
Teaching form
- 8 lectures of theory of 2 hours each in presence of erogative nature;
- 4 of theory of 2 hours each in remote interactive mode (asynchronous lessons);
- 8 lectures of laboratory of 2 hours each in presence of erogative nature;
- 4 lectures of laboratory of 2 hours each in remote interactive mode (synchronous lessons).
The course will be given in Italian.
Textbook and teaching resource
Albert-László BARABÁSI. Network science. Cambridge University Press.
Cristopher MANNING and Hinrich SCHÜTZE. Foundations of Statistical Natural Language Processing. MIT Press.
Fabio TAMBURINI. Neural Models for the Automatic Processing of Italian. Patron Editore.
Semester
Second semester.
Assessment method
Team project (with oral presentation) and oral exam. No intermediate tests.
The project will consist of the development of an analytics tool based on methods and models presented in class. The project evaluation consists of a numerical evaluation expressed in a range of 0-24. For the evaluation of each project, the following points will be evaluated:
- Adopted methodology (models and methods): 7 points
- Demonstrator and visualization techniques adopted: 5 points
- Analysis of experimental results: 7 points
- Presentation: 5 points
The oral exam includes 4 theoretical questions among the course topics listed in the detailed program. For each question, a score equal to -2 will be given to a wrong response or a missing answer, and a score equal to +2 for a correct answer.
Office hours
On appointment.
Key information
Staff
-
Elisabetta Fersini
-
Alex Graudenzi