- Area di Scienze
- Corso di Laurea Magistrale
- Informatica [F1802Q - F1801Q]
- Insegnamenti
- A.A. 2025-2026
- 2° anno
- Data Analytics
- Introduzione
Syllabus del corso
Obiettivi
I principali obiettivi del corso riguardano l'acquisizione di conoscenze relative alle principali tecniche di analisi di dati, sia strutturati che non strutturati, maturando competenze specifiche di data, networks e text analytics. Gli studenti saranno inoltre in grado di progettare e realizzare applicativi per lo sviluppo di specifiche funzionalità di analytics (Python).
Gli obiettivi specifici rispetto ai Descrittori di Dublino (DdD) sono i seguenti:
1. Conoscenza e capacità di comprensione
Lo studente acquisirà:
- Conoscenze teoriche sulle principali tecniche di analisi dei dati, strutturati e non strutturati;
- Comprensione dei fondamenti della Teoria dei Grafi e Natural Language Processing (NLP);
- Conoscenze degli strumenti di visualizzazione.
2. Conoscenza e capacità di comprensione applicate
Lo studente sarà in grado di:
- progettare e sviluppare applicazioni di analytics in Python;
- applicare metodi e modelli appresi per risolvere problemi concreti di data analytics;
- integrare tecniche di visualizzazione per rappresentare risultati in modo efficace.
3. Autonomia di giudizio
Lo studente svilupperà la capacità di:
- valutare criticamente l’efficacia delle tecniche di analytics adottate in funzione del tipo di dato e contesto applicativo;
- scegliere consapevolmente modelli e strumenti adeguati all’obiettivo analitico;
- interpretare i risultati sperimentali, analizzando implicazioni e limiti.
4. Abilità comunicative
Lo studente sarà in grado di:
- presentare in modo chiaro e strutturato i risultati delle proprie analisi tecniche;
- esporre la propria soluzione progettuale durante l’orale e giustificare le scelte metodologiche adottate;
- lavorare in gruppo nella realizzazione del progetto, contribuendo alla documentazione e alla presentazione.
5. Capacità di apprendere
- Lo studente sarà in grado di sviluppare capacità autonome di studio attraverso il completamento di assignment facoltativi derivanti da attività di laboratorio focalizzate all'uso di modelli e strumenti di network analytics e Natural Language Processing.
Contenuti sintetici
Introduzione al data analytics, con particolare riferimento a diverse tipologie di dati e diverse tecniche di analisi. Approfondimenti in specifici contesti di data analytics quali network analytics e text analytics.
Programma esteso
Teoria dei Grafi
- Reti statiche e dinamiche: proprietà statistiche per l’analisi strutturale
- Misure di centralità
- Clustering su grafi: algoritmi ed applicazioni (community detection)
Natural Language Processing
- Fondamenti dell'elaborazione del linguaggio naturale
- Modelli linguistici statistici e neurali
- Word e Sentence Embedding
- Transformers e meccanismi di attenzione
- Large Language Models (ELMO, BERT, GPT e LLAMA)
- Metodi di explainability per i modelli del linguaggio
Prerequisiti
Nessun prerequisito essenziale. Sono utili conoscenze di base di algebra lineare e teoria dei grafi.
Modalità didattica
- 12 lezioni da 2 ore svolte in modalità erogativa in presenza;
- 12 attività di laboratorio da 2 ore svolte in modalità erogativa in presenza;
Il corso sarà erogato in Italiano.
Materiale didattico
Albert-László BARABÁSI. Network science. Cambridge University Press.
Cristopher MANNING and Hinrich SCHÜTZE. Foundations of Statistical Natural Language Processing. MIT Press.
Daniel Jurafsky and James Martin, "Speech and Language Processing, 2nd Edition", Prentice Hall, 2008.
Periodo di erogazione dell'insegnamento
Secondo semestre.
Modalità di verifica del profitto e valutazione
Progetto e orale. Sono assenti prove in itinere intermedie.
Il progetto consisterà nello sviluppo di uno strumento di analytics basato su metodi e modelli presentati a lezione. Il progetto prevede una valutazione espressa in un range 0-24. Per ciascun progetto verrà valutato:
-
Metodologia adottata (modelli e metodi): max 7 punti
-
Dimostratore e tecniche di visualizzazione adottate: max 5 punti
-
Analisi dei risultati sperimentali: max 7 punti
-
Presentazione: max 5 punti
L'orale prevede 4 domande di teoria tra gli argomenti del corso elencati nel programma dettagliato. Per ciascuna domanda verrà data una valutazione compresa pari a -2, per una risposta errata o mancata risposta, e +2 punti per una risposta corretta.
Orario di ricevimento
Su appuntamento.
Aims
The main objectives of the course concern the acquisition of knowledge related to the main techniques of data analysis, considering both structured and unstructured data, developing specific skills regarding data, networks and text analytics. Students will also be able to design and deploy applications for the development of specific analytics functionalities (Python)
The specific objectives with respect to the Dublin Descriptors (DdD) are the following:
1. Knowledge and understanding
The student will acquire:
- Theoretical knowledge on the main techniques of data analysis, both structured and unstructured;
- Understanding of the fundamentals of Graph Theory and Natural Language Processing (NLP) theory;
- Knowledge about visualization techniques.
2. Applied knowledge and understanding
The student will be able to:
- design and develop analytics applications in Python;
- apply learned methods and models to solve concrete data analytics problems;
- integrate visualization techniques to represent results effectively.
3. Autonomy of judgment
The student will develop the ability to:
- critically evaluate the effectiveness of the analytics techniques adopted based on the type of data and application context;
- consciously choose models and tools appropriate to the analytical objective;
- interpret experimental results, analyzing implications and limits.
4. Communication skills
The student will be able to:
- present the results of their technical analyses in a clear and structured way;
- present their design solution during the oral exam and justify the methodological choices adopted;
- work in a group in the realization of the project, contributing to the documentation and presentation.
5. Learning ability
- The student will be able to develop autonomous study skills through the completion of optional assignments resulting from laboratory activities focused on the use of network analytics and Natural Language Processing models and tools.
Contents
Introduction to data analytics, with particular reference to different types of data and different analysis techniques. Focuses on specific data analytics contexts such as network analytics and text analytics.
Detailed program
Graph Teory
- Static and dynamic networks: statistical properties for structural analysis
- Measures of centrality
- Graph clustering: algorithms and applications (community detection)
Natural Language Processing
- Basics of Natural Language Processing
- Statistical and Neural Language Models
- Word and Sentence Embeddings
- Tranformers and Attention Mechanisms
- Large Language Models (ELMO, BERT, GPT e LLAMA)
- Explainability methods for language models
Prerequisites
No essential prerequisite. Basic knowledge of linear algebra and graph theory is helpful.
Teaching form
- 12 lessons of 2 hours delivered in presence mode;
- 12 laboratory activities of 2 hours delivered in presence mode;
The course will be delivered in Italian.
Textbook and teaching resource
Albert-László BARABÁSI. Network science. Cambridge University Press.
Cristopher MANNING and Hinrich SCHÜTZE. Foundations of Statistical Natural Language Processing. MIT Press.
Daniel Jurafsky and James Martin, "Speech and Language Processing, 2nd Edition", Prentice Hall, 2008.
Semester
Second semester.
Assessment method
Group/individual project (with oral presentation) and oral exam. No mid-term tests.
The project will consist of the development of an analytics tool based on methods and models presented in class. The project evaluation consists of a numerical evaluation expressed in a range of 0-24. For the evaluation of each project, the following points will be evaluated:
-
Adopted methodology (models and methods): max 7 points
-
Demonstrator and visualization techniques adopted: max 5 points
-
Analysis of experimental results: max 7 points
-
Presentation: max 5 points
The oral exam includes 4 theoretical questions among the course topics listed in the detailed program. For each question, a score equal to -2 will be given to a wrong response or a missing answer, and a score equal to +2 for a correct answer.
Office hours
On appointment.
Scheda del corso
Staff
-
Elisabetta Fersini
-
Alex Graudenzi