- Data Management
- Summary
Course Syllabus
Obiettivi
Alla fine del modulo gli studenti saranno in grado di definire e realizzare una pipeline di dati completa dall'acquisizione dei dati all'archiviazione dei dati (relazionale o meno) in base alle loro esigenze applicative
Gli studenti saranno in grado di valutare per ogni fase lo strumento appropriato da utilizzare
Contenuti sintetici
Introduzione alla gestione dei dati nel contesto dei big data
ciclo di vita dei dati
tecniche di acquisizione dati
modellazione e archiviazione dei dati
preparazione dei dati, pulizia, qualità e analisi esplorativa dei dati
concetti avanzati di gestione dei dati
Programma esteso
- Data life cycle
- data acquisition
- web scraping
- rest api
- real time data acquisition
- use of LLM
- data storage and modelling
- Introduction to NoSQL models
- key value and columnar models
- Document based system
- Graph db
6.data preparation, cleansing, quality and explorative data analysis - Data integration
- Data quality
- Advanced data management concepts
- data warehouse
- data lake
Prerequisiti
conoscenza del modello relazionale dei dati, linguaggio SQL, almeno un lingguaggio di programmazione
Modalità didattica
le ore del corso sono 46 cosi organizzate
28 ore di lezione
18 ore di laboratorio
tutte le ore saranno erogate in presenza ein modalità interattiva
Materiale didattico
G. Harrison Next Generation Databases, Apress, 2015
A. Rezzani Big data analytics Apogeo 2017
Yau, N. (2011). Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons.
Ware, C. (2012). Information visualization: perception for design. Elsevier.
Scientific articles and class pack provided by the lecturers.
Periodo di erogazione dell'insegnamento
Primo semestre
Modalità di verifica del profitto e valutazione
L'esame è diviso in due parti
Data management (50% della valutazione finale): Esame scritto con domande aperte e discussione su un progetto di integrazione e analisi di almeno due sorgenti dati diverse acquisite con almeno una delle tecniche di acquisizione dati viste a lezioni. il progetto può esse svolto in gruppi di 2-3 persone
Visualizzazione dei dati (50% della valutazione finale): test e un progetto correlato all'argomento del modulo
Orario di ricevimento
Please send an e-mail to teachers to arrange an appointment
Sustainable Development Goals
Aims
At the end of the module students will be able to define and implement a complete data pipeline from data acquisition to data storage (relational or not) based on their application needs
Students will be able to evaluate for each phase the appropriate tool to use
Contents
Introduction to data management in big data context
data life cycle
data acquisition techniques
data modelling and storage
data preparation, cleansing, quality and explorative data analysis
advance data management concepts
Detailed program
- Data life cycle
- data acquisition
- web scraping
- rest api
- real time data acquisition
- use of LLM
- data storage and modelling
- Introduction to NoSQL models
- key value and columnar models
- Document based system
- Graph db
6.data preparation, cleansing, quality and explorative data analysis - Data integration
- Data quality
- Advanced data management concepts
- data warehouse
- data lake
Prerequisites
knowledge of the relational data model, SQL language, at least one programming language
Teaching form
the course hours are 46 organized as follows
28 hours of lessons
18 hours of laboratory
all hours will be delivered in presence and in interactive mode
Textbook and teaching resource
G. Harrison Next Generation Databases, Apress, 2015
A. Rezzani Big data analytics Apogeo 2017
Yau, N. (2011). Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons.
Ware, C. (2012). Information visualization: perception for design. Elsevier.
Scientific articles and class pack provided by the lecturers.
Semester
first semester
Assessment method
The exam is divided into two parts
Data management (50% of the final evaluation): Written exam with open questions and discussion on an integration and analysis project of at least two different data sources acquired with at least one of the data acquisition techniques seen in the lessons. the project can be carried out in groups of 2-3 people
Data visualization (50% of the final assessment): tests and a project related to the module topic
Office hours
Please send an e-mail to teachers to arrange an appointment
Sustainable Development Goals
Key information
Staff
-
Andrea Maurino
-
Daniele Maria Papetti