- Large Scale Data Management
- Introduzione
Syllabus del corso
Obiettivi
Lo studente acquisirà competenze relative alle attività di (i) analisi e riconciliazione di sorgenti operazionali eterogenee, (ii) progettazione concettuale relativa alla realizzazione di schemi di fatto, (iii) utilizzo architetture di big data per la gestione e l'analisi dei dati
Contenuti sintetici
Il termine data warehouse si riferisce ai metodi, alle tecniche e strumenti in grado di aggregare ed elaborare i dati di una organizzazione per condurre analisi di tipo strategico. Nella prima parte del corso, erogato in lingua italiana, verranno presentare le metodologie di progettazione e sviluppo di un data warehouse. Nella seconda parte del corso si approfondiranno le architetture di big data e la loro relazione con le soluzioni di datawarehouse esistenti.
Programma esteso
1 "Analisi e riconciliazione di sorgenti operazionali eterogenee:
a. tecniche per la comparazione e l’allineamento di schemi concettuali;
b. tecniche per integrazione e ristrutturazione di schemi concettuali.
2 Progettazione concettuale relativa alla realizzazione di schemi di fatto:
a. il Dimensional Fact Model come modello concettuale grafico per la definizione di
schemi di fatto;
b. metodologia per la definizione di schemi di fatto a partire da schemi E-R.
3 Big data
a. architetture data lake, data lakehouse
b. framework di analisi dati: Apache Spark
d. Architetture per dati in near real time
e. modelli per big data: apache iceberg, arrow, parquet
Prerequisiti
Conoscenze di base sulla progettazione di basi di dati. Conoscenza del modello entità-relazione (E-R)
Modalità didattica
Lezioni frontali ed esercitazioni in lingua italiana erogata in modalità interatitiva
Materiale didattico
Matteo Golfarelli e Stefano Rizzi. Data Warehouse – Teoria e pratica della progettazione (seconda edizione). McGraw-Hill.
Periodo di erogazione dell'insegnamento
primo semestre
Modalità di verifica del profitto e valutazione
sviluppo di un progetto di datawarehousing o di big data analisys e relativa discussione
Orario di ricevimento
Giovedi dalle 10 alle 11 edificio U14 stanza 2062
Sustainable Development Goals
Aims
The student will acquire competences related to the following activities: (i) analysis and reconciliation of heterogeneous data sources, (ii) definition of schemas of fact, (iii) big data techniques
Contents
Data warehouse refers to the set of methods, techniques, and tools able to integrate and manage data of a given organization for supporting strategic decision. In the first part of the course, provided in Italian, it will be shown design and develop methodolodology of data warehouse. In the second part of the course the big data architecture and its relationship with data warehouse will be discuss. A number of real cases presented by companies will complete the course
Detailed program
1 Analysis and reconciliation of heterogeneous operational data:
a. techniques for the comparison and for the alignment of conceptual schemas;
b. techniques for the integration and for the restructuring of conceptual schemas.
2 Conceptual design related to the definition of fact schemas:
a. the Dimensional Fact Model as a graphical conceptual model for the definition of fact schemas;
b. a methodology for the definition of fact schemas starting from E-R schemas.
3 Big data,
Big data
a. data lake, data lakehouse architectures
b. data analysis frameworks: Apache Spark
d. near real time data architecture
e. big data models: apache iceberg, arrow, parquet
Prerequisites
Basic knowledge on database design. Knowledge of the Entity-Relationship (E-R) model.
Teaching form
lessons and exercises in Italian
Textbook and teaching resource
Matteo Golfarelli e Stefano Rizzi. Data Warehouse – Teoria e pratica della progettazione (seconda edizione). McGraw-Hill.
Semester
first semester
Assessment method
design and development of a small datawarehouse or a big data analysis project
Office hours
Thursday 10-11 building U14 room 2062