- Large Scale Data Management
- Introduzione
Syllabus del corso
Obiettivi
Lo studente acquisirà competenze relative alle attività di (i) analisi e riconciliazione di sorgenti operazionali eterogenee, (ii) progettazione concettuale relativa alla realizzazione di schemi di fatto, (iii) utilizzo architetture di big data per la gestione dei dati
Contenuti sintetici
Il termine data warehouse si riferisce ai metodi, alle tecniche e strumenti in grado di aggregare ed elaborare i dati di una organizzazione per condurre analisi di tipo strategico. Nella prima parte del corso, erogato in lingua italiana, verranno presentare le metodologie di progettazione e sviluppo di un data warehouse. Nella seconsa parte del corso si approfondiranno le architetture di big data e la loro relazione con le soluzioni di datawarehouse esistenti. Durante il corso verrano presentati esempi reali da parte di aziende.
Programma esteso
1 "Analisi e riconciliazione di sorgenti operazionali eterogenee:
a. tecniche per la comparazione e l’allineamento di schemi concettuali;
b. tecniche per integrazione e ristrutturazione di schemi concettuali.
2 Progettazione concettuale relativa alla realizzazione di schemi di fatto:
a. il Dimensional Fact Model come modello concettuale grafico per la definizione di
schemi di fatto;
b. metodologia per la definizione di schemi di fatto a partire da schemi E-R.
3 Big data, architetture di ETL e storage per datawarehouse
a. architetture data lake
b. prodotti disponibili per attività di ETL e storage
c. data processing
d. Architetture per dati in near real time
e. Gestione di grafi
Prerequisiti
Conoscenze di base sulla progettazione di basi di dati. Conoscenza del modello entità-relazione (E-R)
Modalità didattica
Lezioni frontali ed esercitazioni in lingua italiana
Materiale didattico
Matteo Golfarelli e Stefano Rizzi. Data Warehouse – Teoria e pratica della progettazione (seconda edizione). McGraw-Hill.
Periodo di erogazione dell'insegnamento
primo semestre
Modalità di verifica del profitto e valutazione
sviluppo di un progetto di datawarehousing o di big data analisys e relativa discussione
Orario di ricevimento
Giovedi dalle 10 alle 11 edificio U14 stanza 2062
Sustainable Development Goals
Aims
The student will acquire competences related to the following activities: (i) analysis and reconciliation of heterogeneous data sources, (ii) definition of schemas of fact, (iii) big data techniques
Contents
Data warehouse refers to the set of methods, techniques, and tools able to integrate and manage data of a given organization for supporting strategic decision. In the first part of the course, provided in Italian, it will be shown design and develop methodolodology of data warehouse. In the second part of the course the big data architecture and its relationship with data warehouse will be discuss. A number of real cases presented by companies will complete the course
Detailed program
1 Analysis and reconciliation of heterogeneous operational data:
a. techniques for the comparison and for the alignment of conceptual schemas;
b. techniques for the integration and for the restructuring of conceptual schemas.
2 Conceptual design related to the definition of fact schemas:
a. the Dimensional Fact Model as a graphical conceptual model for the definition of fact schemas;
b. a methodology for the definition of fact schemas starting from E-R schemas.
3 Big data, ETL architecture and storage for datawarehouse
a. data lake architecture
b. ETL and storage tools
c. Data processing
d. Near real time architecture
e. Graph management
Prerequisites
Basic knowledge on database design. Knowledge of the Entity-Relationship (E-R) model.
Teaching form
lessons and exercises in Italian
Textbook and teaching resource
Matteo Golfarelli e Stefano Rizzi. Data Warehouse – Teoria e pratica della progettazione (seconda edizione). McGraw-Hill.
Semester
first semester
Assessment method
design and development of a small datawarehouse or a big data analysis project
Office hours
Thursday 10-11 building U14 room 2062