- Data Architecture
- Summary
Course Syllabus
Obiettivi
Il corso, erogato in lingua Italiana, intende fornire conoscenze e competenze nell'ambito delle moderne architetture dati. Veranno presentanti sia gli aspetti teorici e di ricerca ancora aperti sia come tali tecnologie possono essere utilizzate per risolvere specifici contesti applicativi. Particolare attenzione sarà posta sullo studio e analisi di come le architetture e le soluzioni presentate consentano l'esecuzione di scritture, anche concorrenti in ambito distribuito e letture in ambiente distribuito e in presenza di possibili malfunzionamenti sulla rete.
Al termine del corso lo studente sarà in grado di sceligere la più opportuna soluzione architetturale per la gestione di dati
Contenuti sintetici
Attraverso la presentazione di use case diversi verranno affrontati gli aspetti teorici, metodologici e applicativi previsti dal corso. Ogni use case intende presentate dei problemi per i quali sono previste delle nuove soluzioni in termini architetturali rispetto al quanto visto fino a quel momento
- sistemi relazionali distribuiti
- sistemi non relazionali e poliglotti
- data centric ai (data management per machine learning)
- AI generativa per la gestione dei dati
Programma esteso
User cases 1
Richiami di architetture relazionali centralizzate: transazioni, ottimizzazione query
Architetture dbms distribuiti: protocollo two phase commit, deadlock distriubuito
Use case 2
Modelli non relazionali
Architetture distribuite di sistemi non relazionali
Sistemi poliglotti
Use case 3
Data management for machine learning
Data understading
Data validation
Data preparation ( integration, quality, fusion)
Feture engineering
MLOps
Use case 4
Modelli di Ai generativa
fine tuning
architetture RAG
Prerequisiti
E' utile una conoscenza delle tematiche dei modelli dei dati, relazionale e Entità Relazione, del linguaggio SQL e delle metodologie di progettazione di basi di dati
Modalità didattica
Sono previste in totale 48 ore per il corso; così organizzate
32 ore di lezioni in aula in presenza
16 ore di eservitazioni in aula in presenza
sia le ore di lezioni che quelle di esercitazioni saranno di tipo interattivo. Il docente porrà delle domande per sviluppare la capacità di ragionamento critico degli studenti
Materiale didattico
slide pubblicate sulla piattaforma elearning
Libro di testo adottato
Text book Next Generation Databases: NoSQL, NewSQL, and Big Data by Guy Harrison Publisher: Apress Release Date: January 2016 ISBN 9781484213292
Periodo di erogazione dell'insegnamento
secondo semestre
Modalità di verifica del profitto e valutazione
Prove scritta con domande a risposte aperte sui contenuti del corso, esercizi numerici eventualmente seguite da un orale a richiesta del docente
In alternativa progetto relativo a uno degli use cases presentnato durante il corso. il progetto può essere esteso a tesi e può essere fatto anche a gruppi di studenti. l'argomento del progetto deve essere concordato con il doente
Orario di ricevimento
Si prega mandare una email in anticipo indicando il nomer del corso. il ricevimento può esere effettuanto anche on line o al termine delle lezioni
Sustainable Development Goals
Aims
The course, delivered in Italian, aims to provide knowledge and skills in the field of modern data architectures. Both the theoretical and research aspects that are still open and how these technologies can be used to solve specific application contexts will be presented. Particular attention will be paid to the study and analysis of how the architectures and solutions presented allow the execution of writing, even concurrent in a distributed environment, and reading in a distributed environment and in the presence of possible malfunctions on the network.
At the end of the course the student will be able to choose the most appropriate architectural solution for data management
Contents
Through the presentation of different use cases, the theoretical, methodological and application aspects of the course will be addressed. Each use case intends to present problems for which new solutions are foreseen in architectural terms compared to what has been seen up to that point
- distributed relational systems
- non-relational and polyglot systems
- data centric ai (data management for machine learning)
- Generative AI for data management
Detailed program
User cases 1
references to centralized relational architectures: transactions, query optimization
distributed dbms architectures: two phase commit protocol, distributed deadlock
Use case 2
non-relational models
distributed architectures of non-relational systems
polyglot systems
Use case 3
data management for machine learning
data understading
data validation
data preparation (integration, quality, fusion)
feature engineering
MLOps
Use case 4
Generative Ai models
fine tuning
RAG architectures
Prerequisites
Knowledge on data models, relational model and Entity Relationship model, and database design methodologies is useful, but non mandatory
Teaching form
A total of 48 hours are scheduled for the course; so organised
32 hours of in-person classroom lessons
16 hours of in-person classroom exercises
both the hours of lessons and exercises will be interactive. The teacher will ask questions to develop the students' critical reasoning skills
Textbook and teaching resource
slides will be published on the Elearning platform
Text book
Next Generation Databases: NoSQL, NewSQL, and Big Data
by Guy Harrison Publisher: Apress
Release Date: January 2016
ISBN 9781484213292
Semester
second semester
Assessment method
Written exam with open-ended questions on the course contents, numerical exercises possibly followed by an oral exam at the teacher's request
Alternatively, project relating to one of the use cases presented during the course. the project can be extended to a thesis and can also be done with groups of students. the topic of the project must be agreed with the teacher
Office hours
Please send an email in advance indicating the name of the course. the reception can also be carried out online or at the end of the lessons
Sustainable Development Goals
Key information
Staff
-
Andrea Maurino