- Data Semantics
- Summary
Course Syllabus
Obiettivi
Scopo principale del corso è fornire agli studenti le conoscenze e competenze necessarie per comprendere e risolvere problemi di legati all'interpretazione semantica dei dati in applicazioni di data science, con particolare riferimento a problemi di rappresentazione, riconciliazione e integrazione di dati eterogenei e ad analisi di testi che debbano tenere conto del significato delle parole in essi contenuti.
Gli argomenti che verranno trattati hanno un duplice scopo: 1) fornire un insieme di strumenti teorici e pratici per rappresentare, organizzare, pubblicare, interrogare, riconciliare, esplorare e interpretate dati e conoscenze in scenari applicativi reali (ampiamente discussi durante le lezioni frontali e affrontati durante le esercitazioni) utilizzando tecnologie semantiche e 2) acquisire le competenze necessarie per comprendere problemi di interoperabilità semantica nuovi e le tecniche necessarie per risolverli adeguatamente indipendentemente dalle particolari tecnologie di riferimento.
Contenuti sintetici
Il corso presenta strumenti computazionali per rappresentare, armonizzare e ricostruire la semantica dei dati utilizzati in applicazioni di data science, con particolare attenzione a:
- modelli e linguaggi elaborati nell'ambito del web semantico per supportare l'integrazione di dati eterogeni (knowledge graph, data linking, ontologie, RDF, RDFS, OWL);
- modelli per apprendere la semantica dai dati, con particolare riferimento a dati in formato testuale (word embeddings, contextual word embedddings)
- tecniche per integrare dati e vocabolari;
- tecniche per estrarre informazioni strutturate da testi;
- tecnique per supportare l'accesso a grandi quantità di conoscenze.
Programma esteso
- Data Semantics: Semantica dei dati ed applicazioni di data analytics (big data, sorgenti web, formati eterogenei, integrazione di informazioni ed arricchimento semantico, connessione tra dati, knowledge graph)
- Knowledge Graph e Web Semantico: rappresentazione e interogazione dei dati nel web semantico (RDF, SPARQL, tecnologie semantiche e architettture, rappresentazioni in ambito industriale mediante basi di dati a grafo). Esercitazione su interrogazione di Knowledge Graph pubblici con SPARQL.
- Rappresentazione della Conoscenza e Ragionamento Automatico: definizione di vocabolari condivisi mediante ontologie e linguaggi logico-formali (dai vocabolari condivisi alle ontologie, tassonomie, ontologie lessicali, ontologie assiomatiche, ragionamento automatico e semantica, RDFS, OWL, SWRL). Esercitazione su modellazione di ontologie mediante i linguaggi RDFS e OWL.
- Elementi di NLP - semantica distribuzionale e apprendimento di rappresentazioni: introduzione alla semantica distribuzionale e all'apprendimento di rappresentazioni distribuite (semantica distribuzionale); modelli per apprendere rappresentazioni distribuite da corpus testuali (word embeddings e word2vec, contextual word embeddings); modelli per comparare rappresentazioni distribuite differenti (allineamento tra word embeddings, analisi diacroniche, studi basati su word embeddings con WEAT e SWEAT).
- Riconciliazione semantica: riconciliazione di ontologie e vocabolari (ontology matching per allineare ontologie e tassonomie, terminologia e mapping, similarità semantica e combinazione di diverse funzioni di similarità, selezione dei mapping). Riconciliazione a livello dei valori o delle istanze (deduplicazione e record linkage, approcci probabilistici, metriche di distanza e misure di similarità, combinazione e apprendimento di misure di similarità complesse, strategie per la fusione di infromazioni eterogenee, misure di similarità basate su grafi). Esercitazione su riconcilizione di dati con l'aiuto di strumenti esistenti.
- Elementi di NLP - tecniche di estrazione di informazioni: introduzione e presentazione di alcuni approcci all'estrazione di informazioni strutturate da testo e altri dati semi strutturati (named entity recognition, entity linking, estrazione di relazioni, semantic table interpretation). .
- Esplorazione di informazioni e conoscenze: tecniche semantiche per l'esplorazione passiva e attiva di informazioni (faceted search, sistemi di raccomandazione).
Prerequisiti
Conoscenze matematiche e informatiche insegnate nei corsi obbligatori del primo semestre.
Modalità didattica
Lezioni frontali ed esercitazioni con i personal computer degli studenti. Uso della piattaforma Moodle. Seminari su applicazioni delle tecnologie semantiche a problemi reali da parte di experti del mondo dell'industria.
Insegnato in Inglese
Materiale didattico
Knowledge Graphs: Fundamentals, Techniques, and Applications. Kejriwal, Mayank, Craig A. Knoblock, and Pedro Szekely. MIT Press, 2021.
The Web of Data. Aidan Hogan. 2020. Springer. Pages 1-680.
Verrà fornito agli studenti materiale aggiuntivo sotto forma di presentazioni e articoli scientifici per coprire gli argomenti più recenti non coperti dal libro di testo.
Periodo di erogazione dell'insegnamento
Semestre II
Modalità di verifica del profitto e valutazione
La valutazione finale è costituita dall'aggregazione dei punteggi ottenuti in due valutazioni indipendenti.
- La prima valutazione è basata su un progetto d'esame, effettuato individualmente o in gruppo, e finalizzato all'approfondimento di un argomento specifico trattato nel corso o collegato ad argomenti trattati nel corso; il progetto viene discusso attraverso una presentazione orale supportata da slide della durata di 20 min circa; è possibile, durante la presentazione, includere una breve demo del progetto svolto. La valutazione si basa su: significatività del progetto rispetto agli argomenti trattati nel corso, rigore metodologico (nei limiti di quanto ragionevole chiedere per un progetto d'esame); padronanza dell'argomento approfondito dimostrata durante la presentazione orale.
- La seconda valutazione è basata sulla verifica della conoscenza degli argomenti affrontati durante il corso mediante valutazione di esercizi (assignment) da completare individualmente e discussione orale. Gli assignment verranno valutati e discussi in sede d'esame, dopo la discussione del progetto.
Orario di ricevimento
Su richiesta
Sustainable Development Goals
Aims
The main purpose of the course is to provide students with the knowledge and skills necessary to understand and solve problems that are related to the semantic interpretation of data in data science applications. A special focus is given to problems and solutions related to the representation, reconciliation, and integration of heterogeneous data; 2) analyses of textual data based on the meaning of the expressions contained therein.
The topics addressed in the course have a dual purpose: 1) to present techniques and practical tools to organize, publish, query, reconcile, explore and interpret information in real application scenarios (widely discussed during lectures and addressed during the exercises) using a selection of semantic technologies available today and 2) to acquire methodological tools to understand and solve new problems related to data semantics in the future, regardless of particular reference technologies.
Contents
The course presents computational methods to represent, harmonize and interpret the semantics of data used in data science applications, with a particular focus on:
- models and languages developed within the semantic web to support the integration of heterogeneous data (knowledge graph, data linking, ontologies, RDF, RDFS, OWL);
- models to learn (semantic) representations from data, especially from text corpora (word embeddings, contextual word embeddings);
- techniques to integrate data and vocabularies;
- techniques to distill, extract and interpret information from texts;
- techniques to support access to vast amounts of knowledge.
Detailed program
- Data semantics: the role of semantics in data analytics (big data, web sources, heterogeneous formats, information integration, semantic enrichment, data linking, knowledge graphs).
- Knowledge graphs and the semantic web: representation and query of data in the semantic web (RDF, SPARQL, semantic technologies and architectures, corporate knowledge graphs with graph databases). Excercise on querying RDF knowledge graphs with SPARQL.
- Knowledge representation and reasoning: definition of shared vocabularies with ontologies and logic-based languages (from shared vocabularies to ontologies, taxonomies, lexical ontologies, axiomatic ontologies, automatic reasoning and semantics, RDFS, OWL, SWRL). Excercise on ontology modeling with RDFS and OWL.
- Introduction to NLP - distributional semantics and representation learning: introduction to distributional semantics and distributed representations (distributional semantics); models for learning distributed representations from textual corpora (word embeddings and word2vec, contextual word embeddings); models to compare different distributed representations (alignment between word embeddings, diachronic language studies, studies based on word embeddings with WEAT and SWEAT).
- Semantic reconciliation: ontology and vocabulary mapping (ontology matching to align ontologies and taxonomies, terminology and mapping, semantic similarity and combination of different similarity functions, selection of mappings) and instance-level matching (probabilistic record linkage, distance metrics and similarity measures, combination and learning of complex similarity measures, strategies for merging heterogeneous infromation, graph-based similarity measures). Exercise on data reconciliation with the help of existing tools.
- Introduction to NLP - information extraction (hints): presentation of selected approaches to the extraction of structured information from texts and other semi-structured data (named entity recognition, entity linking, relationship extraction, semantic table interpretation).
- Information and knowledge exploration: semantic techniques for passive and active exploration of information (semantic search, recommendation systems).
Prerequisites
Mathematics and computer science as taught in the compulsory courses of the first semester.
Teaching form
Lectures and exercises with students' personal computers. Moodle e-learning platform. Seminars about the usage of semantics in real-world applications given by experts from the industry.
Textbook and teaching resource
Knowledge Graphs: Fundamentals, Techniques, and Applications. Kejriwal, Mayank, Craig A. Knoblock, and Pedro Szekely. MIT Press, 2021.
The Web of Data. Aidan Hogan. 2020. Springer. Pages 1-680.
Additional material such as presentations and articles is provided to cover novel topics that are not covered by the textbook.
Semester
Semester II
Assessment method
The final evaluation consists of the aggregation of the scores obtained in two independent assessments.
- The first assessment is based on an exam-tailored project, carried out individually or in groups and aimed at bringing the student to have in-depth knowledge and/or hands-on experience of a specific topic covered in the course or linked to topics covered in the course; the project is discussed through an oral presentation supported by slides lasting about 20 minutes; it is possible, during the presentation, to include a short demo of the project. The evaluation is based on: significance of the project for the topics covered in the course, methodological soundness (within the limits of what is reasonable to ask for an exam project); mastery of the in-depth topic demonstrated during the oral presentation.
- The second assessment is based on the evaluation of the knowledge acquired by the student on the topics addressed during the course through the discussion of assignments that students must execute individually as homework. Assignments will be evaluated and discussed during the oral exam after the presentation of the project.
Office hours
On demand