- Data Semantics
- Summary
Course Syllabus
Obiettivi
Scopo principale del corso è fornire agli studenti le conoscenze e competenze necessarie per comprendere e risolvere problemi di interoperabilità semantica in applicazioni di data science, con particolare riferimento a problemi di rappresentazione, riconciliazione e integrazione di dati eterogenei.
Gli argomenti che verranno trattati hanno un duplice scopo: 1) fornire un insieme di strumenti teorici e pratici per rappresentare, organizzare, pubblicare, interrogare, riconciliare, ed esplorare dati e conoscenze in scenari applicativi reali (ampiamente discussi durante le lezioni frontali e affrontati durante le esercitazioni) utilizzando tecnologie semantiche e 2) acquisire le competenze necessarie per comprendere problemi di interoperabilità semantica nuovi e le tecniche necessarie per risolverli adeguatamente indipendentemente dalle particolari tecnologie di riferimento.
Contenuti sintetici
Il corso presenta strumenti computazionali per rappresentare, armonizzare e ricostruire la semantica dei dati utilizzati in applicazioni di data science, con particolare attenzione a:
- modelli e linguaggi elaborati nell'ambito del web semantico per supportare l'integrazione di dati eterogeni (knowledge graph, data linking, ontologie, RDF, RDFS, OWL);
- tecniche per l'integrazione di dati e vocabolari;
- tecniche di estrazione delle informazioni da testi (cenni);
- modelli di intelligenza artificiale a supporto dell'esplorazione di dati e conoscenze.
Programma esteso
- Data Semantics: Semantica dei dati ed applicazioni di data analytics (big data, sorgenti web, formati eterogenei, integrazione di informazioni ed arricchimento semantico, connessione tra dati, knowledge graph)
- Knowledge Graph: rappresentazione e interogazione dei dati nel web semantico (RDF, SPARQL, tecnologie semantiche e architettture, rappresentazioni in ambito industriale mediante basi di dati a grafo). Esercitazione su interrogazione di Knowledge Graph pubblici con SPARQL.
- Knowledge Graph e Semantica: definizione di vocabolari condivisi mediante ontologie e linguaggi logico-formali (dai vocabolari condivisi alle ontologie, tassonomie, ontologie lessicali, ontologie assiomatiche, ragionamento automatico e semantica, RDFS, OWL, SWRL). Esercitazione su modellazione di ontologie mediante i linguaggi RDFS e OWL.
- Rconciliazione semantica I: integrazione di informazioni e riconciliazione semantica, riconciliazione a livello delle istanze e dello schema, estrazione di informazioni (named entity recognition, entity linking, estrazione di relazioni)
- Riconciliazione semantica II: riconciliazione di ontologie e vocabolari (ontology matching per allineare ontologie e tassonomie, terminologia e mapping, similarità semantica e combinazione di diverse funzioni di similaritò, selezione dei mapping). Esercitazione su riconciliazione di tassonomie.
- Riconciliazione semantica III: riconciliazione a livello dei valori o delle istanze (deduplicazione e record linkage, approcci probabilistici, metriche di distanza e misure di similarità, combinazione e apprendimento di misure di similarità complesse, strategie per la fusione di infromazioni eterogenee, misure di similarità basate su grafi). Esercitazione su riconcilizione di dati con l'aiuto di strumenti esistenti.
- Esplorazione di informazioni e conoscenze: tecniche semantiche per l'esplorazione di informazioni (misure di rilevanza, associazioni semantiche, apprendimento attivo di associazioni rilevanti, sistemi di raccomandazione)
- Nuovi approcci alla semantica dei dati: approcci semantici guidati dai dati e di frontiera (profilazione semantica di Knowledge Graph, semantica distribuzionale, word embeddings e knowledge graph embeddings)
Prerequisiti
Conoscenze matematiche e informatiche insegnate nei corsi obbligatori del primo semestre.
Modalità didattica
Lezioni frontali ed esercitazioni con i personal computer degli studenti. Uso della piattaforma Moodle. Seminari su applicazioni delle tecnologie semantiche a problemi reali da parte di experti del mondo dell'industria.
Nel periodo di emergenza Covid-19 le lezioni si
svolgeranno in modalità mista: parziale presenza e lezioni
videoregistrate asincrone/
sincrone. Qualora non si renda possibile
tale modalità, il corso verrà tenuto da remoto asincrono con eventi in
videoconferenza sincrona.
Insegnato in Inglese
Materiale didattico
ITA: Tommaso Di Noia, Roberto De Virgilio, Eugenio Di Sciascio, Francesco M. Donini. Semantic Web: tra ontologie e Open Data, Apogeo, 2013.
ENG: Grigoris Antoniou, Paul
Groth, Frank van van Harmelen, A Semantic Web Primer, (Third Edition), MIT
press, 2012.
Verrà fornito agli studenti materiale aggiuntivo sotto forma di presentazioni e articoli scientifici per coprire gli argomenti più recenti non coperti dal libro di testo.
Periodo di erogazione dell'insegnamento
Semestre II
Modalità di verifica del profitto e valutazione
La valutazione finale è costituita dall'aggregazione dei punteggi ottenuti in due valutazioni indipendenti.
- La prima valutazione è basata su un progetto d'esame o appprofondimento tematico, effettuato individualmente o in gruppo, e finalizzato all'approfondimento di un argomento specifico trattato nel corso o collegato ad argomenti trattati nel corso; progetto e approfondimento vengono entrambi discussi attraverso una presentazione orale supportata da slide della durata di 20 min circa; è possibile, durante la presentazione, includere una breve demo del progetto svolto; l'approfondimento consiste di una rassegna bibliografica su un argomento, in cui lo studente discute e compara soluzioni proposte nello stato dell'arte a uno specifico problema. La valutazione si basa su: significatività del progetto rispetto agli argomenti trattati nel corso, rigore metodologico (nei limiti di quanto ragionevole chiedere per un progetto d'esame); padronanza dell'argomento approfondito dimostrata durante la presentazione orale.
- La seconda valutazione è basata sulla verifica della conoscenza degli argomenti affrontati durante il corso mediante una delle seguenti modalità, scelta liberamente dallo studente:
- esame orale sostenuto in concomitanza con la discussione della prima prova
- due prove in itinere costituite da esercizi e domande aperte: una relativa ai primi argomenti trattati nel corso (knowledge graph, ontologie, RDF, RDFS, OWL), e una relativa agli argomenti trattati nella seconda parte del corso (integrazione di dati e vocabolari, estrazione di informazioni, modelli per l'esplorazione di dati e conoscenze).
Nel periodo di emergenza
Covid-19, qualora non sia possibile effettuare esami scritti in
presenza, le prove in itinere verranno sostituite da esercizi da
effettuare individualmente e verificati durante l'esame orale.
Nel periodo di emergenza Covid-19 gli esami orali saranno solo telematici.
Verranno svolti utilizzando la piattaforma WebEx e nella pagina e-learning
dell'insegnamento verrà riportato un link pubblico per l'accesso all'esame di
possibili spettatori virtuali.
Orario di ricevimento
Aims
The main purpose of the course is to provide students with the knowledge and skills necessary to understand and solve problems of semantic interoperability in data science applications, with particular reference to problems of representation, reconciliation and integration of heterogeneous data.
The topics addressed in the course have a dual purpose: 1) to provide theoretical and practical tools to represent, organize, publish, query, reconcile, and explore information in real application scenarios (widely discussed during lectures and addressed during the exercises) using semantic technologies and 2) to acquire the necessary skills to understand new semantic interoperability problems and the necessary techniques to solve them adequately regardless of particular reference technologies.
Contents
The course presents computational methods to represent, harmonize and reconstruct the semantics of data used in data science applications, with a particular focus on:
- models and languages developed within the semantic web to support the integration of heterogeneous data (knowledge graph, data linking, ontologies, RDF, RDFS, OWL);
- techniques for the integration of data and vocabularies;
- techniques for extracting information from texts (outline);
- artificial intelligence models for data and knowledge exploration.
Detailed program
- Data Semantics: the role of semantics in data analytics (big data, web sources, heterogeneous formats, information integration and semantic enrichment, data linking, knowledge graphs).
- Knowledge Graphs: representation and interogation of data in the semantic web (RDF, SPARQL, semantic technologies and architectures, corporate knowledge graphs with graph databases). Excercise on querying RDF knowledge graphs with SPARQL.
- Semantics for Knowledge Graphs: definition of shared vocabularies with
ontologies and logic-based languages (from shared vocabularies to ontologies,
taxonomies, lexical ontologies, axiomatic ontologies, automatic reasoning and
semantics, RDFS, OWL, SWRL). Excercise on ontology modeling with RDFS and OWL.
- Semantic reconciliation I: information integration and semantic reconciliation, instance-level and schema-level reconciliation, information extraction (named entity recognition, entity linking, relation extraction).
- Semantic reconciliation II: reconciliation of ontologies and vocabularies (ontology matching, mapping, semantic similarity and matchers' combination, mapping selection). Exercise on taxonomy reconciliation.
- Semantic reconciliation III: value and instance-level reconciliation (deduplication and record linkage, probabilistic reconciliation approaches, distance metrics and similarity measures, combination and learning of similarity measures, data fusion strategies, graph-based similarity measures). Exercise on reconciling data with the help of existing tools.
- Information Exploration: semantic techniques for the information exploration (measures of relevance, semantic associations, active learning of relevant associations, semantic recommender systems).
- New approaches to data semantics: data-driven semantics and frontier approaches (semantic profiling of knowledge graphs, distributional semantics, word embeddings and knowledge graph embeddings).
Prerequisites
Mathematics and computer science as taught in the compulsory courses of the first semester.
Teaching form
Lectures and exercise with students' personal computers. Moodle e-learning platform. Seminars about usage of semantics in real-world applications given by experts from the industry.
Teached in English
Textbook and teaching resource
ITA: Tommaso Di Noia, Roberto De Virgilio, Eugenio Di Sciascio, Francesco M. Donini. Semantic Web: tra ontologie e Open Data, Apogeo, 2013.
ENG: Grigoris Antoniou, Paul Groth, Frank van van Harmelen, A Semantic Web Primer, (Third Edition), MIT press, 2012.
Additional material such as presentations and articles is provided to cover novel topics that are not covered by the textbook.
Semester
Semester II
Assessment method
The final evaluation consists of the aggregation of the scores obtained in two independent assessments.
- The first assessment is based on an exam-tailored project or a survey, carried out individually or in groups, and aimed at bringing the student to have an in-depth knowledge and/or hands-on experience of a specific topic covered in the course or linked to topics covered in the course; the project and the survey are both discussed through an oral presentation supported by slides lasting about 20 minutes; it is possible, during the presentation, to include a short demo of the project; the survey consists of a bibliographic review on a topic, in which the student discusses and compares proposed solutions in the state of the art to a specific problem of interest for him. The evaluation is based on: significance of the project with respect to the topics covered in the course, methodological soundness (within the limits of what is reasonable to ask for an exam project); mastery of the in-depth topic demonstrated during the oral presentation.
- The second assessment is based on the verification of the knowledge acquired by the student about the topics addressed during the course in one of the following ways, freely chosen by the student:
- oral exam taken in conjunction with the discussion of the first evaluation;
- two ongoing tests consisting of exercises and open questions: one related to the topics covered in the first part of the course (knowledge graph, ontologies, RDF, RDFS, OWL), and one related to the topics covered in the second part of the course (data and vocabulary integration, information extraction, models for data and knowledge exploration).
During the Covid-19 emergency period, oral exams will be online only.
They will be hosted using the WebEx platform and a public link will be published on the e-learning page to grant access to virtual spectators.
Office hours
Thursday 14.30-15.30