- Data Semantics
- Summary
Course Syllabus
Obiettivi
Lo scopo principale del corso è fornire agli studenti le conoscenze e competenze necessarie per comprendere e risolvere problemi di legati all'interpretazione semantica dei dati in applicazioni di data science, con particolare riferimento a problemi di rappresentazione, integrazione, e arricchimento di dati eterogenei e analisi semantiche di testi.
In particolare verranno presentati i due principali paradigmi semantici proposti nell'ambito dell'Intelligenza Artificiale:
- Semantica dichiarativa, basata su paradigmi logici-formali, con particolare attenzione sulla ormai diffusa astrazione dei Grafi di Conoscenza
- Semantica distribuzionale e basata sulla modellazione del linguaggio, con particolare attenzione a modelli del linguaggio di grandi dimensioni
Infine verranno presentate metodologie neuro-simboliche in cui questi paradigmi sono opportunamente combinati per supportare applicazioni quali la preparazione dei dati, la costruzione di basi di conoscenza, la ricerca semantica, e la generazione di contenuti sulla base di informazioni esterne.
Gli argomenti che verranno trattati hanno un duplice scopo: 1) fornire un insieme di strumenti teorici e pratici per rappresentare, organizzare, pubblicare, interrogare, riconciliare, esplorare e interpretate dati e conoscenze in scenari applicativi reali (ampiamente discussi durante le lezioni frontali e affrontati durante le esercitazioni) utilizzando tecnologie semantiche e 2) acquisire le competenze necessarie per comprendere problemi di interoperabilità semantica nuovi e le tecniche necessarie per risolverli adeguatamente indipendentemente dalle particolari tecnologie di riferimento.
Contenuti sintetici
Il corso presenta strumenti computazionali per rappresentare, armonizzare e ricostruire la semantica dei dati utilizzati in applicazioni di data science, con particolare attenzione a:
- modelli e linguaggi elaborati nell'ambito del web semantico per supportare l'integrazione di dati eterogeni (knowledge graph, ontologie, RDF, RDFS, OWL);
- modelli per apprendere la semantica dai dati, con particolare riferimento a dati in formato testuale (word embeddings, Large Language Models (LLM))
- tecniche neurali per la riconciliazione di dati;
- tecniche di elaborazione del linguaggio naturale per estrarre informazioni strutturate da testi;
- tecniche per integrare knowledge graph e LLM.
Programma esteso
- Data Semantics: Semantica dei dati ed applicazioni di data analytics (big data, sorgenti web, formati eterogenei, integrazione di informazioni ed arricchimento semantico, connessione tra dati, knowledge graph)
- Knowledge Graph e Web Semantico: rappresentazione e interogazione dei dati nel web semantico (RDF, SPARQL, tecnologie semantiche e architettture, rappresentazioni in ambito industriale mediante basi di dati a grafo). Esercitazione su interrogazione di Knowledge Graph pubblici con SPARQL; definizione di vocabolari condivisi mediante ontologie e linguaggi logico-formali (dai vocabolari condivisi alle ontologie, tassonomie, ontologie lessicali, ontologie assiomatiche, ragionamento automatico e semantica, RDFS, OWL). Esercitazione su modellazione di ontologie mediante RDFS e OWL.
- Semantica distribuzionale e apprendimento di rappresentazioni: introduzione alla semantica distribuzionale e all'apprendimento di rappresentazioni distribuite (semantica distribuzionale); modelli per apprendere rappresentazioni distribuite da corpus testuali (word embeddings e word2vec, contextual word embeddings e Large Language Models - LLM). Esercitazione su LLM e attenzione. Seminario: modelli per comparare rappresentazioni distribuite differenti per applicazioni di computational social science e cultural analysis (allineamento tra word embeddings, analisi diacroniche, studi basati su word embeddings con WEAT e SWEAT).
- Riconciliazione semantica: algoritmi di entity matching basati su reti neurali (deep matcher, Ditto, BERT-based matching, matching con large language models).
- Elementi di NLP - tecniche di estrazione di informazioni: introduzione e presentazione di alcuni approcci all'estrazione di informazioni strutturate da testo e altri dati semi strutturati (named entity recognition, entity linking, estrazione di relazioni, semantic table interpretation). Esercitazione su named entity recognition e named entity linking.
- Tecniche di accesso alle informazioni mediate dalla semantica: tecniche semantiche per l'esplorazione di informazioni (faceted search,retrieval augmented generation)
Prerequisiti
Conoscenze matematiche e informatiche insegnate nei corsi obbligatori del primo semestre.
Modalità didattica
Lezioni frontali ed esercitazioni con i personal computer degli studenti. Uso della piattaforma Moodle. Seminari su applicazioni delle tecnologie semantiche a problemi reali da parte di experti del mondo dell'industria.
Didattica Erogativa: ~32h (lezioni frontali)
Didattica Interattiva: ~12h (esercitazioni guidate)
Insegnato in Inglese
Materiale didattico
Knowledge Graphs: Fundamentals, Techniques, and Applications. Kejriwal, Mayank, Craig A. Knoblock, and Pedro Szekely. MIT Press, 2021.
The Web of Data. Aidan Hogan. 2020. Springer. Pages 1-680.
Verrà fornito agli studenti materiale aggiuntivo sotto forma di presentazioni e articoli scientifici per coprire gli argomenti più recenti non coperti dal libro di testo.
Periodo di erogazione dell'insegnamento
Semestre II
Modalità di verifica del profitto e valutazione
La valutazione finale è costituita dall'aggregazione dei punteggi ottenuti in due valutazioni indipendenti.
- La prima valutazione è basata su un progetto d'esame, effettuato individualmente o in gruppo, e finalizzato all'approfondimento di un argomento specifico trattato nel corso o collegato ad argomenti trattati nel corso; il progetto viene discusso attraverso una presentazione orale supportata da slide della durata di 20 min circa; è possibile, durante la presentazione, includere una breve demo del progetto svolto. La valutazione si basa su: significatività del progetto rispetto agli argomenti trattati nel corso, rigore metodologico (nei limiti di quanto ragionevole chiedere per un progetto d'esame); padronanza dell'argomento approfondito dimostrata durante la presentazione orale.
- La seconda valutazione è basata sulla verifica della conoscenza degli argomenti affrontati durante il corso mediante valutazione di esercizi (assignment) da completare individualmente e discussione orale. Gli assignment verranno valutati e discussi in sede d'esame, dopo la discussione del progetto.
Orario di ricevimento
Su richiesta
Sustainable Development Goals
Aims
The main purpose of the course is to provide students with the knowledge and skills necessary to understand and solve problems that are related to the semantic interpretation of data in data science applications. A special focus is given to problems and solutions related to the representation, integration and enrichment of heterogeneous data; 2) semantic analyses of textual data.
In particular, the two main semantic paradigms proposed in the field of Artificial Intelligence will be presented:
- Declarative semantics, based on logical-formal paradigms, with particular focus on the now widespread abstraction of Knowledge Graphs
- Distributional semantics and semantics based on language modeling, with particular focus on Large Language Models
Finally, neuro-symbolic methodologies will be presented in which these paradigms are appropriately combined to support tasks and applications such as data preparation, knowledge base construction, semantic search, and retrieval augmented generation.
The topics addressed in the course have a dual purpose: 1) to present techniques and practical tools to organize, publish, query, reconcile, explore and interpret information in real application scenarios (widely discussed during lectures and addressed during the exercises) using a selection of semantic technologies available today and 2) to acquire methodological tools to understand and solve new problems related to data semantics in the future, regardless of particular reference technologies.
Contents
The course presents computational methods to represent, harmonize and interpret the semantics of data used in data science applications, with a particular focus on:
- models and languages developed within the semantic web to support the integration of heterogeneous data (knowledge graph, ontologies, RDF, RDFS, OWL);
- models to learn (semantic) representations from data, especially from text corpora (word embeddings, Large Language Models);
- neural techniques for data matching;
- information extration techniques, with particular enphasis on entity extraction;
- techniques for the integration of knowledge graphs and LLMs.
Detailed program
- Data semantics: the role of semantics in data analytics (big data, web sources, heterogeneous formats, information integration, semantic enrichment, data linking, knowledge graphs).
- Knowledge graphs and the semantic web: representation and query of data in the semantic web (RDF, SPARQL, semantic technologies and architectures, corporate knowledge graphs with graph databases). Excercise on querying RDF knowledge graphs with SPARQL; definition of shared vocabularies with ontologies and logic-based languages (from shared vocabularies to ontologies, taxonomies, lexical ontologies, axiomatic ontologies, automatic reasoning and semantics, RDFS, OWL). Excercises on ontology modeling with RDFS and OWL.
- Distributional semantics and representation learning: introduction to distributional semantics and distributed representations (distributional semantics); models for learning distributed representations from textual corpora (word embeddings and word2vec, Large Language Models - LLMs). Exercises on LLMs and attention. Seminar: models to compare different distributed representations (alignment between word embeddings, diachronic language studies, studies based on word embeddings with WEAT and SWEAT).
- Semantic reconciliation: neural network-based entity matching algorithms (deep matcher, Ditto, BERT-based matching).
- Introduction to NLP - information extraction: presentation of selected approaches to the extraction of structured information from texts and other semi-structured data (named entity recognition, entity linking, relationship extraction, semantic table interpretation). Esercitazione su named entity recognition e named entity linking
- Information and knowledge exploration: semantic techniques for the exploration of information (semantic search, retrieval augmented generation).
Prerequisites
Mathematics and computer science as taught in the compulsory courses of the first semester.
Teaching form
Lectures and exercises with students' personal computers. Moodle e-learning platform. Seminars about the usage of semantics in real-world applications given by experts from the industry.
Teacher-centered lessons: ~32h
Interactive lessons: ~12h (hands-on sessions)
Textbook and teaching resource
Knowledge Graphs: Fundamentals, Techniques, and Applications. Kejriwal, Mayank, Craig A. Knoblock, and Pedro Szekely. MIT Press, 2021.
The Web of Data. Aidan Hogan. 2020. Springer. Pages 1-680.
Additional material such as presentations and articles is provided to cover novel topics that are not covered by the textbook.
Semester
Semester II
Assessment method
The final evaluation consists of the aggregation of the scores obtained in two independent assessments.
- The first assessment is based on an exam-tailored project, carried out individually or in groups and aimed at bringing the student to have in-depth knowledge and/or hands-on experience of a specific topic covered in the course or linked to topics covered in the course; the project is discussed through an oral presentation supported by slides lasting about 20 minutes; it is possible, during the presentation, to include a short demo of the project. The evaluation is based on: significance of the project for the topics covered in the course, methodological soundness (within the limits of what is reasonable to ask for an exam project); mastery of the in-depth topic demonstrated during the oral presentation.
- The second assessment is based on the evaluation of the knowledge acquired by the student on the topics addressed during the course through the discussion of assignments that students must execute individually as homework. Assignments will be evaluated and discussed during the oral exam after the presentation of the project.
Office hours
On demand
Sustainable Development Goals
Key information
Staff
-
Matteo Luigi Palmonari