Skip to main content
If you continue browsing this website, you agree to our policies:
  • Condizioni di utilizzo e trattamento dei dati
Continue
x
If you continue browsing this website, you agree to our policies:
  • Condizioni di utilizzo e trattamento dei dati
Continue
x
e-Learning - UNIMIB
  • Home
  • More
Listen to this page using ReadSpeaker
 Log in
e-Learning - UNIMIB
Home
Percorso della pagina
  1. Science
  2. Master Degree
  3. Teoria e Tecnologia della Comunicazione [F9202P - F9201P]
  4. Courses
  5. A.A. 2022-2023
  6. 2nd year
  1. Data Semantics
  2. Summary
Insegnamento Course full name
Data Semantics
Course ID number
2223-2-F9201P208
Course summary SYLLABUS

Course Syllabus

  • Italiano ‎(it)‎
  • English ‎(en)‎
Export

Obiettivi

Scopo principale del corso è fornire agli studenti le conoscenze e competenze necessarie per comprendere e risolvere problemi di legati all'interpretazione semantica dei dati in applicazioni di data science, con particolare riferimento a problemi di rappresentazione, riconciliazione e integrazione di dati eterogenei e ad analisi di testi che debbano tenere conto del significato delle parole in essi contenuti.

Gli argomenti che verranno trattati hanno un duplice scopo: 1) fornire un insieme di strumenti teorici e pratici per rappresentare, organizzare, pubblicare, interrogare, riconciliare, esplorare e interpretate dati e conoscenze in scenari applicativi reali (ampiamente discussi durante le lezioni frontali e affrontati durante le esercitazioni) utilizzando tecnologie semantiche e 2) acquisire le competenze necessarie per comprendere problemi di interoperabilità semantica nuovi e le tecniche necessarie per risolverli adeguatamente indipendentemente dalle particolari tecnologie di riferimento.

Contenuti sintetici

Il corso presenta strumenti computazionali per rappresentare, armonizzare e ricostruire la semantica dei dati utilizzati in applicazioni di data science, con particolare attenzione a:

  • modelli e linguaggi elaborati nell'ambito del web semantico per supportare l'integrazione di dati eterogeni (knowledge graph, data linking, ontologie, RDF, RDFS, OWL);
  • tecniche per integrare dati e vocabolari;
  • tecniche per estrarre informazioni strutturate da testi;
  • tecnique per supportare l'accesso a grandi quantità di conoscenze.

Programma esteso

  1. Data Semantics: Semantica dei dati ed applicazioni di data analytics (big data, sorgenti web, formati eterogenei, integrazione di informazioni ed arricchimento semantico, connessione tra dati, knowledge graph)
  2. Knowledge Graph e Web Semantico: rappresentazione e interogazione dei dati nel web semantico (RDF, SPARQL, tecnologie semantiche e architettture, rappresentazioni in ambito industriale mediante basi di dati a grafo). Esercitazione su interrogazione di Knowledge Graph pubblici con SPARQL.
  3. Rappresentazione della Conoscenza e Ragionamento Automatico: definizione di vocabolari condivisi mediante ontologie e linguaggi logico-formali (dai vocabolari condivisi alle ontologie, tassonomie, ontologie lessicali, ontologie assiomatiche, ragionamento automatico e semantica, RDFS, OWL, SWRL). Esercitazione su modellazione di ontologie mediante i linguaggi RDFS e OWL.
  4. Riconciliazione semantica: riconciliazione di ontologie e vocabolari (ontology matching per allineare ontologie e tassonomie, terminologia e mapping, similarità semantica e combinazione di diverse funzioni di similarità, selezione dei mapping). Riconciliazione a livello dei valori o delle istanze (deduplicazione e record linkage, approcci probabilistici, metriche di distanza e misure di similarità, combinazione e apprendimento di misure di similarità complesse, strategie per la fusione di infromazioni eterogenee, misure di similarità basate su grafi). Esercitazione su riconcilizione di dati con l'aiuto di strumenti esistenti.
  5. Elementi di NLP - tecniche di estrazione di informazioni: introduzione e presentazione di alcuni approcci all'estrazione di informazioni strutturate da testo e altri dati semi strutturati (named entity recognition, entity linking, estrazione di relazioni, semantic table interpretation). .
  6. Esplorazione di informazioni e conoscenze: tecniche semantiche per l'esplorazione passiva e attiva di informazioni (faceted search, sistemi di raccomandazione).
  7. Elementi di NLP - semantica distribuzionale e apprendimento di rappresentazioni: introduzione alla semantica distribuzionale e all'apprendimento di rappresentazioni distribuite (semantica distribuzionale); modelli per apprendere rappresentazioni distribuite da corpus testuali (word embeddings e word2vec, contextual word embeddings); modelli per comparare rappresentazioni distribuite differenti (allineamento tra word embeddings, analisi diacroniche, studi basati su word embeddings con WEAT e SWEAT).

Prerequisiti

Conoscenze matematiche e informatiche insegnate nei corsi obbligatori del primo semestre.

Modalità didattica

Lezioni frontali ed esercitazioni con i personal computer degli studenti. Uso della piattaforma Moodle. Seminari su applicazioni delle tecnologie semantiche a problemi reali da parte di experti del mondo dell'industria.

L'attività didattica sarà erogata in presenza, salvo indicazioni diverse, nazionali e/o di Ateneo, dovute al protrarsi dell'emergenza COVID-19.

Insegnato in Inglese

Materiale didattico

ITA: Tommaso Di Noia, Roberto De Virgilio, Eugenio Di Sciascio, Francesco M. Donini. Semantic Web: tra ontologie e Open Data, Apogeo, 2013.

ENG: Grigoris Antoniou, Paul Groth, Frank van Harmelen, A Semantic Web Primer, (Third Edition), MIT Press, 2012.

Verrà fornito agli studenti materiale aggiuntivo sotto forma di presentazioni e articoli scientifici per coprire gli argomenti più recenti non coperti dal libro di testo.

Periodo di erogazione dell'insegnamento

Semestre II

Modalità di verifica del profitto e valutazione

La valutazione finale è costituita dall'aggregazione dei punteggi ottenuti in due valutazioni indipendenti.

  • La prima valutazione è basata su un progetto d'esame, effettuato individualmente o in gruppo, e finalizzato all'approfondimento di un argomento specifico trattato nel corso o collegato ad argomenti trattati nel corso; il progetto viene discusso attraverso una presentazione orale supportata da slide della durata di 20 min circa; è possibile, durante la presentazione, includere una breve demo del progetto svolto. La valutazione si basa su: significatività del progetto rispetto agli argomenti trattati nel corso, rigore metodologico (nei limiti di quanto ragionevole chiedere per un progetto d'esame); padronanza dell'argomento approfondito dimostrata durante la presentazione orale.
  • La seconda valutazione è basata sulla verifica della conoscenza degli argomenti affrontati durante il corso mediante valutazione di esercizi (assignment) da completare individualmente e discussione orale. Gli assignment verranno valutati e discussi in sede d'esame, dopo la discussione del progetto.

Orario di ricevimento

Giovedì 14.30-15.30

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ
Export

Aims

The main purpose of the course is to provide students with the knowledge and skills necessary to understand and solve problems that are related to the semantic interpretation of data in data science applications. A special focus is given to problems and solutions related to the representation, reconciliation, and integration of heterogeneous data; 2) analyses of textual data based on the meaning of the expressions contained therein.

The topics addressed in the course have a dual purpose: 1) to present techniques and practical tools to organize, publish, query, reconcile, explore and interpret information in real application scenarios (widely discussed during lectures and addressed during the exercises) using a selection of semantic technologies available today and 2) to acquire methodological tools to understand and solve new problems related to data semantics in the future, regardless of particular reference technologies.

Contents

The course presents computational methods to represent, harmonize and interpret the semantics of data used in data science applications, with a particular focus on:

  • models and languages developed within the semantic web to support the integration of heterogeneous data (knowledge graph, data linking, ontologies, RDF, RDFS, OWL);
  • techniques to integrate data and vocabularies;
  • techniques to distill, extract and interpret information from texts;
  • techniques to support access to vast amounts of knowledge.

Detailed program

  1. Data semantics: the role of semantics in data analytics (big data, web sources, heterogeneous formats, information integration, semantic enrichment, data linking, knowledge graphs).
  2. Knowledge graphs and the semantic web: representation and query of data in the semantic web (RDF, SPARQL, semantic technologies and architectures, corporate knowledge graphs with graph databases). Excercise on querying RDF knowledge graphs with SPARQL.
  3. Knowledge representation and reasoning: definition of shared vocabularies with ontologies and logic-based languages ​​(from shared vocabularies to ontologies, taxonomies, lexical ontologies, axiomatic ontologies, automatic reasoning and semantics, RDFS, OWL, SWRL). Excercise on ontology modeling with RDFS and OWL.
  4. Semantic reconciliation: ontology and vocabulary mapping (ontology matching to align ontologies and taxonomies, terminology and mapping, semantic similarity and combination of different similarity functions, selection of mappings) and instance-level matching (probabilistic record linkage, distance metrics and similarity measures, combination and learning of complex similarity measures, strategies for merging heterogeneous infromation, graph-based similarity measures). Exercise on data reconciliation with the help of existing tools.
  5. Introduction to NLP - information extraction (hints): presentation of selected approaches to the extraction of structured information from texts and other semi-structured data (named entity recognition, entity linking, relationship extraction, semantic table interpretation).
  6. Information and knowledge exploration: semantic techniques for passive and active exploration of information (semantic search, recommendation systems).
  7. Introduction to NLP - distributional semantics and representation learning: introduction to distributional semantics and distributed representations (distributional semantics); models for learning distributed representations from textual corpora (word embeddings and word2vec, contextual word embeddings); models to compare different distributed representations (alignment between word embeddings, diachronic language studies, studies based on word embeddings with WEAT and SWEAT).

Prerequisites

Mathematics and computer science as taught in the compulsory courses of the first semester.

Teaching form

Lectures and exercises with students' personal computers. Moodle e-learning platform. Seminars about the usage of semantics in real-world applications given by experts from the industry.


Lessons will be held in presence unless further COVID-19 related restrictions are imposed.
The course is taught in English.

Textbook and teaching resource

ITA: Tommaso Di Noia, Roberto De Virgilio, Eugenio Di Sciascio, Francesco M. Donini. Semantic Web: tra ontologie e Open Data, Apogeo, 2013.

ENG: Grigoris Antoniou, Paul Groth, Frank van van Harmelen, A Semantic Web Primer, (Third Edition), MIT press, 2012.

Additional material such as presentations and articles is provided to cover novel topics that are not covered by the textbook.

Semester

Semester II

Assessment method

The final evaluation consists of the aggregation of the scores obtained in two independent assessments.

  • The first assessment is based on an exam-tailored project, carried out individually or in groups and aimed at bringing the student to have in-depth knowledge and/or hands-on experience of a specific topic covered in the course or linked to topics covered in the course; the project is discussed through an oral presentation supported by slides lasting about 20 minutes; it is possible, during the presentation, to include a short demo of the project. The evaluation is based on: significance of the project for the topics covered in the course, methodological soundness (within the limits of what is reasonable to ask for an exam project); mastery of the in-depth topic demonstrated during the oral presentation.
  • The second assessment is based on the evaluation of the knowledge acquired by the student on the topics addressed during the course through the discussion of assignments that students must execute individually as homework. Assignments will be evaluated and discussed during the oral exam after the presentation of the project.

Office hours

Thursday 14.30-15.30

Sustainable Development Goals

QUALITY EDUCATION
Enter

Key information

Field of research
INF/01
ECTS
6
Term
First semester
Activity type
Mandatory to be chosen
Course Length (Hours)
50
Degree Course Type
2-year Master Degreee
Language
English

Students' opinion

View previous A.Y. opinion

Bibliography

Find the books for this course in the Library

Enrolment methods

Manual enrolments
Guest access

Sustainable Development Goals

QUALITY EDUCATION - Ensure inclusive and equitable quality education and promote lifelong learning opportunities for all
QUALITY EDUCATION

You are not logged in. (Log in)
Policies
Get the mobile app
Powered by Moodle
© 2025 Università degli Studi di Milano-Bicocca
  • Privacy policy
  • Accessibility
  • Statistics