- Social Media Analytics
- Summary
Course Syllabus
Obiettivi
Il corso mira a fornire agli studenti i principali concetti che stanno alla base della gestione dei dati originati nei media sociali (accesso, pre-processing, modellazione) e della loro successiva analisi. Gli studenti saranno in grado, in particolare, di collezionare, processare e analizzare dati provenienti dai principali media sociali, utilizzando le tecnologie più adatte allo scopo. Sarà inoltre in grado di fornire una rappresentazione di strutture sociali complesse al fine di estrarne informazioni utili.
Contenuti sintetici
- Introduzione al Web sociale e alla terminologia utilizzata;
- Il reperimento dei dati nei media sociali e problematiche connesse;
- La rappresentazione dei dati sociali mediante strutture sociali complesse (teoria dei grafi);
- Descrizione di problematiche di interesse (diffusione dell’informazione, veridicità);
- Analisi delle reti sociali;
- Analisi della soggettività, del “sentiment” e dell’ironia;
- Named-entity Recognition e Linking;
- Visualizzazione di dati provenienti da social media: problemi aperti e tecniche.
Programma esteso
PRIMA PARTE
1. Introduzione
- Introduzione al Web sociale e alla terminologia utilizzata: Web sociale, reti sociali, media sociali, contenuto generato dagli utenti.
- Gli “oggetti informativi” sul Web sociale: 1) testi: post, blog, microblog, 2) immagini, 3) audio, 4) video.
- Social Media Analytics: definizione e obiettivi, i concetti di auto-presentazione e auto-rivelazione.
2. Il reperimento dei dati nei media sociali
- Le principali piattaforme, le interfacce di programmazione, il processo di crawling.
- Pre-processing e memorizzazione di dati sociali.
- Cenni di problematiche legali legate alla raccolta dei dati (il GDPR).
3. Il problema della rappresentazione dei dati sociali
- Strutture dati elementari e complesse.
- Rappresentazione di strutture sociali mediante grafi (teoria dei grafi, tipologie di reti, elementi di analisi delle reti: link analysis, web link analysis, misure di centralità).
4. Descrizione di alcune problematiche di interesse
- Analisi dell’ evoluzione dell’informazione nel tempo.
- Valutazione della credibilità dell'informazione online.
SECONDA PARTE
5. Analisi delle reti sociali
- Network clustering: algoritmi di community detection.
- Modelli di influenza e contagio nelle reti sociali.
6. Analisi di soggettività, “sentiment”, emozioni ed ironia
- Lessici.
- Modelli supervisionati e semi-supervisionati.
- Tecniche di natural language processing.
7. Named-entity Recognition e Linking
- Modelli grafico probabilistici per named entity recognition.
- Metodi di linking: apprendimento vs retrieval.
- Word Sense Disambiguation.
8. Visualizzazione di dati provenienti da social media: problemi aperti e tecniche
Prerequisiti
Conoscenza di base dei principi di algebra lineare, statistica, programmazione.
Modalità didattica
- Lezioni
- Esercitazioni in laboratorio
- Il corso verrà tenuto in lingua inglese
Materiale didattico
- Rahman, Md Saidur. Basic graph theory. Springer, 2017.
- Reinhard Diestel. Graph Theory. Springer, 2017.
- Suliman Hawamdeh, Hsia-Ching Chang. Analytics and Knowledge Management. CRC Press. 2018.
- John Scott. Social Network Analysis. Sage, 2012.
- Bing Liu. Sentiment Analysis and Opinion Mining. Morgan & Claypool. 2016.
- Eneko Agirre, Philip Edmonds. Word Sense Disambiguation: Algorithms and Applications (Text, Speech and Language Technology). Springer. 2007.
Periodo di erogazione dell'insegnamento
Primo semestre
Modalità di verifica del profitto e valutazione
Prova scritta con esercizi e domande aperte.
La prova scritta ha come obiettivo la valutazione estensiva ed intensiva delle competenze teoriche e teorico-pratiche acquisite durante il corso.
Progetto di gruppo (con presentazione orale).
Il progetto ha come obiettivo la valutazione della capacità degli studenti di tradurre in ambiti applicativi reali le competenze acquisite durante il corso, attraverso lo sviluppo e l'impiego di soluzioni tecnologiche per l'analisi dei dati nei social media.
- La prova scritta viene valutata su una scala da 0 a 24.
- Gli studenti devono ottenere una valutazione maggiore o uguale a 12 nella prova scritta.
- Il progetto, con relativa discussione orale, viene valutato su una scala da 0 a 9.
Il voto finale sarà dato dalla somma del voto ottenuto nell'esame scritto e dal voto relativo al progetto.
Orario di ricevimento
Su appuntamento:
- Elisabetta Fersini (elisabetta.fersini@unimib.it)
- Marco Viviani (marco.viviani@unimib.it)
Sustainable Development Goals
Aims
The course aims to provide students with the main concepts behind the management of data originated in social media (access, pre-processing, modeling) and their subsequent analysis. Students will be able, in particular, to collect, process and analyze data from major social media, using the most suitable technologies for the purpose. They will also be able to provide a representation of complex social structures in order to extract useful information from them.
Contents
- The Social Web: introduction and related terminology;
- Retrieving data in social media.
- Representing complex social data structures (graph theory and networks);
- Description of some open issues (information diffusion and veracity);
- Social Network Analysis;
- Subjectivity and sentiment analysis, irony detection;
- Named Entity Recognition and Linking;
- Visualization of social media data: open issues and techniques.
Detailed program
PART I
1. Introduction
- The Social Web: introduction and related terminology: Social Web, Social Networks, Social Media, User-Generated Content (UGC).
- Different classes of social “information objects”: 1) texts: posts, blogs, microblogs, 2) images, 3) audios, 4) videos.
- Social Media Analytics: definition and objectives. The concepts of auto-presentation and auto-disclosure.
2. Retrieving data in social media
- Main social platforms, Advanced Programming Interfaces (API)s, the “crawling” process.
- Pre-processing and storing of social data.
- Outline of legal issues related to data collection (the GDPR).
3. The social data representation issue
- Elementary and complex data structures.
- Representing social structures via a graph-based representation (graph theory, networks, network analysis: link analysis, web link analysis, centrality measures).
4. Description of some open issues
- Information tracking over time.
- Information credibility of online information.
PART II
5. Social Network Analysis
- Network clustering: community-detection algorithms.
- Influence and contagion in social media.
6. Subjectivity and Sentiment Analysis, Emotions and Irony detection
- Lexicons.
- Supervised e semi-supervised models.
- Natural language processing techniques.
7. Named-entity Recognition and Linking
- Probabilistic graphical models for named entity recognition.
- Linking methods: learning vs retrieval.
- Word Sense Disambiguation.
8. Visualization of social media data: open issues and techniques
Prerequisites
Basic knowledge of the principles of linear algebra, statistics, programming.
Teaching form
- Lectures
- Laboratory exercises
- The course will be held in English
Textbook and teaching resource
- Rahman, Md Saidur. Basic graph theory. Springer, 2017.
- Reinhard Diestel. Graph Theory. Springer, 2017.
- Suliman Hawamdeh, Hsia-Ching Chang. Analytics and Knowledge Management. CRC Press. 2018.
- John Scott. Social Network Analysis. Sage, 2012.
- Bing Liu. Sentiment Analysis and Opinion Mining. Morgan & Claypool. 2016.
- Eneko Agirre, Philip Edmonds. Word Sense Disambiguation: Algorithms and Applications (Text, Speech and Language Technology). Springer. 2007.
Semester
First semester
Assessment method
Written exam with exercices and open questions.
The written test aims at the extensive and intensive evaluation of the theoretical and theoretical-practical skills acquired during the course.
Group project (with oral presentation).
The project aims to assess students' ability to translate the skills acquired during the course into real application fields, through the development and use of technological solutions for analyzing social media data.
- The written exam is assessed on a scale from 0 to 24.
- Students must obtain a grade of 12 or more in the written exam.
- The project, with relative oral discussion, is evaluated on a scale from 0 to 9.
The final grade will be given by the sum of the evaluation obtained in the written exam and by the evaluation related to the project.
Office hours
By appointment:
- Elisabetta Fersini (elisabetta.fersini@unimib.it)
- Marco Viviani (marco.viviani@unimib.it)