- Laboratory 2
- Summary
Course Syllabus
Obiettivi formativi
Comprendere le sfide e le opportunità dei Big Data; Acquisire conoscenze su normative europee e strumenti riguardanti la raccolta e l'uso di tracce digitali; Utilizzare modelli di machine learning per l’analisi di testi; Integrare l’Intelligenza Artificiale nella ricerca sociale.
Contenuti sintetici
Definizione ed utilizzi dei Big Data; GDPR e DSA applicati alla raccolta dati digitali nel contesto Europeo; Introduzione a BERT e sue applicazioni nell'analisi testuale; Introduzione alle API di IA e loro applicazioni in diversi compiti della ricerca sociale.
Programma esteso
Lezione 1, 18 Novembre 2024, 14.30-18.30 (LAB714 - U7): Cosa sono e a cosa servono i Big Data
Argomenti principali:
- Definizione e caratteristiche dei Big Data (volume, varietà, velocità, veridicità, valore).
- Opportunità dei Big Data in diversi settori (ricerca sociale, marketing, automazione).
- Sfide associate ai Big Data: gestione, qualità e privacy.
- Le tracce digitali come principale fonte di Big Data nella ricerca sociale.
Attività: - Discussione di casi reali di Big Data in vari settori.
- Brainstorming su potenziali usi e problemi dei Big Data.
- Panoramica sui tool "reday-to-use" per l'analisi real time delle tracce digitali
Lezione 2, 25 Novembre 2024, 14.30-18.30 (LAB719 - U7): Raccolta dati e il Digital Services Act
Argomenti principali:
- Regolamentazioni per l'accesso e l’utilizzo di dati nel contesto europeo: dalla General Data Protection Regulation (GDPR) al Digital Services Act (DSA).
- Modalità di raccolta delle tracce digitali: fonti e strumenti.
Attività: - Analisi di come il DSA influenzi l'accesso a diverse tipologie di dati.
- Esercizi di raccolta delle tracce digitali tramite Zeeschuimer e tramite Hyphe.
Lezione 3, 2 Dicembre 2024, 14.30-18.30 (LAB719 - U7): Introduzione a Python
Argomenti principali:
- Introduzione all'utilizzo di Python per il data wrangling (numpy, pandas, matplotlib).
- Introduzione all'ambiente cloud CoLab per la programmazione condivisa.
Attività: - Esercizi di pre-processing, pulizia e visualizzazione dati con Python.
- Esplorazione guidata del dataset Twitter (circa 2 milioni di tweets) sulle alluvioni in Emilia Romagna.
Lezione 4, 9 Dicembre 2024, 14.30-18.30 (LAB719 - U7): Il Machine Learning per l’analisi di testi
Argomenti principali:
- Architettura di BERT (Bidirectional Encoder Representations from Transformers) e sue applicazioni nell'elaborazione del linguaggio naturale (NLP).
- Vantaggi dell’open source rispetto a prodotti commerciali chiusi.
Attività: - Ricognizione e presentazione degli applicativi online basati su BERT come ClimateBERT.
- Esercizi di classificazione del testo e sentiment analysis con BERT.
Lezione 5, 16 Dicembre 2024, 9.30-13.30 (LAB712 - U7): Utilizzare le API di Intelligenza Artificiale
Argomenti principali:
- Introduzione alle API di Intelligenza Artificiale: funzionamento e potenzialità.
- Panoramica su varie API di Intelligenza Artificiale tramite Replicate.
Attività: - Comprendere e usare una documentazione API.
- Esercizi di trascrizione di interviste con WhisperAI e classificazione di immagini tramite Memespector o ImageSorter o PixelPlot.
Lezione 6, 16 Dicembre 2024, 14.30-18.30 (LAB712 - U7): Seminario e progetto finale
Argomenti principali:
- Seminario del prof. Guido Anselmi a partire dal suo ultimo libro “Aprire la Scatola Nera. Corso riflessivo di Sociologia Computazionale”
- Discussione con l’autore sulle implicazioni dei Big Data Analytics nel capitalismo di piattaforma (ad esempio il caso Airbnb).
- Revisione degli argomenti trattati nel corso del laboratorio.
- Implementazione di un progetto finale in piccoli gruppi in stile hackathon.
Attività: - Lavoro di gruppo per la progettazione e realizzazione del progetto finale.
- Presentazione del progetto agli altri partecipanti e valutazione finale.
Prerequisiti
Concetti basi di programmazione e logica della programmazione.
Metodi didattici
Il corso è progettato come un'esperienza pratica di apprendimento, basata sul principio del 'learning by doing'. Il metodo di insegnamento sarà quello della 'didattica capovolta': le letture devono essere preparate in modo autonomo prima delle lezioni, mentre in aula saranno presentati concetti chiave e veranno svolte esercitazioni guidate.
Modalità di verifica dell'apprendimento
La valutazione sarà basata sulla qualità del progetto finale e la partecipazione attiva durante le lezioni.
Testi di riferimento
Dispensa fornita dal docente ad inizio corso.
Sustainable Development Goals
Learning objectives
Understand the challenges and opportunities of Big Data; Acquire knowledge of European regulations and ready to use tools regarding the collection and use of digital traces; Use machine learning models for text analysis; Integrating Artificial Intelligence into social research.
Contents
Definition and uses of Big Data; GDPR and DSA applied to digital data collection in the European context; Introduction to BERT and its applications in textual analysis; Introduction to AI APIs and their applications in different tasks of social research.
Detailed program
Lesson 1, November 18, 2024, 2.30-6.30 pm: What is Big Data and what is it used for
Main topics:
- Definition and characteristics of Big Data (volume, variety, velocity, veracity, value).
- Opportunities of Big Data in different sectors (social research, marketing, automation).
- Challenges associated with Big Data: management, quality and privacy.
- Digital traces as the main source of Big Data in social research.
Activities: - Discussion of real cases of Big Data in various sectors.
- Brainstorming on potential uses and problems of Big Data.
Lesson 2, November 25, 2024, 2.30-6.30 pm: Data collection and the Digital Services Act
Main topics:
- Regulations for access and use of data in the European context: from the General Data Protection Regulation (GDPR) to the Digital Services Act (DSA)
- Methods of collecting digital traces: sources and tools with a focus on new regulations.
Activities: - Analysis of how DSA affects access to different types of data.
- Exercises in collecting digital traces using Zeeschuimer and Hyphe.
Lesson 3, December 2, 2024, 2:30-6:30 PM: Introduction to Python
Main topics:
- Introduction to using Python for data wrangling (numpy, pandas, matplotlib).
- Introduction to the cloud environment CoLab for collaborative programming.
Activities: - Exercises on data pre-processing, cleaning, and visualization with Python.
- Guided exploration of the Twitter dataset (about 2 million tweets) on floods in Emilia Romagna.
Lesson 4, December 9, 2024, 2:30-6:30 PM: Machine Learning for text analysis
Main topics:
- Architecture of BERT (Bidirectional Encoder Representations from Transformers) and its applications in natural language processing (NLP).
- Advantages of open source compared to closed commercial products.
Activities: - Reconnaissance and presentation of online applications based on BERT such as ClimateBERT.
- Exercises in text classification and sentiment analysis with BERT.
Lesson 5, December 16, 2024, 9:30am-1:30pm: Using Artificial Intelligence APIs
Main topics:
- Introduction to Artificial Intelligence APIs: operation and potential.
- Overview of various Artificial Intelligence APIs using Replicate.
Activities: - Understanding and using an API documentation.
- Exercises in transcribing interviews with WhisperAI and classifying images with Memespector or ImageSorter or PixelPlot.
Lesson 6, December 16, 2024, 2.30-6:30pm: Seminar and final project
Main topics:
- Seminar by prof. Guido Anselmi starting from his latest book “Opening the Black Box. Reflective Course in Computational Sociology”
- Discussion with the author on the implications of Big Data Analytics in platform capitalism (e.g. the Airbnb case).
- Review of the topics covered during the lab.
- Implementation of a final project in small groups in a hackathon style.
Activities: - Group work for the design and implementation of the final project.
- Presentation of the project to the other participants and final evaluation.
Prerequisites
Basic programming concepts and programming logic.
Teaching methods
The course is designed as a hands-on learning experience based on the 'learning by doing' principle. The teaching method will follow a 'flipped classroom' approach: readings will be carried out independently, while in class, we will discuss key concepts and guided exercises will be carried out.
Assessment methods
The evaluation will be based on the quality of the final project and active participation during lessons.
Textbooks and Reading Materials
Handout provided by the teacher at the beginning of the course.
Sustainable Development Goals
Key information
Staff
-
Federico Pilati