Vai al contenuto principale
Se prosegui nella navigazione del sito, ne accetti le politiche:
  • Condizioni di utilizzo e trattamento dei dati
Prosegui
x
e-Learning - UNIMIB
  • Home
  • My Media
  • Altro
Ascolta questa pagina con ReadSpeaker
Italiano ‎(it)‎
English ‎(en)‎ Italiano ‎(it)‎
 Login
e-Learning - UNIMIB
Home My Media
Percorso della pagina
  1. Area Sociologica
  2. Corso di Laurea Magistrale
  3. Analisi dei Processi Sociali [F8804N - F8802N]
  4. Insegnamenti
  5. A.A. 2025-2026
  6. 1° anno
  1. Data Science: Analisi Longitudinale, Multilivello e Multivariata
  2. Introduzione
Insegnamento Titolo del corso
Data Science: Analisi Longitudinale, Multilivello e Multivariata
Codice identificativo del corso
2526-1-F8804N008
Descrizione del corso SYLLABUS

Syllabus del corso

  • Italiano ‎(it)‎
  • English ‎(en)‎
Esporta

Obiettivi

Conoscenza e comprensione: acquisire una conoscenza approfondita delle tecniche avanzate di data science applicabili all’analisi dei fenomeni sociologici.

Capacità di applicare conoscenza e comprensione: fornire le competenze necessarie per analizzare basi di micro dati cross-sectional ripetuti, longitudinali panel e muldidimensionali in ambito sociologico per rispondere ad interrogativi di natura associativa, predittiva e causale.

Autonomia di giudizio: sviluppare la capacità di valutare in modo critico i metodi e i risultati delle analisi quantitative nella ricerca sociologica, riconoscendone i presupposti teorici, i limiti e le implicazioni pratiche.

Abilità comunicative: promuovere la capacità di strutturare e argomentare efficacemente i risultati quantitativi all'interno di una cornice teorica sociologica.

Capacità di apprendere: promuovere l'autonomia nello studio e nella ricerca, stimolando la capacità di approfondire in modo critico e indipendente i contenuti del corso.

Contenuti sintetici

Il corso fornisce una panoramica avanzata degli strumenti per l’analisi di dati complessi in ambito sociologico, con particolare attenzione a dati gerarchici, longitudinali (panel) e multivariati. Tra gli argomenti trattati figurano: le tecniche di regressione multilivello, i modelli econometrici per dati panel, le equazioni strutturali (SEM), i modelli di event history analysis, le principali tecniche di riduzione della dimensionalità (cluster analysis e analisi fattoriale), nonché alcune tecniche di machine learning supervisionato e non supervisionato, come le reti neurali.

Programma esteso

La prima parte del corso è dedicata ai metodi per l’analisi di dati gerarchici caratterizzati da strutture di varianza complesse. In particolare, verranno introdotti i modelli multilivello, che rappresentano un’estensione dei modelli di regressione tradizionali per dati organizzati gerarchicamente. Queste tecniche risultano applicabili anche ai dati longitudinali di tipo panel, nei quali un medesimo outcome è osservato in più occasioni temporali all’interno delle stesse unità analitiche. La prima parte si conclude con l’esposizione delle principali tecniche econometriche per l’analisi di dati panel: il modello a effetti fissi, il modello a effetti casuali e lo stimatore Differences-in-Differences (DiD). La seconda parte del corso si concentrerà sull’analisi di dati multivariati. Verranno presentate le principali tecniche di riduzione della dimensionalità, tra cui l’analisi delle componenti principali (PCA), l’analisi fattoriale e l’analisi dei gruppi (cluster analysis di tipo gerarchico e non gerarchico). A seguire, verranno introdotti i modelli di equazioni strutturali (SEM), che integrano in un unico approccio la logica della regressione causale e quella dell’analisi fattoriale. Saranno inoltre affrontati i modelli di Event History Analysis, con particolare riferimento allo stimatore di Kaplan-Meier e al modello di regressione di Cox. Il corso si chiuderà con un approfondimento dedicato a specifiche tecniche di machine learning, in particolare alle reti neurali supervisionate (Multilayer Perceptron) e non supervisionate (Self-Organizing Map)..

Prerequisiti

Prerequisiti per il corso includono la conoscenza dei modelli di regressione lineare e logistica e una preparazione teorico-metodologica di base nell’ambito della ricerca sociale.

Modalità didattica

Il corso prevede un totale di 56 ore di didattica in presenza, articolate in lezioni che combinano modalità espositiva e attività interattive. Ciascun incontro si compone di una prima parte dedicata alla presentazione dei contenuti teorici e metodologici (modalità frontale) e di una seconda parte orientata alla partecipazione attiva degli studenti e delle studentesse attraverso esercitazioni individuali o di gruppo, presentazioni e momenti di discussione collettiva. Complessivamente, circa il 70% delle ore sarà destinato alla didattica frontale, mentre il restante 30% sarà dedicato ad attività laboratoriali e interattive. Il corso si svolge in lingua italiana e le esercitazioni verranno svolte utilizzando il software statistico Stata.

Materiale didattico

Diapositive e materiali didattici a cura del docente.

Kreft, I. G. G., & de Leeuw, J. (1998). Introducing multilevel modeling. Thousand Oaks, CA: Sage Publications. (opzionale)

Longhi, S., & Nandi, A. (2015). A practical guide to using panel data. London: SAGE Publications Ltd. (opzionale)

Singer, J.D. & Willett, J.B. (2003), Applied Longitudinal Data Analysis (ALDA), Oxford University Press. (opzionale)

De Lillo, A., Argentin, G., Lucchini, M., Sarti, S., & Terraneo, M. (2007). L'analisi multivariata per le scienze sociali (Cap. 7–8). Milano: Pearson Education. (opzionale)

Periodo di erogazione dell'insegnamento

febbraio 2026 - maggio 2026

Modalità di verifica del profitto e valutazione

Lo studente potrà optare per una prova orale, basata sui materiali messi a disposizione dal docente e indicati in bibliografia. Durante l’esame verranno poste sei domande, ciascuna riferita agli argomenti trattati nel corso. Ogni risposta sarà valutata con un punteggio compreso tra 0 e 6. Il voto complessivo sarà determinato dalla somma dei punteggi ottenuti per ciascuna risposta.
Qualora la somma risulti inferiore a 18, la prova sarà considerata insufficiente. In caso di punteggio pari o superiore a 31, il voto finale sarà 30 con lode.
La valutazione delle risposte si baserà su tre criteri fondamentali: correttezza, completezza e chiarezza espositiva.
In alternativa, lo studente può sostenere una prova scritta in aula, utilizzando il proprio computer personale e il software Stata. La prova consisterà nell’implementazione di quattro modelli di analisi dei dati tra quelli presentati durante il corso. Ciascuna risposta sarà valutata con un punteggio compreso tra 0 e 8. Il voto complessivo sarà determinato dalla somma dei punteggi ottenuti per ciascun quesito. Se il punteggio totale sarà inferiore a 18, la prova sarà considerata insufficiente; se pari o superiore a 31, il voto finale sarà 30 e lode.
La valutazione si baserà su tre criteri principali: correttezza dell’analisi, completezza della risposta e chiarezza espositiva.
Durante la prova, il docente fornirà i dataset necessari per lo svolgimento delle analisi. Il tempo a disposizione per completare la prova scritta sarà di 120 minuti.

Orario di ricevimento

Mercoledi' 11.00-12.00

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ
Esporta

Aims

Knowledge and understanding: to acquire an in-depth knowledge of advanced data science techniques applicable to the analysis of sociological phenomena.

Applying knowledge and understanding: to provide the necessary skills to analyse microdata bases - including repeated cross-sectional, longitudinal (panel), and multidimensional data - in the sociological domain, in order to address questions of an associative, predictive, or causal nature.

Making judgements: to develop the ability to critically assess the methods and results of quantitative analyses in sociological research, recognising their theoretical assumptions, limitations, and practical implications.

Communication skills: to promote the ability to structure and effectively articulate quantitative findings within a coherent sociological theoretical framework.

Learning skills: to foster autonomy in study and research by encouraging the ability to critically and independently deepen the course content.

Contents

The course provides an advanced overview of analytical tools for the study of complex data structures in sociology, with a particular focus on hierarchical, longitudinal (panel), and multivariate data. Topics covered include multilevel regression techniques, econometric models for panel data, structural equation modeling (SEM), event history analysis, major dimensionality reduction techniques (such as cluster analysis and factor analysis), as well as selected supervised and unsupervised machine learning methods, including neural networks.

Detailed program

The first part of the course is dedicated to methods for analyzing hierarchical data characterized by complex variance structures. In particular, multilevel models will be introduced as an extension of traditional regression models applied to hierarchically structured data. These techniques are also applicable to longitudinal (panel) data, where the same outcome is observed at multiple time points within the same analytical units. This section concludes with an overview of key econometric techniques for panel data analysis, including fixed effects models, random effects models, and the Differences-in-Differences (DiD) estimator. The second part of the course focuses on multivariate data analysis. It covers the main dimensionality reduction techniques, such as Principal Component Analysis (PCA), Factor Analysis, and Cluster Analysis (both hierarchical and non-hierarchical). This is followed by an introduction to Structural Equation Models (SEM), which combine the logic of causal regression and factor analysis within a unified framework. The course also addresses Event History Analysis models, with specific reference to the Kaplan-Meier estimator and the Cox regression model. The course concludes with an in-depth exploration of selected machine learning techniques, particularly supervised neural networks (Multilayer Perceptron) and unsupervised neural networks (Self-Organizing Map

Prerequisites

Prerequisites for the course include knowledge of linear and logistic regression models, as well as a basic theoretical and methodological background in social research.

Teaching form

The course consists of a total of 56 hours of in-person teaching, structured into sessions that combine lecture-based instruction with interactive activities. Each session includes a first part devoted to the presentation of theoretical and methodological content (lecture format), followed by a second part focused on active student participation through individual or group exercises, presentations, and class discussions. Overall, approximately 70% of the course time is allocated to lecture-based teaching, while the remaining 30% is dedicated to interactive and hands-on activities. The course is taught in Italian, and the exercises will be carried out using the statistical software Stata.

Textbook and teaching resource

Slides and reading materials will be provided by the instructor during the course.

Kreft, I. G. G., & de Leeuw, J. (1998). Introducing multilevel modeling. Thousand Oaks, CA: Sage Publications. (optional)

Longhi, S., & Nandi, A. (2015). A practical guide to using panel data. London: SAGE Publications Ltd. (optional)

Singer, J.D. & Willett, J.B. (2003), Applied Longitudinal Data Analysis (ALDA), Oxford University Press. (optional)

De Lillo, A., Argentin, G., Lucchini, M., Sarti, S., & Terraneo, M. (2007). L'analisi multivariata per le scienze sociali (Cap. 7–8). Milano: Pearson Education. (optional)

Semester

february 2026 - may 2026

Assessment method

Students may choose to take an oral examination, based on the materials provided by the instructor and listed in the course bibliography. The exam will consist of six questions, each relating to topics covered during the course. Each answer will be evaluated on a scale from 0 to 6. The final grade will be the sum of the scores awarded for each response. If the total score is below 18, the exam will be considered failed. If the score is equal to or greater than 31, the final grade will be 30 with honors (30 e lode). Answers will be evaluated according to three main criteria: accuracy, completeness, and clarity of exposition.
Alternatively, students may take a written examination in class, using their own personal computer and the Stata software. The test will require the implementation of four data analysis models presented during the course. Each answer will be graded on a scale from 0 to 8. The final grade will be calculated as the sum of the individual scores. If the total score is below 18, the exam will be considered failed; if the score is 31 or above, the final grade will be 30 with honors.
Evaluation will be based on three key criteria: accuracy of the analysis, completeness of the response, and clarity of exposition. During the exam, the instructor will provide the datasets required for the analyses. The time allowed for the written test is 120 minutes

Office hours

Wednesday (11.00-12.00)

Sustainable Development Goals

QUALITY EDUCATION
Entra

Scheda del corso

Settore disciplinare
SPS/07
CFU
8
Periodo
Secondo Semestre
Tipo di attività
Obbligatorio a scelta
Ore
56
Tipologia CdS
Laurea Magistrale
Lingua
Italiano

Staff

    Docente

  • ML
    Mario Lucchini

Opinione studenti

Vedi valutazione del precedente anno accademico

Bibliografia

Trova i libri per questo corso nella Biblioteca di Ateneo

Metodi di iscrizione

Iscrizione manuale

Obiettivi di sviluppo sostenibile

ISTRUZIONE DI QUALITÁ - Assicurare un'istruzione di qualità, equa ed inclusiva, e promuovere opportunità di apprendimento permanente per tutti
ISTRUZIONE DI QUALITÁ

Non sei collegato. (Login)
Politiche
Ottieni l'app mobile
Powered by Moodle
© 2025 Università degli Studi di Milano-Bicocca
  • Privacy
  • Accessibilità
  • Statistiche