Course information | Sampling Methods M

Course Syllabus

Italiano ‎(it)‎
English ‎(en)‎

Export

Obiettivi formativi

Questo corso si propone di introdurre gli strumenti fondamentali della teoria dei campioni necessari per l’inferenza da popolazioni finite. Nella prima parte del corso verranno analizzati i più importanti piani di campionamento probabilistici e verranno definite diverse tipologie di stimatori per i caratteri di interesse della popolazione. Nella seconda parte del corso, verranno discusse alcune applicazioni, in particolare verranno affrontate le tecniche più moderne per la privatizzazione dei dati. Gli obiettivi formativi del corso sono fondamentali per l'area Statistica. Il corso contribuisce a consolidare le capacità di apprendimento e di aggiornamento nell’ambito dei metodi avanzati di inferenza statistica e della teoria dei campioni, in coerenza con l’area di apprendimento "Statistica" del corso di laurea magistrale in Scienze Statistiche ed Economiche.

Contenuti sintetici

La prima parte del corso intende fornire agli studenti una solida base teorica dei metodi di campionamento da popolazioni finite. In particolare verranno presentati diversi piani di campionamento: casuale semplice, stratificato, sistematico, a grappoli, multistadiale, piani di campionamento non probabilistici. Contestualmente saranno introdotte diverse tipologie di stimatori per totali, medie e proporzioni, tra cui gli stimatori quoziente e per regressione. Nella seconda parte del corso verrà analizzato il metodo delle risposte casualizzate, il problema della privatizzazione dei dati (in particolare il concetto di differential privacy). Verrà introdotto il concetto di indice di disclosure (divulgazione) per quantificare la rischiosità di ledere la riservatezza dei dati forniti dal rispondente quando essi vengono pubblicati da un ufficio statistico. Il corso prevede lezioni teoriche ed esercizi svolti in aula.

Programma esteso

INTRODUZIONE AL CORSO E NOZIONI DI BASE
La differenza tra indagini campionarie e censuarie. Cenni storici sulle indagini campionarie. Il concetto di indagine statistica, popolazione, campione, caratteri. Lo spazio campionario e la nozione di piano di campionamento. I campionamenti non probabilistici.
CAMPIONAMENTO CASUALE SEMPLICE SENZA RIPETIZIONE
Lo stimatore di Horvitz-Thompson del totale e della media nel campionamento casuale semplice senza ripetizione. Calcolo della varianza dello stimatore e stima corretta della varianza. Cenni al Teorema di Hàjek (senza dimostrazione) e alla costruzione di intervalli di confidenza asintotici per medie e totali. Gli stimatori per le proporzioni. Il problema della stima della dimensione campionaria nel campionamento casule semplice.
CAMPIONAMENTO CASUALE SEMPLICE CON RIPETIZIONE
Lo stimatore di Hansen-Hurwitz del totale e della media: derivazione generale dello stimatore nel caso di probabilità di estrazione variabili. Analisi degli stimatori per il campionamento casuale semplice con ripetizione: varianza dello stimatore e stima corretta della varianza. Il concetto di design effect.
CAMPIONAMENTI A PROBABILITA' VARIABILI
Calcolo della varianza per lo stimatore di Hansen-Hurwitz. Calcolo della varianza per lo stimatore di Horvitz-Thompson.
Il concetto di misure d'ampiezza. Diversi metodi di campionamento a probabilità variabili.
CAMPIONAMENTO STRATIFICATO
IL concetto di stratificazione. Stimatori della media e del totale nel campionamento stratificato. Stratificazione con allocazione proporzionale e allocazione ottima delle unità. La poststratificazione.
STIMATORE RAPPORTO
L'uso delle variabili ausiliarie per definire stimatori più efficienti. Lo stimatore rapporto: definizione, approssimazione della varianza mediante linearizzazione, confronto con il campionamento casuale semplice. Lo stimatore rapporto nel campionamento stratificato: stimatore quoziente combinato e separato.
Lo stimatore per regressione: definizione, analisi della varianza.
CAMPIONAMENTO A GRAPPOLI
Il piano di campionamento a grappoli: generalità. Lo stimatore corretto del totale e lo stimatore quoziente nel campionamento a grappoli. Analisi della varianza dello stimatore: variabilità nei grappoli, variabilità tra i grappoli, variabilità complessiva della popolazione, indice di omogeneità nei grappoli. Efficienza dello stimatore in funzione dell'indice di omogeneità nei grappoli. Il campionamento sistematico come caso particolare del campionamento a grappoli.
APPLICAZIONI
La valutazione del rischio associato alla divulgazione dei dati a fini statistici, alcuni metodi di privatizzazione dei dati (differential privacy e tecnica delle risposte randomizzate. Metodo di Warner e Metodo di Simmons). Diversi indici per misurare il rischio nella divulgazione dei dati, quando essi sono nella forma di tabelle di frequenze.

Prerequisiti

Per seguire in modo proficuo il corso di Metodi per le Indagini Campionarie si consiglia la conoscenza degli argomenti trattati nei corsi di Analisi Matematica e Statistica a livello di una laurea triennale in Statistica.

Metodi didattici

Sono previste circa 40 ore di lezioni frontali, in cui verranno affrontati numerosi esempi ed esercizi. Le lezioni saranno svolte in modalità erogativa in presenza.

Modalità di verifica dell'apprendimento

L’esame è costituito da una prova scritta, l'orale è facoltativo. La prova scritta è costituita da esercizi e da alcune domande di teoria. Gli esercizi mirano ad accertare la comprensione degli argomenti trattati e la capacità dello studente di sfruttare gli strumenti di teoria dei campioni per risolvere problemi concreti. Le domande di teoria servono a verificare la conoscenza dei concetti di base di teoria dei campioni.

L'orale è facoltativo e può essere chiesto sia dallo studente che dal docente. L'esame orale verte su tutto il programma del corso e deve essere svolto pochi giorni dopo lo scritto, in base alle disponibilità del docente. In tal caso il voto finale è una media della prova scritta e della prova orale.

Durante lo scritto è consentito l'uso della calcolatrice scientifica, ma non è ammesso l'uso di appunti, libri e strumenti tecnologici. Verrà fornito un formulario.

Testi di riferimento

Per la prima parte del corso consigliano i seguenti testi:

P.L. Conti, D. Marella. Campionamento da popolazioni finite. Springer-Verlag Mailand, 2012.
S. Thompson. Sampling. Wiley, 2012.

Per la seconda parte del corso (divulgazione dei dati a fini statistici e valutazione del rischio)

Articoli indicati dal docente durante il corso
Dwork, C., Roth A. The Algorithmic foundations of Differential Privacy. 2014.

Periodo di erogazione dell'insegnamento

Il corso verrà erogato nel secondo semestre, primo ciclo.

Lingua di insegnamento

L'insegnamento è erogato in lingua italiana.

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ

Export

Learning objectives

This course aims at providing the students with all the necessary notions to face statistical inference for finite populatins. In the first part of the course, the teacher will introduce the most important sampling schemes for finite populations and he will define different kinds of estimators for means/totals. In the last part of the course some important applications will be discussed, with a special focus on the most recent techniques to privatize a dataset. The learning objectives of the course mainly refer to Statistics. In particular, the course contributes to strengthening the ability to learn in the field of of advanced inference methods, in line with the "Statistics" area of the Master degree's program in Scienze Statistiche ed Economiche.

The first part of the course aims at providing the students with a solid theoretical background to face statistical inference for finite populations. More precisely the most important sampling schemes will be analyzed: simple random sampling, stratified, systematic, cluster sampling, multi-stage design, etc. Besides different kinds of estimators for means, totals and proportions will be defined and studied, among them we consider the ratio and regression estimators. In the second part of the course, some applications will be analyzed, among which the randomized response techinque, disclosure risk assessment and differential privacy. The course includes lessons and exercises.

Detailed program

INTRODUCTION AND BASIC NOTIONS
Historical background, the difference between a sample survy and a census. The notion of population, sample, variable. The underlying probability space in a sample survy and the notion of sampling design. Non-probabilistic sampling schemes.
SIMPLE RANDOM SAMPLING WITHOUT REPLACEMENT
The Horvitz-Thompson estimator for the total for simple random sampling without replacement. Evaluation of the variance and the unbiased estimator. Hàjek theorem (without proof) and the construction of asymptotic confidence intervals. Estimators for means and proportions. The problem of sample size in simple random sampling.
SIMPLE RANDOM SAMPLING WITH REPLACEMENT
The Hansen-Hurwitz estimator: derivation in the general case. Analysis of the estimator for simple random sampling with replacement. The notion of design effect.
VARYING PROBABILITY SAMPLING

The variance of the Hansen-Hurwitz and the Horvitz-Thompson estimator. The notion of auxiliary variable. Different sampling schemes with varying probabilities.

STRATIFIED SAMPLING

The definition of the sampling scheme. Estimators for mean, total in the stritified sampling scheme.
Optimum and proportional allocation. Poststratification.

RATIO ESTIMATOR
The use of auxiliary variables for defining different and more efficient estimators. The ratio estimator: definition, the method of linearization to estimate the variance, comparision with simple random sampling.
Ratio estimator for stratified random sampling.
Regression estimator: definition, variance.
CLUSTER SAMPLING
Cluster sampling: basic properties. The unbiased estimator and the ratio estimator in cluster sampling. The analysis of variance: variability within and across clusters, total variability of the population, the index of homogeneity within clusters.
APPLICATIONS
Disclosure risk assessment. Randomized response techniques. Differential Privacy.

During the written exam, the use of a scientific calculator is allowed, but notes, books, and technological devices are not permitted. A form including most formulas will be provided.

Textbooks and Reading Materials

As for the first part, the following books are recommended:

P.L. Conti, D. Marella. Campionamento da popolazioni finite. Springer-Verlag Mailand, 2012.
S. Thompson. Sampling. Wiley, 2012.

As for the second part (disclosure risk assessment and differential privacy):

Papers suggested during the course.
Dwork, C., Roth A. The Algorithmic foundations of Differential Privacy. 2014.

Field of research

STAT-01/A

ECTS

Term

Second semester

Activity type

Mandatory to be chosen

Course Length (Hours)

Degree Course Type

2-year Master Degree

Language

Italian

Teacher

AG

Andrea Gilardi

View previous A.Y. opinion

Find the books for this course in the Library

Manual enrolments

Course Syllabus

Obiettivi formativi

Contenuti sintetici

Programma esteso

Prerequisiti

Metodi didattici

Modalità di verifica dell'apprendimento

Testi di riferimento

Periodo di erogazione dell'insegnamento

Lingua di insegnamento

Sustainable Development Goals

Learning objectives

Contents

Detailed program

Prerequisites

Teaching methods

Assessment methods

Textbooks and Reading Materials

Semester

Teaching language

Sustainable Development Goals

Key information

Staff

Teacher

Students' opinion

Bibliography

Enrolment methods

Sustainable Development Goals