- Area Economico-Statistica
- Corso di Laurea Magistrale
- Scienze Statistiche ed Economiche [F8204B]
- Insegnamenti
- A.A. 2021-2022
- 1° anno
- Metodi per le Indagini Campionarie M
- Introduzione
Syllabus del corso
Obiettivi formativi
Questo corso si propone di introdurre gli strumenti fondamentali della
teoria dei campioni necessari per l’inferenza da popolazioni finite. Nella
prima parte del corso verranno analizzati i più importanti piani di
campionamento probabilistici e verranno definite diverse tipologie di stimatori
per i caratteri di interesse della popolazione. Nella seconda parte del corso,
verranno discusse alcune applicazioni, in particolare verranno affrontate le tecniche più moderne per la privatizzazione dei dati.
Contenuti sintetici
La prima parte del corso intende fornire agli studenti una solida base teorica dei metodi di campionamento da popolazioni finite. In particolare verranno presentati diversi piani di campionamento: casuale semplice, stratificato, sistematico, a grappoli, multistadiale, piani di campionamento non probabilistici. Contestualmente saranno introdotte diverse tipologie di stimatori per totali, medie e proporzioni, tra cui gli stimatori quoziente e per regressione. Nella seconda parte del corso verrà analizzato il metodo delle risposte casualizzate, il problema della privatizzazione dei dati (in particolare il concetto di differential privacy). Verrà introdotto il concetto di indice di disclosure (divulgazione) per quantificare la rischiosità di ledere la riservatezza dei dati forniti dal rispondente quando essi vengono pubblicati da un ufficio statistico. Infine verrà affrontato il problema degli errori non campionari, tra cui quello delle mancate risposte, ed il metodo della ponderazione dei dati. Il corso sarà affiancato da esercitazioni pratiche.
Programma esteso
1. INTRODUZIONE AL CORSO E NOZIONI DI BASE
La differenza tra indagini campionarie e censuarie. Cenni storici sulle indagini campionarie. Il concetto di indagine statistica, popolazione, campione, caratteri. Lo spazio campionario e la nozione di piano di campionamento. I campionamenti non probabilistici.
2. CAMPIONAMENTO CASUALE SEMPLICE SENZA RIPETIZIONE
Lo stimatore di Horvitz-Thompson del totale e della media nel campionamento casuale semplice senza ripetizione. Calcolo della varianza dello stimatore e stima corretta della varianza. Cenni al Teorema di Hàjek (senza dimostrazione) e alla costruzione di intervalli di confidenza asintoticiper medie e totali. Gli stimatori per le proporzioni. Il problema della stima della dimensione campionaria nel campionamento casule semplice.
3. CAMPIONAMENTO CASUALE SEMPLICE CON RIPETIZIONE
Lo stimatore di Hansen-Hurwitz del totale e della media: derivazione generale dello stimatore nel caso di probabilità di estrazione variabili. Analisi degli stimatori per il campionamento casuale semplice con ripetizione: varianza dello stimatore e stima corretta della varianza. Il concetto di design effect.
4. CAMPIONAMENTI A PROBABILITA' VARIABILI
Calcolo della varianza per lo stimatore di Hansen-Hurwitz. Calcolo della varianza per lo stimatore di Horvitz-Thompson.
Il concetto di misure d'ampiezza. Diversi metodi di campionamento a probabilità variabili.
5. CAMPIONAMENTO STRATIFICATO
IL concetto di stratificazione. Stimatori della media e del totale nel campionamento stratificato. Stratificazione con allocazione proporzionale e allocazione ottima delle unità. La poststratificazione.
6. STIMATORE RAPPORTO
L'uso delle variabili ausiliarie per definire stimatori più efficienti. Lo stimatore rapporto: definizione, approssimazione della varianza mediante linearizzazione, confronto con il campionamento casuale semplice. Lo stimatore rapporto nel campionamento stratificato: stimatore quoziente combinato e separato.
Lo stimatore per regressione: definizione, analisi della varianza.
8. CAMPIONAMENTO A GRAPPOLI E MULTISTADIALE
Il piano di campionamento a grappoli: generalità. Lo stimatore corretto del totale e lo stimatore quoziente nel campionamento a grappoli. Analisi della varianza dello stimatore: variabilità nei grappoli, variabilità tra i grappoli, variabilità complessiva della popolazione, indice di omogeneità nei grappoli. Efficienza dello stimatore in funzione dell'indice di omogeneità nei grappoli. Il campionamento sistematico come caso particolare del campionamento a grappoli.
Il campionamento multistadiale: definizione dello stimatore del totale e calcolo della varianza approssimata.
9. APPLICAZIONI
La valutazione del rischio associato alla divulgazione dei dati a fini statistici, alcuni metodi di privatizzazione dei dati (differential privacy e tecnica delle risposte randomizzate). Diversi indici per misurare il rischio nella divulgazione dei dati, quando essi sono nella forma di tabelle di frequenze.
10. I DOMINI DI STUDIO
Il concetto di dominio di studio, classificazione dei domini in base alla dimensione. Stima dei parametrinei domini di studio maggiori e minori. Cenni alle problematiche dei mini-domini e domini rari.
11. GLI ERRORI NON CAMPIONARI
Diverse tipologie di errori non campionari: errori di copertura, errori da mancate risposte ed errori di misurazione. Metodi per la riduzione degli errori non campionari.
Metodo delle risposte casualizzate: metodo di Warner e metodo di Simmons.
Prerequisiti
Per seguire in modo proficuo il corso di Metodi per le Indagini Campionarie si consiglia la conoscenza degli argomenti trattati nei corsi di Analisi Matematica e Statistica a livello di laurea triennale.
Metodi didattici
Sono previste lezioni frontali ed esercitazioni pratiche.
Nel periodo di emergenza Covid-19 le lezioni si svolgeranno da remoto
in modalità sincrona via Webex.
Modalità di verifica dell'apprendimento
L’esame è costituito da una prova scritta, l'orale è facoltativo. La prova scritta è costituita da esercizi e da alcune domande di teoria. Gli esercizi mirano ad accertare la comprensione degli argomenti trattati e la capacità dello studente di sfruttare gli strumenti di teoria dei campioni per risolvere problemi concreti. Le domande di teoria servono a verificare la conoscenza dei concetti di base di teoria dei campioni. Una ed una sola delle domande di teoria concerne una dimostrazione vista durante il corso.
L'orale è facoltativo e può essere chiesto sia dallo studente che dal docente. L'esame orale verte su tutto il programma del corso e deve essere svolto pochi giorni dopo lo scritto, in base alle disponibilità del docente. In tal caso il voto finale è una media della prova scritta e della prova orale. Nel caso di scritto svolto a distanza, per ragioni legate al Covid, l'orale è obbligatorio.
Durante lo scritto è consentito l'uso della calcolatrice scientifica, ma non è ammesso l'uso di appunti, libri e strumenti tecnologici. In emergenza Covid le prove scritte e orali si terranno attraverso la piattaforma Webex ed esamionlineTesti di riferimento
Per la prima parte del corso consigliano i seguenti testi:
1) G. Cicchitelli, A. Herzel, G.E. Montanari. Il campionamento statistico. Il Mulino, 1997.
2) P.L. Conti, D. Marella. Campionamento da popolazioni finite. Springer-Verlag Mailand, 2012.
3) S. Thompson. Sampling. Wiley, 2012.
Per la seconda parte del corso (divulgazione dei dati a fini statistici e valutazione del rischio)
1) Dwork, C., Roth A. The Algorithmic foundations of Differential Privacy. 2014.
2) Articoli indicati dal docente durante il corso
Periodo di erogazione dell’insegnamento
Il corso verrà erogato nel secondo semestre (periodo: marzo-aprile).
Lingua di insegnamento
Learning objectives
This course aims at providing the students with all the necessary notions to face statistical inference for finite populatins. In the first part of the course, the teacher will introduce the most important sampling schemes for finite populations and he will define different kinds of estimators for means/totals. In the last part of the course some important applications will be discussed, with a special focus on the most recent techniques to privatize a dataset.
Contents
The first part of the course aims at providing the students with a solid theoretical background to face statistical inference for finite populations. More precisely the most important sampling schemes will be analyzed: simple random sampling, stratified, systematic, cluster sampling, multi-stage design, etc. Besides different kinds of estimators for means, totals and proportions will be defined and studied, among them we consider the ratio and regression estimators. In the second part of the course, some applications will be analyzed, among which the randomized response techinque, disclosure risk assessment and differential privacy. Finally we will face the problem of non-sampling errors. The course includes lessons and exercises.
Detailed program
1. INTRODUCTION AND BASIC NOTIONS
Historical background, the difference between a sample survy and a census. The notion of population, sample, variable. The underlying probability space in a sample survy and the notion of sampling design. Non-probabilistic sampling schemes.
2. SIMPLE RANDOM SAMPLING WITHOUT REPLACEMENT
The Horvitz-Thompson estimator for the total for simple random sampling without replacement. Evaluation of the variance and the unbiased estimator. Hàjek theorem (without proof) and the construction of asymptotic confidence intervals. Estimators for means and proportions. The problem of sample size in simple random sampling.
3. SIMPLE RANDOM SAMPLING WITH REPLACEMENT
The Hansen-Hurwitz estimator: derivation in the general case. Analysis of the estimator for simple random sampling with replacement. The notion of design effect.
4. VARYING PROBABILITY SAMPLING
The variance of the Hansen-Hurwitz and the Horvitz-Thompson estimator. The notion of auxiliary variable. Different sampling schemes with varying probabilities.
5. STRATIFIED SAMPLING
The definition of the sampling scheme. Estimators for mean, total in the stritified sampling scheme.
Optimum and proportional allocation. Poststratification.
6. RATIO ESTIMATOR
The use of auxiliary variables for defining different and more efficient estimators. The ratio estimator: definition, the method of linearization to estimate the variance, comparision with simple random sampling.
Ratio estimator for stratified random sampling.
Regression estimator: definition, variance.
8. CLUSTER AND MULTISTAGE SAMPLING
Cluster sampling: basic properties. The unbiased estimator and the ratio estimator in cluster sampling. The analysis of variance: variability within and across clusters, total variability of the population, the index of homogeneity within clusters.
Multistage design: definition, estimator of the total and evaluation of the variance.
9. APPLICATIONS
Disclosure risk assessment. Randomized response techniques. Differential Privacy.
10. NON-SAMPLING ERRORS
The notion of non-sampling errors.
The randomized response technique: Warner's and Simmons's methods.
Prerequisites
It is recommended the knowledge of the arguments of Mathematical Analysis and Statistics, taught during the bachelor degree.
Teaching methods
Traditional lessons and class exercises.
During the emergency Covid-19 the lessons will be live via Webex.
Assessment methods
The exam is written, the oral test is not mandatory. In the written test, the student is asked to solve exercises and to answer some questions concerning sampling methods. One and only one question concerns a proof of a result that has been discussed during the lectures.
The oral test is optional, and it may be requested by the student or by the instructor some days after the written test. The oral exam will focus on questions of the theory developed during the course. If the written test has been held online (due to Covid reasons), then the oral test is mandatory.
In the period of Covid emergency, the written and oral examination will be held via Webex and Esamionline.
Textbooks and Reading Materials
As for the first part, the following books are recommended:
1) G. Cicchitelli, A. Herzel, G.E. Montanari. Il campionamento statistico. Il Mulino, 1997.
2) P.L. Conti, D. Marella. Campionamento da popolazioni finite. Springer-Verlag Mailand, 2012.
3) S. Thompson. Sampling. Wiley, 2012.
As for the second part (disclosure risk assessment and differential privacy):
1) Dwork, C., Roth A. The Algorithmic foundations of Differential Privacy. 2014.
2) Papers suggested during the course.
Semester
Spring semester.
Teaching language
The lessons will be held in Italian.
Scheda del corso
Staff
-
Federico Camerlenghi