- Mathematical Statistics
- Summary
Course Syllabus
Obiettivi
Conoscere e comprendere gli strumenti di base della statistica inferenziale.
Essere in grado di applicare tali conoscenze a situazioni in cui si ha un campione di osservazioni, al fine di fornire, dopo una opportuna scelta del modello aleatorio, stime su parametri incogniti e opinioni motivate sulle proprietà di tali parametri.
Contenuti sintetici
Modelli statistici. Statistica inferenziale: stimatori, intervalli di confidenza, test d'ipotesi.
Programma esteso
Il programma è uguale per frequentanti e non frequentanti.
Introduzione alla statistica
- Popolazione obiettivo, campione casuale. Problema del campionamento. Statistica. Densità dipendenti da parametri incogniti.
Stime puntuali di parametri
- Stimatore, stimatore non distorto, errore quadratico medio, consistenza in media quadratica, condizione necessaria e sufficiente per la consistenza in media quadratica di una successione di stimatori.
- Stimatori per i momenti di una VA: momenti campionari. Media campionaria.
- Stimatore non distorto della varianza: varianza campionaria.
- Metodo dei momenti per la costruzione di stimatori.
- Funzione di verosimiglianza. Stimatore di massima verosimiglianza.
- Stimatore UMVUE; limite inferiore della varianza (disuguaglianza di Cramér-Rao).
- Proprietà di invarianza degli stimatori di massima verosimiglianza. Proprietà asintotiche degli stimatori di massima verosimiglianza.
- Campionamento da v.a. Normali: legge della media campionaria. Legge del quadrato di una Normale(0,1): legge chi quadro a 1 grado di libertà. Legge della somma dei quadrati di normali standard indipendenti: legge chi quadro a k gradi di libertà. Legge della varianza campionaria di un campione normale. Legge t di Student.
Stime intervallari
- Intervalli di confidenza: definizione, livello di confidenza.
- Intervalli per la media di popolazione normale (varianza nota o incognita).
- Intervalli per la varianza di popolazione normale (media nota o incognita).
- Quantità pivotale e suo utilizzo per il calcolo di intervalli di confidenza.
- Intervalli di confidenza per grandi campioni (in particolare per frequenze ovvero parametri di Bernoulli).
- Quantità pivotale per campioni provenienti da legge assolutamente continua.
Test d'ipotesi
- Test per un'ipotesi statistica; test non casualizzato e regione critica. Livello di significatività, p-value. Test uniformemente più potente di livello fissato.
- Test per una media di popolazione normale (varianza nota oppure ignota).
- Test per la varianza di una popolazione normale (media nota o ignota).
- Test per differenza di medie per popolazioni normali.
- Confronto fra intervalli e test.
- Test su una frequenza e su due frequenze (campione numeroso).
- Test del rapporto di verosimiglianza semplice e generalizzato. Teorema di Neyman-Pearson.
- Test chi quadrato di Pearson per l'adattamento (con o senza parametri stimati).
- Test chi quadrato di Pearson per l'indipendenza.
Regressione lineare
- Regressione lineare semplice e multipla: definizione, interpretazione, test.
Prerequisiti
Analisi matematica I e II, in particolare calcolo integrale.
Probabilità di base: leggi di variabili aleatorie discrete e continue. Valore atteso e varianza. Legge di funzioni di variabili aleatorie. Indipendenza. Convergenza di successioni di variabili aleatorie.
Modalità didattica
La modalità didattica consiste di lezioni ed esercizi in aula.
In ogni caso gli studenti sono invitati ad esercitarsi a casa con gli esercizi che vengono forniti tramite la piattaforma elearning (alcuni dei quali vengono proposti a lezione e che fanno da modello per gli esercizi richiesti in sede d'esame).
Materiale didattico
Libro di testo:
Introduzione alla statistica di A.M.Mood, F.A.Graybill, D.C.Boes, 1991, McGraw-Hill Italia,ISBN: 9788838606618
Altro materiale: slide delle lezioni e degli esercizi su elearning.unimib.it
Periodo di erogazione dell'insegnamento
Secondo semestre.
Modalità di verifica del profitto e valutazione
Esame scritto con:
- domande a scelta multipla (sui concetti teorici descritti nel corso)
- domande a risposta aperta (sui concetti teorici descritti nel corso, ivi comprese le richieste di enunciare una definizione e/o enunciare e dimostrare teoremi)
- esercizi scritti: applicazione dei concetti teorici e di tecniche analoghe agli esercizi proposti a lezione e per casa.
La composizione dello scritto può variare nelle proporzioni delle tre parti da un appello all'altro, rimanendo comunque tutte e tre sempre rappresentate.
Per le parti 1. e 2. non è consentito tenere materiale didattico, mentre per la parte 3. è consentito l'utilizzo di un formulario autoprodotto scritto su un foglio A4 (fronte e retro), oltre che delle tavole statistiche di normale, Student e chi quadro.
Lo scritto ha di norma una durata da un minimo di 1h30' a un massimo di 2h20' (in dipendenza dalla lunghezza dei quesiti). Nelle domande a risposta multipla è valutata la capacità di discernere risposte corrette da risposte errate, nonché la capacità di discernere se e quando certe proprietà degli oggetti studiati siano valide oppure no. Nel resto dell'esame scritto sono valutate l'esattezza delle risposte, la chiarezza espositiva, la completezza delle stesse. Si valuta anche la capacità di argomentare e discernere quando certi metodi di inferenza statistica sono più appropriati e quando invece costituiscono solo un metodo approssimativo. Le parti 1. e 2. contribuiscono complessivamente per 1/3 del punteggio finale mentre la parte 3. ha un peso di 2/3.
Alcune domande di teoria sono inserite nella prova scritta e l'orale è a richiesta del docente e/o dello studente ed è un colloquio sullo scritto, sugli argomenti svolti a lezione ed eventualmente di approfondimento sulla parte della regressione lineare. Nell'orale sono valutate le stesse qualità delle risposte che sono valutate nello scritto. Gli studenti con votazione insufficiente ma maggiore o uguale a 16/30 nello scritto possono richiedere di sostenere l'orale, così come tutti gli altri studenti con votazione sufficiente. In caso di sostenimento della prova orale, il peso dello scritto è di 3/4 e quello dell'orale di 1/4. Di norma i voti sufficienti (compreso il massimo dei voti) possono essere confermati senza prova orale, fermo restando la facoltà del docente di chiedere una prova orale in tutte le situazioni in cui ravvisi la necessità di chiarimenti riguardo alla prova scritta.
Nel corso dell'anno sono previsti 5 appelli d'esame, calendarizzati dal corso di laurea (solitamente nei mesi di giugno, luglio, settembre, novembre e gennaio/febbraio, oppure giugno, luglio, settembre, gennaio e febbraio).
Sono previste due prove in itinere: la prima a metà corso e la seconda in concomitanza del primo appello. Modalità e valutazione delle prove in itinere sono identiche a quelle degli esami (con la differenza che una verte sulla prima metà del programma e l'altra verte sulla seconda metà). Sono ammessi alla seconda prova in itinere gli studenti che hanno una valutazione di almeno 14/30 nella prima. Il voto proposto è la media aritmetica dei voti riportati nelle due prove in itinere.
Orario di ricevimento
Su appuntamento.
Aims
Knowledge of the basic tools of inferential statistics.
Acquire the ability of applying this knowledge to situation where we have a sample of observations, in order to provide, after a proper choice of the random model, estimates of the unknown parameters and reasonable oinions on the properties of these parameters.
Contents
Statistical models. Inferential statistics: estimators, confidence intervals, hypothesis testing.
Detailed program
The program is the same for attending and non-attending students
Introduction to Statistics
- Target population, random sample. Sampling problem. Statistics. Density dependent on unknown parameters.
Point estimation of parameters
- Estimator, unbiased estimator, mean square error, consistency in quadratic mean, necessary and sufficient condition for the consistency in quadratic mean of a sequence of estimators.
- Estimators for the moments of a VA: sample moments. Sample mean.
- Unbiased estimator of the variance: sample variance.
- Method of moments for the construction of estimators.
- Likelihood function. Maximum likelihood estimator.
- UMVUE, the lower limit of variance (Cramér-Rao).
- Invariance property of maximum likelihood estimators. Asymptotic properties of maximum likelihood estimators.
- Sampling from Normal random variables: the law of the sample mean. Square law of a Normal (0,1): chi-square law with 1 degree of freedom. Law of the sum of squares of independent standard normals: Chi-square law with k degrees of freedom. Law of the sample variance of a normal sample. Student's t law.
Confidence intervals
- Definition, confidence level.
- Intervals for the mean of the normal population (known or unknown variance).
- Intervals for the variance of the normal population (mean known or unknown).
- Pivotal quantity and its use for the calculation of confidence intervals.
- Confidence intervals for large samples (especially for frequencies or parameters of Bernoulli).
- Pivotal quantity for samples from the absolutely continuous laws.
Hypothesis testing
- Tests for statistical hypothesis, non-randomized tests and the critical region. Significance level, the p-value. Uniformly more powerful tests.
- Test for a mean of the normal population (variance known or unknown).
- Test for the variance of a normal population (mean known or unknown).
- Test for difference of means for normal populations.
- Test on a frequency and on two frequencies (large sample).
- Test of simple and generalized likelihood ratio. Neyman-Pearson Theorem.
- Pearson chi-square test for adaptation (with or without parameters estimated).
- Pearson chi-square test for Independence.
Linear regression
- Simple and multiple linear regression: definition, interpretation, testing.
Prerequisites
Mathematical analysis I and II, in particular integral calculus.
Basic probability: laws of discrete and continuous random variables. Expected value and variance. Law of functions of random variables. Independence. Convergence of sequences of random variables.
Teaching form
Lessons and exercises will be provided in the classroom.
In any case students are advised to exercise at home with the exercises which are provided through the elearning platform (some of those exercises are discussed during the lessons and are a model for the exercises which are given during examinations).
Textbook and teaching resource
Textbook:
Introduzione alla statistica di A.M.Mood, F.A.Graybill, D.C.Boes, 1991, McGraw-Hill Italia,ISBN: 9788838606618
Other material: slides of the lessons and the exercises on elearning.unimib.it
Semester
Second semester.
Assessment method
Written exam with
- multiple choiche questions (on the theoretical aspects described in the course)
- open questions (on the theoretical aspects described in the course, includeing the requirement of writing definitions and statement and proof of theorems)
- written exercises: application of the theoretical concepts and of techniques like the ones used in the exercises which are assigned in the classroom and at home.
The composition of the written exam may vary in the proportion of the three parts in different sessions, but all the three parts will always be represented.
Durin part 1. and 2. student cannot consult any material, while during part 3. they may use a self-made form on a A4 page (front and back), plus the statistical tables of normal, Student and chi squared distributions.
The written exam usually last from a minimum of 1h30' to a maximum of 2h20' (depending on the length of the questions/exercises). In the multiple choice questions we evaluate the capacity of recognizing the correct answers among wrong answers, and the capacity of understanding under which circumstances some properties of the objects, studied in the course, are valid or not. In the rest of the written exam we evaluate the correctness of the answers, the clarity and their completeness. We also evaluate the capacity of discussiong when certain statistical inference methods are more appropriate and when they are only an approximation. Parts 1. and 2. contribute a total of 1/3 of the final score while part 3. has a weight of 2/3.
Some open questions on the theoretical aspects are inserted in the written exam and the oral examination may be required by the student and/or the teacher and is a discussion based on the written examination, on the subjects treated during the lessons and eventually on the subject of the linear regression. In the oral examination we evaluate the same qualities of the answers of the written part. Students with an insufficient evaluation but larger or equal to 16/30 may ask to be evaluated orally, and so may all the other students with positive evaluation in the written examination. In case of an oral examination, its mark will have a weight of 1/4 (and 3/4 for the written part). Usually sufficient marks (including the maximum of the gradings) may be confirmed without an oral examination, but the teacher can request an oral examination in all the situations where she judges necessary to ask for explanations on the written exam.
During the year there are 5 exam sessions, scheduled by the degree course (usually in the months of June, July, September, November and January/February, or June, July, September, January and February).
There are two partial exams: the first in the middle of the semester and the second in conjunction with the first exam session. Methods and evaluation of the partial exams are identical to those of the usual exams (with the difference that one concerns the first half of the program and the other concerns the second half). Students who have an evaluation of at least 14/30 in the first are admitted to the second partial exam. The proposed mark is the arithmetic mean of the marks obtained in the two partial exams..
Office hours
By appointment.