Course Syllabus
Obiettivi formativi
Il corso si propone di introdurre i concetti e i metodi di statistica descrittiva, calcolo delle probabilità ed inferenza statistica (stima, test, modelli) sia dal punto di vista teorico che applicativo attraverso l’utilizzo di software (R), con particolare attenzione agli argomenti rilevanti per i corsi più avanzati di datamining e machine learning.
Alla fine del corso lo studente ha la possibilità di capire l’induzione statistica e le implicazioni sulla popolazione derivanti dallo studio di un campione di dati, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dataset reali.
Contenuti sintetici
Metodi di statistica descrittiva, calcolo delle probabilità ed inferenza statistica (stima, test, modelli)
Programma esteso
- Introduzione al trattamento dati con R
- Analisi descrittiva: distribuzioni, rappresentazioni grafiche, indici di posizione e di variabilità
- Calcolo delle probabilità: concezioni probabilistiche, probabilità sugli eventi, teorema di Bayes, variabili aleatorie e distribuzioni di probabilità
- Inferenza statistica: la logica del campionamento probabilistico. Stimatori e loro proprietà. Stima puntuale (Media varianza e proporzione). Cenni sugli stimatori di massima verosimiglianza.
- Stima intervallare: concetto di confidenza, intervalli di confidenza, casi particolari sulla media e la varianza
- Verifica di ipotesi: Il concetto di statistica test. La significatività e la potenza del test. Test sulla media, varianza, proporzione, sulla differenza tra medie, test di indipendenza.
- Regressione lineare semplice: metodo di stima dei minimi quadrati, misure di adeguatezza del modello, distribuzione campionaria degli stimatori OLS, test d'ipotesi e intervalli di confidenza per i coefficienti di regressione, analisi della varianza, outliers e osservazioni influenti
Prerequisiti
Nessuno.
Metodi didattici
Lezioni frontali e laboratorio.
Modalità di verifica dell'apprendimento
PROVA SCRITTA: consiste in una batteria di domande a risposta multipla e/ domande aperte sulla TEORIA affrontata a lezione. (punteggio massimo 25)
PROGETTO: Sviluppo di un progetto originale a partire da una semplice idea o dall’analisi di un caso esistente. Lavoro applicativo da svolgere autonomamente o in gruppo (al max 3 studenti) su un dataset scelto dallo studente (con R) su cui applicare i principali argomenti svolti a lezione (analisi descrittive, test, modello lineare). Il progetto va inviato al docente almeno 10 gg prima della prova, sarà valido per l'intero anno accademico. (punteggio massimo 6).
Non sono previste prove in itinere
Testi di riferimento
Materiale del docente a disposizione degli studenti sull'e-learning
Testo a scelta:
- A.M. Mood, F.A. Graybill, D.C. Boes, Introduzione alla statistica
- G. Cicchitelli, P. D'Urso M. Minozzo, Statistica: principi e metodi
- P.S. Mann, Introductory Statistics
- M. Lavine, Introduction to Statistical Thought
Periodo di erogazione dell'insegnamento
Primo semestre (Settembre - Novembre)
Lingua di insegnamento
Inglese/Italiano
Learning objectives
The course aims to introduce the concepts and methods of descriptive statistics, probability and statistical inference (estimation, tests, models) both from a theoretical and an application point of view through the use of software (R), with particular attention to the topics relevant for the most advanced datamining and machine learning courses.
At the end of the course the student has the opportunity to understand the statistical induction and the implications on the population deriving from the study of a data sample, being able to experiment and apply the knowledge acquired on real datasets.
Contents
Descriptive statistics, probability and statistical inference (estimation, tests, models)
Detailed program
- Introduction to data analysis with R
- Descriptive analysis: distributions, graphical representations, position and variability indices
- Probability: probabilistic conceptions, probability on events, Bayes theorem, random variables and probability distributions
- Statistical inference: the logic of probabilistic sampling. Estimators and their properties. Point estimate (Average, variance and proportion). Notes on maximum likelihood estimators.
- Interval estimation: concept of confidence, confidence intervals, particular cases on the mean and variance
- Hypothesis testing: The concept of test statistics. The significance and power of the test. Test on average, variance, proportion, on the difference between averages, independence test.
- Simple linear regression: least squares estimation method, model adequacy measures, sampling distribution of OLS estimators, hypothesis tests and confidence intervals for the regression coefficients, analysis of variance, outliers and influential observations
Prerequisites
None.
Teaching methods
Lectures and computer lab.
Assessment methods
WRITTEN EXAM: it is a multiple choice and open question exam about the theoretical issues proposed in class. (max grade 25)
PROJECT WORK: (in group - max 3 students - or individually) involving a data analysis (with R) on a dataset chosen by the student to replicate arguments and analyses discussed during lab sessions. The project must be send at least 10 days before the final test (written exam) to the teacher (max grade 6)
There is no mid term evaluation
Textbooks and Reading Materials
Teacher material available for the students on e-learning site
Text of your choice:
- A.M. Mood, F.A. Graybill, D.C. Boes, Introduzione alla statistica
- G. Cicchitelli, P. D'Urso M. Minozzo, Statistica: principi e metodi
- P.S. Mann, Introductory Statistics
- M. Lavine, Introduction to Statistical Thought
Semester
I semester (September-November)
Teaching language
English/Italian
Key information
Staff
-
Matteo Borrotti