Course Syllabus
Obiettivi formativi
Il corso si propone di introdurre i concetti e i metodi di statistica descrittiva, calcolo delle probabilità ed inferenza statistica (stima, test, modelli) sia dal punto di vista teorico che applicativo attraverso l’utilizzo di software (R), con particolare attenzione agli argomenti rilevanti per i corsi più avanzati di datamining e machine learning.
Alla fine del corso lo studente ha la possibilità di capire l’induzione statistica e le implicazioni sulla popolazione derivanti dallo studio di un campione di dati, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dataset reali.
Contenuti sintetici
Metodi di statistica descrittiva, calcolo delle probabilità ed inferenza statistica (stima, test, modelli)
Programma esteso
- Introduzione al trattamento dati con R
- Analisi descrittiva: distribuzioni, rappresentazioni grafiche, indici di posizione e di variabilità
- Calcolo delle probabilità: concezioni probabilistiche, probabilità sugli eventi, teorema di Bayes, variabili aleatorie e distribuzioni di probabilità, distribuzioni notevoli, enunciazioni LLN e CLT
- Inferenza statistica: la logica del campionamento probabilistico. Stimatori e loro proprietà. Stima puntuale (Media varianza e proporzione). Cenni sugli stimatori di massima verosimiglianza.
- Stima intervallare: concetto di confidenza, intervalli di confidenza, casi particolari sulla media e la varianza
- Verifica di ipotesi: Il concetto di statistica test. La significatività e la potenza del test. Test sulla media, varianza, proporzione, sulla differenza tra medie, test di indipendenza.
- Regressione lineare semplice: metodo di stima dei minimi quadrati, misure di adeguatezza del modello, distribuzione campionaria degli stimatori OLS, test d'ipotesi e intervalli di confidenza per i coefficienti di regressione, analisi della varianza, outliers e osservazioni influenti
Prerequisiti
Nessuno.
Metodi didattici
Lezioni frontali e laboratorio.
Modalità di verifica dell'apprendimento
PROVA SCRITTA: consiste in una batteria di domande a risposta multipla e/o domande aperte e/o esercizi sulla TEORIA affrontata a lezione e sulla verifica della conoscenza del linguaggio R (punteggio massimo 31).
Non sono previste prove in itinere
Testi di riferimento
Materiale del docente a disposizione degli studenti sull'e-learning
Libro di testo:
Alan Agresti, Maria Kateri (2022), Foundations of Statistics for Data Scientists With R and Python, Chapman & Hall
Altri testi a scelta:
- A.M. Mood, F.A. Graybill, D.C. Boes, Introduzione alla statistica
- G. Cicchitelli, P. D'Urso M. Minozzo, Statistica: principi e metodi
- P.S. Mann, Introductory Statistics
- M. Lavine, Introduction to Statistical Thought
Periodo di erogazione dell'insegnamento
Primo semestre (Settembre - Novembre)
Lingua di insegnamento
Inglese
Sustainable Development Goals
Learning objectives
The course aims to introduce the concepts and methods of descriptive statistics, probability and statistical inference (estimation, tests, models) both from a theoretical and an application point of view through the use of software (R), with particular attention to the topics relevant for the most advanced datamining and machine learning courses.
At the end of the course the student has the opportunity to understand the statistical induction and the implications on the population deriving from the study of a data sample, being able to experiment and apply the knowledge acquired on real datasets.
Contents
Descriptive statistics, probability and statistical inference (estimation, tests, models)
Detailed program
- Introduction to data analysis with R
- Descriptive analysis: distributions, graphical representations, position and variability indices
- Probability: probabilistic conceptions, probability on events, Bayes theorem, random variables and probability distributions, large distributions, LLN and CLT statements
- Statistical inference: the logic of probabilistic sampling. Estimators and their properties. Point estimate (Average, variance and proportion). Notes on maximum likelihood estimators.
- Interval estimation: concept of confidence, confidence intervals, particular cases on the mean and variance
- Hypothesis testing: The concept of test statistics. The significance and power of the test. Test on average, variance, proportion, on the difference between averages, independence test.
- Simple linear regression: least squares estimation method, model adequacy measures, sampling distribution of OLS estimators, hypothesis tests and confidence intervals for the regression coefficients, analysis of variance, outliers and influential observations
Prerequisites
None.
Teaching methods
Lectures and computer lab.
Assessment methods
WRITTEN EXAM: it is a multiple choice and/or open question and/or exercises exam about the theoretical issues proposed in class and verification of the knowledge about the R language (max grade 31).
There is no mid term evaluation
Textbooks and Reading Materials
Teacher material available for the students on e-learning site
Textbook:
Alan Agresti, Maria Kateri (2022), Foundations of Statistics for Data Scientists With R and Python, Chapman & Hall
Other texts of your choice:
- A.M. Mood, F.A. Graybill, D.C. Boes, Introduzione alla statistica
- G. Cicchitelli, P. D'Urso M. Minozzo, Statistica: principi e metodi
- P.S. Mann, Introductory Statistics
- M. Lavine, Introduction to Statistical Thought
Semester
I semester (September-November)
Teaching language
English