- Probabilità e Statistica per l'Informatica (blended)
- Introduzione
Syllabus del corso
Obiettivi
L'insegnamento si propone di fornire allo studente abilità di base nel campo del calcolo delle probabilità e della statistica matematica (descrittiva e inferenziale). Al termine del corso lo studente sarà in grado di:
- conoscere e comprendere il linguaggio, le definizioni e gli enunciati di alcuni risultati di base del calcolo delle probabilità e della statistica matematica
- usare le nozioni apprese per condurre ragionamenti in condizioni di incertezza e per modellare fenomeni del mondo reale, utilizzando in particolare distribuzioni notevoli
- analizzare e descrivere sinteticamente insiemi di dati
- effettuare stime di parametri in modelli che descrivono fenomeni aleatori e condurre verifiche di ipotesi
- implementare concretamente i punti precedenti al calcolatore attraverso il linguaggio di programmazione R
Contenuti sintetici
La prima parte del corso, dedicata al calcolo delle probabilità, si apre con la statistica descrittiva, che permette di sintetizzare le informazioni salienti relative a un insieme di dati. Vengono quindi presentati gli spazi di probabilità, che sono alla base della descrizione matematica dei fenomeni aleatori, e le variabili aleatorie, che ne costituiscono il "linguaggio operativo". Completano la prima parte i teoremi di convergenza (legge dei grandi numeri e teorema limite centrale) che descrivono il comportamento di fenomeni aleatori con un grande numero di componenti.
La seconda parte del corso, dedicata alla statistica matematica, presenta innanzitutto le tecniche principali per la stima di parametri in un modello probabilistico. Viene poi discussa la verifica di ipotesi e i relativi test statistici, sia relativi a parametri incogniti in un modello aleatorio (test parametrici) sia relativi al confronto di distribuzioni (test non parametrici). Il corso si conclude con la regressione lineare, una tecnica importante per studiare il legame che può sussistere tra una variabile (output) e un insieme di variabili (input) in condizioni di incertezza.
Programma esteso
0. Statistica descrittiva
- Introduzione all'analisi dei dati
- Statistiche campionarie (media, mediana, quantili, varianza, correlazione)
- Rappresentazioni grafiche
1. Spazi di probabilità
- Fenomeni aleatori, spazi di probabilità ed eventi
- Probabilità condizionata
- Elementi di calcolo combinatorio
- Indipendenza di eventi
2. Variabili aleatorie
- Variabili aleatorie e distribuzioni
- Valore medio, momenti, varianza e covarianza
- Variabili aleatorie notevoli discrete (Bernoulli, Binomiale, Geometrica, Poisson)
- Variabili aleatorie notevoli continue (Uniforme, Esponenziale, Gamma, Normale)
3. Teoremi di convergenza
- Convergenza di variabili aleatorie e distribuzioni (cenni)
- Legge dei grandi numeri
- Teorema limite centrale
4. Stima di parametri
- Campioni e statistiche
- Stimatori (media e varianza campionarie)
- Intervalli di confidenza
5. Verifica di ipotesi
- Test per la verifica di un'ipotesi, errori di I e II specie
- Test parametrici per media e varianza
- Test non parametrici di buon adattamento e di indipendenza
6. Regressione lineare
- Introduzione alla regressione
- Inferenza statistica sui parametri
- Analisi dei residui
Prerequisiti
Le conoscenze, competenze e abilità impartite negli insegnamenti precedenti di matematica, in particolare di Analisi Matematica.
Modalità didattica
Lezioni frontali articolate in
- lezioni teoriche, in cui si fornisce la conoscenza di definizioni, risultati, dimostrazioni ed esempi rilevanti;
- esercitazioni, in cui si forniscono competenze e abilità necessaire per
utilizzare le nozioni teoriche per la risoluzione di esercizi.
Se l'emergenza Covid-19 lo permetterà, le lezioni saranno tenute in aula in presenza. Altrimenti saranno tenute in una modalità mista (parzialmente in presenza, parzialmente a distanza) o interamente a distanza, secondo le disposizioni che riceveremo. Tutte le lezioni saranno videoregistrate e rese disponibili da remoto. Al fine di facilitare il coinvolgimento degli studenti, le lezioni a distanza saranno integrate con eventi di discussione / ricevimento in videoconferenza sincrona.
Il corso viene erogato in modalità blended-learning ed in lingua Italiana.
Materiale didattico
Testo di riferimento:
- S. M. Ross (2014), Introduzione alla Statistica, seconda edicione, Apogeo Editore
Inoltre, viene reso disponibile il seguente materiale didattico:
- Videoregistrazioni delle lezioni (teoria ed esercitazionj)
- Appunti dei docenti
- Fogli di esercizi
Periodo di erogazione dell'insegnamento
Secondo semestre
Modalità di verifica del profitto e valutazione
L'esame è costituito da una prova scritta e da una eventuale prova orale e riceve un voto in trentesimi.
La prova scritta è costituita da due parti:
- una prima parte con domande a risposta chiusa, che contribuisce per un terzo al punteggio totale, in cui vengono valutate le conoscenze teoriche;
- una seconda parte con esercizi a risposta aperta, che contribuiscono per due terzi al punteggio totale, in cui vengono valutate le abilità pratiche.
Sono previste anche due prove in itinere, a metà e alla fine del corso, con la stessa struttura della prova scritta. Il superamento di entrambe le prove in itinere equivale al superamento della prova scritta con la media dei voti ottenuti.
La prova orale è facoltativa (o a richiesta del docente) e può contribuire sia in maniera positiva che in maniera negativa al voto finale.
Se l'emergenza Covid-19 lo permetterà, le prove d'esame saranno tenute in presenza, altrimenti si svolgeranno a distanza, secondo le disposizioni che riceveremo.
Orario di ricevimento
Su appuntamento
Aims
To provide core skills in the fields of probability theory and (descriptive and inferential) mathematical statistics. At the end of the course, students will be able:
- to understand language, definitions and statements of some of the core results in probability theory and mathematical statistics
- to take adavantage of the concepts learned in the course to perform autonomous reasoning under uncertainty
- to analyze and describe data sets
- to estimate parameters for models describing random phenomena and to perfom hypothesis testing
- to implement the above mentioned points in the computer using the R programming language
Contents
The first part of the course, devoted to probability theory, starts with an introduction to the so-called descriptive statistics which allows to summarize the salient features of some data set. Subsequently we present probability spaces, a key concept in the modeling of random phenomena, along with random variables which form its "operating language". Finally, we focus on limit theorems (law of large numbers and central limit theorem) which describe the behavior of random phenomena with a large number of components.
The second part of the course, devoted to mathematical statistics, starts with a presentation of the main parameter estimation techniques for probabilistic models. Then we discuss hypothesis testing and the corresponding statistical tests, concerning both unknown parameters in a random model (parametric tests) and the comparison between distributions (non-parametric tests). The last part of the course is devoted to the linear regression, a powerful technique to investigate the link that might exist between some variable (output) and a given set of variables (input) under uncertainty.
Detailed program
0. Descriptive Statistics
- Introduction to data analysis
- Sample statistics (mean, median, quantiles, variance, correlation)
- Graphical representations
1. Probability spaces
- Random phenomena, probability spaces and events
- Elements of combinatorial calculus
- Independence of events
2. Random variables
- Random variables and distributions
- Expectation, moments, variance and covariance
- Important discrete random variables ( Bernoulli, Binomial, Geometric, Poisson)
- Important continuous random variables (Uniform, Esponential, Gamma, Normal)
3. Convergence Theorems
- Convergence of random variables and distribuitons (hints)
- Law of Large Numbers
- Central Limit Theorem
4. Parameters Estimation
- Samples and statistics
- Estimators (sample mean and variance)
- Confidence intervals
5. Hypothesis Testing
- Hypothesis testing, I type and II type errors
- Parametric hypothesis testing for mean and variance
- Non parametric hypothesis testing for goodness of fit and independence
6. Linear Regression
- Introduction to linear regression
- Statistical inference for parameters
- Residual analysis
Prerequisites
The knowledge, competences and skills taught in previous mathematical courses, in particular concerning Mathematical Analysis.
Teaching form
Lectures divided into:
- theoretical lectures, focused on the knoledge of definitions, results, proofs and relevant examples;
- recitations, focused on the skills
necessary to apply the theoretical knoledge and competencies to the
solution of exercises.
If the Covid-19 emergency will allow for it, lectures will be given in the classroom. Otherwise they will be given in a mixed mode (partially in the classroom, partially on-line) or entirely on-line, according to the safety rules that we will receive. All lectures will be recorded and made available on the e-learning website. In order to help students take an active part in the course, on-line lectures will be integrated with discussion events that will be held in real time.
The course is given in blended-learning in Italian.Textbook and teaching resource
Reference book:
- S. M. Ross (2014), Introduzione alla Statistica, seconda edicione, Apogeo Editore
Moreover, the following teaching material is made avaliable:
- Videorecording of the lectures (theory and exercise classes)
- Theacher's notes
- Exercise sheets
Semester
Spring term (Second semester)
Assessment method
The exam consists of a written part and of a possible oral part. It receives a mark out of 30.
The written part consists of two parts:
- a first part of closed-ended questions, which contributes one third to the final mark, where theoretical skills are tested;
- a second part of open questions, which contributes two thirds to the final mark, where practical skills are tested.
Two midterms will be held, halfway and at the end of the course, with the same structure as the written part. Passing both midterms is equivalent to passing the written part with the mean of the marks.
The oral part is optional (or at the request of the teacher) and can increase or decrease the final mark.
The examinations will be held in presence if the Covid-19 emergency will make it possible, otherwise they will be held on-line, according the the safetly rules that we will receive.
Office hours
By appointment
Scheda del corso
Staff
-
Francesco Caravenna
-
Guglielmo Lulli
-
Federica Masiero
-
Maurizia Rossi
-
Riccardo Magnoli