- Probabilità e Statistica per l'Informatica (blended)
- Introduzione
Syllabus del corso
Obiettivi
L'insegnamento si propone di fornire allo studente abilità di base nel campo del calcolo delle probabilità e della statistica matematica (descrittiva e inferenziale). Al termine del corso lo studente sarà in grado di:
- conoscere e comprendere il linguaggio, le definizioni e gli enunciati di alcuni risultati di base del calcolo delle probabilità e della statistica matematica;
- usare le nozioni apprese per condurre ragionamenti in condizioni di incertezza e per modellare fenomeni del mondo reale, utilizzando in particolare distribuzioni notevoli;
- analizzare e descrivere sinteticamente insiemi di dati;
- effettuare stime di parametri in modelli che descrivono fenomeni aleatori e condurre verifiche di ipotesi;
- implementare concretamente i punti precedenti al calcolatore attraverso il linguaggio di programmazione R.
Contenuti sintetici
La prima parte del corso, dedicata al calcolo delle probabilità, si apre con la statistica descrittiva, che permette di sintetizzare le informazioni salienti relative a un insieme di dati. Vengono quindi presentati gli spazi di probabilità, che sono alla base della descrizione matematica dei fenomeni aleatori, e le variabili aleatorie, che ne costituiscono il "linguaggio operativo".
La seconda parte del corso, dedicata alla statistica matematica, si apre con i teoremi di convergenza (legge dei grandi numeri e teorema limite centrale) che descrivono il comportamento di fenomeni aleatori con un grande numero di componenti. Vengono presentate le tecniche principali per la stima di parametri in un modello probabilistico e viene discussa la verifica di ipotesi e i corrispondenti test statistici, sia relativi a parametri incogniti in un modello aleatorio (test parametrici) sia relativi al confronto di distribuzioni (test non parametrici). Il corso si conclude con la regressione lineare, una tecnica importante per studiare il legame che può sussistere tra una variabile (output) e un insieme di variabili (input) in condizioni di incertezza.
Programma esteso
1. Statistica descrittiva
- Introduzione all'analisi dei dati
- Statistiche campionarie (media, mediana, quantili, varianza, correlazione)
- Rappresentazioni grafiche
2. Spazi di probabilità
- Fenomeni aleatori, spazi di probabilità ed eventi
- Proprietà di base della probabilità
- Probabilità condizionata
- Elementi di calcolo combinatorio
- Indipendenza di eventi
3. Variabili aleatorie
- Variabili aleatorie discrete
- Valore medio, momenti, varianza e covarianza
- Variabili aleatorie assolutamente continue
- Distribuzioni notevoli discrete e assolutamente continue
- Variabili aleatorie normali
4. Teoremi di convergenza
- Convergenza di variabili aleatorie e distribuzioni (cenni)
- Legge dei grandi numeri
- Teorema limite centrale
5. Stima di parametri
- Campioni e statistiche
- Stimatori (media e varianza campionarie)
- Intervalli di confidenza
6. Verifica di ipotesi
- Test per la verifica di un'ipotesi, errori di I e II specie
- Test parametrici per media e varianza
- Test non parametrici di buon adattamento e di indipendenza
7. Regressione lineare
- Introduzione alla regressione
- Inferenza statistica sui parametri
- Analisi dei residui
Prerequisiti
Le conoscenze, competenze e abilità impartite negli insegnamenti precedenti di matematica, in particolare di Analisi Matematica.
Modalità didattica
Lezioni frontali articolate in
- lezioni teoriche, in cui si fornisce la conoscenza di definizioni, risultati, dimostrazioni ed esempi rilevanti;
- esercitazioni, in cui si forniscono competenze e abilità necessaire per utilizzare le nozioni teoriche per la risoluzione di esercizi.
Laboratorio con R
- esercitazioni con il software R per effettuare analisi statistiche e risolvere esercizi numerici.
Il corso viene erogato in modalità blended-learning ed in lingua Italiana.
Materiale didattico
Testo di riferimento:
- S. M. Ross (2014), Introduzione alla Statistica, seconda edicione, Apogeo Editore
Inoltre, viene reso disponibile il seguente materiale didattico:
- Appunti dei docenti
- Fogli di esercizi
Laboratorio con R
- video lezioni e appunti
Periodo di erogazione dell'insegnamento
Secondo semestre
Modalità di verifica del profitto e valutazione
L'esame è costituito da una prova scritta e da una eventuale prova orale e riceve un voto in trentesimi.
La prova scritta è costituita da due parti:
- una prima parte con domande a risposta chiusa, che contribuisce per un terzo al punteggio totale, in cui vengono valutate le conoscenze teoriche;
- una seconda parte con esercizi a risposta aperta, che contribuiscono per due terzi al punteggio totale, in cui vengono valutate le abilità pratiche.
Sono previste anche due prove parziali, a metà e alla fine del corso, con la stessa struttura della prova scritta. Il superamento di entrambe le prove parziali equivale al superamento della prova scritta con la media dei voti ottenuti.
La prova orale è facoltativa (su richiesta dello studente e/o del docente) e può contribuire sia in maniera positiva che in maniera negativa al voto finale.
Progetto con il software "R" da svolgere in autonomia. Prova facoltativa dal valore di 2 punti.
Orario di ricevimento
Su appuntamento
Aims
To provide core skills in the fields of probability theory and (descriptive and inferential) mathematical statistics. At the end of the course, students will be able:
- to understand language, definitions and statements of some of the core results in probability theory and mathematical statistics;
- to take adavantage of the concepts learned in the course to perform autonomous reasoning under uncertainty;
- to analyze and describe data sets;
- to estimate parameters for models describing random phenomena and to perfom hypothesis testing;
- to implement the above mentioned points in the computer using the R programming language.
Contents
The first part of the course, devoted to probability theory, starts with an introduction to the so-called descriptive statistics which allows to summarize the salient features of some data set. Subsequently we present probability spaces, a key concept in the modeling of random phenomena, along with random variables which form its "operating language".
The second part of the course, devoted to mathematical statistics, starts with the main limit theorems (law of large numbers and central limit theorem) which describe the behavior of random phenomena with a large number of components. Then we discuss hypothesis testing and the corresponding statistical tests, concerning both unknown parameters in a random model (parametric tests) and the comparison between distributions (non-parametric tests). The last part of the course is devoted to the linear regression, a powerful technique to investigate the link that might exist between some variable (output) and a given set of variables (input) under uncertainty.
Detailed program
1. Descriptive Statistics
- Introduction to data analysis
- Sample statistics (mean, median, quantiles, variance, correlation)
- Graphical representations
2. Probability spaces
- Random phenomena, probability spaces and events
- Basic properties of probability
- Conditional probability
- Elements of combinatorial calculus
- Independence of events
3. Random variables
- Discrete random variables
- Expectation, moments, variance and covariance
- Absolutely continuous random variables
- Important discrete and absolutely continuous distributions
- Normal random variables
4. Convergence Theorems
- Convergence of random variables and distribuitons (hints)
- Law of Large Numbers
- Central Limit Theorem
5. Parameters Estimation
- Samples and statistics
- Estimators (sample mean and variance)
- Confidence intervals
6. Hypothesis Testing
- Hypothesis testing, I type and II type errors
- Parametric hypothesis testing for mean and variance
- Non parametric hypothesis testing for goodness of fit and independence
7. Linear Regression
- Introduction to linear regression
- Statistical inference for parameters
- Residual analysis
Prerequisites
The knowledge, competences and skills taught in previous mathematical courses, in particular concerning Mathematical Analysis.
Teaching form
Lectures divided into:
- theoretical lectures, focused on the knowledge of definitions, results, proofs and relevant examples;
- recitations, focused on the skills necessary to apply the theoretical knowledge and competencies to the solution of exercises.
Computer workshops with R
- use of R for statistical analysis and solution of exercises.
The course is given in blended-learning in Italian.
Textbook and teaching resource
Reference book:
- S. M. Ross (2014), Introduzione alla Statistica, seconda edicione, Apogeo Editore
Moreover, the following teaching material is made avaliable:
- Theacher's notes
- Exercise sheets
Computer workshops with R
- video lectures and slides
Semester
Spring term (Second semester)
Assessment method
The exam consists of a written part and of a possible oral part. It receives a mark out of 30.
The written part consists of two parts:
- a first part of closed-ended questions, which contributes one third to the final mark, where theoretical skills are tested;
- a second part of open questions, which contributes two thirds to the final mark, where practical skills are tested.
Two midterms will be held, halfway and at the end of the course, with the same structure as the written part. Passing both midterms is equivalent to passing the written part with the average of the marks.
The oral part is optional (or at the request of the student and/or of the teacher) and can increase or decrease the final mark.
Coursework with R, which is optional and counts for 2 marks.
Office hours
By appointment
Scheda del corso
Staff
-
Francesco Caravenna
-
Guglielmo Lulli
-
Federica Masiero
-
Maurizia Rossi
-
Federico Pasquale Cortese
-
Susanna Mirabella
-
Marco Zullino