- Area Economico-Statistica
- Corso di Laurea Triennale
- Scienze Statistiche ed Economiche [E4101B]
- Insegnamenti
- A.A. 2024-2025
- 3° anno
- Data Mining
- Introduzione
Syllabus del corso
Obiettivi formativi
Il corso intende fornire una visione completa del Data Mining, dal pre-processamento del dato fino alla selezione del miglior modello statistico per l'analisi e la comprensione del problema. Durante il corso verranno affrontate le principali tecniche per il trattamento dei dati e presentati metodi statistici di tipo supervisionato. Inoltre, verranno introdotti concetti relativi al Text Mining.
Alla fine del corso, lo studente sarà in grado di confrontare e selezionare il miglior metodo di Data Mining per il problema oggetto di analisi. Saprà trattare le principali problematiche relative al dato e, autonomamente, affrontare un problema reale nel miglior modo.
Il corso contribuisce al raggiungimento degli obiettivi formativi nell’area di apprendimento del Corso di Laurea Triennale: “Statistica”.
.
Contenuti sintetici
Trattamento dei missing values.
Metodi supervisionati di classificazione/regresisone.
Trade-off bias varianza.
Text mining.
Market basket analysis.
Programma esteso
- Introduzione al Data mining.
- Pre-processing: trattamento dei missing values. Metodi di imputazione singola e multipla.
- Introduzione alla classificazione con esempi e concetti introduttivi. Metodi di classificazione: discriminante lineare, discriminante quadratico, k-nn e alberi decisionali.
- Trade off bias varianza. Definizione di overfitting e relative tecniche di mitigazione.
- Text mining con esempi e concetti di base: pre-processing (ad esempio eliminazione stop words) e rappresentazioni grafiche per il Text Mining.
- Market Basket Analysis e algoritmo aPriori.
Prerequisiti
Analisi Statistica Multivariata e programmazione in R.
Metodi didattici
Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.
Le 42 ore di didattica saranno così suddivise:
- 30 ore di lezione svolte in modalità erogativa;
- 12 ore di attività di laboratorio.
Modalità di verifica dell'apprendimento
Scritto
(20 su 32) Prova scritta mirata a verificare gli argomenti presentati in aula.
Progetto
(12 su 32) Progetto applicativo da svolgere autonomamente o in gruppo (max. 3 persone) su un dataset assegnato dal docente o scelto dagli studenti. Il progetto è realizzato in R e deve dimostrare la capacità di affrontare un problema reale in ogni suo aspetto utilizzando quanto visto a lezione. Il progetto si compone sia del codice R sia di un report di presentazione realizzato attraverso Rmarkdown.
Testi di riferimento
Fonte principale:
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).
Fonti utili per approfondire R:
W. N. Venables, D. M. Smith and the R Core Team, An Introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics.
https://cran.r-project.org/doc/manuals/R-intro.pdf
C. Agostinelli, Introduzione a R. https://cran.r-project.org/doc/contrib/manuale.0.3.pdf
Altro materiale utile:
http://www.feat.engineering
Altro materiale verrà indicato a lezione.
Periodo di erogazione dell'insegnamento
II Semestre - III periodo
Lingua di insegnamento
Italiano
Sustainable Development Goals
Learning objectives
The course aims to provide a comprehensive view of data mining, from the pre-processing of the data to the selection of the best statistical model for analysing and understanding the problem. During the course, the main techniques for data processing will be addressed and supervised statistical methods will be presented. Furthermore, concepts related to text mining will be introduced.
At the end of the course, the student will be able to compare and select the best Data Mining method for the problem under analysis. He/she will be able to deal with the main data issues and, independently, deal with a real problem in the best way.
The course contributes to the achievement of the learning objectives in the learning area of the three-year degree course: ‘Statistics’.
Contents
How to deal with missing values.
Supervised classification/regression methods.
Trade-off bias variance.
Text mining.
Market basket analysis.
Detailed program
- Introduction to data mining.
- Pre-processing: treatment of missing values. Single and multiple imputation methods.
- Introduction to classification with examples and introductory concepts. Classification methods: linear discriminant, quadratic discriminant, k-nn and decision trees.
- Trade off bias variance. Definition of overfitting and related mitigation techniques.
- Text mining with examples and basic concepts: pre-processing (e.g. elimination of stop words) and graphical representations for text mining.
- Market Basket Analysis and aPriori algorithm.
Prerequisites
Multivariate Statistical Analysis and R language.
Teaching methods
Lessons will be held both in the classroom and in the laboratory, integrating theoretical and practical-application aspects of data analysis and programming in R.
The 42 hours of teaching will be divided as follows:
- 30 hours of lectures;
- 12 hours of laboratory activities.
Assessment methods
Written
(20 out of 32) Written test aimed at verifying the topics presented in the classroom.
Project
(12 out of 32) Application project to be carried out independently or in a group (max. 3 people) on a dataset assigned by the lecturer or chosen by the students. The project is carried out in R and must demonstrate the ability to tackle a real problem in all its aspects using what has been seen in class. The project consists of both the R code and a presentation report produced using Rmarkdown.
Textbooks and Reading Materials
Main book:
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).
Useful reading materials for R:
W. N. Venables, D. M. Smith and the R Core Team, An Introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics.
https://cran.r-project.org/doc/manuals/R-intro.pdf
C. Agostinelli, Introduzione a R. https://cran.r-project.org/doc/contrib/manuale.0.3.pdf
Further readings:
http://www.feat.engineering
Materials will be also provided during the course.
Semester
II Semester - III period
Teaching language
Italian
Sustainable Development Goals
Scheda del corso
Staff
-
Matteo Borrotti