- Area Economico-Statistica
- Corso di Laurea Triennale
- Scienze Statistiche ed Economiche [E4101B]
- Insegnamenti
- A.A. 2021-2022
- 3° anno
- Data Mining
- Introduzione
Syllabus del corso
Obiettivi formativi
Il corso intende fornire una visione completa del Data Mining, dal pre processamento del dato fino alla selezione del miglior modello statistico per l'analisi e la comprensione del problema.
Alla fine del corso, lo studente sarà in grado di confrontare
e selezionare il miglior metodo di Data Mining per il problema oggetto di analisi. Saprà trattare le principali problematiche relative al dato e, autonomamente, affrontare un problema reale nel miglior modo.
Contenuti sintetici
Durante il corso verranno affrontate le principali tecniche per il trattamento dei dati e spiegati sia metodi statistici di tipo supervisionato sia non supervisionato. Inoltre verranno introdotti concetti relativi al Text Mining.
Programma esteso
- Introduzione al Data mining. Concetti introduttivi e esempi applicativi
- Pre-processing: trattamento dei missing values.
- Introduzione alla classificazione con esempi e concetti introduttivi. Metodi di classificazione: regressione logistica, discriminante lineare, discriminante quadratico e k-nn.
- Definizione di overfitting e tecniche per evitarlo
- Introduzione al clustering con esempi e concetti introduttivi: metodi gerarchici e partizionali.
- Text mining con esempi e concetti di base: pre-processing (stop words, stem words, ...), rappresentazioni grafiche e utilizzo del clustering per il Text Mining.
Prerequisiti
Analisi Statistica Multivariata e programmazione in R.
Metodi didattici
Lezioni frontali e laboratorio.
Modalità di verifica dell'apprendimento
Progetto e esame orale.
Scritto
Prova scritta mirata a verificare gli argomenti presentati in classe.
Progetto
Progetto applicativo da svolgere autonomamente o in gruppo su un dataset assegnato dal docente o scelto dagli studenti. Il progetto è realizzato in R e deve dimostrare la capacità di affrontare un problema reale in ogni suo aspetto utilizzando quanto visto a lezione.
Il progetto si compone sia del codice R sia di un report di presentazione.
Orale
Presentazione e discussione del progetto.
Nel periodo di emergenza Covid-19 gli esami orali saranno solo telematici. Verranno svolti utilizzando la piattaforma WebEx e nella pagina e-learning dell'insegnamento verrà riportato un link pubblico per l'accesso all'esame di possibili spettatori virtuali.
Note
Prove intermedie non sono previste.
Gli studenti non frequentanti sono pregati di contattare il docente almeno 15 giorni prima della data dell’esame.
Testi di riferimento
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).
Altro materiale verrà indicato a lezione.
Periodo di erogazione dell’insegnamento
I Semestre
Lingua di insegnamento
Italiano
Learning objectives
The course aims at introducing the main concepts behind the Data Mining world, from data pre-processing to model selection.
At the end of the course, students will be able to compare and select the best Data Mining method for the problem under
study. Students will also be able to solve the main issue related to data and, autonomously, tackle complex real problem .
Contents
The course deals with techniques for handling specific data's issue and supervised and unsupervised statistical methods. Additionally, the course deals also with Text Mining techniques.
Detailed program
- Introduction to Data Mining. Main concepts and examples.
- Data pre-processing: how to deal with missing values
- Introduction to classification. Main concepts and examples. Classification methods: logistics regression, linear and quadratic discriminant analysis and k-nearest neighborhood classifier.
- Overfitting and related techniques.
- Introduction to clustering. Main concepts and examples. Clustering methods: hierarchical and partitional clustering.
- Text Mining. Main concepts and examples. Pre-processing (stop words, stem words, ...), visual representations and clustering for Text Mining.
Prerequisites
Multivariate Statistical Analysis and R language.
Teaching methods
Lectures and computer lab.
Assessment methods
Project work and oral exam.
Written exam
Written exam aimed at assessing the competence acquired during the course.
Project work
Project work (also in group) related to the analysis of a real data problem. The problem is chosen by the students or assigned by the professor. The project should be done in R and it aims at demonstrating the ability in dealing with real application applying what has been studied during the course.
Oral exam
Project work's presentation and discussion. Questions about theory related to course's subjects.
During Covid-19, oral exam will be done using the WebEx platform.
Note
No middle exam are expected.
Student workers (non-attending students) are kindly invited to contact the professor at least 15 days before the exam date.
Textbooks and Reading Materials
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).
Materials will be also provided during the course.
Semester
I Semester
Teaching language
Italian
Scheda del corso
Staff
-
Matteo Borrotti