- Area Economico-Statistica
- Corso di Laurea Triennale
- Scienze Statistiche ed Economiche [E4101B]
- Insegnamenti
- A.A. 2023-2024
- 3° anno
- Data Mining
- Introduzione
Syllabus del corso
Obiettivi formativi
Il corso intende fornire una visione completa del Data Mining, dal pre processamento del dato fino alla selezione del miglior modello statistico per l'analisi e la comprensione del problema.
Alla fine del corso, lo studente sarà in grado di confrontare e selezionare il miglior metodo di Data Mining per il problema oggetto di analisi. Saprà trattare le principali problematiche relative al dato e, autonomamente, affrontare un problema reale nel miglior modo.
Contenuti sintetici
Durante il corso verranno affrontate le principali tecniche per il trattamento dei dati e spiegati sia metodi statistici di tipo supervisionato sia non supervisionato. Inoltre verranno introdotti concetti relativi al Text Mining.
Programma esteso
- Introduzione al Data mining. Concetti introduttivi e esempi applicativi
- Pre-processing: trattamento dei missing values.
- Introduzione alla classificazione con esempi e concetti introduttivi. Metodi di classificazione: discriminante lineare, discriminante quadratico, k-nn e alberi decisionali.
- Definizione di overfitting e tecniche per evitarlo
- Introduzione al clustering con esempi e concetti introduttivi: metodi gerarchici e partizionali.
- Text mining con esempi e concetti di base: pre-processing (stop words, stem words, ...), rappresentazioni grafiche e utilizzo del clustering per il Text Mining.
Prerequisiti
Analisi Statistica Multivariata e programmazione in R.
Metodi didattici
Lezioni frontali e laboratorio.
Modalità di verifica dell'apprendimento
Progetto e esame orale.
Scritto
Prova scritta mirata a verificare gli argomenti presentati in classe.
Progetto
Progetto applicativo da svolgere autonomamente o in gruppo su un dataset assegnato dal docente o scelto dagli studenti. Il progetto è realizzato in R e deve dimostrare la capacità di affrontare un problema reale in ogni suo aspetto utilizzando quanto visto a lezione.
Il progetto si compone sia del codice R sia di un report di presentazione.
Orale
Presentazione e discussione del progetto.
Note
Prove intermedie non sono previste.
Gli studenti non frequentanti sono pregati di contattare il docente almeno 15 giorni prima della data dell’esame.
Testi di riferimento
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).
Altro materiale verrà indicato a lezione.
Periodo di erogazione dell'insegnamento
II Semestre
Lingua di insegnamento
Italiano
Sustainable Development Goals
Learning objectives
The course aims at introducing the main concepts behind the Data Mining world, from data pre-processing to model selection.
At the end of the course, students will be able to compare and select the best Data Mining method for the problem under study. Students will also be able to solve the main issue related to data and, autonomously, tackle complex real problem .
Contents
The course deals with techniques for handling specific data's issue and supervised and unsupervised statistical methods. Additionally, the course deals also with Text Mining techniques.
Detailed program
- Introduction to Data Mining. Main concepts and examples.
- Data pre-processing: how to deal with missing values
- Introduction to classification. Main concepts and examples. Classification methods: linear and quadratic discriminant analysis, k-nearest neighborhood classifier and decision trees.
- Overfitting and related techniques.
- Introduction to clustering. Main concepts and examples. Clustering methods: hierarchical and partitional clustering.
- Text Mining. Main concepts and examples. Pre-processing (stop words, stem words, ...), visual representations and clustering for Text Mining.
Prerequisites
Multivariate Statistical Analysis and R language.
Teaching methods
Lectures and computer lab.
Assessment methods
Project work and oral exam.
Written exam
Written exam aimed at assessing the competence acquired during the course.
Project work
Project work (also in group) related to the analysis of a real data problem. The problem is chosen by the students or assigned by the professor. The project should be done in R and it aims at demonstrating the ability in dealing with real application applying what has been studied during the course.
Oral exam
Project work's presentation and discussion. Questions about theory related to course's subjects.
Note
No middle exam are expected.
Student workers (non-attending students) are kindly invited to contact the professor at least 15 days before the exam date.
Textbooks and Reading Materials
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).
Materials will be also provided during the course.
Semester
II Semester
Teaching language
Italian
Sustainable Development Goals
Scheda del corso
Staff
-
Matteo Borrotti