Informazioni sul corso | Data Mining

Syllabus del corso

Italiano ‎(it)‎
English ‎(en)‎

Esporta

Obiettivi formativi

Il corso intende fornire una visione completa del Data Mining, dal pre-processamento del dato fino alla selezione del miglior modello statistico per l'analisi e la comprensione del problema. Durante il corso verranno affrontate le principali tecniche per il trattamento dei dati e presentati metodi statistici di tipo supervisionato. Inoltre, verranno introdotti concetti relativi al Text Mining.
Alla fine del corso, lo studente sarà in grado di confrontare e selezionare il miglior metodo di Data Mining per il problema oggetto di analisi. Saprà trattare le principali problematiche relative al dato e, autonomamente, affrontare un problema reale nel miglior modo.

Il corso contribuisce al raggiungimento degli obiettivi formativi nell’area di apprendimento del Corso di Laurea Triennale: “Statistica”.
.

Contenuti sintetici

Trattamento dei missing values.
Metodi supervisionati di classificazione/regresisone.
Trade-off bias varianza.
Text mining.
Market basket analysis.

Programma esteso

Introduzione al Data mining.
Pre-processing: trattamento dei missing values. Metodi di imputazione singola e multipla.
Introduzione alla classificazione con esempi e concetti introduttivi. Metodi di classificazione: discriminante lineare, discriminante quadratico, k-nn e alberi decisionali.
Trade off bias varianza. Definizione di overfitting e relative tecniche di mitigazione.
Text mining con esempi e concetti di base: pre-processing (ad esempio eliminazione stop words) e rappresentazioni grafiche per il Text Mining.
Market Basket Analysis e algoritmo aPriori.

Prerequisiti

Analisi Statistica Multivariata e programmazione in R.

Metodi didattici

Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.

Le 42 ore di didattica saranno così suddivise:

30 ore di lezione svolte in modalità erogativa;
12 ore di attività di laboratorio.

Modalità di verifica dell'apprendimento

Scritto
(20 su 32) Prova scritta mirata a verificare gli argomenti presentati in aula.

Progetto
(12 su 32) Progetto applicativo da svolgere autonomamente o in gruppo (max. 3 persone) su un dataset assegnato dal docente o scelto dagli studenti. Il progetto è realizzato in R e deve dimostrare la capacità di affrontare un problema reale in ogni suo aspetto utilizzando quanto visto a lezione. Il progetto si compone sia del codice R sia di un report di presentazione realizzato attraverso Rmarkdown.

Testi di riferimento

Fonte principale:
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).

Fonti utili per approfondire R:
W. N. Venables, D. M. Smith and the R Core Team, An Introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics.
https://cran.r-project.org/doc/manuals/R-intro.pdf
C. Agostinelli, Introduzione a R. https://cran.r-project.org/doc/contrib/manuale.0.3.pdf

Altro materiale utile:
http://www.feat.engineering

Altro materiale verrà indicato a lezione.

Periodo di erogazione dell'insegnamento

II Semestre - III periodo

Lingua di insegnamento

Italiano

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ

Esporta

Learning objectives

The course aims to provide a comprehensive view of data mining, from the pre-processing of the data to the selection of the best statistical model for analysing and understanding the problem. During the course, the main techniques for data processing will be addressed and supervised statistical methods will be presented. Furthermore, concepts related to text mining will be introduced.
At the end of the course, the student will be able to compare and select the best Data Mining method for the problem under analysis. He/she will be able to deal with the main data issues and, independently, deal with a real problem in the best way.

The course contributes to the achievement of the learning objectives in the learning area of the three-year degree course: ‘Statistics’.

How to deal with missing values.
Supervised classification/regression methods.
Trade-off bias variance.
Text mining.
Market basket analysis.

Detailed program

Introduction to data mining.
Pre-processing: treatment of missing values. Single and multiple imputation methods.
Introduction to classification with examples and introductory concepts. Classification methods: linear discriminant, quadratic discriminant, k-nn and decision trees.
Trade off bias variance. Definition of overfitting and related mitigation techniques.
Text mining with examples and basic concepts: pre-processing (e.g. elimination of stop words) and graphical representations for text mining.
Market Basket Analysis and aPriori algorithm.

Prerequisites

Multivariate Statistical Analysis and R language.

Teaching methods

Lessons will be held both in the classroom and in the laboratory, integrating theoretical and practical-application aspects of data analysis and programming in R.

The 42 hours of teaching will be divided as follows:

30 hours of lectures;
12 hours of laboratory activities.

Assessment methods

Written
(20 out of 32) Written test aimed at verifying the topics presented in the classroom.

Project
(12 out of 32) Application project to be carried out independently or in a group (max. 3 people) on a dataset assigned by the lecturer or chosen by the students. The project is carried out in R and must demonstrate the ability to tackle a real problem in all its aspects using what has been seen in class. The project consists of both the R code and a presentation report produced using Rmarkdown.

Textbooks and Reading Materials

Main book:
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).

Useful reading materials for R:
W. N. Venables, D. M. Smith and the R Core Team, An Introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics.
https://cran.r-project.org/doc/manuals/R-intro.pdf
C. Agostinelli, Introduzione a R. https://cran.r-project.org/doc/contrib/manuale.0.3.pdf

Further readings:
http://www.feat.engineering

Materials will be also provided during the course.

Settore disciplinare

SECS-S/01

CFU

Periodo

Secondo Semestre

Tipo di attività

Obbligatorio a scelta

Tipologia CdS

Laurea Triennale

Lingua

Italiano

Docente

MB

Matteo Borrotti

Vedi valutazione del precedente anno accademico

Trova i libri per questo corso nella Biblioteca di Ateneo

Iscrizione manuale

Iscrizione spontanea (Studente)

Syllabus del corso

Obiettivi formativi

Contenuti sintetici

Programma esteso

Prerequisiti

Metodi didattici

Modalità di verifica dell'apprendimento

Testi di riferimento

Periodo di erogazione dell'insegnamento

Lingua di insegnamento

Sustainable Development Goals

Learning objectives

Contents

Detailed program

Prerequisites

Teaching methods

Assessment methods

Textbooks and Reading Materials

Semester

Teaching language

Sustainable Development Goals

Scheda del corso

Staff

Docente

Opinione studenti

Bibliografia

Metodi di iscrizione

Obiettivi di sviluppo sostenibile