Skip to main content
If you continue browsing this website, you agree to our policies:
  • Condizioni di utilizzo e trattamento dei dati
Continue
x
e-Learning - UNIMIB
  • Home
  • My Media
  • More
Listen to this page using ReadSpeaker
English ‎(en)‎
English ‎(en)‎ Italiano ‎(it)‎
 Log in
e-Learning - UNIMIB
Home My Media
Percorso della pagina
  1. Economics
  2. Bachelor Degree
  3. Scienze Statistiche ed Economiche [E4103B - E4101B]
  4. Courses
  5. A.A. 2024-2025
  6. 3rd year
  1. Data Mining
  2. Summary
Insegnamento Course full name
Data Mining
Course ID number
2425-3-E4101B026
Course summary SYLLABUS

Course Syllabus

  • Italiano ‎(it)‎
  • English ‎(en)‎
Export

Obiettivi formativi

Il corso intende fornire una visione completa del Data Mining, dal pre-processamento del dato fino alla selezione del miglior modello statistico per l'analisi e la comprensione del problema. Durante il corso verranno affrontate le principali tecniche per il trattamento dei dati e presentati metodi statistici di tipo supervisionato. Inoltre, verranno introdotti concetti relativi al Text Mining.
Alla fine del corso, lo studente sarà in grado di confrontare e selezionare il miglior metodo di Data Mining per il problema oggetto di analisi. Saprà trattare le principali problematiche relative al dato e, autonomamente, affrontare un problema reale nel miglior modo.

Il corso contribuisce al raggiungimento degli obiettivi formativi nell’area di apprendimento del Corso di Laurea Triennale: “Statistica”.
.

Contenuti sintetici

Trattamento dei missing values.
Metodi supervisionati di classificazione/regresisone.
Trade-off bias varianza.
Text mining.
Market basket analysis.

Programma esteso

  1. Introduzione al Data mining.
  2. Pre-processing: trattamento dei missing values. Metodi di imputazione singola e multipla.
  3. Introduzione alla classificazione con esempi e concetti introduttivi. Metodi di classificazione: discriminante lineare, discriminante quadratico, k-nn e alberi decisionali.
  4. Trade off bias varianza. Definizione di overfitting e relative tecniche di mitigazione.
  5. Text mining con esempi e concetti di base: pre-processing (ad esempio eliminazione stop words) e rappresentazioni grafiche per il Text Mining.
  6. Market Basket Analysis e algoritmo aPriori.

Prerequisiti

Analisi Statistica Multivariata e programmazione in R.

Metodi didattici

Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.

Le 42 ore di didattica saranno così suddivise:

  • 30 ore di lezione svolte in modalità erogativa;
  • 12 ore di attività di laboratorio.

Modalità di verifica dell'apprendimento

Scritto
(20 su 32) Prova scritta mirata a verificare gli argomenti presentati in aula.

Progetto
(12 su 32) Progetto applicativo da svolgere autonomamente o in gruppo (max. 3 persone) su un dataset assegnato dal docente o scelto dagli studenti. Il progetto è realizzato in R e deve dimostrare la capacità di affrontare un problema reale in ogni suo aspetto utilizzando quanto visto a lezione. Il progetto si compone sia del codice R sia di un report di presentazione realizzato attraverso Rmarkdown.

Testi di riferimento

Fonte principale:
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).

Fonti utili per approfondire R:
W. N. Venables, D. M. Smith and the R Core Team, An Introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics.
https://cran.r-project.org/doc/manuals/R-intro.pdf
C. Agostinelli, Introduzione a R. https://cran.r-project.org/doc/contrib/manuale.0.3.pdf

Altro materiale utile:
http://www.feat.engineering

Altro materiale verrà indicato a lezione.

Periodo di erogazione dell'insegnamento

II Semestre - III periodo

Lingua di insegnamento

Italiano

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ
Export

Learning objectives

The course aims to provide a comprehensive view of data mining, from the pre-processing of the data to the selection of the best statistical model for analysing and understanding the problem. During the course, the main techniques for data processing will be addressed and supervised statistical methods will be presented. Furthermore, concepts related to text mining will be introduced.
At the end of the course, the student will be able to compare and select the best Data Mining method for the problem under analysis. He/she will be able to deal with the main data issues and, independently, deal with a real problem in the best way.

The course contributes to the achievement of the learning objectives in the learning area of the three-year degree course: ‘Statistics’.

Contents

How to deal with missing values.
Supervised classification/regression methods.
Trade-off bias variance.
Text mining.
Market basket analysis.

Detailed program

  1. Introduction to data mining.
  2. Pre-processing: treatment of missing values. Single and multiple imputation methods.
  3. Introduction to classification with examples and introductory concepts. Classification methods: linear discriminant, quadratic discriminant, k-nn and decision trees.
  4. Trade off bias variance. Definition of overfitting and related mitigation techniques.
  5. Text mining with examples and basic concepts: pre-processing (e.g. elimination of stop words) and graphical representations for text mining.
  6. Market Basket Analysis and aPriori algorithm.

Prerequisites

Multivariate Statistical Analysis and R language.

Teaching methods

Lessons will be held both in the classroom and in the laboratory, integrating theoretical and practical-application aspects of data analysis and programming in R.

The 42 hours of teaching will be divided as follows:

  • 30 hours of lectures;
  • 12 hours of laboratory activities.

Assessment methods

Written
(20 out of 32) Written test aimed at verifying the topics presented in the classroom.

Project
(12 out of 32) Application project to be carried out independently or in a group (max. 3 people) on a dataset assigned by the lecturer or chosen by the students. The project is carried out in R and must demonstrate the ability to tackle a real problem in all its aspects using what has been seen in class. The project consists of both the R code and a presentation report produced using Rmarkdown.

Textbooks and Reading Materials

Main book:
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).

Useful reading materials for R:
W. N. Venables, D. M. Smith and the R Core Team, An Introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics.
https://cran.r-project.org/doc/manuals/R-intro.pdf
C. Agostinelli, Introduzione a R. https://cran.r-project.org/doc/contrib/manuale.0.3.pdf

Further readings:
http://www.feat.engineering

Materials will be also provided during the course.

Semester

II Semester - III period

Teaching language

Italian

Sustainable Development Goals

QUALITY EDUCATION
Enter

Key information

Field of research
SECS-S/01
ECTS
6
Term
Second semester
Activity type
Mandatory to be chosen
Degree Course Type
Degree Course
Language
Italian

Staff

    Teacher

  • MB
    Matteo Borrotti

Students' opinion

View previous A.Y. opinion

Bibliography

Find the books for this course in the Library

Enrolment methods

Manual enrolments
Self enrolment (Student)

Sustainable Development Goals

QUALITY EDUCATION - Ensure inclusive and equitable quality education and promote lifelong learning opportunities for all
QUALITY EDUCATION

You are not logged in. (Log in)
Policies
Get the mobile app
Powered by Moodle
© 2025 Università degli Studi di Milano-Bicocca
  • Privacy policy
  • Accessibility
  • Statistics