Vai al contenuto principale
Se prosegui nella navigazione del sito, ne accetti le politiche:
  • Condizioni di utilizzo e trattamento dei dati
Prosegui
x
e-Learning - UNIMIB
  • Home
  • My Media
  • Altro
Ascolta questa pagina con ReadSpeaker
Italiano ‎(it)‎
English ‎(en)‎ Italiano ‎(it)‎
 Login
e-Learning - UNIMIB
Home My Media
Percorso della pagina
  1. Area Economico-Statistica
  2. Corso di Laurea Triennale
  3. Scienze Statistiche ed Economiche [E4103B - E4101B]
  4. Insegnamenti
  5. A.A. 2024-2025
  6. 3° anno
  1. Data Mining
  2. Introduzione
Insegnamento Titolo del corso
Data Mining
Codice identificativo del corso
2425-3-E4101B026
Descrizione del corso SYLLABUS

Syllabus del corso

  • Italiano ‎(it)‎
  • English ‎(en)‎
Esporta

Obiettivi formativi

Il corso intende fornire una visione completa del Data Mining, dal pre-processamento del dato fino alla selezione del miglior modello statistico per l'analisi e la comprensione del problema. Durante il corso verranno affrontate le principali tecniche per il trattamento dei dati e presentati metodi statistici di tipo supervisionato. Inoltre, verranno introdotti concetti relativi al Text Mining.
Alla fine del corso, lo studente sarà in grado di confrontare e selezionare il miglior metodo di Data Mining per il problema oggetto di analisi. Saprà trattare le principali problematiche relative al dato e, autonomamente, affrontare un problema reale nel miglior modo.

Il corso contribuisce al raggiungimento degli obiettivi formativi nell’area di apprendimento del Corso di Laurea Triennale: “Statistica”.
.

Contenuti sintetici

Trattamento dei missing values.
Metodi supervisionati di classificazione/regresisone.
Trade-off bias varianza.
Text mining.
Market basket analysis.

Programma esteso

  1. Introduzione al Data mining.
  2. Pre-processing: trattamento dei missing values. Metodi di imputazione singola e multipla.
  3. Introduzione alla classificazione con esempi e concetti introduttivi. Metodi di classificazione: discriminante lineare, discriminante quadratico, k-nn e alberi decisionali.
  4. Trade off bias varianza. Definizione di overfitting e relative tecniche di mitigazione.
  5. Text mining con esempi e concetti di base: pre-processing (ad esempio eliminazione stop words) e rappresentazioni grafiche per il Text Mining.
  6. Market Basket Analysis e algoritmo aPriori.

Prerequisiti

Analisi Statistica Multivariata e programmazione in R.

Metodi didattici

Le lezioni si svolgono sia in aula che in laboratorio, integrando aspetti di carattere teorico con quelli pratico-applicativi di analisi dei dati e di programmazione in R.

Le 42 ore di didattica saranno così suddivise:

  • 30 ore di lezione svolte in modalità erogativa;
  • 12 ore di attività di laboratorio.

Modalità di verifica dell'apprendimento

Scritto
(20 su 32) Prova scritta mirata a verificare gli argomenti presentati in aula.

Progetto
(12 su 32) Progetto applicativo da svolgere autonomamente o in gruppo (max. 3 persone) su un dataset assegnato dal docente o scelto dagli studenti. Il progetto è realizzato in R e deve dimostrare la capacità di affrontare un problema reale in ogni suo aspetto utilizzando quanto visto a lezione. Il progetto si compone sia del codice R sia di un report di presentazione realizzato attraverso Rmarkdown.

Testi di riferimento

Fonte principale:
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).

Fonti utili per approfondire R:
W. N. Venables, D. M. Smith and the R Core Team, An Introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics.
https://cran.r-project.org/doc/manuals/R-intro.pdf
C. Agostinelli, Introduzione a R. https://cran.r-project.org/doc/contrib/manuale.0.3.pdf

Altro materiale utile:
http://www.feat.engineering

Altro materiale verrà indicato a lezione.

Periodo di erogazione dell'insegnamento

II Semestre - III periodo

Lingua di insegnamento

Italiano

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ
Esporta

Learning objectives

The course aims to provide a comprehensive view of data mining, from the pre-processing of the data to the selection of the best statistical model for analysing and understanding the problem. During the course, the main techniques for data processing will be addressed and supervised statistical methods will be presented. Furthermore, concepts related to text mining will be introduced.
At the end of the course, the student will be able to compare and select the best Data Mining method for the problem under analysis. He/she will be able to deal with the main data issues and, independently, deal with a real problem in the best way.

The course contributes to the achievement of the learning objectives in the learning area of the three-year degree course: ‘Statistics’.

Contents

How to deal with missing values.
Supervised classification/regression methods.
Trade-off bias variance.
Text mining.
Market basket analysis.

Detailed program

  1. Introduction to data mining.
  2. Pre-processing: treatment of missing values. Single and multiple imputation methods.
  3. Introduction to classification with examples and introductory concepts. Classification methods: linear discriminant, quadratic discriminant, k-nn and decision trees.
  4. Trade off bias variance. Definition of overfitting and related mitigation techniques.
  5. Text mining with examples and basic concepts: pre-processing (e.g. elimination of stop words) and graphical representations for text mining.
  6. Market Basket Analysis and aPriori algorithm.

Prerequisites

Multivariate Statistical Analysis and R language.

Teaching methods

Lessons will be held both in the classroom and in the laboratory, integrating theoretical and practical-application aspects of data analysis and programming in R.

The 42 hours of teaching will be divided as follows:

  • 30 hours of lectures;
  • 12 hours of laboratory activities.

Assessment methods

Written
(20 out of 32) Written test aimed at verifying the topics presented in the classroom.

Project
(12 out of 32) Application project to be carried out independently or in a group (max. 3 people) on a dataset assigned by the lecturer or chosen by the students. The project is carried out in R and must demonstrate the ability to tackle a real problem in all its aspects using what has been seen in class. The project consists of both the R code and a presentation report produced using Rmarkdown.

Textbooks and Reading Materials

Main book:
Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).

Useful reading materials for R:
W. N. Venables, D. M. Smith and the R Core Team, An Introduction to R. Notes on R: A Programming Environment for Data Analysis and Graphics.
https://cran.r-project.org/doc/manuals/R-intro.pdf
C. Agostinelli, Introduzione a R. https://cran.r-project.org/doc/contrib/manuale.0.3.pdf

Further readings:
http://www.feat.engineering

Materials will be also provided during the course.

Semester

II Semester - III period

Teaching language

Italian

Sustainable Development Goals

QUALITY EDUCATION
Entra

Scheda del corso

Settore disciplinare
SECS-S/01
CFU
6
Periodo
Secondo Semestre
Tipo di attività
Obbligatorio a scelta
Tipologia CdS
Laurea Triennale
Lingua
Italiano

Staff

    Docente

  • MB
    Matteo Borrotti

Opinione studenti

Vedi valutazione del precedente anno accademico

Bibliografia

Trova i libri per questo corso nella Biblioteca di Ateneo

Metodi di iscrizione

Iscrizione manuale
Iscrizione spontanea (Studente)

Obiettivi di sviluppo sostenibile

ISTRUZIONE DI QUALITÁ - Assicurare un'istruzione di qualità, equa ed inclusiva, e promuovere opportunità di apprendimento permanente per tutti
ISTRUZIONE DI QUALITÁ

Non sei collegato. (Login)
Politiche
Ottieni l'app mobile
Powered by Moodle
© 2025 Università degli Studi di Milano-Bicocca
  • Privacy
  • Accessibilità
  • Statistiche