Skip to main content
If you continue browsing this website, you agree to our policies:
  • Condizioni di utilizzo e trattamento dei dati
Continue
x
If you continue browsing this website, you agree to our policies:
  • Condizioni di utilizzo e trattamento dei dati
Continue
x
e-Learning - UNIMIB
  • Home
  • More
Listen to this page using ReadSpeaker
English ‎(en)‎
English ‎(en)‎ Italiano ‎(it)‎
You are currently using guest access
 Log in
e-Learning - UNIMIB
Home
Percorso della pagina
  1. Economics
  2. Bachelor Degree
  3. Scienze Statistiche ed Economiche [E4103B - E4101B]
  4. Courses
  5. A.A. 2020-2021
  6. 3rd year
  1. Data Mining
  2. Summary
Insegnamento Course full name
Data Mining
Course ID number
2021-3-E4101B026
Course summary SYLLABUS

Course Syllabus

  • Italiano ‎(it)‎
  • English ‎(en)‎
Export

Obiettivi formativi

Il corso intende fornire una visione completa del Data Mining, dal pre processamento del dato fino alla selezione del miglior modello statistico per l'analisi e la comprensione del problema. 
Alla fine del corso, lo studente sarà in grado di confrontare e selezionare il miglior metodo di Data Mining per il problema  oggetto di analisi. Saprà trattare le principali problematiche relative al dato e, autonomamente, affrontare un problema reale nel miglior modo.

Nel periodo di emergenza Covid-19 le lezioni si svolgeranno completamente da remoto. La maggior parte delle lezioni sarà in modalità asincrona (registrata). Alcune lezioni saranno in streaming (modalità sincrona). Le lezioni registrate verranno caricare contestualmente con l'inizio della lezione come da calendario. Nel caso ci fossero impedimenti nel caricamento delle lezioni registrate sarà comunicato per tempo agli studenti. Le date delle lezioni in streaming verranno comunicate durante il corso. 

Contenuti sintetici

Durante il corso verranno affrontate le principali tecniche per il trattamento dei dati e spiegati sia metodi statistici di tipo supervisionato sia non supervisionato. Inoltre verranno introdotti concetti relativi al Text Mining.

Programma esteso

  1. Introduzione al Data mining. Concetti introduttivi e esempi applicativi
  2. Pre-processing: trattamento dei missing values. 
  3. Introduzione alla classificazione con esempi e concetti introduttivi. Metodi di classificazione: regressione logistica, discriminante lineare, discriminante quadratico e k-nn.
  4. Definizione di overfitting e tecniche per evitarlo
  5. Introduzione al clustering con esempi e concetti introduttivi:  metodi gerarchici e partizionali. 
  6. Text mining con esempi e concetti di base: pre-processing (stop words, stem words, ...), rappresentazioni grafiche e utilizzo del clustering per il Text Mining.

Prerequisiti

Analisi Statistica Multivariata e programmazione in R.

Metodi didattici

Lezioni frontali e laboratorio.

Modalità di verifica dell'apprendimento

Progetto e esame orale.

Scritto

Prova scritta mirata a verificare gli argomenti presentati in classe.

Progetto

Progetto applicativo da svolgere autonomamente o in gruppo su un dataset assegnato dal docente o scelto dagli studenti. Il progetto è realizzato in R e deve dimostrare la capacità di affrontare un problema reale in ogni suo aspetto utilizzando quanto visto a lezione.

Il progetto si compone sia del codice R sia di un report di presentazione.

Orale

Presentazione e discussione del progetto. 

Nel periodo di emergenza Covid-19 gli esami orali saranno solo telematici. Verranno svolti utilizzando la piattaforma WebEx e nella pagina e-learning dell'insegnamento verrà riportato un link pubblico per l'accesso all'esame di possibili spettatori virtuali.

Note

Prove intermedie non sono previste.

Gli studenti non frequentanti sono pregati di contattare il docente almeno 15 giorni prima della data dell’esame.

Testi di riferimento

Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).

Altro materiale verrà indicato a lezione.

Periodo di erogazione dell’insegnamento

I Semestre

Lingua di insegnamento

Italiano

Export

Learning objectives

The course aims at introducing the main concepts behind the Data Mining world, from data pre-processing to model selection. 
At the end of the course, students will be able to compare and select the best Data Mining method for the problem under study. Students will also be able to solve the main issue related to data and, autonomously, tackle complex real problem .


In the Covid-19 emergency, lessons will be mainly on-line. The majority of the lessons will be recorded and uploaded on the e-learning platform in accordance with course schedule. Some lessons will be in streaming.

Contents

The course deals with techniques for handling specific data's issue and supervised and unsupervised statistical methods. Additionally, the course deals also with Text Mining techniques.

Detailed program

  1. Introduction to Data Mining. Main concepts and examples.
  2. Data pre-processing: how to deal with missing values
  3. Introduction to classification. Main concepts and examples. Classification methods: logistics regression, linear and quadratic discriminant analysis and k-nearest neighborhood classifier.
  4. Overfitting and related techniques.
  5. Introduction to clustering. Main concepts and examples. Clustering methods: hierarchical and partitional clustering.
  6. Text Mining. Main concepts and examples. Pre-processing (stop words, stem words, ...), visual representations and clustering for Text Mining.

Prerequisites

Multivariate Statistical Analysis and R language.

Teaching methods

Lectures and computer lab.

Assessment methods

Project work and oral exam.

Written exam

Written exam aimed at assessing the competence acquired during the course.

Project work

Project work (also in group) related to the analysis of a real data problem. The problem is chosen by the students or assigned by the professor. The project should be done in R and it aims at demonstrating the ability in dealing with real application applying what has been studied during the course.

Oral exam

Project work's presentation and discussion. Questions about theory related to course's subjects.

During Covid-19, oral exam will be done using the WebEx platform.
Note

No middle exam are expected.

Student workers (non-attending students) are kindly invited to contact the professor at least 15 days before the exam date.

Textbooks and Reading Materials

Gareth J., Witten D., Hastie T., Tibshirani R., An Introduction to statistical learning with application in R, springer (2013).

Materials will be also provided during the course.

Semester

I Semester

Teaching language

Italian

Enter

Key information

Field of research
SECS-S/01
ECTS
6
Term
First semester
Activity type
Mandatory to be chosen
Course Length (Hours)
42
Degree Course Type
Degree Course

Staff

    Teacher

  • MB
    Matteo Borrotti

Students' opinion

View previous A.Y. opinion

Bibliography

Find the books for this course in the Library

Enrolment methods

Manual enrolments

You are currently using guest access (Log in)
Policies
Get the mobile app
Powered by Moodle
© 2025 Università degli Studi di Milano-Bicocca
  • Privacy policy
  • Accessibility
  • Statistics