Vai al contenuto principale
Se prosegui nella navigazione del sito, ne accetti le politiche:
  • Condizioni di utilizzo e trattamento dei dati
Prosegui
x
e-Learning - UNIMIB
  • Home
  • My Media
  • Altro
Ascolta questa pagina con ReadSpeaker
Italiano ‎(it)‎
English ‎(en)‎ Italiano ‎(it)‎
 Login
e-Learning - UNIMIB
Home My Media
Percorso della pagina
  1. Area Economico-Statistica
  2. Corso di Laurea Triennale
  3. Statistica e Gestione delle Informazioni [E4104B - E4102B]
  4. Insegnamenti
  5. A.A. 2021-2022
  6. 3° anno
  1. Data Mining
  2. Introduzione
Unità didattica Titolo del corso
Data Mining
Codice identificativo del corso
2122-3-E4102B085-E4102B086M
Descrizione del corso SYLLABUS

Blocchi

Torna a Data Mining e Statistica Computazionale

Syllabus del corso

  • Italiano ‎(it)‎
  • English ‎(en)‎
Esporta

Obiettivi formativi

Data mining
Il corso intende fornire un’introduzione alle principali tecniche statistiche di Data Mining attraverso le più moderne tecniche e strategie per l’analisi di grandi moli di dati, illustrando le problematiche connesse.
Alla fine del corso lo studente ha la possibiltà di proporre i principali algoritmi , discernendo pregi e difetti, essendo in grado di sperimentare ed applicare le conoscenze acquisite su dati reali.


Contenuti sintetici

Il corso affronta lo studio di tecniche modellistiche algoritmiche e le principali problematiche e tecniche statistiche di Data Mining

Programma esteso

Data mining
Il Data mining, robustezza, overfitting e problematiche di validazione dei risultati, Regole associative, Modelli statistici per la classificazione supervisionata (modello lineare, analisi discriminante parametrica, modello logistico binario e multinomiale), Algoritmi per la classificazione supervisionata (Naive Bayes, Nearest Neighbour, neural network, regressioni lasso, Alberi decisionali e Classificativi, PLS, Bagging, Boosting and Random forest)


Prerequisiti

Superamento esame di Analisi statistica Multivariata

Metodi didattici

Nel periodo di emergenza Covid-19 le lezioni si svolgeranno in modalità mista: parziale presenza e lezioni sincrone (streeming) via piattaforme web.

Modalità di verifica dell'apprendimento

PROVA SCRITTA
PROJECT WORK (Sviluppo di un progetto originale a partire da una semplice idea o dall’analisi di un caso esistente)
Lavoro applicativo da svolgere autonomamente o in gruppo di max 3 persone su dataset scelti dallo studente (R o SAS) su cui applicare i principali argomenti svolti a lezione .

Di seguito le analisi da svolgere per i due moduli in ogni project work  (Sas base o R):

Data mining (Sas Enterprise Miner o R)
1 PROJECT WORK, analisi con con target binario (classificazione)
(ANALISI DA SVOLGERE: analisi descrittive,  proposta diversi modelli, validation strategies, preprocessing, tuning modelli, confronto modelli, score di nuovi dati)

In totale per superare l'esame da 15 cfu è necessario completare due project work (1 di statistica computazionale + 1 di Data mining) su due dataset differenti

Portali per la scelta dei dataset:
https://archive.ics.uci.edu/ml/datasets
www.kaggle.com


PROVA ORALE
I principali output del  PROJECT WORK (svolto nelle settimane precedenti la data dell'orale) vanno stampati e portati all'orale, se in presenza.
Altrimenti il COLLOQUIO avviene via WEB DI DISCUSSIONE SUL project work  (Nel periodo di emergenza Covid-19 gli esami orali saranno solo telematici. Verranno svolti utilizzando la piattaforma WebEx e nella pagina e-learning dell'insegnamento verrà riportato un link pubblico per l'accesso all'esame di possibili spettatori virtuali).

L'esame orale, per ciascun modulo, consta di domande sulla TEORIA affrontata a lezione e sul commento degli output del lavoro applicativo per  verificare la comprensione dei principali strumenti adottati e il conseguente "modus operandi" dell'analisi statistica svolta.

Lo studente deve dimostrare di aver appreso il funzionamento dei principali algoritmi, essendo in grado di comprenderne pregi e difetti e di applicare tali strumenti su dati reali.

Non sono previste prove in itinere

Testi di riferimento


Data mining
Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R 
http://www-bcf.usc.edu/~gareth/ISL/
Chapter 2-3-4-5- 8
Lucidi sul moodle

Periodo di erogazione dell’insegnamento

I semestre, ciclo II

Lingua di insegnamento

ITA

Esporta

Learning objectives


Data mining
The course aims at introducing statistical models of DATA MINING both from the theoretical and from the applicative point of view.
The student at the end of the course should be able to understand, discern and propose complex models and algorithms, being able to assess the studied topics analyzing read dataset.

Contents

The course deals with complex/algorithmic  modelling techniques and main problems and algorithm of Data Mining

Detailed program


Data mining
Principles of Data mining, robustness, over fitting and validation. Association rules, Statistical models: linear, discriminant analysis, logistic models, (binary and multinomial), Algorithms for the classification: (Naive Bayes, Nearest Neighbour, lasso regression, neural network, Classification TREE, PLS, Bagging, Boosting and Random forest)

Prerequisites

Students need to pass before the exam of Analisi statistica Multivariata

Teaching methods

During Covid-19, lessons will be taken by partial presence and streeming web platforms.

Assessment methods

WRITTEN EXAM: PROJECT WORK
Project work (also in group, to complete before the date of the oral exam) involving a data analysis (R or SAS) on a dataset  chosen by the student to replicate arguments and analyses discussed during lab sessions.

Analyses of the Project work


Data mining (sas Entreprise Miner or R)
1 applied work with binary target (classification)
(To do: descriptive analysis, propose different classifiers and validation strategies, preprocessing, tuning of models, assessment, score of new data)

Web portals for the choice of the dataset: 

https://archive.ics.uci.edu/ml/datasets
www. kaggle.com

ORAL EXAM
The outputs of the project work (completed during the period before the oral exam) must be printed and presented/discussed at the oral exam, IF EXAMS ARE HOLD IN PRESENCE. OTHERWISE, THE DISCUSSION OF THE PROJECT WORK via WEB platforms (during COVID19)
The oral exam deals with questions on statistical THEORY (see arguments) and on the comments of outputs of the project work to assess the  comprehension of principal statistical tools and consequently the  "modus operandi" of the conducted statistical analyses.

The student should demonstrate to understand, discern and explain the functioning of complex models and algorithms, being able to explain the studied topics and to analyze real dataset.
To resume, to pass the exam the student should complete two project works, one for statcomp, one for data mining.


Textbooks and Reading Materials


Data mining
Gareth, Witten, Hastie, Tibshirani, An Introduction to Statistical Learning with Applications in R
http://www-bcf.usc.edu/~gareth/ISL/
Chapter 2-3-4-5- 8
Handouts on moodle

Semester

I semester cycle II

Teaching language

ITA

Entra

Scheda del corso

Settore disciplinare
SECS-S/01
CFU
9
Periodo
Primo Semestre
Tipo di attività
Obbligatorio
Ore
63
Tipologia CdS
Laurea Triennale
Lingua
Italiano

Staff

    Docente

  • Pietro Giorgio Lovaglio
    Pietro Giorgio Lovaglio

Metodi di iscrizione

Iscrizione manuale
Iscrizione spontanea (Studente)

Non sei collegato. (Login)
Politiche
Ottieni l'app mobile
Powered by Moodle
© 2025 Università degli Studi di Milano-Bicocca
  • Privacy
  • Accessibilità
  • Statistiche