Course Syllabus
Obiettivi
Obiettivo del corso è l'analisi e la manipolazione di dati usando tecniche di statistica e data mining.
Lo studente, al termine del corso, sarà in grado di capire, distinguere e proporre modelli complessi a seconda del tipo di problema e dato sotto esame.
Contenuti sintetici
Metodi per la ristrutturazione di dataset, per l'analisi preliminare dei dati e per la creazione di modelli statistici, di data mining e di machine learning applicati alla soluzione di problemi reali. I software utilizzati saranno R e Python.
Programma esteso
- Uso avanzato di R per data science
- Uso avanzato di Python per data science
- Modelli lineari generalizzati con Lasso e Ridge
- Splines
- Dati mancanti e il loro trattamento
- Analisi preliminari
- Introduzione alle serie storiche
- Estensione dei metodi di machine learning visti nell'insegnamento di Machine Learning al caso di variabili di risposta continue
- Cross validation, booststrap, bagging e boosting
- Riduzione della dimensionalità
- Clustering
- Selezione delle features
- Ottimizzazione degli iper-parametri (grid, Bayesian, random)
- Casi di studio
- Inizio dei progetti di gruppo
Prerequisiti
Machine learning e statistical modelling
Modalità didattica
Lezioni in laboratorio con le mani sui dati
Materiale didattico
Useremo estratti dai seguenti volumi (scaricabili gratuitamente per gli studenti Bicocca)
Su R
Hadley Wickham (2014) Advanced R. CRC Press URL
Sullo Statistical Learning
Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning. Springer URL
Uso di R in Data Science
Benjamin S. Baumer, Daniel T. Kaplan, Nicholas J. Horton (2017) Modern Data Science with R. Chapman and Hall/CRC URL
Garrett Grolemund, Hadley Wickham (2017) R for Data Science. O’Reilly URL
Periodo di erogazione dell'insegnamento
Seconda parte del secondo semestre
Modalità di verifica del profitto e valutazione
Orario di ricevimento
Su appuntamento scrivendo una email ai docenti
Aims
The course aims at analizing and manipulating dataset using data mining and statistical learning tools.
The
student at the end of the course should be able to understand, discern
and propose complex models and algorithms, being able to assess and evaluate the
prosed techniques on real data
Contents
The course deals with complex techniques/ algorithm of Data Mining and machine learning and main problems of manipulation and modelling real data. All applications will be carried out using R or Python.
Detailed program
- Advanced R for data science
- Advanced Python for data science
- Generalized linear models (GLM) with regularization (Lasso and Ridge)
- Splines
- Dealing with missing observations and other problems with data
- Preprocessing
- Introduction to time series analysis and prediction
- Extension of the machine learning method seen in the Machine Learning class to continuous response variable models
- Cross validation, boostrap, bagging and boosting
- Dimension reduction
- Clustering
- Feature selection
- Case Studies
- Kick-start of group projects
Prerequisites
Machine learning and decision models
Teaching form
Hands-on lessons in lab
Textbook and teaching resource
We will use parts of these texts (all available to download for Bicocca students)
About R
Hadley Wickham (2014) Advanced R. CRC Press URL
About statistical learning
Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning. Springer URL
About using R in data science
Benjamin S. Baumer, Daniel T. Kaplan, Nicholas J. Horton (2017) Modern Data Science with R. Chapman and Hall/CRC URL
Garrett Grolemund, Hadley Wickham (2017) R for Data Science. O’Reilly URL
Semester
Second part of the second semester
Assessment method
Presentation of a Group project
work/data analysis on a dataset chosen by the lectures or students (assignement of the dataset in the last week of the course)
The exam aims to assess the comprehension of advantages/disadvantages of principal statistical/machine learning tools and consequently the "modus operandi" (completeness, complexity of strategies, used tools) of the proposed analysis by the working group
Office hours
By appointment by e-mailing to the lecturers
Key information
- Field of research
- SECS-S/01
- CFU
- 6
- Term
- Secondo Semestre
- Activity type
- Obbligatorio
- Course Length (Hours)
- 50
- Degree Course Type
- Corso di Laurea Magistrale