Skip to main content
e-Learning - UNIMIB
  •  Log in
Home
Percorso della pagina
  1. Science
  2. Master Degree
  3. Data Science [F9101Q]
  4. Courses
  5. A.A. 2019-2020
  6. 1st year
  1. Data Science Lab
  2. Summary
Course summary syllabus
Insegnamento Course full name
Data Science Lab
Course ID number
1920-1-F9101Q008

Course Syllabus

  • Italiano ‎(it)‎
  • English ‎(en)‎
Export

Obiettivi

Obiettivo del corso è l'analisi e la manipolazione di dati usando tecniche di statistica e data mining.

Lo studente, al termine del corso, sarà in grado di capire, distinguere e proporre modelli complessi a seconda del tipo di problema e dato sotto esame.

Contenuti sintetici

Metodi per la ristrutturazione di dataset, per l'analisi preliminare dei dati e per la creazione di modelli statistici, di data mining e di machine learning applicati alla soluzione di problemi reali. I software utilizzati saranno R e Python.

Programma esteso

  • Uso avanzato di R per data science
  • Uso avanzato di Python per data science
  • Modelli lineari generalizzati con Lasso e Ridge
  • Splines
  • Dati mancanti e il loro trattamento
  • Analisi preliminari
  • Introduzione alle serie storiche
  • Estensione dei metodi di machine learning visti nell'insegnamento di Machine Learning al caso di variabili di risposta continue
  • Cross validation, booststrap, bagging e boosting
  • Riduzione della dimensionalità
  • Clustering
  • Selezione delle features
  • Ottimizzazione degli iper-parametri (grid, Bayesian, random)
  • Casi di studio
  • Inizio dei progetti di gruppo

Prerequisiti

Machine learning e statistical modelling

Modalità didattica

Lezioni in laboratorio con le mani sui dati

Materiale didattico

Useremo estratti dai seguenti volumi (scaricabili gratuitamente per gli studenti Bicocca)

Su R

Hadley Wickham (2014) Advanced R. CRC Press URL

Sullo Statistical Learning

Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning. Springer URL

Uso di R in Data Science

Benjamin S. Baumer, Daniel T. Kaplan, Nicholas J. Horton (2017) Modern Data Science with R. Chapman and Hall/CRC URL

Garrett Grolemund, Hadley Wickham (2017) R for Data Science. O’Reilly URL


Periodo di erogazione dell'insegnamento

Seconda parte del secondo semestre

Modalità di verifica del profitto e valutazione

Elaborazione di un lavoro di data science di gruppo e presentazione del medesimo.

Orario di ricevimento

Su appuntamento scrivendo una email ai docenti

Export

Aims

The course aims at analizing and manipulating dataset using data mining and statistical learning tools. 

The student at the end of the course should be able to understand, discern and propose complex models and algorithms, being able to assess and evaluate the prosed techniques on real data


Contents

The course deals with complex techniques/ algorithm of Data Mining and machine learning and main problems of manipulation and modelling real data. All applications will be carried out using R or Python.

Detailed program

  • Advanced R for data science
  • Advanced Python for data science
  • Generalized linear models (GLM) with regularization (Lasso and Ridge)
  • Splines
  • Dealing with missing observations and other problems with data
  • Preprocessing 
  • Introduction to time series analysis and prediction
  • Extension of the machine learning method seen in the Machine Learning class to continuous response variable models
  • Cross validation, boostrap, bagging and boosting
  • Dimension reduction
  • Clustering
  • Feature selection
  • Case Studies
  • Kick-start of group projects

Prerequisites

Machine learning and decision models

Teaching form

Hands-on lessons in lab

Textbook and teaching resource

We will use parts of these texts (all available to download for Bicocca students)

About R

Hadley Wickham (2014) Advanced R. CRC Press URL

About statistical learning

Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning. Springer URL

About using R in data science

Benjamin S. Baumer, Daniel T. Kaplan, Nicholas J. Horton (2017) Modern Data Science with R. Chapman and Hall/CRC URL

Garrett Grolemund, Hadley Wickham (2017) R for Data Science. O’Reilly URL

Semester

Second part of the second semester

Assessment method

Presentation of a Group project work/data analysis on a dataset chosen by the lectures or students (assignement of the dataset in the last week of the course)

The exam aims to assess the  comprehension of advantages/disadvantages of principal statistical/machine learning tools and consequently the "modus operandi" (completeness, complexity of strategies, used tools) of the proposed analysis by the working group

Office hours

By appointment by e-mailing to the lecturers

Enter

Key information

Field of research
SECS-S/01
CFU
6
Term
Secondo Semestre
Activity type
Obbligatorio
Course Length (Hours)
50
Degree Course Type
Corso di Laurea Magistrale

Students' evaluation

View previous A.Y. evaluation

Enrolment methods

  • Manual enrolments
  • Self enrolment (Student)

Staff

    Teacher

  • Picture of Natalia Hadjidimitriou
    Natalia Hadjidimitriou
  • Picture of Matteo Maria Pelagatti
    Matteo Maria Pelagatti

  • Data Science Lab
  • Home
Get the mobile app
Policies
© 2022 Università degli Studi di Milano-Bicocca