Course information | Machine Learning

Course Syllabus

Italiano ‎(it)‎
English ‎(en)‎

Export

Obiettivi

Formare la figura professionale dell'analista dati tramite la metodologia informatica del machine learning.
L'obiettivo viene perseguito;

fornendo competenze di progettazione, sviluppo e documentazione di studi di machine learning,
fornendo competenze su software open source professionale per l'estrazione della conoscenza a partire dai dati,
stimolando e promuovendo il team working come metodo professionale di lavoro e collaborazione.

Al termine del corso lo studente avrà maturato competenze e conoscenze tali da progettare, sviluppare,
documentare e presentare uno studio di machine learning. (DdD 1, DdD 2).
Inoltre, l'organizzazione della prova d'esame, tramite un progetto di gruppo da sviluppare e documentare, consentirà al candidato di sviluppare capacità critica (DdD 3), di comunicazione (DdD 4), mentre la disponibilià di materiale da leggere, suggerito dal docente consentirà al candidato di proseguire in modo autonomo lo studio e l'approfondimento della materia (DdD 5).

Contenuti sintetici

Il corso tratta i seguenti argomenti;
Esplorazione dei dati; mostra come progettare e sviluppare workflow di esplorazione dati e di pre-processamento dei dati stessi. Nello specifico mostra come effettuare caricamento di un insieme di dati, come riassumerne quantitativamente le principali caratteristiche, per variabili categoriche, nominali, ordinali e per variabili numeriche. Inoltre, viene mostrato come trattare il problema dei valori mancanti e come ridurre la dimensione dell’insieme di
dati sia in termini di attributi che in termini di osservazioni.

Classificazione Supervisionata; introduce alla formulazione, valutazione e risoluzione di problemi di classificazione supervisionata, vale a dire problemi per i quali a fronte di un insieme di attributi di input si dispone di uno o più attributi di output che rappresentano le quantità da prevedere utilizzando gli attributi di input a disposizione. Viene dedicata attenzione al tema della progettazione dell’esperimento di apprendimento ed alla valutazione dei relativi risultati. Nello specifico si mostra come stimare le prestazioni di un modello di classificazione, come si comparano le prestazioni di due modelli di classificazione. Infine, viene riservata particolare attenzione al problema della selezione e/o generazione degli attributi tramite opportune procedure algoritmiche.
Classificazione non Supervisionata; questo argomento è dedicato alla formulazione, valutazione e risoluzione di problemi di classificazione non supervisionata, vale a dire problemi per i quali si dispone solamente di un insieme di attributi di input. In questo caso il compito dell’esperto di machine learning consiste nel progettare ed implementare un workflow che consenta di raggruppare le osservazioni dell’insieme di dati disponibili in modo tale da rendere ottimale l’omogeneità delle osservazioni associate allo stesso gruppo e rendere massima la differenza tra osservazioni assegnate a gruppi differenti. Vengono presentate e discusse diverse misure di similarità utilizzate per valutare l’omogeneità dei gruppi formati dalle procedure e dagli algoritmi di classificazione non supervisionata. Infine, particolare attenzione viene data agli indici di valutazione e comparazione di soluzioni alternative.

Programma esteso

Esplorazione dei dati e Pre-Processing

Tipi di dati ed attributi
Esplorazione dei dati, grafica e tabellare
Trattamento delle osservazioni mancanti
Pre-processamento dei dati

Classificazione Supervisionata

Introduzione alla classificazione supervisionata
Tecniche di classificazione supervisionata; reti neurali, classificatori Bayesiani, alberi di decisione, ...
Misure di prestazione, procedure di valutazione e comparazione di classificatori
Classi sbilanciate e problemi di classificazione non binaria

Classificazione Non Supervisionata

Introduzione alla classificazione non supervisionata
Misure di prossimità per attributi continui, nominali, ordinali
Algoritmi di clustering; k-means,algoritmi gerarchici, dbscan, opossum, ...
Misure di prestazione, procedure di valutazione e comparazione delle soluzioni di clustering

Prerequisiti

Sono utili nozioni base di informatica, calcolo delle probabilità e statistica.

Modalità didattica

L’intero corso è reso disponibile in formato digitale in lingua Inglese. Il corso si compone di lezioni audio-narrate sia per la componente metodologica che per la componente pratica, vale a dire l’impiego di software open source per il machine learning. Lo studente è stimolato a verificare il proprio livello di apprendimento tramite esercizi guidati da realizzarsi con l’impiego del software open source presentato a lezione. Il corso rende inoltre disponibili circa 170 quiz a risposta multipla, tramite la piattaforma Moodle, per consentire allo studente di verificare il proprio livello di preparazione.

14 lezioni da 2 ore svolte in modalità erogativa in presenza.
9 esercitazioni da 2 ore svolte in modalità erogativa in presenza.

Materiale didattico

Materiale audiovisivo, slides, dataset e workflow progettati e realizzati dai docenti del corso.

https://www-users.cse.umn.edu/~kumar001/dmbook/index.php
https://github.com/kerasking/book-1/blob/master/ML%20Machine%20Learning-A%20Probabilistic%20Perspective.pdf

Periodo di erogazione dell'insegnamento

Primo semestre

Modalità di verifica del profitto e valutazione

La verifica prevede una prova di 4 ore durante la quale il/la candidato/a è chiamato/a a rispondere a 6 quiz (1 punto per ogni risposta corretta) e 1 domanda a riposta aperta (fino a 9 punti) (DdD 5). Inoltre, verrà assegnato un porblema di machine learning da risolvere. Nello specifcio verrà presentato un problema, fornito un dataset e si dovrà progettare e sviluppare un workflow KNIME (DdD 3, DdD 4) (ogni nodo del workflow andrà commentato utilizzando le funzionalità offerte dalla piattaforma KNIME, vengono assegnati massimo 10 punti), e si dovranno redigere delle slide secondo un template fornito dal docente (fino ad un massimo di 5 punti. Infine, dietro richiesta del/la candidato/a è possibile richiedere una prova orale che assegna un punteggio compreso tra -3 e +3 punti.
Non sono previste prove in itinere.

Il workflow e le slides verranno valutati in base ai seguenti criteri;

Merito tecnico; accuratezza e correttezza del workflow (fino a 10 punti)
Chiarezza espositiva e di comunicazione delle idee, includendo leggibilità e visione critica of the slides (fino a 5 punti)

Orario di ricevimento

Su appuntamento, inviare mail a fabio.stella@unimib.it

Sustainable Development Goals

ISTRUZIONE DI QUALITÁ | RIDURRE LE DISUGUAGLIANZE

Export

Aims

To train the data analysis expert according to the machine learning methodology.
The goal is achieved by;

teaching how to design, develop and present machine learning projects,
exploiting open source platforms, languages and software,
stimulating the team working methodology.

At the end of the course the student will gain skills and knowledge so as to design, develop, document and present a machine learning study. (DdD 1, DdD 2).
Moreover, the organization of the exam, through a group project to be developed and documented, will allow the candidate to develop critical thinking skills (DdD 3) and communication skills (DdD 4), while the availability of reading materials suggested by the instructor will enable the candidate to continue studying and deepening their understanding of the subject independently (DdD 5).

The course contents are the following;

Data Exploration to inspect and summarize the available data and to design and develop a pre-processing workflow,
Supervised Classification, to learn a mapping from input attributes to output or target attributes to be classified or predicted,
Unsupervised Classification, to form homogeneous groups of observations and/or attributes using a given proximity measure,

The course also hosts 2 vertical topics

From Statistical to Neural Language Models; This focused module introduces the evolution of language models, from statistical approaches based on N-grams to neural architectures and modern Large Language Models (LLMs). Students will gain an overview of the key concepts underlying language representation, neural language modeling, and the pretraining–fine-tuning paradigm that powers today's AI systems.
A gentle introduction to Causal Bayesian Networks; This vertical module introduces causal Bayesian networks, a probabilistic graphical model which is widely applied to several application domains as economy, healthcare and medicine.

You will learn how to develop machine learning workflows using the KNIME open source software platform. You are not required to code any programs while if you want KNIME allows to use powerful and professional open source programming languages and commercial software environments; R, Weka, Matlab, Python, Java, ...

Detailed program

Data Exploration and Preprocessing

Data types and attributes
Graphical and tabular data exploration
Missing data treatment
Data Pre-Processing

Supervised Classification

Introduction
Techniques, models and algorithms; artficial neural nets, Bayesian classifiers, decision trees, ...
Performance measures to evaluate and compare classifiers
Unbalanced classes and non binary classification

Unsupervised Classification

Introduction
Proximity measures for nominal, ordinal and continuous attributes
Techniques, models and algorithms; partitioning, hierarchical, graph based, density based, ...
Performance measures to evaluate and compare clustering solutions

Prerequisites

Basic knowledge on; informatics, probability calculus and statistics.

Teaching form

Teaching is achieved by classes. The entire course is also available in digital form consisting of video lectures for theory and hands-on. The course material is organized through learning paths where lecture modules consist of theoretical lecture, hand-on lecture and self-evaluation sessions. Self-evaluation session offers a powerful and effective resource to online learning, i.e. after the class has taken place, The course makes available 170 quizzes to allow students to fairly assess their understanding level and to train for the exam.

14 lectures of 2 hours each of erogative nature delivered in physical presence.
9 hands-on lectures of 2 hours each of erogative nature delivered in physical presence.

Textbook and teaching resource

Video-lectures, slides, datasets and workflows designed and developed by the teacher.

https://www-users.cse.umn.edu/~kumar001/dmbook/index.php
https://github.com/kerasking/book-1/blob/master/ML%20Machine%20Learning-A%20Probabilistic%20Perspective.pdf

Semester

First semester

Assessment method

The examination consists of a 4‑hour test during which the candidate is required to answer 6 quizzes (1 point for each correct answer) and 1 open‑ended question (up to a maximum of 9 points) (DdD 5). In addition, a machine learning problem will be assigned. Specifically, a problem will be presented, a dataset will be provided, and the candidate will be required to design and develop a KNIME workflow (DdD 3, DdD 4) (each node of the workflow must be commented using the functionalities offered by the KNIME platform; up to 10 points are awarded). The candidate must also prepare slides following a template provided by the instructor (up to 5 points). Finally, upon request, the candidate may take an oral exam, which assigns a score between –3 and +3 points.
No midterm assessments are scheduled.

The workflow and the slides will be evaluated according to the following criteria:

Technical merit, accuracy, and correctness of the workflow (up tp 10 points).
Clarity of presentation and communication of ideas, including readability and critical insight of the slides (up to 5 points).

Office hours

By appointment, send and email to fabio.stella@unimib.it

Sustainable Development Goals

QUALITY EDUCATION | REDUCED INEQUALITIES

Enter

Field of research

INFO-01/A

ECTS

Term

Annual

Activity type

Mandatory

Course Length (Hours)

Degree Course Type

2-year Master Degree

Language

English

Teacher

Fabio Antonio Stella
IZ

Italo Francesco Zoppis

Manual enrolments

Course Syllabus

Obiettivi

Contenuti sintetici

Programma esteso

Prerequisiti

Modalità didattica

Materiale didattico

Periodo di erogazione dell'insegnamento

Modalità di verifica del profitto e valutazione

Orario di ricevimento

Sustainable Development Goals

Aims

Contents

Detailed program

Prerequisites

Teaching form

Textbook and teaching resource

Semester

Assessment method

Office hours

Sustainable Development Goals

Key information

Staff

Teacher

Enrolment methods

Sustainable Development Goals