- Machine Learning
- Summary
Course Syllabus
Obiettivi
Formare la figura professionale dell'analista dati tramite la metodologia informatica del machine learning.
L'obiettivo viene perseguito;
- fornendo competenze di progettazione, sviluppo e documentazione di studi di machine learning,
- fornendo competenze su software open source professionale per l'estrazione della conoscenza a partire dai dati,
- stimolando e promuovendo il team working come metodo professionale di lavoro e collaborazione.
Al termine del corso lo studente avrà maturato competenze e conoscenze tali da progettare, sviluppare, documentare e presentare uno studio di machine learning.
Contenuti sintetici
Il corso tratta i seguenti argomenti;
- Esplorazione dei dati; mostra come progettare e
sviluppare workflow di esplorazione dati e di pre-processamento dei dati stessi.
Nello specifico mostra come effettuare caricamento di un insieme di dati, come riassumerne
quantitativamente le principali caratteristiche, per variabili categoriche,
nominali, ordinali e per variabili numeriche. Inoltre, viene mostrato come
trattare il problema dei valori mancanti e come ridurre la dimensione dell’insieme
di dati sia in termini di attributi che in termini di osservazioni.
- Classificazione Supervisionata; introduce alla
formulazione, valutazione e risoluzione di problemi di classificazione
supervisionata, vale a dire problemi per i quali a fronte di un insieme di
attributi di input si dispone di uno o più attributi di output che
rappresentano le quantità da prevedere utilizzando gli attributi di input a
disposizione. Viene dedicata attenzione al tema della progettazione dell’esperimento
di apprendimento ed alla valutazione dei relativi risultati. Nello specifico si
mostra come stimare le prestazioni di un modello di classificazione, come si
comparano le prestazioni di due modelli di classificazione. Infine, viene
riservata particolare attenzione al problema della selezione e/o generazione
degli attributi tramite opportune procedure algoritmiche.
- Classificazione non Supervisionata; questo argomento è
dedicato alla formulazione, valutazione e risoluzione di problemi di
classificazione non supervisionata, vale a dire problemi per i quali si dispone
solamente di un insieme di attributi di input. In questo caso il compito
dell’esperto di machine learning consiste nel progettare ed implementare un
workflow che consenta di raggruppare le osservazioni dell’insieme di dati
disponibili in modo tale da rendere ottimale l’omogeneità delle osservazioni
associate allo stesso gruppo e rendere massima la differenza tra osservazioni
assegnate a gruppi differenti. Vengono presentate e discusse diverse misure di
similarità utilizzate per valutare l’omogeneità dei gruppi formati dalle
procedure e dagli algoritmi di classificazione non supervisionata. Infine, particolare
attenzione viene data agli indici di valutazione e comparazione di soluzioni
alternative.
- Regole di Associazione; viene mostrato come
possibile apprendere in modo automatico regole di associazione nel caso di
insiemi di dati dove le osservazioni sono caratterizzate dalla natura transazionale.
In questo caso il compito dell’esperto di machine learning consiste nel
progettare e implementare un workflow che consenta di estrarre regole di
associazione tra attributi in modo da fornire capacità predittiva e
decisionale. Infine, particolare attenzione viene data agli indici di
valutazione e comparazione di soluzioni alternative.
Programma esteso
- Esplorazione dei dati e Pre-Processing
- Tipi di dati ed attributi
- Esplorazione dei dati, grafica e tabellare
- Trattamento delle osservazioni mancanti
- Pre-processamento dei dati
- Classificazione Supervisionata
- Introduzione alla classificazione supervisionata
- Tecniche di classificazione supervisionata; reti neurali, classificatori Bayesiani, alberi di decisione, …
- Misure di prestazione, procedure di valutazione e comparazione di classificatori
- Classi sbilanciate e problemi di classificazione non binaria
- Classificazione Non Supervisionata
- Introduzione alla classificazione non supervisionata
- Misure di prossimità per attributi continui, nominali, ordinali
- Algoritmi di clustering; k-means,algoritmi gerarchici, dbscan, opossum, …
- Misure di prestazione, procedure di valutazione e comparazione delle soluzioni di clustering
- Regole di Associazione
- Introduzione alle regole associative
- Tipi di itemsets e loro rilevanza
- Principio ed algoritmo Apriori
- Misure di prestazione, procedure di valutazione e selezione di regole associative
Prerequisiti
Sono utili nozioni base di informatica, calcolo delle probabilità e statistica.
Modalità didattica
L'intera attività formativa viene svolta attraverso lezioni in presenza. L’intero
corso è reso disponibile in formato digitale e si compone di lezioni audio-narrate
sia per la componente metodologica che per la componente pratica, vale a dire l’impiego
di software open source per il machine learning. Lo studente è stimolato a verificare il proprio livello di apprendimento tramite esercizi guidati da
realizzarsi con l’impiego del software open source presentato a lezione. Il
corso rende inoltre disponibili circa 170 quiz a risposta multipla, tramite la piattaforma Moodle, per consentire allo studente di verificare il
proprio livello di preparazione.
Materiale didattico
Materiale audiovisivo, slides, dataset e workflow progettati e realizzati dai docenti del corso.
Periodo di erogazione dell'insegnamento
Primo semestre
Modalità di verifica del profitto e valutazione
La verifica si basa su due componenti complementari, lo svolgimento di
un progetto di machine learning con conseguente redazione di un rapporto
tecnico, stile articolo scientifico, e lo svolgimento di una prova d’esame, in
laboratorio ed a calcolatore volta a verificare il grado di comprensione
metodologica e teorica del candidato. Gli studenti sono incoraggiati al team
working per quanto riguarda la componete progetto dell’esame, favorendo
pertanto il confronto, la discussione e lo spirito critico, componenti
irrinunciabili per un contesto complesso come quello oggetto del corso. Il progetto viene scelto dal candidato tra quelli segnalati dal docente come eleggibili a partire da quanto offre la piattaforma Kaggle (https://www.kaggle.com/), piattaforma digitale ed internazionale che offre uno spazio virtuale altamente professionalizzante dove si incontrano domanda ed offerta nell'ambito della Data Science.
Il progetto di machine learning attrbuisce un massimo di 21 punti assegnati i base ai seguenti criteri
- Merito tecnico; rigore notazionale, accuratezza e correttezza (massimo 5 punti).
- Chiarezza espositiva e di comunicazione delle idee del candidato, includendo leggibilità e visione critica (massimo 5 punti)
- Inquadramento appropriato del problema trattato (massimo 2 punti)
- Bilanciamento complessivo tra le diverse componenti del report (massimo 3 punti)
- Assenza di ripetizioni, plagio ed auto plagio (massimo 3 punti)
- Qualità dei diagrammi, tabelle, grafici, figure, ... (massimo 3 punti)
La prova d'esame in laboratorio ed a calcolatore attribuisce un massimo di 11 punti, ripartiti come segue; 6 punti per 6 quiz a risposta chiusa aventi per oggetto i concetti presentati nel corso e massimo 5 punti per una domanda aperta volta a valutare la capacità critica del candidato.
Infine, il candidato che lo desiderasse può richiedere di sostenere una prova orale (prevede domande di ragionamento e deduzione su argomenti presentati nel corso) che attribuisce un massimo di 3 punti.
Orario di ricevimento
Su appuntamento
Aims
To train the data analysis expert according to the machine learning methodology.
The goal is achieved by;
- teaching how to design, develop and present machine learning projects,
- exploiting open source platforms, languages and software,
- stimulating the team working methodology.
The student will be able to design, develop, document, and present machine learning projects solving real world problems.
Contents
The course contents are the following;
- Data Exploration to inspect and summarize the available data and to design and develop a pre-processing workflow,
- Supervised Classification, to learn a mapping from input attributes to output or target attributes to be classified or predicted,
- Unsupervised Classification, to form homogeneous groups of observations and/or attributes using a given proximity measure,
- Association Rules, to automatically extract rules hidden in the data with specific reference to transaction data.
You will learn how to develop machine learning workflows using the KNIME open source software platform. You are not required to code any programs while if you want KNIME allows to use powerful and professional open source programming languages and commercial software environments; R, Weka, Matlab, Python, Java, ...
Detailed program
- Data Exploration and Preprocessing
- Data types and attributes
- Graphical and tabular data exploration
- Missing data treatment
- Data Pre-Processing
- Supervised Classification
- Introduction
- Techniques, models and algorithms; artficial neural nets, Bayesian classifiers, decision trees, …
- Performance measures to evaluate and compare classifiers
- Unbalanced classes and non binary classification
- Unsupervised Classification
- Introduction
- Proximity measures for nominal, ordinal and continuous attributes
- Techniques, models and algorithms; partitioning, hierarchical, graph based, density based, …
- Performance measures to evaluate and compare clustering solutions
- Association Rules
- Introduction and basic definitions
- Item and itemsets
- Apriori, principle and algorithm
- Performance measures to evaluate and compare association rules
Prerequisites
Basic knowledge on; informatics, probability calculus and statistics.
Teaching form
Teaching is achieved by classes. The entire course is also available in digital form consisting of video lectures for theory and hands-on. The course material is organized through learning paths where lecture modules consist of theoretical lecture, hand-on lecture and self-evaluation sessions. Self-evaluation session offers a powerful and effective resource to online learning, i.e. after the class has taken place, The course makes available 170 quizzes to allow students to fairly assess their understanding level and to train for the exam.
Textbook and teaching resource
Video-lectures, slides, datasets and workflows designed and developed by the teacher.
Semester
Fall Semester
Assessment method
Assessment is based on two components, a machine learning project and a methodology exam which is performed in the laboratory by using a computer. Students and encouraged to work in small teams to design, develop and document their data and/or text mining project. The data and/or text mining project is usually selected by the students team by exploiting the Kaggle platform (https://www.kaggle.com/) where Data Science requests and offers meet.
The machine learning project gives a maximum of 21 points, assigned according to six criteria as follows:
- Technical merit: notably rigour, accuracy and correctness (maximum 5 points)
- Clarity of expression and communication of ideas; including readability and discussion of concepts (maximum 5 points)
- Appropriate referencing and the context of the present work (maximum 2 points)
- Overall balance and structure of report (maximum 3 points)
- Repetition; have significant parts of the manuscript already been published by other authors? (maximum 3 points)
- Diagrams, tables, captions; are they clear and essential (maximum 3 points)
The methodology exam gives a maximum of 11 points. according to the following; 6 points for 6 quizzes, one point for each quiz (each quiz concerns concepts presented in the course) and a maximum of 5 points for an open ended question having the goal to evaluate the critical point of view of the candidate. The candidate can also ask to undergo oral examination, consisting of questions about reasoning and deduction about the concepts presented in the course, which gives a maximum of 3 points.
Office hours
On dating