- Machine Learning
- Summary
Course Syllabus
Obiettivi
Formare la figura professionale dell'analista dati tramite la metodologia informatica del machine learning.
L'obiettivo viene perseguito;
- fornendo competenze di progettazione, sviluppo e documentazione di studi di machine learning,
- fornendo competenze su software open source professionale per l'estrazione della conoscenza a partire dai dati,
- stimolando e promuovendo il team working come metodo professionale di lavoro e collaborazione.
Al termine del corso lo studente avrà maturato competenze e conoscenze tali da progettare, sviluppare, documentare e presentare uno studio di machine learning.
Contenuti sintetici
Il corso tratta i seguenti argomenti;
- Esplorazione dei dati; mostra come progettare e sviluppare workflow di esplorazione dati e di pre-processamento dei dati stessi. Nello specifico mostra come effettuare caricamento di un insieme di dati, come riassumerne quantitativamente le principali caratteristiche, per variabili categoriche, nominali, ordinali e per variabili numeriche. Inoltre, viene mostrato come trattare il problema dei valori mancanti e come ridurre la dimensione dell’insieme di dati sia in termini di attributi che in termini di osservazioni.
- Classificazione Supervisionata; introduce alla formulazione, valutazione e risoluzione di problemi di classificazione supervisionata, vale a dire problemi per i quali a fronte di un insieme di attributi di input si dispone di uno o più attributi di output che rappresentano le quantità da prevedere utilizzando gli attributi di input a disposizione. Viene dedicata attenzione al tema della progettazione dell’esperimento di apprendimento ed alla valutazione dei relativi risultati. Nello specifico si mostra come stimare le prestazioni di un modello di classificazione, come si comparano le prestazioni di due modelli di classificazione. Infine, viene riservata particolare attenzione al problema della selezione e/o generazione degli attributi tramite opportune procedure algoritmiche.
- Classificazione non Supervisionata; questo argomento è dedicato alla formulazione, valutazione e risoluzione di problemi di classificazione non supervisionata, vale a dire problemi per i quali si dispone solamente di un insieme di attributi di input. In questo caso il compito dell’esperto di machine learning consiste nel progettare ed implementare un workflow che consenta di raggruppare le osservazioni dell’insieme di dati disponibili in modo tale da rendere ottimale l’omogeneità delle osservazioni associate allo stesso gruppo e rendere massima la differenza tra osservazioni assegnate a gruppi differenti. Vengono presentate e discusse diverse misure di similarità utilizzate per valutare l’omogeneità dei gruppi formati dalle procedure e dagli algoritmi di classificazione non supervisionata. Infine, particolare attenzione viene data agli indici di valutazione e comparazione di soluzioni alternative.
Programma esteso
- Esplorazione dei dati e Pre-Processing
- Tipi di dati ed attributi
- Esplorazione dei dati, grafica e tabellare
- Trattamento delle osservazioni mancanti
- Pre-processamento dei dati
- Classificazione Supervisionata
- Introduzione alla classificazione supervisionata
- Tecniche di classificazione supervisionata; reti neurali, classificatori Bayesiani, alberi di decisione, …
- Misure di prestazione, procedure di valutazione e comparazione di classificatori
- Classi sbilanciate e problemi di classificazione non binaria
- Classificazione Non Supervisionata
- Introduzione alla classificazione non supervisionata
- Misure di prossimità per attributi continui, nominali, ordinali
- Algoritmi di clustering; k-means,algoritmi gerarchici, dbscan, opossum, …
- Misure di prestazione, procedure di valutazione e comparazione delle soluzioni di clustering
Prerequisiti
Sono utili nozioni base di informatica, calcolo delle probabilità e statistica.
Modalità didattica
L'intera attività formativa viene svolta attraverso lezioni in presenza. L’intero corso è reso disponibile in formato digitale e si compone di lezioni audio-narrate sia per la componente metodologica che per la componente pratica, vale a dire l’impiego di software open source per il machine learning. Lo studente è stimolato a verificare il proprio livello di apprendimento tramite esercizi guidati da realizzarsi con l’impiego del software open source presentato a lezione. Il corso rende inoltre disponibili circa 170 quiz a risposta multipla, tramite la piattaforma Moodle, per consentire allo studente di verificare il proprio livello di preparazione.
Materiale didattico
Materiale audiovisivo, slides, dataset e workflow progettati e realizzati dai docenti del corso.
Periodo di erogazione dell'insegnamento
Primo semestre
Modalità di verifica del profitto e valutazione
La verifica si basa su due componenti complementari, lo svolgimento di un progetto di machine learning con conseguente redazione di un rapporto tecnico, stile articolo scientifico, e lo svolgimento di una prova d’esame, in laboratorio ed a calcolatore volta a verificare il grado di comprensione metodologica e teorica del candidato. Gli studenti sono incoraggiati al team working per quanto riguarda la componete progetto dell’esame, favorendo pertanto il confronto, la discussione e lo spirito critico, componenti irrinunciabili per un contesto complesso come quello oggetto del corso. Il progetto viene scelto dal candidato tra quelli segnalati dal docente come eleggibili a partire da quanto offre la piattaforma Kaggle (https://www.kaggle.com/), piattaforma digitale ed internazionale che offre uno spazio virtuale altamente professionalizzante dove si incontrano domanda ed offerta nell'ambito della Data Science.
Il progetto di machine learning attrbuisce un massimo di 21 punti assegnati i base ai seguenti criteri
- Merito tecnico; rigore notazionale, accuratezza e correttezza (massimo 5 punti).
- Chiarezza espositiva e di comunicazione delle idee del candidato, includendo leggibilità e visione critica (massimo 5 punti)
- Inquadramento appropriato del problema trattato (massimo 2 punti)
- Bilanciamento complessivo tra le diverse componenti del report (massimo 3 punti)
- Assenza di ripetizioni, plagio ed auto plagio (massimo 3 punti)
- Qualità dei diagrammi, tabelle, grafici, figure, ... (massimo 3 punti)
La prova d'esame in laboratorio ed a calcolatore attribuisce un massimo di 11 punti, ripartiti come segue; 6 punti per 6 quiz a risposta chiusa aventi per oggetto i concetti presentati nel corso e massimo 5 punti per una domanda aperta volta a valutare la capacità critica del candidato.
Infine, il candidato che lo desiderasse può richiedere di sostenere una prova orale (prevede domande di ragionamento e deduzione su argomenti presentati nel corso) che attribuisce un massimo di 3 punti.
Orario di ricevimento
Su appuntamento
Aims
To train the data analysis expert according to the machine learning methodology.
The goal is achieved by;
- teaching how to design, develop and present machine learning projects,
- exploiting open source platforms, languages and software,
- stimulating the team working methodology.
The student will be able to design, develop, document, and present machine learning projects solving real world problems.
Contents
The course contents are the following;
- Data Exploration to inspect and summarize the available data and to design and develop a pre-processing workflow,
- Supervised Classification, to learn a mapping from input attributes to output or target attributes to be classified or predicted,
- Unsupervised Classification, to form homogeneous groups of observations and/or attributes using a given proximity measure,
You will learn how to develop machine learning workflows using the KNIME open source software platform. You are not required to code any programs while if you want KNIME allows to use powerful and professional open source programming languages and commercial software environments; R, Weka, Matlab, Python, Java, ...
Detailed program
- Data Exploration and Preprocessing
- Data types and attributes
- Graphical and tabular data exploration
- Missing data treatment
- Data Pre-Processing
- Supervised Classification
- Introduction
- Techniques, models and algorithms; artficial neural nets, Bayesian classifiers, decision trees, …
- Performance measures to evaluate and compare classifiers
- Unbalanced classes and non binary classification
- Unsupervised Classification
- Introduction
- Proximity measures for nominal, ordinal and continuous attributes
- Techniques, models and algorithms; partitioning, hierarchical, graph based, density based, …
- Performance measures to evaluate and compare clustering solutions
Prerequisites
Basic knowledge on; informatics, probability calculus and statistics.
Teaching form
Teaching is achieved by classes. The entire course is also available in digital form consisting of video lectures for theory and hands-on. The course material is organized through learning paths where lecture modules consist of theoretical lecture, hand-on lecture and self-evaluation sessions. Self-evaluation session offers a powerful and effective resource to online learning, i.e. after the class has taken place, The course makes available 170 quizzes to allow students to fairly assess their understanding level and to train for the exam.
Textbook and teaching resource
Video-lectures, slides, datasets and workflows designed and developed by the teacher.
Semester
Fall Semester
Assessment method
Assessment is based on two components, a machine learning project and a methodology exam which is performed in the laboratory by using a computer. Students and encouraged to work in small teams to design, develop and document their data and/or text mining project. The data and/or text mining project is usually selected by the students team by exploiting the Kaggle platform (https://www.kaggle.com/) where Data Science requests and offers meet.
The machine learning project gives a maximum of 21 points, assigned according to six criteria as follows:
- Technical merit: notably rigour, accuracy and correctness (maximum 5 points)
- Clarity of expression and communication of ideas; including readability and discussion of concepts (maximum 5 points)
- Appropriate referencing and the context of the present work (maximum 2 points)
- Overall balance and structure of report (maximum 3 points)
- Repetition; have significant parts of the manuscript already been published by other authors? (maximum 3 points)
- Diagrams, tables, captions; are they clear and essential (maximum 3 points)
The methodology exam gives a maximum of 11 points. according to the following; 6 points for 6 quizzes, one point for each quiz (each quiz concerns concepts presented in the course) and a maximum of 5 points for an open ended question having the goal to evaluate the critical point of view of the candidate. The candidate can also ask to undergo oral examination, consisting of questions about reasoning and deduction about the concepts presented in the course, which gives a maximum of 3 points.
Office hours
On dating