Riassunto di Data and Text Mining (blended)

Syllabus del corso

Italiano ‎(it)‎
English ‎(en)‎

Esporta

Obiettivi

Formare la figura professionale dell'esperto di estrazione della conoscenza da dati strutturati, semi-strutturati e non-strutturati.
La metodologia adottata è rappresentata da Data e Text Mining.
L'obiettivo viene perseguito;

fornendo competenze di progettazione, sviluppo e documentazione di studi di data e text mining,
presentando i principali algoritmi di apprendimento per dati strutturati, semi-strutturati e non strutturati.
fornendo competenze su software open source professionale per l'estrazione della conoscenza a partire dai dati strutturati, semi-strutturati e non strutturati,
stimolando e promuovendo il team working come metodo professionale di lavoro e collaborazione.

Al termine del corso lo studente sarà in grado di progettare, sviluppare, documentare e presentare uno studio di Data e Text Mining.

Contenuti sintetici

Il corso è strutturato nei seguenti argomenti;

Preprocessing di dati strutturati, semi strutturati e non strutturati; viene mostrato come progettare e sviluppare workflow di esplorazione e pre-processamento dati strutturati, semi-strutturati e non strutturati.
Classificazione Supervisionata; introduce alla formulazione, valutazione e risoluzione di problemi di classificazione supervisionata. In problemi in questione sono carettirizzati dal fatto che a fronte di un insieme di attributi di input si dispone di uno o più attributi di output che rappresentano le quantità da prevedere utilizzando gli attributi di input a disposizione. Vengono presentati diversi algoritmi di apprendiment che costituiscono lo stato dell'arte. INoltre, viene dedicata attenzione al tema della progettazione dell’esperimento di apprendimento ed alla valutazione dei relativi risultati.
Classificazione non Supervisionata; dedicato alla formulazione, valutazione e risoluzione di problemi di classificazione non supervisionata, vale a dire problemi per i quali si dispone solamente di un insieme di attributi di input. Viene mostrato come progettare ed implementare un workflow che consenta di raggruppare osservazioni omogenee e separae osservazioni non omogenee. Vengono presentati i principali algorimi di partizionamento, gerarchici, basati sulla densità, e basati sul concetto di grafo. Viene posta attenzione agli indici di valutazione e comparazione di soluzioni alternative.
Regole di Associazione; mostra come apprendere regole di associazione nel caso di dati transazionali. Viene presentato come progettare e implementare un workflow che consenta di estrarre regole di associazione tra attributi in modo da fornire capacità predittiva e decisionale. Anche in questo caso particolare attenzione viene dedicata agli indici di valutazione e comparazione di regole associative.
Text Pre-processing; vengono illustrati i principali metodi ed algoritmi utilizzati per trasformare testo in linguaggio naturale al fine di renderlo utilizzabile da algoritmi di apprendimento. Vengno nello specifico illustrati i principali passi di preprocessing previsti dal Natural Language Processing.
Auto-organizzazione dei Documenti: vengono presentati i Topic Models, modelli grafico-probabilistici di tipo generativo che consentono di estrarre in mod automatico temi nascosti nel testo in linguaggio naturale. Si tratta di modelli indipendenti dalla lingua e basati solo sul dato di conteggio di occorrenze e co-occorrenze di termini. Questa classe di modelli ha trovato grandissima applicazione nel web, per i sistemi di raccomandazione e per l'indicizzazione del testo in liguaggio naturale.
Estrazione dell'Informazione: tecniche ed algoritmi che consentono di estrarre in modo automatico diversi tipi di entità quali persone, istituzioni, città, luoghi, valute, ... Inoltre, vengono presentati algoritmi per estrarre relazioni tra entità e per il riempimento automatico di template a partire da testo in linguaggio naturale.

Programma esteso

Esplorazione dei dati e Pre-Processing

Tipi di dati ed attributi
Esplorazione dei dati, grafica e tabellare
Trattamento delle osservazioni mancanti
Pre-processamento dei dati

Classificazione Supervisionata

Introduzione alla classificazione supervisionata
Tecniche di classificazione supervisionata; reti neurali, classificatori Bayesiani, alberi di decisione, …
Misure di prestazione, procedure di valutazione e comparazione di classificatori
Classi sbilanciate e problemi di classificazione non binaria

Classificazione Non Supervisionata

Introduzione alla classificazione non supervisionata
Misure di prossimità per attributi continui, nominali, ordinali
Algoritmi di clustering; k-means,algoritmi gerarchici, dbscan, opossum, …
Misure di prestazione, procedure di valutazione e comparazione delle soluzioni di clustering

Regole di Associazione

Introduzione alle regole associative
Tipi di itemsets e loro rilevanza
Principio ed algoritmo Apriori
Misure di prestazione, procedure di valutazione e selezione di regole associative

Preprocessing del Testo

Tokenizzazione
Filtering e Stemming
Modello 0/1, basato su frequenza e modello bag-of-words
Misura TF-IDF

Categorizzazione del Testo

Schema binario
Schema multi-classe
Schema multi-etichetta

Organizzazione dei Documenti

Clustering di documenti
Topic Models
Latent Dirichlet Allocation
Misure di validazione dei topic

Estrazione dell'Informazione

Estrazione di entità
Estrazione di relazioni tra entità
Previsione di sequenze
Applicazioni industriali e commerciali

Deep Learning

Introduzione
Feedforward neural network
cenni alle reti convoluzionali
cenni alle reti sequenziali

Prerequisiti

Sono utili nozioni base di informatica, calcolo delle probabilità e statistica.

Modalità didattica

Le lezioni si svolgeranno in modalità blended, con eventi in presenza in forma di seminari tematici. L’intero corso è reso disponibile in formato digitale ed in lingua inglese. Il corso si compone di lezioni audio-narrate sia per la componente metodologica che per la componente pratica, vale a dire l’impiego di software open source per data e text mining. Lo studente è stimolato a verificare il proprio livello di apprendimento tramite esercizi guidati da realizzarsi con l’impiego del software open source presentato a lezione. Il corso rende inoltre disponibili circa 230 quiz a risposta multipla, tramite la piattaforma Moodle, per consentire allo studente di verificare il proprio livello di preparazione.

Materiale didattico

Materiale audiovisivo, slides, dataset e workflow progettati e realizzati dai docenti del corso.
Inoltre, i seguenti testi sono consigliati

Periodo di erogazione dell'insegnamento

Primo semestre

Modalità di verifica del profitto e valutazione

La verifica si basa su due componenti complementari, lo svolgimento di un progetto di Data e/o Text Mining con conseguente redazione di un rapporto tecnico, stile articolo scientifico, e lo svolgimento di una prova d’esame, in laboratorio ed a calcolatore volta a verificare il grado di comprensione metodologica e teorica del candidato. Gli studenti sono incoraggiati al team working per quanto riguarda la componete progetto dell’esame, favorendo pertanto il confronto, la discussione e lo spirito critico, componenti irrinunciabili per un contesto complesso come quello oggetto del corso. Il progetto viene scelto dal candidato tra quelli segnalati dal docente come eleggibili a partire da quanto offre la piattaforma Kaggle (https://www.kaggle.com/), piattaforma digitale ed internazionale che offre uno spazio virtuale altamente professionalizzante dove si incontrano domanda ed offerta nell'ambito della Data Science.
Il progetto di machine learning attrbuisce un massimo di 21 punti assegnati i base ai seguenti criteri

Merito tecnico; rigore notazionale, accuratezza e correttezza (massimo 5 punti).

Chiarezza espositiva e di comunicazione delle idee del candidato, includendo leggibilità e visione critica (massimo 5 punti)

Inquadramento appropriato del problema trattato (massimo 2 punti)

Bilanciamento complessivo tra le diverse componenti del report (massimo 3 punti)

Assenza di ripetizioni, plagio ed auto plagio (massimo 3 punti)

Qualità dei diagrammi, tabelle, grafici, figure, ... (massimo 3 punti)

La prova d'esame in laboratorio ed a calcolatore attribuisce un massimo di 11 punti, ripartiti come segue; 6 punti per 6 quiz a risposta chiusa aventi per oggetto i concetti presentati nel corso e massimo 5 punti per una domanda aperta volta a valutare la capacità critica del candidato.
Infine, il candidato che lo desiderasse può richiedere di sostenere una prova orale (prevede domande di ragionamento e deduzione su argomenti presentati nel corso) che attribuisce un massimo di 3 punti.

Orario di ricevimento

Su appuntamento

Esporta

Aims

To train the expert of knowledge extraction from structured, un-structured and semi-structured data according to the data and text mining methodology.
The goal is achieved by;

teaching how to design, develop and present data mining and text mining projects,
introducing the main learning algorithms and models for structured, un-structured and semi-structured data,
exploiting open source platforms, languages and software,
stimulating the team working methodology.

The student will be able to design, develop, document, and present data and text mining projects solving real world problems.

The course contents are the following;

Data Exploration to inspect and summarize the available data and to design and develop a pre-processing workflow,
Classification, to learn a mapping from input attributes to output or target attributes to be classified or predicted,
Clustering, to form homogeneous groups of observations and/or attributes using a given proximity measure,
Association Rules, to automatically extract rules hidden in the data with specific reference to transaction data.
Text Preprocessing, to transform un-structured and semi-structured data to be processed by learning algorithms.
Text Classification, to learn classifying social networks posts, news, ...
Topic Models, to automatically extract hidden topics from textual sources.
Information Extraction, to automatically extract entities, i.e. person, place, organization, ... and their relationships from un-structured and semi-structured data.

You will learn how to develop data and text mining workflows using the KNIME open source software platform. You are not required to code any programs while if you want KNIME allows to use powerful and professional open source programming languages and commercial software environments; R, Weka, Matlab, Python, Java, ...

Detailed program

Data Exploration and Preprocessing

Data types and attributes
Graphical and tabular data exploration
Missing data treatment
Data Pre-Processing

Classification

Introduction
Techniques, models and algorithms; artficial neural nets, Bayesian classifiers, decision trees, …
Performance measures to evaluate and compare classifiers
Unbalanced classes and non binary classification

Clustering

Introduction
Proximity measures for nominal, ordinal and continuous attributes
Techniques, models and algorithms; partitioning, hierarchical, graph based, density based, …
Performance measures to evaluate and compare clustering solutions

Association Rules

Introduction and basic definitions
Item and itemsets
Apriori, principle and algorithm
Performance measures to evaluate and compare association rules

Text Preprocessing

Tokenization
Filtering and Stemming
the bag-of-words model, 0/1, term frequency
Term frequency inverse document frequency

Text Categorization

binary classification
multi-class
multi-label

Topic Models

Document clustering
Topic Models
Latent Dirichlet Allocation
Topic validation

Information Extraction

Entity extraction
Entity relationship extraction
Sequence prediction
Industrial and commercial applications

Deep Learning

Introduction
Feedforward neural network
Basics on Convolutional neural networks
Basics on Sequential neural networks

Prerequisites

Basic knowledge on; informatics, probability calculus and statistics.

Teaching form

Teaching happens in blended learning, while tutorial lectures will happen in classes. The entire course is also available in digital form consisting of video lectures for theory and hands-on. All videos are in English. The course material is organized through learning paths where lecture modules consist of theoretical lecture, hand-on lecture and self-evaluation sessions. Self-evaluation session offers a powerful and effective resource to online learning, i.e. after the class has taken place, The course makes available 230 quizzes to allow students to fairly assess their understanding level and to train for the exam.

Textbook and teaching resource

Audiovisual, slides, dataset and workflow designed and implemented by the course teacher and instructor.
Furthermore, the following books are recommended

Semester

Fall Semester

Assessment method

Assessment is based on two components, a Data and/or Text Mining project and a methodology exam which is performed in the laboratory by using a computer. Students and encouraged to work in small teams to design, develop and document their data and/or text mining project. The data and/or text mining project is usually selected by the students team by exploiting the Kaggle platform (https://www.kaggle.com/) where Data Science requests and offers meet.
The machine learning project gives a maximum of 21 points, assigned according to six criteria as follows:

Technical merit: notably rigour, accuracy and correctness (maximum 5 points)

Clarity of expression and communication of ideas; including readability and discussion of concepts (maximum 5 points)

Appropriate referencing and the context of the present work (maximum 2 points)

Overall balance and structure of report (maximum 3 points)

Repetition; have significant parts of the manuscript already been published by other authors? (maximum 3 points)

Diagrams, tables, captions; are they clear and essential (maximum 3 points)

The methodology exam gives a maximum of 11 points. according to the following; 6 points for 6 quizzes, one point for each quiz (each quiz concerns concepts presented in the course) and a maximum of 5 points for an open ended question having the goal to evaluate the critical point of view of the candidate. The candidate can also ask to undergo oral examination, consisting of questions about reasoning and deduction about the concepts presented in the course, which gives a maximum of 3 points.

Office hours

On dating

Entra

Settore disciplinare

INF/01

CFU

Periodo

Primo Semestre

Tipo di attività

Obbligatorio a scelta

Ore

Tipologia CdS

Laurea Magistrale

Docente

AB

Alessandro Bregoli
Fabio Antonio Stella

Vedi valutazione del precedente anno accademico

Trova i libri per questo corso nella Biblioteca di Ateneo

Iscrizione manuale

Iscrizione spontanea (Studente)