- Text Mining and Search
- Summary
Course Syllabus
Obiettivi
L'obiettivo del corso è fornire
un'introduzione ai concetti fondamentali relativi a tecniche di Text Mining, e ad alcune applicazioni di Text Mining: Classificazione di Testi, Riassunto Automatico di Testi, Text Clustering. Si faranno accenni a sistemi quali i Motori di Ricerca e i Sistemi per la Raccomandazione di Informazioni.
Contenuti sintetici
Il corso fornirà inizialmente la definizione di Text Mining e indicherà le principali differenze tra Data Mining e Text Mining.
Il corso introdurrà quindi alcune applicazioni correlate al Text Mining: riassunto automatico di testi, e classificazione di testi. Tecniche di pre-processing di testi verranno presentate e il problema dell'indicizzazione di testi e della loro rappresentazione formale verrà affrontato. Il corso introdurrà quindi le applicazioni precedentemente citate. Si introdurranno alcuni software open source per la definizione di applicazioni di Text Mining.
Programma esteso
1. Definizione di Text Mining e delle principali differenze tra Text Mining e Data Mining.
2. Breve introduzione di alcune applicazioni correlate al Text Mining: Information Retrieval, Information Filtering, classificazione di testi
3. Pre-Processing e indicizzazione di testi
4. Classificazione di testi
5. Clustering di testi
6. Riassunto automatico di testi
7. Introduzione ai Motori di ricerca testuali e ai Sistemi per la Raccomandazione di Informazione
8. Software Open Source
Prerequisiti
Conoscenza di base di statistica e di linguaggi di programmazione.
Modalità didattica
Il corso è tenuto in lingua inglese e prevede sia lezioni sia esercitazioni; in laboratorio sarà spiegato e sperimentato l'utilizzo di software “open source”. In periodo di emergenza il corso sarà erogato online, con eventi in presenza e seminari tenuti da esperti a livello nazionale ed internazionale.
Materiale didattico
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
Testi specifici su Text Mining accesibili online verranno indicati durante il corso.
Periodo di erogazione dell'insegnamento
Primo semestre
Modalità di verifica del profitto e valutazione
Prova
scritta e orale individuale, realizzazione di un progetto di laboratorio che è possibile svolgere in gruppo (sino a tre studenti)
La prova scritta ha come obiettivo la valutazione del livello di comprensione degli aspetti di base dell'insegnamento erogato, ed è costituita da un insieme di domande a risposta aperta.
Orario di ricevimento
Previo appuntamento con i docenti
Aims
The aim of
the course is to provide an introduction to the fundamental concepts related to
Text Mining techniques, and to their applications in various tasks: Text Classification and Clustering and Text Summarization. An introduction to Search Engines and Recommender Systems will be provided.
Contents
This course will first provide the definition of Text Mining and will point out the basic differences between Data Mining and Text Mining.
The course will then introduce some tasks involved by Text Mining, which include Text Summarization and Text Classification. The issues of text pre-processing and analysis, and of text indexing and representation will be addressed. Then the course will introduce the previously mentioned tasks. Some open source software for Text Mining will be introduced and practiced.
Detailed program
1. Definition of Text Mining and basic differences between Data Mining and Text Mining.
3. Text pre-processing and indexing
4. Text Classification
5. Text Clustering
6. Text Summarization
7. Introduction to Text Based Search Engines and to Recommender Systems
8. Open Source software for Text Mining and Search
Prerequisites
Basic knowledge of statistics and of programming languages.
Teaching form
The course will be taught in English, and it will be constituted of both lectures introducing the main topics and of sessions in a laboratory where open source tools will be explained and employed. In emergency period both lessons and laboratory sessions will be online, and events in presence will be also organized. Seminars held by experts at national and international level will be part of the course.
Textbook and teaching resource
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
Specific books on text mining that are accessible online will be recommended during the course.Semester
First Semester
Assessment method
Written and oral individual examination, definition of a laboratory project that can be developed also by groups of students (up to three students).
Office hours
To be agreed with the teachers
Key information
Staff
-
Marco Viviani
-
Rodrigo Souza Wilkens