Skip to main content
If you continue browsing this website, you agree to our policies:
  • Condizioni di utilizzo e trattamento dei dati
Continue
x
e-Learning - UNIMIB
  • Home
  • My Media
  • More
Listen to this page using ReadSpeaker
 Log in
e-Learning - UNIMIB
Home My Media
Expand all Collapse all
Percorso della pagina
  1. Science
  2. Master Degree
  3. Data Science [FDS02Q - FDS01Q]
  4. Courses
  5. A.A. 2025-2026
  6. 2nd year
  1. Text Mining and Search
  2. Summary
Insegnamento Course full name
Text Mining and Search
Course ID number
2526-2-FDS01Q013
Course summary SYLLABUS

Course Syllabus

  • Italiano ‎(it)‎
  • English ‎(en)‎
Export

Obiettivi

Conoscenza e comprensione

L'obiettivo dell'insegnamento è introdurre i concetti fondamentali dell'elaborazione del linguaggio naturale (Natural Language Processing, NLP) e delle tecniche di Text Mining, fornendo una base solida per l'analisi automatica dei testi. Dopo una panoramica sulle metodologie di base, l'insegnamento affronterà alcuni task specifici, tra cui la classificazione e il clustering di documenti, il topic modeling, la generazione automatica di riassunti (text summarization) e la ricerca di informazioni testuali.

Capacità di applicare conoscenza e comprensione

Durante le lezioni e le attività di laboratorio vengono promosse e valutate le capacità degli studenti di applicare le conoscenze acquisite sugli argomenti trattati nell'insegnamento.

Autonomia di giudizio

L’insegnamento mira a sviluppare l’autonomia di giudizio e la capacità di analisi critica rispetto alle principali sfide legate all’elaborazione del linguaggio naturale e al Text Mining, nonché ai principali task correlati. Tali competenze saranno stimolate anche attraverso discussioni in aula e attività di laboratorio.

Abilità comunicative

Sviluppo della capacità di comunicare in modo chiaro, consapevole e privo di ambiguità contenuti tecnici, idee, problemi e relative soluzioni a interlocutori diversi. Tali abilità saranno promosse durante l’insegnamento e valutate in sede d’esame.

Capacità di apprendimento

L'insegnamento è concepito per fornire sia conoscenze teoriche sia competenze pratiche, costituendo un solido punto di partenza anche per eventuali approfondimenti individuali sui principi di rappresentazione, analisi e ricerca testuale.

Contenuti sintetici

  • L'insegnamento fornirà una definizione introduttiva di Text Mining e Natural Language Processing (NLP), evidenziando le principali differenze tra Data Mining e Text Mining.
  • Verranno presentate le principali tecniche di pre-processing testuale e affrontati i problemi legati all'indicizzazione dei testi e alla loro rappresentazione formale.
  • Saranno quindi introdotte alcune applicazioni fondamentali del Text Mining, tra cui la classificazione e il clustering di documenti, il topic modeling, il riassunto automatico di testi e il reperimento delle informazioni testuali.
  • Verranno inoltre presentati alcuni strumenti open source utili per lo sviluppo di applicazioni di Text Mining.

Programma esteso

  1. Definizione di Natural Language Processing (NLP), Text Mining e principali differenze tra Text Mining e Data Mining.
  2. Breve introduzione ad alcune applicazioni del Text Mining.
  3. Tecniche di pre-processing, indicizzazione e rappresentazione formale dei testi (Bag-of-Words, Word Embedding, introduzione alle tecniche di Contextualized Word Embedding).
  4. Classificazione e clustering di testi.
  5. Topic modeling.
  6. Riassunto automatico di testi.
  7. Introduzione ai motori di ricerca testuali.
  8. Strumenti "open source" per il Text Mining e la ricerca di informazioni online.

Prerequisiti

Conoscenze di base di statistica e di programmazione (preferibilmente in Python).

Modalità didattica

  • L'insegnamento è costituito da 46 ore, di cui 9 di laboratorio.
  • L'insegnamento è tenuto in lingua inglese.
  • Le lezioni sono da 2 ore (una sola da 3 ore) e vengono svolte sia in modalità erogativa (specie nella parte iniziale della lezione) sia in modalità interattiva (durante la lezione) per il coinvolgimento attivo degli studenti.
  • Nelle attività di laboratorio viene spiegato e sperimentato l'utilizzo di software “open source”.
  • Potranno essere previsti seminari tenuti da esperti a livello nazionale ed internazionale.
  • Alcune lezioni potranno essere svolte in modalità erogativa-interattiva da remoto.

Materiale didattico

  • Berry, M. W., & Kogan, J. (Eds.). (2010). Text mining: applications and theory. John Wiley & Sons.
  • Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
  • Chowdhary, K., & Chowdhary, K. R. (2020). Natural language processing. Fundamentals of artificial intelligence, 603-649.

Altri testi specifici su Text Mining accesibili online verranno indicati durante l'insegnamento

Periodo di erogazione dell'insegnamento

Primo semestre.

Modalità di verifica del profitto e valutazione

Prova scritta e realizzazione di un progetto di laboratorio (project work), che deve essere svolto in gruppo (fino a tre studenti).

  • La prova scritta ha l’obiettivo di valutare il livello di comprensione degli aspetti fondamentali dell’insegnamento e consiste in una serie di domande a risposta aperta.
  • L’obiettivo del progetto di gruppo, tramite l’utilizzo di software open source, è lo sviluppo di soluzioni tecnologiche a problemi affrontati durante le lezioni. In particolare, si considerano ambiti applicativi reali che richiedono la definizione di sistemi i cui fondamenti sono stati presentati a lezione. Il progetto viene presentato di persona dagli studenti, per verificare le competenze effettivamente acquisite, sia di natura tecnica sia critica e di giudizio, e al contempo per sviluppare le capacità comunicative.

La valutazione della prova scritta avverrà in trentesimi. A fronte del conseguimento della sufficienza all'esame scritto (almeno 18/30), verranno aggiunti da 0 a 4 punti in base alla valutazione del progetto.

Non sono previste prove in itinere.

Orario di ricevimento

Previo appuntamento con i docenti.

Sustainable Development Goals

SALUTE E BENESSERE | ISTRUZIONE DI QUALITÁ | PARITÁ DI GENERE | ENERGIA PULITA E ACCESSIBILE | IMPRESE, INNOVAZIONE E INFRASTRUTTURE | PACE, GIUSTIZIA E ISTITUZIONI SOLIDE
Export

Aims

Knowledge and Understanding

The aim of the course is to introduce the fundamental concepts of Natural Language Processing (NLP) and Text Mining techniques, providing a solid foundation for the automatic analysis of textual data. After an overview of basic methodologies, the course will cover specific tasks such as document classification and clustering, topic modeling, automatic text summarization, and Information Retrieval (IR).

Applying Knowledge and Understanding

Throughout lectures and lab activities, students are encouraged and assessed on their ability to apply the knowledge acquired to the topics covered in the course.

Making Judgements

The course aims to foster independent judgement and critical analysis skills in relation to the main challenges of natural language processing and Text Mining, as well as the related key tasks. These competencies will be further developed through in-class discussions and lab work.

Communication Skills

Development of the ability to clearly, consciously, and unambiguously communicate technical content, ideas, problems, and corresponding solutions to different types of audiences. These skills will be promoted during the course and assessed as part of the final examination.

Learning Skills

The course is designed to provide both theoretical knowledge and practical skills, offering a solid starting point for further individual study of the principles of text representation, analysis, and retrieval.

Contents

  • The course will provide an introductory definition of Text Mining and Natural Language Processing (NLP), highlighting the main differences between Data Mining and Text Mining.
  • Key text pre-processing techniques will be presented, along with issues related to text indexing and formal representation.
  • Fundamental Text Mining applications will then be introduced, including document classification and clustering, topic modeling, automatic text summarization, and textual Information Retrieval (IR).
  • The course will also present selected open-source tools useful for developing Text Mining applications.

Detailed program

  1. Definition of Natural Language Processing (NLP), Text Mining, and main differences between Text Mining and Data Mining.
  2. Brief introduction to selected Text Mining applications.
  3. Text pre-processing techniques, indexing, and formal text representation (Bag-of-Words, Word Embedding, introduction to Contextualized Word Embedding techniques).
  4. Text classification and clustering.
  5. Topic modeling.
  6. Automatic text summarization.
  7. Introduction to text search engines.
  8. Open-source tools for Text Mining and online Information Retrieval (IR).

Prerequisites

Basic knowledge of statistics and programming (preferably in Python).

Teaching form

  • The course consists of 46 hours, of which 9 are laboratory sessions.
  • The course is taught in English.
  • Lessons are 2 hours long (with one session lasting 3 hours) and are conducted both in a lecture format (mainly at the beginning of the lesson) and in an interactive mode (during the lesson) to actively engage students.
  • During laboratory activities, the use of open-source software is explained and practiced.
  • Seminars by national and international experts may be scheduled.
  • Some lessons may be conducted remotely in a lecture-interactive format.

Textbook and teaching resource

  • Berry, M. W., & Kogan, J. (Eds.). (2010). Text mining: applications and theory. John Wiley & Sons.
  • Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
  • Chowdhary, K., & Chowdhary, K. R. (2020). Natural language processing. Fundamentals of artificial intelligence, 603-649.

Other specific books and articles on text mining that are accessible online will be recommended during the course.

Semester

First semester.

Assessment method

Written exam and completion of a laboratory project, which must be carried out in groups of up to three students.

  • The written exam aims to assess the understanding of the fundamental concepts taught in the course and consists of a series of open-ended questions.
  • The goal of the group project, through the use of open source software, is to develop technological solutions to problems addressed during the lessons. In particular, real-world application areas are considered, requiring the design of systems whose foundations were presented during the course. The project is presented in person by the students to assess the skills they have actually acquired, both technical and critical/judgmental, while also developing their communication abilities.

The written exam will be graded out of 30. Upon obtaining a passing grade in the written exam (at least 18/30), 0 to 4 additional points will be added based on the project evaluation.

No midterm exams are scheduled.

Office hours

To be agreed with the teachers.

Sustainable Development Goals

GOOD HEALTH AND WELL-BEING | QUALITY EDUCATION | GENDER EQUALITY | AFFORDABLE AND CLEAN ENERGY | INDUSTRY, INNOVATION AND INFRASTRUCTURE | PEACE, JUSTICE AND STRONG INSTITUTIONS
Enter

Key information

Field of research
INF/01
ECTS
6
Term
First semester
Activity type
Mandatory
Course Length (Hours)
46
Degree Course Type
2-year Master Degreee
Language
English

Staff

    Teacher

  • Marco Viviani
    Marco Viviani

Students' opinion

View previous A.Y. opinion

Bibliography

Find the books for this course in the Library

Enrolment methods

Manual enrolments
Guest access

Sustainable Development Goals

GOOD HEALTH AND WELL-BEING - Ensure healthy lives and promote well-being for all at all ages
GOOD HEALTH AND WELL-BEING
QUALITY EDUCATION - Ensure inclusive and equitable quality education and promote lifelong learning opportunities for all
QUALITY EDUCATION
GENDER EQUALITY - Achieve gender equality and empower all women and girls
GENDER EQUALITY
AFFORDABLE AND CLEAN ENERGY - Ensure access to affordable, reliable, sustainable and modern energy for all
AFFORDABLE AND CLEAN ENERGY
INDUSTRY, INNOVATION AND INFRASTRUCTURE - Build resilient infrastructure, promote inclusive and sustainable industrialization and foster innovation
INDUSTRY, INNOVATION AND INFRASTRUCTURE
PEACE, JUSTICE AND STRONG INSTITUTIONS - Promote peaceful and inclusive societies for sustainable development, provide access to justice for all and build effective, accountable and inclusive institutions at all levels
PEACE, JUSTICE AND STRONG INSTITUTIONS

You are not logged in. (Log in)
Policies
Get the mobile app
Powered by Moodle
© 2025 Università degli Studi di Milano-Bicocca
  • Privacy policy
  • Accessibility
  • Statistics