Signal, Audio, and Image Processing and Understanding

Simone Bianco
Luigi Celona
Flavio Piccoli
Paolo Napoletano

Inglese

E' necessario iscriversi almeno una settimana prima della prima lezione.
Se non è possibile iscriversi, inviare un'e-mail al/i docente/i.

Questo corso collega l'elaborazione classica dei segnali e le moderne tecniche di machine learning per i dati multimodali. Gli studenti apprenderanno i fondamenti matematici dei segnali digitali, audio e immagini; esploreranno le moderne architetture profonde che operano su di essi; e comprenderanno come effettura il fine-tuning di large foundation models utilizzando tecniche di Low-Rank Adaptation (LoRA).

Di seguito è riportato un elenco preliminare degli argomenti trattati:

  • Fondamenti dei segnali digitali:
    • Teoria del campionamento, quantizzazione, DFT/FFT, filtri digitali.
  • Elaborazione e comprensione dei segnali audio:
    • Spettrogrammi, features di tonalità e timbro, compressione, rappresentazione del parlato, psicoacustica.
  • Elaborazione e comprensione dei segnali immagine:
    • Formazione delle immagini, spazi colore, filtraggio, estrazione delle features, compressione ed enhancement.
  • Dai segnali alle rappresentazioni profonde:
    • Embedding spettrali di segnali, CNN, autoencoder, transformer e foundation models.
  • Low-Rank Adaptation (LoRA) and Parameter-Efficient Fine-Tuning:
    • Concetti, decomposizione matriciale, efficienza di addestramento, applicazioni in modelli visivi/audio di grandi dimensioni.

La valutazione si baserà su un semplice progetto di gruppo da realizzare in una giornata dedicata (come un breve hackathon) su un argomento scelto dallo studente in coordinamento con il/i docente/i.

2 CFU, 16 ore

ISTRUZIONE DI QUALITÁ

Signal, Audio, and Image Processing and Understanding

Simone Bianco
Luigi Celona
Flavio Piccoli
Paolo Napoletano

English

You must enrol at least one week before the first lecture.
If you are unable to enrol, send an email to the teacher(s).

This course bridges classical signal processing and contemporary machine learning for multimodal data. Students will learn the mathematical foundations of digital, audio, and image signals; explore modern deep architectures that operate on them; and understand how to fine-tune large foundation models using Low-Rank Adaptation (LoRA) techniques.

A preliminary list of topics is:

  • Digital Signal Fundamentals:
    • Sampling theory, quantization, DFT/FFT, digital filters.
  • Audio Signal Processing and Understanding:
    • Spectrograms, pitch and timbre features, compression, speech representation, psychoacoustics.
  • Image Signal Processing and Understanding:
    • Image formation, color spaces, filtering, feature extraction, compression, and enhancement.
  • From Signals to Deep Representations:
    • Spectral embeddings for signal data, CNNs, autoencoders, transformers and foundation models.
  • Low-Rank Adaptation (LoRA) and Parameter-Efficient Fine-Tuning:
    • Concept, matrix decomposition, training efficiency, applications in large vision/audio models.

Evaluation will be based on a simple group project to realize in a dedicated day (like a brief hackathon) on a topic selected by the student in coordination with lecturer(s).

2 CFU, 16 hours

February 2026

Staff

    Teacher

  • Simone Bianco
  • Luigi Celona
    Luigi Celona
  • Paolo Napoletano
    Paolo Napoletano
  • Flavio Piccoli
    Flavio Piccoli

Enrolment methods

Manual enrolments
Self enrolment (Student)