Informazioni sul corso | Biologia Computazionale

Syllabus del corso

Italiano ‎(it)‎
English ‎(en)‎

Esporta

Obiettivi

L’insegnamento si propone di fornire agli studenti una solida preparazione teorica e pratica nell’ambito della biologia computazionale. Particolare attenzione sarà rivolta alla predizione della struttura e della funzione delle proteine a partire dalla loro sequenza amminoacidica, attraverso l’applicazione di metodi basati sia su approcci classici che su tecniche di intelligenza artificiale. Verranno introdotti e analizzati i principali database di sequenze e strutture biologiche, con un’enfasi specifica sull’integrazione e sull’interpretazione critica dei risultati generati dai diversi metodi computazionali.
Gli obiettivi generali includono:
Conoscenze e capacità di comprensione
Al termine dell’insegnamento, lo studente avrà acquisito conoscenze sui principali metodi computazionali per l’analisi di sequenze biologiche. L’apprendimento comprenderà sia la comprensione teorica degli algoritmi sottostanti, sia la capacità di applicarli concretamente. Lo studente sarà inoltre guidato a interpretare i dati computazionali all’interno di un contesto biologico, sviluppando la capacità di formulare ipotesi coerenti e sperimentabili.

Capacità di applicare conoscenze e comprensione
Lo studente sarà in grado di progettare e implementare in autonomia una pipeline di analisi bioinformatica per la predizione strutturale e funzionale di una proteina di funzione ignota.

Autonomia di giudizio
Lo studente sarà stimolato a valutare in modo critico l’affidabilità delle predizioni computazionali, sviluppando la capacità di riconoscere i principali limiti dei metodi utilizzati. Sarà inoltre incoraggiato a integrare diverse fonti di informazione, come dati strutturali e funzionali, al fine di ottenere un’interpretazione biologica coerente, completa e scientificamente fondata.

Abilità comunicative
Al termine dell’insegnamento, lo studente padroneggerà il lessico appropriato per descrivere con precisione un’intera analisi computazionale, illustrandone in modo chiaro obiettivi, metodi, risultati e limiti.

Capacità di apprendimento
Lo studente sarà in grado di affrontare problemi biologici nuovi, non trattati durante le esercitazioni, applicando in modo autonomo le competenze acquisite e utilizzando con flessibilità i metodi appresi durante l’insegnamento.

Contenuti sintetici

Database biologici: sequenze, strutture e strategie di interrogazione
Allineamento di sequenze
Alberi filogenetici
Predizione funzionale: dalla sequenza amminoacidica alla funzione
Predizione strutturale: dalla sequenza amminoacidica alla struttura
Metodi computazionali avanzati per lo studio delle interazioni proteina-ligando
Applicazione di metodi computazionali per predire la struttura e la funzione di una proteina ignota.

Programma esteso

1. Database biologici: sequenze, strutture e strategie di interrogazione
Strategie di interrogazione e recupero dati dalle principali risorse bioinformatiche.
Esplorazione dei database di sequenza (GenBank, UniProt) e di metagenomica (MGnify).
Esplorazione dei database strutturali (PDB, AlphaFold DB) e comprensione dei formati standard (PDB, mmCIF).
Esplorazione dei database basati su famiglie, domini e classificazione strutturale (Pfam, PROSITE, CATH).

2. Allineamento di sequenze
Principi e applicazione delle matrici di punteggio per l'allineamento (PAM, BLOSUM, Position Specific Scoring Matrix).
Tecniche di allineamento a coppie (locale) e multiplo per l'identificazione di regioni conservate.
Ricerca per similarità in larga scala tramite BLAST: interpretazione critica dei risultati (E-value, bit-score).

3. Ricostruire la Storia Evolutiva: Filogenesi Molecolare
Metodi per la costruzione di alberi filogenetici (Neighbor-Joining, Maximum Likelihood).
Interpretazione di un albero: lettura della topologia, valutazione del supporto statistico (bootstrap) e identificazione di eventi evolutivi.
Principi di ricostruzione di sequenze ancestrali per inferire le proprietà delle proteine del passato.

4. Predizione funzionale: dalla sequenza alla funzione
Metodi di annotazione funzionale basati su omologia e analisi filogenetica.
Strategie e limiti dell'annotazione funzionale automatica.
Applicazione dei Modelli Nascosti di Markov (HMM) per il riconoscimento di motivi funzionali e l'assegnazione a famiglie proteiche.
Predizioni di modifiche post-traduzionali

5. Predizione strutturale: dalla sequenza alla struttura tridimensionale
Predizione delle strutture secondarie e delle regioni intrinsecamente disordinate (IDRs).
Modellazione per omologia (Homology Modelling): dalla ricerca dello stampo o template alla costruzione del modello.
La rivoluzione del Deep Learning: predizione strutturale ab initio con AlphaFold.
Valutazione critica della qualità dei modelli 3D: analisi del pLDDT, punteggi QMEAN e utilizzo del grafico di Ramachandran.
Principi di allineamento strutturale per il confronto tra proteine.

6. Metodi computazionali per lo studio della dinamica e delle interazioni proteina-ligando
Introduzione al docking molecolare
Introduzione alla dinamica molecolare

7. Laboratorio: predizione della struttura e della funzione di una proteina ignota
Effettuare la traduzione in silico e identificare la corretta Open Reading Frame (ORF).
Condurre un'analisi funzionale completa tramite ricerca di omologhi (BLAST), allineamenti multipli e identificazione di domini e motivi conservati (INTERPRO).
Eseguire la predizione della struttura tridimensionale utilizzando approcci di Homology Modelling e AlphaFold.
Valutare l'affidabilità del modello strutturale generato e visualizzarlo con software dedicati.

Prerequisiti

Basi di biochimica, biochimica delle proteine e biologia molecolare

Modalità didattica

L'insegnamento è strutturato in due moduli integrati per un totale di 45 ore (6 CFU), progettati per combinare basi teoriche con attività pratica.

1. Modulo teorico (18 lezioni in aula, 35 ore - 5 CFU). La didattica integra sessioni frontali, supportate da slide e video, con sessioni interattive, in cui gli studenti saranno guidati nell'analisi di dati computazionali, applicando da subito i concetti appresi.

2. Modulo Pratico (5 lezioni in laboratorio informatico, a frequenza obbligatoria, 10 ore - 1 CFU). Il laboratorio prevederà una fase introduttiva con slide e tutorial sull'uso degli strumenti software. Successivamente, gli studenti applicheranno queste competenze in modo pratico per estrarre dati e si confronteranno in discussioni interattive per interpretare i risultati ottenuti.

Materiale didattico

Slides e videolezioni: reperibili sulla pagina Moodle dell’insegnamento (http://elearning.unimib.it/).

Testi consigliati:
M.H. Citterich et al. “Fondamenti di Bioinformatica” Zanichelli
Pascarella e Paiardini “Bioinformatica, dalla sequenza alla struttura delle proteine” Zanichelli

Periodo di erogazione dell'insegnamento

Secondo semestre

Modalità di verifica del profitto e valutazione

Prova orale. La prova orale verterà su:
- Presentazione con diapositive PowerPoint dei risultati ottenuti durante il modulo di laboratorio. La valutazione considera il grado di comprensione degli strumenti computazionali utilizzati, l’interpretazione critica dei risultati ottenuti e l’uso del linguaggio appropriato.
- Colloquio sui contenuti del modulo teorico. La valutazione si baserà sulla conoscenza degli argomenti trattati, sulla capacità di stabilire connessioni tra i contenuti teorici e gli strumenti computazionali applicati nel laboratorio, sull’uso di un linguaggio adeguato e sulla chiarezza espositiva.

Orario di ricevimento

Su appuntamento previa e-mail al docente

Sustainable Development Goals

SALUTE E BENESSERE | ISTRUZIONE DI QUALITÁ | CONSUMO E PRODUZIONE RESPONSABILI

Esporta

Aims

This course aims to provide students with a solid theoretical and practical foundation in computational biology. It will focus on predicting protein structure and function from amino acid sequences using classical approaches and artificial intelligence techniques. Students will learn to analyze major databases of biological sequences and structures, and they will be taught to integrate and critically interpret results generated by various computational methods.

The general objectives include:
Knowledge and understanding
Students will have acquired knowledge of the primary computational methods used to analyze biological sequences. This learning will encompass a theoretical understanding of the underlying algorithms and the ability to apply them in practice. Students will also learn to interpret computational data within a biological context and develop the ability to formulate coherent, testable hypotheses.

Application of Knowledge and Understanding
Students will be able to design and implement an independent bioinformatics analysis pipeline for the structural and functional prediction of a protein with an unknown function.

Autonomy of Judgment
Students will be encouraged to critically evaluate the reliability of computational predictions and recognize the main limitations of the methods used. Students will also be encouraged to integrate various sources of information, such as structural and functional data, to achieve a coherent, comprehensive, scientifically sound biological interpretation.

Communicative Skills
Students will master the appropriate terminology to accurately describe a computational analysis, including its objectives, methods, results, and limitations.

Learning Skills
Students will be able to independently apply acquired skills and flexibly use methods learned during the course to tackle new biological problems not covered during course.

Biological Databases: Sequences, Structures, and Query Strategies
Sequence Alignment
Molecular Phylogenetics
Functional Prediction: From Amino Acid Sequence to Function
Structural Prediction: From Amino Acid Sequence to Structure
Advanced Computational Methods for Protein-Ligand Interactions
Application of Computational Methods to Predict the Structure and Function of an Unknown Protein.

Detailed program

1. Biological Databases: Sequences, Structures, and Query Strategies
Query strategies and data retrieval from major bioinformatics resources.
Exploration of sequence databases (GenBank, UniProt) and metagenomics databases (MGnify).
Exploration of structural databases (PDB, AlphaFold DB) and understanding of standard formats (PDB, mmCIF).
Exploration of databases based on families, domains, and structural classification (Pfam, PROSITE, CATH).

2. Sequence Alignment
Principles and application of scoring matrices for alignment (PAM, BLOSUM, Position Specific Scoring Matrix).
Pairwise (local) and multiple alignment techniques for identifying conserved regions.
Large-scale similarity searches using BLAST: critical interpretation of results (E-value, bit-score).

3. Molecular Phylogenetics
Methods for constructing phylogenetic trees (Neighbor-Joining, Maximum Likelihood).
Tree interpretation: reading topology, assessing statistical support (bootstrap), and identifying evolutionary events.
Principles of ancestral sequence reconstruction to infer properties of ancient proteins.

4. Functional Prediction: From Sequence to Function
Functional annotation methods based on homology and phylogenetic analysis.
Strategies and limitations of automatic functional annotation.
Application of Hidden Markov Models (HMMs) for recognizing functional motifs and assigning proteins to families.
Prediction of post-translational modifications.

5. Structural Prediction: From Sequence to 3D Structure
Prediction of secondary structures and intrinsically disordered regions (IDRs).
Homology modeling: from template search to model construction.
The deep learning revolution: ab initio structural prediction with AlphaFold.
Critical evaluation of 3D model quality: analysis of pLDDT, QMEAN scores, and use of the Ramachandran plot.
Principles of structural alignment for protein comparison.

6. Computational Methods for Studying Protein-Ligand Dynamics and Interactions
Introduction to molecular docking.
Introduction to molecular dynamics.

7. Laboratory: Prediction of the Structure and Function of an Unknown Protein
Perform in silico translation and identify the correct Open Reading Frame (ORF).
Conduct a complete functional analysis through homolog search (BLAST), multiple sequence alignment, and identification of conserved domains and motifs (INTERPRO).
Perform 3D structural prediction using Homology Modeling and AlphaFold approaches.
Assess the reliability of the generated structural model and visualize it using dedicated software.

Prerequisites

Biochemistry, Protein Biochemistry and Molecular Biology

Teaching form

The course consists of two integrated modules totaling 45 hours (6 CFU), combining theoretical foundations with practical activities.

Theoretical Module (18 classroom lectures, 35 hours - 5 CFU): Integrates frontal sessions with slides and videos, and interactive sessions where students analyze computational data, applying concepts learned.

Practical Module (5 computer laboratory sessions, mandatory attendance, 10 hours - 1 CFU): Includes introductory phases with slides and software tutorials, followed by practical application of skills to extract and interpret data.

Textbook and teaching resource

Slides and video lectures are available on the course Moodle page (http://elearning.unimib.it/).

Recommended texts:
M.H. Citterich et al. “Fondamenti di Bioinformatica” Zanichelli
Pascarella e Paiardini “Bioinformatica, dalla sequenza alla struttura delle proteine” Zanichelli

Semester

Second semester

Assessment method

Oral examination. The examination will focus:
- Presentation using PowerPoint slides of laboratory module results (50% of evaluation). Evaluation considers understanding of computational tools used, critical interpretation of results, and appropriate language use.
- Interview on theoretical module contents (50% of evaluation). The evaluation is based on knowledge of topics covered, ability to connect theoretical content with computational tools used in the laboratory, language use, and clarity of presentation.