- Bioinformatic Methodologies
- Summary
Course Syllabus
Obiettivi
L'obiettivo generale del corso è quello di introdurre gli studenti alle principali problematiche e metodologie relative all'analisi computazionale di sequenze biologiche (DNA, RNA, proteine) per estrarre informazioni di interesse per la ricerca biomedica o per le biotecnologie.
Conoscenza e capacità di comprensione.
Gli studenti acquisiranno le conoscenze ed i concetti di base relativi alle metodologie e alle tecniche computazionali per la raccolta, la gestione e l'analisi di dati in biologia molecolare, inclusi i dati di sequenze generati dalle tecnologie Next Generation Sequencing a singola-cellula.
Capacità di applicare conoscenza e comprensione.
Alla fine del corso, studenti e studentesse avranno padronanza dei principali strumenti computazionali necessari per estrarre informazioni di interesse dalle principali banche dati biologiche.
Autonomia di giudizio.
Studenti e studentesse dovranno acquisire piena consapevolezza del significato delle procedure bioinformatiche per la ricerca, analisi e trattamento dei dati; evitando il più possibile un approccio d’uso degli strumenti bioinformatici (in particolare, di quelli liberamente disponibili online) di tipo “black box”.
Abilità comunicative.
Al termine dell'insegnamento lo studente dovrà essere in grado di esprimersi in modo appropriato nella descrizione delle tematiche affrontate, con proprietà di linguaggio e sicurezza di esposizione.
Capacità di apprendimento
L’insegnamento non si limita ad un approccio pratico meramente descrittivo, ma delinea progetti di ricerca, opportunamente dimensionati alle competenze da acquisire, che permettano alle studentesse e agli studenti non solo di applicare degli strumenti, ma anche di valutare in modo critico i risultati, cogliendo le differenze che diversi tipi di strumenti e di approcci possono avere sul dato ottenuto.
Contenuti sintetici
• Introduzione alla bioinformatica
• La generazione dei dati: dalle piattaforme di sequenziamento all’assemblaggio e annotazione del genoma
• Organizzazione e gestione dei dati biologici
• Confronto di sequenze e ricostruzione di alberi filogenetici
• Analisi del trascrittoma
Programma esteso
- Introduzione alla bioinformatica
a. Cosa è la bioinformatica
b. Ripasso di elementi di Informatica
c. Ripasso di elementi di statistica e probabilità
d. Cenni di machine learning - La generazione dei dati
a. Piattaforme di sequenziamento degli acidi nucleici
b. Dal cromatogramma alle reads: il “base calling”
c. Coverage, qualità delle read, formato dei dati
d. Dalle read alla sequenza: algoritmi di assemblaggio
e. Annotazione del genoma - Confronto di sequenze
a. Allineamento locale e globale
b. Algoritmi esatti ed euristici - Organizzazione e gestione dei dati:
a. Database e DBMS: database relazionali e flat file
b. Banche di dati biologiche
i. Banche dati genomiche (GenBank - ENA – DDBJ)
ii. Banche dati proteomiche (UniprotKB, Swiss-Prot, TrEMBL – PDB)
iii. Genome browsers: ENSEMBL, UCSC - Metodi di costruzione di alberi filogenetici
- Analisi del trascrittoma
a. Dal sequenziamento dell’RNA ai valori di espressione
b. Pre-processamento e analisi dati di sigle-cell RNA sequencing
Prerequisiti
Le conoscenze di Biologia cellulare, molecolare e biochimica, acquisite nei corsi base di una Laurea triennale in Scienze Biologiche o in Biotecnologie saranno date per assodate.
Conoscenze pregresse utili che saranno solo brevemente riprese durante il corso:
• Elementi di architettura dei calcolatori e algoritmi
• Elementi di probabilità e statistica
Modalità didattica
Lezioni svolte in modalità erogativa in presenza, con slides.
Cinque esercitazioni interattive in presenza per l'utilizzo di banche dati biologiche e piattaforme di analisi bioinformatiche
Materiale didattico
Slides delle lezioni e delle esercitazioni reperibili sulla pagina e-learning dell'insegnamento.
Libro di testo suggerito: Citterich, Ferré, Pavesi, Romualdi, Pesole. Fondamenti di Informatica. BIOLOGIA ZANICHELLI
Articoli specialistici e di rassegna e capitoli di libro verranno consigliati a lezione e caricati sulla piattaforma e-learning del corso.
Periodo di erogazione dell'insegnamento
Primo semestre
Modalità di verifica del profitto e valutazione
Progetto di ricerca individuale o di gruppo su un argomento a scelta dello studente che preveda l'utilizzo critico di alcuni strumenti visti a lezione
+
Esame orale in cui lo studente presenta il progetto di ricerca e dimostra la padronanza dei concetti utilizzati nel progetto. Durante l'esame orale saranno inoltre proposti esercizi (da svolgere su carta) di allinemaneto di sequenze.
Non sono previste prove intermedie per i frequentanti.
Orario di ricevimento
Gli studenti sono invitati a contattare il docente per email per accordarsi su data e giorno (eventualmente via WebEx)
Aims
The general objective of the course is to introduce students to the main problems and methodologies related to the computational analysis of biological sequences (DNA, RNA, proteins) to extract information of interest for biomedical research or biotechnology.
Knowledge and understanding
Students will acquire the basic knowledge and concepts related to computational methodologies and techniques for the collection, management and analysis of data in molecular biology, including data generated by single-cell Next Generation Sequencing technologies.
Applying knowledge and understanding
At the end of the course, students will master the main computational tools necessary to extract information of interest from the main biological databases.
Making judgements
Students will have to acquire full awareness of the significance of bioinformatics procedures for research, analysis and data processing; avoiding as much as possible a "black box" approach to using bioinformatics tools (in particular, those freely available online).
Communication skills
Use of an appropriate scientific vocabulary and ability in oral/written reports.
Learning skills
The teaching is not limited to a merely descriptive practical approach, but outlines research projects, appropriately sized to the skills to be acquired, which allow students not only to apply tools, but also to critically evaluate the results, understanding the differences that different types of tools and approaches can have on the data obtained.
Contents
• Introduction to bioinformatics
• Data generation: from sequencing platforms to genome assembly and annotation
• Biological data organization and management
• Comparison of sequences and reconstruction of phylogenetic trees
• Transcriptomic data analysis
Detailed program
- Introduction to bioinformatics
a. What is bioinformatics
b. Review of computer science elements
c. Review of statistics and probability elements
d. Machine learning in a nuthsell - Data generation
a. DNA sequencing platforms
b. From chromatogram to reads: “base calling”
c. Coverage, reads quality, data formats
d. From reads to the sequence: genome assembly
e. Genome annotation - Comparison of sequences
a. Local and global alignment
b. Exact and heuristic algorithms - Biological data organization and management
a. Databases and DBMS: relational and flat file databases
b. Biological databases
i. Genomic databases (GenBank - ENA – DDBJ)
ii. Proteomic dabases (UniprotKB, Swiss-Prot, TrEMBL – PDB)
iii. Genome browsers: ENSEMBL, UCSC - Phylogenetic trees reconstruction methods
- Analysis of the transcriptome
a. From RNA sequencing to gene expression levels
b. Single-cell RNA sequencing data pre-processing and analysis
Prerequisites
Concepts of cellular and molecular biology, and biochemistry provided in basic courses of bachelors in Biological or Biotechnological sciences will be given for granted.
Previous knowledge that is useful, which will be only briefly revised during the course:
• Elements of computer’s architecture and algorithms
• Elements of probability and statistics
Teaching form
Classroom lectures with slides.
Five hands-on sessions on pc for the use of biological databases and bioinformatics platforms.
Textbook and teaching resource
All educational material will be available at the e-learning platform of the course.
Suggested textbook: Citterich, Ferré, Pavesi, Romualdi, Pesole. Fondamenti di Informatica. BIOLOGIA ZANICHELLI
Specialized research articles, surveys and book chapters will be recommended during the course.
Semester
First semester
Assessment method
Individual or group research project on a topic chosen by the student which involves the critical use of some tools seen in class
+
Oral exam in which the student presents the research project and demonstrates mastery of the concepts used in the project. During the oral exam, sequence alignment exercises (to be carried out on paper) will also be proposed.
There are no intermediate tests for attending students.
Office hours
Students are invited to contact the teacher by email to agree upon a date (possibly on Webex)
Key information
Staff
-
Chiara Damiani