Course information | Bioinformatics

Course Syllabus

Italiano ‎(it)‎
English ‎(en)‎

Export

Obiettivi

L'obiettivo principale del modulo è quello di introdurre gli studenti alle principali problematiche relative all'analisi computazionale di sequenze biologiche (DNA, RNA, proteine). Gli studenti acquisiranno le conoscenze ed i concetti di base relativi alle metodologie e alle tecniche computazionali per la raccolta, la gestione e l'analisi di dati in biologia molecolare, come i dati di sequenze generati dalle tecnologie Next Generation Sequencing (NGS), e la padronanza dei principali strumenti computazionali necessari per estrarre informazioni di interesse per la ricerca biomedica dalle principali banche dati di sequenze.

Contenuti sintetici

Introduzione alla bioinformatica: motivazioni, problemi e metodologie.

Generazione dei dati: le tecnologie NGS

Organizzazione e gestione dei dati: le principali basi di dati; accesso, interrogazione, inserimento dati

Analisi dei dati: ricostruzione e annotazione di genomi; confronto di sequenze: algoritmi di allineamento globale, locale e multiplo; ricostruzione di filogenie; analisi del trascrittoma.

Programma esteso

1. La gestione dei dati nelle scienze della vita

2. L’informatica essenziale

2.1. Algoritmi e programmi

2.2. Alfabeti, parole, grafi

2.3. Basi di dati

3. La tecnologia NGS

3.1. Piattaforme NGS di seconda generazione

3.2. Piattaforme NGS di terza generazione

3.3. Il formato dei dati genomici

3.4. Ricostruzione e annotazione di genomi

4. Basi di dati di sequenze molecolari

4.1. Basi di dati Genomiche (EMBL – GenBank)

4.2. Basi di dati di sequenze proteiche (SwissProt, PDB)

4.3. I sistemi di interrogazione delle Basi di Dati

5. Analisi di sequenze in biologia molecolare

5.1. Algoritmi di String matching esatto

5.2. Allineamento di sequenze

5.2.1. Motivazioni

5.2.2. Matrici a punti

5.2.3. Matrici di sostituzione PAM, BLOSUM

5.2.4. Allineamento globale: Algoritmo di Needleman-Wunsch

5.2.5. Allineamento locale: Algoritmo di Smith-Waterman

5.2.6. Algoritmi euristici: BLAST, Fasta, BWA

5.2.7. Allineamento multiplo; CLUSTALW

6. Ricerca di motivi funzionali in sequenze

6.1. Alberi di suffissi

6.2. Algoritmi di pattern discovery

7. Analisi del trascrittoma

7.1. Annotazione di geni e trascritti alternativi

7.2. Analisi di dati RNA-seq

8. Evoluzione molecolare: ricostruzione di alberi filogenetici

8.1. Algoritmi di Clustering

8.1.1. k-means

8.1.2. Neighbor joining

8.1.3. UPGMA

8.1.4. Metodi di massima parsimonia

8.1.5. Metodi di massima verosimiglianza

Prerequisiti

Conoscenze di base di informatica e di biologia molecolare

Modalità didattica

Lezioni in presenza (se possibile)

Materiale didattico

M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole, Fondamenti di bioinformatica (Zanichelli editore)

Dispense fornite dal docente

Periodo di erogazione dell'insegnamento

Primo semestre

Modalità di verifica del profitto e valutazione

Non sono previste verifiche intermedie. La verifica finale consiste in una prova orale, che verrà valutata tenendo conto della chiarezza espositiva e della completezza delle risposte a tre/quattro domande relative ai contenuti dell'insegnamento.

Orario di ricevimento

Da definire con lo studente via email

Export

Aims

The main objective of the module is to introduce students to the main problems related to the computational analysis of biological sequences (DNA, RNA, proteins). Students will acquire the basic knowledge and concepts related to computational methods and techniques for collecting, managing and analyzing data in molecular biology, such as sequence data generated by Next Generation Sequencing (NGS) technologies, and will master the main computational tools necessary to extract information of interest for biomedical research from the main sequencing databases.

Introduction to bioinformatics: motivations, problems and methodologies.
Data generation: NGS technologies
Organization and management of data: the main databases; access, query, data entry
Data analysis: genome reconstruction and annotation; sequence comparison: global, local and multiple alignment algorithms; reconstruction of phylogenies; transcriptome analysis.

Detailed program

1. Data management in life sciences

2. Basics of informatics

2.1. Algorithms and programs

2.2. Alphabets, word, graphs

2.3. Databases

3. The NGS technology

3.1. Second generation NGS platforms

3.2. Third generation NGS platforms

3.3. Genomic data formats

3.4. Genome reconstruction and annotation

4. Basi di dati di sequenze molecolari

4.1. Genomic databases (EMBL – GenBank)

4.2. Protein databases (SwissProt, PDB)

4.3. Database query systems

5. Sequence Analysis in molecular biology

5.1. Exact String matching algorithms

5.2. Sequence alignments

5.2.1. Motivations

5.2.2. Dot matrices

5.2.3. Substitution matrices (PAM, BLOSUM)

5.2.4. Global alignment: Needleman-Wunsch Algorithm

5.2.5. Local alignment: Smith-Waterman Algorithm

5.2.6. Euristic Algorithms: BLAST, Fasta, BWA

5.2.7. Multiple alignment algorithms; CLUSTALW

6. Functional motifs finding in sequences

6.1. Suffix trees

6.2. Pattern discovery algorithms

7. Transcriptome Analysis

7.1. Gene Annotation and d alternative transcripts

7.2. RNA-seq data analysis

8. Molecular evolution: philogenetic trees reconstruction

8.1. Clustering algorithms

8.1.1 k-means

8.1.2 Neighbor joining

8.2. UPGMA

8.3. Maximum parsimony methods

8.4. Maximum likelihood methods

Prerequisites

Basic knowledge of computer science and molecular biology

Teaching form

Standard classes (if possible)

Textbook and teaching resource

M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole, Fondamenti di bioinformatica (Zanichelli editore)

Teachers notes

Semester

First semester

Assessment method

Oral exam at the end of the course, on all the topics covered in the course. The evaluation will take into account the specific knowledge of the topics, the clarity of exposition and the ability to connect the computational tools to the biological problems to be solved.

Office hours

To be defined with the student by email contact

Enter

Field of research

INF/01

ECTS

Term

First semester

Activity type

Mandatory to be chosen

Course Length (Hours)

Language

Italian

Teacher

GM

Giancarlo Mauri

Manual enrolments

Self enrolment (Student)