Corso: Elementi di Bioinformatica

Schema della sezione

Seleziona sezione Introduzione

Introduzione
Nel corso verranno introdotti i principali problemi in bioinformatica, insieme con alcuni algoritmi per risolvere tali problemi. Inoltre verranno presentate alcune modalità di gestione di dati biologici, quali i principali formati di file e database. Nel corso vengono trattati sia argomenti algoritmici che di programmazione oltre che, in misura minore, di database.

Nel corso viene data grande attenzione alla capacità di sviluppare programmi per la risoluzione di problemi bioinformatici. Pertanto vengono trattate le tematiche di interfacciamento con le banche dati genomiche pubbliche e le metodologie adottate dalla comunità open source (git e GitHub).

Il linguaggio di programmazione utilizzato in laboratorio è Python. Alcune lezioni sono dedicate allo studio di programmi scritti in C utilizzati in Bioinformatica.

L’obiettivo complessivo del corso è permettere allo studente di comprendere un problema di natura bioinformatica, e di risolverlo utilizzando sia le competenze di metodologie algoritmiche che le pratiche di programmazione scientifica trattate nel corso.

Modalità di esame

L’esame è composto da uno scritto e da un progetto da concordare con il docente. Il progetto contribuisce il 50% del voto finale, ma è necessario raggiungere la sufficienza in entrambe le parti dell’esami.
Il progetto prevede di sviluppare un programma in C o Python su un tema concordato con il docente. Può essere svolto individualmente o in piccoli gruppi (max 3 persone). In alternativa è possibile svolgere tre esercizi durante il corso, con scadenze fissate e non derogabili. Gli esercizi saranno 2 su Python e 1 su C: in quest'ultimo caso, se gli esercizi sono svolti correttamente e secondo le richieste, il voto del progetto è 30/30.
Lo scritto riguarda la parte su algoritmi e consiste in 4 domande, ma bisogna rispondere a 3 delle 4 domande.

Materiale didattico

Il libro di testo seguito per quasi tutte le lezioni è “Algorithms on Strings, Trees and Sequences”, di Daniel Gusfield, Cambridge Univ. Press. La biblioteca tiene alcune copie del libro di testo, anche come ebook.
Il libro "An Introduction to Bioinformatics Algorithms" di N. Jones, P. Pevzner viene usato esclusivamente come approfondimento per la parte di ricostruzione di filogenesi e di sequenziamento.
Il libro "Theoretical Evolutionary Genetics" di J. Felsenstein viene usato esclusivamente come approfondimento per la parte di ricostruzione di filogenesi. A similar book is Poplation and Quantitative Genetics by Graham Coop.
Slide e programmi sono nel repo https://github.com/bioinformatica-corso/lezioni
Per quanto riguarda la parte su Python, viene usato il Jupyter notebook. Viene consigliata l'installazione di python e del notebook tramite conda.
Come shell di linux viene introdotto bash. Per chi ha Linux o Mac non è necessario installare altri programmi. A chi ha Windows si consiglia WSL.

Propedeuticità

Algoritmi e strutture dati. Linguaggi di programmazione.
Calendario
- Le lezioni su argomenti algoritmici si tengono il Lunedì dalle 14.30 alle 17.30 e il Mercoledì dalle 8.30 alle 10.30. Le lezioni a distanza saranno via zoom, seguendo il link
- Le lezioni su Python si tengono il Martedì dalle 10.30 alle 13.30
Risorse
Chat del corso. Viene usata per tutte le discussioni inerenti il corso.
Note scritte dal docente durante le lezioni. Blocco di OneNote con gli appunti.
- Seleziona attività Esame 23/02/2021
  
  Compito
  
  Esame 23/02/2021 Compito
- Seleziona attività Esami scritti 2020
  
  File
  
  Esami scritti 2020 File
- Seleziona attività Etichetta
- Seleziona attività Python - Esercizio 1. Validatore del formato GTF
  
  Compito
  
  Python - Esercizio 1. Validatore del formato GTF Compito
  
  Si richiede di scrivere un validatore del formato GTF (Gene Transfer Format) che prenda in input un file in formato GTF che annota un set di geni ed effettui la validazione del file rispetto alla specifica del formato.
  Il validatore deve produrre in output un report con le violazioni presenti, specificando per ognuna di esse il record che la contiene (posizione all'interno del file in input) e tutte le informazioni che si ritengono necessarie per descriverla e correggerla.
  Il validatore può essere prodotto sia come script che come Jupyter Notebook, e deve essere adeguatamente commentato. Si richiede inoltre un documento che elenchi e descriva brevemente le violazioni che sono state considerate. Per ogni violazione considerata, includere un file con tale violazione.
  Il validatore deve essere caricato in un repository GitHub di cui va consegnato il link
  Termine di consegna: 30 novembre.
- Seleziona attività Esito primo progetto Python - validatore GTF844787...
  Esito primo progetto Python - validatore GTF
  844787 positivo
  845538 positivo
  845646 positivo
  845045 positivo
  844659 positivo
  844941 positivo
  844816 negativo
  844682 positivo
  794184 positivo
  830737 negativo
- Seleziona attività Python - Esercizio 2. Convertitore da FASTQ a FASTA
  
  Compito
  
  Python - Esercizio 2. Convertitore da FASTQ a FASTA Compito
  
  Si richiede di scrivere un convertitore da FASTQ a FASTA che prenda in input un file di reads in formato FASTQ e produca in formato FASTA i soli reads che hanno le seguenti caratteristiche: (1) non sono più corti di una soglia L1 e non sono più lunghi di una soglia L2, (2) la qualità minima delle basi supera una soglia Q1, (3) contengono una sottoregione con qualità minima Q2 (maggiore di Q1) che è lunga almeno P% della lunghezza del read.
  Viene richiesto l'uso di Biopython per leggere i reads dal file FASTQ in input e per stampare (in standard output o su file) i reads in formato FASTA.
  L1, L2 (> L1), Q1, Q2 (> Q1) e P devono essere parametri in input.
  Per ognuno dei reads in output, l'header FASTA deve contenere le seguenti informazioni: (1) identificatore, (2) lunghezza, (3) qualità minima delle basi, (4) start ed end della sottoregione con qualità minima Q2, (5) qualità media della sottoregione con qualità minima Q2
  Il convertitore può essere prodotto sia come script che come Jupyter Notebook, deve essere adeguatamente commentato e deve essere caricato in un repository GitHub di cui va consegnato il link
  
  Termine di consegna: 7 gennaio 2021.
- Seleziona attività Esito secondo progetto Python - convertitore da FA...
  Esito secondo progetto Python - convertitore da FASTQ a FASTA
  844787 positivo
  845538 positivo
  845646 positivo
  845045 positivo
  844659 positivo
  844941 positivo
  844682 positivo
  794184 positivo
- Seleziona attività Etichetta (copia)
- Seleziona attività Progetto intermedio C
  
  Compito
  
  Progetto intermedio C Compito
  
  Partendo dal programma che calcola la LCS con banda, scrivere un programma C che calcola l'allineamento globale ottimo di due sequenze in una banda (quindi scrivendo una variante dell'algoritmo di Smith-Waterman). Deve essere previsto un meccanismo per leggere le due sequenze da allineare (va bene sia leggerle da file che da standard input).
  Come matrice di score, usare BLOSUM62 dove l'asterisco è il simbolo che denota un indel. Per semplicità, la matrice può essere scritta in un file sorgente (.h o .c).
  L'output consiste in una rappresentazione testuale dell'allineamento delle due sequenze e il valore di score totale. Ogni rappresentazione testuale che che sia ragionevolmente intuitiva (ad esempio ogni sequenza su ogni riga, incolonnate opportunamente e con un simbolo diverso per dire se due caratteri sono uguali, diversi o presentano un indel) è accettabile.
  La consegna è il link al repo pubblico (ad esempio su github).
- Seleziona attività Etichetta (copia) (copia)
- Seleziona attività Avvisi
  
  Forum
  
  Avvisi Forum
  
  Avvisi dei docenti agli studenti. Per ricevere gli avvisi è necessario essere iscritti al corso.
- Seleziona attività Lucidi Biologia
  
  File
  
  Lucidi Biologia File
- Seleziona attività Lezione 01: Bit-parallel
  
  Kaltura Video Resource
  
  Lezione 01: Bit-parallel Kaltura Video Resource
- Seleziona attività Lezione 02: Karp-Rabin
  
  Kaltura Video Resource
  
  Lezione 02: Karp-Rabin Kaltura Video Resource
- Seleziona attività Lezione 03: Suffix tree e suffix array
  
  Kaltura Video Resource
  
  Lezione 03: Suffix tree e suffix array Kaltura Video Resource
- Seleziona attività Lezione 04: Sottostringa più lunga di un insieme di stringhe. Introduzione al pattern matching con suffix array.
  
  Kaltura Video Resource
  
  Lezione 04: Sottostringa più lunga di un insieme di stringhe. Introduzione al pattern matching con suffix array. Kaltura Video Resource
- Seleziona attività Lezione 05: Pattern matching con suffix array
  
  Kaltura Video Resource
  
  Lezione 05: Pattern matching con suffix array Kaltura Video Resource
- Seleziona attività Lezione 06: implementazione pattern matching con suffix array. Primi comandi Unix
  
  Kaltura Video Resource
  
  Lezione 06: implementazione pattern matching con suffix array. Primi comandi Unix Kaltura Video Resource
- Seleziona attività Lezione 07: Sottostringa comune più lunga su Suffix Array. Comandi Unix (parte 2)
  
  Kaltura Video Resource
  
  Lezione 07: Sottostringa comune più lunga su Suffix Array. Comandi Unix (parte 2) Kaltura Video Resource
- Seleziona attività Lezione 08: Range Minimum Query
  
  Kaltura Video Resource
  
  Lezione 08: Range Minimum Query Kaltura Video Resource
- Seleziona attività Lezione 09: Allineamento globale di 2 sequenze
  
  Kaltura Video Resource
  
  Lezione 09: Allineamento globale di 2 sequenze Kaltura Video Resource
- Seleziona attività Lezione 10: allineamento locale di 2 sequenze
  
  Kaltura Video Resource
  
  Lezione 10: allineamento locale di 2 sequenze Kaltura Video Resource
- Seleziona attività Lezione 11: Allineamento con gap
  
  Kaltura Video Resource
  
  Lezione 11: Allineamento con gap Kaltura Video Resource
- Seleziona attività Lezione 12: Allineamento con banda
  
  Kaltura Video Resource
  
  Lezione 12: Allineamento con banda Kaltura Video Resource
- Seleziona attività Lezione 13: allineamento multiplo, matrici di score, BLAST
  
  Kaltura Video Resource
  
  Lezione 13: allineamento multiplo, matrici di score, BLAST Kaltura Video Resource
- Seleziona attività Lezione 14: Filogenesi basata su caratteri.
  
  Kaltura Video Resource
  
  Lezione 14: Filogenesi basata su caratteri. Kaltura Video Resource
- Seleziona attività Lezione 15: Algoritmi Fitch e Sankoff. Filogenesi su distanze.
  
  Kaltura Video Resource
  
  Lezione 15: Algoritmi Fitch e Sankoff. Filogenesi su distanze. Kaltura Video Resource
- Seleziona attività Lezione 16: UPGMA, Neighbor-Joining. Massima verosimiglianza
  
  Kaltura Video Resource
  
  Lezione 16: UPGMA, Neighbor-Joining. Massima verosimiglianza Kaltura Video Resource
- Seleziona attività Lezione 17: Assemblaggio di genomi e relazione con TSP
  
  Kaltura Video Resource
  
  Lezione 17: Assemblaggio di genomi e relazione con TSP Kaltura Video Resource
- Seleziona attività Lezione 18: Grafi di de Bruijn
  
  Kaltura Video Resource
  
  Lezione 18: Grafi di de Bruijn Kaltura Video Resource
- Seleziona attività Lezione 19: aplotipi da pedigree
  
  Kaltura Video Resource
  
  Lezione 19: aplotipi da pedigree Kaltura Video Resource
- Seleziona attività Lezione 20: Aplotipi su un singolo individuo
  
  Kaltura Video Resource
  
  Lezione 20: Aplotipi su un singolo individuo Kaltura Video Resource
- Seleziona attività Esame 27/01/2021
  
  Compito
  
  Esame 27/01/2021 Compito
Seleziona sezione Pattern Matching

Pattern Matching
- Algoritmo Bit-parallel per pattern matching esatto. (Gusfield 1.1, 4.1, 4.2.[1-2])
- Karp-Rabin: algoritmo e implementazione. (Gusfield 4.4)
Seleziona sezione Suffix array e Suffix tree

Suffix array e Suffix tree
- Definizioni. Array LCP. Passaggio da Suffix tree a suffix array e viceversa. Calcolo della sottostringa comune più lunga di 2 stringhe. (Gusfield 5, 5.1, 5.2, 5.3, 5.4, 7.4. dispensa)
- Pattern matching su suffix array. Algoritmo e implementazione (Gusfield 7.14)
- Ricerca della sottostringa comune più lunga di k stringhe: algoritmo e prima implementazione (Gusfield 7.4)
- Range minimum query. Implementazione sottostringa comune più lunga di k stringhe.
Seleziona sezione Allineamento

Allineamento
- Allineamento globale di 2 sequenze. Relazione con distanza di edit. Algoritmo di Needleman-Wunsch. (Gusfield 11.2, 11.3, 11.4, 11.6)
- Allineamento locale di 2 sequenze. Smith-Waterman (Gusfield 11.7)
- Allineamento con banda. Allineamento con gap. (Gusfield 12.2.3, 12.2.4, 11.8)
- Implementare algoritmi di programmazione dinamica.
- Allineamento multiplo. (Gusfield 14.1, 14.[5-6])
Seleziona sezione Filogenesi

Filogenesi
- Filogenesi basata su caratteri (Gusfield 17.3, 17.6.1. Jones&Pevzner Capitolo 10)
- Filogenesi basata su distanze. UPGMA e Neighbor-joining. (Gusfield 17.1 17.2 17.4)
- Modelli di evoluzione. Max likelihood. (Felsenstein X.2, X.8)
Seleziona sezione Sequenziamento

Sequenziamento
- grafi di de Brujin (Gusfield 16.18)
- grafi di stringhe (Gusfield 16.14, 16.15, 16.16, 16.17.1, 16.17.2)
Seleziona sezione Genotipi e aplotipi

Genotipi e aplotipi
- Genotipi e Aplotipi: singolo individuo.
- Genotipi e Aplotipi: pedigree.
Seleziona sezione Laboratorio Python

Laboratorio Python

Giorno e orario: martedì dalle 10:30 alle 13:30
Il laboratorio è terminato il 1° dicembre
- Seleziona attività CALENDARIO DELLE LEZIONI DI LABORATORIO29 settembr...
  CALENDARIO DELLE LEZIONI DI LABORATORIO
  
  29 settembre 2020 - Introduzione a Python (stringhe, liste e tuple)
  6 ottobre 2020 - Introduzione a Python (dizionari e insiemi)
  13 ottobre 2020 - Introduzione a Python (espressioni regolari); le sequenze nucleotidiche (DNA e RNA) parsing di un entry in formato EMBL (parte I)
  20 ottobre 2020 - Espressione genica: parsing di un entry in formato EMBL (parte II)
  27 ottobre 2020 - Annotazione di un gene su una genomica di riferimento e formato standard GTF (Gene Transfer Format) - parte I
  3 novembre 2020 - Annotazione di un gene su una genomica di riferimento e formato standard GTF (Gene Transfer Format) - parte II
  10 novembre 2020 - LABORATORIO SOSPESO
  17 novembre 2020 - LABORATORIO ANNULLATO
  24 novembre 2020 - Qualità del dato di sequenziamento e formato standard FASTQ
  1 dicembre 2020 - Package Biopython
- Seleziona attività MATERIALE DELLE LEZIONI DI LABORATORIOTutto il mat... (copia)
  
  MATERIALE DELLE LEZIONI DI LABORATORIO
  
  Tutto il materiale si trova nella cartella "laboratorio" del repository https://github.com/bioinformatica-corso/lezioni
- Seleziona attività VIDEOLEZIONI
  
  VIDEOLEZIONI
- Seleziona attività Laboratorio del 6 ottobre 2020 (parte I)
  
  Kaltura Video Resource
  
  Laboratorio del 6 ottobre 2020 (parte I) Kaltura Video Resource
- Seleziona attività Laboratorio del 6 ottobre 2020 (parte II)
  
  Kaltura Video Resource
  
  Laboratorio del 6 ottobre 2020 (parte II) Kaltura Video Resource
- Seleziona attività Laboratorio del 13 ottobre 2020
  
  Kaltura Video Resource
  
  Laboratorio del 13 ottobre 2020 Kaltura Video Resource
- Seleziona attività Laboratorio del 20 ottobre 2020
  
  Kaltura Video Resource
  
  Laboratorio del 20 ottobre 2020 Kaltura Video Resource
- Seleziona attività Laboratorio del 27 ottobre 2020
  
  Kaltura Video Resource
  
  Laboratorio del 27 ottobre 2020 Kaltura Video Resource
- Seleziona attività Laboratorio del 3 novembre 2020
  
  Kaltura Video Resource
  
  Laboratorio del 3 novembre 2020 Kaltura Video Resource
- Seleziona attività Laboratorio del 24 novembre 2020
  
  Kaltura Video Resource
  
  Laboratorio del 24 novembre 2020 Kaltura Video Resource
- Seleziona attività Laboratorio del 1° dicembre 2020
  
  Kaltura Video Resource
  
  Laboratorio del 1° dicembre 2020 Kaltura Video Resource
Seleziona sezione C e Unix

C e Unix
- Richiami shell Linux. Make (1 lezione) comandi
- Controllo di versione (git). software carpentry
- Interfacciare Python e C: FFI, Cython.

Schema della sezione

Modalità di esame

Materiale didattico

Propedeuticità

Calendario

Risorse