- Making Sense of Biological Data
- Summary
Course Syllabus
Obiettivi
Fino a pochi anni fa, il collo di bottiglia per le analisi quantitative in Biologia era la generazione del dato, oggigiorno è l'estrazione della conoscienza biologica da grandi dataset. In particolare, l'avvento delle tecnologie Next Generation Sequencing (NGS) ha permesso ai ricercatori di osservare le variazioni a diverse scale biologiche, come le variazioni sull'intero genome, l'espressione dei singoli geni e l'abbondanze di piccoli frammenti di RNA, le modifiche epigenetiche, i motivi per il protein binding o le variazioni di conformazione nei cromosomi. Il tutto in maniera efficente e economicamente accessibile.
Fenomeni biologici, come malattie che affliggono l'uomo o altre caratteristiche di animali o piante descrivibili in maniera quantitativa, per essere compresi richiedono un enorme e variegato quantitativo di dati provenienti da studi complessi. Questi dati vengono organizzati e stoccati in banche dati pubbliche come la International Nucleotide Sequence Database Collaboration (INSDC), il database primario al mondo per le informazioni sulle sequenze biologiche.
Obiettivo principale di questo corso è quello di portare lo studente a comprendere la strutture dei dati biologici presenti in queste banche dati. Allo studente verrà richiesto di integrare queste informazioni molecolari con altre sorgenti di dati. Si esploreranno anche i limiti legati alla disponibilità ed all'integrità dei dati molecolari.
I due moduli sono fortemente integrati in tutta la fruizione del corso. Sia le lezioni che le esercitazioni verranno svolte in compresenza dei docenti. L'esame sarà contestuale per i due moduli e verrà svolto tramite un progetto basato sull'integrazione del contenuto dei due moduli.
Contenuti sintetici
- Origine del dato biologico.
- I livelli della variabilità biologica.
- Genotipo, fenotipo, ambiente e le loro relazioni.
- Tipi di dato: focus sul dato molecolare.
- Le basi di dati biologiche.
- Lab hands-on.
Programma esteso
- Origine del dato biologico. I dati biologici derivano da processi evolutivi. In questa sezione si richiameranno i principali processi evolutivi alla base della generazione dei dati biologici.
- I livelli della variabilità biologica: geni, individui, popolazioni e specie. In questa sezione si metterà in luce la variabilità nei dati biologici presente a tutti i livelli gerarchici.
- Genotipo, fenotipo, ambiente e le loro relazioni. La complessità biologica è riassunta dalle relazioni tra genotipo, fenotipo ed ambiente da cui gli individui hanno origine.
- Tipi di dato: focus sul dato molecolare. I principali dati biologici si basano sul DNA o le proteine. In questa sezione verranno analizzati i diversi tipi.
- Le basi di dati biologiche: le basi di dati biologiche sono collezioni delle scienze della vita, raccolte tramite esperimenti scientifici, letteratura scientifica, esperimenti con tecnologie high-throughput ed analisi computazioniali. Obiettivo di questo corso è la loro esplorazione.
- Lab hands-on: i dati biologici, la loro gestione ed analisi. Questa è la parte essenziale del modulo. Dopo la parte introduttiva gli studenti verranno guidati in esperienze di laboratorio in cui verranno maneggiati principalmente dati biologici e la loro integrazinoe con altre risorse.
Prerequisiti
Conoscenza di base di Python
Modalità didattica
Lezioni e sessioni in laboratorio informatico
Materiale didattico
Lucidi mostrati a lezione e articoli scientifici. Il materiale è a disposizione sulla pagina e-learning.
Periodo di erogazione dell'insegnamento
Secondo anno, secondo semestre
Modalità di verifica del profitto e valutazione
Gli studenti svilupperanno progetti sugli argomenti visti durante le lezioni. Gli argomenti del progetto devono essere analizzati integrando i concetti di entrambi i moduli.
I progetti saranno esposti oralmente in una data concordata con gli insegnanti.
L'esame sarà comprensivo per entrambi i moduli.
A causa della forte interdisciplinarietà e della natura applicata del corso, sarà incoraggiata la formazione di piccoli gruppo
La presentazione a conclusione dei progetti avverà tramite slides e dovrà avere la seguente struttura:
- Obiettivi principali del progetto
- Discussione delle strategie utilizzate
- Risultati
Orario di ricevimento
Per appuntamento tramite e-mail
Sustainable Development Goals
Aims
Few years ago, data generation was the bottleneck, now it is data mining, or extracting useful biological insights from large datasets. In particular, next generation sequencing (NGS) technologies have allowed researchers to screen changes at varying biological scales, such as genome-wide genetic variation, gene expression and small RNA abundance, epigenetic modifications, protein binding motifs, and chromosome conformation in a high-throughput and cost-efficient manner.
Biological phenomena, such as human diseases or quantitative traits in animals/plants need massive amounts and multiple types of ‘big’ data from complex studies to be described.
These data are mostly organized in public resources such as the International Nucleotide Sequence Database Collaboration (INSDC), the world's primary database of biological sequence (and related) information.
The main purpose of this course is to lead the student to understand the biological data structure in the public databases. The student will be required to integrate the biological data acquired with other data sources. The limits linked to the availability and integrity of biological data will be explored.
The two modules are highly integrated in all the contents delivered. Both lectures and workshops are delivered in co-presence by both teachers. The exam will be carried out in co-presence on a project based on the integrated contents of both modules.
Contents
- Origin of biological data
- The levels of biological variability: genes, individuals, populations, species
- Genotype, phenotype and environment and their relationship
- Type of data: focus on molecular data
- Biological database
- Practical experiences (laboratories): biological data, their management and analysis
Detailed program
- Origin of biological data. Biological data derives from evolutionary processes. In this section the principal processes in evolution that are generating biological data will be summarised.
- The levels of biological variability: genes, individuals, populations, species. Variability in biological data is shown at all the hierarchic levels that will be uncovered in this section.
- Genotype, phenotype and environment and their relationship. Biological complexity is summarised by the relationships among genotype, phenotype and environment from which the individuals are originated.
- Type of data: focus on molecular data. The main types of biological data are based on DNA or proteins. In this section we will show the different kinds.
- Biological database: Biological databases are libraries of biological sciences, collected from scientific experiments, published literature, high-throughput experiment technology, and computational analysis. The aim of this course is to explore these resources.
- Practical experiences (laboratories): biological data, their management and analysis. This is the core of this module. Following the introduction, students will be led by the teachers in lab experiences to manage biological data and integrate with other data resources.
Prerequisites
Python basic knowledges
Teaching form
Frontal lessons and lab practices.
Textbook and teaching resource
Slides and scientific papers. Materials are available on the e-learning page.
Semester
Second year, second semester
Assessment method
The students, will develop on-going projects on the topics seen during the lectures. The topics of the project must be analyzed by integrating the concepts of both modules.
The projects will be exposed orally on a date agreed with the teachers.
The exam will be comprehensive for both modules.
Due to the strong interdisciplinary and the applied nature of the course, the formation of small groups will be encouraged.
The expected report will be a slides presentation with the following structure:
- The main goals of the student’s project
- Explanation of the strategies used to report the data
- The results
Office hours
Please reserve a meeting via email