Skip to main content
If you continue browsing this website, you agree to our policies:
  • Condizioni di utilizzo e trattamento dei dati
Continue
x
e-Learning - UNIMIB
  • Home
  • Calendar
  • My Media
  • More
Listen to this page using ReadSpeaker
English ‎(en)‎
English ‎(en)‎ Italiano ‎(it)‎
You are currently using guest access
 Log in
e-Learning - UNIMIB
Home Calendar My Media
Percorso della pagina
  1. Science
  2. Master Degree
  3. Data Science [F9101Q]
  4. Courses
  5. A.A. 2021-2022
  6. 2nd year
  1. Big Data in Biotechnology & Biosciences
  2. Summary
Unità didattica Course full name
Big Data in Biotechnology & Biosciences
Course ID number
2122-2-F9101Q026-F9101Q026M
Course summary SYLLABUS

Blocks

Back to Data Science Lab in Biosciences

Course Syllabus

  • Italiano ‎(it)‎
  • English ‎(en)‎
Export

Obiettivi

Fino a pochi anni fa, il collo di bottiglia per le analisi quantitative in Biologia era la generazione del dato, oggigiorno è l'estrazione della conoscienza biologica da grandi dataset. In particolare, l'avvento delle tecnologie Next Generation Sequencing (NGS) ha permesso ai ricercatori di osservare le variazioni a diverse scale biologiche, come le variazioni sull'intero genome, l'espressione dei singoli geni e l'abbondanze di piccoli frammenti di RNA, le modifiche epigenetiche, i motivi per il protein binding o le variazioni di conformazione nei cromosomi. Il tutto in maniera efficente e economicamente accessibile.

Fenomeni biologici, come malattie che affliggono l'uomo o altre caratteristiche di animali o piante descrivibili in maniera quantitativa, per essere compresi richiedono un enorme e variegato quantitativo di dati provenienti da studi complessi. Questi dati vengono organizzati e stoccati in banche dati pubbliche come la International Nucleotide Sequence Database Collaboration (INSDC), il database primario al mondo per le informazioni sulle sequenze biologiche.

Obiettivo principale di questo corso è quello di portare lo studente a comprendere la strutture dei dati biologici presenti in queste banche dati. Allo studente verrà richiesto di integrare queste informazioni molecolari con altre sorgenti di dati. Si esploreranno anche i limiti legati alla disponibilità ed all'integrità dei dati molecolari.

I due moduli sono fortemente integrati in tutta la fruizione del corso. Sia le lezioni che le esercitazioni verranno svolte in compresenza dei docenti. L'esame sarà contestuale per i due moduli e verrà svolto tramite un progetto basato sull'integrazione del contenuto dei due moduli.

Contenuti sintetici

  • Origine del dato biologico.
  • I livelli della variabilità biologica.
  • Genotipo, fenotipo, ambiente e le loro relazioni.
  • Tipi di dato: focus sul dato molecolare.
  • Le basi di dati biologiche.
  • Lab hands-on.

    Programma esteso

    • Origine del dato biologico. I dati biologici derivano da processi evolutivi. In questa sezione si richiameranno i principali processi evolutivi alla base della generazione dei dati biologici.
    • I livelli della variabilità biologica: geni, individui, popolazioni e specie. In questa sezione si metterà in luce la variabilità nei dati biologici presente a tutti i livelli gerarchici.
    • Genotipo, fenotipo, ambiente e le loro relazioni. La complessità biologica è riassunta dalle relazioni tra genotipo, fenotipo ed ambiente da cui gli individui hanno origine.
    • Tipi di dato: focus sul dato molecolare. I principali dati biologici si basano sul DNA o le proteine. In questa sezione verranno analizzati i diversi tipi.
    • Le basi di dati biologiche: le basi di dati biologiche sono collezioni delle scienze della vita, raccolte tramite esperimenti scientifici, letteratura scientifica, esperimenti con tecnologie high-throughput ed analisi computazioniali. Obiettivo di questo corso è la loro esplorazione.
    • Lab hands-on: i dati biologici, la loro gestione ed analisi. Questa è la parte essenziale del modulo. Dopo la parte introduttiva gli studenti verranno guidati in esperienze di laboratorio in cui verranno maneggiati principalmente dati biologici e la loro integrazinoe con altre risorse.

    Prerequisiti

    Conoscenza di base di Python

    Modalità didattica

    Lezioni e sessioni in laboratorio informatico

    Durante il perido di emergenza Covid-19 il corso verrà tenuto in maniera remota sia con lezioni videoregistrate che con eventi in videoconferenza.

    Materiale didattico

    Lucidi mostrati a lezione e articoli scientifici. Il materiale è a disposizione sulla pagina e-learning.

    Periodo di erogazione dell'insegnamento

    Secondo anno, secondo semestre

    Modalità di verifica del profitto e valutazione

    Gli studenti svilupperanno progetti sugli argomenti visti durante le lezioni. Gli argomenti del progetto devono essere analizzati integrando i concetti di entrambi i moduli.
    I progetti saranno esposti oralmente in una data concordata con gli insegnanti.
    L'esame sarà comprensivo per entrambi i moduli.
    A causa della forte interdisciplinarietà e della natura applicata del corso, sarà incoraggiata la formazione di piccoli gruppo

    La presentazione a conclusione dei progetti avverà tramite slides e dovrà avere la seguente struttura:

    • Obiettivi principali del progetto
    • Discussione delle strategie utilizzate
    • Risultati

    Orario di ricevimento

    Per appuntamento tramite e-mail
    Export

    Aims

    Few years ago, data generation was the bottleneck, now it is data mining, or extracting useful biological insights from large  datasets. In particular, next generation sequencing (NGS) technologies have allowed researchers to screen changes at varying biological scales, such as genome-wide genetic variation, gene expression and small RNA abundance, epigenetic modifications, protein binding motifs, and chromosome conformation in a high-throughput and cost-efficient manner.

    Biological phenomena, such as human diseases or quantitative traits in animals/plants need  massive amounts and multiple types of ‘big’ data from complex studies to be described.

    These data are mostly organized in public resources such as the International Nucleotide Sequence Database Collaboration (INSDC), the world's primary database of biological sequence (and related) information.

    The main purpose of this course is to lead the student to understand the biological data structure in the public databases. The student will be required to integrate the biological data acquired with other data sources. The limits linked to the availability and integrity of biological data will be explored.


    The two modules are highly integrated in all the contents delivered. Both lectures and workshops are delivered in co-presence by both teachers. The exam will be carried out in co-presence on a project based on the integrated contents of both modules.

    Contents

    • Origin of biological data
    • The levels of biological variability: genes, individuals, populations, species
    • Genotype, phenotype and environment and their relationship
    • Type of data: focus on molecular data
    • Biological database
    • Practical experiences (laboratories): biological data, their management and analysis

    Detailed program

    • Origin of biological data. Biological data derives from evolutionary processes. In this section the principal processes in evolution that are generating biological data will be summarised.
    • The levels of biological variability: genes, individuals, populations, species. Variability in biological data is shown at all the hierarchic levels that will be uncovered in this section.
    • Genotype, phenotype and environment and their relationship. Biological complexity is summarised by the relationships among genotype, phenotype and environment from which the individuals are originated.
    • Type of data: focus on molecular data. The main types of biological data are based on DNA or proteins. In this section we will show the different kinds.
    • Biological database: Biological databases are libraries of biological sciences, collected from scientific experiments, published literature, high-throughput experiment technology, and computational analysis. The aim of this course is to explore these resources.
    • Practical experiences (laboratories): biological data, their management and analysis. This is the core of this module. Following the introduction, students will be led by the teachers in lab experiences to manage biological data and integrate with other data resources.

    Prerequisites

    Python basic knowledges

    Teaching form

    Frontal lessons and lab practices.

    During the Covid-19 emergency course will be held in a remote manner with video recorded lectures and with web video conferences events.


    Textbook and teaching resource

    Slides and scientific papers. Materials are available on the e-learning page.

    Semester

    Second year, second semester

    Assessment method

    The students, will develop on-going projects on the topics seen during the lectures. The topics of the project must be analyzed by integrating the concepts of both modules.
    The projects will be exposed orally on a date agreed with the teachers.
    The exam will be comprehensive for both modules.
    Due to the strong interdisciplinary and the applied nature of the course, the formation of small groups will be encouraged.


    The expected report will be a slides presentation with the following structure:

    • The main goals of the student’s project
    • Explanation of the strategies used to report the data
    • The results


    Office hours

    Please reserve a meeting via email

    Enter

    Key information

    Field of research
    INF/01
    ECTS
    3
    Term
    Second semester
    Activity type
    Mandatory to be chosen
    Course Length (Hours)
    25
    Language
    Italian

    Staff

      Teacher

    • Dario Pescini
      Dario Pescini
    • Anna Sandionigi
      Anna Sandionigi

    Enrolment methods

    Manual enrolments
    Self enrolment (Student)

    You are currently using guest access (Log in)
    Policies
    Get the mobile app
    Powered by Moodle
    © 2025 Università degli Studi di Milano-Bicocca
    • Privacy policy
    • Accessibility
    • Statistics