- Area Medica, Chirurgica e dei Servizi Clinici
- Corso di Laurea Magistrale
- Biotecnologie Mediche [F0901D]
- Insegnamenti
- A.A. 2023-2024
- 1° anno
- Analisi dei Dati
- Introduzione
Syllabus del corso
Obiettivi
Il candidato sarà in grado di: comprendere aspetti basilari del disegno dello studio, implementare autonomamente analisi statistiche di base, leggere con spirito critico la letteratura scientifica che presenti analisi statistiche descrittive e inferenziali.
Il candidato sarà in grado di: acquisire le conoscenze ed i concetti di base relativi alle metodologie e alle tecniche computazionali per la raccolta, la gestione e l'analisi di dati in biologia molecolare, come i dati di sequenze generati dalle tecnologie Next Generation Sequencing (NGS), e la padronanza dei principali strumenti computazionali necessari per estrarre informazioni di interesse per la ricerca biomedica dalle principali banche dati di sequenze.
Contenuti sintetici
I due moduli di cui si compone il corso si propongono di contribuire alla formazione di un biotecnologo medico che sia in grado di:
- comprendere i principi del disegno sperimentale in medicina e biologia
- conoscere le principali tecniche di analisi statistica dei dati
- utilizzare un software per l’elaborazione dei dati
- compiere l'interpretazione critica dei risultati presentati nella letteratura scientifica.
- essere introdotto alla bioinformatica: motivazioni, problemi e metodologie.
- conoscere le tecnologie NGS
- conoscere le principali basi di dati; accesso, interrogazione, inserimento dati
- conoscere le principali tecniche di analisi dei dati: ricostruzione e annotazione di genomi; confronto di sequenze: algoritmi di allineamento globale, locale e multiplo; ricostruzione di filogenie; analisi del trascrittoma.
Programma esteso
Il modulo di Biostatistica si articola in 9 parti:
- Basi di calcolo delle probabilità
- Intervallo di confidenza sul parametro p probabilità di un evento (proporzione)
- Tabelle di frequenza e grafici
- Indicatori di ordine di grandezza e dispersione
- Distribuzione Gaussiana (per approssimare l'andamento di un istogramma)
- Stima di massima verosimiglianza
- Intervallo di confidenza sul parametro mu
- Verifica di ipotesi su p
- Utilizzo della distribuzione Gaussiana per la costruzione degli intervalli di confidenza
Il modulo di Bioinformatica si articola in 8 parti:
- La gestione dei dati nelle scienze della vita
- L’informatica essenziale: Algoritmi e programmi, Alfabeti, parole, grafi, Basi di dati
- La tecnologia NGS: Piattaforme NGS di seconda generazione, Piattaforme NGS di terza generazione, formato dei dati genomici, Ricostruzione e annotazione di genomi
- Basi di dati di sequenze molecolari: Basi di dati Genomiche (EMBL – GenBank), Basi di dati di sequenze proteiche (SwissProt, PDB), I sistemi di interrogazione delle Basi di Dati
- Analisi di sequenze in biologia molecolare: Algoritmi di String matching esatto, Allineamento di sequenze, Motivazioni, Matrici a punti, Matrici di sostituzione PAM, BLOSUM, Allineamento globale: Algoritmo di Needleman-Wunsch, Allineamento locale: Algoritmo di Smith-Waterman, Algoritmi euristici: BLAST, Fasta, BWA, Allineamento multiplo; CLUSTALW
- Ricerca di motivi funzionali in sequenze: Alberi di suffissi, Algoritmi di pattern discovery
- Analisi del trascrittoma: Annotazione di geni e trascritti alternativi, Analisi di dati RNA-seq
- Evoluzione molecolare: ricostruzione di alberi filogenetici: Algoritmi di Clustering, k-means, Neighbor joining, UPGMA, Metodi di massima parsimonia, Metodi di massima verosimiglianza
Prerequisiti
Il candidato deve possedere una conoscenza di base dell’uso del personal computer, dell'informatica e di biologia molecolare.
Modalità didattica
Lezioni tradizionali, Quiz on-line, video clip.
Materiale didattico
- M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole, Fondamenti di bioinformatica (Zanichelli editore)
- SULLIVAN, Michael. Fondamenti di statistica. Pearson, 2011.
- Dispense fornite dai docenti
- Si raccomanda agli studenti di iscriversi alle 3 pagine elearning (quella del corso, quelle dei moduli)
Periodo di erogazione dell'insegnamento
Primo semestre.
Modalità di verifica del profitto e valutazione
Prova scritta (Biostatistica) e Prova orale (Bioinformatica). Il voto finale verrà calcolato come la media dei voti dei due moduli.
Le comunicazioni relative ad aspetti organizzativi degli appelli verranno date attraverso il forum sulla pagina "Analisi dei Dati".
Orario di ricevimento
Da definire con lo studente via email.
Aims
Basic knowledge of the most important statistical-methodological tools of the descriptive and inferential statistics for: design of experiments, data collection and analysis, interpretation of scientific literature. Introduction to the main problems related to the computational analysis of biological sequences (DNA, RNA, proteins).
The student will be able to: understand the main concepts of study design, implement statistical analysis, read the scientific literature presenting descriptive and inferential statistic results, acquire the basic knowledge and concepts related to computational methods and techniques for collecting, managing and analyzing data in molecular biology and will master the main computational tools necessary to extract information of interest for biomedical research from the main sequencing databases.
Contents
The goal of the course is to contribute to the education of the medical biotechnologist in order to be able to:
- understand the principles of the experimental design in medicine and biology
- understand the most important statistical techniques for data analysis
- use a software for data analysis
- understand the literature presenting results from statistical analysis
- understand the motivations, problems and methodologies.
- be introduced to NGS technologies
- be able to access, query and entry data in the main databases;
- understand the main data analysis techniques: genome reconstruction and annotation; sequence comparison: global, local and multiple alignment algorithms; reconstruction of phylogenies; transcriptome analysis.
Detailed program
The module of Biostatistics is organized in 9 chapters:
- Basics of probability calculation
- Confidence interval on the parameter p probability of an event (proportion)
- Frequency tables and graphs
- Order of magnitude and dispersion indicators
- Gaussian Distribution (to approximate the trend of a histogram)
- Maximum likelihood estimation
- Confidence interval on the mu parameter
- Hypothesis testing on p
- Use of the Gaussian distribution to construct confidence intervals
The module of Bioinformatics is organized in 8 chapters:
- Data management in life sciences
- Basics of informatics: Algorithms and programs, Alphabets, word, graphs, Databases
- The NGS technology: Second generation NGS platforms, Third generation NGS platforms, Genomic data formats, Genome reconstruction and annotation
- Basi di dati di sequenze molecolari: Genomic databases (EMBL – GenBank), Protein databases (SwissProt, PDB), Database query systems
- Sequence Analysis in molecular biology: Exact String matching algorithms, Sequence alignments, Motivations, Dot matrices, Substitution matrices (PAM, BLOSUM), Global alignment: Needleman-Wunsch Algorithm, Local alignment: Smith-Waterman Algorithm, Euristic Algorithms: BLAST, Fasta, BWA, Multiple alignment algorithms; CLUSTALW
- Functional motifs finding in sequences: Suffix trees, Pattern discovery algorithms
- Transcriptome Analysis: Gene Annotation and d alternative transcripts, RNA-seq data analysis
- Molecular evolution: philogenetic trees reconstruction: Clustering algorithms, k-means, Neighbor joining, UPGMA, Maximum parsimony methods, Maximum likelihood methods
Prerequisites
The student is expected to have a basic knowledge on the use of personal computer, informatics and molecular biology.
Teaching form
Standard classes, on-line quiz, video clip.
Textbook and teaching resource
- M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole, Fondamenti di bioinformatica (Zanichelli editore)
- SULLIVAN, Michael. Fondamenti di statistica. Pearson, 2011.
- Notes written by the teachers
- Students are recommended to subscribe to the 3 e-learning pages (the one of the course, those of the modules)
Semester
First semester.
Assessment method
Written exam (Biostatistics) and Oral exam (Bioinformatics). The grade will be calculated by averaging the grades of the two modules.
Communications relating to organizational aspects of the appeals will be given through the forum on the "Data Analysis" page.
Office hours
To be defined with the student by email contact.