- Data Analysis
- Summary
Course Syllabus
Obiettivi
Il candidato sarà in grado di: comprendere aspetti basilari del disegno dello studio, implementare autonomamente analisi statistiche di base, leggere con spirito critico la letteratura scientifica che presenti analisi statistiche descrittive e inferenziali.
Il candidato sarà in grado di: acquisire le conoscenze ed i concetti di base relativi alle metodologie e alle tecniche computazionali per la raccolta, la gestione e l'analisi di dati in biologia molecolare, come i dati di sequenze generati dalle tecnologie Next Generation Sequencing (NGS), e la padronanza dei principali strumenti computazionali necessari per estrarre informazioni di interesse per la ricerca biomedica dalle principali banche dati di sequenze.
Contenuti sintetici
I due moduli di cui si compone il corso si propongono di contribuire alla formazione di un biotecnologo medico che sia in grado di:
- comprendere i principi del disegno sperimentale in medicina e biologia
- conoscere le principali tecniche di analisi statistica dei dati
- utilizzare un software per l’elaborazione dei dati
- compiere l'interpretazione critica dei risultati presentati nella letteratura scientifica.
- essere introdotto alla bioinformatica: motivazioni, problemi e metodologie.
- conoscere le tecnologie NGS
- conoscere le principali basi di dati; accesso, interrogazione, inserimento dati
- conoscere le principali tecniche di analisi dei dati: ricostruzione e annotazione di genomi; confronto di sequenze: algoritmi di allineamento globale, locale e multiplo; ricostruzione di filogenie; analisi del trascrittoma.
Programma esteso
Il modulo di Biostatistica si articola in due parti: la prima relativa alla statistica descrittiva, la seconda alla statistica inferenziale, la terza relativa all’interpretazione di articoli scientifici. Le parti prima e seconda presentano le seguenti caratteristiche:
- includono aspetti metodologici di disegno dello studio e programmazione dell’esperimento
- vengono erogate nella forma di riflessione su particolari esempi applicativi
- prevedono l’uso del pacchetto applicativo per l’analisi dei dati STATA
Parte prima - Generalità sulla statistica descrittiva, Principali rappresentazioni tabellari e grafiche di dati variabili qualitative e quantitative, Indicatori di ordine di grandezze e dispersione di un fenomeno, Distribuzione Gaussiana, Elementi di calcolo delle probabilità.
Parte seconda - Generalità sulla statistica inferenziale, Verifica di ipotesi nulle relative alla media di variabili continue, Test T in disegno semplice ed appaiato, Verifica di ipotesi nulle relative alla associazione per variabili categoriali, Test chi quadrato, Verifica di ipotesi nulle relative alla proporzione di variabili dicotomiche: Test McNemar, Cenni all’analisi della varianza, Studio della potenza del test e calcolo della dimensione del campione.
Il modulo di Bioinformatica si articola in 8 parti:
- La gestione dei dati nelle scienze della vita
- L’informatica essenziale: Algoritmi e programmi, Alfabeti, parole, grafi, Basi di dati
- La tecnologia NGS: Piattaforme NGS di seconda generazione, Piattaforme NGS di terza generazione, formato dei dati genomici, Ricostruzione e annotazione di genomi
- Basi di dati di sequenze molecolari: Basi di dati Genomiche (EMBL – GenBank), Basi di dati di sequenze proteiche (SwissProt, PDB), I sistemi di interrogazione delle Basi di Dati
- Analisi di sequenze in biologia molecolare: Algoritmi di String matching esatto, Allineamento di sequenze, Motivazioni, Matrici a punti, Matrici di sostituzione PAM, BLOSUM, Allineamento globale: Algoritmo di Needleman-Wunsch, Allineamento locale: Algoritmo di Smith-Waterman, Algoritmi euristici: BLAST, Fasta, BWA, Allineamento multiplo; CLUSTALW
- Ricerca di motivi funzionali in sequenze: Alberi di suffissi, Algoritmi di pattern discovery
- Analisi del trascrittoma: Annotazione di geni e trascritti alternativi, Analisi di dati RNA-seq
- Evoluzione molecolare: ricostruzione di alberi filogenetici: Algoritmi di Clustering, k-means, Neighbor joining, UPGMA, Metodi di massima parsimonia, Metodi di massima verosimiglianza
Prerequisiti
Il candidato deve possedere una conoscenza di base dell’uso del personal computer, dell'informatica e di biologia molecolare.
Modalità didattica
Lezioni tradizionali, Quiz on-line, video clip.
Materiale didattico
https://www.pearson.it/opera/pearson/0-7623-fondamenti_di_statistica
- M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole, Fondamenti di bioinformatica (Zanichelli editore)
- Dispense fornite dai docenti
- Si raccomanda agli studenti di iscriversi alle 3 pagine elearning (quella del corso, quelle dei moduli)
Periodo di erogazione dell'insegnamento
Primo semestre.
Modalità di verifica del profitto e valutazione
Prova scritta (Biostatistica) e Prova orale (Bioinformatica). Il voto finale verrà calcolato come la media dei voti dei due moduli.
Le comunicazioni relative ad aspetti organizzativi degli appelli verranno date attraverso il forum sulla pagina "Analisi dei Dati".
Orario di ricevimento
Da definire con lo studente via email.
Aims
Basic knowledge of the most important statistical-methodological tools of the descriptive and inferential statistics for: design of experiments, data collection and analysis, interpretation of scientific literature. Introduction to the main problems related to the computational analysis of biological sequences (DNA, RNA, proteins).
The student will be able to: understand the main concepts of study design, implement statistical analysis, read the scientific literature presenting descriptive and inferential statistic results, acquire the basic knowledge and concepts related to computational methods and techniques for collecting, managing and analyzing data in molecular biology and will master the main computational tools necessary to extract information of interest for biomedical research from the main sequencing databases.
Contents
The goal of the course is to contribute to the education of the medical biotechnologist in order to be able to:
- understand the principles of the experimental design in medicine and biology
- understand the most important statistical techniques for data analysis
- use a software for data analysis
- understand the literature presenting results from statistical analysis
- understand the motivations, problems and methodologies.
- be introduced to NGS technologies
- be able to access, query and entry data in the main databases;
- understand the main data analysis techniques: genome reconstruction and annotation; sequence comparison: global, local and multiple alignment algorithms; reconstruction of phylogenies; transcriptome analysis.
Detailed program
The module of Biostatistics is organized in two parts: descriptive statistics, inferential statistics, and interpretation of scientific literature. The first and the second part share the following characteristics:
- inclusion of methodological aspects of study design and programming of experiments
- are thought using motivating examples from the applied literature
- involves the STATA package
Part one – Basic descriptive statistics, graphical representation of quantitative and qualitative variables, indicators of position and variability, Gaussian distribution, concepts of probability.
Part two– Basics on inferential statistics, Hypothesis testing on continuous variables, T test for paired and unparired data, test on association between categorical variables, Chi square test, McNemar test, analysis of variance, sample size and power.
The module of Bioinformatics is organized in 8 chapters:
- Data management in life sciences
- Basics of informatics: Algorithms and programs, Alphabets, word, graphs, Databases
- The NGS technology: Second generation NGS platforms, Third generation NGS platforms, Genomic data formats, Genome reconstruction and annotation
- Basi di dati di sequenze molecolari: Genomic databases (EMBL – GenBank), Protein databases (SwissProt, PDB), Database query systems
- Sequence Analysis in molecular biology: Exact String matching algorithms, Sequence alignments, Motivations, Dot matrices, Substitution matrices (PAM, BLOSUM), Global alignment: Needleman-Wunsch Algorithm, Local alignment: Smith-Waterman Algorithm, Euristic Algorithms: BLAST, Fasta, BWA, Multiple alignment algorithms; CLUSTALW
- Functional motifs finding in sequences: Suffix trees, Pattern discovery algorithms
- Transcriptome Analysis: Gene Annotation and d alternative transcripts, RNA-seq data analysis
- Molecular evolution: philogenetic trees reconstruction: Clustering algorithms, k-means, Neighbor joining, UPGMA, Maximum parsimony methods, Maximum likelihood methods
Prerequisites
The student is expected to have a basic knowledge on the use of personal computer, informatics and molecular biology.
Teaching form
Standard classes, on-line quiz, video clip.
Textbook and teaching resource
https://www.pearson.it/opera/pearson/0-7623-fondamenti_di_statistica
- M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole, Fondamenti di bioinformatica (Zanichelli editore)
- Notes written by the teachers
- Students are recommended to subscribe to the 3 e-learning pages (the one of the course, those of the modules)
Semester
First semester.
Assessment method
Written exam (Biostatistics) and Oral exam (Bioinformatics). The grade will be calculated by averaging the grades of the two modules.
Communications relating to organizational aspects of the appeals will be given through the forum on the "Data Analysis" page.
Office hours
To be defined with the student by email contact.