Course Syllabus
Obiettivi
L'insegnamento si propone di spiegare i fondamenti della bioinformatica e della biostatistica, con una particolare attenzione all'applicazione di queste discipline nel contesto delle biotecnologie.
Nell'ambito della bioinformatica, saranno affrontati i principali problemi computazionali legati all'analisi di sequenze biologiche (anche in riferimento ai limiti e ai vantaggi delle tecniche di sequenziamento di vecchia e nuova generazione), alla ricostruzione di genomi e alla predizione di strutture proteiche. Verranno inoltre introdotti i concetti base sulle tecniche di apprendimento automatico e intelligenza artificiale per applicazioni in contesti biologici, biotecnologici e biomedici.
Nell'ambito della biostatistica, saranno trattati i principali metodi di statistica descrittiva e statistica inferenziale al fine di guidare lo studente nel processo che parte dal disegno di uno studio sperimentale, procede con l'analisi dei dati raccolti e termina nell'interpretazione statistica e nella comprensione della rilevanza biologica dei risultati ottenuti.
Conoscenza e capacità di comprensione.
Al termine dell'insegnamento lo studente dovrà sviluppare la capacità di:
- “computational thinking”, al fine di utilizzare in modo appropriato gli strumenti computazionali per la soluzione di un dato problema;
- analisi critica, al fine di scegliere i metodi statistici più adeguati per l’analisi di dati e per l’interpretazione dei rispettivi risultati.
Capacità di applicare conoscenza e comprensione.
Al termine dell'insegnamento lo studente dovrà essere in grado di applicare le conoscenze acquisite per la soluzione di problemi in ambito computazionale e statistico, oltre a:
- sviluppare semplici algoritmi;
- organizzare e trattare automaticamente i dati biologici o risolvere semplici problemi tramite l’utilizzo di fogli di calcolo.
Autonomia di giudizio.
Al termine dell'insegnamento lo studente dovrà essere in grado di elaborare quanto appreso, e saper riconoscere le situazioni e i problemi in cui le metodologie bioinformatiche e biostatistiche apprese possano essere utilizzate.
Abilità comunicative.
Al termine dell'insegnamento lo studente dovrà essere in grado di esprimersi in modo appropriato nella descrizione delle tematiche affrontate, con proprietà di linguaggio e sicurezza di esposizione.
Capacità di apprendimento.
Al termine dell'insegnamento lo studente dovrà essere in grado di consultare la letteratura sugli argomenti trattati, nonché analizzare, applicare, integrare e collegare le conoscenze acquisite con quanto verrà appreso in insegnamenti correlati all’applicazione delle scienze computazionali e statistiche per l’analisi dei dati.
Contenuti sintetici
Bioinformatica
Algoritmi, computational thinking, elementi di programmazione strutturata, complessità computazionale.
Nozioni di metodi euristici di ispirazione biologica, apprendimento automatico e intelligenza artificiale.
Allineamenti di sequenze e ricostruzione di genomi (con cenni sulle piattaforme di sequenziamento).
Metodi computazionali per la previsione di strutture proteiche.
Biostatistica
Statistica descrittiva.
Statistica inferenziale.
Esercitazioni in laboratorio
Fogli di calcolo.
Ricerche in banche dati biologiche.
Applicazione di metodi di biostatistica.
Programma esteso
Bioinformatica
- Pensare in modo algoritmico. Definizione di algoritmo. Programmazione strutturata e pseudo-codice. Complessità computazionale.
- Metodi computazionali di ispirazione biologica, nozioni di base di metodi di apprendimento automatico supervisionato e non supervisionato, intelligenza artificiale.
- Cenni sulle piattaforme di sequenziamento di acidi nucleici. Algoritmi di allineamento fra sequenze, tecniche euristiche per ricerche in banche dati. Metodi di ricostruzione e annotazione di genomi. Banche dati biologiche.
- Analisi e predizione di strutture e interazioni proteiche (protein folding, molecular docking).
Biostatistica
- Statistica descrittiva. Campioni e popolazioni, tipologie di dati e variabili. Disegno di esperimenti (cieco, strategie di campionamento). Il concetto di frequenza (assoluta, relativa, cumulativa). Rappresentazione grafica dei dati (istogrammi, diagrammi a torta, diagrammi a dispersione). Misure di centralità (media, mediana, moda). Misure di dispersione (range, deviazione standard, varianza). Misure di posizione (quartili, percentili). Analisi esplorativa dei dati (outlier, boxplot).
- Nozioni di teoria della probabilità. Distribuzioni di probabilità (uniforme, binomiale, normale, distribuzione t di Student). Distribuzioni campionarie.
- Statistica inferenziale. Metodi di stima con un campione (intervalli di confidenza, stima con un campione). Verifica di ipotesi con un campione. Correlazione e regressione.
Esercitazioni in laboratorio
- I fogli di calcolo per l’elaborazione automatica dei dati.
- Ricerca in banche dati biologiche (geni, genomi, proteine).
- Applicazione di metodi di statistica descrittiva e inferenziale per l'analisi di dati biologici.
Prerequisiti
Prerequisiti: nessuno.
Propedeuticità: nessuna.
Modalità didattica
Lezioni frontali.
20 lezioni da 2 ore costituite da:
- una parte in modalità erogativa (didattica erogativa, DE) focalizzata sulla presentazione-illustrazione di contenuti, concetti, principi scientifici;
- una parte in modalità interattiva (didattica interattiva, DI), che prevede lavoro di gruppo in aula e dimostrazioni aggiuntive di applicazioni pratiche dei contenuti della parte erogativa (casi di studio, esercizi applicativi della teoria).
Tutte le attività sono svolte in presenza.
Esercitazioni in aula di calcolo.
10 attività di esercitazione da 3 ore svolte in modalità interattiva in presenza.
Materiale didattico
Slide e videoregistrazioni delle lezioni e delle esercitazioni reperibili sulla pagina Moodle dell'insegnamento.
Testi consigliati:
- M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole. Fondamenti di Bioinformatica. Zanichelli, 2018
- M.M. Triola, M.F. Triola, J. Roy. Fondamenti di statistica per le discipline biomediche (seconda edizione). Pearson, 2022
- M.C. Whitlock, D. Schluter. Analisi statistica dei dati biologici. Zanichelli, 2022
Periodo di erogazione dell'insegnamento
Primo semestre.
Modalità di verifica del profitto e valutazione
Prova scritta della durata di 90 minuti, costituita da:
- 12 domande chiuse a risposta multipla (per la verifica dell'apprendimento del programma del corso), di cui 6 relative ad argomenti di bioinformatica e 6 relative ad argomenti di biostatistica;
- 2 domande a risposta aperta (per il controllo estensivo della comprensione e della capacità di analisi critica), di cui 1 relativa ad argomenti di bioinformatica e 1 relativa ad argomenti di biostatistica.
Le 14 domande copriranno tutti gli argomenti trattati sia durante le lezioni frontali che le esercitazioni in laboratorio.
Non verranno svolte prove in itinere.
Orario di ricevimento
Su appuntamento previa richiesta via e-mail.
Sustainable Development Goals
Aims
The course will introduce the fundamentals of bioinformatics and biostatistics, with a particular focus on biotechnology applications.
The main topics will be related to the computational methods for sequence analysis (with a particular attention to next generation sequencing platforms), genome reconstruction, and protein structure prediction. The course will also introduce the basic concepts of machine learning and artificial intelligence for biological, biotechnological and biomedical applications.
The tools of descriptive and inferential statistics will be explained to guide the student through the typical process at the basis of an experimental study, which starts with the design of the experiment, proceeds with data analysis, and ends with the statistical interpretation and the critical analysis of the relevance of the obtained results.
Knowledge and understanding.
The student will gain knowledge about:
- “computational thinking”, in order to critically use concepts and tools of computer science for the solution of a given problem;
- the choice of the proper sampling and statistical methods, and the interpretation of outcomes after data analysis.
Applying knowledge and understanding.
The student will be able to apply the acquired knowledge for the solution of computational and statistical problems, in addition to:
- development of basic algorithms;
- organizing and handling biological data in automatic ways (practical skills on the use of spreadsheets).
Making judgements.
The student will be able to process the acquired knowledge and choose the proper computational/statistical methods for different applications.
Communication skills.
Use of an appropriate scientific vocabulary and ability in oral/written reports
Learning skills.
Skills in literature reading and understanding, as well as in the elaboration, analysis and application of the acquired knowledge in other courses related to the application of computational and statistical methods for data analysis.
Contents
Bioinformatics
Algorithms, computational thinking, structured programming, computational complexity.
Basics of bio-inspired meta-heuristics, machine learning and artificial intelligence.
Sequence analysis and genome reconstruction (with basics concepts on sequencing platforms).
Computational methods for protein structure prediction.
Biostatistics
Descriptive statistics.
Inferential statistics.
Laboratory
Spreadsheets.
Biological databases.
Application of biostatistics methods.
Detailed program
Bioinformatics
- Computational thinking and basics of structured programming. Definition of algorithm. Structured programming and pseudo-code. Notions of computational complexity.
- Basics of bio-inspired computational methods, supervised and unsupervised machine learning, artificial intelligence.
- Basics of next generation sequencing platforms. Algorithms and heuristics for sequence alignment. Genome reconstruction and annotation. Biological databases.
- Protein structure prediction and molecular interaction (protein folding, molecular docking).
Biostatistics
- Descriptive statistics. Introduction to statistics (types of data, collecting sample data). Summarizing and graphing data (frequency distributions, histograms, boxplots). Statistics for describing, exploring and comparing data (measures of center, measures of variation, measures of relative standing).
- Basic concepts of probability. Probability distributions (uniform, binomial, normal, t distribution). Sampling distributions.
- Inferential statistics. Confidence intervals. Hypothesis testing. Correlation and regression.
Laboratory
- Use of spreadsheets for automatic analysis of different types of data.
- Biological databases (gene, genomes, proteins).
- Application of descriptive and inferential statistics for biological data analysis.
Prerequisites
Background: none.
Prerequisites: none.
Teaching form
Classroom lectures.
20 lectures (2 hours/lectures) composed by:
- a section of delivered didactics (Didattica Erogativa, DE) focused on the presentation-illustration of contents by the lecturer;
- a section of interactive teaching (Didattica Interattiva, DI) including team work and teaching interventions supplementary to delivered didactic activities (case studies, applications of theoretical concepts on real data).
Didactic activities are conveyed by means of face-to-face lectures.
Hands-on sessions in lab room.
10 sessions (3 hours/session) of practical activities in a pc room delivered by interactive teaching through in-person tutorials.
Textbook and teaching resource
All the educational material, including slides and videorecordings, will be available on Moodle platform.
Textbooks:
- M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole. Fondamenti di Bioinformatica. Zanichelli, 2018
- M.M. Triola, M.F. Triola, J. Roy. Fondamenti di statistica per le discipline biomediche (seconda edizione). Pearson, 2022
- M.C. Whitlock, D. Schluter. Analisi statistica dei dati biologici. Zanichelli, 2022
Semester
First semester.
Assessment method
Written exam (90 minutes), consisting in:
- 12 multiple-choice questions (to verify the learning ability acquired by the student), 6 of which related to bioinformatics and 6 to biostatistics;
- 2 open questions (to check the full comprehension and critical analysis capability acquired by the student), 1 of which related to bioinformatics and 1 to biostatistics.
The 14 questions will cover all topics presented during both the classroom lectures and the hands-on sessions.
No mid-term exams will be scheduled.
Office hours
On demand by e-email.