Course Syllabus
Obiettivi
L'insegnamento si propone di spiegare i fondamenti della bioinformatica e della biostatistica, con una particolare attenzione all'applicazione di queste discipline nel contesto delle biotecnologie.
Nell'ambito della bioinformatica, saranno affrontati i principali problemi computazionali legati all'analisi di sequenze biologiche, alla ricostruzione di genomi e alla predizione di strutture proteiche. Verranno inoltre introdotti i concetti base sulle tecniche di apprendimento automatico e intelligenza artificiale per applicazioni in contesti biologici, biotecnologici e biomedici.
Nell'ambito della biostatistica, saranno trattati i principali metodi di statistica descrittiva e statistica inferenziale al fine di guidare lo studente nel processo che parte dal disegno di uno studio sperimentale, procede con l'analisi dei dati raccolti e termina nell'interpretazione statistica e nella comprensione della rilevanza biologica dei risultati ottenuti.
Conoscenza e capacità di comprensione.
Al termine dell'insegnamento lo studente dovrà sviluppare la capacità di:
- “computational thinking”, al fine di utilizzare in modo appropriato gli strumenti computazionali per la soluzione di un dato problema;
- analisi critica, al fine di scegliere i metodi statistici più adeguati per l’analisi di dati e per l’interpretazione dei rispettivi risultati.
Capacità di applicare conoscenza e comprensione.
Al termine dell'insegnamento lo studente dovrà essere in grado di applicare le conoscenze acquisite per la soluzione di problemi in ambito computazionale e statistico, oltre a:
- sviluppare semplici algoritmi;
- organizzare e trattare automaticamente i dati biologici o risolvere semplici problemi tramite l’utilizzo di fogli di calcolo.
Autonomia di giudizio.
Le conoscenze acquisite attraverso lo studio dei concetti erogati in aula, compresi i momenti di didattica interattiva (lavoro di gruppo in aula, casi di studio, esercizi applicativi della teoria), porranno le basi per poter riconoscere criticamente le situazioni e i problemi in cui applicare le metodologie bioinformatiche e biostatistiche.
Abilità comunicative.
Al termine dell'insegnamento lo studente dovrà essere in grado di esprimersi in modo appropriato nella descrizione delle tematiche affrontate, con proprietà di linguaggio e sicurezza di esposizione.
Capacità di apprendimento.
Al termine dell'insegnamento lo studente dovrà essere in grado di consultare la letteratura sugli argomenti trattati, nonché analizzare, applicare, integrare e collegare le conoscenze acquisite con quanto verrà appreso in insegnamenti correlati all’applicazione delle scienze computazionali e statistiche per l’analisi dei dati.
Contenuti sintetici
Bioinformatica
Algoritmi, computational thinking, elementi di programmazione strutturata, complessità computazionale.
Nozioni di metodi euristici di ispirazione biologica, apprendimento automatico e intelligenza artificiale.
Algoritmi per l'allineamento di sequenze e la ricostruzione di genomi.
Metodi computazionali per la previsione di strutture proteiche.
Biostatistica
Statistica descrittiva.
Statistica inferenziale.
Attività di laboratorio
Fogli di calcolo.
Ricerche in banche dati biologiche.
Applicazione di metodi di biostatistica.
Programma esteso
Bioinformatica
- Pensare in modo algoritmico. Definizione di algoritmo. Programmazione strutturata e pseudo-codice. Complessità computazionale.
- Metodi computazionali di ispirazione biologica, nozioni di base di metodi di apprendimento automatico supervisionato e non supervisionato, intelligenza artificiale.
- Algoritmi di allineamento fra sequenze, tecniche euristiche per ricerche in banche dati. Metodi di ricostruzione e annotazione di genomi. Banche dati biologiche.
- Analisi e predizione di strutture e interazioni proteiche (protein folding, molecular docking).
Biostatistica
- Statistica descrittiva. Campioni e popolazioni, tipologie di dati e variabili. Disegno di esperimenti (cieco, strategie di campionamento). Il concetto di frequenza (assoluta, relativa, cumulativa). Rappresentazione grafica dei dati (istogrammi, diagrammi a torta, diagrammi a dispersione). Misure di centralità (media, mediana, moda). Misure di dispersione (range, deviazione standard, varianza). Misure di posizione (quartili, percentili). Analisi esplorativa dei dati (outlier, boxplot).
- Nozioni di teoria della probabilità. Distribuzioni di probabilità (uniforme, binomiale, normale, distribuzione t di Student). Distribuzioni campionarie.
- Statistica inferenziale. Metodi di stima con un campione (intervalli di confidenza, stima con un campione). Verifica di ipotesi con un campione. Correlazione e regressione.
Attività di laboratorio
- I fogli di calcolo per l’elaborazione automatica dei dati.
- Ricerca in banche dati biologiche (geni, genomi, proteine).
- Applicazione di metodi di statistica descrittiva e inferenziale per l'analisi di dati biologici.
Prerequisiti
Prerequisiti: nessuno.
Propedeuticità: nessuna.
Modalità didattica
Lezioni frontali.
20 lezioni da 2 ore costituite da:
- una parte iniziale svolta in modalità erogativa (didattica erogativa, DE) focalizzata sulla presentazione-illustrazione di contenuti, concetti e principi scientifici, volta a coinvolgere gli studenti in modo interattivo nella parte successiva;
- una parte successiva svolta in modalità interattiva (didattica interattiva, DI), che prevede lavoro di gruppo in aula e dimostrazioni aggiuntive di applicazioni pratiche dei contenuti della parte erogativa (casi di studio, esercizi applicativi della teoria).
Tutte le attività sono svolte in presenza.
Esercitazioni in aula di calcolo.
10 attività di esercitazione da 3 ore svolte in modalità interattiva, in presenza.
Materiale didattico
Slide e videoregistrazioni delle lezioni e delle esercitazioni reperibili sulla pagina Moodle dell'insegnamento.
Testi consigliati:
- M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole. Fondamenti di Bioinformatica. Zanichelli, 2018
- M.M. Triola, M.F. Triola, J. Roy. Fondamenti di statistica per le discipline biomediche (seconda edizione). Pearson, 2022
- M.C. Whitlock, D. Schluter. Analisi statistica dei dati biologici. Zanichelli, 2022
Periodo di erogazione dell'insegnamento
Primo semestre.
Modalità di verifica del profitto e valutazione
Prova scritta della durata di 90 minuti, costituita da:
- 12 domande chiuse a risposta multipla (per la verifica dell'apprendimento del programma del corso), di cui 6 relative ad argomenti di bioinformatica e 6 relative ad argomenti di biostatistica;
- 2 domande a risposta aperta (per il controllo estensivo della comprensione e della capacità di analisi critica), di cui 1 relativa ad argomenti di bioinformatica e 1 relativa ad argomenti di biostatistica.
Le 14 domande copriranno tutti gli argomenti trattati sia durante le lezioni frontali che le esercitazioni in laboratorio.
Non verranno svolte prove in itinere.
Orario di ricevimento
Su appuntamento previa richiesta via e-mail.
Sustainable Development Goals
Aims
The course will introduce the fundamentals of bioinformatics and biostatistics, with a particular focus on biotechnology applications.
The main topics will be related to the computational methods for sequence analysis, genome reconstruction, and protein structure prediction. The course will also introduce the basic concepts of machine learning and artificial intelligence for biological, biotechnological and biomedical applications.
The tools of descriptive and inferential statistics will be explained to guide the student through the typical process at the basis of an experimental study, which starts with the design of the experiment, proceeds with data analysis, and ends with the statistical interpretation and the critical analysis of the relevance of the obtained results.
Knowledge and understanding.
The student will gain knowledge about:
- “computational thinking”, in order to critically use concepts and tools of computer science for the solution of a given problem;
- the choice of the proper sampling and statistical methods, and the interpretation of outcomes after data analysis.
Applying knowledge and understanding.
The student will be able to apply the acquired knowledge for the solution of computational and statistical problems, in addition to:
- development of basic algorithms;
- organizing and handling biological data in automatic ways (practical skills on the use of spreadsheets).
Making judgements.
The knowledge acquired through both delivered and interactive didactics (team work, case studies, practical examples and exercises), and the study of the matter will provide the basis for thinking critically on the proper use of computational/statistical methods in various applicative contexts.
Communication skills.
Use of an appropriate scientific vocabulary and ability in oral/written reports
Learning skills.
Skills in literature reading and understanding, as well as in the elaboration, analysis and application of the acquired knowledge in other courses related to the application of computational and statistical methods for data analysis.
Contents
Bioinformatics
Algorithms, computational thinking, structured programming, computational complexity.
Basics of bio-inspired meta-heuristics, machine learning and artificial intelligence.
Algorithms for sequence alignment and genome reconstruction.
Computational methods for protein structure prediction.
Biostatistics
Descriptive statistics.
Inferential statistics.
Laboratory
Spreadsheets.
Biological databases.
Application of biostatistics methods.
Detailed program
Bioinformatics
- Computational thinking and basics of structured programming. Definition of algorithm. Structured programming and pseudo-code. Notions of computational complexity.
- Basics of bio-inspired computational methods, supervised and unsupervised machine learning, artificial intelligence.
- Algorithms and heuristics for sequence alignment. Genome reconstruction and annotation. Biological databases.
- Protein structure prediction and molecular interaction (protein folding, molecular docking).
Biostatistics
- Descriptive statistics. Introduction to statistics (types of data, collecting sample data). Summarizing and graphing data (frequency distributions, histograms, boxplots). Statistics for describing, exploring and comparing data (measures of center, measures of variation, measures of relative standing).
- Basic concepts of probability. Probability distributions (uniform, binomial, normal, t distribution). Sampling distributions.
- Inferential statistics. Confidence intervals. Hypothesis testing. Correlation and regression.
Laboratory
- Use of spreadsheets for automatic analysis of different types of data.
- Biological databases (gene, genomes, proteins).
- Application of descriptive and inferential statistics for biological data analysis.
Prerequisites
Background: none.
Prerequisites: none.
Teaching form
Classroom lectures.
20 face-to-face lectures (2 hours/lectures) composed by:
- a first section of delivered didactics (Didattica Erogativa, DE) focused on the presentation-illustration of contents by the lecturer, aimed at engaging students in interactive teaching;
- a second section of interactive teaching (Didattica Interattiva, DI) including team work and teaching interventions supplementary to delivered didactic activities (case studies, applications of theoretical concepts on real data).
Hands-on sessions in lab room.
10 face-to-face sessions (3 hours/session) of practical activities in a pc room delivered by interactive teaching.
Textbook and teaching resource
All the educational material, including slides and videorecordings, will be available on Moodle platform.
Textbooks:
- M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole. Fondamenti di Bioinformatica. Zanichelli, 2018
- M.M. Triola, M.F. Triola, J. Roy. Fondamenti di statistica per le discipline biomediche (seconda edizione). Pearson, 2022
- M.C. Whitlock, D. Schluter. Analisi statistica dei dati biologici. Zanichelli, 2022
Semester
First semester.
Assessment method
Written exam (90 minutes), consisting in:
- 12 multiple-choice questions (to verify the learning ability acquired by the student), 6 of which related to bioinformatics and 6 to biostatistics;
- 2 open questions (to check the full comprehension and critical analysis capability acquired by the student), 1 of which related to bioinformatics and 1 to biostatistics.
The 14 questions will cover all topics presented during both the classroom lectures and the hands-on sessions.
No mid-term exams will be scheduled.
Office hours
On demand by e-email.
Sustainable Development Goals
Key information
Staff
-
Daniela Besozzi
-
Chiara Damiani