- Area Medica, Chirurgica e dei Servizi Clinici
- Corso di Laurea Magistrale
- Biotecnologie Mediche [F0901D]
- Insegnamenti
- A.A. 2024-2025
- 1° anno
- Bioinformatica
- Introduzione
Syllabus del corso
Obiettivi
Lo studente deve conoscere le basi della bioinformatica necessarie allo svolgimento della sua professione.
Contenuti sintetici
Il corso introduce la bioinformatica applicata alle biotecnologie mediche. Si approfondiscono concetti relativi all’allineamento di sequenze, l'analisi filogenetica, l’analisi dei dati di espressione genica e l'integrazione omica. Si introduce il linguaggio R per l'analisi dei dati, applicandolo a casi studio su espressione genica e bioinformatica del cancro. Infine, si esplorano il machine learning e i modelli evolutivi del cancro, inclusa l'analisi delle firme mutazionali. Ogni blocco include esercitazioni pratiche per consolidare le competenze.
Programma esteso
Il corso di Bioinformatica ha l'obiettivo di fornire una solida panoramica delle principali tecniche e degli strumenti utilizzati in bioinformatica, con particolare attenzione alle applicazioni in ambito medico e biotecnologico. Gli studenti acquisiranno competenze pratiche nell'analisi dei dati biologici, come sequenze genetiche, espressione genica, varianti genomiche, e apprenderanno l'uso di tecniche di machine learning per applicazioni in oncologia e genomica. Il corso sarà strutturato in tre parti da quattro lezioni ciascuna. Si descrivono ora nel dettaglio le tematiche trattate.
Parte 1: Introduzione alla Bioinformatica e Analisi di Sequenze
Nella prima parte, gli studenti saranno introdotti ai fondamenti della bioinformatica, esplorando la sua storia, le sue applicazioni e le risorse principali utilizzate nel campo. La bioinformatica è una disciplina fondamentale per l'analisi dei dati biologici, che include la gestione e l'interpretazione di enormi quantità di dati provenienti da esperimenti scientifici. Si discuterà di come le basi di dati biologiche come NCBI, Ensembl, e UCSC Genome Browser siano utilizzate per raccogliere e organizzare i dati, e gli studenti apprenderanno come utilizzare software e strumenti di analisi per affrontare problemi bioinformatici.
La seconda lezione si concentrerà sull'allineamento delle sequenze, una tecnica centrale per il confronto di sequenze genetiche, utilizzata per identificare somiglianze tra geni di specie diverse. Gli studenti esploreranno vari algoritmi di allineamento, come quelli utilizzati in BLAST e FASTA, per confrontare sequenze e analizzare le loro relazioni evolutive. Si approfondirà anche l'analisi filogenetica, che permette di ricostruire la storia evolutiva delle specie attraverso l'analisi di sequenze omologhe. In questa lezione, gli studenti impareranno anche a costruire alberi filogenetici applicando i metodi di massima parsimonia e massima verosimiglianza.
La terza lezione del modulo tratterà l'analisi dei dati di espressione genica, una componente cruciale per comprendere il funzionamento dei geni in diverse condizioni biologiche. Si esploreranno tecniche di analisi come il microarray e l'RNA-Seq, mettendo in evidenza come i dati di espressione possano essere utilizzati per capire la regolazione genica e identificare i geni coinvolti in patologie. Inoltre, si discuteranno le varianti genomiche, come SNP, indels e CNV, e il loro impatto sulle funzioni biologiche. Il modulo si concluderà con un'introduzione all'analisi omica integrativa, che combina informazioni provenienti da diverse tecniche omiche, come genomica, trascrittomica e proteomica, per ottenere una visione più completa dei sistemi biologici.
L'ultima lezione di questo modulo sarà dedicata a un'esercitazione pratica in cui gli studenti avranno l'opportunità di valutare le tecniche di allineamento delle sequenze, analisi filogenetica e analisi dei dati di espressione su dataset reali, consolidando le conoscenze teoriche acquisite nelle lezioni precedenti.
Modulo 2: Fondamenti di Programmazione e Analisi dei Dati di Espressione
Nella seconda parte, gli studenti inizieranno a familiarizzare con il linguaggio di programmazione R, uno degli strumenti più potenti per l'analisi statistica dei dati biologici. Le prime due lezioni saranno dedicate all'insegnamento dei fondamenti di R, partendo dalle basi della sintassi e della gestione dei dati fino ad arrivare alla manipolazione avanzata degli stessi. Impareranno a scrivere e eseguire script in R, a gestire variabili, a utilizzare funzioni e librerie, e a visualizzare i dati mediante grafici e tabelle. Inoltre, saranno introdotti all'analisi statistica dei dati, con particolare attenzione alle tecniche più comuni, come le analisi di regressione e i test statistici.
La terza lezione del modulo sarà focalizzata su un caso di studio pratico riguardante l'analisi dei dati di espressione genica. Gli studenti lavoreranno su dati reali provenienti da esperimenti di RNA-Seq o microarray e apprenderanno come eseguire il preprocessing dei dati, compresi i passaggi di normalizzazione e filtraggio, per preparare i dati per l'analisi. In seguito, si concentreranno sull'identificazione dei geni differenziali e sull'analisi multivariata dei dati, utilizzando tecniche come la PCA (analisi delle componenti principali) e il clustering per scoprire pattern nascosti nei dati.
Il modulo si concluderà con un'esercitazione pratica in cui saranno discusse le tecniche apprese durante le lezioni.
Modulo 3: Machine Learning, Cancro e Mutazioni
Nella terza ed ultima parte, gli studenti verranno introdotti al machine learning, una disciplina che sta assumendo un ruolo centrale nella bioinformatica moderna. Impareranno le basi del machine learning, distinguendo tra tecniche supervisionate e non supervisionate, e come applicare algoritmi come alberi decisionali, support vector machines (SVM) e k-NN per analizzare e fare previsioni sui dati biologici. La lezione si concentrerà anche sull'uso di machine learning per affrontare problemi complessi in bioinformatica, come la classificazione dei dati genomici e l'identificazione di pattern nei dati omici.
La lezione successiva esplorerà i modelli di evoluzione del cancro, analizzando come le cellule tumorali accumulano mutazioni nel tempo e come queste mutazioni influenzano il comportamento e la progressione del cancro. Gli studenti apprenderanno i modelli evolutivi del cancro e come le analisi genomiche possono essere utilizzate per ricostruire le traiettorie evolutive delle cellule tumorali, utilizzando strumenti computazionali per studiare la distribuzione delle mutazioni somatiche.
La penultima lezione si concentrerà invece sulle mutational signatures, un concetto fondamentale per la comprensione delle cause e della progressione del cancro. Le firme mutazionali sono modelli caratteristici delle mutazioni che si verificano in un tipo di cancro specifico, e l'analisi di queste firme è fondamentale per personalizzare i trattamenti oncologici. Gli studenti impareranno a identificare e analizzare queste firme utilizzando tecniche avanzate di bioinformatica e machine learning.
L'ultimo incontro del corso sarà un'esercitazione finale che permetterà agli studenti di mettere in pratica quanto appreso riguardo all'analisi delle mutazioni genomiche e delle mutational signatures.
Prerequisiti
Conoscenze di matematica e biologia di base.
Modalità didattica
Lezioni frontali.
Materiale didattico
Diapositive e materiale didattico fornito dal docente.
Periodo di erogazione dell'insegnamento
Primo semestre.
Modalità di verifica del profitto e valutazione
Modalità d’esame: Prova scritta.
Tipologia di quesiti: Quiz a risposta multipla con 5 opzioni di cui 1 corretta per un totale di 16 domande.
Risultati delle valutazioni: Il punteggio è espresso in trentesimi con punteggio minimo di 18/30 e punteggio massimo di 30/30 con lode.
Argomenti inclusi nei quesiti: Tutti gli argomenti delle lezioni possono essere richiesti.
Durata dell’esame: Lo studente ha 45 minuti per svolgere l’esame.
Orario di ricevimento
Su appuntamento richiesto via e-mail.
Sustainable Development Goals
Aims
Students will learn the basics of bioinformatics required for their profession.
Contents
This course introduces bioinformatics applied to medical biotechnology. Topics include sequence alignment, phylogenetics, analysis of gene expression data, and omics integration. Students will learn the basics of the R language for data analysis, applying it to case studies on gene expression and cancer bioinformatics. The course also covers machine learning and evolutionary cancer models, including mutational signature analysis. Each module includes practical exercises to strengthen skills.
Detailed program
The Bioinformatics course aims to provide a solid overview of the main techniques and tools used in bioinformatics, with a particular focus on applications in the medical and biotechnological fields. Students will gain practical skills in analyzing biological data, such as genetic sequences, gene expression, genomic variants, and will learn how to use machine learning techniques for applications in oncology and genomics. The course will be structured into three parts, each consisting of four lessons. The topics covered in each part are outlined in detail below.
Part 1: Introduction to Bioinformatics and Sequence Analysis
In the first part, students will be introduced to the fundamentals of bioinformatics, exploring its history, applications, and the main resources used in the field. Bioinformatics is a crucial discipline for analyzing biological data, which includes managing and interpreting vast amounts of data from scientific experiments. The course will discuss how biological databases such as NCBI, Ensembl, and the UCSC Genome Browser are used to collect and organize data, and students will learn how to use software and analysis tools to address bioinformatics problems.
The second lesson will focus on sequence alignment, a central technique for comparing genetic sequences, used to identify similarities between genes of different species. Students will explore various alignment algorithms, such as those used in BLAST and FASTA, to compare sequences and analyze their evolutionary relationships. Phylogenetic analysis will also be covered, which allows for reconstructing the evolutionary history of species through the analysis of homologous sequences. In this lesson, students will also learn how to build phylogenetic trees by applying maximum parsimony and maximum likelihood methods.
The third lesson of this module will address gene expression data analysis, a critical component for understanding how genes function under different biological conditions. Students will explore analysis techniques such as microarrays and RNA-Seq, emphasizing how expression data can be used to understand gene regulation and identify genes involved in diseases. In addition, genomic variants such as SNPs, indels, and CNVs, and their impact on biological functions, will be discussed. The module will conclude with an introduction to integrative omics analysis, which combines data from different omic techniques, such as genomics, transcriptomics, and proteomics, to gain a more comprehensive view of biological systems.
The last lesson of this module will be dedicated to a practical exercise, where students will have the opportunity to evaluate sequence alignment techniques, phylogenetic analysis, and gene expression data analysis on real datasets, consolidating the theoretical knowledge gained in the previous lessons.
Part 2: Fundamentals of Programming and Gene Expression Data Analysis
In the second part, students will begin to familiarize themselves with the R programming language, one of the most powerful tools for statistical analysis of biological data. The first two lessons will be dedicated to teaching the fundamentals of R, starting from the basics of syntax and data management to advanced data manipulation techniques. Students will learn how to write and execute scripts in R, manage variables, use functions and libraries, and visualize data through graphs and tables. They will also be introduced to statistical data analysis, with particular focus on common techniques such as regression analysis and statistical tests.
The third lesson of the module will focus on a practical case study related to gene expression data analysis. Students will work with real data from RNA-Seq or microarray experiments and will learn how to perform data preprocessing, including normalization and filtering steps, to prepare the data for analysis. They will then focus on identifying differentially expressed genes and performing multivariate data analysis, using techniques such as PCA (Principal Component Analysis) and clustering to uncover hidden patterns in the data.
The module will conclude with a practical exercise where the techniques learned in the lessons will be discussed and applied.
Part 3: Machine Learning, Cancer, and Mutations
In the third and final part, students will be introduced to machine learning, a discipline that is playing a central role in modern bioinformatics. They will learn the basics of machine learning, distinguishing between supervised and unsupervised techniques, and how to apply algorithms such as decision trees, support vector machines (SVM), and k-NN to analyze and make predictions on biological data. The lesson will also focus on the use of machine learning to address complex bioinformatics problems, such as classifying genomic data and identifying patterns in omic data.
The next lesson will explore cancer evolution models, analyzing how tumor cells accumulate mutations over time and how these mutations influence cancer behavior and progression. Students will learn about cancer evolutionary models and how genomic analyses can be used to reconstruct the evolutionary trajectories of tumor cells, using computational tools to study the distribution of somatic mutations.
The penultimate lesson will focus on mutational signatures, a fundamental concept for understanding the causes and progression of cancer. Mutational signatures are characteristic patterns of mutations that occur in specific types of cancer, and analyzing these signatures is crucial for personalizing cancer treatments. Students will learn to identify and analyze these signatures using advanced bioinformatics and machine learning techniques.
The final meeting of the course will be a practical exercise that will allow students to apply what they have learned regarding genomic mutation analysis and mutational signature analysis.
Prerequisites
Basics biological and mathematical knowledge.
Teaching form
Frontal lessons.
Textbook and teaching resource
Slides and teaching materials provided by the instructor.
Semester
First semester.
Assessment method
Exam mode: Written test.
Question type: Multiple-choice quiz with 5 options, one correct answer, for a total of 16 questions.
Grading results: The score is expressed on a scale of thirty, with a minimum score of 18/30 and a maximum score of 30/30 with honors.
Topics covered in the questions: All topics covered in the lessons may be asked.
Exam duration: The student has 45 minutes to complete the exam.
Office hours
By appointment requested via e-mail.