- Informatics
- Summary
Course Syllabus
Obiettivi
L'insegnamento si propone di spiegare i concetti base dell’Informatica e della Statistica, con una particolare attenzione alle applicazioni di carattere biotecnologico. Durante l'insegnamento verranno illustrate le relazioni fra le discipline informatiche e le discipline biologiche: la trattazione dei concetti base dell’Informatica sarà affiancata alla spiegazione dell’importanza che tali concetti rivestono per l’analisi di dati biologici (ad es. ricerca in banche dati biologiche, problemi di Bioinformatica, Biologia Computazionale e Biologia dei Sistemi).
1. Conoscenza e capacità di comprensione.
Al termine dell'insegnamento lo studente dovrà sviluppare la capacità di:
- “computational thinking”, al fine di utilizzare in modo appropriato gli strumenti dell’Informatica (algoritmi, metodi computazionali, software) per la soluzione di un dato problema;
- analisi critica relativamente alla scelta dei metodi statistici più adeguati per l’analisi di dati in ambito biologico/clinico, e per l’interpretazione dei rispettivi risultati.
2. Capacità di applicare conoscenza e comprensione.
Al termine dell'insegnamento lo studente dovrà essere in grado di applicare le conoscenze acquisite al punto 1 per la soluzione di problemi in ambito computazionale e statistico:
- organizzare e trattare automaticamente i dati o risolvere semplici problemi tramite l’utilizzo di fogli di calcolo (esercitazioni in laboratorio);
- sviluppare semplici algoritmi, programmare in linguaggio Python e utilizzare l’ambiente di sviluppo R per analisi statistiche (esercitazioni in laboratorio).
3. Autonomia di giudizio.
Al termine dell'insegnamento lo studente dovrà essere in grado di elaborare quanto appreso, e saper riconoscere le situazioni e i problemi in cui le metodologie informatiche e statistiche apprese possano essere utilizzate.
4. Abilità comunicative.
Al termine dell'insegnamento lo studente dovrà essere in grado di esprimersi in modo appropriato nella descrizione delle tematiche affrontate, con proprietà di linguaggio e sicurezza di esposizione.
5. Capacità di apprendimento
Al termine dell'insegnamento lo studente dovrà essere in grado di consultare la letteratura sugli argomenti trattati, nonché analizzare, applicare, integrare e collegare le conoscenze acquisite con quanto verrà appreso in insegnamenti correlati all’applicazione delle scienze computazionali e statistiche per l’analisi dei dati.
Contenuti sintetici
Informatica
Nozioni di base sui calcolatori e sulla codifica dei dati.
Algoritmi, computational thinking, ed elementi di programmazione strutturata.
Nozioni di complessità computazionale.
Fondamenti di Bioinformatica, Biologia Computazionale, Biologia dei Sistemi.
Metodi computazionali euristici di ispirazione biologica.
Statistica
Statistica descrittiva.
Statistica inferenziale.
Esercitazioni in laboratorio
Fogli di calcolo.
Elementi di programmazione in Python e R.
Programma esteso
Informatica
1) Nozioni di base sui calcolatori e sulla codifica dei dati.
Com’è fatto e come funziona un computer (architettura di von Neumann, ciclo macchina).
Codifica dell’informazione.
2) Pensare in modo algoritmico ed elementi di programmazione.
Definizione di algoritmo.
Dal problema all’algoritmo, dall’algoritmo al programma.
Programmi e linguaggi di programmazione.
Programmazione strutturata e pseudo-codice.
Problemi “facili” e problemi “difficili”, efficienza degli algoritmi.
Fare calcoli con il DNA: l’esperimento di Adleman.
3) Fondamenti di Bioinformatica, Biologia Computazionale e Biologia dei Sistemi.
Le banche dati biologiche (banche dati primarie, secondarie, specializzate).
Algoritmi di allineamento fra sequenze e tecniche euristiche per ricerche in banche dati.
Protein folding, molecular docking.
Approcci computazionali per sistemi biologici complessi.
4) Dalla Biologia all’Informatica: metodi computazionali di ispirazione biologica per la soluzione di problemi “difficili”.
Statistica
1) Statistica descrittiva.
Campioni e popolazioni, tipologie di dati e variabili
Disegno degli esperimenti (cieco, replicazione, strategie di campionamento).
Il concetto di frequenza (assoluta, relativa, cumulativa).
Rappresentazione grafica dei dati (istogrammi, diagrammi a torta, diagrammi a dispersione).
Misure di centralità (media, mediana, moda).
Misure di dispersione (range, deviazione standard, varianza).
Misure di posizione (quantili, percentili).
Analisi esplorativa dei dati (outlier, boxplot).
2) Statistica inferenziale.
Nozioni di teoria della probabilità.
Distribuzioni di probabilità (uniforme, binomiale, normale, Poisson).
Metodi di stima con un campione (intervalli di confidenza, stima di media e varianza con un campione,.distribuzione t di Student, distribuzione chi-quadro).
Verifica di ipotesi con un campione.
Correlazione e regressione.
Esercitazioni in laboratorio
I fogli di calcolo per l’elaborazione dei dati.
Ricerca in banche dati biologiche.
Elementi di programmazione in Python.
Elementi di statistica descrittiva ed inferenziale con R.
Prerequisiti
Prerequisiti: nessuno
Propedeuticità: nessuna
Modalità didattica
Lezioni frontali in aula (40 ore) ed esercitazioni (30 ore), supportate da presentazioni PowerPoint.
Nel periodo di emergenza COVID-19 le lezioni frontali si svolgeranno in modalità mista: parziale presenza in aula e simultanea videoconferenza sincrona.
Le esercitazioni si svolgeranno solo da remoto, in videoconferenza sincrona.
Tutta l’attività didattica verrà videoregistrata e resa disponibile tramite la piattaforma Moodle.
Materiale didattico
Slide delle lezioni e delle esercitazioni reperibili sulla pagina Moodle dell'insegnamento.
Testi consigliati:
M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole. Fondamenti di Bioinformatica. Zanichelli, 2018
S. Pascarella, A. Paiardini. Bioinformatica. Dalla sequenza alla struttura delle protein. Zanichelli, 2011
M.M. Triola, M.F. Triola. Fondamenti di statistica per le discipline biomediche, Pearson, 2017
M.C. Whitlock, D. Schluter. Analisi statistica dei dati biologici, Zanichelli, 2010
Periodo di erogazione dell'insegnamento
Primo semestre
Modalità di verifica del profitto e valutazione
Esame scritto della durata di 2 ore, con 9 domande a risposta multipla e 1 domanda a risposta aperta, riguardanti gli argomenti trattati durante le lezioni frontali e le esercitazioni in laboratorio. Il voto viene espresso in trentesimi.
Non verranno svolte prove in itinere.
Orario di ricevimento
Su appuntamento previa richiesta via e-mail a daniela.besozzi@unimib.it
Aims
The course will introduce the basic concepts of computer science and statistics, with a particular focus on biotechnology applications. The course will introduce the students to the relationships between computer science and biology by focusing on biological databases, and problems in bioinformatics, computational biology and systems biology.
1. Knowledge and understanding.
The student will gain knowledge about:
- “computational thinking”, in order to critically use concepts and tools of computer science (algorithms, computational methods, software) for the solution of a given problem;
- the choice of the proper sampling and statistical methods, and the interpretation of outcomes in the analysis of biological/clinical data.
2. Applying knowledge and understanding.
The student will be able to apply the knowledge listed in item 1 for the solution of computational and statistical problems:
- organizing and handling biological data in automatic ways (practical skills on the use of spreadsheets);
- development of basic algorithms using Python and R programming languages (hands-on sessions in pc room).
3. Making judgements.
The student will be able to process the acquired knowledge and choose the proper computational/statistical methods for different applications.
4. Communication skills.
Use of an appropriate scientific vocabulary and ability in oral/written reports
5. Learning skills.
Skills in literature reading and understanding, as well as in the elaboration, analysis and application of the acquired knowledge in other courses related to the application of computational and statistical methods for data analysis.
Contents
Informatics
Introduction to computer science.
Algorithms, computational thinking, and basics of structured programming.
Notions of computational complexity.
DNA computing.
Fundamentals of bioinformatics, computational biology, systems biology.
Bio-inspired meta-heuristics.
Statistics
Descriptive statistics.
Inferential statistics.
Laboratory
Spreadsheets.
Basic notions of programming in Python and R languages.
Detailed program
Informatics
1) Introduction to computer science.
Principles of computer operations (von Neumann architecture, fetch-execute cycle).
Data representation.
2) Computational thinking and basics of structured programming.
Definition of algorithm.
From problems to algorithms, from algorithms to programs.
Program languages.
Structured programming and pseudo-code.
Notions of computational complexity.
DNA computing: Adleman’s experiment.
3) Fundamentals of bioinformatics, computational biology and systems biology.
Biological databases.
Sequence alignment: algorithms and heuristics.
Protein folding, molecular docking.
Computational approaches for complex biological systems.
4) From biology to computer science: bio-inspired computational methods, and their applications in bioinformatics.
Statistics
1) Descriptive statistics.
Introduction to statistics (types of data, collecting sample data).
Summarizing and graphing data (frequency distributions, histograms, boxplots).
Statistics for describing, exploring and comparing data (measures of center, measures of variation,
measures of relative standing).
2) Inferential statistics.
Basic concepts of probability.
Probability distributions (uniform, binomial, normal, Poisson).
Sampling distributions and estimators.
Hypothesis testing.
Correlation and regression.
Laboratory
Spreadsheets.
Searching biological databases.
Basic notions of programming in Python and R languages.
Prerequisites
Background: none
Prerequisites: none
Teaching form
Classroom lectures (40 hours) and hands-on sessions (30 hours) supported by PowerPoint slides.
During the COVID-19 emergency period, all lectures will take place in live streaming mode, with partial attendance in the classroom.
The hands-on session will take place in live streaming mode only.
All lectures and hands-on sessions will be videorecorded and published on the Moodle platform.
Textbook and teaching resource
All the educational material will be available on Moodle platform.
Textbooks:
M. Helmer Citterich, F. Ferrè, G. Pavesi, C. Romualdi, G. Pesole. Fondamenti di Bioinformatica. Zanichelli, 2018
S. Pascarella, A. Paiardini. Bioinformatica. Dalla sequenza alla struttura delle protein. Zanichelli, 2011
M.M. Triola, M.F. Triola. Fondamenti di statistica per le discipline biomediche, Pearson, 2017
M.C. Whitlock, D. Schluter. Analisi statistica dei dati biologici, Zanichelli, 2010
Semester
First semester
Assessment method
Written exam (2 hours), consisting in 9 multiple-choice questions and 1 open question about the topics presented during the classroom lectures and the hands-on sessions.
No "in itinere" tests will be done.
Office hours
On demand by e-email to daniela.besozzi@unimib.it
Key information
Staff
-
Daniela Besozzi
-
Chiara Damiani
-
Marco Salvatore Nobile
-
Daniele Maria Papetti
-
Simone Spolaor