- Chemometrics
- Summary
Course Syllabus
Obiettivi
Obiettivo principale dell’insegnamento è fornire allo studente i fondamenti teorici e gli strumenti operativi delle principali tecniche chemiometriche, necessarie nella chimica moderna per il trattamento adeguato dell'informazione contenuta nei dati chimici sperimentali. L'obiettivo del corso è quindi quello di procurare allo studente gli elementi fondamentali dell’analisi multivariata per trattare sistemi complessi di interesse chimico, farmacologico e ambientale. La conoscenza dei principi e della condizioni operative delle principali tecniche chemiometriche verrà sviluppata insieme alla capacità di scegliere e di gestire gli approcci di indagine più adatti alle finalità dell’analisi. Lo studente saprà quindi valutare le caratteristiche degli approcci chemiometrici fondamentali, i campi di applicazione, i vantaggi e gli svantaggi delle singole tecniche e sarà quindi in grado di suggerire la scelta della tecnica chemiometrica ritenuta più idonea per uno specifico problema.
In particolare, al termine del corso di Chemiometria, lo studente dovrà dimostrare di aver raggiunto i seguenti obiettivi formativi:
Conoscenza e capacità di comprensione:
o descrivere i principali metodi chemiometrici presentati nel corso al fine di un utilizzo correttoo descrivere i parametri fondamentali per la valutazione dei risultati
o descrivere vantaggi e svantaggi dei diversi algoritmi studiati
Capacità di applicare conoscenza e comprensione:
o
selezionare il metodo più adatto ad affrontare un problema di analisi dei dati
o
prevedere quale tipo di informazione sarà possibile enucleare dai dati in esame
o
valutare la possibilità di metodi chemiometrici alternativi per la soluzione del problema
o
applicare in concreto i metodi chemiometrici selezionati e calcolare i relativi parametri statistici informativi
Autonomia di giudizio:
o
acquisire le conoscenze e competenze in grado di sviluppare una capacità di comprensione critica dei principali metodi chemiometrici
o
selezionare le tecniche ed i parametri statistici utili ad estrarre specifiche informazioni dai dati in esame
o
redarre e giustificare una discussione critica sui metodi utilizzati e le informazioni ottenute dall’analisi dei dati
Capacità di apprendimento:
o comprendere le diverse tecniche studiate e la loro collocazione metodologica al fine di un impiego corretto e mirato al problema da risolvere
Contenuti sintetici
Introduzione alla chemiometria. La struttura dei dati multivariati. Strategie per la razionalizzazione di problemi complessi: Analisi delle Componenti Principali. Similarità e diversità. Metodi di Cluster Analysis. Il concetto di bias e i metodi di validazione. Metodi di regressione multivariata. Metodi di classificazione multivariata. Accenno alle reti neurali ed alla selezione delle variabili. Strategie di data fusion. Analisi delle relazioni tra struttura molecolare, proprietà chimico-fisiche e attività biologiche (QSAR).
Esperienze pratiche in laboratorio per acquisire gli strumenti e le modalità di analisi tramite le principali tecniche chemiometriche descritte nel corso (analisi della struttura di dati chimici, realizzazione di modelli di regressione e classificazione).
Programma esteso
Introduzione alla chemiometria: obiettivi, metodi e applicazioni della chemiometria per l’analisi di sistemi chimici complessi. La struttura dei dati multivariati. Elementi di calcolo matriciale. Parametri statistici elementari: indici di posizione e di dispersione, covarianza e correlazione. Le scalature ed il pretrattamento dei dati: centratura, autoscalatura, scalatura di intervallo, scalatura sulla varianza.
Strategie per la razionalizzazione di problemi complessi, l’analisi della struttura e l’esplorazione dei dati chimici connessi a sistemi complessi; l'analisi delle componenti principali (PCA): obiettivi della PCA, accenni all’algoritmo di diagonalizzazione, matrici degli scores e dei loadings; autovalori e definizione delle componenti significative (analisi di rango). Esempi di applicazione della PCA su dati chimici. La correlazione multivariata.
Analisi della similarità e diversità in sistemi complessi: i concetti di analogia, similarità, dissimilarità e distanza. Misure di distanza e similarità per dati quantitativi e binari. Cluster Analysis: metodi gerarchici agglomerativi e metodi non gerarchici. Strategie per l'analisi di similarità. Esempi di applicazione della Cluster Analysis su dati chimici.
Il concetto di bias e i metodi di validazione: stimatori statistici; bias e varianza. Modelli descrittivi e predittivi. Tecniche di validazione dei modelli statistici multivariati: cross-validation, bootstrap, leave-one-out, leave-many-out, y scrambling.
Metodi di regressione multivariata: strategie di ricerca basate su modelli quantitativi e parametri di regressione. L'analisi di regressione multipla. I metodi di regressione biased: i metodi ridge, di selezione dei migliori sotto modelli, regressione in componenti principali, metodo Partial Least Square. Gli algoritmi genetici per la selezione di variabili. Il metodo Sequential Replacement. Esempi di applicazione della regressione multivariata su dati chimici.
Metodi di classificazione multivariata: strategie di ricerca basate sulla classificazione e parametri di classificazione. I metodi di classificazione locale: k Nearest Neighbours (kNN), N3, BNN. Le probabilità bayesiane e i metodi di analisi discriminante lineare e quadratica. Metodi di classificazione ad albero (CART). Le reti neurali di Kohonen.
Metodi di consensus e data fusion: introduzione alle strategie moderne per la concatenazione di differenti sorgenti di informazione chimica tramite approcci di consensus analysis e data fusion; definizione dei livelli di data fusion.
Introduzione alle relazioni tra struttura molecolare, proprietà chimico-fisiche, biologiche, ambientali (QSAR): metodologie QSAR, descrittori molecolari e loro applicazione.
Sono previste tre esperienze pratiche su dati reali per acquisire gli strumenti e le modalità di analisi sulle seguenti tematiche chemiometriche: analisi della struttura di dati chimici tramite Analisi delle Componenti Principali, realizzazione di modelli di regressione e classificazione multivariata. Le esperienze pratiche vengono eseguite in laboratorio informatico tramite il software MATLAB e specifici toobox grafici forniti dai docenti. Nelle esperienze è prevista una breve introduzione all’utilizzo del sofwtare MATLAB (import e gestione dei dati, integrazione con i toolbox statistici multivariati forniti dai docenti).
Prerequisiti
Nozioni di base sui principali indici statistici elementari, capacità operativa informatica di base nelle esperienze pratiche in laboratorio.
Modalità didattica
Il corso si suddivide in una parte di lezioni ed esercitazioni frontali, in cui vengono fornite le nozioni teoriche sulle tematiche chemiometriche. Alla fine dello svolgimento delle lezioni del corso, gli studenti seguono tre differenti esperienze pratiche in laboratorio per acquisire gli strumenti e le modalità operative di analisi delle principali tecniche chemiometriche.
Materiale didattico
Il libro di testo di riferimento del corso è il seguente: R.Todeschini, Introduzione alla Chemiometria (Edises, Napoli 1998). Il libro viene fornito anche in formato pdf sulla pagina e-learning del corso. Vengono fornite inoltre le slide delle lezioni sulla pagina e-learning del corso. Inoltre, i docenti forniscono tramite piattaforma e-learning un file chm comprendente articoli scientifici per l’approfondimento degli argomenti presentati nel corso. Per ogni esperienza di laboratorio, tramite piattaforma e-learning, sono fornite le slide introduttive, i dati e i toolbox necessari per lo svolgimento delle esperienze tramite software MATLAB.
Periodo di erogazione dell'insegnamento
Primo semestre
Modalità di verifica del profitto e valutazione
L'esame consiste in una prova orale in cui sono discussi gli argomenti presentati nelle lezioni. Oltre all’apprendimento delle nozioni fondamentali esposte nel corso, vengono valutate anche le capacità e attitudini dello studente ad adattare i fondamenti teorici della chemiometria a particolari condizioni operative e pratiche; viene inoltre valutata la capacità espositiva e adeguatezza del linguaggio dello studente.
Per l'ammissione alla prova orale viene erogato un test a risposte multiple in aula informatica; ogni prova comprende 30 domande sugli argomenti esposti nelle lezioni del corso; gli studenti che ottengono esito positivo (almeno 60% risposte corrette) possono sostenere la prova orale. Per l'ammissione all'esame è obbligatorio aver frequentato le esperienze di laboratorio.
La prova orale è generalmente consecutiva al test al computer ma, su richiesta dello studente, può anche essere sostenuta in qualsiasi appello successivo alla prova scritta. Nel caso di non superamento della prova orale, non è previsto il salto d'appello e non è richiesta una nuova prova scritta.
Orario di ricevimento
Previo appuntamento tramite e-mail, i docenti sono sempre disponibili a ricevere gli studenti nei loro uffici.
Aims
The main objective of the course is to provide the student with the theoretical foundations and operational tools of the main chemometric techniques, necessary in modern chemistry for the adequate treatment of the information contained in experimental chemical data. The aim of the course is therefore to provide the student with the fundamental elements of multivariate analysis to treat complex systems of chemical, pharmacological and environmental interest. Knowledge of the principles and operating conditions of the main chemometric techniques will be developed together with the ability to choose and manage the investigation approaches most suited to the purposes of the analysis. The student will then be able to evaluate the characteristics of the basic chemistry approaches, the fields of application, the advantages and disadvantages of the individual techniques and will therefore be able to suggest the choice of the chemometric technique considered most suitable for a specific problem.
In particular, at the end of the course, the student must demonstrate that he/she is able to achieve the following formative objectives.
Knowledge and understanding:
o
describe
the main chemometric methods presented in the course
o
describe
the fundamental parameters for the evaluation of the results
o
describe
the advantages and disadvantages of the different chemometric algorithms
Applying knowledge and understanding:
o
select
the most suitable multivariate method to deal with a specific problem
o
understand
which kind of information will be possible to extract from the data under analysis
o
evaluate
alternative chemometric methods to face the problem
o
concretely
apply the selected chemometric methods and calculate the related statistical
information parameters
Making judgements:
o
acquire
knowledge and skills to develop a critical understanding of the main
chemometric methods
o
select
methods and parameters useful for extracting specific information from the data
under analysis
o
justify
a critical discussion on the methods used and the information obtained from the
analysis of the data
Learning ability:
o understand the different chemometric approaches and their methodological application in order to use them correctly when analysis a multivariate problem
Contents
Introduction to chemometrics. The structure of multivariate data. Strategies for the rationalization of complex problems: Principal Components Analysis. Similarity and diversity. Cluster Analysis methods. The concept of bias and validation methods. Multivariate regression methods. Multivariate classification methods. Introduction to neural networks and selection of variables. Data fusion strategies. Analysis of the relationships between molecular structure, chemical-physical properties and biological activities (QSAR).
Practical experience in the laboratory to learn the tools and methods of analysis through the main chemometric techniques described in the course (analysis of the structure of chemical data, calibration of regression models and classification).
Detailed program
Introduction to chemometrics: objectives, methods and applications of chemometrics for the analysis of complex chemical systems. The structure of multivariate data. Elements of matrix calculation. Elementary statistical parameters: position and dispersion indices, covariance and correlation. Data scaling and pre-treatment: centering, auto-scaling, range scaling, variance scaling.
Strategies for the rationalization of complex problems, the analysis of the structure and the exploration of chemical data related to complex systems; Principal component Analysis (PCA): objectives of the PCA, references to the algorithm of diagonalization, matrices of scores and loadings; eigenvalues and definition of significant components (rank analysis). Examples of PCA application on chemical data. Multivariate correlation.
Analysis of similarity and diversity in complex systems: the concepts of analogy, similarity, dissimilarity and distance. Distance and similarity measures for quantitative and binary data. Cluster Analysis: agglomerative hierarchical methods and non-hierarchical methods. Similarity analysis strategies. Examples of application of Cluster Analysis on chemical data.
The concept of bias and validation methods: statistical estimators; bias and variance. Descriptive and predictive models. Validation techniques of multivariate statistical models: cross-validation, bootstrap, leave-one-out, leave-many-out, and scrambling.
Multivariate regression methods: strategies based on quantitative models and regression parameters. Multiple regression analysis. The biased regression methods: methods reduces, selection of the best sub-models, regression with Principal Components, Partial Least Square regression. Genetic algorithms for the selection of variables. The Sequential Replacement method. Examples of application of multivariate regression on chemical data.
Multivariate classification methods: strategies based on classification and classification parameters. The methods of local classification: k Nearest Neighbors (kNN), N3, BNN. The Bayesian probabilities and methods of linear and quadratic discriminant analysis. Tree classification methods (CART). Neural networks and Kohonen maps.
Consensus and data fusion methods: introduction to modern strategies for the concatenation of different sources of chemical information through consensus analysis and data fusion approaches; definition of data fusion levels.
Introduction to the relationships between molecular structure, chemical, physical, biological and environmental properties (QSAR): QSAR methodologies, molecular descriptors and their application.
There are three practical experiences on real data to acquire the tools and methods of analysis on the following chemometric themes: analysis of the chemical data structure through Principal Components Analysis, calibration of regression and classification models. Practical experiences are performed in the informatic laboratory using MATLAB software and specific graphical tooboxes provided by the teachers. The experiences include a brief introduction to the use of MATLAB software (data import and management, integration with multivariate statistical toolboxes provided by teachers).Prerequisites
Basic knowledge on the main elementary statistical indices, basic computer operating skills in practical laboratory experiences.
Teaching form
The course is divided into a part of lectures and frontal exercises, in which the theoretical notions on chemometric themes are given. At the end of the course lectures, the students attend three different practical sessions in the infromatic laboratory to acquire the tools and operating methods for the analysis of the main chemometric techniques.
Textbook and teaching resource
The reference textbook of the course is: R.Todeschini, Introduzione alla Chemiometria (Edises, Naples 1998). The book is also provided in pdf format on the e-learning page of the course. The slides of the lessons are also provided on the e-learning page of the course. In addition, the teachers provide on the e-learning platform a chm file including scientific articles for the study of the topics presented in the course. For each laboratory experience, through the e-learning platform, the introductory slides, the data and the toolboxes necessary for the development of the experiences through MATLAB software are provided.
Semester
Fisr semester
Assessment method
The exam consists of an oral examination, where topics presented in the lessons are discussed. In addition to the theoretical fundamentals given in the course, students' skills and aptitudes are also assessed to adapt the theoretical foundations of chemometrics to particular operative and practical conditions; the expositive ability and adequacy of the student's language is also assessed.
For the admission to the oral examination a multiple response test is provided in the informatic laboratory; each test includes 30 questions on the topics presented in the lessons of the course; students who obtain a positive result (at least 60% correct answers) can take the oral exam. To access the oral examination, it is mandatory to attend the lab experiences.
The oral test is usually consecutive to the computer test but the student can ask to have the oral examination in subsequent dates to the multiple response test. In the case of not passing the oral examination, there is no jump call and a new multiple response test is not required.Office hours
Teachers are always available to receive students in their offices upon an e-mail request.