Análisis de datos multivariados para la calibración en química analítica Parte 2: Datos de primer orden Héctor Goicoechea hgoico@fbcb.unl.edu.ar http://www.fbcb.unl.edu.ar/laboratorios/ladaq/ Parte 1: Calibración Directa Ajuste por cuadrados mínimos Una visión desde el punto de vista matricial para la calibración univariada (ORDEN CERO) y=a+bx Para m patrones de calibrado: m Qxy b i 1 Qxx ( xi x)( yi y ) m 2 ( x x ) i a y bx i 1 Sb sy / x Qxx m 2 Sa sy / x 1 x m Qxx Sy / x 2 ( y y ) ˆ i i i 1 m2 Desviación estándar del ajuste Ajuste por cuadrados mínimos para calibración univariada y = a + bx y1 = 1.a + x1.b y2 = 1.a + x2.b a b ……. ym = 1.a + xm.b y = X p + e J (XTX)-1XT X+ y = (XTX)-1XT Xp y =p ŷ = X p … e=y- ŷ … sx/y = ||e||/(m-2)1/2 sy / x 1 ei 2 m 2 e m2 ¿Se puede despejar X multiplicando por derecha? y XT (XXT)-1 = X XT (XXT)-1 p Observar que pasa con las dimensiones y con la inversión de la matriz (XXT) 5 CALIBRACIÓN DIRECTA: Cuadrados mínimos clásicos (OLS y CLS) Determinación a dos longitudes de onda: y1= s11x1+s21x2 y2= s12x1+s22x2 5 4 y (2x1) = S (2x2) x (2x1) Calibración: obtención de S por medición de patrones puros Predicción: x = S-1 y r 3 r1 2 s 1 r2 1 s 2 0 ¿Se puede hacer si S es singular? 200 250 l1 300 l2 Evolución de los métodos multivariados CLS ILS PCR 1er. Orden PLS Orden > 1 Multi-vía Clasificación de los métodos multivariados y=kx Métodos directos y = señal x = concentración Métodos inversos y = concentración x = señal Métodos multivariados de primer orden Regresión por cuadrados mínimos clásicos (CLS) Regresión por cuadrados mínimos inversos (ILS) Regresión por componentes principales (PCR) Regresión por cuadrados mínimos parciales (PLS) Métodos basados en señal neta (NAS) Determinación a varias longitudes de onda: y1= s11x1+s21x2 Esquemáticamente: y2= s12x1+s22x2 b1 ………………. yJ= s1Jx1+s2Jx2 b2 x1 y (Jx1) = S (Jx2) x (2x1) x = (STS)-1 ST y x = S+ y x2 OLS o CLS ¡Igual ecuación que la de transparencia 6!: x = S-1 y y Predición x = S+ y La calibración requiere conocer S+ Para hacerlo se miden patrones puros por triplicado y se registran los espectros. Luego se dividen esos espectros por la concentración y se obtienen los vectores “sensibilidad” para cada analito 11 Un ajuste (LS) para obtener s S (Jx1) E (Jx15) = cT (contiene las 15 concentraciones) (15x1) Contiene los 15 espectros de calibraciòn E c(cTc)-1 = s 12 Residuos espectrales: una manera de evaluar la calidad del ajuste y (Jx1) = S (Jx2) x (2x1) + e (Jx1) e=y–Sx 13 Residuos espectrales: una manera de evaluar la calidad del ajuste 14 Residuos espectrales: una manera de evaluar la calidad del ajuste Cálculo de la desviación estándar del ajuste: J s fit, pred 1 ei 2 J K e J K 15 Alternativa: se puede calibrar con mezclas de los analitos Diseños empleados para hacer calibraciones y validaciones: Factorial Completo Central Compuesto “L” Niveles Factorial Parcial (R.Brereton, Introduction to multivariate calibration in analytical chemistry, Analyst, 2000, 125, 2125–2154) 16 Diseños empleados para mezclas de calibración Factorial Completo N = ln (l: niveles de concentración, n: número de compuestos) Componente 2 N= 32 = 9 mezclas Componente 1 17 Diseños empleados para mezclas de calibración Central Compuesto N = 2n + 2 n + c (c: puntos centrales, n: número de compuestos) Componente 2 N= 22 + 2.2 + 1 = 9 mezclas Componente 1 18 Comparación del número de experimentos N NCC NFF (l=3) NFF (l=5) NFactorial Parcial 2 3 4 5 6 7 8 9 15 25 43 77 143 273 9 27 81 243 729 2187 6561 25 125 625 3125 15625 78125 390625 25 19 Diseños empleados para mezclas de calibración: Factorial Parcial Factorial Parcial: N = m. l p (m: por lo menos = 1, p: por lo menos = 2, l: número de niveles de concentraciones = 3, 4, 5, 7, 8 o 9) Para m y p mínimos y cinco niveles de concentración (l = 5), se tienen N = 25 mezclas de calibración 20 Diseño Factorial Parcial Generación de un diseño para cinco niveles: 1. Definir los cinco niveles: -2, -1, 0, 1, 2 2. Experimento Nº 1: igual concentración para todos los componentes (Por ejemplo nivel central: 0) 3. Elegir un nivel “REPETIDOR”. Poner este nivel en el experimento Nº 2 y repetirlo después de un bloque de cinco experimentos (Por ejemplo nivel central: 0) 4. Elegir un “PEREMUTADOR CÍCLICO” para llenar -2 los bloques: -1 1 2 21 Diseño Factorial Parcial 6. Elegir un “VECTOR DIFERENCIA” con l-1 números (cuatro) desde 0 a l-2 (3 en este caso) Ejemplo: [0 2 3 1] Se continúa llenando la primera columna de la siguiente manera: Experimentos 2, 8, 14 y 20 tienen el nivel repetidor. Esto genera cuatro bloques de cinco experimentos cada uno. 22 Diseño Factorial Parcial: niveles Experimentos Componentes 1 2 ………. 8 1 0 0 0 0 2 0 3 -2 4 -2 5 2 6 -1 7 2 8 0 Bloque 2 (9-13) 14 0 Bloque 3 (15-19) 20 0 Bloque 4 (21-24) Bloque 4 (25) 23 Factorial Parcial: Determinación de los niveles del primer bloque •Empezar con un número al azar distinto del repetidor (Por ejemplo -2). (Experimento Nº 3 = -2) •Luego usar el vector diferencia y el permutador cíclico: [0 2 3 1] Nº 4: cero diferencia cíclica: -2 Nº 5: 2 diferencias cíclicas: 2 Nº 6: 3 diferencias cíclicas: -1 Nº 7: 1 diferencia cíclica: 2 -2 -1 1 2 24 Factorial Parcial: Determinación de los niveles de los siguientes bloques Correr una diferencia cíclica los números del bloque anterior. Bloque 1 Bloque 2 Bloque 3 Bloque 4 -2 -1 2 1 -2 -1 2 1 2 1 -2 -1 -1 2 1 -2 2 1 -2 -1 25 Factorial Parcial: llenado de las columnas restantes Experimentos Componentes 1 2 ………. 8 1 0 0 0 0 2 0 -2 -2 3 -2 -2 4 -2 2 5 2 -1 6 -1 7 2 8 0 Bloque 2 (9-13) -1 -1 1 2 1 14 0 Bloque 3 (15-19) 2 2 -2 1 -2 20 0 Bloque 4 (21-24) 1 1 -1 -2 Bloque 4 (25) -1 0 -2 26 Factorial Parcial: características y propiedades •Cada columna tiene un número igual de concentraciones -2, -1, 0, 1 y 2 •Cada columna es ortogonal a las otras (R = 0) •La gráfica que muestra la combinación de dos variables resulta un factorial completo a 5 niveles, menos para 1 vs 7 y 2 vs 8: 27 Cuadrados mínimos clásicos (CLS) Señales instrumentales de calibrado agrupadas en una matrix Y Y= 3.2580460e-001 3.6668640e-001 3.5775820e-001 4.2931660e-001 3.7886230e-001 3.8803070e-001 4.0566710e-001 3.8350240e-001 3.7498010e-001 3.7283710e-001 3.8794860e-001 3.8980980e-001 3.8525520e-001 3.5205260e-001 3.7320180e-001 4.1007450e-001 3.6088220e-001 4.3372610e-001 3.5380140e-001 3.9619650e-001 3.9339270e-001 3.6345070e-001 3.9513000e-001 3.4057620e-001 3.7861410e-001 3.5714450e-001 3.8204570e-001 3.8019260e-001 4.0171170e-001 3.3405320e-001 3.4430230e-001 4.0389410e-001 3.1029540e-001 3.3831790e-001 3.3620700e-001 4.0284130e-001 3.7182530e-001 3.9507170e-001 3.9849160e-001 3.0704320e-001 3.4950730e-001 3.4057750e-001 3.5081580e-001 3.7995720e-001 3.9914420e-001 3.2699330e-001 3.7307760e-001 3.5503230e-001 3.9601930e-001 3.8725580e-001 3.4159690e-001 3.2725220e-001 3.7291190e-001 3.8156950e-001 4.6742530e-001 3.9047530e-001 3.3484890e-001 4.0453980e-001 3.4014190e-001 4.0403330e-001 3.8463350e-001 4.1495350e-001 3.9630000e-001 4.0468170e-001 3.9202770e-001 3.9290510e-001 3.7713990e-001 4.3481590e-001 3.8439390e-001 3.6084180e-001 … … … … … … … … … … Estructura de la matriz de señales de calibrado Y Y= 3.2580460e-001 3.6668640e-001 3.5775820e-001 4.2931660e-001 3.7886230e-001 3.8803070e-001 4.0566710e-001 3.8350240e-001 3.7498010e-001 3.7283710e-001 3.8794860e-001 3.8980980e-001 3.8525520e-001 3.5205260e-001 3.7320180e-001 4.1007450e-001 3.6088220e-001 4.3372610e-001 3.5380140e-001 3.9619650e-001 3.9339270e-001 3.6345070e-001 3.9513000e-001 3.4057620e-001 3.7861410e-001 3.5714450e-001 3.8204570e-001 3.8019260e-001 4.0171170e-001 3.3405320e-001 3.4430230e-001 4.0389410e-001 3.1029540e-001 3.3831790e-001 3.3620700e-001 4.0284130e-001 3.7182530e-001 3.9507170e-001 3.9849160e-001 3.0704320e-001 Y11 Y12 ... Y1J Y Y ... Y 2J Y 21 22 ... ... Yij ... Y Y ... Y IJ I1 I 2 3.4950730e-001 3.4057750e-001 3.5081580e-001 3.7995720e-001 3.9914420e-001 3.2699330e-001 3.7307760e-001 3.5503230e-001 3.9601930e-001 3.8725580e-001 3.4159690e-001 3.2725220e-001 3.7291190e-001 3.8156950e-001 4.6742530e-001 3.9047530e-001 3.3484890e-001 4.0453980e-001 3.4014190e-001 4.0403330e-001 3.8463350e-001 4.1495350e-001 3.9630000e-001 4.0468170e-001 3.9202770e-001 3.9290510e-001 3.7713990e-001 4.3481590e-001 3.8439390e-001 3.6084180e-001 … … … … … … … … … … Yij = Señal en muestra i a long. de onda j Concentraciones de todos los componentes, agrupadas en la matriz X Muestra Componente 1 Componente 2 Componente 3 1 10.5 0.02 … 2 7.8 0.15 … … 4.9 0.58 … X11 X12 X 21 X 22 X ... ... X I1 X I 2 ... X1N ... X 2 N ... ... ... X IN Xin = Conc. en muestra i de componente n Método directo de cuadrados mínimos clásicos (CLS) Etapa de calibración: análogo de la ley de Beer Y Señales = = X ST + E Concentraciones Sensibilidades + Errores Recordar cuando vimos para dos longitudes de onda Cuadrados mínimos clásicos (CLS) Etapa de calibración • A partir de las señales y las concentraciones de todos los componentes, se estiman las sensibilidades de cada uno de ellos a cada longitud de onda. • Estas sensibilidades están contenidas en la matriz S. • Se logra minimizando los errores contenidos en E. Cuadrados mínimos clásicos (CLS) • Al estimar la matriz S se completa la etapa de calibrado, ya que esta matriz establece la relación entre señales instrumentales (Y) y concentraciones de los analitos (X) a través del modelo de la calibración directa: Y = X ST Cuadrados mínimos clásicos (CLS) Etapa de predicción Cuadrados mínimos clásicos (CLS) y1 y y 2 ... yJ y=Sx+e Se mide la señal de la muestra incógnita a todas las longitudes de onda Se vincula la señal medida con la concentración de los analitos a través del modelo directo. Recordar que el modelo de calibración era: Y = X ST Cuadrados mínimos clásicos (CLS) Etapa de predicción A partir del espectro de la muestra incógnita (y) y las sensibilidades de la calibración, se averiguan las concentraciones de todos los componentes en la muestra (x): x = S+ y donde S+ se conoce como la matriz inversa generalizada de S Cada fila representa el vector de regresión del analito de interés x = S+ y xn x = Fila n de S+ S+ y xn = (Fila n de S+) y Cuadrados mínimos clásicos (CLS) Revisión de la etapa de predicción • La fila n de la matriz S+ genera la concentración del analito específico n, multiplicando al espectro de la muestra incógnita. • Esta fila se conoce como vector de coeficientes de regresión para el componente n, y se simboliza como bn Cuadrados mínimos clásicos (CLS) Revisión de la etapa de predicción xn = (Fila n de S+) y = (bn)T y Equivale a: xn = bn1 y1 + bn2 y2 + … + bnJ yJ Coeficientes de regresión Vector bn 0 Long. de onda xn = bn1 y1 + bn2 y2 + … + bnJ yJ Cuadrados mínimos clásicos (CLS) Residuos espectrales de ajuste de una muestra: e=ySx J Diagnóstico de outliers sres = (e j )2 j 1 J N Residuos espectrales y detección de componentes inesperados ej ej Long. de onda Long. de onda Ausencia de componentes inesperados Presencia de componentes inesperados sres ≈ Ruido sres >> Ruido Residuos espectrales y detección de componentes inesperados Se conoce como la “ventaja de primer orden” Componentes de muestras Componentes esperados Componentes inesperados Muestra Analito calibrado Otros componentes calibrados Otros componentes no calibrados Calibración Sí Sí Sí No Validación Quizás Quizás Quizás No Desconocida Quizás Quizás Quizás Quizás Se puede inferir a partir de sres • La principal desventaja del modelo CLS es que para su calibración se requiere conocer las concentraciones de todos los componentes de las muestras de calibrado. • En general, esto es imposible para muestras complejas de origen natural, alimentario, biológico, etc., por lo que la aplicabilidad del modelo CLS es sumamente limitada. Parte 2: Calibración Inversa CALIBRACIÓN INVERSA Cuadrados Mínimos Inversos ILS Regresión en Componentes Principales PCR Regresión en Cuadrados Mínimos Parciales PLS 47 CALIBRACIÓN INVERSA Directa: Y = S XT (Ley de Beer) Inversa: xk = yT bk (Inversa ley de Beer) Cuadrados mínimos inversos (ILS): X = YT B B = (YYT )-1 Y X (JxK) (JxJ) (JxI) (IxK) Si solo se conoce la concentración del analito “k” en las mezclas de calibración… Desacople de componentes: bk = (YYT )-1Y xk 48 Cuadrados mínimos inversos Esquemáticamente: = B (JxK) x (YYT)-1Y (JxI) X (IxK) 49 Cuadrados mínimos inversos Ventaja: DESACOPLE DE COMPONENTES “Modelos blandos” Desventaja: PÉRDIDA DE INFORMACIÓN Como YYT es una matriz de JxJ, se requiere que J sea menor a I para que no se produzca una expansión y consecuentemente singularidad 50 Cuadrados mínimos inversos Esquemáticamente: = B(JxK) (J < I ) (YYT)-1Y (JxI) x X (IxK) 51 Cuadrados mínimos inversos Predicción: xk = bkT y Análisis Estadístico: Los errores son ajustados en concentración: ex = xk – YT bk 1) Se puede calcular una desviación estándar del ajuste 2) Se puede comparar con los errores en la preparación de la calibración con una prueba F T 3) No se tiene acceso a residuos ec ec espectrales sfit,cal k (I 1) 52 Análisis de biodiesel en mezclas con gasoil mediante espectros NIR e ILS con 30 muestras de calibración (5940-7368 cm-1) Raw calibration Raw unknowns 2 1.5 2 20 sensores 1.5 1 1 0.5 0.5 0 0 -0.5 20 40 60 80 100 120 -0.5 20 40 60 80 100 120 Predicted vs. actual Ideal Real Predicted 20 15 10 Slope = 1.0598 SD = 0.083838 Intcp = 0.51646 SD = 0.85237 5 5 10 15 Actual 20 Error relativo de predicción: 36 % Análisis de biodiesel en mezclas con gasoil mediante espectros NIR e ILS con 30 muestras de calibración Raw calibration Raw unknowns 2 2 20 sensores 1.5 1.5 1 1 0.5 0.5 0 0 -0.5 20 40 60 80 100 120 -0.5 20 40 60 80 100 120 Predicted vs. actual 20 Ideal Real Predicted 15 10 Slope = 0.99477 SD = 0.022375 Intcp = -0.2923 SD = 0.22748 5 5 10 15 Error relativo de predicción: 10 % 20 La selección de variables juega un rol muy importante!!! Sería muy interesante encontrar un modelo basado en cuadrados mínimos inversos, para calibrarlo sólo con concentraciones de un único analito, pero que permita emplear información de regiones espectrales completas y no unas pocas longitudes de onda Requeriría encontrar una técnica de compresión de la información contenida en la matriz de señales, para evitar los problemas derivados de la inversión matricial Regresión en componentes principales (PCR) El método PCR representa uno de los primeros intentos de reunir las principales ventajas de CLS/OLS e ILS. Consiste en realizar una calibración inversa, pero con la ventaja de utilizar, en lugar de la matriz con las respuestas instrumentales, una matriz de puntuaciones o scores. Estos scores se obtienen al extraer los autovectores de la matriz cuadrada YYT. 57 Descomposición en valores singulares (SVD) SVD de una matriz de datos = M x = U x S VT U y V son matrices ortogonales, y S es una matriz diagonal que contiene los valores singulares. 58 Análisis de componentes principales Scores significativos Matriz de datos de calibración Scores poco significativos Matriz de scores Análisis de componentes principales Información comprimida 2 100 1000 × 100 98 100 Análisis de componentes principales Pearson, K, Principal Components Analysis, The London, Edinburgh and Dublin Philosophical Magazine and Journal, 6, 566, (1901). Descomposición matricial mediante PCA Y Matriz de calibración U T Matriz de autovectores de Matriz de scores YYT Variables latentes Variables explícitas Y=UT Clasificación de autovectores en PCA Significativo Poco significativo Clasificación de autovectores en PCA U Matriz de autovectores de YTY Significativos Poco significativos Descomposición matricial mediante PCA Se seleccionan únicamente los autovectores y scores significativos Descomposición de la matriz con unos pocos autovectores YA Matriz de calibración reconstruida con A factores UA TA Matriz de los A scores más significativos Matriz de los A autovectores más significativos YA = UA TA Ejemplo de reconstrucción matricial Imagen original: Imágenes reconstruidas A=1 A=8 A=2 A=4 A=16 A=32 • La matriz TA es considerablemente menor en tamaño que la matriz original de datos Y, ya que en general el número de factores es muy inferior al de longitudes de onda. • Sin embargo, la matriz TA contiene virtualmente la misma información que Y. • Por lo tanto, podría reemplazarse Y por TA en la calibración de un modelo sin pérdida significativa de información. Regresión en componentes principales (PCR) 1) Compresión de las señales mediante análisis de componentes principales y cálculo de scores significativos. 2) Calibración inversa (del tipo ILS), reemplazando las señales por los scores. PCR = PCA + ILS Regresión en componentes principales (PCR) 1) Compresión de la información de calibración PCA: Calcular los scores T A Scores: Seleccionar TA (formada por las primeras A columnas de T) 2) Modelo ILS que relaciona los scores de calibrado con las concentraciones del analito xn = TA vn + e Regresión en componentes principales (PCR) Etapa de calibración Método Señal Modelo Coeficientes de regresión ILS Y xn = Y b n + e bn PCR TA xn = TA vn + e vn Ventaja adicional de la regresión en componentes principales • El cálculo de los coeficientes de regresión requiere la inversión de una matriz. • En ILS la inversión se complica si los espectros de las diferentes muestras son similares entre sí. • En PCR no existe este problema, porque los “espectros” son reemplazados por los scores. Los scores son ortogonales entre sí, de modo que la inversión de la matriz es siempre posible. Regresión en componentes principales (PCR) Método Señal Tamaño ILS Y IJ Matriz a invertir (Y YT) PCR TA IA (TA TAT) Requerimiento para la inversión J<I A<I En PCR se cumple fácilmente que el número de factores es menor que el número de mezclas de calibrado. En PCR la matriz de scores se invierte fácilmente. Regresión en componentes principales (PCR) Etapa de predicción Los coeficientes de regresión de la etapa de calibrado se emplean para la predicción de la concentración del analito en la muestra, reemplazando la señal de la muestra por sus scores. Regresión en componentes principales (PCR) Etapa de predicción Método Ecuación de predicción ILS Señales de calibrado Y PCR TA xn = (tA)T vn xn = yT bn Scores de la muestra Regresión en componentes principales (PCR) Revisión de la etapa de predicción El espectro de la muestra puede reconstruirse con los scores de la muestra y los autovectores, para dar una aproximación yA. Errores de ajuste para diagnóstico de outliers: eA = yA y Residuos espectrales y detección de componentes inesperados ej ej Long. de onda Long. de onda Ausencia de componentes inesperados Presencia de componentes inesperados sres ≈ Ruido sres >> Ruido Regresión en componentes principales (PCR) Revisión de la etapa de predicción También puede reconstruirse el vector de coeficientes de regresión bn, a partir de del vector vn calculado en la etapa de calibrado de PCR Coeficientes de regresión Vector bn Long. de onda xn = bn1 y1 + bn2 y2 + … + bnJ yJ Regresión en componentes principales (PCR) Ventajas: • Espectros completos. • Calibración inversa (sólo deben conocerse algunos componentes calibrados). • Residuos espectrales (ventaja de primer orden). • Poco sensible a la colinealidad espectral por el uso de scores ortogonales. • Factores que expresan la máxima variancia espectral. Análisis de biodiesel en mezclas con gasoil mediante espectros NIR y PCR en la región completa de 120 sensores (5940-7368 cm-1) Raw calibration Raw unknowns 2 2 1.5 1.5 120 sensores 1 1 0.5 0.5 0 0 -0.5 20 40 60 80 100 120 -0.5 20 40 60 80 100 120 Predicted vs. actual Predicted 20 Ideal Real 15 10 Slope = 0.99395 SD = 0.013326 Intcp = -0.083437 SD = 0.13548 5 5 10 15 Actual 20 Error relativo de predicción (A = 9): 5.5 % selección del número óptimo “A” Number of factors: 1 Sample Cact Cpred 1 2.50E+00 3.39E+00 2 2.50E+00 5.62E+00 3 2.50E+00 1.66E+00 4 2.50E+00 6.04E+00 5 9.50E+00 6.14E+00 6 9.50E+00 1.01E+01 7 9.50E+00 6.05E+00 8 9.50E+00 9.15E+00 9 0.00E+00 2.88E+00 10 1.20E+01 9.16E+00 11 6.00E+00 5.63E+00 12 6.00E+00 6.05E+00 13 6.00E+00 2.36E+00 14 6.00E+00 9.97E+00 15 6.00E+00 5.88E+00 PRESS = 9.30E+01 SEP = 2.58E+00 REP(%) = 41.50% R2 = 0.45302 % Rec. 135.70% 224.83% 66.27% 241.59% 64.68% 106.15% 63.64% 96.28% -76.32% 93.88% 100.85% 39.33% 166.25% 98.06% Number of factors: 2 Sample Cact Cpred 1 2.50E+00 2.68E+00 2 2.50E+00 3.50E+00 3 2.50E+00 2.46E+00 4 2.50E+00 2.22E+00 5 9.50E+00 9.42E+00 6 9.50E+00 9.77E+00 7 9.50E+00 9.55E+00 8 9.50E+00 8.97E+00 9 0.00E+00 2.58E-01 10 1.20E+01 1.23E+01 11 6.00E+00 6.91E+00 12 6.00E+00 5.86E+00 13 6.00E+00 4.48E+00 14 6.00E+00 5.07E+00 15 6.00E+00 6.21E+00 PRESS = 5.67E+00 SEP = 6.36E-01 REP(%) = 10.25% R2 = 0.966651 % Rec. 107.18% 139.96% 98.44% 88.65% 99.12% 102.86% 100.51% 94.41% -102.09% 115.15% 97.74% 74.70% 84.46% 103.47% 82 Estadísticos Suma de cuadrados de los errores de predicción: PRESS (cnomin al cpredicha)2 Raíz de la suma promedio de cuadrados de los errores de validación cruzada (también SEP): 2 ( c c ) RMSECV nomin al predicha I Error relativo de predicción en la validación cruzada: REP% 100 c nomin al 2 ( c c ) nomin al predicha I Coeficiente de correlación al cuadrado: 2 ( c c ) no min al predicha 2 r 1 2 ( c c ) no min al nomin al 83 Métodos basados en factores: selección del número óptimo “A” Number of factors: 3 Sample Cact Cpred 1 2.50E+00 2.54E+00 2 2.50E+00 2.59E+00 3 2.50E+00 2.34E+00 4 2.50E+00 2.64E+00 5 9.50E+00 9.79E+00 6 9.50E+00 9.59E+00 7 9.50E+00 9.58E+00 8 9.50E+00 8.56E+00 9 0.00E+00 2.34E-01 10 1.20E+01 1.24E+01 11 6.00E+00 6.16E+00 12 6.00E+00 6.15E+00 13 6.00E+00 5.30E+00 14 6.00E+00 6.00E+00 15 6.00E+00 6.06E+00 PRESS = 1.78E+00 SEP = 3.57E-01 REP(%) = 5.75% R2 = 0.989514 % Rec. 101.53% 103.78% 93.50% 105.43% 103.07% 100.97% 100.85% 90.14% -103.23% 102.64% 102.55% 88.30% 99.98% 100.94% Number of factors: 4 Sample Cact Cpred 1 2.50E+00 2.37E+00 2 2.50E+00 2.44E+00 3 2.50E+00 2.21E+00 4 2.50E+00 2.77E+00 5 9.50E+00 9.61E+00 6 9.50E+00 9.70E+00 7 9.50E+00 9.55E+00 8 9.50E+00 8.55E+00 9 0.00E+00 2.87E-01 10 1.20E+01 1.24E+01 11 6.00E+00 6.05E+00 12 6.00E+00 6.23E+00 13 6.00E+00 5.34E+00 14 6.00E+00 6.08E+00 15 6.00E+00 6.02E+00 PRESS = 1.88E+00 SEP = 3.66E-01 REP(%) = 5.90% R2 = 0.988959 % Rec. 94.72% 97.73% 88.35% 110.83% 101.18% 102.06% 100.54% 90.03% -103.36% 100.91% 103.88% 88.96% 101.40% 100.27% 84 Métodos basados en factores: selección del número óptimo “A” Mínimo PRESS 100 % Rec. 105.16% 96.20% 98.48% 104.14% 100.31% 102.48% 102.33% 90.92% -100.62% 102.08% 103.43% 89.42% 100.65% 100.58% 80 60 PRESS Number of factors: 5 Sample Cact Cpred 1 2.50E+00 2.63E+00 2 2.50E+00 2.40E+00 3 2.50E+00 2.46E+00 4 2.50E+00 2.60E+00 5 9.50E+00 9.53E+00 6 9.50E+00 9.74E+00 7 9.50E+00 9.72E+00 8 9.50E+00 8.64E+00 9 0.00E+00 4.23E-02 10 1.20E+01 1.21E+01 11 6.00E+00 6.12E+00 12 6.00E+00 6.21E+00 13 6.00E+00 5.36E+00 14 6.00E+00 6.04E+00 15 6.00E+00 6.03E+00 PRESS = 1.36E+00 SEP = 3.12E-01 REP(%) = 5.02% R2 = 0.992006 40 20 0 1 2 3 4 5 6 7 Factores Factors 1 2 3 4 5 6 PRESS 93.0 56.7 17.8 18.8 13.6 14.5 7 16.7 F 68.423 4.172 1.312 1.381 1. -- -- p 1.000 0.995 0.697 0.731 0.500 85 ¿Qué puede ser mejor que la regresión en componentes principales? Regresión en cuadrados mínimos parciales (PLS) Desarrollado por Herman Wold (Univ. de Uppsala, Suecia) Wold, H. (1966). Estimation of principal components and related models by iterative least squares, en Multivariate Analysis, P.R. Krishnaiah, ed. Academic Press, New York, 391. Regresión en cuadrados mínimos parciales (PLS) Popularizado en química por Svante Wold (Univ. de Umea, Suecia). Loadings • En PCR son autovectores de la matriz YYT. Explican la máxima variancia en Y. • En PLS no son autovectores de YYT. Explican la máxima covariancia entre Y y x (vector de concentraciones o propiedades). Regresión en cuadrados mínimos parciales (PLS) 1) Compresión de las señales mediante proyección en el espacio de los loadings y cálculo de scores. 2) Calibración inversa (tipo ILS), reemplazando las señales por los scores. Regresión por cuadrados mínimos parciales (PLS) w1 t1 v1 Y y ck eR y ec p1 - Se repite hasta obtener A óptimo - Se repite para cada componente modelandolo por separado (PLS1) Regresión en cuadrados mínimos parciales (PLS) Compresión de la información para obtener los primeros A scores de PLS (TA), que reemplazan a la señal en una calibración inversa. Regresión en cuadrados mínimos parciales (PLS) Método Señal Tamaño ILS Y IJ Matriz a invertir (YT Y) PLS TA IA (TAT TA) Requerimiento para la inversión J<I A<I En PLS se cumple fácilmente que el número de factores es menor que el número de mezclas de calibrado. En PLS la matriz de scores se invierte fácilmente. Etapa de calibración en PLS Método Señal Modelo Coeficientes de regresión ILS Y xn = Y bn + e bn PCR TA xn = TA vn + e vn (de PCR) PLS TA xn = TA vn + e vn (de PLS) Aunque los símbolos coinciden, los scores y los coeficientes de regresión de PCR se calculan de un modo diferente a los de PLS. Regresión en cuadrados mínimos parciales (PLS) Etapa de predicción Los scores de PLS de la muestra (tA) reemplazan a la señal de la muestra (y). Etapa de predicción en PLS Método Señal Ecuación de predicción ILS Y xn = yT bn PCR TA xn = (tA)T vn PLS TA xn = (tA)T vn Resumen Propiedad CLS Número de analitos Conc. de comp. de calibrado Uso de factores Colinealidad Ventaja de 1er. orden Método ILS PCR PLS Varios Todas conocidas No Sensibilidad y precisión Sí No Alguna(s) conocida(s) Sí, PCA Sí, factores dependientes de concentración Menor efecto gracias al uso de factores Sí Regresión en cuadrados mínimos parciales (PLS) Ventajas: • Espectros completos • Calibración inversa (sólo deben conocerse algunos componentes calibrados). • Residuos espectrales (ventaja de primer orden). • Menos sensible a la colinealidad por el uso de factores latentes. • Factores que expresan la máxima correlación entre espectros y concentración del analito. Calibración inversa: resumen ILS: bk = (YYT )-1Y xk = Y+ xk PCR: xk, un= tT vk = rT U UT Y xk bk = UT+ xk PLS: bk = W (PT W)–1 T+ xk + Y 99 Cifras de mérito ver Anexo 2 100 Parte 3: Práctica 1- Comparación de resultados obtenidos por orden cero y primer orden 102 Datos y programas Se utilizarán los siguientes datos: 1) Orden cero: el archivo “datos_cal.txt” conteniendo las concentraciones del analito de interés y las señales medidas al máximo de emisión por triplicado. Estos datos se procesarán con la rutina de Matlab “cal_univar.mat” 2) Orden uno: se proveen a) espectros de emisión (de 100 sensores) de dos analitos para 5 niveles de concentración y por triplicado Los nombres y concentraciones son los siguientes: Y1.txt: contiene15 espectros de concentraciones crecientes (por triplicado) 1, 2, 3, 4, 5. Y2.txt : contiene 15 espectros de concentraciones crecientes (por triplicado) 3, 6, 9, 12, 15 mi.txt (espectro de una muestra que contiene 2.5 de analito 1) mi_1.txt (espectro de una muestra que contiene 2.5 de analito 1 más 5.5 del analito 2) De estos dos últimos se usaron sus señales en máximo para predecir b) espectros de emisión de mezclas de los dos analitos para 3 niveles de concentración. Mezclas de calibración Los nombres y concentraciones son Ycal.txt , xcal_1.txt e xcal_2.txt (X.txt contiene las concentraciones de los dos analitos) c) espectros de emisión de mezclas de los dos analitos para varios niveles de concentración diferentes de los anteriores. Mezclas de validación Los nombres y concentraciones son Yval.txt , xval_1.txt y xval_2.txt d) espectros de emisión de mezclas de los dos analitos para varios niveles de concentración a xval_1 y x val_2, pero con el agregado de un componente inesperado (componente 3). Mezclas de validación componente inesperado Yvali.txt Sistema de tres analitos. Espectros de emisión y excitación Interferencia no modelada Analito Interferencia modelada Calibración Univariada Se usan los máximos en los espectros de emisión para el analito # 1 (en azul en la figura anterior) Aplicación de rutina: cal_univar.mat datos_cal.txt Matlab: >> cal_univar.mat Calibracion univariada mediante regresion lineal "Etapa 1" Prueba de homocedasticidad Archivo de datos: 'datos_cal.txt' "Etapa 2" Prueba de calibración * Pendiente: 2.3451 +/- 0.0070064 SD: 0.0032416 * Ordenada: 0.00021602 +/- 0.32353 SD: 0.14969 * Desvio estandar de los residuos s(y/x): 0.13004 * Numero de niveles de concentracion: 5 * Numero de replicas para cada nivel: 3 * Numero total de datos: 15 * "Test de linealidad" Fexp: 0.96804 Fteorico: 6.5444 p: 0.532 Los datos CUMPLEN el test * "Cifras de merito” Sensibilidad: 2.3451 Sensibilidad analitica: 18.0336 1/gamma: 0.055452 LOD (n=3): 0.12505 LOQ (n=3): 0.35315 "Etapa 3“ Predicción Tiene datos para Predicción SI, 1, NO, 2: 1 Datos numéricos o en archivo? Numérico, 1, Archivo, 2: 2 Archivo von valor de Y: 'datos_muestras.txt' * Xinc IC SD 2.4561 0.0758 0.0351 3.6501 0.0758 0.0351 Predicción de 2 muestras que contienen 2.5, pero una de ellas tiene 5.5 del analito # 2 (espectro verde) Predicciones: 2.45 (98%) 3.65 (146%) Calibración Multivariada de orden 1 CLS Calibración a partir de espectros puros: E= Y1 c = xcal_1 %ls_s: Rutina para obtener "s" a partir de espectros puros load load load load Y1.txt Y2.txt x1.txt x2.txt s1=Y1*x1*inv(x1'*x1); s2=Y2*x2*inv(x2'*x2); l=1:100; save s1.txt s1 -ascii save s2.txt s2 -ascii figure (1), subplot (2,1,1), plot(l,Y1,'b',l,s1,'r') subplot (2,1,2), plot(l,Y2,'b',l,s2,'r') Predicción: Uso de rutina “cls_puros”: Analito 1 Analito 2 CLS Calibración a partir de mezclas: uso de las rutinas ‘cls_cal y cls_pred’ % ************************************************************** % RUTINA 'cls_cal.m' para calibracion mediante el modelo CLS % ************************************************************** % % *************************************************** % COMO EJECUTAR LA RUTINA 'cls_cal.m' % *************************************************** % 1) Guardar los datos en archivos ASCII: % Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado)y J filas (J es el numero de longitudes de onda), o sea, una columna para cada espectro. % Los datos de concentracion se guardan en un archivo con N columnas (N es el numero de analitos calibrados)e I filas, o sea, una columna para cada analito. % 2) Ejecutar 'cls_cal.m'. % 3) Introducir el nombre de los archivos ASCII entre comillas simples. Ejemplo: 'resp_cal.txt' % 4) La rutina crea el archivo ASCII 'S_.txt' con las sensibilidades (N columnas y J filas) y el archivo % ASCII 'B_.txt' con los coeficientes de regresion (N columnas y J filas) % Calcula la matriz S X=Xcal;Y=Ycal; S=Y*X*inv(X'*X); % Calcula los coeficientes de regresion para cada componente pS=inv(S'*S)*S'; B=[]; for i=1:Ncal B=[B;pS(i,:)]; end B=B'; Archivo con la matriz de espectros de calibrado: 'Ycal.txt' Archivo con la matriz de concentraciones de calibrado: 'X.txt' Sensibilidades Analito 1: 5.8894 Analito 2: 2.106 Se guardo la matriz S en el archivo S_.txt Se guardo la matriz de coeficientes de regresion en el archivo B_.txt Sensibilidades Sensibilidad 3 Comp. 1 Comp. 2 2 1 0 -1 10 20 30 40 50 60 70 80 90 100 Respuesta Coeficientes de regresion Comp. 1 Comp. 2 0.1 0.05 0 -0.05 -0.1 10 20 30 40 50 Sensor 60 70 80 90 100 CLS Predicción con ‘cls_pred’ % ************************************************************** % RUTINA 'cls_pred.m' para prediccion mediante el modelo CLS % ************************************************************** % % *************************************** % COMO EJECUTAR LA RUTINA 'cls_pred.m' % *************************************** % 1) Usar esta rutina después de haber ejecutado 'cls_cal.m' con los datos de calibrado. % 1) Guardar en un archivo ASCII los datos de predicción. % Los datos de señal se guardan en un archivo con tantas columnas como muestras incognita, y J filas (J es el numero de longitudes de onda), o sea, una columna para cada muestra. % 2) Correr la rutina 'cls_pred.m' % 3) Introducir el nombre del archivo de datos entre comillas simples. Ejemplo: 'resp_test.txt' % Calcula concentraciones en muestras incógnita for i=1:Itest disp(' ') disp(['Muestra ',int2str(i)]) for j=1:Ncal xun(j)=B(:,j)'*Ytest(:,i); disp(['Analito ',num2str(j),': ',num2str(xun(j))]) end % Calcula residuo res=Ytest(:,i)-S*xun'; disp(['Residuo espectral: ',num2str(norm(res)/sqrt(JNcal))]) end Muestras Yval (sin componente inesperado) Analisis CLS de mezclas binarias Archivo con la matriz de espectros incognita: 'Yval.txt‘ Muestra 1 Analito 1: 1.4796 Analito 2: 4.4867 Residuo espectral: 0.10058 Muestra 2 Analito 1: 1.4987 Analito 2: 6.0116 Residuo espectral: 0.10965 Muestra 3 Analito 1: 1.4889 Analito 2: 12.0048 Residuo espectral: 0.10659 Muestra 4 Analito 1: 1.5076 Analito 2: 13.4349 Residuo espectral: 0.1127 Muestra 5 Analito 1: 1.9503 Analito 2: 6.0902 Residuo espectral: 0.10554 Muestra 6 Analito 1: 1.98 Analito 2: 12.0183 Residuo espectral: 0.10199 Muestra 7 Analito 1: 2.5156 Analito 2: 4.4579 Residuo espectral: 0.11844 Muestra 8 Analito 1: 2.4836 Analito 2: 6.0227 Residuo espectral: 0.11672 Muestra 9 Analito 1: 2.4946 Analito 2: 11.9804 Residuo espectral: 0.099817 Muestra 10 Analito 1: 2.4938 Analito 2: 13.5083 Residuo espectral: 0.10571 Muestras Yvali (con componente inesperado) Muestra 1 Analito 1: 0.45591 Analito 2: 11.9408 Residuo espectral: 1.2488 Muestra 2 Analito 1: 0.47892 Analito 2: 13.3953 Residuo espectral: 1.2499 Muestra 3 Analito 1: 0.46568 Analito 2: 19.4096 Residuo espectral: 1.2421 Muestra 4 Analito 1: 0.45763 Analito 2: 21.0231 Residuo espectral: 1.2687 Muestra 5 Analito 1: 0.94454 Analito 2: 13.4799 Residuo espectral: 1.2593 Muestra 6 Analito 1: 0.98522 Analito 2: 19.4636 Residuo espectral: 1.2675 Muestra 7 Analito 1: 1.5082 Analito 2: 11.876 Residuo espectral: 1.255 Muestra 8 Analito 1: 1.4505 Analito 2: 13.4479 Residuo espectral: 1.2467 Muestra 9 Analito 1: 1.4415 Analito 2: 19.503 Residuo espectral: 1.2359 Muestra 10 Analito 1: 1.4541 Analito 2: 21.0368 Residuo espectral: 1.2535 Resumen analito 1 Muestra Nominal Pred. Muestras sin int. no modelada Residuos Pred. Muestras con int. no modelada Residuos 1 1.5 1.48 0.10 ± 0.02 0.46 1.20 ± 0.05 2 1.5 1.50 ‘’ 0.48 ‘’ 3 1.5 1.49 ‘’ 0.46 ‘’ 4 1.5 1.51 ‘’ 0.46 ‘’ 5 2 1.95 ‘’ 0.94 ‘’ 6 2 1.98 ‘’ 0.99 ‘’ 7 2.5 2.52 ‘’ 1.51 ‘’ 8 2.5 2.48 ‘’ 1.45 ‘’ 9 2.5 2.49 ‘’ 1.44 ‘’ 10 2.5 2.49 ‘’ 1.45 ‘’ Programa MVC1 1- Instalar el programa: MCRInstaller 2- Abrir el programa: mvc1_32 3- Se abrirá un interfaz que permitirá cargar los archivos conteniendo espectros y concentraciones para ejecutar PLS Aplicación de MVC1 Cross-validation Concentraciones predichas en Yval para analito 1: Concentraciones predichas en Yval con inesperado: Concentraciones predichas en Yval para analito 2 en muestras sin interferencia no modelada Concentraciones predichas en Yval para analito 2 en muestras con interferencia no modelada Octano en gasolinas por NIR Datahelp.txt Determination of octane in gasolines from NIR data -------------------------------------------------------------------------------------File name Content -------------------------------------------------------------------------------------Samples selected at random roncal.txt Calibration ron values rontest.txt Test ron values Xcal.txt Calibration spectra in matrix form Xtest.txt Test spectra in matrix form Samples selected by Kennard-Stone algorithm roncal_ks.txt Calibration ron values rontest_ks.txt Test ron values Xcal_ks.txt Calibration spectra in matrix form Xtest_ks.txt Test spectra in matrix form --------------------------------------------------------------------------------------Working with random sample selection: Spectral regions: 220 450 Data type: Matrix Other: Use mean-centering and MSC. Check for CV outliers with 5 factors, discard samples 24 and 25, use 3 factors (CV) and get 0.2% of REP on new samples. -------------------------------------------------------------------------------------FOR MORE DETAILS PLEASE REFER TO: A new family of genetic algorithms for wavelength interval selection in multivariate analytical spectroscopy, Goicoechea, HC, Olivieri, AC, J. Chemometrics 17, 338-345 (2003). -------------------------------------------------------------------------------------- 220 - 450 Descartar #24 y #25 Observar mejora en parámetros de calibración Predicciones Selección de variables 250-290 330-390 No mejora predicción Determinación de bromhexina en jarabe para la tos Datos •12 espectros de calibración (según Table 1) contenidos en „Xcal.txt‟ (concentraciones en „ycal.txt‟). El número de longitudes de onda es igual a 64 (285-348 nm). •11 espectros de validación: „Xtest.txt‟ (concentraciones en „ytest.txt‟). Aplicación de MVC1 Cross-validation Concentraciones predichas en Ytest La muestra 3 es detectada como un outlier, pero en realidad corresponde a una muestra “blanco”. De todos modos se podría excluir de la calibración. Preprocesamiento • Mean centering is applied by default as preprocessing, although a variety of other techniques is available. To apply spectral derivation, simply click on 'Derivative' and select the derivative order, and the polynomial degree and number of points to apply the SavitzkyGolay method. One alternative is, for first derivative: