Document

Anuncio
Análisis de datos multivariados
para la calibración en química
analítica
Parte 2: Datos de primer orden
Héctor Goicoechea
hgoico@fbcb.unl.edu.ar
http://www.fbcb.unl.edu.ar/laboratorios/ladaq/
Parte 1: Calibración Directa
Ajuste por cuadrados mínimos
Una visión desde el punto de vista matricial para
la calibración univariada (ORDEN CERO)
y=a+bx
Para m patrones de calibrado:
m
Qxy 
b
 i 1
Qxx
( xi  x)( yi  y )
m
2
(
x

x
)
 i
a  y  bx
i 1
Sb 
sy / x
Qxx
m
2
Sa  sy / x
1 x

m Qxx
Sy / x 
2
(
y

y
)
ˆ
 i i
i 1
m2
Desviación estándar del ajuste
Ajuste por cuadrados mínimos para calibración
univariada
y = a + bx
y1 = 1.a + x1.b
y2 = 1.a + x2.b
a
b
…….
ym = 1.a + xm.b
y = X
p + e
J
(XTX)-1XT
X+
y =
(XTX)-1XT
Xp
y =p
ŷ = X p
… e=y-
ŷ
… sx/y = ||e||/(m-2)1/2
sy / x 
1 ei 2
m 2
e

m2
¿Se puede despejar X multiplicando por
derecha?
y XT (XXT)-1 = X XT (XXT)-1 p
Observar que pasa con las dimensiones y con la
inversión de la matriz (XXT)
5
CALIBRACIÓN DIRECTA: Cuadrados
mínimos clásicos (OLS y CLS)
Determinación a dos longitudes de onda:
y1= s11x1+s21x2
y2= s12x1+s22x2
5
4
y (2x1) = S (2x2) x (2x1)
Calibración: obtención de S
por medición de patrones puros
Predicción:
x = S-1 y
r
3
r1
2
s
1
r2
1
s
2
0
¿Se puede hacer si S es
singular?
200
250
l1
300
l2
Evolución de los métodos multivariados
CLS
ILS
PCR
1er. Orden
PLS
Orden > 1
Multi-vía
Clasificación de los métodos multivariados
y=kx
Métodos directos
y = señal
x = concentración
Métodos inversos
y = concentración
x = señal
Métodos multivariados de primer orden
 Regresión por cuadrados mínimos clásicos (CLS)
 Regresión por cuadrados mínimos inversos (ILS)
 Regresión por componentes principales (PCR)
 Regresión por cuadrados mínimos parciales (PLS)
 Métodos basados en señal neta (NAS)
Determinación a varias longitudes de onda:
y1= s11x1+s21x2
Esquemáticamente:
y2= s12x1+s22x2
b1
……………….
yJ= s1Jx1+s2Jx2
b2
x1
y (Jx1) = S (Jx2) x (2x1)
x = (STS)-1 ST y
x = S+ y
x2
OLS o CLS
¡Igual ecuación que la de transparencia 6!:
x = S-1 y
y
Predición
x = S+ y
La calibración requiere conocer S+
Para hacerlo se miden patrones puros por triplicado y
se registran los espectros.
Luego se dividen esos espectros por la concentración
y se obtienen los vectores “sensibilidad” para cada
analito
11
Un ajuste (LS) para obtener s
S
(Jx1)
E
(Jx15)
=
cT (contiene las 15
concentraciones)
(15x1)
Contiene los 15
espectros de
calibraciòn
E c(cTc)-1 = s
12
Residuos espectrales: una manera de evaluar la
calidad del ajuste
y (Jx1) = S (Jx2) x (2x1) + e (Jx1)
e=y–Sx
13
Residuos espectrales: una manera de evaluar la
calidad del ajuste
14
Residuos espectrales: una manera de evaluar la
calidad del ajuste
Cálculo de la desviación
estándar del ajuste:
J
s fit, pred 
1
ei 2
J K

e
J K
15
Alternativa: se puede calibrar con mezclas de
los analitos
Diseños empleados para hacer calibraciones y
validaciones:
 Factorial Completo
 Central Compuesto
 “L” Niveles Factorial Parcial (R.Brereton, Introduction
to multivariate calibration in analytical chemistry, Analyst, 2000, 125,
2125–2154)
16
Diseños empleados para mezclas de calibración
Factorial Completo
N = ln (l: niveles de concentración, n: número de
compuestos)

Componente
2
N= 32 = 9 mezclas
Componente 1
17
Diseños empleados para mezclas de calibración
Central Compuesto
N = 2n + 2 n + c (c: puntos centrales, n: número
de compuestos)

Componente
2
N= 22 + 2.2 + 1 = 9
mezclas
Componente 1
18
Comparación del número de experimentos
N
NCC
NFF (l=3)
NFF (l=5)
NFactorial
Parcial
2
3
4
5
6
7
8
9
15
25
43
77
143
273
9
27
81
243
729
2187
6561
25
125
625
3125
15625
78125
390625
25
19
Diseños empleados para mezclas de
calibración: Factorial Parcial

Factorial Parcial:
N = m. l p (m: por lo menos = 1, p: por lo
menos = 2, l: número de niveles de
concentraciones = 3, 4, 5, 7, 8 o 9)

Para m y p mínimos y cinco niveles de
concentración (l = 5), se tienen N = 25
mezclas de calibración
20
Diseño Factorial Parcial
Generación de un diseño para cinco niveles:
1. Definir los cinco niveles: -2, -1, 0, 1, 2
2. Experimento Nº 1: igual concentración para todos
los componentes (Por ejemplo nivel central: 0)
3. Elegir un nivel “REPETIDOR”. Poner este nivel en
el experimento Nº 2 y repetirlo después de un
bloque de cinco experimentos (Por ejemplo nivel
central: 0)
4. Elegir un “PEREMUTADOR CÍCLICO” para llenar
-2
los bloques:
-1
1
2
21
Diseño Factorial Parcial
6.
Elegir un “VECTOR DIFERENCIA” con l-1
números (cuatro) desde 0 a l-2 (3 en este caso)
Ejemplo: [0 2 3 1]
Se continúa llenando la primera columna de la
siguiente manera:
Experimentos 2, 8, 14 y 20 tienen el nivel repetidor.
Esto genera cuatro bloques de cinco experimentos
cada uno.
22
Diseño Factorial Parcial: niveles
Experimentos
Componentes
1
2
……….
8
1
0
0
0
0
2
0
3
-2
4
-2
5
2
6
-1
7
2
8
0
Bloque 2 (9-13)
14
0
Bloque 3 (15-19)
20
0
Bloque 4 (21-24)
Bloque 4 (25)
23
Factorial Parcial: Determinación de los niveles del
primer bloque
•Empezar con un número al azar distinto del
repetidor (Por ejemplo -2). (Experimento Nº 3 = -2)
•Luego usar el vector diferencia y el permutador
cíclico: [0 2 3 1]
Nº 4: cero diferencia cíclica: -2
Nº 5: 2 diferencias cíclicas: 2
Nº 6: 3 diferencias cíclicas: -1
Nº 7: 1 diferencia cíclica: 2
-2
-1
1
2
24
Factorial Parcial: Determinación de los niveles de
los siguientes bloques
Correr una diferencia cíclica los números del
bloque anterior.
Bloque 1 Bloque 2 Bloque 3 Bloque 4
-2
-1
2
1
-2
-1
2
1
2
1
-2
-1
-1
2
1
-2
2
1
-2
-1
25
Factorial Parcial: llenado de las columnas
restantes
Experimentos
Componentes
1
2
……….
8
1
0
0
0
0
2
0
-2
-2
3
-2
-2
4
-2
2
5
2
-1
6
-1
7
2
8
0
Bloque 2 (9-13)
-1 -1 1 2 1
14
0
Bloque 3 (15-19)
2 2 -2 1 -2
20
0
Bloque 4 (21-24)
1 1 -1 -2
Bloque 4 (25)
-1
0
-2
26
Factorial Parcial: características y propiedades
•Cada columna tiene un número igual de
concentraciones -2, -1, 0, 1 y 2
•Cada columna es ortogonal a las otras (R = 0)
•La gráfica que muestra la combinación de dos variables
resulta un factorial completo a 5 niveles, menos para 1
vs 7 y 2 vs 8:
27
Cuadrados mínimos clásicos (CLS)
Señales instrumentales de calibrado agrupadas en una matrix Y
Y=
3.2580460e-001
3.6668640e-001
3.5775820e-001
4.2931660e-001
3.7886230e-001
3.8803070e-001
4.0566710e-001
3.8350240e-001
3.7498010e-001
3.7283710e-001
3.8794860e-001
3.8980980e-001
3.8525520e-001
3.5205260e-001
3.7320180e-001
4.1007450e-001
3.6088220e-001
4.3372610e-001
3.5380140e-001
3.9619650e-001
3.9339270e-001
3.6345070e-001
3.9513000e-001
3.4057620e-001
3.7861410e-001
3.5714450e-001
3.8204570e-001
3.8019260e-001
4.0171170e-001
3.3405320e-001
3.4430230e-001
4.0389410e-001
3.1029540e-001
3.3831790e-001
3.3620700e-001
4.0284130e-001
3.7182530e-001
3.9507170e-001
3.9849160e-001
3.0704320e-001
3.4950730e-001
3.4057750e-001
3.5081580e-001
3.7995720e-001
3.9914420e-001
3.2699330e-001
3.7307760e-001
3.5503230e-001
3.9601930e-001
3.8725580e-001
3.4159690e-001
3.2725220e-001
3.7291190e-001
3.8156950e-001
4.6742530e-001
3.9047530e-001
3.3484890e-001
4.0453980e-001
3.4014190e-001
4.0403330e-001
3.8463350e-001
4.1495350e-001
3.9630000e-001
4.0468170e-001
3.9202770e-001
3.9290510e-001
3.7713990e-001
4.3481590e-001
3.8439390e-001
3.6084180e-001
…
…
…
…
…
…
…
…
…
…
Estructura de la matriz de señales de calibrado Y
Y=
3.2580460e-001
3.6668640e-001
3.5775820e-001
4.2931660e-001
3.7886230e-001
3.8803070e-001
4.0566710e-001
3.8350240e-001
3.7498010e-001
3.7283710e-001
3.8794860e-001
3.8980980e-001
3.8525520e-001
3.5205260e-001
3.7320180e-001
4.1007450e-001
3.6088220e-001
4.3372610e-001
3.5380140e-001
3.9619650e-001
3.9339270e-001
3.6345070e-001
3.9513000e-001
3.4057620e-001
3.7861410e-001
3.5714450e-001
3.8204570e-001
3.8019260e-001
4.0171170e-001
3.3405320e-001
3.4430230e-001
4.0389410e-001
3.1029540e-001
3.3831790e-001
3.3620700e-001
4.0284130e-001
3.7182530e-001
3.9507170e-001
3.9849160e-001
3.0704320e-001
Y11 Y12 ... Y1J 
Y Y

...
Y
2J 
Y   21 22
 ... ... Yij ... 


Y
Y
...
Y
IJ 
 I1 I 2
3.4950730e-001
3.4057750e-001
3.5081580e-001
3.7995720e-001
3.9914420e-001
3.2699330e-001
3.7307760e-001
3.5503230e-001
3.9601930e-001
3.8725580e-001
3.4159690e-001
3.2725220e-001
3.7291190e-001
3.8156950e-001
4.6742530e-001
3.9047530e-001
3.3484890e-001
4.0453980e-001
3.4014190e-001
4.0403330e-001
3.8463350e-001
4.1495350e-001
3.9630000e-001
4.0468170e-001
3.9202770e-001
3.9290510e-001
3.7713990e-001
4.3481590e-001
3.8439390e-001
3.6084180e-001
…
…
…
…
…
…
…
…
…
…
Yij = Señal en muestra i
a long. de onda j
Concentraciones de todos los componentes,
agrupadas en la matriz X
Muestra
Componente 1 Componente 2 Componente 3
1
10.5
0.02
…
2
7.8
0.15
…
…
4.9
0.58
…
 X11 X12
X
21 X 22

X
 ...
...

 X I1 X I 2
... X1N 
... X 2 N 
... ... 

... X IN 
Xin = Conc. en
muestra i de
componente n
Método directo de cuadrados mínimos
clásicos (CLS)
Etapa de calibración: análogo de la ley de Beer
Y
Señales
=
=
X

ST
+
E
Concentraciones  Sensibilidades + Errores
Recordar cuando vimos
para dos longitudes de
onda
Cuadrados mínimos clásicos (CLS)
Etapa de calibración
• A partir de las señales y las concentraciones de todos los
componentes, se estiman las sensibilidades de cada uno de ellos
a cada longitud de onda.
• Estas sensibilidades están contenidas en la matriz S.
• Se logra minimizando los errores contenidos en E.
Cuadrados mínimos clásicos (CLS)
• Al estimar la matriz S se completa la etapa de calibrado,
ya que esta matriz establece la relación entre señales
instrumentales (Y) y concentraciones de los analitos (X) a
través del modelo de la calibración directa:
Y = X ST
Cuadrados mínimos clásicos (CLS)
Etapa de predicción
Cuadrados mínimos clásicos (CLS)
 y1 
y 
y  2
 ... 
 
 yJ 
y=Sx+e
Se mide la señal de la muestra incógnita a
todas las longitudes de onda
Se vincula la señal medida con la
concentración de los analitos a través del
modelo directo.
Recordar que el modelo de calibración era: Y = X ST
Cuadrados mínimos clásicos (CLS)
Etapa de predicción
A partir del espectro de la muestra incógnita (y) y las
sensibilidades de la calibración, se averiguan las
concentraciones de todos los componentes en la
muestra (x):
x = S+ y
donde S+ se conoce como la matriz inversa generalizada de S
Cada fila representa el vector de
regresión del analito de interés
x = S+ y
xn
x
=
Fila n de S+
S+

y
xn = (Fila n de S+)  y
Cuadrados mínimos clásicos (CLS)
Revisión de la etapa de predicción
• La fila n de la matriz S+ genera la concentración del
analito específico n, multiplicando al espectro de la
muestra incógnita.
• Esta fila se conoce como vector de coeficientes de
regresión para el componente n, y se simboliza como bn
Cuadrados mínimos clásicos (CLS)
Revisión de la etapa de predicción
xn = (Fila n de S+) y = (bn)T y
Equivale a:
xn = bn1 y1 + bn2 y2 + … + bnJ yJ
Coeficientes de regresión
Vector bn
0
Long. de onda
xn = bn1 y1 + bn2 y2 + … + bnJ yJ
Cuadrados mínimos clásicos (CLS)
Residuos espectrales de ajuste de una muestra:
e=ySx
J
Diagnóstico
de outliers
sres =
(e j )2
j 1
J N
Residuos espectrales y detección
de componentes inesperados
ej
ej
Long. de onda
Long. de onda
Ausencia de componentes
inesperados
Presencia de componentes
inesperados
sres ≈ Ruido
sres >> Ruido
Residuos espectrales y detección
de componentes inesperados
Se conoce como la
“ventaja de primer orden”
Componentes de muestras
Componentes esperados
Componentes
inesperados
Muestra
Analito
calibrado
Otros
componentes
calibrados
Otros
componentes
no calibrados
Calibración
Sí
Sí
Sí
No
Validación
Quizás
Quizás
Quizás
No
Desconocida
Quizás
Quizás
Quizás
Quizás
Se puede inferir a partir de sres
• La principal desventaja del modelo CLS es
que para su calibración se requiere conocer las
concentraciones de todos los componentes de
las muestras de calibrado.
• En general, esto es imposible para muestras
complejas de origen natural, alimentario,
biológico, etc., por lo que la aplicabilidad del
modelo CLS es sumamente limitada.
Parte 2: Calibración Inversa
CALIBRACIÓN INVERSA
Cuadrados Mínimos Inversos
ILS
Regresión en Componentes Principales
PCR
Regresión en Cuadrados Mínimos Parciales
PLS
47
CALIBRACIÓN INVERSA
Directa: Y = S XT (Ley de Beer)
 Inversa: xk = yT bk (Inversa ley de Beer)

Cuadrados mínimos inversos (ILS): X = YT B
B = (YYT )-1 Y X
(JxK)
(JxJ) (JxI) (IxK)
Si solo se conoce la concentración del analito “k” en las
mezclas de calibración…
Desacople de componentes: bk = (YYT )-1Y xk
48
Cuadrados mínimos inversos

Esquemáticamente:
=
B (JxK)
x
(YYT)-1Y (JxI)
X (IxK)
49
Cuadrados mínimos inversos

Ventaja: DESACOPLE DE
COMPONENTES
“Modelos blandos”
Desventaja: PÉRDIDA DE INFORMACIÓN
Como YYT es una matriz de JxJ, se requiere
que J sea menor a I para que no se produzca
una expansión y consecuentemente
singularidad

50
Cuadrados mínimos inversos

Esquemáticamente:
=
B(JxK)
(J < I )
(YYT)-1Y (JxI)
x
X (IxK)
51
Cuadrados mínimos inversos


Predicción:
xk = bkT y
Análisis Estadístico:
Los errores son ajustados en concentración:
ex = xk – YT bk
1) Se puede calcular una desviación estándar del
ajuste
2) Se puede comparar con los errores en la
preparación de la calibración con una prueba F
T
3) No se tiene acceso a residuos
ec ec
espectrales
sfit,cal 
k
(I  1)
52
Análisis de biodiesel en mezclas con gasoil mediante espectros
NIR e ILS con 30 muestras de calibración (5940-7368 cm-1)
Raw calibration
Raw unknowns
2
1.5
2
20 sensores
1.5
1
1
0.5
0.5
0
0
-0.5
20
40
60
80
100 120
-0.5
20
40
60
80
100 120
Predicted vs. actual
Ideal
Real
Predicted
20
15
10
Slope = 1.0598
SD = 0.083838
Intcp = 0.51646
SD = 0.85237
5
5
10
15
Actual
20
Error relativo de
predicción: 36 %
Análisis de biodiesel en mezclas con gasoil mediante espectros
NIR e ILS con 30 muestras de calibración
Raw calibration
Raw unknowns
2
2
20 sensores
1.5
1.5
1
1
0.5
0.5
0
0
-0.5
20
40
60
80
100 120
-0.5
20
40
60
80
100 120
Predicted vs. actual
20
Ideal
Real
Predicted
15
10
Slope = 0.99477
SD = 0.022375
Intcp = -0.2923
SD = 0.22748
5
5
10
15
Error relativo de
predicción: 10 %
20
La selección de variables juega un rol muy importante!!!
Sería muy interesante encontrar un
modelo basado en cuadrados
mínimos inversos, para calibrarlo
sólo con concentraciones de un único
analito, pero que permita emplear
información de regiones espectrales
completas y no unas pocas longitudes
de onda
Requeriría encontrar una técnica de
compresión de la información
contenida en la matriz de señales, para
evitar los problemas derivados de la
inversión matricial
Regresión en componentes principales
(PCR)
El método PCR representa uno de los primeros
intentos de reunir las principales ventajas de
CLS/OLS e ILS.
 Consiste en realizar una calibración inversa, pero con
la ventaja de utilizar, en lugar de la matriz con las
respuestas instrumentales, una matriz de puntuaciones
o scores.
 Estos scores se obtienen al extraer los autovectores de
la matriz cuadrada YYT.

57
Descomposición en valores singulares (SVD)
SVD de una matriz de datos
=
M
x
=
U
x
S
VT
U y V son matrices ortogonales, y S es una matriz
diagonal que contiene los valores singulares.
58
Análisis de componentes principales
Scores significativos
Matriz de
datos de
calibración
Scores poco
significativos
Matriz de scores
Análisis de componentes principales
Información comprimida
2  100
1000 × 100
98  100
Análisis de componentes principales
Pearson, K, Principal Components
Analysis, The London, Edinburgh
and Dublin Philosophical
Magazine and Journal, 6, 566,
(1901).
Descomposición matricial mediante PCA
Y
Matriz de
calibración
U
T
Matriz de
autovectores
de
Matriz de scores
YYT
Variables latentes
Variables explícitas
Y=UT
Clasificación de autovectores en PCA
Significativo
Poco significativo
Clasificación de autovectores en PCA
U
Matriz de
autovectores
de YTY
Significativos
Poco significativos
Descomposición matricial mediante PCA
Se seleccionan únicamente los autovectores y scores significativos
Descomposición de la matriz con unos pocos
autovectores
YA
Matriz de
calibración
reconstruida
con A factores
UA
TA
Matriz de los A
scores más
significativos
Matriz de los A
autovectores más
significativos
YA = UA  TA
Ejemplo de reconstrucción matricial
Imagen
original:
Imágenes reconstruidas
A=1
A=8
A=2
A=4
A=16
A=32
• La matriz TA es considerablemente menor en
tamaño que la matriz original de datos Y, ya que
en general el número de factores es muy inferior
al de longitudes de onda.
• Sin embargo, la matriz TA contiene
virtualmente la misma información que Y.
• Por lo tanto, podría reemplazarse Y por TA en
la calibración de un modelo sin pérdida
significativa de información.
Regresión en componentes
principales (PCR)
1) Compresión de las señales mediante análisis de
componentes principales y cálculo de scores significativos.
2) Calibración inversa (del tipo ILS), reemplazando las
señales por los scores.
PCR = PCA + ILS
Regresión en componentes principales
(PCR)
1) Compresión de la información de calibración
PCA:
Calcular los scores T
A Scores:
Seleccionar TA (formada por las
primeras A columnas de T)
2) Modelo ILS que relaciona los scores de calibrado con las
concentraciones del analito
xn = TA vn + e
Regresión en componentes principales
(PCR)
Etapa de calibración
Método Señal
Modelo
Coeficientes de regresión
ILS
Y
xn = Y b n + e
bn
PCR
TA
xn = TA vn + e
vn
Ventaja adicional de la regresión en
componentes principales
• El cálculo de los coeficientes de regresión requiere la inversión
de una matriz.
• En ILS la inversión se complica si los espectros de las
diferentes muestras son similares entre sí.
• En PCR no existe este problema, porque los “espectros” son
reemplazados por los scores. Los scores son ortogonales entre
sí, de modo que la inversión de la matriz es siempre posible.
Regresión en componentes principales (PCR)
Método Señal Tamaño
ILS
Y
IJ
Matriz a
invertir
(Y YT)
PCR
TA
IA
(TA TAT)
Requerimiento para la
inversión
J<I
A<I
En PCR se cumple fácilmente que el número de factores es menor
que el número de mezclas de calibrado.
En PCR la matriz de scores se invierte fácilmente.
Regresión en componentes
principales (PCR)
Etapa de predicción
Los coeficientes de regresión de la etapa de
calibrado se emplean para la predicción de la
concentración del analito en la muestra,
reemplazando la señal de la muestra por sus
scores.
Regresión en componentes principales
(PCR)
Etapa de predicción
Método
Ecuación de predicción
ILS
Señales de
calibrado
Y
PCR
TA
xn = (tA)T vn
xn = yT bn
Scores de la muestra
Regresión en componentes principales
(PCR)
Revisión de la etapa de predicción
El espectro de la muestra puede reconstruirse
con los scores de la muestra y los autovectores,
para dar una aproximación yA.
Errores de ajuste para diagnóstico de outliers:
eA = yA  y
Residuos espectrales y detección
de componentes inesperados
ej
ej
Long. de onda
Long. de onda
Ausencia de componentes
inesperados
Presencia de componentes
inesperados
sres ≈ Ruido
sres >> Ruido
Regresión en componentes principales
(PCR)
Revisión de la etapa de predicción
También puede reconstruirse el vector de
coeficientes de regresión bn, a partir de del
vector vn calculado en la etapa de calibrado
de PCR
Coeficientes de regresión
Vector bn
Long. de onda
xn = bn1 y1 + bn2 y2 + … + bnJ yJ
Regresión en componentes principales
(PCR)
Ventajas:
• Espectros completos.
• Calibración inversa (sólo deben conocerse algunos
componentes calibrados).
• Residuos espectrales (ventaja de primer orden).
• Poco sensible a la colinealidad espectral por el uso de
scores ortogonales.
• Factores que expresan la máxima variancia espectral.
Análisis de biodiesel en mezclas con gasoil mediante espectros NIR
y PCR en la región completa de 120 sensores (5940-7368 cm-1)
Raw calibration
Raw unknowns
2
2
1.5
1.5
120 sensores
1
1
0.5
0.5
0
0
-0.5
20
40
60
80
100 120
-0.5
20
40
60
80
100 120
Predicted vs. actual
Predicted
20
Ideal
Real
15
10
Slope = 0.99395
SD = 0.013326
Intcp = -0.083437
SD = 0.13548
5
5
10
15
Actual
20
Error relativo de
predicción (A = 9):
5.5 %
selección del número óptimo “A”
Number of factors: 1
Sample
Cact
Cpred
1
2.50E+00
3.39E+00
2
2.50E+00
5.62E+00
3
2.50E+00
1.66E+00
4
2.50E+00
6.04E+00
5
9.50E+00
6.14E+00
6
9.50E+00
1.01E+01
7
9.50E+00
6.05E+00
8
9.50E+00
9.15E+00
9
0.00E+00
2.88E+00
10
1.20E+01
9.16E+00
11
6.00E+00
5.63E+00
12
6.00E+00
6.05E+00
13
6.00E+00
2.36E+00
14
6.00E+00
9.97E+00
15
6.00E+00
5.88E+00
PRESS = 9.30E+01
SEP = 2.58E+00
REP(%) = 41.50%
R2 = 0.45302
% Rec.
135.70%
224.83%
66.27%
241.59%
64.68%
106.15%
63.64%
96.28%
-76.32%
93.88%
100.85%
39.33%
166.25%
98.06%
Number of factors: 2
Sample
Cact
Cpred
1
2.50E+00
2.68E+00
2
2.50E+00
3.50E+00
3
2.50E+00
2.46E+00
4
2.50E+00
2.22E+00
5
9.50E+00
9.42E+00
6
9.50E+00
9.77E+00
7
9.50E+00
9.55E+00
8
9.50E+00
8.97E+00
9
0.00E+00
2.58E-01
10
1.20E+01
1.23E+01
11
6.00E+00
6.91E+00
12
6.00E+00
5.86E+00
13
6.00E+00
4.48E+00
14
6.00E+00
5.07E+00
15
6.00E+00
6.21E+00
PRESS = 5.67E+00
SEP = 6.36E-01
REP(%) = 10.25%
R2 = 0.966651
% Rec.
107.18%
139.96%
98.44%
88.65%
99.12%
102.86%
100.51%
94.41%
-102.09%
115.15%
97.74%
74.70%
84.46%
103.47%
82
Estadísticos

Suma de cuadrados de los errores de predicción:
PRESS  (cnomin al  cpredicha)2

Raíz de la suma promedio de cuadrados de los errores de
validación cruzada (también SEP):
2
(
c

c
)
RMSECV   nomin al predicha
I

Error relativo de predicción en la validación cruzada:
REP% 

100
c nomin al
2
(
c

c
)
 nomin al predicha
I
Coeficiente de correlación al cuadrado:
2
(
c

c
)

no min al
predicha
2
r  1
2
(
c

c
)
no
min
al
 nomin al
83
Métodos basados en factores: selección
del número óptimo “A”
Number of factors: 3
Sample
Cact
Cpred
1
2.50E+00
2.54E+00
2
2.50E+00
2.59E+00
3
2.50E+00
2.34E+00
4
2.50E+00
2.64E+00
5
9.50E+00
9.79E+00
6
9.50E+00
9.59E+00
7
9.50E+00
9.58E+00
8
9.50E+00
8.56E+00
9
0.00E+00
2.34E-01
10
1.20E+01
1.24E+01
11
6.00E+00
6.16E+00
12
6.00E+00
6.15E+00
13
6.00E+00
5.30E+00
14
6.00E+00
6.00E+00
15
6.00E+00
6.06E+00
PRESS = 1.78E+00
SEP = 3.57E-01
REP(%) = 5.75%
R2 = 0.989514
% Rec.
101.53%
103.78%
93.50%
105.43%
103.07%
100.97%
100.85%
90.14%
-103.23%
102.64%
102.55%
88.30%
99.98%
100.94%
Number of factors: 4
Sample
Cact
Cpred
1
2.50E+00
2.37E+00
2
2.50E+00
2.44E+00
3
2.50E+00
2.21E+00
4
2.50E+00
2.77E+00
5
9.50E+00
9.61E+00
6
9.50E+00
9.70E+00
7
9.50E+00
9.55E+00
8
9.50E+00
8.55E+00
9
0.00E+00
2.87E-01
10
1.20E+01
1.24E+01
11
6.00E+00
6.05E+00
12
6.00E+00
6.23E+00
13
6.00E+00
5.34E+00
14
6.00E+00
6.08E+00
15
6.00E+00
6.02E+00
PRESS = 1.88E+00
SEP = 3.66E-01
REP(%) = 5.90%
R2 = 0.988959
% Rec.
94.72%
97.73%
88.35%
110.83%
101.18%
102.06%
100.54%
90.03%
-103.36%
100.91%
103.88%
88.96%
101.40%
100.27%
84
Métodos basados en factores: selección
del número óptimo “A”
Mínimo
PRESS
100
% Rec.
105.16%
96.20%
98.48%
104.14%
100.31%
102.48%
102.33%
90.92%
-100.62%
102.08%
103.43%
89.42%
100.65%
100.58%
80
60
PRESS
Number of factors: 5
Sample
Cact
Cpred
1
2.50E+00
2.63E+00
2
2.50E+00
2.40E+00
3
2.50E+00
2.46E+00
4
2.50E+00
2.60E+00
5
9.50E+00
9.53E+00
6
9.50E+00
9.74E+00
7
9.50E+00
9.72E+00
8
9.50E+00
8.64E+00
9
0.00E+00
4.23E-02
10
1.20E+01
1.21E+01
11
6.00E+00
6.12E+00
12
6.00E+00
6.21E+00
13
6.00E+00
5.36E+00
14
6.00E+00
6.04E+00
15
6.00E+00
6.03E+00
PRESS = 1.36E+00
SEP = 3.12E-01
REP(%) = 5.02%
R2 = 0.992006
40
20
0
1
2
3
4
5
6
7
Factores
Factors
1
2
3
4
5
6
PRESS
93.0
56.7
17.8
18.8
13.6
14.5
7
16.7
F
68.423
4.172
1.312
1.381
1.
--
--
p
1.000
0.995
0.697
0.731
0.500
85
¿Qué puede ser mejor que la
regresión en componentes
principales?
Regresión en cuadrados mínimos parciales
(PLS)
Desarrollado por Herman Wold (Univ. de Uppsala, Suecia)
Wold, H. (1966). Estimation of principal components and related
models by iterative least squares, en Multivariate Analysis, P.R.
Krishnaiah, ed. Academic Press, New York, 391.
Regresión en cuadrados mínimos parciales
(PLS)
Popularizado en química por Svante
Wold (Univ. de Umea, Suecia).
Loadings
• En PCR son autovectores de la matriz YYT.
Explican la máxima variancia en Y.
• En PLS no son autovectores de YYT. Explican
la máxima covariancia entre Y y x (vector de
concentraciones o propiedades).
Regresión en cuadrados mínimos
parciales (PLS)
1) Compresión de las señales mediante proyección en el
espacio de los loadings y cálculo de scores.
2) Calibración inversa (tipo ILS), reemplazando las
señales por los scores.
Regresión por cuadrados mínimos
parciales (PLS)
w1
t1
v1
Y y ck
eR y ec
p1
- Se repite hasta
obtener A óptimo
- Se repite para cada
componente
modelandolo por
separado (PLS1)
Regresión en cuadrados mínimos
parciales (PLS)
Compresión de la información para obtener los primeros
A scores de PLS (TA), que reemplazan a la señal en una
calibración inversa.
Regresión en cuadrados mínimos parciales
(PLS)
Método Señal Tamaño
ILS
Y
IJ
Matriz a
invertir
(YT Y)
PLS
TA
IA
(TAT TA)
Requerimiento para la
inversión
J<I
A<I
En PLS se cumple fácilmente que el número de factores es menor
que el número de mezclas de calibrado.
En PLS la matriz de scores se invierte fácilmente.
Etapa de calibración en PLS
Método Señal
Modelo
Coeficientes de regresión
ILS
Y
xn = Y bn + e
bn
PCR
TA
xn = TA vn + e
vn (de PCR)
PLS
TA
xn = TA vn + e
vn (de PLS)
Aunque los símbolos coinciden, los scores y los coeficientes de regresión
de PCR se calculan de un modo diferente a los de PLS.
Regresión en cuadrados mínimos
parciales (PLS)
Etapa de predicción
Los scores de PLS de la muestra (tA) reemplazan a la señal
de la muestra (y).
Etapa de predicción en PLS
Método
Señal
Ecuación de predicción
ILS
Y
xn = yT bn
PCR
TA
xn = (tA)T vn
PLS
TA
xn = (tA)T vn
Resumen
Propiedad
CLS
Número de
analitos
Conc. de comp.
de calibrado
Uso de factores
Colinealidad
Ventaja de 1er.
orden
Método
ILS
PCR
PLS
Varios
Todas
conocidas
No
 Sensibilidad y
precisión
Sí
No
Alguna(s) conocida(s)
Sí,
PCA
Sí, factores
dependientes de
concentración
Menor efecto gracias al
uso de factores
Sí
Regresión en cuadrados mínimos parciales
(PLS)
Ventajas:
• Espectros completos
• Calibración inversa (sólo deben conocerse
algunos componentes calibrados).
• Residuos espectrales (ventaja de primer orden).
• Menos sensible a la colinealidad por el uso de
factores latentes.
• Factores que expresan la máxima correlación
entre espectros y concentración del analito.
Calibración inversa: resumen

ILS:
bk = (YYT )-1Y xk = Y+ xk

PCR:
xk, un= tT vk = rT U UT Y xk
bk = UT+ xk

PLS:
bk = W (PT W)–1 T+ xk
+
Y
99
Cifras de mérito
ver Anexo 2
100
Parte 3: Práctica
1- Comparación de resultados
obtenidos por orden cero y
primer orden
102
Datos y programas
Se utilizarán los siguientes datos:
1) Orden cero: el archivo “datos_cal.txt” conteniendo las
concentraciones del analito de interés y las señales medidas
al máximo de emisión por triplicado.
Estos datos se procesarán con la rutina de Matlab
“cal_univar.mat”
2) Orden uno: se proveen
a) espectros de emisión (de 100 sensores) de dos analitos para 5
niveles de concentración y por triplicado
Los nombres y concentraciones son los siguientes:
Y1.txt: contiene15 espectros de concentraciones crecientes (por triplicado) 1, 2, 3, 4, 5.
Y2.txt : contiene 15 espectros de concentraciones crecientes (por triplicado) 3, 6, 9, 12,
15
mi.txt (espectro de una muestra que contiene 2.5 de analito 1)
mi_1.txt (espectro de una muestra que contiene 2.5 de analito 1 más 5.5 del analito 2)
De estos dos últimos se usaron sus señales en máximo para predecir
b) espectros de emisión de mezclas de los dos analitos para 3
niveles de concentración. Mezclas de calibración
Los nombres y concentraciones son Ycal.txt , xcal_1.txt e xcal_2.txt (X.txt contiene las
concentraciones de los dos analitos)
c) espectros de emisión de mezclas de los dos analitos para
varios niveles de concentración diferentes de los anteriores.
Mezclas de validación
Los nombres y concentraciones son Yval.txt , xval_1.txt y xval_2.txt
d) espectros de emisión de mezclas de los dos analitos para
varios niveles de concentración a xval_1 y x val_2, pero con el
agregado de un componente inesperado (componente 3).
Mezclas de validación componente inesperado
Yvali.txt
Sistema de tres analitos. Espectros de
emisión y excitación
Interferencia no
modelada
Analito
Interferencia
modelada
Calibración Univariada
Se usan los máximos en los espectros de emisión para el analito # 1
(en azul en la figura anterior)
Aplicación de rutina: cal_univar.mat
datos_cal.txt
Matlab:
>> cal_univar.mat
Calibracion univariada mediante regresion lineal
"Etapa 1"
Prueba de homocedasticidad
Archivo de datos: 'datos_cal.txt'
"Etapa 2"
Prueba de calibración
* Pendiente: 2.3451 +/- 0.0070064 SD: 0.0032416
* Ordenada: 0.00021602 +/- 0.32353 SD: 0.14969
* Desvio estandar de los residuos s(y/x): 0.13004
* Numero de niveles de concentracion: 5
* Numero de replicas para cada nivel: 3
* Numero total de datos: 15
* "Test de linealidad"
Fexp: 0.96804
Fteorico: 6.5444
p: 0.532
Los datos CUMPLEN el test
* "Cifras de merito”
Sensibilidad: 2.3451
Sensibilidad analitica: 18.0336
1/gamma: 0.055452
LOD (n=3): 0.12505 LOQ (n=3): 0.35315
"Etapa 3“
Predicción
Tiene datos para Predicción
SI, 1, NO, 2: 1
Datos numéricos o en archivo?
Numérico, 1, Archivo, 2: 2
Archivo von valor de Y: 'datos_muestras.txt'
* Xinc
IC
SD
2.4561 0.0758 0.0351
3.6501 0.0758 0.0351
Predicción de 2 muestras que contienen 2.5, pero una de ellas tiene
5.5 del analito # 2 (espectro verde)
Predicciones:
2.45 (98%)
3.65 (146%)
Calibración Multivariada de orden 1
CLS
Calibración a partir de espectros puros:
E= Y1 c = xcal_1
%ls_s: Rutina para obtener "s" a partir de espectros puros
load
load
load
load
Y1.txt
Y2.txt
x1.txt
x2.txt
s1=Y1*x1*inv(x1'*x1);
s2=Y2*x2*inv(x2'*x2);
l=1:100;
save s1.txt s1 -ascii
save s2.txt s2 -ascii
figure (1), subplot (2,1,1), plot(l,Y1,'b',l,s1,'r')
subplot (2,1,2), plot(l,Y2,'b',l,s2,'r')
Predicción:
Uso de rutina “cls_puros”:
Analito 1
Analito 2
CLS
Calibración a partir de mezclas: uso de las rutinas
‘cls_cal y cls_pred’
% **************************************************************
% RUTINA 'cls_cal.m' para calibracion mediante el modelo CLS
% **************************************************************
%
% ***************************************************
% COMO EJECUTAR LA RUTINA 'cls_cal.m'
% ***************************************************
% 1) Guardar los datos en archivos ASCII:
% Los datos de señal se guardan en un archivo con I columnas (I es el numero
de muestras de calibrado)y J filas (J es el numero de longitudes de onda), o
sea, una columna para cada espectro.
% Los datos de concentracion se guardan en un archivo con N columnas (N es el
numero de analitos calibrados)e I filas, o sea, una columna para cada
analito.
% 2) Ejecutar 'cls_cal.m'.
% 3) Introducir el nombre de los archivos ASCII entre comillas simples.
Ejemplo: 'resp_cal.txt'
% 4) La rutina crea el archivo ASCII 'S_.txt' con las sensibilidades (N
columnas y J filas) y el archivo
% ASCII 'B_.txt' con los coeficientes de regresion (N columnas y J filas)
% Calcula la matriz S
X=Xcal;Y=Ycal;
S=Y*X*inv(X'*X);
% Calcula los coeficientes de regresion para
cada componente
pS=inv(S'*S)*S';
B=[];
for i=1:Ncal
B=[B;pS(i,:)];
end
B=B';
Archivo con la matriz de espectros de calibrado: 'Ycal.txt'
Archivo con la matriz de concentraciones de calibrado: 'X.txt'
Sensibilidades
Analito 1: 5.8894
Analito 2: 2.106
Se guardo la matriz S en el archivo S_.txt
Se guardo la matriz de coeficientes de regresion en el archivo B_.txt
Sensibilidades
Sensibilidad
3
Comp. 1
Comp. 2
2
1
0
-1
10
20
30
40
50
60
70
80
90
100
Respuesta
Coeficientes de regresion
Comp. 1
Comp. 2
0.1
0.05
0
-0.05
-0.1
10
20
30
40
50
Sensor
60
70
80
90
100
CLS
Predicción con ‘cls_pred’
% **************************************************************
% RUTINA 'cls_pred.m' para prediccion mediante el modelo CLS
% **************************************************************
%
% ***************************************
% COMO EJECUTAR LA RUTINA 'cls_pred.m'
% ***************************************
% 1) Usar esta rutina después de haber ejecutado 'cls_cal.m' con
los datos de calibrado.
% 1) Guardar en un archivo ASCII los datos de predicción.
%
Los datos de señal se guardan en un archivo con tantas
columnas como muestras incognita, y J filas (J es el numero de
longitudes de onda), o sea, una columna para cada muestra.
% 2) Correr la rutina 'cls_pred.m'
% 3) Introducir el nombre del archivo de datos entre comillas
simples. Ejemplo: 'resp_test.txt'
% Calcula concentraciones en muestras
incógnita
for i=1:Itest
disp(' ')
disp(['Muestra ',int2str(i)])
for j=1:Ncal
xun(j)=B(:,j)'*Ytest(:,i);
disp(['Analito ',num2str(j),': ',num2str(xun(j))])
end
% Calcula residuo
res=Ytest(:,i)-S*xun';
disp(['Residuo espectral: ',num2str(norm(res)/sqrt(JNcal))])
end
Muestras Yval (sin componente inesperado)
Analisis CLS de mezclas binarias
Archivo con la matriz de espectros
incognita: 'Yval.txt‘
Muestra 1
Analito 1: 1.4796
Analito 2: 4.4867
Residuo espectral: 0.10058
Muestra 2
Analito 1: 1.4987
Analito 2: 6.0116
Residuo espectral: 0.10965
Muestra 3
Analito 1: 1.4889
Analito 2: 12.0048
Residuo espectral: 0.10659
Muestra 4
Analito 1: 1.5076
Analito 2: 13.4349
Residuo espectral: 0.1127
Muestra 5
Analito 1: 1.9503
Analito 2: 6.0902
Residuo espectral: 0.10554
Muestra 6
Analito 1: 1.98
Analito 2: 12.0183
Residuo espectral: 0.10199
Muestra 7
Analito 1: 2.5156
Analito 2: 4.4579
Residuo espectral: 0.11844
Muestra 8
Analito 1: 2.4836
Analito 2: 6.0227
Residuo espectral: 0.11672
Muestra 9
Analito 1: 2.4946
Analito 2: 11.9804
Residuo espectral: 0.099817
Muestra 10
Analito 1: 2.4938
Analito 2: 13.5083
Residuo espectral: 0.10571
Muestras Yvali (con componente inesperado)
Muestra 1
Analito 1: 0.45591
Analito 2: 11.9408
Residuo espectral: 1.2488
Muestra 2
Analito 1: 0.47892
Analito 2: 13.3953
Residuo espectral: 1.2499
Muestra 3
Analito 1: 0.46568
Analito 2: 19.4096
Residuo espectral: 1.2421
Muestra 4
Analito 1: 0.45763
Analito 2: 21.0231
Residuo espectral: 1.2687
Muestra 5
Analito 1: 0.94454
Analito 2: 13.4799
Residuo espectral: 1.2593
Muestra 6
Analito 1: 0.98522
Analito 2: 19.4636
Residuo espectral: 1.2675
Muestra 7
Analito 1: 1.5082
Analito 2: 11.876
Residuo espectral: 1.255
Muestra 8
Analito 1: 1.4505
Analito 2: 13.4479
Residuo espectral: 1.2467
Muestra 9
Analito 1: 1.4415
Analito 2: 19.503
Residuo espectral: 1.2359
Muestra 10
Analito 1: 1.4541
Analito 2: 21.0368
Residuo espectral: 1.2535
Resumen analito 1
Muestra
Nominal
Pred.
Muestras
sin int. no
modelada
Residuos
Pred.
Muestras
con int. no
modelada
Residuos
1
1.5
1.48
0.10 ± 0.02
0.46
1.20 ± 0.05
2
1.5
1.50
‘’
0.48
‘’
3
1.5
1.49
‘’
0.46
‘’
4
1.5
1.51
‘’
0.46
‘’
5
2
1.95
‘’
0.94
‘’
6
2
1.98
‘’
0.99
‘’
7
2.5
2.52
‘’
1.51
‘’
8
2.5
2.48
‘’
1.45
‘’
9
2.5
2.49
‘’
1.44
‘’
10
2.5
2.49
‘’
1.45
‘’
Programa MVC1
1- Instalar el programa: MCRInstaller
2- Abrir el programa: mvc1_32
3- Se abrirá un interfaz que permitirá
cargar los archivos conteniendo espectros
y concentraciones para ejecutar PLS
Aplicación de MVC1
Cross-validation
Concentraciones predichas en Yval para analito 1:
Concentraciones predichas en Yval con inesperado:
Concentraciones predichas en Yval para analito 2 en
muestras sin interferencia no modelada
Concentraciones predichas en Yval para analito 2 en
muestras con interferencia no modelada
Octano en gasolinas por NIR
Datahelp.txt
Determination of octane in gasolines from NIR data
-------------------------------------------------------------------------------------File name
Content
-------------------------------------------------------------------------------------Samples selected at random
roncal.txt
Calibration ron values
rontest.txt
Test ron values
Xcal.txt
Calibration spectra in matrix form
Xtest.txt
Test spectra in matrix form
Samples selected by Kennard-Stone algorithm
roncal_ks.txt
Calibration ron values
rontest_ks.txt
Test ron values
Xcal_ks.txt
Calibration spectra in matrix form
Xtest_ks.txt
Test spectra in matrix form
--------------------------------------------------------------------------------------Working with random sample selection:
Spectral regions: 220 450
Data type: Matrix
Other: Use mean-centering and MSC. Check for CV outliers with 5 factors,
discard samples 24 and 25, use 3 factors (CV) and get 0.2% of REP on new samples.
-------------------------------------------------------------------------------------FOR MORE DETAILS PLEASE REFER TO:
A new family of genetic algorithms for wavelength interval selection in multivariate
analytical spectroscopy, Goicoechea, HC, Olivieri, AC,
J. Chemometrics 17, 338-345 (2003).
--------------------------------------------------------------------------------------
220 - 450
Descartar #24 y #25
Observar mejora en
parámetros de calibración
Predicciones
Selección de variables
250-290
330-390
No mejora predicción
Determinación de
bromhexina en jarabe
para la tos
Datos
•12 espectros de calibración (según Table 1) contenidos en „Xcal.txt‟ (concentraciones
en „ycal.txt‟). El número de longitudes de onda es igual a 64 (285-348 nm).
•11 espectros de validación: „Xtest.txt‟ (concentraciones en „ytest.txt‟).
Aplicación de MVC1
Cross-validation
Concentraciones predichas en Ytest
La muestra 3 es detectada como un outlier, pero en realidad corresponde a
una muestra “blanco”. De todos modos se podría excluir de la calibración.
Preprocesamiento
• Mean centering is applied by default as preprocessing, although a variety of
other techniques is available.
To apply spectral derivation, simply click on 'Derivative' and select the derivative
order, and the polynomial degree and number of points to apply the SavitzkyGolay method. One alternative is, for first derivative:
Descargar