Análisis discriminante

Anuncio
Quimiometría
RECONOCIMIENTO DE PAUTAS
ANÁLISIS DISCRIMINANTE
(Discriminant analysis)
Quimiometría
Reconocimiento de pautas supervisado
si se cuenta con objetos cuya pertenencia a un grupo es conocida
métodos:
análisis de discriminantes
máquina de aprendizaje lineal (linear learning machine)
vecino más próximo (k-nearest neighbor)
SIMCA (soft independent modeling of class analogies)
redes neuronales artificiales
Quimiometría
Máquina de aprendizaje lineal (LLM)
la primera aplicación en química analítica
reconocimiento de pautas supervisado en 1969
del
se empleó para clasificar un espectro de masas con
respecto a las clases de ciertas masas moleculares
la base de la clasificación con la LLM es una función
discriminante que divide el espacio n-dimensional en
regiones que pueden emplearse para predecir la
pertenencia de una muestra de prueba
Quimiometría
Máquina de aprendizaje lineal (LLM)
si se mide una variable, los datos se pueden representar en
un espacio 1-dimensional
decisión: ¿cuál es el valor de corte entre los dos grupos?
el límite se encuentra por iteración
Quimiometría
Reconocimiento de pautas supervisado
modelado de clase disjunta (hard modeling): se intenta
encontrar un límite entre dos o más clases
un objeto pertenece a una clase discreta
se construye un modelo separado para cada clase
modelado suave (soft modeling): dos clases pueden
supersonerse
un objeto puede pertenecer a dos clases
Quimiometría
Análisis discriminante
es un técnica de reconocimiento de pautas supervisado
se debe contar con objetos de entrenamiento o aprendizaje
objetivo:
encontrar una regla de decisión que asigne un objeto
nuevo, cuya pertenencia a un grupo se desconoce, a uno
de los grupos prefijados (con un cierto grado de riesgo)
Quimiometría
Análisis discriminante
restricciones:
son necesarios al menos dos grupos y para cada grupo
dos o más casos
el número de variables discriminantes debe ser menor
que el número de objetos menos 2:
x1, ... ,xp
p < (n − 2)
n es el número de objetos
Quimiometría
Análisis discriminante
restricciones:
el número máximo de funciones discriminantes es igual al
mínimo entre el número de variables y el número de grupos
menos 1
g grupos
(g − 1) funciones discriminantes
ninguna variable discriminante puede ser combinación
lineal de otras variables discriminantes
Quimiometría
Función discriminante lineal
suposiciones:
las variables continuas deben seguir una distribución normal
multivariante
existen diferentes clases de centroides
las varianzas y covarianzas son similares dentro de un grupo
Quimiometría
Análisis discriminante
el límite entre grupos se toma a partir de una función
discriminante lineal
el límite (hiperplano) se calcula de tal manera que:
la varianza entre clases es máxima
la varianza dentro de las clases individuales es mínima
Quimiometría
Análisis discriminante
a partir de:
g grupos
una serie de objetos y de p variables medidas sobre ellos
(x1, … , xp)
se trata de obtener para cada objeto una serie de puntuaciones
que indican el grupo al que pertenecen (y1, ... , yp) de modo
que sean funciones lineales de x1, …, xp
Quimiometría
Análisis discriminante
no hay solapamiento
en2las
distribuciones
para los dos grupos
Situación
más sencilla:
clases
y 2 variables:
Y es mejor para discriminar entre los grupos
FDL Y = 0,91X1+ 0,42X2
solapamiento en las distribuciones
para los dos grupos
Quimiometría
Análisis discriminante
para generalizar:
se tiene una matriz X con:
n objetos
p variables
g grupos
x11
x 21
x 31
x 41
x j1
x n1
x 12 ⋯x 1p
x 22 ⋯x 2p g1
x 32 ⋯x 3p
g2
x 42 ⋯x 4p
⋮
x j2 ⋯x jp
gnj
x n2 ⋯x np
Quimiometría
Análisis discriminante
se obtienen los autovectores (a) de la matriz (G-1 H) asociados
a los autovalores elegidos en orden decreciente:
G-1 H a = λ a
λ = autovalor
G = (n - g) C
C: matriz de covarianza
H: matriz de la dispersión de las medias del grupo (xj)
con respecto al promedio (x)
Quimiometría
Función discriminante lineal
a partir del autovector a1 se obtiene la primera FDL (s1)
s1 = a11x1 + a12 x2 + … + a1p xp
con el residual del dato x se calcula la segunda FDL
s2 = a21x1 + a22 x2 + … + a2p xp
se continúa hasta encontrar todas las FDL necesarias
Quimiometría
Análisis discriminante
matriz de confusión:
contiene el número de objetos correctamente clasificados
en cada clase en la diagonal principal
no detecta si un objeto pertenece a más de una clase
asigna pertenencia a un grupo a los objetos atípicos que no
pertenecen a ninguno de los grupos (outliers)
Quimiometría
Análisis discriminante
matriz de correlaciones por grupo (pooled within-groups
correlation matrix):
se calcula como una matriz media de correlaciones
calculadas por separado en cada grupo
a menudo no se parece a la matriz de correlaciones total
Quimiometría
Análisis discriminante
toma de decisiones cuando hay más de dos grupos de objetos:
se supone una distribución normal multivariante
se encuentra una nueva FDL para cada grupo que incluye
un término constante
a partir de estas FDL se calula una puntuación (score) para
cada objeto nuevo (x)
x se asigna al grupo cuya puntuación sea más alta
Quimiometría
Otros métodos de clasificación
análisis discriminante cuadrático: supone que los dos
grupos tienen distribuciones normales pero varianzas
diferentes
clasificación bayesiana: la pertenencia a un grupo tiene una
probabilidad predefinida y se debe calcular la función de
densidad de probabilidad
validación cruzada: método de dejar uno fuera (leave-oneout method) empleada en el Minitab para validar el análisis
discriminante
Quimiometría
Análisis discriminante
Un ejemplo
al investigar un crimen se recogió cabello humano
para intentar resolver el crimen se tomaron muestras de
cabello de tres sospechosos
además de análisis morfológicos, se realizó un análisis
elemental
Quimiometría
Análisis discriminante
Cabello
1
2
3
4
5
6
7
8
9
Cu (ppm)
9,2
12,4
7,2
10,2
10,1
6,5
5,6
11,8
8,5
Mn (ppm)
0,30
0,39
0,32
0,36
0,50
0,20
0,29
0,42
0,25
Cl (ppm)
1730
930
2750
1500
1040
2490
2940
867
1620
Br (ppm)
12,0
50,0
65,3
3,4
39,2
90,0
88,0
43,1
5,2
I (ppm)
3,6
2,3
3,4
5,3
1,9
4,6
5,6
1,5
6,2
Análisis discrimixante
Quimiometría
Se encontraron tres grupos por PCA
Grupo B: 1, 4 y 9
Grupo C: 3, 6 y 7
Grupo A: 2, 8 y 5
Quimiometría
Análisis discriminante
Cabello Grupo Cu (ppm)
1
B
9,2
2
A
12,4
3
C
7,2
4
B
10,2
5
A
10,1
6
C
6,5
7
C
5,6
8
A
11,8
9
B
8,5
Mn (ppm)
0,30
0,39
0,32
0,36
0,50
0,20
0,29
0,42
0,25
Cl (ppm)
1730
930
2750
1500
1040
2490
2940
867
1620
Br (ppm)
12,0
50,0
65,3
3,4
39,2
90,0
88,0
43,1
5,2
I (ppm)
3,6
2,3
3,4
5,3
1,9
4,6
5,6
1,5
6,2
Quimiometría
Análisis discriminante
se realiza un análisis discriminante de los datos con Minitab
Summary of classification (matriz de confusión)
True Group
Put into Group
A
B
C
A
3
0
0
B
0
3
0
C
0
0
3
Total N
3
3
3
N correct
3
3
3
Proportion
1,000 1,000
1,000
N=9
N Correct = 9
Proportion Correct = 1,000
Quimiometría
Análisis discriminante
se realiza un análisis discriminante de los datos con Minitab
Squared Distance Between Groups
A
B
C
A
0,000
141,541
212,893
B
141,541
0,000
149,928
C
212,893
149,928
0,000
Quimiometría
Análisis discriminante
se realiza un análisis discriminante de los datos con Minitab
Linear Discriminant Function for Groups
Constant
Cu (ppm)
Mn (ppm)
Cl (ppm)
Br (ppm)
I (ppm)
A
-307,68
26,52
298,67
0,08
1,95
9,09
B
-293,68
28,00
60,81
0,15
0,43
13,26
C
-475,75
29,93
115,35
0,20
1,80
10,06
Quimiometría
Análisis discriminante
se realiza un análisis discriminante de los datos con Minitab
Puntuaciones discriminantes lineales para cada grupo
PDLA= -307,68+26,56xCu+298,67xMn+0,08xCl+1,95xBr+9,09xI
PDLB= -293,68+28,00xCu+60,81xMn+0,15xCl+0,43xBr+13,26xI
PDLC= -475,75+29,93xCu+115,35xMn+0,20xCl+1,80xBr+10,06xI
Quimiometría
Análisis discriminante
la muestra de cabello encontrada en la escena del crimen tiene
los siguientes valores (en ppm)
Cu=9,2 Mn=0,27
Cl=2200
Br=9,8 I=4,7
A=-307,68+26,56x9,2+298,67x0,27+0,08x2200+1,95x9,8+9,09x4,7
B=-293,68+28,00x9,2+60,81x0,27+0,15x2200+0,43x9,8+13,26x4,7
C=-475,75+29,93x9,2+115,35x0,27+0,20x2200+1,80x9,8+10,06x4,7
PDLA= 255,15
PDLB= 376,87
PDLC= 335,67
Quimiometría
Análisis discriminante
se realiza un análisis discriminante incluyendo el nuevo dato con
Minitab
Prediction for Test Observations
Squared
Observation Pred Group From Group Distance Probability
1
B
A
B
C
249,045
28,162
114,734
El cabello pertenece al sospechoso B
0,000
1,000
0,000
Descargar