Tema 9. Análisis factorial discriminante

Anuncio
Máster en Técnicas Estadísticas
Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero.
Tema 9. Análisis factorial discriminante
9.1. Introducción.
Supongamos que están denidos I grupos, y queremos construir una regla discriminante que
permita clasicar en alguno de los grupos en función del resultado de un vector aleatorio X .
Consideramos π1 , . . . , πI la distribucion a priori sobre los I grupos, y f1 , . . . , fI las funciones de
densidad o probabilidad de X condicionadas a cada uno de los grupos. La regla discriminante
óptima consistirá en
Clasicar en el grupo g si
πg fg (x) =
max πi fi (x)
i∈{1,...,I}
(9.1)
Esta regla es la que clasica en el grupo con mayor probabilidad a posteriori, y es la regla de
máxima verosimilitud si se omiten las probabilidades a priori.
Pensemos que los grupos tienen las mismas probabilidades a priori, y que la distribuciones fi
son normales de medias µ1 , . . . , µI , y con la misma matriz de covarianzas Σ. Entonces la regla
anterior se reduce a
Clasicar en el grupo g si
(x − µg )0 Σ−1 (x − µg ) =
min
i∈{1,...,I}
(x − µi )0 Σ−1 (x − µi )
esto es, se clasica la observación x en el grupo cuya media está más próxima, bajo la distancia
de Mahalanobis.
Cuando sólo hay dos grupos, hemos visto que esta regla es equivalente a efectuar la transformación
lineal λ0 x (siendo λ = Σ−1 (µ1 − µ2 )) y clasicar en el grupo 1 si λ0 x está más próximo a
λ0 µ1 que a λ0 µ2 . Cuando hay varios grupos, la regla discriminante también se convierte en un
criterio lineal, aunque necesitaremos más de una transformación lineal. Además, será posible
reducir la dimensión, escogiendo únicamente unas pocas transformaciones lineales, que permitan
discriminar lo mejor posible entre los grupos. Los métodos que vamos a exponer han sido
desarrollados por Fisher, y se les conoce como análisis factorial discriminante.
9.2. Clasicación óptima de varias poblaciones normales.
Pensemos que se dispone de una muestra procedente de cada grupo
X11 · · · X1 n1
··· ··· ···
XI1 · · · XI nI
de una población Nd (µ1 , Σ1 )
···
···
de una población Nd (µI , ΣI )
Nótese que partimos de un modelo de análisis multivariante de la varianza con matrices de covarianzas desiguales. Debemos decir también que se ha cambiabo la notación de las observaciones,
89
Máster en Técnicas Estadísticas
90
que eran Yij en el tema de análisis multivariante de la varianza, para mantener coherencia con
la notación del análisis discriminante.
En esta situación, suponiendo unas probabilidades a priori π1 , . . . , πI , la regla óptima dada por
la expresión (9.1), se puede reducir a
Clasicar en el grupo g si
siendo
dQ
g (x) =
max dQ
i (x)
i∈{1,...,I}
1
1
dQ
(x − µi )0 Σ−1
i (x) = − log |Σi | −
i (x − µi ) + log πi
2
2
∀i ∈ {1, . . . , I}
Las funciones dQ
i (x) se pueden denominar funciones de clasicación, pues para clasicar a
un individuo con observación x, se calculan las funciones de clasicación que le corresponden
en cada grupo, dQ
i (x), y se asigna al grupo cuya función sea más grande. El superíndice Q en
Q
di (x) se debe a que estas funciones son cuadráticas, pues como ya vimos en el tema anterior,
si las matrices de covarianzas son diferentes dentro de cada grupo, entonces la regla óptima es
cuadrática.
La muestra anterior servirá para estimar la regla discriminante, sustituyendo en las funciones de
clasicación los vectores de medias y las matrices de covarianzas por sus análogos empíricos,
0
1
1
x − X̄i• Si−1 x − X̄i• + log πi
dˆQ
i (x) = − log |Si | −
2
2
∀i ∈ {1, . . . , I}
Si se puede suponer que las matrices de covarianzas dentro de cada grupo son iguales, esto
es, Σ1 = · · · = ΣI = Σ, entonces en las funciones de clasicación se puede suprimir la parte
cuadrática, pues es la misma para todos los grupos, y resultan las siguientes funciones de clasicación lineales:
1
di (x) = µ0i Σ−1 x − µ0i Σ−1 µi + log πi
2
∀i ∈ {1, . . . , I}
que se estiman mediante
1 0 −1
0 −1
dˆi (x) = X̄i•
S x − X̄i•
S X̄i• + log πi
∀i ∈ {1, . . . , I}
2
P
donde S = (n − I)−1 Ii=1 (ni − 1)Si es la estimación de la matriz de covarianzas común.
0 S −1 y las constantes
En estas funciones lineales los coecientes vienen dados por los vectores X̄i•
1 0 −1
se obtienen de log πi − 2 X̄i• S X̄i• .
9.3. Factores discriminantes.
En la sección anterior vimos la solución óptima y su estimación para la discriminación entre varias
poblaciones normales. Además de lo anterior, el procedimiento de clasicación entre poblaciones
normales se puede presentar desde un enfoque más intuitivo o descriptivo.
Situémonos en el modelo de análisis multivariante de la varianza, con la misma matriz de covarianzas dentro de cada grupo. Recordemos que en este contexto la matriz de covarianzas (mejor
Análisis Multivariante
91
dicho, de sumas de cuadrados y sumas de productos) que mide la variabilidad entre grupos se
calcula así:
H=
ni
I X
X
X̄i• − X̄••
X̄i• − X̄••
0
i=1 j=1
mientras que la variabilidad dentro de cada grupo se calcula así:
E=
I
X
i=1
(ni − 1) Si =
ni
I X
X
Xij − X̄i•
Xij − X̄i•
0
i=1 j=1
Nótese que la matriz de covarianzas dentro de los grupos se estima mediante S = E/(n − I).
Supongamos que se desea reducir la dimensión del problema, y construir una regla de clasicación
basada únicamente en el valor que adopte un factor, calculado proyectando todas las variables
en cierta dirección.
Entonces la idea es tomar esa dirección como aquella que mantiene la mayor separación posible
entre los grupos, haciendo grande la variabilidad entre grupos (entre sus medias) en comparación
con la variabilidad dentro de cada grupo. Esta idea se puede formalizar en el siguiente problema
de optimización
Max
α0 Hα
α0 Eα
El vector α en el que se alcance el máximo será el autovector de la matriz√E −1 H asociado
a su mayor autovalor. Si lo estandarizamos de la siguiente manera b1 = n − Iα/(α0 Eα),
conseguiremos que b01 Sb1 = 1. En este momento denimos el primer factor discriminante
como Z1 = b01 X , siendo X el vector aleatorio constituido por las variables que sirven para la
clasicación. Nótese que b01 Sb1 sirve como estimación de la varianza que presenta el primer
factor discriminante, condicionado a cada grupo. Por tanto, al imponer que b01 Sb1 = 1 estamos
obteniendo un factor cuya varianza intra-grupo valdría uno. Por supuesto, esto es válido en la
medida en que los datos de entrenamiento cumplan el modelo homocedástico.
Se pueden calcular las puntuaciones de los individuos que componen la muestra de entrenamiento,
sin más que proyectar en la dirección b1 , lo cual se obtiene así Z1ij = b01 Xij . Las puntuaciones
de un grupo concreto, por ejemplo el g , serían Z1gj con j ∈ {1, . . . , ng } y por lo que dijimos
anteriormente, este conjunto de puntuaciones deberían tener varianza muestral parecida a uno.
No será exactamente porque S no es exactamente igual a Si .
Para una futura observación de la que se conoce el valor de las variables, x, se puede calcular
su puntuación z1 = b01 x. Además, si hubiera que construir una regla discriminante basada en
este valor z1 = b01 x, la idea sería clasicar al nuevo individuo en el grupo cuya media proyectada
b01 X̄i• le quede más cercana (en distancia usual). Aquí no hay que tener en cuenta diferentes
varianzas, porque el factor está estandarizado para tener varianza intra-grupo igual a uno, y en
principio se supone que las probabilidades a priori son iguales.
Claro está que esta reducción de dimensión en la regla discriminante puede conducir a pérdidas
considerables en las probabilidades de asignación correcta. En cualquier caso, esta primera
dimensión es la que permite mantener más separados los datos de la muestra de entrenamiento,
y sería la mejor opción si hubiera que optar por una regla basada en la proyección sobre una
única dirección.
Máster en Técnicas Estadísticas
92
Ahora bien, para no perder capacidad de discriminación, se puede avanzar en los autovalores
de la matriz E −1 H . Así, se puede denir el segundo factor discriminante como Z2 = b02 X ,
siendo b2 autovector de E −1 H asociado a su segundo mayor autovalor y normalizado de modo
que b02 Sb2 = 1. Además verica que b02 Sb1 = 0. La consecuencia es que el par formado por los
dos primeros factores principales (Z1 , Z2 ) tiene como matriz de covarianzas dentro de cada grupo
algo parecido a la identidad. No será exactamente igual a la identidad en la medida en que Si
no sea igual a S . Pero esta propiedad permite construir una regla discriminante basada en los
dos primeros factores discriminantes, y que consistiría en obtener las puntuaciones de una nueva
observación x en los dos primeros factores principales (z1 , z2 ) = (b1 , b2 )0 x y clasicarlo en el grupo
cuya media en el espacio de factores (esta media sería (b1 , b2 )0 X̄i• ) le quede más cercana, con la
distancia usual. Se puede emplear la distancia usual porque en el espacio de factores la matriz
de covarianzas intra-grupo es la identidad, y por tanto la distancia de Mahalanobis coincide con
la distancia usual.
Como resultado obtenemos que los dos factores discriminantes constituyen el plano sobre el que
se deben proyectar las observaciones de la muestra de entrenamiento para mantener la mayor
separación entre los grupos, y la regla anterior es la mejor opción para la clasicación basada en
la proyección sobre un plano.
El proceso de construcción de factores discriminantes puede continuar hasta que se alcance, o
bien el número de variables d (pues las matrices H y E son matrices d×d) o el rango de la matriz
H , que es (I − 1). Denotemos entonces s = min{d, I − 1} al número de factores discriminantes.
Si se emplean los s factores discriminantes, tendríamos las puntuaciones de los individuos de
la muestra de entrenamiento en los factores, Zij = B 0 Xij , siendo B = (b1 , b2 , . . . , bs ) la matriz
cuyas columnas son los autovectores normalizados. Asimismo, se pueden obtener las puntuaciones
medias de cada grupo, en ocasiones denominadas como centroides: Z̄i• = B 0 X̄i• . Ahora la regla
de clasicación para una nueva observación consistiría en calcular sus puntuaciones z = B 0 x y
2
Clasicar en el grupo g si z − Z̄g• =
siendo kz − Z̄g•
k2
min
i∈{1,...,I}
z − Z̄i• 2
el cuadrado de la distancia usual entre z y Z̄g• .
Se puede demostrar que este procedimiento coincide con la regla discriminante presentada en la
sección anterior, basada en funciones lineales discriminantes, en el caso de que las probabilidades
a priori sean todas iguales.
En el caso más general, en que las probabilidades a priori son cualesquiera π1 , . . . , πI , con la única
condición de que π ≥ 0 y π1 + · · · + πI = 1, y permitiendo además que las matrices covarianzas
intra-grupo sean diferentes, también se puede construir la regla de clasicación utilizando las
puntuaciones en los factores discriminantes. Para ello, se calculan las probabilidades a posteriori,
de la siguiente manera:
πg |Dg |−1/2 exp{−d2g /2}
P (”Procede del grupo g”/x) = PI
−1/2 exp{−d2 /2}
i=1 πi |Di |
i
siendo
Di = B 0 Si B
la matriz de covarianzas de los factores dentro del grupo i, y
0
d2i = z − Z̄i• Di−1 z − Z̄i•
∀g ∈ {1, . . . , I}
Análisis Multivariante
93
la distancia de Mahalanobis de z al centroide Z̄i• respecto de la matriz Di .
Las probabilidades a posteriori, además del interés que poseen en sí mismas, se pueden emplear
para clasicar, siendo el críterio el de asignación al grupo con mayor probabilidad a posteriori.
Ejemplo 9.1 Sobre los datos de los lirios de Fisher construiremos reglas discriminantes para
clasicar entre las tres especies.
Bibliografía.
Everitt, B. (2005). An R and S-Plus companion to multivariate analysis. Springer.
Johnson, R.A. y Wichern, D.W. (2007). Applied multivariate statistical analysis. Pearson
Education.
Peña, D. (2002). Análisis de datos multivariantes. McGraw-Hill.
Pérez, C. (2004). Tecnicas de análisis multivariante de datos: Aplicaciones con SPSS. Pearson
Educación, S.A.
Descargar