Tema 8. Fundamentos de Análisis discriminante

Anuncio
Máster en Técnicas Estadísticas
Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero.
Tema 8. Fundamentos de Análisis discriminante
8.1. Introducción.
Empezamos deniendo el problema discriminante. Resumidamente se puede decir que el problema discriminante consiste en establecer reglas de diagnóstico que permitan clasicar a un
individuo en alguno de dos o más grupos bien denidos. El ejemplo paradigmático sería la diagnosis entre enfermos y sanos en Medicina. Para fundamentar la decisión de diagnóstico se
emplean ciertas observaciones del individuo: presencia de síntomas, análisis de sangre y otras
pruebas diagnósticas. Estas pruebas son útiles para el diagnóstico en la medida en que aportan
resultados diferentes para los individuos enfermos respecto de los sanos.
Esta situación da lugar a varias tareas, según el objetivo que se persiga:
1. Determinar la presencia de diferencias entre los grupos.
2. Determinar qué variables permiten discriminar mejor entre los grupos, en base a las diferencias que presentan entre ellos.
3. Construir la regla discriminante en base a una muestra de entrenamiento.
4. Asignar un individuo a cierto grupo en base a la regla discriminante, bien la regla óptima
o bien estimada en base a una muestra de entrenamiento.
La primera tarea se resuelve mediante un Análisis (multivariante) de la varianza, mientras que
las otras tres son especícas del Análisis discriminante. La segunda tarea es objeto del Análisis
Factorial Discriminante. Por último, las tareas tercera y cuarta, de estimación y aplicación de
la regla discriminante han dado lugar a una gran cantidad de técnicas.
Realmente la construcción de una regla discriminante y su aplicación constituye una cuestión
de gran calado dentro de la teoría de la decisión y la inferencia estadística. Por ello, aunque
el Análisis discriminante se puede considerar como una técnica de Análisis multivariante, su
importancia supera ampliamente a la de otras técnicas, como las estudiadas anteriormente. El
Análisis discriminante se puede considerar en sí mismo como una rama de la Estadística.
8.2. Dos grupos con distribuciones conocidas.
Suponemos la existencia de dos grupos G1 y G2 , denidos de manera inequívoca. Consideramos
un vector aleatorio X que presenta funciones de densidad o de probabilidad f1 si el individuo
procede del grupo G1 y f2 si procede del grupo G2 . Utilizaremos el valor observado del vector
aleatorio X para decidir si un individuo pertenece a uno u otro grupo. Esto supone dividir el
soporte del vector X mediante una partición en dos regiones R1 y R2 : R = R1 ∪R2 y R1 ∩R2 = ∅,
de modo que clasicaremos al individuo en el grupo G1 si X ∈ R1 y en el grupo G2 si X ∈ R2 . En
77
Máster en Técnicas Estadísticas
78
realidad, la regla discriminante anterior sería una regla determinista, de modo que una denición
general de regla discriminante, que incluya la posibilidad de aleatorización, sería la siguiente.
Denición Una regla discriminante (aleatorizada) es una aplicación
ϕ : R −→ [0, 1]
x −→ ϕ(x) = P (Clasicar en G1 /X = x)
Una regla discriminante no aleatorizada es de la forma
ϕ(x) =
1 si x ∈ R1
0 si x ∈ R2
En el procedimiento de clasicación podemos cometer dos tipos de errores: clasicar a un individuo que procede del grupo G1 en el grupo G2 , y clasicar a un individuo del grupo G2 en el
grupo G1 . Las probabilidades condicionales de cada uno de estos errores son:
Z
P (2/1) =
y
(1 − ϕ(x)) f1 (x) dx
Z
P (1/2) =
ϕ(x)f2 (x) dx
donde las integrales son sumas en el caso discreto. Si la regla discriminante es no aleatorizada,
entonces las probabilidades anteriores se pueden expresar así:
Z
f1 (x) dx
P (2/1) =
y
Z
f2 (x) dx
P (1/2) =
R1
R2
Nótese cómo el problema discriminante se puede encuadrar dentro de la teoría de la decisión.
Un paso más en esta dirección nos conduce a la comparación de reglas discriminantes.
Denición Una regla discriminante ϕ es preferible a otra ϕ0 si
Pϕ (2/1) ≤ Pϕ0 (2/1)
y
Pϕ (1/2) ≤ Pϕ0 (1/2)
Nota. La relación "ser preferible" es una relación de orden parcial.
Denición Una regla discriminante se dice admisible si no hay ninguna otra regla discrimi-
nante que sea preferible (estrictamente) a ella. Por "`preferible estrictamente"' entendemos que,
además de ser preferible, en alguno de los dos errores de clasicación sea estrictamente mejor.
Teorema 8.1 Sea f1 la función de densidad o de probabilidad, según el caso, del vector aleatorio
X condicionada al grupo G1 y f2 la correspondiente función de densidad o probabilidad condicionada al grupo G2 .
Análisis Multivariante
79
Las reglas discriminantes de la forma

f (x)


>c
1
si 1



f2 (x)


f1 (x)
=c
γ(x) si
ϕ(x) =

f2 (x)



f (x)


si 1
<c
 0
f2 (x)
son admisibles.
Además, son las únicas reglas admisibles.
Demostración.
Es la misma que para el Lema de Neyman-Pearson, en el caso del contraste
de una hipótesis nula simple frente a una alternativa simple.
En lo que sigue veremos cómo distintos criterios permiten la elección de una regla discriminante.
Minimizar la probabilidad total de clasicación incorrecta
Pensemos en una población que se encuentra dividida en individuos pertenecientes al grupo G1
e individuos pertenecientes al grupo G2 , con proporciones respectivas π1 y π2 = 1 − π1 . Así, π1
y π2 se convierten en probabilidades originales de pertenencia a cada grupo, antes de observar
el vector aleatorio X . En consecuencia, la probabilidad total de clasicación incorrecta es:
P (R, f ) = π1 P (2/1) + π2 P (1/2)
denotando R = (R1 , R2 )0 al vector de regiones de clasicación y f = (f1 , f2 )0 al vector de
densidades. Nuestro objetivo será adoptar una regla de clasicación que presente la menor
probabilidad total de clasicación incorrecta. Recurrimos a un lema que nos ayudará en este
propósito.
Lema La integral
R
R g(x) dx
alcanza su mínimo como función de R en R− = {x : g(x) < 0}.
Demostración
Denotemos R+ = (R− )c = {x : g(x) ≥ 0}. Para cualquier conjunto R, se tiene
Z
Z
Z
g(x) dx =
R
g(x) dx +
−
ZR∩R
Z
=
g(x) dx −
R−
Z
g(x) dx ≥
Z
g(x) dx ≥
R∩R+
Rc ∩R−
g(x) dx
R∩R−
g(x) dx
R−
lo cual concluye la demostración del presente lema.
Desarrollando la probabilidad total de clasicación incorrecta, obtenemos
Z
P (R, f ) = π1 P (2/1) + π2 P (1/2) = π1 (1 −
Z
= π1 +
[π2 f2 (x) − π1 f1 (x)] dx
R1
Z
f1 (x) dx) + π2
R1
f2 (x) dx
R1
Máster en Técnicas Estadísticas
80
Por el lema anterior, como función de R1 alcanza su mínimo en R1 = {x : π2 f2 (x)−π1 f1 (x) < 0},
que se corresponde con la regla de clasicación que asigna al grupo G1 si
f1 (X)
π2
>
f2 (X)
π1
y al grupo G2 en otro caso. La asignación en la frontera de R1 no debería ser relevante, ya
que no afecta a la probabilidad total. Sin embargo, esto puede dar lugar a varias reglas con la
misma probabilidad total. Pero si el vector X es continuo y se cumple alguna otra condición
más, P (f1 (X)/f2 (X) = π2 /π1 ) = 0, por lo que serían reglas equivalentes.
Ejemplo. Supongamos que fi es la densidad de N (µi , Σi ), con Σ1 = Σ2 = Σ. Vamos a calcular
la regla de clasicación óptima con el criterio anterior y las correspondientes probabilidades de
clasicación incorrecta. Las densidades adoptan la forma
−p/2
fi (x) = (2π)
−1/2
|Σ|
1
0 −1
exp − (x − µi ) Σ (x − µi )
2
y su cociente será
f1 (x)
f2 (x)
1
1
= exp − (x − µ1 )0 Σ−1 (x − µ1 ) + (x − µ2 )0 Σ−1 (x − µ2 )
2
2
1
0 −1
0 −1
= exp (µ1 − µ2 ) Σ x − (µ1 − µ2 ) Σ (µ1 + µ2 )
2
Tomando logaritmos, la regla de clasicación óptima asigna al grupo G1 si
1
D(x) = λ x − (µ1 + µ2 ) > log(π2 /π1 )
2
0
siendo λ = Σ−1 (µ1 − µ2 ). La ecuación D(x) = log(π2 /π1 ) dene un hiperplano que separa los
dos grupos.
Para calcular las probabilidades de clasicación incorrecta, observamos que, condicionado a cada
grupo, la variable aleatoria D(X) tiene distribución normal. Su media y varianza condicionadas
son
1
1
E[D(X)/G1 ] = λ0 µ1 − (µ1 + µ2 ) = ∆2
2
2
V ar[D(X)/G1 ] = V ar[λ0 X/G1 ] = λ0 Σλ = ∆2
denotando ∆2 = (µ1 −µ2 )0 Σ−1 (µ1 −µ2 ) = λ0 (µ1 −µ2 ) al cuadrado de la distancia de Mahalanobis
entre las medias µ1 y µ2 . Entonces
D(X) − ∆2 /2
log(π2 /π1 ) − ∆2 /2
P (2/1) = P [D(X) ≤ log(π2 /π1 )/G1 ] = P
≤
/G1
∆
∆
log(π2 /π1 ) − ∆2 /2
= Φ
∆
Análisis Multivariante
81
De igual modo, E[D(X)/G2 ] = − 12 ∆2 y V ar[D(X)/G2 ] = ∆2 , y así:
D(X) + ∆2 /2
log(π2 /π1 ) + ∆2 /2
P (1/2) = P [D(X) > log(π2 /π1 )/G2 ] = P
>
/G2
∆
∆
log(π2 /π1 ) + ∆2 /2
= 1−Φ
∆
La probabilidad total de clasicación incorrecta queda:
P ("Clasicación incorrecta") = π1 P (2/1) + π2 P (1/2)
log(π2 /π1 ) − ∆2 /2
log(π2 /π1 ) + ∆2 /2
= π1 Φ
+ π2 1 − Φ
∆
∆
Si π1 = π2 = 21 , entonces la regla discriminante consiste en clasicar en G1
si D(x) = λ0 [x − 21 (µ1 + µ2 )] > log(π2 /π1 ) = 0, o equivalentemente, si
λ0 x >
1 0
λ µ 1 + λ 0 µ2
2
esto es, si λ0 x está más próximo a λ0 µ1 que a λ0 µ2 . A esto se le conoce como regla discriminante
lineal de Fisher (1936).
Ejemplo. En el ejemplo anterior, supongamos que Σ1 6= Σ2 . Entonces
Q(x) = log(f1 (x)/f2 (x))
1
log(|Σ2 |/|Σ1 |) −
=
2
1
=
log(|Σ2 |/|Σ1 |) −
2
1
1
0 −1
(x − µ1 )0 Σ−1
1 (x − µ1 ) + (x − µ2 ) Σ2 (x − µ2 )
2
2
1 0 −1
−1
−1
0
x (Σ1 − Σ−1
2 )x − 2x (Σ1 µ1 − Σ2 µ2 )
2
y la regla óptima clasica en G1 si Q(X) > log(π2 /π1 ). Pero, mientras D(x) es una función
lineal, ahora Q(x) es una función cuadrática, de modo que la frontera entre las dos regiones ya
no es un hiperplano.
Razón de verosimilitudes
Nos situamos en el contexto en que las probabilidades a priori, π1 y π2 , son desconocidas o
sencillamente no se tienen en cuenta. Una regla de clasicación debería asignar un individuo al
grupo más verosímil, que es aquel que otorga mayor probabilidad a su resultado muestral. Esto
equivale a clasicar en el grupo G1 si f1 (X)/f2 (X) > 1, lo cual coincide con el criterio anterior
para π1 = π2 = 1/2.
Minimizar el coste total de clasicación incorrecta
Si asociamos unos costes C(2/1) y C(1/2) a cada uno de los errores de clasicación, entonces el
coste total esperado es
C = π1 P (2/1)C(2/1) + π2 P (1/2)C(1/2)
Podemos repetir los argumentos que obtuvieron la regla que minimiza la probabilidad total
de clasicación incorrecta sustituyendo π1 y π2 por π1 C(2/1) y π2 C(1/2), ya que en aquellos
Máster en Técnicas Estadísticas
82
argumentos no se usó que π1 + π2 = 1. Así, obtendremos que la regla que hace mínimo el coste
total esperado consiste en clasicar en el grupo G1 si
f1 (X)
π2 C(1/2)
>
f2 (X)
π1 C(2/1)
Por supuesto, si C(2/1) = C(1/2), coincide con el criterio que minimiza la probabilidad total de
clasicación incorrecta.
Maximizar la probabilidad a posteriori
Consideramos la probabilidad de que el individuo proceda del grupo G1 , conocido el valor del
vector aleatorio X . Dicha probabilidad se conoce como probabilidad a posteriori y se puede
calcular mediante el teorema de Bayes:
P (G1 /X = x0 ) =
π1 f1 (x0 )
π1 f1 (x0 ) + π2 f2 (x0 )
La probabilidad a posteriori del grupo G2 se dene y obtiene de la misma manera:
P (G2 /X = x0 ) =
π2 f2 (x0 )
π1 f1 (x0 ) + π2 f2 (x0 )
Una regla de clasicación razonable asignaría al grupo con mayor probabilidad a posteriori, esto
es, clasicaría en el grupo G1 si
P (G1 /X) > P (G2 /X)
lo cual coincide con f1 (X)/f2 (X) > π2 /π1 .
Criterio minimax
Un procedimiento que minimice la probabilidad total de clasicación incorrecta puede no prestar
suciente atención a uno de los grupos, en especial si su probabilidad a priori es pequeña. Por
ejemplo, esto ocurre en el problema de diagnosis de una enfermedad poco frecuente, donde la
probabilidad de un falso negativo puede ser alta sin afectar mucho a la probabilidad total de
clasicación incorrecta.
Esto constituye una justicación para el uso de un criterio más conservador, como es el minimax.
En este caso, escogemos la regla tal que el máximo de sus dos probabilidades de clasicación
incorrecta sea mínima. Consideremos P una regla de clasicación cualquiera. Entonces
max{P (2/1), P (1/2)} ≥ (1 − α)P (2/1) + αP (1/2) ≥ (1 − α)Pα (2/1) + αPα (1/2)
∀α ∈ [0, 1]
siendo Pα la regla de clasicación que asigna a G1 si f1 (X)/f2 (X) > α/(1 − α). La primera
desigualdad anterior es inmediata y la segunda se debe a que Pα es la regla que hace mínima la
probabilidad total de clasicación incorrecta bajo la distribución a priori: π1 = α, π2 = 1 − α.
Tomemos c =
α0
1−α0
(o equivalentemente, α0 ) de modo que Pα0 (2/1) = Pα0 (1/2). Entonces
max{P (2/1), P (1/2)} ≥ (1 − α0 )Pα0 (2/1) + α0 Pα0 (1/2) = (1 − α0 + α0 )Pα0 (2/1)
= Pα0 (2/1) = max{Pα0 (2/1), Pα0 (1/2)}
Análisis Multivariante
83
lo cual demuestra que Pα0 es la regla minimax.
En consecuencia, la regla minimax será la que clasica en el grupo G1 si f1 (X)/f2 (X) > c, siendo
c tal que Pc (2/1) = Pc (1/2).
Ejemplo. Si las dos distribuciones condicionadas a cada grupo son normales con la misma
matriz de covarianzas, la regla de clasicación minimax asigna al grupo G1 si
D(X) > log c
siendo c tal que
log c − ∆2 /2
log c + ∆2 /2
Φ
=1−Φ
∆
∆
Esta ecuación tiene solución log c = 0, o lo que es lo mismo, c = 1, lo cual coincide con el criterio
de la razón de verosimilitudes.
Ejemplo. Una población se encuentra dividida en dos grupos G1 y G2 . Se realiza una observación de una variable que tiene distribución exponencial, cuyo parámetro depende del grupo.
Si procede del grupo G1 el parámetro es 1, y si procede del grupo G2 el parámetro es 2.
a. Supongamos una distribución a priori equiprobable sobre los dos grupos. Calcula la regla
que minimiza la probabilidad de clasicación incorrecta. ¾Cuál es ese valor mínimo de la
probabilidad de clasicación incorrecta?
b. Calcula la regla de clasicación óptima con el criterio minimax.
Ejemplo. Consideremos una población dividida en dos grupos. A cada individuo de la población
le podemos observar una variable aleatoria discreta que toma valores 1,2,3,4 y 5, con probabilidades respectivas 0'05, 0'15, 0'5, 0'25, 0'05 para el primer grupo y 0'3, 0'1, 0'1, 0'1, 0'4 para el
segundo grupo.
a. Suponiendo una distribución a priori equiprobable entre los dos grupos, determina la regla
discriminante que hace mínima la probabilidad total de clasicación incorrecta.
b. Determina la regla discriminante óptima con el criterio minimax.
8.3. Estimación de la regla discriminante.
La situación más común en la práctica consiste en que desconocemos las distribuciones de X
condicionales a cada uno de los grupos. En su lugar disponemos de muestras procedentes de
cada grupo,
X11 , . . . , X1n1 del grupo G1
X21 , . . . , X2n2 del grupo G2
conocidas como muestras de entrenamiento, que nos sirven para estimar la regla discriminante,
por lo general, a través de estimaciones de las distribuciones respectivas:
(
R̂1 =
)
fˆ1 (x)
x:
>c
fˆ2 (x)
Máster en Técnicas Estadísticas
84
Si se supone algún modelo paramétrico para las distribuciones, que podemos representar en la
forma f1 (x) = f1 (x/θ1 ) y f2 (x) = f2 (x/θ2 ), los estimadores serían fˆ1 (x) = f1 (x/θ̂1 ) y fˆ2 (x) =
f2 (x/θ̂2 ), donde θ̂1 y θ̂2 representan estimadores de los parámetros. En ausencia de modelo
paramétrico, fˆ1 (x) y fˆ2 (x) serían algún tipo de estimador no paramétrico de la densidad.
La regla discriminante estimada, R̂ = (R̂1 , R̂2 ), se aplicaría más adelante para clasicar a un
nuevo individuo en uno u otro grupo, en base a su resultado en el vector X .
En la sección anterior vimos que la regla discriminante óptima era R = (R1 , R2 ), donde las
regiones de clasicación R1 y R2 dependían de las verdaderas funciones f1 y f2 . Como f1 y f2
son desconocidas, hemos tenido que sustituirlas por estimaciones fˆ1 y fˆ2 obteniendo una regla
que ya no será óptima. Nuestra esperanza reside en que sea parecida a la regla óptima.
Nos interesa conocer cómo afecta la estimación de la regla discriminante a los errores de clasicación. Debemos distinguir entre:
Tasas de error óptimas Son las probabilidades de error de la regla discriminante óptima. Las
denotamos
Z
ei,opt =
fi (x) dx
i = 1, 2 j 6= i
Rj
eopt = π1 e1,opt + π2 e2,opt
Tasas de error efectivas Son las probabilidades de error de la regla discriminante estimada.
Z
fi (x) dx
ei,ef e =
i = 1, 2 j 6= i
R̂j
eef e = π1 e1,ef e + π2 e2,ef e
Nótese que las regiones (R̂1 , R̂2 ) se obtienen de las muestras de entrenamiento. En la
medida en que estas muestras son aleatorias, las regiones de clasicación serán aleatorias, y
también lo serán las tasas de error efectivas. Por tanto, tiene sentido calcular su esperanza.
Esperanza de las tasas de error efectivas No son más que la esperanza de las tasas de er-
ror anteriores, calculadas respecto de la distribución de probabilidad de las muestras de
entrenamiento: E(ei,ef e ) y
E(eef e ) = π1 E(e1,ef e ) + π2 E(e2,ef e )
Es inmediato que
ei,opt ≤ ei,ef e
y
eopt ≤ eef e
Las tasas de error óptimas se reeren a la situación ideal en la que las distribuciones de cada
grupo son conocidas. Sin embargo, en el caso que nos ocupa, las que tienen mayor interés son las
tasas de error efectivas, pues representan las probabilidades de error en las que se va a incurrir
cuando se clasique a un nuevo individuo mediante la regla estimada. Por desgracia, las tasas
de error efectivas son desconocidas ya que dependen de f1 y f2 , que representan la distribución
de la nueva observación. Planteamos los siguientes estimadores de las tasas de error efectivas:
Análisis Multivariante
85
Estimadores plug-in Se obtienen sustituyendo f1 y f2 por fˆ1 y fˆ2 .
Z
fˆi (x) dx
ei,pl =
i = 1, 2 j 6= i
Rj
Tasas de error aparentes Si a cada individuo de la muestra de entrenamiento le aplicamos
la regla discriminante estimada tendremos algunos individuos bien clasicados y otros
mal clasicados. Pues bien, las tasas de error aparentes son las frecuencias relativas de
observaciones mal clasicadas.
ei,apa =
mi
ni
i = 1, 2
siendo mi el número de individuos de la muestra de entrenamiento procedente del grupo
Gi que son mal clasicados por la regla estimada. Las tasas de error aparentes tienden
a infraestimar las tasas de error efectivas ya que estamos aplicando la regla estimada a
los mismos datos con los que ha sido construida. El mismo fenómeno ocurre con los
estimadores plug-in, ya que entre la regla estimada y fˆi hay una relación de optimalidad
que no se cumple con las tasas de error efectivas. Por este motivo, se proponen correcciones
de las tasas de error aparentes.
Corrección por validación cruzada Consiste en construir la regla discriminante con todas las
observaciones menos una, y aplicar después esa regla para clasicar al individuo omitido.
Las tasas de error se calcularían después como las frecuencias relativas de individuos mal
clasicados.
Corrección mediante bootstrap Se trata de una corrección del sesgo de las tasas de error
aparentes. Siguiendo las ideas del bootstrap, extraemos muestras articiales de la forma:
∗
∗
X11
, . . . , X1n
i.i.d. de la distribución equiprobable sobre X11 , . . . , X1n1
1
∗
∗
X21
, . . . , X2n
i.i.d. de la distribución equiprobable sobre X21 , . . . , X2n2
2
Sobre las muestras articiales aplicamos los mismos procedimientos de estimación de la
regla discriminante y cálculo de las tasas de error aparentes, m∗1 /n1 y m∗2 /n2 , siendo m∗i el
número de individuos de la muestra bootstrap, del grupo Gi , que han sido mal clasicados
por la regla estimada bootstrap. Denotemos morig
al número de individuos de la muestra
i
original que son mal clasicados por la regla bootstrap. La estimación bootstrap del sesgo
sería:
!
E∗
morig
m∗i
− i
ni
ni
donde E ∗ denota la esperanza respecto del muestreo bootstrap, que en la práctica se puede
aproximar mediante la media obtenida tras extraer muchas muestras bootstrap.
La corrección bootstrap del sesgo daría lugar a las tasas de error siguientes:
mi
− E∗
ni
morig
m∗i
− i
ni
ni
!
Máster en Técnicas Estadísticas
86
A partir de cualquiera de las tasas de error anteriores, también se puede estimar la probabilidad
total de clasicación incorrecta. Para ello, podemos suponer que las probabilidades a priori π1
y π2 son conocidas, o en otro caso se pueden estimar mediante las proporciones n1 /(n1 + n2 ) y
n2 /(n1 +n2 ), suponiendo que las dos muestras han sido extraídas al azar de la población formada
al juntar los dos grupos.
Ejemplo. Supongamos dos muestras de entrenamiento
X11 , . . . , X1n1 ∈ N (µ1 , Σ) del grupo G1
X21 , . . . , X2n2 ∈ N (µ2 , Σ) del grupo G2
Estamos ante dos distribuciones normales con la misma matriz de covarianzas, por lo que, según
hemos visto en la sección anterior, la regla de clasicación óptima asignaría a un nuevo individuo
al grupo G1 si
1
D(x) = λ0 x − (µ1 + µ2 ) > log c
2
siendo λ = Σ−1 (µ1 − µ2 ).
Como µ1 , µ2 y Σ son desconocidos,
los sustituimos
por sus estimaciones en base a las muestras
−1 Pn2
−1 Pn1
de entrenamiento x̄1 = n1
i=1 x2i y
i=1 x1i , x̄2 = n2
Sc =
siendo Sc1 = (n1 − 1)−1
Pn1
La regla estimada resulta
i=1 (x1i
(n1 − 1)Sc1 + (n2 − 1)Sc2
n1 + n2 − 2
− x̄1 )(x1i − x̄1 )0 , y análogamente Sc2 .
1
D̂(x) = λ̂ x − (x̄1 + x̄2 ) > log c
2
0
siendo λ̂ = Sc−1 (x̄1 − x̄2 ).
Las tasas de error efectivas serían
e1,ef e = Φ
log c − D̂(µ1 )
p
λ̂0 Σλ̂
!
y
e2,ef e = Φ
− log c + D̂(µ2 )
p
λ̂0 Σλ̂
!
Sustituyendo en las expresiones anteriores µ1 , µ2 y Σ por sus estimaciones, obtenemos las estimaciones plug-in de las tasas de error
e1,pl = Φ
ˆ 2 /2
log c − ∆
ˆ
∆
!
y
e2,pl = Φ
ˆ 2 /2
− log c − ∆
ˆ
∆
!
ˆ 2 = (x̄1 − x̄2 )0 Sc−1 (x̄1 − x̄2 ) es el cuadrado de la distancia de Mahalanobis en términos
donde ∆
muestrales. Como ocurre en general, los estimadores ei,pl no son buenos estimadores de ei,ef e .
˜ en lugar de ∆
ˆ en la expresión de ei,pl , siendo
Para corregirlos se ha propuesto utilizar ∆
ˆ2
˜ 2 = n1 + n2 − d − 3 ∆
∆
n1 + n2 − 2
Análisis Multivariante
87
Por supuesto, también se pueden llevar a cabo las estimaciones mediante las tasas de error
aparentes, así como sus correcciones por validación cruzada o por bootstrap.
Bibliografía.
Peña, D. (2002). Análisis de datos multivariantes. McGraw-Hill.
Seber, G.A.F. (1984). Multivariate observations. Wiley.
Descargar