FIABILIDAD (V): COMPARACIÓN (NO PARAMÉTRICA) DE

Anuncio
Comparación no paramétrica de muestras
FIABILIDAD (V): COMPARACIÓN
(NO PARAMÉTRICA) DE MUESTRAS
Autores: Ángel A. Juan Pérez (ajuanp@uoc.edu), Rafael García Martín (rgarciamart@uoc.edu).
RELACIÓN CON OTROS MATH-BLOCS__________________________________
Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la Fiabilidad
de componentes desde un punto de vista estadístico:
•
•
•
•
•
•
•
•
Conceptos Básicos (I).
Identificación y descripción gráfica de los datos (II).
Análisis paramétrico de los tiempos de fallo (III).
Análisis no paramétrico de los tiempos de fallo (IV).
Comparación no paramétrica de muestras (V).
Tests de vida acelerada (VI).
Modelos de regresión para observaciones censuradas (VII).
Análisis Probit (Éxito / fracaso) (VIII).
ESQUEMA DE CONTENIDOS___________________________________________
Comparación de 2
grupos
Fiabilidad (V):
Comparación (no
paramétrica) de muestras
Comparación de n
grupos (n > 2)
Ejemplo comparación
grupos (Statistica)
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
1
Comparación no paramétrica de muestras
INTRODUCCIÓN_____________________________________________________
A menudo, puede resultar conveniente usar métodos no paramétricos para comparar los tiempos de
fallo procedentes de diferentes muestras. Así, por ejemplo, en el caso de los portátiles (visto en el
capítulo anterior), podríamos estar interesados en comparar los tiempos de supervivencia de los tres
grupos determinados según el taller de reparación al que corresponde cada observación.
A priori, cuando los tiempos de fallo no se distribuyan según una normal, podría pensarse en utilizar
los métodos no paramétricos clásicos, tales como los métodos Wilcoxon o Mann-Whitney para
comparar dos muestras, o el Kruskal-Wallis para varias muestras. Sin embargo, estos métodos
tradicionales no son válidos cuando las muestras contienen observaciones censuradas, debiendo
recurrir en tales casos a alguno de los métodos no paramétricos específicos que se enuncian en el
siguiente cuadro:
MÉTODOS PARA COMPARAR GRUPOS CON OBSERVACIONES CENSURADAS
Comparación de 2 grupos
Comparación de múltiples grupos
Wilcoxon-Gehan
Cox-Mantel
F-Cox
Log-rank
Wilcoxon-Peto
Wilcoxon-Gehan
generalizado
Cox-Mantel generalizado
La mayoría de estos métodos proporcionarán valores de una v.a. Z que sigue una distribución normal
tipificada (i.e., una N(0,1)); dichos valores se usarán para hacer un contraste de hipótesis sobre la
similitud o no de los grupos. A fin de que los resultados sean estadísticamente fiables, será necesario
disponer de muestras suficientemente numerosas. Es importante observar además que, cuando se
quieran comparar dos o más grupos resulta fundamental examinar primero la proporción de
observaciones censuradas en cada uno de ellos, dado que si dicha proporción difiere de forma
notable según el grupo, los resultados podrían resultar bastante sesgados.
Si bien no hay un criterio general sobre qué método es mejor, a la hora de comparar dos grupos, si
las muestras provienen de una población con distribución Exponencial o Weibull, los métodos CoxMantel y log-rank parecen ofrecer resultados más fiables. El test Wilcoxon-Gehan para múltiples
grupos es una generalización de los métodos Wilcoxon-Gehan. De hecho, cuando se utiliza este test
con sólo dos grupos de muestras, los resultados que se obtienen son los mismos que con el
Wilcoxon-Gehan.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
2
Comparación no paramétrica de muestras
COMPARACIÓN DE 2 GRUPOS___________________________________
Supongamos que se dispone de n1 y n2 observaciones pertenecientes a los grupos 1 y 2:
{(t1i, δ1i)}ni=11 y
donde:
0
δ1i = 
1
si hay censura en t 1i
si hay fallo en t 1i
y
{(t2j, δ2 j)}nj=21
0
δ2j = 
1
si hay censura en t 2j
si hay fallo en t 2j
Sea d = “número total de fallos en ambas muestras”,
(i) Se unen las observaciones procedentes de ambos grupos, y se consideran m instantes
(ordenados) en los cuales se haya producido al menos 1 fallo:
t1 < t 2 < ... < t m con m ≤ d ≤ n1 + n2
(ii) En cada uno de los instantes anteriores, ti , 1 ≤ i ≤ m , se podrán resumir los datos en una
tabla 2x2:
Nº de observ. del grupo 1
que estaban en riesgo justo
antes del instante ti:
n’ = n + d
MUESTRA
1
2
Total
Fallo (d)
d1i
d2i
di
Nº de observ. del grupo 1 que han
fallado justo en el instante ti
ESTADO
En Riesgo (d + n)
n’1i
n’2i
n’i
Supervivientes (n)
n1i
n2i
ni
Nº de observ. del grupo 1
supervivientes tras el instante ti
Tendremos así que la hipótesis nula
H0: probabilidad de supervivencia es la misma en ambas muestras
implica la independencia de las categorías “muestra” y “estado” de la tabla 2x2 anterior.
Por tanto, bajo la hipótesis nula, el valor esperado de d1i (nº de fallos del grupo 1 en el instante ti)
será:
E[d1i/H0] ≡ E0[d1i] = n’1i * di / n’i
Usando las propiedades de la distribución Hipergeométrica, también se tiene que:
Var[d1i/H0] ≡ Var0[d1i] = [n’1i * n’2i * ni * di] / [n’i2 * (n’i – 1)]
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
3
Comparación no paramétrica de muestras
Por su parte, es posible representar la evidencia en contra de la hipótesis nula con el siguiente
estadístico de contraste, el cual es una suma ponderada de las diferencias entre el número de fallos
observados y el número de fallos esperados en el grupo 1:
m
∑ wi [d1i − E0 [d1i ]]
θ=
i =1
donde wi es el “peso” asociado al instante ti.
Se puede demostrar que el estadístico anterior sigue una distribución normal. Calculemos su media y
varianza:
Bajo H0, se cumplirá:
E[θ/H0] ≡ E0[θ] = 0
Var[θ/H0] ≡ Var0[θ] = Σ wi2 Var0[d1i] = Σ [wi2 * n’1i * n’2i * ni * di] / [n’i2 * (n’i – 1)]
Estandarizando θ se obtendrá un estadístico de contraste que se distribuye según una normal
tipificada, i.e.:
Z=
θ
Var0 (θ)
≈ N(0,1)
o, equivalentemente, se tiene que Z2 sigue una Chi-cuadrado con 1 grado de libertad:
Z2 =
θ2
≈ χ12
Var0 (θ)
1) Tomando wi = n’i estaremos en el método Wilcoxon-Gehan, el cual se reduce al test
clásico de Wilcoxon cuando no hay observaciones censuradas.
2) Tomando wi = 1 estaremos en el método Log-rank o Cox-Mantel.
3) Tomando wi = √n’i estaremos en el método Tarone-Ware.
4) Tomando wi = estimación de S(t) en t = ti estaremos en el método Wilcoxon-Peto.
Observaciones:
•
El test Wilcoxon-Gehan pone más peso en las observaciones iniciales, por tanto es
más “sensible” a la hora de detectar la existencia de diferencias a corto plazo entre
grupos.
•
El test Log-rank pone el mismo peso en todas las observaciones, por lo tanto resulta
más “sensible” a la hora de detectar la existencia de diferencias a largo plazo entre
grupos.
•
Debido a la forma en que los tests se formulan (los términos del sumatorio en la
expresión de θ no están elevados al cuadrado), éstos sólo serán “potentes” cuando la
tasa de riesgo de un grupo siempre sea menor que la del otro (i.e., al representar sus
respectivas funciones tasa de riesgo, éstas no se crucen). En caso contrario, podría
ocurrir que algunos términos del sumatorio anterior positivos y otros negativos,
cancelándose mutuamente.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
4
Comparación no paramétrica de muestras
COMPARACIÓN DE VARIOS GRUPOS___________________________________
Los métodos anteriores para comparar 2 grupos se pueden generalizar al caso de k grupos:
Se ordenan los tiempos de fallo:
t 1 < t 2 < ... < t m con m ≤ d ≤ n1 + ... + n k
y para cada ti se construye la siguiente tabla 2xk:
Muestra
1
.
.
.
k
Total
Fallo (d)
d1i
.
.
.
dki
di
ESTADO
En Riesgo (d + n)
n’1i
.
.
.
n’ki
n’i
Supervivientes (n)
n1i
.
.
.
nki
ni
Por tanto, bajo la hipótesis nula, el valor esperado de dji (nº de fallos del grupo j-ésimo en el instante
ti) será:
E[dji/H0] ≡ E0[dji] = n’ji * di / n’i
y los componentes de la matriz de covarianza serán:
[ ]
Var0 d ji =
n' ji (n'i −n' ji ) ⋅ di ⋅ ni
n'i2 (n'i −1)
y
[
]
Cov 0 d ji , dli =
−n' ji ⋅n'li ⋅di ⋅ ni
n'i2 (n'i −1)
La evidencia contra H0 vendrá representada por el estadístico de contraste:
m
θ=
∑ wiDi
i =1
 d1i − E 0 [d1i ] 


.



donde wi es el peso asociado a las observaciones en el instante ti , y Di = 
.


.


dki − E 0 [dki ]
A efectos prácticos, se usará el estadístico de contraste χ2 construido a partir de θ:
−1
χ 2 = θ′ ⋅ Vw
⋅θ
el cual sigue una distribución χ2 con (k-1) grados de libertad.
En la expresión anterior, Vw = w2 V , siendo w el vector de pesos wi .
Tomando wi = ni se obtiene el método de Wilcoxon-Gehan generalizado mientras que tomando wi =
1 tendremos el test de Log-rank o Cox-Mantel generalizado.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
5
Comparación no paramétrica de muestras
EJEMPLO COMPARACIÓN DE GRUPOS_________________________________
Usando el programa STATISTICA y, nuevamente, el ejemplo de los portátiles (considerando tres
grupos, uno por cada taller de reparación) se mostrará cómo es posible aplicar en la práctica los
métodos anteriores de comparación:
Entrada de datos (input): Seleccionamos la opción Comparing multiple samples en el menú inicial
del módulo.
Pulsar sobre el botón Variables para seleccionar los tiempos de fallo, el indicador de censura, y la
variable que determina los grupos (Taller ).
Comprobar que la opción Code for censored responses
variables censuradas.
muestra los códigos correctos de las
Dentro de la opción Codes (for groups) , pulsar sobre el botón All :
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
6
Comparación no paramétrica de muestras
Salida de datos (output): El programa mostrará los siguientes resultados:
Notar que el test Chi-Cuadrado es casi significativo en este caso (p-valor = 0,05672), por lo que
estaríamos tentados de rechazar la hipótesis nula (no hay diferencias importantes entre los tres
grupos) en favor de la hipótesis alternativa (la duración de los portátiles depende del taller donde
fueron arreglados).
A fin de poder apreciar mejor estas más que posibles diferencias, se podrían representar en un
mismo gráfico las funciones de supervivencia de cada grupo. Para ello se debe pulsar sobre la opción
Cumul. prop. surviving by group (Kaplan-Meier) :
Cumulative Proportion Surviving (Kaplan-Meier)
Complete
Censored
1,0
Cumulative Proportion Surviving
0,9
0,8
0,7
0,6
0,5
0,4
A
0,3
0,2
B
0
200
400
600
800
1000
1200
1400
1600
1800
2000
C
Time
Claramente, la función de supervivencia correspondiente al taller C muestra una disminución inicial
menos acusada que la del resto de talleres. Por tanto, deberíamos concluir que los portátiles
reparados en el taller C tienen una mayor probabilidad de “sobrevivir”, en especial durante los
primeros 100 días críticos posteriores a la reparación.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
7
Comparación no paramétrica de muestras
Pulsando sobre el botón Percent surviving by group se obtendrán las tablas de supervivencia para
cada grupo:
Entrada de datos (input): Ahora que ya se ha comprobado que no todos los grupos son similares,
sería conveniente comparar dos de ellos, el A y el C, para comprobar nuestra observación anterior de
que el taller C parece tener unos resultados diferentes a los del resto, en particular a los del taller A.
Para ello, se deberá seleccionar la opción Comparing two samples en el menú inicial del módulo.
Pulsando sobre el botón Variables indicaremos las variables que contienen los tiempos de fallo, el
indicador de censura, y los grupos (Taller ).
Comprobar que la opción Code for censored responses muestra los códigos correctos de las
variables censuradas, y seleccionar los códigos de los grupos:
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
8
Comparación no paramétrica de muestras
Salida de datos (output): a continuación se muestran los resultados:
Seleccionando cada uno de los métodos se irán obteniendo, entre otras, las siguientes ventanas:
Observar que, en este ejemplo, algunos de los tests dan p-valores cercanos al 0,05 (como el
Wilcoxon-Gehan), mientras que otros no son estadísticamente significativos (como el F-Cox). Por
tanto, se podría concluir, aunque sin excesiva seguridad, que los resultados obtenidos en ambos
talleres son diferentes, proporcionando el taller C mayor fiabilidad en las reparaciones de portátiles.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
9
Comparación no paramétrica de muestras
BIBLIOGRAFÍA______________________________________________________
[1].
[2].
[3].
[4].
[5].
[6].
[7].
[8].
[9].
[10].
Conover, W.J. (1980). Practical nonparametric statistics. Wiley. New York.
D’Agostino, R.B. y Stephens, M.A. (eds.) (1986). Goodness-of-fit techniques. Marcel Dekker. New York.
Gibbons,J.D. (1971). Nonparametric Statistical Inference. McGraw Hill. San Francisco.
Kendall, M.G. y Gibbons, J.D. (1991). Rank Correlation Methods (5a. edición). Griffin: Londres.
Koopmans, L. (1987) Introduction to Contemporary Statistical Methods (2a. edición) PWS Publishers.
Lehmann, E.L. (1975). Nonparametrics: Statistical Methods Based on Ranks. McGraw Hill. San
Francisco.
Leach, C. (1989). Fundamentos de estadística: Enfoque no paramétrico. Limusa. México, D. F.
Puri, M.L. y Sen, P.K. (1971). Nonparametric methods in multivariate analysis. Wiley. Nueva York.
Randles, R.H. y Wolfe, D.A. (1979). Introduction to the Theory of Nonparametric Statistics. Wiley.
Nueva York.
Silvermann, B.W. (1986). Density Estimation. Chapman and Hall: Londres.
ENLACES___________________________________________________________
[W1]
http://www.statsoft.com/textbook/stathome.html
Libro electrónico de Statsoft.Inc (creadores del programa Statistica)
[W2]
http://software.biostat.washington.edu/~rossini/courses/intro-nonpar/text/
Libro electrónico editado por el profesor Rossini.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
10
Descargar