Subido por CRISTHIAN MARCELO BRANEZ SALAZAR

SESION 9 PRUEBA DE RANGOS CON SIGNOS DE WILCOXON. PRUEBA U DE MANN WHITNEY

Anuncio
Escuela de
Administración
SESIÓN 09: PRUEBAS NO PARAMETRICAS
Pruebas tradicionales
 Necesitan la especificación de una
distribución
 Son métodos robustos para las
distribuciones supuestas
 Tienen problemas con muestras de
pequeño tamaño
 Aplicación limitada a variables
cuantitativas.
Problemas de las escalas no
numéricas
 No se puede definir cantidades.
 A lo más puede definirse un orden entre
las categorías
 Esto significa que se establece un RANGO
entre las observaciones.
 Para estos casos se han desarrollado
metodos inferenciales que no requieren
definición de la forma de la distribución.
Comparación de pruebas
paramétricas y no paramétricas.
Aplicación
Prueba
paramétrica
Prueba no
paramétrica
Dos muestras
dependientes (datos
pareados
Prueba t o prueba z
Dos muestras
independientes
Prueba t o prueba z
Prueba del signo
Prueba de rangos
con signos de
Wilcoxon
Prueba de suma de
rangos de Mann
Whitney
Varias muestras
independientes
Análisis de varianza
Prueba de Kruskal
Wallis
0.95
Correlación
Correlación lineal
Prueba de
correlación de
rangos
0.91
Eficiencia de la
prueba no
paramétrica en
relación a param.
0.63
0.95
0.95
Ejemplo:
 Se utilizan 4 diferentes suturas en
heridas experimentales en caballos y
se mide, entre otras variables, el
grado de reacción tisular en el
periodo post operatorio (en una
escala de 0 a 5 puntos).
Ejemplo: grado de reacción tisular
frente a diferentes materiales de
sutura.
caballo
1
2
3
4
5
6
7
8
lino
4
3
4
3
4
4
4
3
Material de sutura (tratamiento)
nylon
caprolactam polipropileno
2
3
3
3
3
3
3
3
3
4
3
4
3
4
3
3
2
2
3
3
4
2
2
2
Análisis de rangos:
 Las pruebas no paramétricas equivalentes
al análisis de varianza y prueba de t se
basan en los rangos de las observaciones
en lugar de las observaciones mismas.
 Esta metodología utiliza información
acerca de los tamaños relativos de las
observaciones, sin asumir nada acerca de
la naturaleza específica de la población
desde donde se obtuvieron los datos.
¿Cómo elegir entre métodos
paramétricos y no paramétricos?
 El análisis de varianza es una
metodología paramétrica debido a
que se basa en las estimaciones de
los parámetros de dos o más
poblaciones.
 Cuando los supuestos de los
métodos paramétricos se sostienen,
estas pruebas son las más
poderosas.
¿Cómo elegir entre métodos
paramétricos y no paramétricos?
 Cuando la población desde la cual fueron
tomados los datos no tiene distribución
normal (o no es compatible con otros
supuestos como por ejemplo la igualdad
de varianza entre los grupos de
tratamiento), la media y la desviación
estándar ya no son confiables como
descriptores de la población y los
métodos paramétricos dejan de ser
confiables.
¿Cómo elegir entre métodos
paramétricos y no paramétricos?
 En la práctica se pueden utilizar
métodos no paramético cada vez
que el tamaño de las muestras es
pequeño y por lo tanto no hay
garantía de que los estimadores
tengan distribución normal.
Prueba del signo (Wilcoxon)
 Se utiliza cuando las muestras no
son independientes (equivalente a la
prueba de t de student para
muestras emparejadas.
 La idea básica consiste en
determinar la frecuencia con la cual
el valor de un miembro del par es
superior al valor del otro miembro
del par.
Prueba del signo
 Por ejemplo, si se tienen dos grupos
simbolizados por A y B, cada vez
que el valor de A es superior al valor
de B, se asigna un valor positivo y
cuando el valor de A es inferior al
valor de B se asigna un valor
negativo.
Prueba del signo
 La estadística para la prueba del
signo, denotada por S, es el número
de signos + para los n pares.
 Dado que bajo H0 cada par
constituye un ensayo independiente
con una probabilidad para el signo
positivo + de 0.5, la estadística S
tiene una distribución binomial con
p= 0.5.
Prueba del signo
 Para valores grandes de n puede
utilizarse la aproximación normal de
la distribución binomial.
 Cuando ocurren empates al aplicar
la prueba del signo, el
procedimiento que se recomienda
seguir es el de ignorarlos y emplear
la prueba sólo para aquellos pares
en los que no ocurren empates.
Prueba del signo
 Ejemplo: Se seleccionaron al azar 10
parejas de recién casados y se les
preguntó por separado, tanto al
marido como a la esposa, cuántos
hijos deseaban tener. Se obtuvieron
los siguientes datos.
Pareja
Esposa (X)
Esposo (Y)
1
3
2
2
2
3
3
1
2
4
0
2
5
0
0
6
1
2
7
2
1
8
2
3
9
2
1
Mediante el empleo de la prueba del signo,
¿existe alguna razón para creer que las esposas desean
menos hijos que sus esposos?
Supóngase un tamaño máximo del error tipo I de 0.05.
10
0
2
 Nótese que deberá rechazarse H0 si
el número de signos + es muy
pequeño. Al restar las respuestas de
cada esposo de la de su esposa, y
notando que las respuestas de cinco
de las parejas son las mismas, se
obtienen el siguiente arreglo de
signos + y -.
Pareja
Signo
1
+
2
-
3
-
4
-
5
-
Signos positivos= 3
6
-
7
+
8
-
9
+
10
-
Tabla de valores críticos para
la prueba del signo:
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
VALOR DE ALFA
0.01
0.05
*
*
*
*
*
*
*
*
*
*
*
0
*
0
0
0
0
1
0
1
0
1
1
2
1
2
1
2
2
3
2
3
2
4
3
4
3
4
3
5
4
5
4
5
4
6
5
6
5
7
La hipótesis nula se rechaza si el número de veces
que se repite el signo menos frecuente (x) es
MENOR O IGUAL que el valor de la tabla.
Cuando el tamaño de los grupos es superior
a 25 se utiliza la distribución normal:
n
x  0.5   
2

z
n
2
Conclusión:
 Los datos proporcionan evidencia
suficiente para concluir que las
esposas desean tener un mayor
número de hijos que los esposos
(P<0.05).
Pruebas no paramétricas para compararar
muestras poblaciones sobre la base de
muestras independientes
 Prueba de Mann-Whitney
 Se basa en la combinación de los
conjuntos de las n1 y n2 observaciones.
 Cuando todas las observaciones están
juntas se asigna un rango a cada una de
las observaciones ordenadas, que
comienza en 1 y termina en n1+n2
Procedimiento
Se obtiene la suma de los rangos asociados con
las observaciones de una de las dos muestras.
(escogida en forma arbitraria si son del mismo
tamaño, en caso contrario se hace con la
muestra más pequeña).
 Esta suma es igual a R1
 El estadístico está dado por:

n1 (n1  1)
U  n1n2 
 R1
2
Ejemplo:
 Se sospecha que una empresa lleva a
cabo una política de discriminación, con
respecto al sexo, en los sueldos de sus
empleados. Se seleccionaron 12
empleados masculinos y 12 femeninos de
entre los que tienen responsabilidades y
experiencias similares en el trabajo; sus
salarios anuales en miles de dólares son
los siguientes:
Mujeres 22.5
Hombres 21.9
19.8
21.6
20.6
22.4
24.7
24.0
23.2
24.1
19.2
23.4
18.7
21.2
20.9
23.9
21.6
20.5
23.5
24.5
20.7
22.3
21.6
23.6
¿Existe alguna razón para creer que estas muestras
aleatorias provienen de poblaciones con diferentes
distribuciones? (alfa=0.05).
Se combinan los salarios de las dos muestras para
formar un solo conjunto de 24 salarios anuales.
Luego se ordenan y se les asigna un rango de la
siguiente manera:
Sexo
Rango
Sexo
Rango
M
18.7
1
M
19.2
2
M
19.8
3
H
20.5
4
M
20.6
5
M
20.7
6
M
20.9
7
H
21.2
8
H
21.6
9
M
21.6
10
M
21.6
11
H
21.9
12
H
22.3
13
H
22.4
14
M
22.5
15
M
23.2
16
H
23.4
17
M
23.5
18
H
23.6
19
H
23.9
20
H
24.0
21
H
24.1
22
H
24.5
23
M
24.7
24
Para obtener la suma de los rangos se seleccionará la
muestra de mujeres. De esta forma la suma de los rangos es:
1+2+3+5+6+7+10+11+15+16+18+24=118
12(13)
U  (12)(12) 
 118  104
2
ns (ns  1)
U T 
2
ns=tamaño de la muestra menor
ns (ns  1)
T U 
2
12(13  1)
T  104 
 182
2
n1
2
3
4 5 6 7 8 9
4
10
5
6 11 17
6
7 12 18 26
7
7 13 20 27 36
8 3 8 14 21 29 38 49
9 3 8 15 22 31 40 51 63
10 3 9 15 23 32 42 53 65
11 4 9 16 24 34 44 55 68
12 4 10 17 26 35 46 58 71
13 4 10 18 27 37 48 60 73
14 4 11 19 28 38 50 63 76
15 4 11 20 29 40 52 65 79
n2 16 4 12 21 31 42 54 67 82
17 5 12 21 32 43 56 70 84
18 5 13 22 33 45 58 72 87
19 5 13 23 34 46 60 74 90
20 5 14 24 35 48 62 77 93
21 6 14 25 37 50 64 79 95
22 7 15 26 38 51 66 82
23 6 15 27 39 53 68
24 6 16 28 40 55
25 6 16 28 42
26 7 17 29
27 7 17
28 7
10
78
81
85
88
91
94
97
100
103
107
110
11
96
99
103
106
110
114
117
121
124
12
115
119
123
127
131
135
139
13
14
15
Valores críticos
para la prueba de
Mann Whitney (T)
- dos colas
- alfa=0.05
137
141 160
145 164 185
150 169
154
Valores menores
o iguales a los
de la tabla
implican rechazo
de la Hipótesis
nula
Aproximación normal:
Cuando los valores de n1+n2 son mayores que 30
z
( T    0.5)
nS (nS  nB  1)

2

nS nB (nS  nB  1)

12
Resultado de la aproximación
normal y conclusión
12(25)

 150
2
144  25

 17.32
12
(182  150  0.5)
z
 1.82
17.32
Los datos no proporcionan evidencia suficiente para
concluir que la empresa paga sueldos diferentes a
hombres y mujeres (P0.05)
Prueba del signo
 Cuando la hipótesis nula es
verdadera, deberá haber una similar
cantidad o proporción de valores
positivos y negativos.
 Es decir, si la H0 es verdadera, la
probabilidad de valores positivos es
0.5
Descargar