OTROS CONTRASTES NO PARAMETRICOS Bibliografia: - Manzano Arrondo, V.; Inferencia estadística. Aplicaciones con SPSS/PC. Ra-ma. 1995 - Martinez Almecija, Alfredo y otros.. .: "Inferencia estadística: un enfoque clasico" ; Pirámide, 1993 INTRODUCCION.Como Uds. saben en el tema anterior vimos lo que eran los rangos y como trabajamos con las parejas de rangos según su clasificación en concordancias, discordancias y empates (de tres tipos). Ahora vamos a ver lo que son RACHAS. En una determinada secuencia de sucesos observables la interacción entre elementos iguales lo denominaremos como racha. El nº de elementos de una racha se llama longitud Por Ejemplo. Tengamos la secuencia: aaa bb a bb aa aquí existen 5 rachas, de dos sucesos a y b de longitudes (3) ; (2) ; (1) ; (2); (2) En muchas ocasiones se esta interesado en la aleatoriedad de una secuencia de sucesos donde en ocasiones la aparición, en una muestra, de un elemento condiciona la aparición de otro. Si ocurre esto la muestra no es aleatoria, incumpliendo así una de las hipótesis básicas de los procedimientos de inferencia. El Test de Rachas contrasta la aleatoriedad de una secuencia de eventos a partir del nº de rachas R de la misma. Variables Dicotómicas Variables Cuantitativas Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo Variables Dicotómicas: Tengamos por ejemplo la sucesión de eventos: aaa bb a bb aa • • • • • • Llamamos R1j al nº de rachas del elemento 1 (a) de longitud j Llamaremos N1 nº de veces que aparece el elemento 1 (a) en la muestra Llamamos R2j al nº de rachas del elemento 2 (b) de longitud j Llamaremos N1 nº de veces que aparece el elemento 2 (b) en la muestra El total de la muestra será: n = N1+ N2 a El total de rachas será: Rexp = R1j+ R2j Según lo visto, en nuestro ejemplo: 1 (a) R11 = 1 ; R13 =1 ; R12 = 1 ; N1 = 1x1+3x1+2x1 =6 R1 =3 N1 =6 • • 2 (b) R22 = 2 ; N2 = 2x2 =4 RExp =5 n = 10 R2 =2 N2 =4 Si suponemos que la muestra es aleatoria, el estadístico R que tomara valores 2 , 3 , ... N1+ N2 tiene una probabilidad P [ R=r ] y la distribución asintotica de R es una NORMAL con: 2⋅ N1 ⋅ N 2 + n n 2 ⋅ N 1 ⋅ N 2 (2 ⋅ N 1 ⋅ N 2 − n ) Var [R ] = n 2 ⋅ (n − 1) E [R ] = Bajo H0 : Existe aleatoriedad , los valores de R no deben ser excesivamente pequeños ni grandes, por lo que a nivel de significación α se rechaza la H0 si: Rexp ≤ r α /2 ó Rexp ≥ r 1-α /2 Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo • Para valores pequeños de Ni ≤ 20 utilizaremos una tabla donde para cada nivel de significación vienen dados los valores críticos RI = r α /2 ó RS = r 1-α /2 . Si nuestro valor no pertenece a esa región critica se aceptara la Hipótesis Nula (Existencia de aleatoriedad) • Para valores de Ni > 20 Rechazaremos la H0 si Zexp ≥ Z1-α /2 donde Z sigue una N(0,1) siendo: Zexp = Rexp − E[R] − 0'5 σR EJERCICIO 19.Se supone que obtenemos una muestra de 50 elementos como observación de un evento que tiene dos posibilidades a y b. Siendo la sucesión la siguiente: aaa bb a b aaaaa bbbbbb aa bbb aaaa bbbbb a b a b a bb aaa bbbb aaa b 1 (a) R11 = 4 ; R12 =1 ; R13 = 3 ; R14 =1; R15 =1 N1 = 1x4+2x1+3x3 +4x1+5x1=24 R1 =10 N1 =24 • • 2 (b) RExp =5 n = 50 R21 = 4 ; R22 =2 ; R23 = 1 ; R24 =1; R25 =1; R26 =1 R2 =10 N2 = 1x4+2x2+3x1+4x1+5x1+6x1 =26 N2 =26 Como Ni > 20 Rechazaremos la H0 si Zexp ≥ Z1-α /2 donde Z sigue una N(0,1) siendo: Z exp = Rexp − E [R ] − 0 '5 σR Obteniendo: 2 ⋅ 24 ⋅ 26 + 50 = 25'96 50 2 ⋅ 24 ⋅ 26(2 ⋅ 24 ⋅ 26 − 50) Var[R ] = = 12'20493⇒ σ Rexp = 3'4935 502 ⋅ (50 − 1) E[R] = Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo Luego: Zexp = 20 − 25'96 − 0'5 =1'56 3'4935 Se acepta la Hipotesis nula de existencia de aleatoriedad. EJERCICIO 20.Una empresa pretende enviar 59 empleados a realizar unos cursillos de formación en el extranjero y para ello decide escoger entre sus trabajadores a 59 empleados entre ambos sexos. Siendo la sucesión de sexos la siguiente: HHHH MM H M H M HH MMM HH MMMM H MMM HH MM H M H M HHH MMMMM HHHH MM H M HHHHH MMMM Contrastar si el procedimiento seguido ha sido aleatorio para un nivel del 5% Variables Cuantitativas: Cuando los datos son cuantitativos hay que realizar un proceso para llegar a aplicar el test de rachas: El proceso es el siguiente: 1. Se calcula la mediana muestral 2. Se obtiene la diferencia entre cada valor y la mediana, asignándole el signo correspondiente. 3. Se eliminan los valores 0 4. Se procede igual que en el apartado anterior tomando la sucesión de signos + ó EJERCICIO 21.- Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo Contrastar si los 10 elementos que constituyen la muestra, pueden considerarse aleatorios a un nivel de significación del 10%. 498 490 510 505 495 496 497 501 502 520 (-) (-) (+) (+) (-) (-) (-) (+) (+) (+) ordenándolos: 490 495 496 497 498 501 502 505 510 520 499'5 1 (-) R12 = 1 ; R13 =1 N1 = 2x1+3x1=5 R1 =2 N1 =5 • • 2 (+) R22 =1 ; R23 = 1 N2 = 2x1+3x1 =5 RExp =4 n = 10 R2 =2 N2 =5 Buscando en la tabla a un nivel del 10% y un N1 =5 , N2 =5 obtenemos la región critica C = [Rexp ≤ 3] ∪ [Rexp ≥ 9] Como R =4 no pertenece a la región critica se acepta la Hipótesis Nula de existencia de aleatoriedad. TEST DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE Es un Test alternativo a la Chi-cuadrado. Tiene el mismo objetivo: contrastar la Hipótesis Nula de que X sigue una distribución especifica F(x) frente a la Hipótesis Alternativa de que no la siga. Debe utilizarse si: • • Modelo propuesto es de tipo continuo Tamaño muestral es pequeño El fundamento del contraste radica en comparar la distribución de las Frecuencias observadas ( F o) con la distribución propuesta bajo la Ho: F(x) y si esta comparación revela diferencias significativas se rechazara la Ho Comparar las Fo y las FE bajo la Ho: de que estas ultimas siguen una determinada distribución F(x) Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo Fo FE F. Acum. Relat. D. NORMAL D.UNIFORME D.POISSON Ni / N FE=p(Z) Z=(x i-x)/σ FE=(x-min) / (max - min) FE=e -λλ i/i! Si es cierta la Ho las diferencias entre las Fo (x) y las FE (x) para una muestra suficientemente grande no serán significativas y el Test de K-S a través de su estadístico D estudiara las desviaciones verticales entre Fo y las FE D = max {D 1 ; D 2} Donde: D1 = Fo ( xi ) − Fe ( xi ) D2 = Fo ( xi −1 ) − Fe ( xi ) Una vez definido el estadístico D, construimos el contraste para la Ho: F(x) Fijado el nivel de significación buscamos en la tabla los valores críticos (del Test de K-S ) el valor D que depende de α y de N de manera que : P (D i>D) < α Rechazamos la Ho (las desviaciones entre la muestra y la población son significativas) Di>D P (D i>D) > α Aceptamos la Ho (las desviaciones entre la muestra y la población no son significativas) Di<D EJERCICIO 23 Realizar un test de K-S para un α =0'1para saber si los datos procedentes de una muestra de tamaño 10 siguen una distribución Normal de media 10'84 y desviación 3'5. {10'5; 8; 15; 12'1; 4'1; 12'1; 8; 10'5; 16; 12'1} Xi ni Ni Fo Fe 4'1 8 10'5 1 2 2 1 3 5 0'1 0'3 0'5 0'027 0'209 0'464 Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo 12'1 15 16 3 1 1 10 8 9 10 0'8 0'9 1 0'641 0'882 0'929 Las frecuencias esperadas se calculan como: Fe ( x1 ) → Z1 = 4'1 − 10'84 = −1'93 → P (z ) → 0'027 3'5 ⋅ Fe ( x6 ) → Z 6 = 16 − 10'84 = 1'47 → P( z ) → 0'929 3'5 Las diferencias serán: Fo (xi) - Fe(xi) D1 Fo (xi-1) - Fe(xi) D2 0'1 - 0'027 0'3 - 0'209 0'5 - 0'464 0'8 - 0'641 0'9 - 0'882 1 - 0'929 0'073 0'091 0'036 0'159 0'018 0'07 0 - 0'027 0'1 - 0'209 0'3 - 0'464 0'5 - 0'641 0'8 - 0'882 0'9 - 0'929 -0'027 -0'109 -0'164 -0'141 -0'082 -0'029 Max D1 = 0'159 Max D2 = -0'164 El máximo en valor absoluto es 0'164 D = 0'164 CONTRASTES PARA COMPARAR DOS MUESTRAS INDEPENDIENTES Vamos a ver dos pruebas no paramétricas similares al contraste t-Student-Fisher de comparación de dos distribuciones observadas con datos independientes. TEST DE RACHAS DE WALD-WOLFOWITZ Este Test contrasta si dos muestras con datos independientes proceden de poblaciones de la misma distribución. Si esto es así lógicamente los parámetros poblacionales de ambas muestras son los mismos. Sean dos muestras independientes de tipo continuo que siguen una determinada distribucion F(x) F(y): Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo x1 x2 ⋅ ⋅ xn1 y1 y2 ⋅ ⋅ yn 2 Se trata de contrastar la Hipotesis de: H0: F(x) = F(y) H1: F(x) ≠ F(y ) Prueba de dos colas Este test se basa en la prueba de rachas. Consiste en ordenar todos los casos de ambos grupos de forma conjunta, dispuestos en orden, se cuentan las rachas pertenecientes al mismo grupo. Si existen muy pocas rachas, existe diferencia entre ambos grupos. Con muchas rachas (posiciones muy entrelazadas) no existe diferencia entre los grupos. Ejercicio 26.Se dispone de las siguientes dos muestras de dos poblaciones A y B independientes. A B 6'4 6'5 3'7 3'5 2'0 2'1 4'1 7'1 5'5 4'3 5'0 9'0 7'5 7'2 8'5 3'4 Realizar un test de W-W con un nivel de significación del 5% , para contrastar si las poblaciones tienen distribuciones idénticas. 2'0 2'1 3'4 3'5 3'7 4'1 4'3 5'0 5'5 6'4 6'5 7'1 7'2 7'5 8'5 9'0 A B B B A A B A A A B B B B B B Una vez ordenado de menor a mayor y sabiendo en ese orden a que muestra pertenece, procedemos a obtener las rachas. 1 (A) 2(B) R1 = 3 R2 = 3 N1 = 6 N2 = 10 R=6 N = 16 Como ni N1 N2 son iguales o mayores de 20, procedemos a buscar en la tabla con un nivel de significación del 0'05 y N1 =6 N2 = 10 y obtenemos dos valores RI RS 4 - 13 que constituyen la frontera de la región critica. Como R = 6 ∉ a la región critica Se acepta la hipótesis Nula Si el valor de N1 N2 son mayores de 20 al igual que haciamos en el test de rachas lo aplicariamos aquí. El estadístico R que tomara valores 2 , 3 , ... N1+ N2 Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo tiene una probabilidad P [ R=r ] y la distribución asintotica de R es una NORMAL con: 2 ⋅ N1 ⋅ N 2 + n n 2 ⋅ N 1 ⋅ N 2 (2 ⋅ N 1 ⋅ N 2 − n ) Var [R ] = n 2 ⋅ (n − 1) E [R ] = Bajo H0 : Existe aleatoriedad , los valores de R no deben ser excesivamente pequeños ni grandes, por lo que a nivel de significación α se rechaza la H0 si: Rexp ≤ r α /2 ó Rexp ≥ r 1-α /2 • Rechazaremos la H0 si Zexp ≥ Z1-α /2 donde Z sigue una N(0,1) siendo: Zexp = Rexp − E[R] − 0'5 σR PRUEBA U DE MANN-WHITNEY Esta prueba esta diseñada para determinar si dos muestras se han obtenido de la misma población. Es decir, para encontrar si dos muestras independientes proceden de poblaciones simétricas que tienen la misma media o mediana. La prueba se usa cuando no se puede verificar la suposición de dos poblaciones normales con varianzas iguales. Los datos deben estar medidos al menos en una escala ordinal, haciendo que esta prueba sea útil para datos ordinales o categóricos. La U de M-W trabaja con rangos, en lugar de las puntuaciones originales. Básicamente, consiste en comprobar lo superior que es la suma de los rangos de un grupo frente a la suma de los rangos del otro. Supongamos que se dispone de dos muestras (x) e (y). La hipótesis nula será: La probabilidad de obtener en la primera un resultado de x menor que y es igual a la probabilidad de obtener un resultado mayor. Si el p-valor asociado al estadístico de contraste es menor que el nivel de significación, se rechazara la hipótesis nula a dicho nivel. El procedimiento es: • Se establecen los rangos como si los datos de las muestras pertenecieran a un solo grupo Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo • • Si las medias de dos poblaciones son iguales, los rangos altos y bajos deben tener una distribución bastante pareja en las dos muestras. Si las medias no son iguales, una muestra tendera a tener rangos mas altos o rangos mas bajos que la otra. El análisis se concentra en la suma de los rangos de una de las muestras y la compara con la suma que se esperaria si las medias de la poblacion fueran iguales. Ejercicio 27.A B 5 13 10 6 3 14 2 8 Vamos a contrastar si proporcionan suficiente evidencia, a nivel de significación 0'1 que existe diferencia entre las distribuciones. La muestra conjunta es: 2 A 1º 3 A 2º 5 A 3º 6 B 4º 8 B 5º 10 A 6º 13 B 7º 14 B 8º En este caso N1 = N2 = 4 . Considerando la primera de las dos muestras la suma de los valores de los rangos R= 1+2+3+6 = 12 Buscando en la tabla para N1 =4 N2 = 4 y 0'1 nivel de significacion obtenemos que: 12∉ C =[R<11] ∪ [R>25] Si Ni > 20 se utiliza el estadístico U de M-W que es: U = N1 ⋅ N 2 + N1( N1 + 1) − R1 2 Si las dos muestras son de diferentes tamaños. La muestra 1 debe representar la que tiene menor nº de observaciones. Como decíamos si Ni > 20 la distribución muestral se aproxima a la distribución normal de: Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo N1 ⋅ N2 2 N1N2 (n + 1) σU = 12 µU = Por lo que tipificando el valor U obtenemos la región critica de aceptación o rechazo a un nivel de significación dado. Ejercicio 28.Dos dependientes A y B trabajan en el Departamento de niños de una tienda. El gerente piensa ampliar el negocio a otros locales y escoger uno de ellos para dirigir el nuevo local en vista a las ventas realizadas por los dos dependientes. La H0: µ1 = µ2 µ1 - µ2 = 0 ó ó F(1) = F(2) 2 Para un nivel de significación del 5% a cual de los dos dependientes escogemos? A B 197 190 194 180 188 175 185 172 182 167 173 166 169 160 169 157 Unificando las dos muestras tenemos: 157 160 166 167 169 169 172 173 175 180 182 185 188 190 194 197 B B B B A A B A B B A A A B A A 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º 13º 14º 15º 16º 2'5º 2'5º 2'5º 2'5º 5'5º 5'5º 7º 8º 9'5º 9'5º 12º 12º 12º La suma de los rangos de A = 86 y la suma de los rangos de B =50 Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo 14º 15'5 15'5