XXV Simposio Internacional de Estadística 2015 Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015 COMPARACIÓN DE PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS VÍA SIMULACIÓN Daniela Marín 1, a , Estefanía Jiménez 1, b , Freddy Hernández 1, c 1 Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Medellín, Colombia Resumen Los métodos no paramétricos son una alternativa para realizar inferencia sobre las características de una población cuando no se cumplen los supuestos que son necesarios para el uso de los métodos paramétricos(Fagerland 2012). Sin embargo, cuando se tienen tamaños de muestra pequeños se diculta la elección de uno de estos. En esta investigación se realizó la comparación de ambos métodos vía simulación Monte Carlo usando las pruebas de kruskal Wallis y ANOVA para diferencia de medias y las pruebas binomial y prop.test para diferencia de proporciones . De los resultados de la simulación se encontró que para el primer caso, el porcentaje de rechazo de la hipótesis nula es muy similar con ambas pruebas, mientras que para el segundo caso la prueba no paramétrica tiende a no rechazar la hipótesis nula. Además, en ambos casos, a medida que aumenta el tamaño de muestra, tanto con la prueba paramétrica como con la no paramétrica los resultados tienden a ser más acertados. Palabras clave : Pruebas paramétricas, Pruebas no paramétricas, Prueba binomial, prop.test, Prueba de Kruskal Wallis, ANOVA. 1. Introducción En la elaboración de análisis estadísticos es común que se presente la necesidad de realizar comparaciones entre las características de dos o más poblaciones, para lograr esto existen diferentes tipos de pruebas que permiten inferir sobre las características de las poblaciones mediante el análisis de datos muestrales. Dichas pruebas pueden clasicarse en varios tipos, entre los que se encuentran las pruebas paramétricas y no paramétricas, siendo estas últimas una alternativa para realizar inferencia sobre características poblacionales cuando no se cumplen los supuestos distribucionales necesarios para el uso de las pruebas paramétricas (consideradas con mayor capacidad para rechazar la hipótesis nula cuando es falsa) (Cliord 1980). Cada una de las pruebas se formula con base en diferentes supuestos, los cuales cuando se tienen tamaños de muestra pequeños, pueden ser difíciles de vericar y al ser violados originan errores en las pruebas que pueden llevar a obtener conclusiones equivocadas. Un problema clásico en estadística corresponde al estudio de diferencia de medias de varias poblaciones, y este problema puede ser abordado por medio de la prueba de Analysis of Variance (ANOVA), la cual asume que las muestras de cada población son independientes y provienen de poblaciones con distribución normal e igual varianza; una prueba de tipo no paramétrico que también está disponible para estudiar este problema es la de Kruskal Wallis, la cual asume que las muestras de cada población son aleatorias, independientes y que la escala de medida es al menos ordinal. Otro problema clásico en estadística corresponde al de diferencias de proporciones de varias poblaciones, el cual puede ser estudiado usando la prueba paramétrica para comparar proporciones y la prueba no paramétrica binomial, las cuales suponen que las muestras son aleatorias e independientes y que además, a Estudiante de pregrado. E-mail: dmarinm@unal.edu.co b Estudiante de pregrado. E-mail: ejimenezv@unal.edu.co c Profesor asistente. E-mail: fhernanb@unal.edu.co 1 2 Daniela Marín, Estefanía Jiménez & Freddy Hernández en la prueba paramétrica, las poblaciones de donde provienen las muestras deben cumplir normalidad cuando n <30. En este estudio se analizaron estos dos problemas para comparar las pruebas, usando 3 diferencias entre las proporciones y para el caso de las medias, considerando 3 diferencias entre las medias y muestras provenientes de distribuciones normales, no normales simétricas y no normales asimétricas, brindando un amplio panorama de qué tan acertadas son las pruebas y permitiendo obtener conclusiones sobre cuál es más ecaz con respecto a la otra. 2. Estudio de Simulación La comparación de las pruebas paramétricas con las pruebas no paramétricas en los dos problemas clásicos, se llevó a cabo por medio de un estudio de simulación Monte Carlo (Ross 2013) realizado en software estadístico R (R Core Team 2015). En el primer caso se consideró un problema de diferencia de dos medias con 4 escenarios dados por las distribuciones asumidas para las dos poblaciones: normal-normal, uniforme-uniforme, Laplace-Laplace y gama-gama; la media µ1 de la primera población se mantuvo ja en 3, mientras que la media µ2 de la segunda población tomó valores de 3, 3.5 y 4, la varianza en todos los casos estuvo ja en 1 y los tamaños de muestra fueron iguales para ambas poblaciones, con valores de n = 5, 10, . . . , 100. Para cada combinación de distribución, medias y tamaño muestral se generaron 10000 muestras, se aplicaron las pruebas ANOVA y Kruskal Wallis (Kloke & McKean 2015) y usando el valor-P de las pruebas, con un nivel de signicancia del 5 % se decidió sobre la hipótesis nula. A partir de estos resultados se obtuvo el porcentaje de veces que la hipótesis nula (H0 : µ1 = µ2 ) fue rechazada para cada prueba y tamaño muestral. En el segundo caso se analizó un problema de diferencia de dos proporciones, en el cual se usaron muestras aleatorias con valores de ceros y unos, que fueron generadas a partir de una distribución binomial. La proporción de la primera población p1 se mantuvo ja en 0.5 y la proporción de la segunda población p2 tomó valores de 0.5, 0.7 y 0.9, los tamaños muestrales fueron iguales para ambas poblaciones, tomando valores de n = 10, 20, . . . , 500. De cada combinación de proporciones y tamaño de muestra se generaron 10000 muestras y se aplicaron la prueba de proporciones y la prueba binomial (Kloke & McKean 2015), usando el valor-P de las pruebas con un nivel de signicancia del 5 % se concluyó sobre la hipótesis nula(H0 : p1 = p2 ) y utilizando estos resultados se calculó el porcentaje de rechazos de la hipótesis nula para cada prueba y cada tamaño de muestra 3. Resultados En la Figura 1 se presenta la proporción de rechazo de la hipótesis nula para diferencia de medias en dos casos donde la hipótesis es falsa y cuando las muestras provienen de una población con distribución normal. Para estos casos, se observa que tanto la prueba paramétrica (ANOVA) como la no paramétrica (Kruskal Wallis) la proporción de rechazos tiene un comportamiento muy similar, incluso cuando los tamaños de muestra son pequeños. Además, se puede notar que cuando se considera una mayor diferencia entre las medias, las pruebas tienen una mayor facilidad para identicar dicha diferencia, es por esto que en el tamaño muestral más pequeño considerado (n = 5), la proporción de rechazos de las pruebas en la segunda gráca (µ1 = 3 y µ2 = 4) es mayor que en la primera (30 % y 10 % aproximadamente). La Figura 2 muestra la proporción de rechazo de la hipótesis nula para diferencia de medias en dos casos donde la hipótesis es falsa y cuando las muestras provienen de una población con distribución uniforme. En estos dos casos, tampoco se observa una diferencia importante en el comportamiento de las pruebas, sin embargo, en la gráca donde se considera µ1 = 3 y µ2 = 3.5 la curva correspondiente a la proporción de rechazo de la prueba ANOVA se encuentra por encima de la curva que corresponde a la prueba de Kruskal Wallis. Al igual que en la gura 1 cuando la diferencia entre las medias es mayor, el porcentaje de rechazos inicia en un valor más alto para el menor tamaño de muestra considerado. XXV Simposio de Estadística (2015) COMPARACIÓN DE PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS VÍA SIMULACIÓN 3 Tanto para la distribución normal como para la uniforme, en el caso donde H0 es verdadero (no presentado), ambas pruebas también mostraban un comportamiento muy similar y de acuerdo a lo esperado, es decir, la proporción de rechazos se mantiene estable en cero a medida que se aumenta el tamaño muestral Además, en las grácas donde µ1 = 3 y µ2 = 4, se observó que se adquiere una estabilidad en el porcentaje de rechazos de las pruebas a partir del tamaño de muestra n = 30 aproximadamente, es decir, más rápido que para las grácas donde µ1 = 3 y µ2 = 3.5 (n = 110 aproximadamente), lo cual se debe a que la diferencia entre las medias de éstas es mayor, por lo tanto para ambas pruebas se facilita la detección de dichas diferencias y por consiguiente la proporción de rechazo de la hipótesis nula tiende a uno más rápidamente. También se pudo identicar que a medida que aumentaba el tamaño de muestra, los resultados de ambas pruebas mejoraban. Las situaciones donde las muestras provenían de poblaciones con distribución gama y Laplace no fueron mostradas, ya que el porcentaje de rechazo de las pruebas presentaba un comportamiento equivalente al de la distribución normal, es decir, no se observó alguna diferencia relevante entre el desempeño de una de las pruebas con respecto a la otra. µ1 = 3, µ2 = 4 1.0 P roporción de rechazos de H 0 P roporción de rechazos de H 0 µ1 = 3, µ2 = 3.5 0.8 0.6 0.4 0.2 ANOVA Kruskal Wallis 0.0 5 25 45 65 85 105 125 1.0 0.8 0.6 0.4 0.2 ANOVA Kruskal Wallis 0.0 145 5 25 45 65 85 105 n n µ1 = 3, µ2 = 3.5 µ1 = 3, µ2 = 4 125 145 1.0 P roporción de rechazos de H 0 P roporción de rechazos de H 0 Figura 1: Proporción de rechazos de la hipótesis nula para igualdad de medias en función del tamaño de muestra para poblaciones con distribución normal. 0.8 0.6 0.4 0.2 ANOVA Kruskal Wallis 0.0 5 25 45 65 85 n 105 125 145 1.0 0.8 0.6 0.4 0.2 ANOVA Kruskal Wallis 0.0 5 25 45 65 85 105 125 145 n Figura 2: Proporción de rechazos de la hipótesis nula para igualdad de medias en función del tamaño de muestra para poblaciones con distribución uniforme. La Figura 3 muestra las grácas del porcentaje de rechazos de H0 de las pruebas binomial y de comparación de proporciones en función del tamaño de muestra y a medida que se aumenta la diferencia entre las verdaderas proporciones p1 y p2 . De la gura se observa que en las tres grácas la prueba no paramétrica es más conservadora, ya que tiende a no rechazar la hipótesis nula, incluso en las situaciones donde se debe rechazar. Cuando las proporciones son diferentes, a medida que aumenta el tamaño de muestra, aumenta el porcentaje de rechazo y por lo tanto el desempeño de ambas pruebas mejora. En la gráca donde p1 = 0.5 y p2 = 0.5 la proporción de rechazos de ambas pruebas se mantiene estable desde el inicio, mientras que en las otras dos grácas el comportamiento de la proporción de rechazos es creciente. Cuando p1 = 0.5 y p2 = 0.7 es claro que ésta adquiere estabilidad a partir de n = 180 para la prueba paramétrica y de n = 280 para la no paramétrica, cuando p1 = 0.5 y p2 = 0.9 la curva de la prueba paramétrica se estabiliza en n = 50 y la no paramétrica en n = 100 aproximadamente. XXV Simposio de Estadística (2015) 4 Daniela Marín, Estefanía Jiménez & Freddy Hernández p1 = 0.5 , p2 = 0.5 0.6 0.4 0.2 0.0 1.0 P roporción de rechazos de H 0 0.8 0.8 0.6 0.4 0.2 prop.test prueba binomial 0.0 5 95 185 275 n p1 = 0.5 , p2 = 0.9 1.0 prop.test prueba binomial P roporción de rechazos de H 0 P roporción de rechazos de H 0 1.0 p1 = 0.5 , p2 = 0.7 365 455 5 95 185 275 365 n 455 0.8 0.6 0.4 0.2 prop.test prueba binomial 0.0 5 95 185 275 365 455 n Figura 3: Proporción de rechazos de la hipótesis nula para igualdad de proporciones en función del tamaño de muestra. 4. Conclusiones • En este estudio se encontró que cuando se realiza comparación de medias con pruebas paramétricas y no paramétricas, el porcentaje de rechazo de la hipótesis nula de ambas pruebas es similar en todos los casos considerados, incluso cuando se usan tamaños de muestra pequeños. Sin embargo, cuando las muestras provienen de poblaciones son normalmente distribuidas, se percibe una pequeña diferencia entre las pruebas que favorece a las prueba de ANOVA (paramétrica). • En los resultados del estudio de simulación no hay evidencia que garantice que la recomendación de usar las pruebas paramétricas cuando se cumple el supuesto de normalidad sea acertada, ya que cuando las muestras provienen de una distribución normal, el comportamiento de ambas pruebas es muy semejante. • En las distribuciones consideradas para el estudio (uniforme, Laplace, gama y normal), sin importar la simetría, el comportamiento de las pruebas para comparación de medias no tuvo diferencias signicativas. Sin embargo, únicamente se apreciaron pequeñas variaciones para la distribución uniforme • Entre los métodos usados para comparar proporciones, la prueba prop.test (paramétrica) resulta ser más sensible para identicar diferencias entre las proporciones de las poblaciones, puesto que requiere un tamaño de muestra mucho menor que la prueba no paramétrica para estabilizarse y rechazar la hipótesis cuando se debe. • Al observar el caso para proporciones iguales, los resultados obtenidos fueron los esperados, ya que la proporción de rechazo de la hipótesis nula de ambas pruebas es muy cercana a cero, y por una mínima diferencia el desempeño del método no paramétrico fue mejor que el del paramétrico. Referencias Fagerland, M. W. (2012), `t-tests, non-parametric tests, and large studies-a paradox of statistical practice', BMC Medical Research Methodology 12(78). Kloke, J. & McKean, J. W. (2015), Nonparametric Statistical Methods Using R, Taylor and Francis Group. R Core Team (2015), R: A Language and Environment Statistical Computing, Vienna, Austria. , R Foundation for for Statistical Computing Ross, S. M. (2013), Simulation, fth edn, Academic Press. XXV Simposio de Estadística (2015)