LICENCIATURA EN ADMINISTRACION DE EMPRESAS ESTADISTICA II Pruebas estadísticas no paramétricas INTRODUCCION Como ya sabemos, la estadística es considerada como el conjunto de procedimientos utilizados para clasificar, calcular, analizar y resumir los datos obtenidos de manera sistemática. Dentro de los principales análisis estadísticos que se pueden llevar a cabo, se encuentran las pruebas estadísticas paramétricas (como la regresión lineal) y las pruebas estadísticas no paramétricas. Estas últimas, objeto del presente estudio, en realidad son poco utilizadas a pesar de la potencia y certeza de sus resultados. Normalmente se utilizan cuando no se dispone de información suficiente de la población de la cual se extrajeron los datos; careciendo entonces de un soporte para la realización de una inferencia con base a una muestra observada. ANALISIS NO PARAMETRICOS Para realizar este tipo de análisis, se debe partir de las siguientes consideraciones: • La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la distribución poblacional y acepta distribuciones no normales. • Las variables no necesariamente tienen que estar medidas en un nivel por intervalos o de razón. PRUEBA DE INDEPENDENCIA En el análisis de independencia se considera que la muestra, una vez escogida, se clasifica según los criterios de interés; por ello se supone que las muestras provienen de una población. En las aplicaciones estadísticas es frecuente interesarse en calcular si dos variables de clasificación, ya sea cuantitativa o cualitativa, son independientes o si están relacionadas. En situaciones como las siguientes, se puede estar interesado en determinar si dos variables están relacionadas: • ¿Están relacionados los hábitos de lectura con el sexo del lector? • ¿Están relacionadas las calificaciones obtenidas con el número de faltas? • ¿Es independiente la opinión sobre la política exterior de la política partidista? • ¿Es independiente el sexo de una persona de su preferencia en colores? • ¿Está relacionado el sexo con tener una educación universitaria? • ¿Están relacionadas las enfermedades del corazón con el tabaquismo? • ¿Son independientes el tamaño de una familia y el nivel de educación de los padres? • ¿Está relacionado el desempleo con el incremento de la criminalidad? • ¿El precio está asociado con la calidad de un producto electrodoméstico? • ¿El estado nutricional esta asociado con el desempeño académico? Otra forma de expresar el hecho de que dos variables sean independientes, es diciendo, que no se afectan entre si; esto es que no están relacionadas o asociadas. 1 Ilustraremos esta técnica tomando como ejemplo una de las situaciones antes mencionadas: ¿El precio está asociado con la calidad de un producto electrodoméstico? Lo que nos interesa determinar en esta situación en particular, es si los productos electrodomésticos caros, son de mayor calidad que los baratos. Para nuestra prueba de independencia formularemos dos hipótesis: • Una hipótesis tentativa acerca de un parámetro poblacional, llamada hipótesis nula y que se representa con H0 y • Una segunda hipótesis llamada hipótesis alternativa que será opuesta a lo que afirma la hipótesis nula y se representa con Ha. Entonces: H0: La calidad de un producto electrodoméstico es independiente a su precio. Ha: La calidad de un producto electrodoméstico no es independiente a su precio. Una vez establecidas nuestras hipótesis, procederemos a elaborar una tabla de contingencia, la cual es una combinación de dos o mas tablas de distribución de frecuencia, arregladas de manera que cada celda o casilla de la tabla resultante, represente una única combinación de nuestras variables (precio y calidad). TABLA DE CONTINGENCIA DEL ANALISIS DE LA RELACION QUE EXISTE ENTRE EL PRECIO Y LA CALIDAD DE LOS APARATOS ELECTRODOMESTICOS Ahora, supongamos que se ha hecho un muestreo aleatorio simple de 150 aparatos electrodomésticos. Después de someterlos a estudios exhaustivos para determinar su calidad y comparar sus respectivos precios, procederemos a vaciar los resultados en nuestra tabla de contingencia, que obtendrá las frecuencias observadas (FOi) para las nueve combinaciones o categorías existentes: Posteriormente, se calculan las frecuencias esperadas (FEi) para cada celda, basándonos en el siguiente razonamiento: Primero suponemos que es verdadera la hipótesis nula, de independencia entre los precios y la calidad de los aparatos electrodomésticos. A continuación observamos que en toda la muestra de 150 aparatos, hay 57 de buena calidad, 52 de regular y 41 de mala. Si lo expresamos en fracciones, la conclusión es que 57/150 de los aparatos son de buena calidad, 52/150 de regular y 41/150 de mala. Si es válida la hipótesis de independencia, decimos que estas fracciones se deben aplicar por igual a los precios barato, razonable y caro. Así, bajo la hipótesis de independencia esperaríamos que la muestra de 41 aparatos baratos indicara que (57/150)41 = 15.58 fueran de buena calidad, (52/150)41 = 14.21 fueran de regular calidad y (41/150)41 = 11.21 fueran de mala calidad. La aplicación de las mismas fracciones a los 56 aparatos de precio razonable y a los 53 aparatos caros, producen las frecuencias esperadas que aparecen en las siguiente tabla: FRECUENCIAS ESPERADAS SI LA CALIDAD DE UN APARATO ELECTRODOMESTICO ES INDEPENDIENTE A SU PRECIO. El procedimiento para comparar las frecuencias observadas con las frecuencias esperadas, se hace mediante una prueba estadística denominada Ji cuadrada que evalúa la hipótesis acerca de la relación entre dos variables categóricas. Se calcula de la siguiente manera: 2 = En donde: significa sumatoria. 0 es la frecuencia observada en cada celda. E es la frecuencia esperada en cada celda. Es decir, se calcula para cada celda la diferencia entre la frecuencia observada y la esperada, esta diferencia se eleva al cuadrado y se divide entre la frecuencia esperada. Finalmente se suman tales resultados y la sumatoria es el valor de ji cuadrada obtenida: La ji cuadrada proviene de una distribución muestral denominada y los resultados obtenidos en la muestra están identificados por los grados de libertad. Esto es, para saber si un valor de es o no significativo, debemos calcular los grados de libertad. Estos se obtienen mediante la siguiente fórmula: Gl = (r − 1)(c − 1) En donde: r es el número de renglones de la tabla de contingencia c es el número de columnas en la tabla de contingencia En nuestro caso: Gl = (3−1)(3−1) = 4 Entonces acudimos con los grados de libertad que corresponden a la tabla de distribución ji cuadrada (anexo 1), eligiendo nuestro nivel de confianza (0.05 o 0.01). Si nuestro valor calculado de 2 es igual o superior al de la tabla, decimos que las variables están relacionadas, por lo que rechazamos la hipótesis nula. En nuestro caso: 2 = 33.80 .05 = 9.48773 .01 = 13.2767 Por lo tanto, podemos concluir que en nuestro caso, la hipótesis nula es completamente falsa, ya que si existe una dependencia entre nuestras variables (precio y calidad). = 2 2 3