Estadística no paramétrica

Anuncio
LICENCIATURA EN ADMINISTRACION DE EMPRESAS
ESTADISTICA II
Pruebas estadísticas no paramétricas
INTRODUCCION
Como ya sabemos, la estadística es considerada como el conjunto de procedimientos utilizados para clasificar,
calcular, analizar y resumir los datos obtenidos de manera sistemática.
Dentro de los principales análisis estadísticos que se pueden llevar a cabo, se encuentran las pruebas
estadísticas paramétricas (como la regresión lineal) y las pruebas estadísticas no paramétricas.
Estas últimas, objeto del presente estudio, en realidad son poco utilizadas a pesar de la potencia y certeza de
sus resultados. Normalmente se utilizan cuando no se dispone de información suficiente de la población de la
cual se extrajeron los datos; careciendo entonces de un soporte para la realización de una inferencia con base a
una muestra observada.
ANALISIS NO PARAMETRICOS
Para realizar este tipo de análisis, se debe partir de las siguientes consideraciones:
• La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la distribución
poblacional y acepta distribuciones no normales.
• Las variables no necesariamente tienen que estar medidas en un nivel por intervalos o de razón.
PRUEBA DE INDEPENDENCIA
En el análisis de independencia se considera que la muestra, una vez escogida, se clasifica según los criterios
de interés; por ello se supone que las muestras provienen de una población.
En las aplicaciones estadísticas es frecuente interesarse en calcular si dos variables de clasificación, ya sea
cuantitativa o cualitativa, son independientes o si están relacionadas. En situaciones como las siguientes, se
puede estar interesado en determinar si dos variables están relacionadas:
• ¿Están relacionados los hábitos de lectura con el sexo del lector?
• ¿Están relacionadas las calificaciones obtenidas con el número de faltas?
• ¿Es independiente la opinión sobre la política exterior de la política partidista?
• ¿Es independiente el sexo de una persona de su preferencia en colores?
• ¿Está relacionado el sexo con tener una educación universitaria?
• ¿Están relacionadas las enfermedades del corazón con el tabaquismo?
• ¿Son independientes el tamaño de una familia y el nivel de educación de los padres?
• ¿Está relacionado el desempleo con el incremento de la criminalidad?
• ¿El precio está asociado con la calidad de un producto electrodoméstico?
• ¿El estado nutricional esta asociado con el desempeño académico?
Otra forma de expresar el hecho de que dos variables sean independientes, es diciendo, que no se afectan entre
si; esto es que no están relacionadas o asociadas.
1
Ilustraremos esta técnica tomando como ejemplo una de las situaciones antes mencionadas:
¿El precio está asociado con la calidad de un producto electrodoméstico?
Lo que nos interesa determinar en esta situación en particular, es si los productos electrodomésticos caros, son
de mayor calidad que los baratos.
Para nuestra prueba de independencia formularemos dos hipótesis:
• Una hipótesis tentativa acerca de un parámetro poblacional, llamada hipótesis nula y que se
representa con H0 y
• Una segunda hipótesis llamada hipótesis alternativa que será opuesta a lo que afirma la hipótesis nula
y se representa con Ha.
Entonces:
H0: La calidad de un producto electrodoméstico es independiente a su precio.
Ha: La calidad de un producto electrodoméstico no es independiente a su precio.
Una vez establecidas nuestras hipótesis, procederemos a elaborar una tabla de contingencia, la cual es una
combinación de dos o mas tablas de distribución de frecuencia, arregladas de manera que cada celda o casilla
de la tabla resultante, represente una única combinación de nuestras variables (precio y calidad).
TABLA DE CONTINGENCIA DEL ANALISIS DE LA RELACION QUE EXISTE ENTRE EL PRECIO Y
LA CALIDAD DE LOS APARATOS ELECTRODOMESTICOS
Ahora, supongamos que se ha hecho un muestreo aleatorio simple de 150 aparatos electrodomésticos.
Después de someterlos a estudios exhaustivos para determinar su calidad y comparar sus respectivos precios,
procederemos a vaciar los resultados en nuestra tabla de contingencia, que obtendrá las frecuencias
observadas (FOi) para las nueve combinaciones o categorías existentes:
Posteriormente, se calculan las frecuencias esperadas (FEi) para cada celda, basándonos en el siguiente
razonamiento:
Primero suponemos que es verdadera la hipótesis nula, de independencia entre los precios y la calidad de los
aparatos electrodomésticos. A continuación observamos que en toda la muestra de 150 aparatos, hay 57 de
buena calidad, 52 de regular y 41 de mala. Si lo expresamos en fracciones, la conclusión es que 57/150 de los
aparatos son de buena calidad, 52/150 de regular y 41/150 de mala. Si es válida la hipótesis de independencia,
decimos que estas fracciones se deben aplicar por igual a los precios barato, razonable y caro. Así, bajo la
hipótesis de independencia esperaríamos que la muestra de 41 aparatos baratos indicara que (57/150)41 =
15.58 fueran de buena calidad, (52/150)41 = 14.21 fueran de regular calidad y (41/150)41 = 11.21 fueran de
mala calidad. La aplicación de las mismas fracciones a los 56 aparatos de precio razonable y a los 53 aparatos
caros, producen las frecuencias esperadas que aparecen en las siguiente tabla:
FRECUENCIAS ESPERADAS SI LA CALIDAD DE UN APARATO ELECTRODOMESTICO ES
INDEPENDIENTE A SU PRECIO.
El procedimiento para comparar las frecuencias observadas con las frecuencias esperadas, se hace mediante
una prueba estadística denominada Ji cuadrada que evalúa la hipótesis acerca de la relación entre dos
variables categóricas. Se calcula de la siguiente manera:
2
=
En donde:
significa sumatoria.
0 es la frecuencia observada en cada celda.
E es la frecuencia esperada en cada celda.
Es decir, se calcula para cada celda la diferencia entre la frecuencia observada y la esperada, esta diferencia se
eleva al cuadrado y se divide entre la frecuencia esperada. Finalmente se suman tales resultados y la sumatoria
es el valor de ji cuadrada obtenida:
La ji cuadrada proviene de una distribución muestral denominada y los resultados obtenidos en la muestra
están identificados por los grados de libertad. Esto es, para saber si un valor de es o no significativo,
debemos calcular los grados de libertad. Estos se obtienen mediante la siguiente fórmula:
Gl = (r − 1)(c − 1)
En donde:
r es el número de renglones de la tabla de contingencia
c es el número de columnas en la tabla de contingencia
En nuestro caso:
Gl = (3−1)(3−1) = 4
Entonces acudimos con los grados de libertad que corresponden a la tabla de distribución ji cuadrada (anexo
1), eligiendo nuestro nivel de confianza (0.05 o 0.01). Si nuestro valor calculado de 2 es igual o superior al
de la tabla, decimos que las variables están relacionadas, por lo que rechazamos la hipótesis nula.
En nuestro caso:
2 = 33.80
.05 = 9.48773
.01 = 13.2767
Por lo tanto, podemos concluir que en nuestro caso, la hipótesis nula es completamente falsa, ya que si existe
una dependencia entre nuestras variables (precio y calidad).
=
2
2
3
Documentos relacionados
Descargar