4. Prueba de Hipótesis Como se ha indicado anteriormente, nuestro objetivo al tomar una muestra es extraer alguna conclusión o inferencia sobre una población. En nuestro interés es conocer acerca de los parámetros que caracterizan la población en estudio. El único motivo para examinar muestras es que las poblaciones suelen ser demasiado grandes y costosas de estudiar. La prueba de hipótesis es un procedimiento estadístico que comienza con una suposición que se hace con respecto a un parámetro de población, luego se recolectan datos de muestra, se producen estadísticas de muestra y se usa esta información para decidir qué tan probable es que sean correctas nuestras suposiciones acerca del parámetro de población en estudio. Ejemplos de hipótesis pueden ser: Se desea a) Probar si las ventas diaria de un abasto son 1 Mio de bolívares o no b) Probar si la proporción de individuos que compran algún artículo en una tienda es o no mayor del 0.3. Objetivo de la prueba de hipótesis Decidir, basado en una muestra de una población, cuál de dos hipótesis complementarias es cierta. Las dos hipótesis complementarias se denominan hipótesis nula e hipótesis alternativa. Conceptos Básicos Hipótesis Nula (H0) Representa la hipótesis que mantendremos cierta a no ser que los datos indiquen su falsedad. Esta hipótesis nunca se considera aceptada, en realidad lo que se quiere decir es que no hay suficiente evidencia estadística para rechazarla por lo que aceptar H0 no garantiza que H0 sea cierta. Hipótesis Alternativa (H1) Hipótesis que se acepta cuando los datos no respaldan la hipótesis nula. Tipos de pruebas a) Pruebas de hipótesis de 2 extremos o bilaterales. Estas pruebas son del tipo: H1 : ϑ = ϑ1 Ho: ϑ = ϑ0 b) Pruebas de hipótesis de un extremo o unilateral. b.1) Ho: ϑ ≥ ϑ0 b.2) Ho: ϑ ≤ ϑ0 H1 : ϑ < ϑ1 H1 : ϑ > ϑ1 Metodología: La lógica de una prueba de hipótesis es similar a la de un juicio penal, donde debe decidirse si el acusado es inocente o culpable y el juicio consiste en aportar evidencia para rechazar la hipótesis de inocencia más allá de cualquier duda razonable. Por su parte una prueba de hipótesis analiza si los datos observados permitan rechazar la hipótesis nula, comprobando si éstos tienen una probabilidad de aparecer lo suficientemente pequeña cuando es cierta la hipótesis nula Las etapas de una prueba de hipótesis son: a) Definir la hipótesis nula a contrastar. b) Definir una medida de discrepancia entre los datos muestrales y la hipótesis Ho. Supongamos que el parámetro de interés es la media de una población µ y que a partir de una muestra hemos obtenido su estimador x , entonces debemos medir de alguna manera la discrepancia entre ambos, que denotaremos como d ( µ , x ) . c) Decidir qué discrepancia consideramos inadmisibles con Ho, es decir, a partir de que valor de d, la discrepancia es muy grande como para atribuirse al azar y considerar que Ho pueda ser cierta. Para ello debemos entonces: • Tomar la muestra • Calcular el estimador del parámetro, en nuestro ejemplo x • Calcular la medida de discrepancia d . • Tomar la decisión: Si d es “pequeña”, aceptar Ho, si es lo “suficientemente”grande, rechazarla y aceptar H1. Es por ello que necesitamos establecer una Regla de Decisión mediante la cual sea especificado: a) La medida de discrepancia. b) Un criterio que nos permita juzgar qué discrepancia son “ demasiado grandes” a) Medidas de discrepancias: Es natural considerar medidas de discrepancias del tipo: ϑ0 − ϑˆ , de las que será posible conocer su distribución de probabilidad.. σ ϑˆ Si las hipótesis son bilaterales el signo de la desviación entre ϑ0 − ϑˆ no es importante, sin embargo cuando la hipótesis es unilateral el signo de la discrepancia sí lo es. b) Calculo de un valor mínimo d c para la discrepancia para la aceptación de Ho. Para ello definamos: • Nivel de Significancia. Para realizar una prueba de hipótesis dividiremos el rango de discrepancias que puede observarse cuando Ho es cierta en dos regiones: una región de aceptación de Ho y otra de rechazo. Se consideran discrepancias “ demasiado grandes” , las que tienen una probabilidad pequeña α de ocurrir si Ho es cierta. A este valor lo llamamos nivel de significación: generalmente tomamos valores de 0.1,0.05,0.01 o 0,005. El nivel de significación α puede interpretarse también como la probabilidad que estamos dispuestos a asumir de rechazar Ho cuando esta es cierta. Cabe destacar que mientras más alto sea el nivel de significancia que se utiliza para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta. En la siguiente figura se muestran tres niveles de significancia distintos: • Región de Rechazo: Una vez fijado α , la región de rechazo se determina a partir de la distribución de probabilidad de d ( µ , x ) cuando Ho es cierta. Como esta distribución es conocida elegiremos d c de manera que discrepancias mayores de d c tengan probabilidad de ocurrir menor de α ,si Ho es cierta. La región de rechazo será d > d c y la de no rechazo será por consiguiente: d ≤ d c La siguiente figura muestra gráficamente este método: Si la discrepancia observada cae en la región de rechazo se dice que se ha producido una diferencia significativa y se rechaza la hipótesis nula Ho Tipos de errores Cuando se decide sobre el rechazo de una hipótesis se pueden cometer dos equivocaciones. !"#%$'&()!* ótesis nula cuando es cierta. 12&3 454676$ $/ (98: ;$<=>(6?26 ( 6A@ + ,-./0 B4C ./2D *E ón de una hipótesis nula cuando es falsa *F$ GH I$ J&:$K? LM $NKA&:#9J&-6E O/ ño de Una vez especificado el v OF&:PQ$R O/*( $;@HH8,#9,/$ $($Q$ H8 *<8$ $S$ PF*T ( GVU,KJ&WX!PUT&:(T8, *,Y$ $Z? ( X[ existe un número infinito de valores de @\<!P,[]46 (G^$ $_&(`8, *,3?2 La$ G)6 cada valor verdadero que pueda toma probabilidad de cometer un error de tipo II disminuirá a medida que aumente el tamaño muestral. Existe un equilibrio entre los dos tipos de errores, la probabilidad de cometer un tipo de error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro. Tipos de pruebas a) Pruebas de hipótesis de 2 extremos o bilaterales. Es una prueba en la que H0 se rechaza si el valor de la muestra es significativamente mayor o menor que el valor hipotetizado del parámetro de población. Esta prueba involucra dos regiones de rechazo b) Pruebas de hipótesis de 1 extremo o unilateralesEs una prueba en la que sólo hay una región de rechazo, es decir, sólo nos interesa si el valor observado se desvía del valor hipotetizado en una dirección. Pueden ser: b.1) Prueba de extremo inferior Es una prueba en la que si hay un valor de muestra que se encuentra significativamente por debajo del valor de la población hipotetizado, nos llevará a rechazar la hipótesis nula. Gráficamente: b.2) Prueba de extremo superior Es una prueba en la que si hay un valor de muestra que se encuentra significativamente por encima del valor de la población hipotetizado, nos llevará a rechazar la hipótesis nula. Gráficamente: Pasos Generales 1) Identificar si el parámetro de interés es ϑ0 = µ 0 o ϑ0 = p 0 2)Establecer las hipótesis correspondientes y el nivel de significancia. 3)Calcular la medida de discrepancia o estadístico de muestra. 4)Buscar el valor del percentil, en dependencia de la distribución encontrada en 3. 5)Compare los valores, tomar la decisión e interpretar los resultados. Fórmulas a) Pruebas de hipótesis para medias: x = n Z prueba = x− x ˆ =s (muestras pequeñas, n < 30, y aproximadamente normal la población, t) (muestras grandes, n ˆx = 0 ˆ t prueba n = s n x− = ˆx Z prueba = x− ˆx 0 0 b) Pruebas de hipótesis para proporciones (muestras grandes, np!"# -p) %$'& p = Z prueba p 0 (1 − p 0 ) n pˆ− p 0 = p Ejercicio: Plantee como sería el procedimiento para aplicar una prueba de hipótesis en las dos situaciones planteadas al principio de capítulo, indicando cuál es el parámetro de interés, las hipótesis, metodología, etc. Ejemplo 4.1 El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que gastan varios aparatos eléctrodomésticos. Se afirma que una aspiradora gasta un promedio mínimo de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-hora, ¿esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de kilowatt-hora es normal. Solución: 1. Datos: µ 0 = 46 kilowatt-hora, s= 11.9 kilowatt-hora x = 42 kilowatt-hora n = 12, α = 0.05 2. Hipótesis: Ho: µ ≥ 46 H1: µ < 46 3. Estadístico de Prueba: Como la varianza de la población es desconocida y el tamaño de muestra es menor de 30 utilizaremos la distribución t de Student en el cálculo del estadístico. t= x − µ 0 42 − 46 = -1.16 = 11.9 s n 12 2. Percentil: t 0.95 (11) = 1.796 5. Justificación y decisión: Como –1.16 > -1.796, no se rechaza Ho y se concluye con un nivel de significancia del 0.05 que no existen suficientes evidencias para afirmar que el número promedio de kilowatt-hora que gastan al año las aspiradoras sea menor de 46 Kw la hora. Ejemplo 4.2: El peso en libras de una muestra aleatoria de bebés de seis meses siguen una distribución normal con una desviación de 1.21 libras. Según se ha establecido, en promedio un bebé de esta edad debe pesar alrededor de 14 libras. Un pediatra sin embargo considera que ahora los bebés han variado su peso y para ello ha considerado el peso de 100 bebés de esta edad obteniendo un peso medio de 14.3 libras. Con un nivel de confianza del 5% , pruebe si el pediatra tiene razón en lo planteado Solución: 1. Datos: En este caso conocemos la varianza de la población, σ = 1.21 , además µ 0 = 14 libra, x = 14.3 libras, n = 100 y α = 0.05 2. Hipótesis: Ho : µ = 14 libras 3. Estadístico de Prueba: H1 : µ ≠ 14 libras z− x − µ 0 14.3 − 14 = = 2.5 σ 1.21 n 4 .Percentil: 100 t 0.975 (99) = 1.98 o como n > 30 z 0.975 = 1.96 4. Justificación y decisión: 2.5>1.96 por lo tanto se rechaza Ho y se concluye con un nivel de significancia del 0.05 que el peso promedio de todos los bebés de seis meses ha variado según las pruebas disponibles. Ejemplo 4.3 4) Históricamente la proporción de clientes que compran con tarjeta de crédito en una determinada tienda es como mínimo del 25%, sin embargo la dueña de la tienda piensa que esta cifra ha disminuido significativamente. De los últimas 1122 clientes 242 ¿Se está cumpliendo lo que piensa la compraron con tarjeta de crédito dueña?. Sol: región de rechazo, si tiene razón la dueña 1.Datos p 0 = 0.25 , pˆ= 242 = 0.215 1122 2. Hipótesis. Ho : p ≥ 0.25 H1 : p < 0.25 3. Estadístico de muestra Z= pˆ− p0 p 0 (1 − p0 ) n = −2.31 4.Percentil z 0.99 = 1.29 5.Decisión e Interpretación: –2.31<-1.29, así que se rechaza la hipótesis nula y por ello la dueña si tiene razón en lo planteado.