Pruebas de hipótesis para dos muestras. Prueba de Hipótesis para dos muestras grandes, desviaciones estándar de las poblaciones desiguales. Las propiedades de la Distribución Normal son también sumamente útiles cuando queremos encontrar si dos conjuntos de observaciones provienen de la misma población o si hay diferencias entre dos procesos aplicados a los mismos datos o individuos. individuos Lo que intentamos probar comúnmente es si la diferencia entre dos medias es igual a cero, pero como en general no vamos a encontrar que la diferencia de dos medias muestrales sea cero, aún cuando provengan de la misma población, tenemos que buscar la forma de cuantificar qué tan seguros estamos de que la diferencia es significativa. Para ello usamos: Donde z= x1 − x 2 s1 2 s 2 2 + n1 n2 x 1 y x 2 son las medias de nuestras observaciones s1 y s2 son las desviaciones estándar muestrales n1 y n2 son los tamaños de cada muestra. Por ejemplo, para un nivel de confianza del 99% (o un nivel de significancia del 1% ) si se quiere probar únicamente si hay diferencia: |Z| > 2.57 Tenemos el 99% de confianza en que la diferencia existe es decir que las muestras provienen de poblaciones diferentes |Z| < 2.57 Tenemos el 99% de confianza en que la diferencia NO existe es decir que las muestras provienen de la misma población Para otros niveles de confianza se requiere usar el valor z crítico correspondiente. El caso anterior se trata de una prueba de dos colas, pues sólo consiste en probar si EXISTE la diferencia (es igual o no es igual a cero). En caso de que se trate de probar si la diferencia puede ser mayor o menor que el postulado, se requiere de una prueba de una cola, derecha o izquierda. Prueba de Hipótesis para dos muestras, desviaciones estándar de las poblaciones desconocidas y no iguales En este caso empleamos siendo s1 y s2 t= x1 − x 2 2 2 s1 s2 + n1 n2 las desviaciones estándar de las muestras El valor de t para comparar y tomar la decisión se obtiene de la tabla con el nivel de confianza (o significancia) dado y los grados de libertad se calculan por medio de: 2 ⎛ s12 s22 ⎞ ⎜⎜ + ⎟⎟ n n ν = ⎝ 12 2 ⎠ 2 ⎛ s12 ⎞ ⎛ s22 ⎞ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ n ⎝ 1 ⎠ + ⎝ n2 ⎠ n1 − 1 n2 − 1 Prueba de Hipótesis para dos muestras, desviaciones estándar de las poblaciones desconocidas pero iguales Existe la posibilidad de que las desv. est. de las poblaciones sean iguales, ya sea que se sepa de antemano o se haga una prueba F, en este caso se usa donde: s12 ( n1 − 1) + s22 ( n2 − 1) sp = n1 + n2 − 2 x1 − x 2 t= sp 1 1 + n1 n2 que es una forma de estimar la desviación poblacional El valor de t para comparar y tomar la decisión se obtiene de la tabla con el nivel de confianza o de significancia dado y los grados de libertad están dados por: ν = n1 + n2 − 2 NOTA: En general, este caso se puede evitar, pues siempre es posible hacer una prueba suponiendo desviaciones desconocidas y no iguales, y se pierde poco (el resultado es un poco más conservador que en el dado caso de que realmente fueran iguales). Prueba de Hipótesis para dos muestras dependientes. Muestras pareadas. En este caso se trata de dos muestras que pueden contener los mismos individuos en dos condiciones que se trata de diferenciar, para ello se usa: t= donde d sd n d es la media de las diferencias entre los valores de las muestras sd es la desviación estándar de las diferencias. El valor de t para comparar y tomar la decisión se obtiene de la tabla con el nivel de confianza o de significancia dado y los grados de libertad son iguales a ν = n −1 Ejemplos : 1. Una compañía desea comparar el aumento de peso en bebés que consumen su producto contra los que consumen el competidor. Una muestra de 40 bebés de usan la 1ª marca reveló un aumento de peso de 3.2 kg en los primeros tres meses después de nacidos con 1.2 kg de desv est. Una muestra de 55 bebés que usan la 2ª marca indica un aumento de 4.2 kg con desviación estándar de 1.4 kg. Con un nivel de significancia de 0.05 ¿Es posible concluir que los bebés que consumieron el producto de la marca 2 ganaron más peso ? (μ1 - μ2 sería negativo) Se usa la fórmula para desviaciones estándar desiguales. Ho: μ1 - μ2 ≥ 0 H1: μ1 - μ2 < 0 t= x1 − x 2 2 2 s1 s2 + n1 n2 x 1 = 3.2 x 2 = 4.2 s1 = 1.2 s 2 = 1.4 n1 = 40 n2 = 55 Notar que decir μ1 - μ2 ≥ 0 es equivalente a μ1 ≥ μ2 Asi como μ1 - μ2 = 0 es equivalente a μ1 = μ2 Valores críticos. Se calculan los grados de libertad: Distribution Plot T, df=90 0.4 2 0.3 Density ⎛ 1.22 1.42 ⎞ + ⎜ ⎟ 40 55 ⎠ ⎝ = 90 ν= 2 2 2 2 ⎛ 1.2 ⎞ ⎛ 1.4 ⎞ ⎜ ⎟ ⎜ ⎟ 40 55 ⎝ ⎠ +⎝ ⎠ 40 − 1 55 − 1 0.2 0.1 0.05 0.0 -1.66 0 X y se busca el valor crítico para α = 0.05 (es de una cola) tc = -1.66 t= 3.2 − 4.2 2 2 = − 3.74 1.2 1.4 + 40 55 Como el valor de t calculado -3.74 cae en la región de rechazo de Ho, se rechaza la posibilidad de que la diferencia sea nula (o mayor que cero) y se acepta que los bebés que consumen la marca 1 ganan menos peso que los que consumen la marca 2 (diferencia negativa). 2. Diez hombres se sometieron a una dieta especial registrando sus pesos antes de comenzarla y después de un mes de estar en ella. Los resultados de los pesos, en libras, se muestran a continuación: Probar si la dieta logró alguna diferencia, , ya sea positiva o negativa con α = 0.05. Calcule el valor de P. Solución: Se usa la prueba de diferencia de medias para datos pareados porque son los mismos individuos. Distribution Plot T, df=9 0.4 Hipótesis Ho : μ1 = μ2 H1 : μ1 ≠ μ2 Density 0.3 0.2 0.1 0.025 0.025 0.0 Valores críticos -2.26 0 X 2.26 Se procede a calcular las diferencias de cada par: Al calcular la media de las diferencias obtenemos d = 2 , con una sd = 3.53 Calculamos el valor de t d 2 t= = = 1.79 sd 3.53 10 n Decisión y Justificación: Como 1.79 está entre los dos valores críticos de –2.262 y 2.262, por lo tanto no se rechaza Ho, y se concluye con un α = 0.05 que no existe evidencia estadística que apoye la efectividad de la dieta para variar el peso. Prueba de Hipótesis para dos proporciones Existen casos en donde queremos saber si dos muestras de proporciones provienen de dos poblaciones diferentes o si hay diferencia estadística entre ellas. En este caso empleamos: z= p1 − p2 pc (1 − pc ) pc (1 − pc ) + n1 n2 ya que no se conoce la proporción de las poblaciones El valor del denominador se usa para estimar la desviación estándar de la población, donde pc (proporción conjunta) está dado por: pc = x1 + x 2 n1 + n2 x1 = número de casos favorables de la primera muestra x2 = número de casos favorables de la segunda muestra n1 = número de eventos de la primera muestra n2 = número de eventos de la segunda muestra Ejemplo : Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en sus opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se preguntó a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte, y el 12% de los hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Con un nivel de significancia de 0.05 ¿Se puede afirmar que hay evidencia estadística de que las opiniones difieren entre hombres y mujeres? H o: P1 = P2 H 1: P1 ≠ P2 z= pc = x1 + x2 12 + 10 = = 0.11 n1 + n2 100 + 100 0.12 − 0.10 0.11(0.89) 0.11(0.89) + 100 100 = 0.45 Valores Críticos : Distribution Plot Normal, Mean=0, StDev=1 0.4 Density 0.3 0.2 0.1 0.025 0.0 0.025 -1.96 0 X 1.96 Como -1.96 < 0.45 < 1.96, es decir que 0.45 cae en la zona de no rechazo de Ho (zona blanca de la figura), se puede afirmar que no hay evidencia estadística de que las opiniones difieran (NO se rechaza la Hipótesis nula).