Cátedra I Estadística II Autor I Nidia Blanch Este estadístico tiene distribución F con (n1 – 1) y (n2 – 1) grados de libertad. Recordar que para encontrar los valores de la distribución F, la cola derecha se encuentra directamente en tabla, y para la cola izquierda es necesario invertir los grados de libertad y obtener el recíproco del resultado encontrado en la tabla. En este caso, como los tamaños de muestra son iguales (10 para ambos casos), los valores de la F se buscan para ambos extremos con 9 grados de libertad8/. Gráficamente, tenemos: Si se coloca la mayor varianza muestral en el numerador, y se establece un nivel de significación de α = 0.05, el valor crítico (derecho) será (ver pié de página número 6): * s12 2 = F0.975;( n1 −1);( n2 −1) s2 La evidencia muestral para tomar la decisión de rechazar o no la hipótesis nula es el cociente de varianzas muestrales s12 s22 . La regla de decisión será: Si * s12 s12 2 ≥ 2 s2 s2 se decidirá rechazar la hipótesis de igualdad de varianzas poblacionales. En cambio, si: * s12 s12 2 < 2 s2 s2 se tomará la decisión de no rechazar la hipótesis nula. 8/ En realidad, la prueba esta planteada como bilateral pero para evitar los cálculos necesarios para el extremo izquierdo, suele adoptarse el criterio de ubicar en el numerador a la varianza muestral mayor, de manera que sólo será necesario mirar el extremo derecho de la zona de rechazo (calculado con α 2 ). 119 Vamos a probar la igualdad de varianzas poblacionales en el ejemplo. s22 4.1 F= 2 = = 1.71 s1 2.4 Este cociente de varianzas muestrales se debe comparar con el valor de la distribución F graficada, que acumula el 0.975 de probabilidad y con 9 y 9 grados de libertad. F9,9,0.975 = 4, 03 El valor de F observado (1.71) es menor que el valor tabulado por lo cual se toma la decisión de no rechazar la hipótesis nula. ¿Comprende ahora por qué, al colocar siempre la mayor varianza muestral en el numerador, siempre el F observado quedará hacia el lado derecho de la distribución, y no será necesario calcular el F crítico del lado izquierdo? En consecuencia, puede considerarse que los dos grupos de familias provienen de poblaciones con varianza común σ2. Una vez comprobada la igualdad de las varianzas para los dos grupos, se calcula la varianza común s2 que es la estimación de la varianza poblacional σ2 y se pasa a probar la igualdad de las medias poblacionales. s2 = 9 x 2.4 + 9 x 4.1 9+9 = 3.25 Calculamos ahora los dos valores críticos (por tratarse de una prueba bilateral, hay un valor crítico a la izquierda y otro a al derecha): 1 1 ( x1 − x 2 ) *1 = t 0.025;18 s 2 + n1 n2 1 1 = − 2.101 3.25 + = − 2.101 x 0.81 = − 1.70 10 10 ( x 1 − x 2 ) *2 = 2 .1 0 1 x 0 .8 1 = 1 .7 0 La evidencia proporcionada por la muestra es la diferencia de medias muestrales: ( x1 − x2 ) = 25.8 − 21.9 = 3.9 Como: ( x1 − x2 ) > ( x1 − x2 )*2 se toma la decisión de rechazar la hipótesis nula. Concluimos que el consumo promedio semanal en alimentos es diferente para las zonas consideradas; de acuerdo a la evidencia, por el signo de la diferencia observada, el consumo promedio de las familias de la zona 1 es significativamente superior al consumo promedio de las familias de la zona 2. 120 Cátedra I Estadística II Autor I Nidia Blanch También es posible comparar los valores estandarizados, o sea, el valor de t observado con valores críticos obtenidos de la distribución t de Student. En este ejemplo, el valor de t observado es: t= ( x1 − x 2 ) − ( µ 1 − µ 2 ) 1 1 s2 + n1 n 2 3.9 − 0 = 1 1 + 3.25 10 10 = 3.9 = 4.81 0.81 Los valores críticos buscados en la tabla de t son t1* = - 2.101 y t2* = 2.101. La regla de decisión será: Si t < t1* o t > t2* se rechaza H0 Si t1* < t < t2* no se rechaza H0 ¿Cómo se comprueba el cumplimiento del supuesto de normalidad? El supuesto de normalidad se refiere a los residuasles (eij), pero es posible realizar pruebas de normalidad para la variable de respuesta en el estudio. Como el modelo estadístico expresa: xij = ti + eij despejando eij: eij = xij - ti Si xij se distribuye normalmente, también lo hará la variable eij pues ambas difieren solamente en una constante. Una manera de observar si la variable se distribuye normalmente consiste en graficar el histograma de los datos, o mejor utilizar un normal plot . Grafico nomal plot de la variable Valor Normal esperado consumo semanal de alimentos 30 28 26 24 22 20 18 16 18 20 22 24 26 28 30 Valor observado Los puntos están prácticamente sobre la línea recta evidenciando que podemos aceptar que la variable en estudio se distribuye aproximadamente normal. En el extremo inferior izquierdo del gráfico hay un punto que se diferencia de los demás el 121 cual corresponde a una familia que realiza un gasto en alimentos bastante menor que las demás familias encuestadas. Consumo El gráfico box plot correspondiente es: 30 28 26 24 22 20 18 16 N= 20 Consumo No se observan alejamientos importantes de la simetría de la distribución de la variable consumo en alimentos ni se observan valores atípicos. 30 28 26 24 22 20 18 15 16 N= 10 10 Zona 1 Zona 2 Zona En el gráfico anterior se han representado los consumos de alimentos para cada una de las zonas por separado. Evidentemente, los gastos en alimentos parecen ser mayores en la zona 1 en comparación con los de la zona 2. En la zona 2 aparece la familia que aparentemente consume bastante menos que las demás. De quedar bien en claro que la aplicación de la informática a la resolución de los problemas de investigación debe estar acompañada por el conocimiento de los supuestos que subyacen a la utilización de cada metodología. La responsabilidad del investigador no solamente se limita a la obtención adecuada de los datos sino también a la correcta aplicación de programas computacionales y a la cuidadosa interpretación de los resultados. La computadora solo realiza los cálculos, el investigador es el responsable de pensar. 122 Cátedra I Estadística II Autor I Nidia Blanch En síntesis, para que el problema planteado pueda ser correctamente analizado, seria necesario tomar las siguientes precauciones: 1) Establecer hipótesis adecuadas al problema. 2) Investigar la presencia de valores atípicos en los datos. 3) Tomar tamaños de muestra acordes con la variabilidad del material experimental (recordar del Capítulo I que el tamaño de la muestra depende fundamentalmente de la variabilidad). 4) Analizar el cumplimiento de los supuestos. 5) Elegir la prueba adecuada. A continuación se presenta una actividad realizada por medio de un programa de computación. En el ejemplo de los empleados de la empresa de la Pág. 100, se podría plantear como hipótesis de trabajo que los varones ganan más que las mujeres. Las hipótesis planteadas serian: H0) µ1 - µ2 = 0 H1) µ1 - µ2 〉 0 siendo µ1 = salario promedio de los varones en la población µ2 = salario promedio de las mujeres en la población Estadistica descriptiva de la variable salario segun sexo de los empleados Sexo Varon Mujer Media 932,3750 Varianza 285825,125 Desv. típ. 534,62615 Media 546,1429 Varianza 29330,810 Desv. típ. 171,26240 Salario Salario Estadístico 3000 2 2000 1000 15 5 0 N= 8 7 Varon Mujer Sexo 123 Error típ. 189,01889 64,73110 La distribución del salario de los varones presenta una simetría con la presencia de un valor atípico. Las mujeres ganan todas prácticamente lo mismo y se observa la presencia de una empleada que gana bastante menos que las demás y una que gana bastante más que el resto. Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Salario Se han asumido varianzas iguales 4,606 No se han asumido varianzas iguales Sig. ,051 Prueba T para la igualdad de medias t Diferencia Sig. (bilateral) de medias gl Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior 1,824 13 ,091 386,2321 211,78017 -71,29109 843,75538 1,933 8,600 ,087 386,2321 199,79554 -68,96022 841,42450 En primer lugar aparece una prueba de igualdad de las varianzas poblacionales (prueba de Levene; no es la misma que hemos explicado más arriba, pero su interpretación es similar). Como el valor de significación p = 0,051 es prácticamente coincidente con α = 0,05, podemos decir que se rechaza la igualdad de las varianzas poblacionales. El nivel de significación del test de Levene se interpreta como todos los que hemos venido estudiando hasta ahora. El salario de los varones presenta mayor variabilidad que el de las mujeres9/. En general, los paquetes estadísticos presentan la salida para realizar una prueba de igualdad de medias considera las situaciones donde se acepta la igualdad de las varianza poblacionales y cuando se rechaza. En este ejemplo, la situación es la de rechazar la igualdad de las varianzas poblacionales por lo cual hay que mirar la segunda línea para interpretar la diferencia de medias y en este caso el valor “p” o valor de significación correspondiente a la diferencia de medias poblacionales es p = 0.087. Si nos atenemos a que este valor es mayor a 0.05, deberíamos concluir que no existen diferencias significativas entre los promedios de salarios de varones y mujeres en la población. Nuevamente recordamos que la hipótesis nula no se acepta, sino que “no se rechaza”, lo que indica que en este caso, no hay evidencias significativas para afirmar que el salario de los varones es mayor que el de las mujeres. Es interesante ver que, en este ejemplo, los tamaños de muestra son pequeños y en estos casos, a veces aunque exista la sospecha fundada de que la hipótesis nula es falsa, la evidencia muestral suele no ser suficiente para rechazarla. Cuando esto ocurre, si es posible, es conveniente aumentar los tamaños de muestra. Actividad 18: Los siguientes datos se refieren a cotizaciones de acciones de un banco. Indique si el agente de bolsa puede informar que no existe diferencia en los precios de dicha acción, entre la primera y la segunda quincena. Analice medias y varianzas, y utilice α = 0,01. Resumen n (quincena 1º) Media Var(n-1) E.E. Mín Máx Mediana Suma 9/ Estadística descriptiva cotización 15 n (quincena 2º) 134,40 Media 56,65 Var(n-1) 1,94 E.E. 119,17 Mín 148,73 Máx 133,71 Mediana 2016,03 Suma cotización 9 131,35 80,43 2,99 117,56 143,64 130,98 1182,11 Si bien el no cumplimiento de la igualdad de varianzas puede significar un problema como se explicó más arriba, el test de igualdad de medias se realiza pero con un estadístico modificadoVer Capítulo I, punto 9.1.2. 124 Cátedra I Estadística II Autor I Nidia Blanch Box plot 150,21 cotización 141,72 133,23 124,74 116,26 cotización-1º quinc. cotización-2º quinc. Actividad 19: El Ministerio de Educación desea estudiar el ausentismo de los docentes de nivel inicial y primario respecto a los docentes de nivel medio. Seleccionado un conjunto de docentes regulares de diversas escuelas de la provincia obtuvo la siguiente información: Descriptives NIVEL FALTAS inicial Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis medio Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 8,9600 8,9667 9,0000 7,957 2,8208 3,00 15,00 12,00 4,0000 -,162 ,031 8,6400 8,7889 10,0000 14,573 3,8175 ,00 14,00 14,00 5,0000 -,407 -,488 Std. Error ,5642 ,464 ,902 ,7635 ,464 ,902 A continuación se presentan los correspondientes diagramas de tallo y hojas: 125 Stem-and-Leaf Plot NIVEL = inicial (1) Stem-and-Leaf Plot NIVEL = medio (2) Stem & Leaf 0 0 0 0 1 1 1 . . . . . . . Stem & Leaf 3 45 67777 88999 00000111 223 5 Each leaf: 0 0 0 0 0 1 1 1 1 case(s) . . . . . . . . 0 33 4 6666777 9 00001111 33 444 Each leaf: 1 case(s) Shapiro-Wilks (modificado)10/ nivel 1 2 Variable faltas anuales faltas anuales n 25 25 Media 8,96 8,64 D.E. 2,82 3,82 W* 0,97 0,92 p (una cola) 0,9065 0,1932 Prueba F para igualdad de varianzas Variable faltas anuales n(1) 25 n(2) 25 Var(1) 7,96 var(2) 14,5 F 0,55 p 0,1453 con un α = 0,10 ¿qué se podría decir del promedio de días de ausentismo si se comparan ambos niveles? Actividad 20: Si bien la nota promedio en el examen de Estadística fue la misma en el turno mañana y en el turno tarde, ¿se puede decir que ambos turnos presentan la misma variabilidad en las notas a un α = 0,05? Analice la salida que se presenta a continuación. ¿Es viable el supuesto de normalidad al 1%? ¿Y al 5%? Prueba F para igualdad de varianzas Variable nota n(1) 53 n(2) 50 Var(1) 4,62 Var(2) 5,51 F 0,84 p(prueba bilateral) 0,5380 Shapiro-Wilks (modificado) turno 1 2 Variable nota nota n 53 50 Media 6,38 6,40 D.E. 2,15 2,35 W* 0,93 0,92 p (una cola) 0,0158 0,0142 Actividad 21: El ingreso medio de 400 empleados de una empresa de telefonía fija es de $ 1150 con una desviación estándar de $ 110; mientras que el ingreso medio de 400 empleados de una empresa de telefonía móvil es de $ 1220 con una desviación de $ 250. ¿En base a estos datos, puede decirse que las empresas de telefonía móvil pagan mayores sueldos que las de telefonía fija? Utilice un nivel de significación del 10%. 10/ Este es otro test para probar la normalidad. Si bien no lo explicamos en este texto, su interpre tación es igual a la de todos las pruebas tal como pueden leerse en las salidas de computadora: se mira el “valor p” o “significación”, cuando es mayor con un α razonable (0,05 por ejemplo), no se rechaza la hipótesis de normalidad; si es inferior, se rechaza. En este caso no se rechaza para ninguna de las poblaciones. 126 Cátedra I Estadística II Autor I Nidia Blanch 4.4.2. Comparación de medias: muestras dependientes Esta estrategia de investigación surge cuando cada observación para un tratamiento está “apareada” con una observación para el otro tratamiento. Esta pareja esta constituida por las mismas unidades experimentales observadas en dos momentos distintos del tiempo o por dos unidades experimentales con experiencias comunes (muy similares). Es decir, se tiene dos variables aleatorias, pero no se trata de “dos muestras independientes” sino que, en general, se trata de una muestra observada en dos momentos u otra situación comparable. Se habla entonces de “muestras dependientes”. Los estadísticos anteriores no pueden utilizarse porque el error estándar (denominador del estadístico) debería ser corregido por las covarianzas, dato que en general no se dispone. La situación experimental es también diferente. Por ejemplo, se puede estudiar a un grupo de familias a las cuales se les ha preguntado acerca del gasto semanal en alimentos antes y después de haber sido beneficiadas con algún plan social de ayuda. También en esta situación podemos simbolizar a cada medición con xij, donde el subíndice i representa al tratamiento (plan social) y el subíndice j a la familia pertinente. Cada una de las mediciones representa: a) el efecto del tratamiento (ti) b) el efecto propio de la unidad experimental (la familia) que es común a ambos tratamientos (pj) c) el efecto de la variabilidad intrínseca de cada unidad experimental (eij) Expresando matemáticamente esta situación, se tiene: xij = ti + pj + eij i = 1,2 j = 1, 2, .., n La diferencia con el modelo planteado para muestras independientes es la presencia del termino pj. Este modelo presenta los mismos supuestos que en el caso de muestras independientes salvo el referido a la igualdad de varianzas poblacionales porque ahora se trabajara con una variable a la cual denominaremos diferencia y la simbolizaremos con dj. Supongamos que designamos con x1j al consumo semanal en alimentos de la familia antes de recibir la ayuda social. Luego, cada consumo estará dado por el siguiente modelo: x1j = t1 + pj + e1j x1j = consumo semanal en alimentos de la familia j antes de recibir el plan de ayuda social t1 = efecto del tratamiento (ayuda social) pj = efecto común asociado a la j-esima familia e1j = error experimental no controlado por el investigador social El consumo en alimento de una familia después de recibir la ayuda social será: x2j = t2 + pj + e2j Introducimos ahora una variable diferencia que simbolizaremos con dj11/. dj será la diferencia entre el consumo de la j-ésima familia antes y después de recibir la ayuda social. 11/ Revisar en el Capítulo I, el tema 9.2. 127 En símbolos: dj = x1j – x2j = (t1 + pj + e1j) – (t2 + pj + e2j) = (t1 – t2) + (e1j – e2j) Al efectuar, la diferencia, ha desaparecido el termino pj. Esto implica que se ha eliminado el efecto común asociado a la familia j. Entonces, cuando se trabaja con muestras dependientes conviene utilizar como variable la diferencia de las respuestas de las familias antes y después de la aplicación del plan de ayuda. La diferencia refleja el efecto del plan antes y después y no se ve influenciada por la situación de la familia antes o después en relación a la media de su propio grupo. El termino t1 – t2 es constante para todas las unidades experimentales y el termino e1j – e2j varia de unidad experimental a otra (es la variable aleatoria que consideramos). Podemos calcular el promedio de la variable di como: n d= ∑ dj j =1 n = ∑ (t1 − t2 ) j =1 n + ∑ (e1 j − e2 j ) j =1 n n n (t − t ) = n 1 ´2 + (e1 − e2 ) = (t1 − t2 ) + (e1 − e2 ) n Un ejemplo: Supongamos que una empresa esta implementando un programa para disminuir la cantidad de horas hombre perdidas mensualmente por accidentes de trabajo. Las mediciones se hicieron 6 meses antes y 6 meses después de ponerse en marcha un plan de seguridad industrial. Este es un caso típico de experimento antes-después pues el mismo periodo (un mes) en la misma empresa, es medido antes y después de ponerse en marcha el plan de seguridad industrial. Tener en cuenta que si el plan tuvo éxito, la media “antes” se espera sea mayor que la media “después”, esto se refleja en la hipótesis alternativa, con una diferencia “antes” menos “después” positiva); si se rechaza la hipótesis nula, será que el plan tuvo éxito; si no se puede rechazarla, con esos seis meses no se puede probar su efectividad. La hipótesis nula será: H 0 : µantes ≤ µdespues µantes − µ despues ≤ 0 o o, como se planteó en el Capítulo I llamando cionales en este caso: ∆ a la diferencia de medias pobla- H 0 )∆ ≤ 0 y la alternativa: H1 ) µantes > µdespues o o µantes − µdespues > 0 H1 ) ∆ > 0 128 Cátedra I Estadística II Autor I Nidia Blanch Calculamos ahora el promedio de la variable diferencia, estadístico que se utilizara como criterio de test o medida de discrepancia para tomar una decisión en cuanto a la hipótesis nula. d = x1 − x2 La esperanza será: E (d ) = E ( x1 − x2 ) = µ1 − µ 2 por lo cual se puede concluir que medias poblacionales12/. d es un buen estimador de la diferencia de Luego, si d se distribuye aproximadamente normal, el estadístico: d − ( µ1 − µ2 ) sd2 n ~ tn −1 se distribuye como una t de Student con n – 1 grados de libertad. Para finalizar el procedimiento de test de hipótesis nos falta especificar los valores críticos y las reglas de decisión. Si la hipótesis es bilateral se deben calcular dos valores críticos utilizando a la distribución t. En este caso es unilateral, por lo tanto se calcula sólo el valor crítico derecho. 12/ A fin de comprender mejor la ventaja de trabajar con este tipo de muestras cuando las variables están correlacionadas, veremos qué ocurre con la varianza de dj, en término de las varianzas de las x: sd2 j = s 2 ( x1 j−x2 j ) = sx21 j + sx22 j − 2 cov( x1 j , x2 j ) = sx21 j + sx22 j − 2r12 s1s2 siendo r12 el coeficiente de correlación lineal que existe entre las mediciones. Esta varianza no necesita ser calculada de esta forma ya que el estadístico la calcula directamente a partir de las diferencias. Una de las ventajas primordiales de los diseños de mediciones repetidas es la reducción potencial de la varianza debida al error experimental. Para este diseño: sd2 = s(2x1 − x2 ) = sd2 s12 s22 ss = + − 2r12 1 2 n n n n Mientras la correspondiente estimación para el caso de observaciones no correlacionadas (muestras independientes) sería: s(2x1 − x2 ) = s12 s22 + n n Si la correlación entre las observaciones es positiva, la estimación del error experimental de un diseño de comparaciones dependientes donde se emplea sd2 diseño de observaciones no correlacionadas en el factor 2r12 s1s2 . Si en cambio ocurriera que será menor que la obtenida de un esa correlación es nula (situación posible aunque infrecuente), entonces convendría hacer la prueba como si se tratara de dos muestras independientes. Las salidas de programas de computación, incluyen siempre para estos casos una prueba de hipótesis que permite inferir si la correlación existe o no. 129 Gráficamente, tenemos: los valores críticos (si fuera bilateral) se calculan como: d1* = −tn −1;α / 2 sd2 n y d 2* = tn −1;1−α / 2 sd2 n la regla de decisión será: Si d < d1* o d > d 2* Si d1* < d < d 2* se rechaza H0 no se rechaza H0 Como en este ejemplo la prueba es unilateral, sólo se calcula el punto crítico del lado derecho, con el valor tabulado correspondiente a α . Siguiendo con el ejemplo de la seguridad industrial para evaluar si disminuyeron las horas hombre perdidas por mensualmente por accidentes de trabajo. Para probar la hipótesis planteada más arriba, se deben calcular la media y la varianza de la variable diferencia en la muestra: d y sd2 . Los resultados evaluados durante 6 meses fueron: Meses 1 2 3 4 5 6 Antes del programa 38 64 42 70 58 30 Después del programa 31 58 43 65 52 29 n ∑ dj 24 d = i =1 = = 4 6 n 130 dj 7 6 -1 5 6 1 24 dj2 49 36 1 25 36 1 148 Cátedra I Estadística II Autor I Nidia Blanch n sd2 = 2 2 ∑ d j − nd j =1 = n −1 sd2 = 148 − 96 5 = 10.4 sd2 10.4 = = 1.73 n 6 sd = 1.73 = 1.31 A continuación buscamos el valor de t con n – 1 = 6 – 1 = 5 grados de libertad. Si se fija α = 0.05, se tiene t5;0.95 = 2,02 El valor crítico será: d * = 2.02 x1, 31 = 2, 65 Regla de decisión: Si d > 2, 65 se rechaza Si d < 2, 65 H0 no se rechaza H0 Como d = 4 , estamos en la primera situación por lo cual concluimos que el plan de seguridad industrial ha sido exitoso. El promedio mensual de horas hombre perdidas por accidentes de trabajo se han reducido después de la implementación del plan (la media “antes” es mayor que la media “después”). A continuación repetimos este ejemplo, pero resuelto mediante la salida de un programa de computación. Aquí, tal como comentábamos más arriba, primero se calcula el coeficiente de correlación y se prueba su significación: si ésta no fuera significativa convendría utilizar el test para muestras independientes. Si bien el tratamiento del test acerca del coeficiente de correlación se hace en otro capítulo, digamos que si en la salida de computación se observa el “valor de significación” (p) y si es menor que el α entonces se concluye la conveniencia de usar esta prueba de muestras apareadas. Esto es lo que ocurre en este ejemplo, donde Sig = 0,001 (o también llamado “p”). Correlaciones de muestras relacionadas Coeficiente de correlacion lineal n Par 1 ANTES y DESPUES 6 Sig. ,981 ,001 Prueba de muestras relacionadas Diferencias relacionadas Media Par 1 ANTES - DESPUES 4,0000 Error típ. Desviación típ. de la media 3,22490 1,31656 131 95% Intervalo de confianza para la diferencia Inferior ,6157 Superior 7,3843 t 3,038 gl Sig. (bilateral) 5 ,029 Las salidas de computación para este tipo de problemas, generalmente proporcionan el “valor de significación” para las dos colas (bilateral); en este caso es 0,029. Pero como la prueba es unilateral, en la cola derecha queda sólo la mitad de este valor (0,029/2 = 0,015) que es inferior a 0,05 y por lo tanto se toma la decisión de rechazar la hipótesis nula, el mismo resultado obtenido trabajando a mano. (Es interesante observar en este caso, que si α hubiera sido 0 ,01, la hipótesis no se hubiera rechazado. ¿Qué les sugiere esa aparente contradicción?). Actividad 22: En un laboratorio se está probando la acción de una sustancia "H" sobre determinado tipo de tumor. Para ello se seleccionaron 80 conejos de iguales características (especie, procedencia, etc.) a los que se había injertado el tumor y se los dividió en dos grupos, al primero se lo trató con dicha sustancia mientras que al segundo no, y se computó los días de sobrevida de cada uno. El informe presentado por el laboratorio contenía dos salidas de un soft estadístico. Explique de qué se trata la información presentada, la herramienta estadística utilizada en cada caso y seleccione la que resulta adecuada en este caso concluyendo respecto de la efectividad de la sustancia “H” en el tratamiento del tipo de tumor que se está estudiando. Prueba T (muestras apareadas) Obs(1) Obs(2) N media(dif) DE(dif) Trat. No trat. 40 2,80 2,33 LI(99%) 1,80 LS(99%) T p(2 colas) 3,80 7,59 <0,0001 Prueba T (muestras independientes) Variable Ds.de sobrev Grupo(1) Trat. LI(99%) 1,72 LS(99%) 3,88 Grupo(2) No Trat. n(1) 40 n(2) 40 p(Var.Hom.) 0,3755 media(1) 28,85 T 6,87 media(2) 26,05 p <0,0001 Normal Q-Q Plot of DIFERENC 8 6 Expected Normal Value 4 2 0 -2 -2 0 2 4 6 8 10 Observed Value Actividad 23: La Escuela de Graduados de la Facultad está invitando a los profesionales a participar de su oferta académica (Maestrías y Posgrados) aduciendo que el ingreso individual aumenta luego de realizar algún curso superior. Esta afirmación se basa en un estudio realizado sobre 15 participantes de sus cursos a los que se les preguntó sus ingresos mensuales antes y después de egresar. Con los datos obtenidos. 132 Cátedra I Estadística II Autor I Nidia Blanch a) ¿Está en lo cierto la Escuela de Graduados? Trabaje con α = 0,10 b) En caso afirmativo, ¿cuántos pesos más ganan los profesionales luego de graduarse, en promedio? Graduado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 $ antes 900 1260 1750 1100 800 2100 1700 1380 1000 1550 3500 2600 1250 1450 2100 $ después 1300 1500 1750 1100 1100 2100 2000 1500 1600 1800 3500 2600 1500 1450 2500 4.4.3. Comparación de dos proporciones, muestras independientes Seguimos en la situación de investigación en que se seleccionan dos muestras de dos poblaciones pero ahora la variable en consideración es dicotómica (éxito o fracaso), el interés se centra en la comparación de la proporción de éxitos entre ambas poblaciones. Supongamos que se ha efectuado una encuesta a 1469 jefes de hogar de una cierta comunidad, una de las preguntas estaba referida al sexo y otra a si eran beneficiarios o no de un plan jefes y jefas de hogar. Los resultados se encuentran volcados en la siguiente tabla: Sexo Beneficiarios plan No beneficiarios plan Total Varones 117 950 1067 Mujeres 54 348 402 Total 171 1298 1469 La hipótesis de trabajo es que la asignación de planes a los jefes no es igual para hogares con jefes varones o mujeres. Las hipótesis planteadas son: H0) P1 = P2 o P1 - P2 = 0 H1) P1 ≠ P2 o P1 - P2 ≠ 0 P1 = proporción de jefes de hogar mujeres beneficiarias del plan P2 = proporción de jefes de hogar varones beneficiarios del plan El parámetro establecido en las hipótesis es una diferencia de proporciones poblacionales y, por lo tanto, lo lógico seria pensar que su mejor estimador puntual será la diferencia de proporciones muestrales: ¿Cuál es la distribución de este estimador? 133 pˆ1 − pˆ 2 . (Sugerimos revisar la cuestión en el Capítulo I , punto 9.3.). Ya se ha visto que si los tamaños muestrales son suficientemente grandes (nP y nQ > 5 para ambas poblaciones en este caso), se tiene: PQ P Q pˆ1 − pˆ 2 ~ N ( P1 − P2 ); 1 1 + 2 2 n1 n2 En el Capítulo I, al desconocer los valores de P1 y P2 se utilizaron en el estadístico sus estimadores. Pero ahora, aunque éstos siguen siendo valores desconocidos, la hipótesis nula establece su igualdad13/. El estadístico que sería: ( p1 − p2 ) − ( P1 − P2 ) ~ N (0,1) PQ P2Q2 1 1 + n1 n2 Se modifica ya que al suponer que P1 – P2 = 0, la estimación de esa proporción “común’ a ambas poblaciones puede hacerse combinando ambas muestras (éste estimador se conoce como p amalgamado): p= n1 pˆ1 + n2 pˆ 2 n1 + n2 Los puntos críticos serán los correspondientes a la distribución normal estandarizada, y la regla de decisión: Si z < -z* o si z > z* se rechaza H0 Si –z* < z < z* no se rechaza H0 Calcularemos ahora el estadístico con los datos del ejemplo: pˆ 1 = pˆ 2 = p= 54 = 0.1343 402 117 402x0.13 +1067x0.11 402 +1067 z= (0.13 - 0.11) 0.115x0.885 402 + = 0.115x0.885 = 169.63 = 0.115 1469 0.02 0.00025 + 0.00009 = 0.02 = 1.05 0.019 1067 Si fijamos α = 0.05, los valores de 13/ = 0.1097 1067 z * son ± 1.96. Recordar que siempre en las pruebas de hipótesis el estadístico se construye “suponiendo que la hipótesis nula es verdadera”. 134 Cátedra I Estadística II Autor I Nidia Blanch 135