Práctica 6: Inferencia Estadística Práctica 6: Inferencia Estadística Objetivos específicos Al finalizar esta práctica deberás ser capaz de: • Contrastar la independencia de dos variables. • Comprender el significado del intervalo de confianza y del nivel de confianza del intervalo. • Relacionar la amplitud del intervalo con el nivel de confianza y el tamaño de la muestra. • Estimar de forma puntual y por intervalo de confianza la media y la varianza de una población normal. • Comparar la media de una población normal con varianza conocida con un valor de referencia. • Interpretar correctamente los resultados proporcionados por la función PRUEBA.Z para el cálculo del p-valor del contraste de comparación de medias. • Comparar las varianzas de dos poblaciones normales independientes. • Comparar la diferencia de medias de dos poblaciones normales independientes, con varianzas conocidas o no, con un valor de referencia. • Comparar la diferencia de medias de dos poblaciones relacionadas con un valor de referencia. • Interpretar correctamente los resultados proporcionados por las funciones PRUEBA.T y PRUEBA.F para el cálculo de los p-valores de los contrastes de comparación de medias y varianzas, respectivamente. 1. Independencia de dos variables En ocasiones puede resultar necesario determinar si existe alguna relación entre dos variables observadas sobre una población. Una primera aproximación al estudio de la independencia de estas dos variables sería mediante el análisis de la tabla dinámica bidimensional y del diagrama de barras conjunto, como ya se hizo en la Práctica 1. Ejemplo.- Imagina que podemos fabricar un determinado artículo en tres líneas de producción distintas (que llamaremos línea 1, línea 2 y línea 3). El ingeniero de calidad Isolina Alberto Moralejo 83 Práctica 6: Inferencia Estadística está interesado en saber si alguna de las líneas produce más artículos defectuosos que las otras, o si, por el contrario, la proporción de artículos defectuosos es la misma para todas las líneas. Es decir, está interesado en saber si la proporción de artículos defectuosos es independiente de la línea de producción. Para llevar a cabo el estudio, el ingeniero de calidad recoge datos y genera el fichero Excel Líneas de producción.xls. En este fichero, la variable Artículo indica si el artículo es correcto o defectuoso; y la variable Línea, la línea de producción en la que se ha fabricado (ver Figura 1). Figura 1: Vista del fichero Líneas de producción.xls Con los datos del fichero construimos la tabla dinámica con las frecuencias relativas condicionadas, poniendo la variable Artículo en el campo columna; y la variable Línea, en el campo fila, obteniendo el resultado de la Figura 2 y el gráfico de la Figura 3. Figura 2: Tabla dinámica de los datos del fichero Líneas de producción.xls Figura 3: Gráfico de barras agrupadas de los datos del fichero Líneas de producción.xls Isolina Alberto Moralejo 84 Práctica 6: Inferencia Estadística Como puede observarse en el gráfico de barras agrupadas de la Figura 3, la distribución de los artículos correctos y defectuosos es prácticamente la misma para las líneas 1 y 3, y difiere notablemente para la línea 2, con lo que concluiríamos que la proporción de elementos defectuosos depende de la línea de producción. Si, como en el ejemplo, las variables tienen pocas categorías, realizar este análisis gráfico para determinar la dependencia o independencia de las variables puede resultar relativamente sencillo; sin embargo, cuando el número de categorías de las variables es grande, se complica. En estos casos, se recomienda llevar a cabo un contraste chicuadrado de independencia. Esta prueba contrasta la hipótesis nula H0: Las variables X e Y son independientes frente a la hipótesis alternativa H1: Las variables X e Y son dependientes. El p-valor del contraste (también llamado significación) nos indicará cómo de creíble resulta la hipótesis nula de independencia planteada a la luz de la información proporcionada por la muestra recogida. En el cálculo del p-valor intervienen las frecuencias conjuntas observadas, nij, (i=1,...,k; j=1,...,h) y las frecuencias conjuntas esperadas, eij, calculadas mediante la expresión: eij = n i• × n • j N ; i=1,...,k; j=1,...,h donde ni• y n•j son las frecuencias marginales de las variables X e Y respectivamente, y N es el tamaño de la muestra. Nota: Las frecuencias eij se llaman frecuencias esperadas porque es el número de observaciones que esperaríamos obtener en cada casilla de la tabla de doble entrada en caso de que las variables X e Y fueran independientes. Con estas frecuencias se calcula el valor del estadístico del contraste en la muestra, denotado con X 02 : X 02 k h (n ij − e ij ) 2 i =1 j=1 e ij = ∑∑ El p-valor del contraste es la probabilidad siguiente: ( 2 2 p − valor = P χ (k −1)(h −1) ≥ X 0 Isolina Alberto Moralejo ) 85 Práctica 6: Inferencia Estadística La regla de aceptación y rechazo de la hipótesis nula es la siguiente: si el p-valor≥α aceptaremos H0 (concluyendo entonces que las variables son independientes); y si el pvalor<α, rechazaremos H0 (concluyendo, por tanto, que las variables son dependientes). Nota: Para realizar la prueba de independencia, las variables continuas deberán estar agrupadas en clases. Además, si al calcular las frecuencias esperadas eij, alguna sale menor que 5, la deberemos agrupar con las categorías contiguas hasta obtener una tabla en la que todas las frecuencias esperadas sean mayores o iguales que 5. Nota: La función PRUEBA.CHI, que veremos en el siguiente apartado, calcula el pvalor del contraste de independencia. Sin embargo, esta función no calcula las frecuencias esperadas eij, sino que son uno de los argumentos que necesita. Es por esto por lo que deberemos calcularlas nosotros con ayuda de las funciones matemáticas habituales de Excel una vez construida la tabla dinámica de doble entrada. Continuando con el ejemplo anterior y como ya se ha comentado, la tabla de las frecuencias esperadas la tenemos que construir nosotros utilizando su definición y las funciones de Excel, obteniendo la tabla de la Figura 4. Figura 4: Tabla de frecuencias esperadas En este momento, estamos en disposición de utilizar la función PRUEBA.CHI, que nos proporcionará el p-valor del contraste de independencia. 2. Función PRUEBA.CHI Esta función devuelve el p-valor del contraste chi-cuadrado de independencia. Se accede a ella a través de la opción INSERTAR>FUNCIÓN>ESTADÍSTICAS> PRUEBA.CHI. La ventana de diálogo correspondiente a esta función se muestra en la Figura 5. Isolina Alberto Moralejo 86 Práctica 6: Inferencia Estadística Figura 5: Ventana de diálogo de la función estadística PRUEBA.CHI En la casilla RANGO ACTUAL deberemos introducir las frecuencias conjuntas observadas que proporciona la tabla dinámica; y en la casilla RANGO ESPERADO, las frecuencias esperadas obtenidas como se ha comentado en el punto anterior. Ejemplo.- Continuando con el ejemplo anterior, contrastamos la independencia de las variables Artículo y Línea. Para ello, introducimos los valores de las frecuencias observadas y esperadas en las casillas RANGO ACTUAL y RANGO ESPERADO, tal y como se muestra en la Figura 6. Figura 6: Función PRUEBA.CHI con los datos del fichero Líneas de producción.xls Tal y como se observa en esta misma Figura 6, el resultado de la fórmula, es decir, el pvalor del contraste de independencia, vale 5.17197×10-6, con lo que la hipótesis de independencia se rechazará. Es decir, la proporción de artículos defectuosos producidos sí depende de la línea de producción. Ejercicio.- Haz el Ejercicio 1 del final de la práctica. Isolina Alberto Moralejo 87 Práctica 6: Inferencia Estadística 3. ¿Qué representa el nivel de confianza de un intervalo? Vamos a conectarnos a la siguiente dirección electrónica: http://www.ruf.rice.edu/~lane/stat_sim/conf_interval/index.html Esta dirección contiene un programa interactivo programado en lenguaje Java que nos va a permitir comprender mejor los conceptos de intervalo de confianza y nivel de confianza del intervalo; y a relacionar la amplitud del intervalo con el tamaño de la muestra y el nivel de confianza. El programa genera aleatoriamente 100 muestras de tamaño 10, 15 ó 20, de una población de media µ = 50 y desviación típica σ = 10. Con cada una de las muestras generadas calcula dos intervalos de confianza para la media, con niveles de confianza del 95 y 99%, mediante la expresión ya conocida ŝ ŝ ⎡ ⎤ t n −1;1−α/2 ⎥ . t n −1;1−α/2 , x + ⎢x − n n ⎣ ⎦ Los intervalos calculados los representa gráficamente mediante líneas horizontales. El intervalo al 95% lo representa con una línea horizontal de color amarillo; y el intervalo al 99%, con una línea de color azul. Aquellos intervalos que no contienen al verdadero valor de la media poblacional, µ = 50, los representa en rojo. La página principal de este applet de Java aparece en la Figura 7 y funciona de la siguiente manera. Al pinchar en el botón BEGIN, aparece una ventana como la que se muestra en la Figura 8, donde deberemos seleccionar el tamaño de la muestra entre los valores 10, 15 y 20. Al pinchar en el botón SAMPLE, se generarán aleatoriamente las 100 muestras del tamaño especificado. Figura 7: Página principal del applet “Confidence Intervals” Isolina Alberto Moralejo 88 Práctica 6: Inferencia Estadística Con las muestras generadas se calculan los intervalos para la media de la población. Figura 8: Ventana de diálogo del applet “Confidence Intervals” La línea vertical que aparece en el cuadro gris de la Figura 8 es la media de la población (µ = 50) y los intervalos obtenidos con las 100 muestras se representan gráficamente por en ese mismo cuadro (los intervalos al 95% en amarillo y los intervalos al 99% en azul). En la parte inferior derecha de la Figura 8 van a aparecer el número de intervalos que contienen al valor µ = 50, el número de intervalos que no contienen al valor µ = 50 y la proporción de intervalos que contienen al valor µ = 50. Se podrá observar que la proporción de intervalos que contienen al valor µ = 50 está muy próxima al nivel de confianza del intervalo. Por ejemplo, si ejecutamos el applet con tamaño muestral igual a 10 (es decir, cada muestra consta de 10 observaciones de una población de media 50 y desviación típica 10), la proporción de intervalos al 95% que contienen al valor µ = 50 es igual a 0.960; y la proporción de intervalos al 99%, a 0.980 (ver Figura 9). Figura 9: Intervalos de confianza obtenidos con tamaño muestral igual a 10 Como puede observarse en la Figura 9, al aumentar el nivel de confianza, el intervalo se hace más grande, pero los intervalos están centrados en el mismo valor, que es Isolina Alberto Moralejo 89 Práctica 6: Inferencia Estadística precisamente la media de la muestra, x . Por otro lado, también podremos observar que al aumentar el tamaño muestral, el intervalo de confianza se hace más pequeño (comparar, por ejemplo, los resultados que se muestran en la Figura 9 y la Figura 10). Figura 10: Intervalos de confianza obtenidos con tamaño muestral igual a 20 Así, intuitivamente, si calculamos 100 intervalos de confianza para un parámetro (con 100 muestras distintas obtenidas de la misma población), con un nivel de confianza del 95%, aproximadamente 95 de esos intervalos contendrán al verdadero valor del parámetro y 5 de ellos no. Cuando con una única muestra de tamaño n calculamos un intervalo, “confiaremos” en nuestra buena suerte y pensaremos que el intervalo obtenido es uno de los 95 que sí contienen al verdadero valor del parámetro. Ejercicio.- Haz el Ejercicio 2 del final de la práctica. 4. Función INTERVALO.CONFIANZA Esta función estadística devuelve la semiamplitud del intervalo de confianza para la media de una población normal de varianza conocida, es decir, el valor σ z1−α/2 . Para n obtener el intervalo de confianza para µ no tenemos más que restar y sumar esta cantidad a la media de la muestra, x . Para acceder a esta función, hay que seleccionar la opción del menú INSERTAR>FUNCIÓN>ESTADÍSTICAS como se muestra en la Figura 11, o bien a través de la barra de herramientas pinchando en el botón INSERTAR FUNCIÓN, . Isolina Alberto Moralejo 90 Práctica 6: Inferencia Estadística Figura 11: Menú INSERTAR>FUNCIÓN Una vez allí seleccionamos la función INTERVALO.CONFIANZA, como se muestra en la Figura 12. Figura 12: Función INTERVALO.CONFIANZA Al hacerlo, entramos en la ventana de diálogo que se muestra en la Figura 13, en la que debemos indicar en la casilla ALFA el valor del nivel de significación, α, del intervalo; en la casilla DESV_ESTÁNDAR el valor de la desviación típica de la población, σ; y el tamaño de la muestra, n, en la casilla TAMAÑO. Figura 13: Ventana de diálogo de la función INTERVALO.CONFIANZA Isolina Alberto Moralejo 91 Práctica 6: Inferencia Estadística Al pinchar el botón de ACEPTAR, la función nos devuelve, como ya hemos dicho, el valor de la semiamplitud del intervalo de confianza. Para construir el intervalo de confianza, necesitamos la media de la muestra, x , que aprendimos a calcularla en la Práctica 1. 5. Menú ESTADÍSTICA DESCRIPTIVA A través de la función INTERVALO.CONFIANZA que acabamos de ver, podemos calcular el intervalo de confianza para la media de una población normal de varianza conocida. Pero, ¿qué ocurre si desconocemos la varianza poblacional, σ2? En este caso, Excel nos permite calcular la semiamplitud del intervalo de confianza a través de la opción estadística avanzada ESTADÍSTICA DESCRIPTIVA que ya conocemos de prácticas anteriores. Para acceder a ella, pinchamos en HERRAMIENTAS> ANÁLISIS DE DATOS>ESTADÍSTICA DESCRIPTIVA, entrando en la ventana de diálogo que se muestra en la Figura 14, en la que deberemos introducir los datos en la casilla RANGO DE ENTRADA, y deberemos seleccionar la opción NIVEL DE CONFIANZA PARA LA MEDIA, indicando el nivel de confianza (que por defecto es el 95%). Figura 14: Ventana de diálogo de la opción del menú ESTADÍSTICA DESCRIPTIVA Isolina Alberto Moralejo 92 Práctica 6: Inferencia Estadística Al pinchar en el botón ACEPTAR, la función devuelve la semiamplitud del intervalo de confianza calculada con la expresión ŝ n t n −1;1−α/2 . Para calcular el intervalo de confianza no tenemos más que restar y sumar esta cantidad a la media muestral. Ejercicio.- Haz el Ejercicio 3 del final de la práctica. 6. Función PRUEBA.Z Con la función PRUEBA.Z podemos calcular los p-valores de los contrastes de comparación de la media de una distribución normal con varianza conocida o desconocida con un valor de referencia, es decir, los p-valores de los contrastes: Bilateral H0: µ = µ0 H1: µ ≠ µ0 Unilaterales H0: µ ≤ µ0 H1: µ > µ0 H0: µ ≥ µ0 H1: µ < µ0 Para acceder a la función, seleccionamos la opción del menú principal INSERTAR>FUNCIÓN>ESTADÍSTICAS, o a través del botón PEGAR FUNCIÓN de la barra de herramientas. La ventana de diálogo de esta función aparece en la Figura 15, en la que deberemos introducir los datos de la muestra en la casilla MATRIZ; el valor de referencia, µ0, en la casilla X; y el valor de la desviación típica poblacional,σ, en la casilla SIGMA. Si omitimos el valor de la desviación típica de la población, Excel utilizará para el cálculo de la función el valor de la desviación típica de la muestra. Figura 15: Ventana de diálogo de la función PRUEBA.Z La función PRUEBA.Z devuelve el valor 1-P(Z≤z), siendo z el valor del estadístico en la muestra, que se calcula mediante la expresión z = Isolina Alberto Moralejo x − µ0 σ/ n , si la varianza es conocida; 93 Práctica 6: Inferencia Estadística o mediante x − µ0 ŝ/ n , si la varianza es desconocida. Para calcular el p-valor de un contraste unilateral, utilizaremos la tabla siguiente: H0: µ ≤ µ0 H1: µ > µ0 p-valor = PRUEBA.Z H0: µ ≥ µ0 H1: µ < µ0 p-valor = 1 - PRUEBA.Z En el caso de contrastes bilaterales, para calcular el p-valor tenemos que obtener el signo del estadístico del contraste en la muestra, z, (signo de z = signo de x - µ 0 ). Dependiendo de su signo, el p-valor del contraste bilateral se calcula con ayuda de la tabla siguiente: z >0 z <0 H0: µ = µ0 H1: µ ≠ µ0 p-valor = 2 × PRUEBA.Z p-valor = 2 × (1 - PRUEBA.Z) Nota: Al igual que con la función PRUEBA.T que veremos más adelante, pondremos especial cuidado en el uso de esta función y en la interpretación de los resultados proporcionados. Ejercicio.- Haz el Ejercicio 4 del final de la práctica. 7. Función PRUEBA.F Esta función devuelve el p-valor (significación) del contraste de comparación de varianzas de dos poblaciones normales independientes X e Y, con hipótesis nula H0: σ 2X = σ 2Y ; e hipótesis alternativa H1: σ 2X ≠ σ 2Y . El procedimiento para insertar esta función es el mismo que para la anterior. Al seleccionarla de entre las funciones estadísticas, accedemos a la ventana de diálogo que se muestra en la Figura 16. En la casilla MATRIZ1 debemos poner los datos de la muestra de la población X; y en la casilla MATRIZ2, los de la muestra de la población Y. El orden en que introduzcamos las poblaciones es indiferente. Isolina Alberto Moralejo 94 Práctica 6: Inferencia Estadística Figura 16: Ventana de diálogo de la función PRUEBA.F 8. Función PRUEBA.T Con esta función se pueden calcular los p-valores (significación) de los contrastes de comparación de medias de dos poblaciones con varianzas desconocidas (iguales o distintas) en muestras independientes o apareadas (ver la Nota más adelante): Bilateral H0: µX = µY H1: µX ≠ µY Unilaterales H0: µX ≤ µY H1: µX > µY H0: µX ≥ µY H1: µX < µY Se accede a ella a través de la opción del menú INSERTAR>FUNCIÓN> ESTADÍSTICAS>PRUEBA.T, entrando entonces a la ventana de diálogo que se muestra en la Figura 17. En la casilla MATRIZ1 introduciremos el rango de datos (muestra) de la población de X; en la casilla MATRIZ2, el rango de datos (muestra) de la población Y; en la casilla COLAS especificaremos si el contraste es unilateral (COLAS=1) o bilateral (COLAS=2); y, finalmente, en la casilla TIPO indicaremos si el contraste es para datos emparejados (TIPO=1), variables independientes con igual varianza (TIPO=2), o variables independientes con distinta varianza (TIPO=3). Figura 17: Ventana de diálogo de la función PRUEBA.T Isolina Alberto Moralejo 95 Práctica 6: Inferencia Estadística Nota importante: Hay que ser muy cuidadosos en el uso de esta función ya que, aunque para contrastes bilaterales sí que devuelve exactamente el p-valor, en el caso de contrastes unilaterales no es así. Para contrastes unilaterales, la función devuelve el mínimo entre P(T≤t) y P(T≥t), siendo T el estadístico (variable aleatoria) usado en el contraste y t el valor que el estadístico del contraste ha tomado en las muestras de que disponemos. Para saber si el valor que devuelve la función PRUEBA.T es el p-valor de un contraste unilateral, tendremos que calcular también el signo de t (signo de t = signo de x - y ). Si t es negativo, la función PRUEBA.T devuelve P(T≤t); y si es positivo, P(T≥t). Las combinaciones posibles y el cálculo del p-valor del contraste unilateral se muestran en la tabla siguiente: t >0 t <0 H0: µX ≤ µY H1: µX > µY p-valor = PRUEBA.T p-valor = 1 - PRUEBA.T H0: µX ≥ µY H1: µX < µY p-valor = 1 - PRUEBA.T p-valor = PRUEBA.T 9. Menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS Entre las opciones estadísticas avanzadas se encuentra la función PRUEBA Z PARA MEDIAS DE DOS MUESTRAS, que nos permite comparar la diferencia de medias de dos poblaciones normales independientes de varianzas conocidas con un valor de referencia, es decir, nos permite realizar los siguientes contrastes: Bilateral H0: µX - µY = µ0 H1: µX - µY ≠ µ0 Unilaterales H0: µX - µY ≤ µ0 H0: µX - µY ≥ µ0 H1: µX - µY > µ0 H1: µX - µY < µ0 Para acceder a esta función, no tenemos más que seleccionar las opciones estadísticas avanzadas mediante HERRAMIENTAS>ANÁLISIS DE DATOS, y una vez allí, seleccionar la opción PRUEBA Z PARA MEDIAS DE DOS MUESTRAS (ver Figura 18). Figura 18: Funciones estadísticas avanzadas Isolina Alberto Moralejo 96 Práctica 6: Inferencia Estadística Entramos entonces en la ventana de diálogo de la Figura 19, en la que deberemos introducir los datos de la muestra de X en la casilla RANGO PARA LA VARIABLE 1; los datos de la Y, en la casilla RANGO PARA LA VARIABLE 2; el valor de µ0, en DIFERENCIA HIPOTÉTICA ENTRE LAS MEDIAS; las varianzas de las dos poblaciones, en las casillas VARIANZA PARA LA VARIABLE 1 y 2; y el valor del nivel de significación, en la casilla ALFA. Podemos, además, indicarle el rango de salida de los resultados. Figura 19: Ventana de diálogo del menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS Nota: Como siempre, se recomienda pedir que los resultados los muestre en una hoja nueva. Al pinchar en el botón ACEPTAR se obtienen los resultados que se muestran en la Figura 20, y que pasamos a comentar. Figura 20: Resultados obtenidos con el menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS MEDIA: proporciona la media muestral de cada una de las muestras. VARIANZA (CONOCIDA): devuelve la varianza poblacional que habíamos introducido en la ventana de diálogo. OBSERVACIONES: es el tamaño de cada una de las muestras. Isolina Alberto Moralejo 97 Práctica 6: Inferencia Estadística DIFERENCIA HIPOTÉTICA DE MEDIAS: es el valor µ0 que habíamos introducido en la ventana de diálogo. z: proporciona el valor que toma el estadístico del contraste en las muestras de que disponemos. Para este contraste se calcula mediante la expresión: z= (x − y) − µ 0 σ 2X σ 2Y + nX nY P(Z≤z) UNA COLA: proporciona el mínimo entre P(Z≤z) y P(Z≥z) y nos permitirá calcular los p-valores de los contrastes unilaterales. VALOR CRÍTICO DE Z (UNA COLA): proporciona el percentil z1-α para el α introducido en la ventana de diálogo. VALOR CRÍTICO DE Z (DOS COLAS): debería poner P(Z≤z) DOS COLAS (es un error de Excel) y proporciona 2×mín{P(Z≤z), P(Z≥z)}, es decir, el p-valor del contraste bilateral. VALOR CRÍTICO DE Z (DOS COLAS): proporciona el percentil z1-α/2 para el α introducido en la ventana de diálogo. Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en cuenta el signo del valor del estadístico en la muestra, z, y la siguiente tabla: z>0 z<0 H0: µX - µY ≤ µ0 H1: µX - µY > µ0 p-valor = P(Z≤z) UNA COLA p-valor = 1 - P(Z≤z) UNA COLA H0: µX - µY ≥ µ0 H1: µX - µY < µ0 p-valor = 1 - P(Z≤z) UNA COLA p-valor = P(Z≤z) UNA COLA 10. Menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES Igual que la anterior, ésta es una opción estadística avanzada, a la que se accede a través de HERRAMIENTAS>ANÁLISIS DE DATOS, seleccionando después la opción PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES. Esta opción nos va a permitir realizar los contrastes de comparación de medias, en poblaciones normales independientes con la misma varianza (desconocida) siguientes: Isolina Alberto Moralejo 98 Práctica 6: Inferencia Estadística Bilateral H0: µX - µY = µ0 H1: µX - µY ≠ µ0 Unilaterales H0: µX - µY ≤ µ0 H0: µX - µY ≥ µ0 H1: µX - µY > µ0 H1: µX - µY < µ0 Al seleccionar la opción, entramos en la ventana de diálogo que se muestra en la Figura 21, donde introduciremos la muestra de las dos poblaciones en las casillas RANGO PARA LA VARIABLE 1 y 2 y el valor de µ0 en la casilla DIFERENCIA HIPOTÉTICA ENTRE LAS MEDIAS. Figura 21: Ventana de diálogo del menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES Los resultados obtenidos se muestran en la Figura 22 y a continuación los pasamos a comentar. Figura 22: Resultados obtenidos con el menú PRUEBA T PARA DOS MUESTAS SUPONIENDO VARIANZAS IGUALES MEDIA: proporciona la media muestral de cada muestra. VARIANZA: proporciona la cuasivarianza muestral de cada muestra. OBSERVACIONES: es el tamaño de cada muestra. Isolina Alberto Moralejo 99 Práctica 6: Inferencia Estadística VARIANZA AGRUPADA: devuelve la estimación de la varianza común, obtenida combinando las cuasivarianzas muestrales. Se calcula mediante la expresión: ŝ 2p = (n X − 1)ŝ 2X + (n Y − 1)ŝ 2Y nX + nY − 2 DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido en la ventana de diálogo. GRADOS DE LIBERTAD: son los grados de libertad del estadístico del contraste y se calculan mediante nX + nY – 2. ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha tomado en las muestras de que disponemos. Se calcula con la expresión: t= (x − y) − µ 0 ŝ p 1 1 + nX nY P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá calcular los p-valores de los contrastes unilaterales. VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana de diálogo. P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del contraste bilateral. VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la ventana de diálogo. Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla: t>0 t<0 H0: µX - µY ≤ µ0 H1: µX - µY > µ0 p-valor = P(T≤t) UNA COLA p-valor = 1 - P(T≤t) UNA COLA H0: µX - µY ≥ µ0 H1: µX - µY < µ0 p-valor = 1 - P(T≤t) UNA COLA p-valor = P(T≤t) UNA COLA Ejercicio.- Haz el Ejercicio 5 del final de la práctica. Isolina Alberto Moralejo 100 Práctica 6: Inferencia Estadística 11. Menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS DESIGUALES El funcionamiento de esta opción del menú de funciones estadísticas avanzadas es análogo al de las funciones anteriores y proporciona los resultados de los contrastes de comparación de medias de dos poblaciones normales independientes con varianzas desconocidas y distintas de la tabla siguiente: Bilateral H0: µX - µY = µ0 H1: µX - µY ≠ µ0 H0: µX - µY ≤ µ0 H1: µX - µY > µ0 Unilaterales H0: µX - µY ≥ µ0 H1: µX - µY < µ0 La ventana de diálogo a la que se accede al seleccionarla aparece en la Figura 23, en la que la forma de introducción de datos es la habitual. Figura 23: Ventana de diálogo del menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS DESIGUALES Los resultados proporcionados son los que se muestran en la Figura 24. Figura 24: Resultados obtenidos con el menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS DESIGUALES MEDIA: proporciona la media muestral de cada muestra. VARIANZA: proporciona la cuasivarianza muestral de cada muestra. Isolina Alberto Moralejo 101 Práctica 6: Inferencia Estadística OBSERVACIONES: es el tamaño de cada muestra. DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido en la ventana de diálogo. GRADOS DE LIBERTAD: son los grados de libertad del estadístico del contraste calculados mediante la expresión: 2 ⎛ ŝ 2X ŝ 2Y ⎞ ⎜ ⎟ ⎜n + n ⎟ X Y ⎠ grados de libertad = 2 ⎝ 2 (ŝ X /n X ) (ŝ 2 /n ) 2 + Y Y nX −1 nY −1 ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha tomado en las muestras de que disponemos. Se calcula con la expresión: t= (x − y) − µ 0 ŝ 2X ŝ 2Y + nX nY P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá calcular los p-valores de los contrastes unilaterales. VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana de diálogo. P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del contraste bilateral. VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la ventana de diálogo. Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla: t>0 t<0 H0: µX - µY ≤ µ0 H1: µX - µY > µ0 p-valor = P(T≤t) UNA COLA p-valor = 1 - P(T≤t) UNA COLA Isolina Alberto Moralejo H0: µX - µY ≥ µ0 H1: µX - µY < µ0 p-valor = 1 - P(T≤t) UNA COLA p-valor = P(T≤t) UNA COLA 102 Práctica 6: Inferencia Estadística 12. Menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS EMPAREJADAS Esta opción permite realizar los contrastes de comparación de medias de dos poblaciones relacionadas siguientes: Bilateral H0: µX - µY = µ0 H1: µX - µY ≠ µ0 H0: µX - µY ≤ µ0 H1: µX - µY > µ0 Unilaterales H0: µX - µY ≥ µ0 H1: µX - µY < µ0 La principal diferencia de esta opción con las anteriores es que en este caso, el número de observaciones de las dos muestras ha de coincidir, y cada observación de X tiene que estar en la misma fila que la observación que le corresponde de la variable Y. La ventana de diálogo correspondiente a este menú aparece en la Figura 25. Las casillas se rellenan de la forma habitual. Figura 25: Ventana de diálogo del menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS EMPAREJADAS Los resultados proporcionados aparecen en la Figura 26. Figura 26: Resultados obtenidos con el menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS EMPAREJADAS Isolina Alberto Moralejo 103 Práctica 6: Inferencia Estadística MEDIA: proporciona la media muestral de cada muestra. VARIANZA: proporciona la cuasivarianza muestral de cada muestra. OBSERVACIONES: es el tamaño de cada muestra, n (recuerda que en este caso coinciden). COEFICIENTE DE CORRELACIÓN DE PEARSON: muestra el valor de este coeficiente, que, como ya sabemos, mide el grado de asociación lineal entre X e Y. DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido en la ventana de diálogo. GRADOS DE LIBERTAD: del estadístico del contraste son n-1. ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha tomado en las muestras de que disponemos. Se calcula con la expresión: t= d − µ0 ŝ d / n donde d y ŝ d son la media y cuasidesviación típicas muestrales de las n diferencias observadas xi-yi. P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá calcular los p-valores de los contrastes unilaterales VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana de diálogo. P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del contraste bilateral. VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la ventana de diálogo. Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla: t>0 t<0 H0: µX - µY ≤ µ0 H1: µX - µY > µ0 p-valor = P(T≤t) UNA COLA p-valor = 1 - P(T≤t) UNA COLA Isolina Alberto Moralejo H0: µX - µY ≥ µ0 H1: µX - µY < µ0 p-valor = 1 - P(T≤t) UNA COLA p-valor = P(T≤t) UNA COLA 104 Práctica 6: Inferencia Estadística Ejercicio.- Haz el Ejercicio 6 del final de la práctica. 13. Apéndice Tablas resumen de los menús y funciones de comparación de medias y varianzas de dos poblaciones: Comparación de medias de dos poblaciones X e Y Poblaciones X e Y independientes Poblaciones X e Varianzas Varianzas Varianzas Y relacionadas desconocidas y desconocidas conocidas distintas pero iguales PRUEBA T T PRUEBA T PARA PRUEBA PRUEBA Z PARA DOS DOS MUESTRAS PARA MEDIAS PARA Menú MUESTRAS DE DOS SUPONIENDO estadístico MEDIAS DE SUPONIENDO MUESTAS VARIANZAS avanzado DOS VARIANZAS EMPAREJADAS DESIGUALES MUESTRAS IGUALES PRUEBA.T PRUEBA.T con PRUEBA.T con Función con TIPO=2 TIPO=3 TIPO=1 Función Comparación de varianzas de dos poblaciones X e Y independientes PRUEBA.F Tabla resumen para el cálculo de los p-valores de los contrastes de comparación de medias: Cálculos realizados con el menú de herramientas estadísticas avanzadas Signo del estadístico del p-valor H0 contraste, r, en la muestra Positivo o negativo P(R≤r) dos colas µX - µY = µ0 Positivo P(R≤r) una cola µX - µY ≤ µ0 Negativo 1-P(R≤r) una cola Positivo 1-P(R≤r) una cola µX - µY ≥ µ0 Negativo P(R≤r) una cola donde R es el estadístico (variable aleatoria) del contraste y r es el valor que toma el estadístico del contraste en la muestra aleatoria simple recogida y P(R≤r) dos colas y P(R≤r) una cola son los valores que devuelve el menú que hemos utilizado para realizar el contraste. Isolina Alberto Moralejo 105 Práctica 6: Inferencia Estadística Isolina Alberto Moralejo 106 Práctica 6: Inferencia Estadística Apellidos y nombre: Profesor: Grupo: Ejercicio 1.- La empresa de aerogeneradores CIERZO S.A. está haciendo un estudio sobre los cuatro tipos de aerogenerador que fabrica y las tres averías más frecuentes. Los cuatro tipos de aerogenerador son: asíncrono de rotor en cortocircuito, asíncrono de rotor bobinado, síncrono de imanes permanentes y síncrono convencional. Los tres tipos de averías más frecuentes son: que falle una fase del interruptor de conexión, que el multiplicador se sobresaliente y que se produzca un fallo en los condensadores de potencia reactiva. El técnico de calidad de CIERZO S.A. ha recogido los datos del fichero Eólica.xls. Obtén la tabla de doble entrada con las frecuencias absolutas conjuntas, nij, correspondiente a las variables observadas y completa la tabla siguiente. Tipo de máquina Tipo de avería Fase del interruptor de Condensadores Sobretemperatura conexión potencia reactiva del multiplicador Asíncrono de rotor bobinado Asíncrono de rotor en cortocircuito Síncrono convencional Síncrono imanes permanentes Representa conjuntamente las dos variables mediante un diagrama de barras agrupado. A la vista del gráfico, ¿es el tipo de avería independiente del tipo de máquina? ............................... Justifica tu respuesta............................................................................ ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. Isolina Alberto Moralejo 107 Práctica 6: Inferencia Estadística Obtén la tabla de doble entrada con las frecuencias absolutas esperadas conjuntas, eij, (suponiendo la independencia de las dos variables) y completa la tabla siguiente. Tipo de máquina Tipo de avería Fase del interruptor de Condensadores Sobretemperatura conexión potencia reactiva del multiplicador Asíncrono de rotor bobinado Asíncrono de rotor en cortocircuito Síncrono convencional Síncrono imanes permanentes Calcula el p-valor del contraste chi-cuadrado de independencia. p.valor = Si α = 0.05, ¿a qué conclusión se llega?.............................................................................. ............................................................................................................................................. ............................................................................................................................................. ¿Confirma esto tu apreciación observando el gráfico?.............................................. Justifica tu respuesta............................................................................................................ ............................................................................................................................................. ............................................................................................................................................. Ejercicio 2.- Ejecuta tres veces el applet “Confidence Intervals” con tamaños muestrales igual a 10, 15 y 20 observaciones. Anota la proporción de intervalos que contienen al valor µ = 50. IC al 99% IC al 95% n = 10 n = 15 n = 20 Isolina Alberto Moralejo 108 Práctica 6: Inferencia Estadística Ejercicio 3.- La tensión de ruptura de un líquido aislante indica su capacidad dieléctrica. Los datos de la variable Voltaje del fichero Voltaje.xls recogen esta tensión de ruptura, en kilovoltios, para 48 muestras de este líquido. Calcula una estimación puntual de la media y la varianza poblacionales: µ̂ = σ̂ 2 = Obtén un intervalo de confianza al 90%, otro al 95% y otro al 99% para el voltaje medio. Observa que, conforme aumenta el nivel de confianza, se pierde precisión en el intervalo, es decir, al aumentar el nivel de confianza, los intervalos se hacen más amplios. IC al 90% IC al 95% IC al 99% ¿Puede ser 52 kV la media de la variable Voltaje? Justifica tu respuesta con la información proporcionada con el intervalo de confianza al 99%...................................... ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. Isolina Alberto Moralejo 109 Práctica 6: Inferencia Estadística Ejercicio 4.- La empresa AIKON S.L. fabrica el cable necesario para los circuitos de las conexiones de los chips de una conocida marca de teléfonos móviles. Las especificaciones de calidad señalan que el grosor del cable producido debe ser de 8 micras. La variable Grosor del fichero Aikon.xls recoge los valores del grosor de una muestra de 50 cables recogida a lo largo del día. Por estudios anteriores, se sabe que la desviación típica de la variable Grosor es 0.2 micras. Calcula una estimación puntual del grosor medio del cable producido: µ̂ = Calcula un intervalo de confianza al 95% para el grosor medio: IC al 95% Calcula el p-valor del contraste bilateral con hipótesis nula H0: µ = 8 e hipótesis alternativa H1: µ ≠ 8. p-valor = Tomando α = 0.05, ¿qué conclusión obtienes acerca de las especificaciones de calidad? Justifica tu respuesta utilizando el valor del p-valor y el de α............................................ ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. Isolina Alberto Moralejo 110 Práctica 6: Inferencia Estadística Ejercicio 5.- Se desea comparar la cantidad de líquido introducida por dos máquinas de llenado de botellas de agua mineral de 1/3 de litro. Los datos se encuentran en el fichero Mineral.xls. La variable Cantidad recoge los centímetros cúbicos introducidos en las botellas de 1/3; y la variable Maquinas recoge la máquina (1 ó 2) que lleva a cabo el relleno de las botellas. Se supone que las máquinas trabajan independientemente la una de la otra A la vista de la forma en la que se han recogido los datos, ¿dirías que se trata de datos apareados o por el contrario piensas que son independientes?............................................ Justifica tu respuesta. .......................................................................................................... ............................................................................................................................................. Calcula una estimación puntual de las medias y las varianzas poblacionales: µ̂ X = σ̂ 2x = µ̂ Y = σ̂ 2Y = Plantea los contrastes de hipótesis de comparación de medias y varianzas que consideres oportunos, indicando las hipótesis nulas y alternativas. Para las varianzas H0: H1: Para las medias H0: H1: Una vez realizados los contrastes con Excel y tomando α = 0.05, ¿a qué conclusiones llegas? Proporciona los p-valores de ambos contrastes: Para las varianzas p-valor = Para las medias p-valor = Conclusión del contraste:....................... Conclusión del contraste:....................... ................................................................ ................................................................ ................................................................ ................................................................ Isolina Alberto Moralejo 111 Práctica 6: Inferencia Estadística Ejercicio 6.- Se está investigando sobre un nuevo método experimental para la determinación de los octanos de la gasolina. Se quiere comparar este nuevo método con el habitual para tratar de saber si alguno de los dos indica un valor más alto que el otro. Para llevar a cabo la comparación, se han tomado muestras de las 32 mezclas de gasolina, midiendo los octanos con ambos métodos (primero con uno y luego con otro). Los datos se encuentran en las columnas Nuevo y Habitual del fichero Gasolina.xls. A la vista de la forma en la que se han recogido los datos, ¿dirías que se trata de datos apareados o por el contrario piensas que son independientes?............................................ Justifica tu respuesta............................................................................................................ ............................................................................................................................................. ............................................................................................................................................. Plantea el contraste de hipótesis de comparación de medias que consideres oportuno, indicando la hipótesis nula y la alternativa. H0: H1: Una vez realizado el contraste con Excel, ¿cuánto vale el p-valor? p-valor = Tomando α = 0.05, ¿se puede considerar que ambos métodos miden lo mismo?.............. Justifica tu respuesta............................................................................................................ ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. Isolina Alberto Moralejo 112