Bases de Estadı́stica Licenciatura en Ciencias Ambientales Curso 2oo3/2oo4 Intervalos de Confianza El objetivo de esta práctica es ilustrar las diferentes técnicas para construir intervalos de confianza mediante el programa SPSS. Comenzaremos con el problema de construir un intervalo de confianza para la media de una población normal (con varianza desconocida), para posteriormente estudiar algunos ejemplos de comparación de dos muestras. Utilizaremos los datos del fichero practica31 que contiene la esperanza de vida de los hombres y las mujeres de 40 paı́ses y que hemos utilizado en prácticas anteriores. 1. Intervalo de confianza para la media En este apartado estudiamos cómo construir un intervalo de confianza para la esperanza de vida media de los hombres, basado en los 40 datos de los que disponemos y haciendo la hipótesis de que la población es normal. Para ello, una vez que hemos abierto el fichero de datos que queremos analizar y lo tenemos a la vista en el Editor de datos: Se selecciona Analizar ,→ Comparar medias ,→ Prueba T para una muestra... En el cuadro Variables a contrastar seleccionamos la variable que contiene las esperanzas de vida de los hombres. El nivel de confianza utilizado por defecto es del 95 %. Para cambiarlo, hay que seleccionar el botón Opciones . El cuadro Valor de prueba está relacionado con los contrastes de hipótesis. Por defecto toma el valor cero. Si pulsamos Aceptar , la salida del SPSS es la siguiente: 1 Prueba para una muestra Valor de prueba = 0 HOMBRES t 46,044 gl 39 Sig. (bilateral) ,000 Diferencia de medias 63,325 95% Intervalo de confianza para la diferencia Inferior 60,543 Superior 66,107 √ La fórmula del intervalo para la media µ que estamos calculando √ es [x̄ ∓ tn−1,α/2 s/ n], donde 1 − α es el nivel de confianza. En la tabla anterior, t = (x̄ − µ0 )/(s/ n), donde µ0 es el valor de prueba. La columna gl da los grados de libertad. La diferencia de medias es x̄ − µ0 , es decir, el centro del intervalo para el valor por defecto µ0 = 0. La columna sig(bilateral) da el llamado “p-valor”. En general, el programa calcula un intervalo de confianza para µ − µ0 , es decir, si µ0 = 0, calcula un intervalo de confianza para µ. Ejercicio 1. Construye dos intervalos de confianza (con niveles de confianza del 90 % y del 99 %) para la esperanza de vida de las mujeres. Compara los márgenes de error de ambos intervalos. 2. Intervalos de confianza para la diferencia de medias Cuando se dispone de dos muestras procedentes de poblaciones normales se puede calcular un intervalo de confianza para la diferencia de medias µ1 − µ2 . Para ello, es importante distinguir si las dos muestras son independientes o si los datos son emparejados. Veamos cómo llevar a cabo el análisis en cada uno de estos casos. 2.1. Datos emparejados Supongamos que queremos, con los datos disponibles, comparar la esperanza de vida de los hombres µ1 con la de las mujeres µ2 . Es claro que los datos son emparejados y que las muestras no son independientes ya que si en un paı́s la esperanza de vida de los hombres es alta, también tenderá a serlo la de las mujeres. En este caso, la solución es construir un intervalo de confianza para la media de las diferencias. Hay dos métodos para llevar a cabo los cálculos con el SPSS. Una posibilidad es la siguiente: Crear una nueva variable que contenga las diferencias entre las esperanzas de vida de los hombres y de las mujeres. Para ello se selecciona Transformar ,→ Calcular . En el cuadro 2 Nueva variable se escribe el nombre de la nueva variable que contendrá las diferencias. Por ejemplo, dif. En el cuadro Expresión numérica se escribe hombres-mujeres. Para la nueva variable dif se llevan a cabo los cálculos explicados en la sección anterior. Los resultados se presentan en el cuadro siguiente. Prueba para una muestra Valor de prueba = 0 DIF t -12,279 gl 39 Sig. (bilateral) ,000 Diferencia de medias -4,8000 95% Intervalo de confianza para la diferencia Inferior -5,5907 Superior -4,0093 Ejercicio 2. Construye, siguiendo el procedimiento que acabamos de explicar, un intervalo de confianza al 95 % para µ1 − µ2 , la diferencia entre la esperanza de vida media de los hombres y la de las mujeres. A la vista de la salida, contesta a las siguientes preguntas: (a) Si di = xi − yi son las diferencias, ¿cuáles son los valores de d¯ y de sd ? (b) ¿Qué relación existe entre los valores t, “error tı́pico de la media” y “diferencia de medias”, que aparecen en la salida? (c) Según el intervalo obtenido, ¿existen diferencias significativas entre las esperanzas de vida? Otra posibilidad para llevar a cabo los mismos cálculos es Se selecciona Analizar ,→ Comparar medias ,→ Prueba T para muestras relacionadas En el cuadro Variables relacionadas seleccionamos las variables que contienen las esperanzas de vida de los hombres y de las mujeres. Los resultados se presentan en el cuadro siguiente. Prueba de muestras relacionadas Diferencias relacionadas Par 1 HOMBRES - MUJERES Media -4,800 Desviación típ. 2,472 Error típ. de la media ,391 3 95% Intervalo de confianza para la diferencia Inferior -5,591 Superior -4,009 t -12,279 gl 39 Sig. (bilateral) ,000 2.2. Muestras independientes Se ha realizado un estudio para investigar el efecto del ejercicio fı́sico en el nivel de colesterol en la sangre. Para ello se midió el nivel de colesterol en 11 personas que no realizan habitualmente ejercicio fı́sico (grupo 1) y otras 11 personas que sı́ lo realizan (grupo 2). Las mediciones obtenidas, expresadas en mg/dl, fueron las siguientes: Grupo 1 182 232 191 200 148 249 276 213 241 480 262 Grupo 2 198 210 194 220 138 220 219 161 210 313 226 Para calcular el intervalo se procede de la siguiente forma: Las mediciones de ambos grupos se han de incluir en la misma variable, que podemos denominar colest. A continuación hay que definir una variable de agrupación o codificación (a la que llamaremos grupo) que tenga, por ejemplo, 11 unos en los 11 primeros lugares y 11 doses en los lugares restantes. El papel de esta variable es identificar los datos que pertenecen a cada una de los dos grupos. Los datos se pueden bajar de la página web de la asignatura (fichero practica32). Una vez que tenemos los datos preparados, se selecciona: Analizar ,→ Comparar medias ,→ Prueba T para muestras independientes En el cuadro de diálogo que aparece se selecciona la variable a contrastar colest y la variable de agrupación grupo. En Definir grupos se indica el código asignado a cada muestra (en nuestro caso, 1 para la primera y 2 para la segunda). La interpretación de los resultados es totalmente análoga a la de los casos anteriores. Los resultados se presentan en el cuadro siguiente. 4 Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F COLEST Se han asumido varianzas iguales No se han asumido varianzas iguales 1,396 Sig. ,251 Prueba T para la igualdad de medias t gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior 1,128 20 ,272 33,1818 29,4047 -28,1553 94,5189 1,128 14,736 ,277 33,1818 29,4047 -29,5908 95,9545 Ejercicio 3. Construye, siguiendo el procedimiento que acabamos de explicar, un intervalo de confianza al 95 % para la diferencia entre los niveles medios de colesterol de las personas que no realizan ejercicio fı́sico habitualmente y de las que sı́ lo hacen, µ1 − µ2 . A la vista de los resultados, contesta a las siguientes preguntas (suponemos que las varianzas de ambas poblaciones son iguales): (a) Estima el valor de V(x̄1 ), V(x̄2 ) y V(x̄1 − x̄2 ) (b) ¿Qué valor toma sp , el estimador combinado de la desviación tı́pica poblacional basado en las observaciones de ambos grupos? (c) Con los resultados obtenidos, ¿puede determinarse que existen diferencias significativas entre los dos grupos? (d) Repite los cálculos pero tomando un nivel de confianza del 99 %. ¿Qué es lo que cambia y qué permanece constante en la salida respecta al caso anterior? ¿Se mantienen las mismas conclusiones? Página 1 5