PONTIFICIA UNIVERSIDAD JAVERIANA Facultad de Ciencias Departamento de Matemáticas Docente: Diana Trujillo 2018 NOTAS DE ESTADÍSTICA DESCRIPTIVA Intervalos de Confianza 1 Definiciones iniciales Estimación En inferencia estadı́stica se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.1 Estimación puntual Una estimación puntual del valor de un parámetro poblacional desconocido (como puede ser la media µ , o la desviación estándar σ), es un número que se utiliza para aproximar el verdadero valor de dicho parámetro poblacional. El valor de este parámetro muestral será la estimación puntual del parámetro poblacional. 2 . Por ejemplo x̄ es la estimación puntual de µ. Margen de error Cuando usamos x̄ como una estimación puntual para µ, el margen de error es la diferencia entre la estimación y el valor real del parámetro poblacional y se escribe como: |x̄ − µ| ó x̄ − µ Nivel de confianza Nos sirve para medir la confiabilidad de una estimación. Indica qué tan probable es que el parámetro poblacional, (como por ejemplo la media), esté dentro de un intervalo dado (intervalo de confianza). 1 2 https://es.wikipedia.org/wiki/Estimación-estadı́stica Tomado de:http://www.uoc.edu/in3/emath/docs/Estimacion_IC.pdf 1 Para un nivel de confianza c, el valor crı́tico zc es un número tal que el área bajo la curva normal estándar entre −zc y zc es igual a c. El área bajo la curva normal, desde −z y z es la probabilidad de que la variable z caiga en tal intervalo. Esto significa qué: P (−zc ≤ z ≤ zc ) = c Nota: los valores que suelen usarse para el nivel de confianza son 95%, 99% y 99, 9%. Por ejemplo, un nivel de confianza de 95% indica que 19 de 20 muestras (95%) de la misma población generarán intervalos de confianza que incluirán el parámetro de población. 2 ¿Qué es un intervalo de confianza para un parámetro? Cómo sabemos, los parámetros poblacionales (tales como media µ ó proporción p) son en general desconocidos pues es difı́cil acceder a la totalidad de los individuos de una población de interés y calcular sus valores. Por esta razón, se genera la necesidad de estimar el valor de esos parámetros mediante distintas técnicas probabilı́sticas. Una de ellas son los intervalos de confianza que de acuerdo a una probabilidad dada, nos da un rango de valores en el podrı́a encontrarse el verdadero parámetro. 2.1 Pasos para construir un intervalo de confianza Para realizar un intervalo de confianza usaremos los siguientes pasos como una forma de orientar y organizar su construcción. 1. Organizar los datos del problema y definir qué tipo de intervalo se debe realizar. 2. Encontrar el valor crı́tico zc ó tc , de acuerdo al nivel de confianza dado. 3. Encontrar el error de estimación, el cual estará dado por el tipo de intervalo. 4. Encontrar el lı́mite inferior y superior del intervalo. 5. Realizar la interpretación de acuerdo al contexto del problema. 3 Estimación para µ cuando σ es conocida Requisitos para la variable aleatoria x 1. Se debe tener una muestra aleatoria simple de tamaño n la cual ha sido tomada de una población de valores x. 2. El valor σ, la desviación estándar poblacional es conocida. 3. Si la distribución de x es normal, entonces los métodos funcionan para cualquier muestra de tamaño n. 4. Si no se conoce la distribución de x, entonces se requiere que el tamaño de la muestra sea mayor o igual a 30 (n ≥30). Sin embargo, si la distribución de x es claramente sesgada, y definitivamente no es simétrica, será necesario tomar muestras de tamaño 50, 100 o incluso más. 2 3.1 Intervalo de confianza para µ cuando σ es conocida Sean x̄ la media muestral de una muestra aleatoria simple, c el nivel de confianza, zc el valor crı́tico σ para el nivel de confianza c y E = zc √ el margen de error máximo, entonces, el intervalo de n confianza para la media es: x̄ − E < µ < x̄ + E Ejercicio El colibrı́ de Allen (Selasphorus sasin) ha sido estudiado por el zoólogo Bill Alther (Referencia: Hummingbirds, K. Long y W. Alther). Un pequeño grupo de 15 colibrı́es de Allen ha estado bajo estudio en Arizona. El peso promedio para estas aves es x̄ = 3, 15 gramos. Sobre la base de estudios anteriores, podemos suponer que los pesos de los colibrı́es de Allen tienen una distribución normal, con σ = 0, 33 gramos. 1. Encuentre un intervalo de confianza del 80% para los pesos promedio de los colibrı́es en la región de estudio. ¿Cuál es el margen de error? 2. ¿Qué condiciones son necesarias para sus cálculos? 3. Dé una breve interpretación de sus resultados en el contexto de este problema. 3.2 Tamaño de la muestra para estimar µ En ocasiones, se quiere tener un intervalo de confianza, el cual tenga un margen de error máximo σ determinado. Por lo tanto, usando la fórmula E = zc √ , donde E es el márgen de error máximo n permitido, podemos despejar n y obtenemos: n= z σ 2 c E siendo zc el valor crı́tico para el nivel de confianza c, σ la desviación estándar poblacional y n el tamaño de muestra. Notas: • Si la muestra es de tamaño mayor a igual a 30 (n ≥30), entonces para propósitos más prácticos, es seguro aproximar σ con la desviación estándar muestral s en la fórmula del tamaño de muestra. • Si n no es un número entero, se debe incrementar al siguiente entero. 4 Estimación para µ cuando σ es desconocida En la sección 2 se estimó µ cuando σ es conocida, sin embargo la mayor parte del tiempo σ es desconocida. Para este caso, usamos la desviación estándar muestral s para aproximar σ. Cuando se usa esta aproximación, la distribución muestral para x̄ sigue una distribución llamada Distribucion t de Student. Esta distribución depende del tamaño n de la muestra. La variable t está definida ası́: Suponga que x tiene una distribución normal con media µ. Para muestras de tamaño n con media 3 muestral x̄ y desviación estándar muestral s, la variable t t= x̄ − µ s √ n tiene una Distribución t de Student con grados de libertad d.f. = n − 1 4.1 Propiedades de la Distribución t de Student 1. La distribución es simétrica al rededor de la media 0. 2. La distribución depende de los grados de libertad (d.f. = n − 1 para intervalos de confianza para µ) 3. La distribución es simétrica, pero las ”colas” son más anchas que la distribución normal estándar. 4. Cuando los grados de libertad aumentan, la distribución se acerca a la distribución normal estándar. 5. El área bajo toda la curva es igual a 1. 4.2 Valores crı́ticos para intervalos de confianza 4.3 Intervalo de confianza para µ cuando σ es desconocida Sean x̄ la media muestral de una muestra aleatoria simple, c el nivel de confianza, tc el valor crı́tico para el nivel de confianza c (tomado de la distribución t de Student) con grados de libertad d.f. = n−1 s y E = tc √ el margen de error máximo, entonces, el intervalo de confianza para la media es: n x̄ − E < µ < x̄ + E 4 4.4 Ejercicio La empresa Greater Pittsburgh desea calcular el tiempo medio que los trabajadores que laboran en el centro de la ciudad necesitan para llegar al trabajo. Una muestra de 10 trabajadores revela las siguientes cantidades de minutos de viaje. 21 45 34 40 37 37 42 30 29 35 1. Construya un intervalo de confianza del 95% para la media poblacional µ 2. Interprete el resultado. 5 Posibles situaciones al estimar µ 6 Estimación para p en la distribución binomial Se estimará p bajo el supesto de que n (número de ensayos) ya ha sido seeccionado, y que la distribución normal es una buena aproximación de la distribución binomial. 6.1 Requisitos para la variable 1. Se considera un experimento binomial con n ensayos, donde p es la probabilidad de éxito en un ensayo y q = 1 − p es la probabilidad de fallo. La variable aleatoria r representa el número de éxitos en n ensayos binomiales. r n La estimación puntual para q es q̂= 1−p̂ 2. La estimación puntual para p es p̂= 3. El número de ensayos deberı́a ser suficientemente grande ası́ que: np̂> 5 y nq̂> 5 6.2 Intervalo de confianza para p p̂ − E < p < p̂ + E r r p̂q̂ p̂(1 − p̂) = zc n n zc es el valor crı́tico para un nivel de confianza c basado en la distribución normal estándar. donde E ≈ zc 5 6.3 Tamaño de muestra n para estimar una proporción p n = p(1 − p) n= 1 z c 2 4 E z 2 c E si se tiene una estimación preeliminar para p si no se tiene una estimación preeliminar para p donde E es el máximo error de estimación y zc es el valor crı́tico para un nivel de confianza c basado en la distribución normal estándar. Ejercicio Se llevó a cabo una encuesta de mercado para calcular la proporción p de amas de casa que reconocerı́an el nombre de la marca de un limpiador a partir de la forma y color del envase. De las 1400 amas de casa de la muestra, 420 identificaron la marca por su nombre. 1. Estime el valor de la proporción p de la población de mujeres que identifican la marca. 2. Construya e interprete un intervalo de confianza para la proporción poblacional. Estimación para µ1 − µ2 (σ1 y σ2 conocidas) 7 7.1 Definiciones Muestras dependientes: dos muestras son dependientes si los valores de una muestra afectan los valores de la otra muestra. Muestras independientes: dos muestras son independientes si los valores de una muestra no revelan información sobre los valores de la otra muestra. 7.2 Teorema Sean x1 y x2 tienen distribuciones normales con media µ1 y µ2 y desviaciones estándar σ1 y σ2 respectivamente. Si tomamos muestras independientes de tamaño n1 de la distribución de x1 y n2 de la distribución de x2 , entonces la variable x̄1 -x̄2 tiene las siguientes caracterı́sticas: 1. Su distribución es normal. 2. La media es µ1 − µ2 s 3. La desviación estándar es 7.3 σ12 σ22 + n1 n2 Requisitos de la variable 1. Las desviaciones estándar σ1 y σ2 son conocidas. 2. Las distribuciones de x1 y x2 deben ser normales. Si esto no se puede asumir, los tamaños de muestra deben ser mayores o iguales a 30 (n1 , n2 ≥ 30). 6 7.4 Intervalo de confianza para µ1 − µ2 (σ1 y σ2 conocidas) (x̄1 − x̄2 ) − E < µ1 − µ2 < (x̄1 − x̄2 ) + E donde: s E = zc σ12 σ22 + es el márgen de error máximo. n1 n2 zc es el valor crı́tico para el nivel de confianza c basado en la distribución normal estándar. Ejercicio ¿Cuán rentables son los diferentes sectores del mercado de valores? Una forma de responder a esta pregunta es examinar el beneficio como un porcentaje del patrimonio de los accionistas. Se estudió una muestra aleatoria x1 de 32 accionistas minoristas, calculando el beneficio como porcentaje del patrimonio. El resultado de la media del beneficio fue x̄1 = 13, 7. También se estudió una muestra aleatoria x2 de 34 accionistas de servicios públicos (gas y electricidad) y se calculó el beneficio como porcentaje del capital. El resultado de la media del beneficio fue x̄2 = 10, 01. Construya un intervalo de confianza del 95% para µ1 − µ2 . Asuma que σ1 = 4, 1 y σ2 = 2, 7. A un nivel de confianza del 95%, ¿podrı́amos afirmar que el beneficio como porcentaje del patrimonio de los accionistas minoristas es más alto que el de las acciones de servicios públicos? Estimación para µ1 − µ2 (σ1 y σ2 desconocidas) 8 Cuando σ1 y σ2 son desconocidas cambiamos a la distribución t de Student t≈ 8.1 3 (x̄1 − x̄2 ) − (µ1 − µ2 ) s s21 s2 + 2 n1 n2 Intervalo de confianza para µ1 − µ2 (σ1 y σ2 desconocidas) (x̄1 − x̄2 ) − E < µ1 − µ2 < (x̄1 − x̄2 ) + E donde:s E = tc s21 s2 + 2 es el márgen de error máximo. n1 n2 tc es el valor crı́tico para el nivel de confianza c basado en la distribución t de Student. d.f = el valor menor entre (n1 − 1) y (n2 − 1) 8.2 Ejercicio En su libro, el profesor Borbely comenta que el alcohol es una ayuda pobre para el problema de sueño. En un estudio, a varios sujetos se les dio 12 litro de vino tinto antes de dormir. Los sujetos se durmieron rápidamente, pero no permanecieron dormidos toda la noche. Hacia la mañana, entre las 4 y las 6 de la mañana, tendı́an a despertar y tenı́an problemas para volver a dormir. Supongamos que una muestra aleatoria de 29 estudiantes universitarios fue dividida aleatoriamente en dos grupos. El primer grupo 3 Ver requisitos para la variable en la página 3 7 de n1 = 15 personas recibió 21 litro de vino tinto antes de irse a dormir. El segundo grupo de n2 = 14 personas no recibió alcohol antes de irse a dormir. Todo el mundo en ambos grupos se fue a dormir a las 11 pm. La actividad media de las ondas cerebrales, en hertz, de 4 a 6 a.m se determinó para cada individuo en los grupos. Los resultados de la actividad media de las ondas cerebrales entre las 4 y 6 de la mañana y la desviación estándar fueron los siguientes: GRUPO 1, n1 = 15 GRUPO 2, n2 = 14 x̄1 = 19, 65; s1 = 1, 86 x̄2 = 6, 59; s2 = 1, 91 Construya un intervalo de confianza del 90% para la diferencia de las medias poblacionales µ1 − µ2 . Interprete el resultado. 9 9.1 Estimación para p1 − p2 Intervalo de confianza para p1 − p2 (p̂1 − p̂2 ) − E < p1 − p2 < (p̂1 − p̂2 ) + E r donde E = zc p̂1 q̂1 p̂2 q̂2 + n1 n2 zc es el valor crı́tico para un nivel de confianza c basado en la distribución normal estándar. r1 p̂1 = n1 r2 p̂2 = n2 8