M. Iniesta Universidad de Murcia INFERENCIA ESTADÍSTICA Tema 3.2: Intervalos de conanza Objetivos Construir intervalos de conanza para los parámetros más importantes. Aplicar convenientemente los IC atendiendo a cada situación experimental. Comparar dos medias o dos proporciones muestrales y analizar posibles diferencias signicativas. 1. Intervalos de Conanza Con el objetivo de estimar un parámetro poblacional, un intervalo de conanza es un rango de valores (calculado a partir de una muestra) en el cual se encuentra el verdadero valor del parámetro con una probabilidad determinada. A la semiamplitud de dicho intervalo se le llamará error de estimación. La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de conanza 1 − α. por α. y se denota equivocarnos se llama nivel de signicación y se simboliza La probabilidad de Denición 1.1 Sea (X1 , ..., Xn ) una m.a.s. de tamaño n, procedente de X ∼ f (x, ϑ) con ϑ desconocido. Sean ϑb1 , ϑb2 una pareja de estimadores, tal que la probabilidad de que el intervalo IC = (ϑb1 , ϑb2 ) contenga el verdadero valor de ϑ es de (1 − α), jada de antemano, entonces a IC se le llama intervalo a nivel de conanza (1 − α)100 % para el parámetro ϑ. Veremos que los casos más frecuentes serán los intervalos para medias, proporciones y diferencias de éstas, así como para varianzas, desviaciones típicas y cocientes de éstas. Aún así, a continuación damos un esquema de construcción de intervalos de conanza para cualquier parámetro. Aunque el esquema es simple su aplicación no es trivial en muchos casos, aparte de los usuales antes mencionados. Veremos que el punto esencial en dicho esquema es la búsqueda del Estadístico Pivote que debe reunir ciertos requisitos. Este punto está absolutamente resuelto en los ejemplos que usaremos. 1.1. Sea Método de Construcción (X1 , ..., Xn ) una m.a.s. de tamaño n, X ∼ f (x, ϑ) parámetro ϑ son: procedente de cido. Las etapas para construir un intervalo para el con ϑ descono- Página: 1 M. Iniesta Universidad de Murcia Método para construir un intervalo de conanza 1. Construir w = g(X1 , . . . , Xn , ϑ), que recibe el nombre de esta- dístico pivote, tal que: a) b) c) Sea monótona en ϑ. Tenga distribución conocida. Su distribución no dependa de ningún parámetro desconocido. 2. Encontrar a, b , tales que P (a ≤ w ≤ b) = 1 − α Estos valores a y b deben ser tales que el intervalo que denen sea el más corto posible. 3. Invertir la función w para encontrar dos estimadores ϑb1 y ϑb2 tales que: P (a ≤ w ≤ b) = P (ϑb1 ≤ ϑ ≤ ϑb2 ) = 1 − α Ejemplo 1.2 Sea X ∼ N (µ, σ) con σ conocida y µ desconocida. Entonces, en primer lugar, denimos el estadístico pivote como: w= X̄ − µ √σ n Sabiendo que w ∼ N (0, 1) se tiene P −z1− α2 ≤ X̄ − µ √σ n ! =1−α⇔ ≤ z1− α2 σ σ P −z1− α2 √ ≤ X̄ − µ ≤ z1− α2 √ =1−α⇔ n n σ σ P X̄ − z1− α2 √ ≤ µ ≤ X̄ + z1− α2 √ = 1 − α n n | {z } | {z } µ b1 µ b2 Nota 1.3 z1− α2 es la abscisa de la distribución normal que deja a su izquierda un área de 1 − α2 . Del mismo modo tn−1,1− α2 será la abscisa de la distribución t de Student con n − 1 grados de libertad que deja a su izquierda un área de 1 − α2 . Ejemplo 1.4 Sea X ∼ N (µ, σ) con µ y σ desconocidas. Se tiene que: σ X̄ ∼ N µ, √ n Z= X̄ − µ √σ n ∼ N (0, 1) Página: 2 M. Iniesta Universidad de Murcia Por otra parte, se cumple lo siguiente: 2 S = n X (Xi − X̄)2 n−1 i=1 Como la variable t de (n − 1)S 2 ∼ χ2n−1 σ2 Student Z se obtiene mediante la transformación q siguiente estadístico cumple con los requisitos t= q X̄−µ √ σ n (n−1)S 2 = (n−1)σ 2 X̄ − µ χ2n n ∼ tn el ∼ tn−1 √S n Es decir, el estadístico pivote es t, y por lo tanto: P −tn−1,1− α2 ≤ X̄ − µ √S n ! ≤ tn−1,1− α2 =1−α⇔ S S P −tn−1,1− α2 √ ≤ X̄ − µ ≤ tn−1,1− α2 √ ⇔ n n S S P X̄ − tn−1,1− α2 √ ≤ µ ≤ X̄ + tn−1,1− α2 √ = 1 − α n n | {z } | {z } µ b1 µ b2 Ejemplo 1.5 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X̄ = 180 063 calcular un intervalo de conanza al 95 % para el parámetro desconocido µ. σ 00 1 0 0 IC = X̄ ± Z1− α2 √ = 18 063 ± 1 96 √ n 16 Nota 1.6 Cuando las muestras no son normales es posible encontrar intervalos aproximados usando muestras de tamaño grande. En estas situaciones los estadísticos pivotes seguirán distribuciones aproximadas. Ejemplo 1.7 Sea X ∼ B(1, p) y {X1 , . . . , Xn } una m.a.s. procedente de X . Como Pn pb = y V (b p) = V (f r(A)) = i=1 n p(1 − p) n resulta el intervalo aproximado pb ± z1− α2 Xi = X̄ = f r(A) estimada √ pb(1−b p) √ n por pb(1 − pb) V[ (b p) = n para p con p p pb(1 − pb) pb(1 − pb) √ √ P pb − z1− α2 ≤ p ≤ pb + z1− α2 ≈1−α n n | {z } | {z } pb1 pb2 Página: 3 M. Iniesta Universidad de Murcia 2. Determinación del tamaño de muestra Vamos a considerar cómo se puede jar el tamaño de la muestra en los casos de estimación por intervalos cuando deseamos acotar el error de estimación, es decir, la semiamplitud del intervalo, que denotaremos por Por ejemplo, cuando estimamos queremos µ con σ e. conocida y jado el nivel de conanza 1 − α, σ z1−α/2 √ < e n lo que conseguimos haciendo σ n > (z1−α/2 )2 e En el caso de no conocer la varianza podemos aproximarla por una estimación o una cota de la misma Ejemplo 2.1 Supongamos que deseamos conocer el tamaño de muestra para que una proporción estimada diste de la proporción real en menos de 0.05, con probabilidad 0.95. Como la varianza de pb es queremos que sea p(1 − p) podemos acotar ésta haciendo p(1 − p) ≤ 0.25, así si n z1−α/2 p(1 − p) √ <e n basta que sea n > (z1−α/2 p(1 − p) 2 ) e pero como p es desconocido, si n > (z1−α/2 0.25 2 ) e en particular también se verica la condición anterior. Es decir, en el caso del ejemplo sería: n > (1.96 0.25 2 ) = 96.04 0.05 o lo que es igual n ≥ 97 3. Resumen de Intervalos más frecuentes (una sola muestra) En la siguiente tabla se recoge la expresión de los intervalos de conanza de los parámetros más conocidos. La forma de obtener estos ha sido usando un apropiado estadístico de contraste, que también aparece en la misma tabla junto con su distribución de probabilidad. Cada situación habrá que enmarcarla en una de las que aparece a continuación. Página: 4 M. Iniesta Universidad de Murcia Parámetro Población Estadístico µ Normal con σ conocida µ Normal con σ desconocida µ No normal con σ conocida (n µ No normal con σ desconocida (n p Bernoulli (n ≥ 30) ≥ 30) ≥ 30) x−µ √ σ/ n x−µ √ S/ n x−µ √ σ/ n x−µ √ S/ n pb − p q Distribución Intervalo de conanza N (0, 1) σ x ± z1−α/2 √ n tn−1 N (0, 1) N (0, 1) N (0, 1) p(1−p) n ≥ 30) λ Poisson (n σ2 Normal con µ desconocida x−λ p λ/n (n − 1)S 2 σ2 N (0, 1) χ2n−1 S x ± tn−1,1−α/2 √ n σ x ± z1−α/2 √ n S x ± z1−α/2 √ n r pb(1 − pb) pb ± z1−α/2 n r x x ± z1−α/2 n 2 (n − 1)S (n − 1)S 2 , χ2n−1,1−α/2 χ2n−1,α/2 4. Caso de dos muestras En ocasiones es necesario contrastar la homogeneidad de dos muestras para pronosticar si proceden de la misma población o no. Es decir, se trata de resolver alguna de las siguientes cuestiones: ¾Son dos muestras normales procedentes de la misma población normal?, o bien, ¾provienen de distribuciones normales de misma media y/o misma varianza? ¾Son dos muestras de Bernoulli procedentes de una población con la misma probabilidad de éxito?. En principio este objetivo lo llevaremos a cabo con intervalos de conanza y más tarde lo resolveremos mediante test de hipótesis. ¾Cómo podemos interpretar los resultados de un intervalo de conanza para desvelar una cuestión como la anterior?. Centrémonos en la diferencia de medias, de momento. Aunque las muestras provengan de la misma población es razonable que al observar dos muestras de ella se obtengan medias muestrales distintas, estas diferencias se atribuyen al azar. Sin embargo al calcular el intervalo de conanza para la diferencia de dos medias, éste debe contener el valor cero. Por el contrario, si el intervalo de conanza la diferencia de medias muestrales es signicativa y sería lo mismo que concluir que las medias teóricas son para la diferencia de medias no contiene al cero decimos que diferentes. Este mismo argumento podemos elaborar para la diferencia de varianzas, si bien en este caso el parámetro que se contrasta es el cociente de varianzas y admitiremos que no hay diferencias signicativas entre ellas si el correspondiente intervalo contiene el valor 1. De ocurrir lo contrario, es decir, si el intervalo no contiene el uno, se concluirá que las varianzas poblacionales son diferentes puesto que las varianzas muestrales acusan diferencias signicativas. Página: 5 µ1 − µ2 p1 − p2 µ1 − µ2 µ1 − µ2 x1 − x2 − (µ1 − µ2 ) q 2 S1 S22 n1 + n2 Normales indep., σ1 6= σ2 desconocidas µ1 − µ2 Bernoulli, indep., (n1 ≥ 30, n2 ≥ 30) D = X1 − X2 Normales apareadas, n1 > 30, n2 > 30 pb − pb2 − (p1 − p2 ) q1 p1 (1−p1 ) 2) + p2 (1−p n1 n1 SD √ n x1 − x2 − (µ1 − µ2 ) q 2 S22 S1 n1 + n2 D − µD x1 − x2 − (µ1 − µ2 ) r q (n1 −1)S12 +(n2 −1)S22 1 1 + n1 n2 n1+n −2 Normales indep., σ1 = σ2 desconocidas No Normales indep., σ1 , σ2 desconocidas x1 − x2 − (µ1 − µ2 ) q 2 σ22 σ1 n1 + n2 Normales indep., σ1 y σ2 conocidas µ1 − µ2 2 S12 /σ12 S22 /σ22 Normales indep., µ1 y µ2 desconocidas Estadístico σ12 σ22 Parámetros Poblaciones c2 n1 −1 + (1−c)2 n2 −1 N (0, 1) tn−1 aprox. N (0, 1) S12 /n1 S12 /n1 +S22 /n2 = c= 1 m tm tn1 +n2 −2 N (0, 1) Fn1 −1,n2 −1 Distribución , S12 /S22 pb1 − pb2 ± z1−α/2 r SD D ± tn−1,1−α/2 √ n x1 − x2 ± z1−α/2 S12 S22 + n1 n2 S12 S22 + n1 n2 1 n1 + 1 n2 s (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 pb1 (1 − pb1 ) pb2 (1 − pb2 ) + n1 n2 s x1 − x2 ± tm,1−α/2 s x1 − x2 ± tn1 +n2 −2,1−α/2 q Fn1 −1,n2 −1,1−α/2 Fn1 −1,n2 −1,α/2 s σ12 σ22 + x1 − x2 ± z1−α/2 n1 n2 S12 /S22 Intervalo de conanza