Capítulo 7 Estimación puntual y por Intervalos de Confianza 7.1. Introducción Consideremos una v.a X con distribución Fθ con θ desconocido. En este tema vemos cómo dar una estimación puntual para el parámetro θ y cómo construir un intervalo de confianza para el mismo, dos formas según se comentó de estimar el parámetro. 7.2. Estimación puntual Sea X una variable poblacional con distribución Fθ , siendo θ desconocido. El problema de estimación puntual consiste en, seleccionada una muestra X1 , ..., Xn , encontrar el estadístico T (X1 , ..., Xn ) que mejor estime el parámetro θ. Una vez observada o realizada la muestra, con ˆ valores x1 , ..., xn , se obtiene la estimación puntual de θ, T (x1 , ..., xn ) = θ . Vemos a continuación dos métodos para obtener la estimación puntual de un parámetro: método de los momentos y método de máxima verosimilitud. 107 108 Capítulo 7. Estimación puntual y por Intervalos de Confianza 7.2.1. Métodos de estimación puntual Método de los momentos: consiste en igualar momentos poblacionales a momentos muestrales. Deberemos tener tantas igualdades como parámetros a estimar. Momento poblacional de orden r αr = E(X r ) n X Xir Momento muestral de orden r ar = i=1 n Método de máxima verosimilitud: consiste en tomar como valor del parámetro aquel que maximice la probabilidad de que ocurra la muestra observada. Si X1 , ..., Xn es una muestra seleccionada de una población con distribución Fθ o densidad fθ (x), la probabilidad de que ocurra una realización x1 , ..., xn viene dada por: Lθ (x1 , ..., xn ) = n Y fθ (xi ) i=1 A Lθ (x1 , ..., xn ) se le llama función de verosimilitud.(credibilidad de la muestra observada). Buscamos entonces el valor de θ que maximice la función de verosimilud, y al valor obtenido se le llama estimación por máxima verosimilitud de θ. Nota: si la variable X es discreta, en lugar de fθ (xi ) consideramos la función masa de probabilidad pθ (xi ). Ejemplo 7.1: Sea X → N (µ, σ), con µ desconocido. Seleccionada una m.a.s. X1 , ..., Xn , con realización x1 , ..., xn , estimamos el parámetro µ por ambos métodos. Según el método de los momentos: E(X) = ˆ n X Xi i=1 n − = X, − y al ser µ = E(X) se obtiene que µ = x. Por el método de máxima verosimilitud: Lµ (x1 , ..., xn ) = = n Y i=1 n Y fµ (xi ) = −(xi −µ)2 1 √ e 2σ2 , 2πσ i=1 109 7.3. Estimación por Intervalos de confianza y maximizamos en µ tal función; en este caso resulta más fácil maximizar su logaritmo: ln Lµ (x1 , ..., xn ) = − n √ 1 X (xi − µ)2 − n ln( 2πσ) 2 2σ i=1 − n ∂ 1 X nx − nµ ˆ − (xi − µ) = = 0 ⇐⇒ µ = x ln Lµ (x1 , ..., xn ) = 2 ∂µ σ i=1 σ2 7.3. Estimación por Intervalos de confianza En lugar de dar una estimación puntual para el parámetro θ buscamos ahora un intervalo − [θ (x1 , ..., xn ), θ(x1 , ..., xn )] que contenga al parámetro con una alta probabilidad. Esta proba− bilidad recibe el nombre de nivel de confianza del intervalo, se denota por (1 − α) y la fija el investigador. 7.3.1. Construcción de un Intervalo de Confianza (I.C.) Sea X → Fθ , con θ desconocido. Seguimos los siguientes pasos para construir un I.C. para θ : 1. Seleccionamos una m.a.s. X1 , ..., Xn . 2. Buscamos un estadístico que incluya el parámetro a estimar θ y que tenga distribución conocida. 3. Fijamos el nivel de confianza (1 − α). − 4. Encontramos θ (x1 , ..., xn ) y θ(x1 , ..., xn ) tal que − P µ − θ (x1 , ..., xn ) ≤ θ ≤ θ(x1 , ..., xn ) − ¶ ≥1−α − Diremos entonces que [θ (x1 , ..., xn ), θ(x1 , ..., xn )] es un I.C. para θ al (1 − α)100 % de con− fianza. Eso significa que de cada 100 intervalos que pudieran obtenerse (según distintas muestras que pudieran haber sido seleccionadas al azar), (1 − α)100 contendrían el verdadero valor del parámetro θ. Ejemplo 7.2: Como ejemplo construimos un I.C. al (1−α)100 % de confianza para la media µ de una normal con varianza conocida σ 20 . Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 110 Capítulo 7. Estimación puntual y por Intervalos de Confianza En este caso el estadístico es: − Z= Por lo tanto, X −µ √ → N (0, 1) σ0 / n − X −µ √ ≤ z1− α2 = 1 − α, P −z1− α2 ≤ σ0 / n y despejando se obtiene que ¶ µ σ0 σ0 − − α α √ √ P x− z1− 2 ≤ µ ≤ x + z1− 2 = 1 − α. n n · ¸ σ0 − El Intervalo para µ al (1 − α)100 % de confianza es entonces x ± √ z1− α2 . n Observaciones: - El intervalo depende de la muestra seleccionada - La amplitud del intervalo mide la precisión de la estimación. Concretamente, el error ¯ ¯ − −¯ ¯ cometido en la estimación de µ por x viene dado por E = ¯µ − x¯ y es menor o igual que σ √0 z1− α2 con una probabilidad (1 − α). n - A mayor tamaño muestral n, menor amplitud, y por lo tanto mayor precisión en la estimación. Por otro lado, cuanto mayor es el nivel de confianza, mayor es la amplitud del intervalo. Supongamos que llevan a cabo pruebas de la resistencia a la tensión de una clase de largueros de aluminio utilizado en la fabricación de alas de aeroplanos. De la experiencia se considera una desviación típica de 1 kg/mm2 . Una muestra de 10 largueros proporciona una resistencia promedio de 87.6 kg/mm. Vamos a obtener un I.C. al 95 % de confianza para la resistencia promedio de esta clase de largueros. X = Resistencia a la tensión → N (µ, 1) · ¸ σ0 − Sabemos que el I.C. al (1 − α)100 % es x ± √ z1− α2 . En este caso, el nivel de confianza n es del 95 %, por lo que (1 − α) = 0,95 y α = 0,05. El intervalo resulta por lo tanto: · ¸ · ¸ σ0 1 − x ± √ z1− α2 = 87,6 ± √ 1,96 = [86,98, 88,22] n 10 111 7.3. Estimación por Intervalos de confianza 7.3.2. Intervalos de Confianza para medias, varianzas y proporciones - Intervalo de confianza para la media de una normal Sea X1 , ..., Xn una m.a.s. de X → N (µ, σ). Varianza conocida (σ 20 ) Varianza desconocida · − µ∈ x± · − µ∈ x± ¸ σ √0 z1− α2 n ¸ S √ t1− α2 ,n−1 n - Intervalo de confianza para la varianza de una normal Sea X1 , ..., Xn una m.a.s. de X → N (µ, σ). Media conocida (µ0 ) P n (xi − µ0 )2 i=1 σ2 ∈ χ2 " n P , i=1 1− α 2 ;n (xi − µ0 )2 χ2 (n − 1)S 2 (n − 1)S 2 σ ∈ , χ21− α ;n−1 χ2α ;n−1 2 Media desconocida 2 2 α 2 ;n # - Intervalo de confianza para la diferencia de medias de dos poblaciones normales e independientes Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ1 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ 2 ), independientes. · ¸ σ1 σ2 µ1 − µ2 ∈ x − y ± z + n1 n2 r ¸ · 1 1 − − α µ1 − µ2 ∈ x − y ± t1− 2 ;n1 +n2 −2 Sp + n1 n2 − Varianzas conocidas Varianzas desconocidas pero iguales (σ2 ) con Sp = s − 1− α 2 r (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 - Intervalo de confianza para el cociente de varianzas de dos poblaciones normales e independientes Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 112 Capítulo 7. Estimación puntual y por Intervalos de Confianza Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ1 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ 2 ), independientes. Medias conocidas Medias desconocidas P n2 σ 22 ∈ i=1 n1 σ 21 P (yi − µ2 ) n2 P 2 n1 F α2 ;n1 ,n2 , i=1 n1 P 2 n2 2 (yi − µ2 ) (xi − µ1 ) (xi − µ1 ) i=1 " i=1 # S22 F α2 ;n1 −1,n2 −1 S22 F1− α2 ;n1 −1,n2 −1 σ 22 ∈ , σ 21 S12 S12 n1 F1− α2 ;n1 ,n2 2 n2 - Intervalo de confianza para una proporción Sea X1 , ..., Xn una m.a.s. de X → Bernoulli(p). ˆ p ∈ p ± z1− α2 s ˆ ˆ p(1 − p) n - Intervalo de confianza para la diferencia de proporciones Sean X1 , ..., Xn1 una m.a.s. de X → Bernoulli(p1 ) y Y1 , ..., Yn2 una m.a.s. de Y → Bernoulli(p2 ). p1 − p2 ∈ pˆ1 − ˆ p2 ± z1− α2 s ˆ ˆ ˆ ˆ pT (1 − pT ) pT (1 − pT ) + , n1 n2 siendo ˆ ˆ pT = ˆ n1 p1 + n2 p2 n1 + n2 Ejemplo 7.3: El hundimiento de un petrolero en las proximidades de la costa de una determinada región ha provocado un gran desastre tanto económico como ecológico. Con el fin de analizar la composición del fuel que desprende el buque, han sido seleccionadas 17 galletas de chapapote sobre las que medir la concentración de cinc, obteniéndose por término medio 140 mg/l, con una desviación típica de 30 mg/l. (a) Obtén un intervalo de confianza al 95 % para la concentración media de cinc en el fuel que desprende el petrolero. X = Composición de cinc → N (µ, σ), con µ, σ desconocidas 113 7.3. Estimación por Intervalos de confianza El I.C. para µ al 95 % es: · ¸ · ¸ S 30 − α x ± √ t1− 2 ,n−1 = 140 ± √ 2,12 = [124,575, 155,425] n 17 (b) ¿Qué ocurriría al incrementar el tamaño de la muestra?. Razona la respuesta. Al incrementar el tamaño de la muestra, se reduce el error de estimación de la media S √ t1− α2 ,n−1 y se consigue por tanto mayor precisión. n Ejemplo 7.4 : Un ingenierio de control de la calidad midió el espesor de la pared de 20 botellas de vidrio de 2 litros. La media muestral resultó 4.05 mm y la desviación típica 0.08 mm. Obtén un intervalo de confianza al 90 % para la variabilidad del espesor de la pared de las botellas. X = Espesor → N (µ, σ), con µ, σ desconocidas El I.C. para σ 2 al 90 % es: " # · ¸ (n − 1)S 2 (n − 1)S 2 24(0,08)2 24(0,08)2 , = , = [0,005, 0,015] χ21− α ;n−1 χ2α ;n−1 30,15 10,11 2 2 Ejemplo 7.5: Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa está afectado por el tipo de catalizador utilizado en el proceso de fabricación. Por experiencias anteriores se supone que la desviación estándar de la concentración activa es de 3 g/l, sin importar el tipo de catalizador utilizado. Se toman 10 observaciones con cada catalizador y se obtienen los siguientes datos: Cat.1 57.9 66.2 65.4 65.4 65.2 62.6 67.6 63.7 67.2 71 Cat.2 66.4 71.7 70.3 69.3 64.8 69.6 68.6 69.4 65.3 68.8 (a) Obtén un intervalo de confianza al 90 % para el cociente de varianzas?. ¿Puede suponerse la misma variabilidad en la concentración con el empleo de ambos catalizadores?. X = Concentración con catalizador 1 → N (µ1 , σ 1 ) Y = Concentración con catalizador 2 → N (µ2 , σ 2 ), son independientes y todos los parámetros se desconocen. El I.C. para σ 22 σ 21 al 90 % es: Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 114 Capítulo 7. Estimación puntual y por Intervalos de Confianza · ¸ · ¸ S22 F0,05;9,9 S22 F0,95;9,9 4,946(0,314) 4,946(3,18) , = , = [0,116, 1,180], S12 S12 13,343 13,343 Al estar el 1 contenido en el intervalo, las varianzas podrían considerarse iguales. (b) Obtén un intervalo de confianza al 95 % para la diferencia en la concentración activa bajo la presencia de ambos catalizadores.¿Depende la concentración activa del catalizador?. El I.C. al 95 % para µ1 − µ2 es: " # r r ¸ · 1 1 1 1 − − x − y ± t1− α2 ;n1 +n2 −2 Sp + = (65,2 − 68,42) ± 2,101(3,024) + n1 n2 10 10 = [−6,061, −0,379] La concentración del ingrediente activo depende por lo tanto del catalizador; con el segundo catalizador se consigue mayor concentración que con el primero. Ejemplo 7.6: Para poder controlar la fabricación de un producto se toman 85 muestras de un determinado componente y se concluye que 10 de ellos no cumplen las especificaciones. (a) Calcula un intervalo de confianza al 95 % para la proporción de defectuosos. X = No de defectuosos → B(85, p) El I.C. para p al 95 % es: s " # r ˆ ˆ p(1 − p) ˆ p ± z0,975 = 0,118 ± 1,96 0,118(1 − 0,118) = [0,05, 0,186] n 85 (b) ¿Cuál debería ser el tamaño de la muestra si se quiere que el error cometido al estimar la proporción sea menor de 0.05 con una probabilidad 0.95?. ˆ Puesto que p es el estimador puntual de p, puede definirse el error s al estimar cometido ˆ ˆ ¯ ¯ p(1 − p) ˆ ˆ¯ ˆ ¯ , p por p como E = ¯p − p¯ . Si el I.C. al (1-α)100 % para p es p ± z1− α2 n s ˆ ˆ p(1 − p) con una eso significa que el error de estimación E es menor o igual que z1− α2 n probabilidad de (1 − α). En consecuencia, el tamaño de muestra n para obtener un error en la estimación inferior o igual a E con una probabilidad (1 − α) debe ser: ³ z1− α ´2 ˆ ˆ 2 p(1 − p) n= E 115 7.4. Ejercicios En este caso: n= 7.4. µ 1,96 0,05 ¶2 0,118(1 − 0,118) = 160 Ejercicios 1. El tiempo de fallo en horas de un componente electrónico (en horas) puede modelizarse según una distribución Exponencial con función de densidad f (x) = λ exp{−λx}, x ≥ 0 a. Encuentra el estimador de máxima verosimilitud de λ, basado en una muestra aleatoria de tamaño n. b. Encuentra el estimador de λ haciendo uso del método de los momentos. c. Estima el tiempo medio de las componentes en base a la información que proporciona la siguiente muestra: 300,305,329,325,310,314,302,356,325,309,351,305,322,349 2. El número de accidentes de tráfico diarios en una localidad puede ser modelizado por una distribución de Poisson de parámetro λ. Una muestra de 45 días proporciona un no medio de accientes por día de 2 con una desviación estándar de 1.4. Obtén una estimación puntual para λ. 3. En la siguiente tabla se recogen 15 medidas del tiempo (en segundos) de aceleración de un vehículo. 10.9 9.63 6.5 11.06 11.39 9.76 12.52 9.25 12.40 9.84 10.45 7.67 8.77 9.63 7.68 Suponiendo que el tiempo de aceleración sigue una distribución normal, a) Obtén un intervalo de confianza para el tiempo medio de aceleración. b) Calcula el tamaño de muestra necesario para que el error de estimación de la media sea menor que 0.75 con probabilidad 0.95. c) ¿Se puede afirmar que la aceleración media es de 10 segundos?. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 116 Capítulo 7. Estimación puntual y por Intervalos de Confianza 4. Si realizamos una estimación de un parámetro mediante un intervalo de confianza al 90 % y obtenemos un intervalo de muy poca amplitud, ¿qué se puede concluir?. Indica razonadamente cuáles de las siguientes afirmaciones son verdaderas o falsas: a) Va a ser muy difícil la obtención de una estimación fiable. b) El rango de valores entre los que está el parámetro, al 90 %, es muy pequeño. c) De 90 intervalos que hiciéramos con muestras al azar, 90 contendrían el verdadero valor del parámetro. d) Para poder obtener resultados satisfactorios, el nivel de confianza ha de ser superior al 90 %. e) Si el nivel de confianza hubiera sido del 95 % la amplitud habría sido todavía menor y por lo tanto mayor la precisión en la estimación. 5. Se desea comparar la variabilidad de la resistencia a la compresión de dos cementos A y B. Para ello se fabrican 51 bloques con cada tipo de cemento a los que se mide la resistencia 2 2 a la compresión. Se obtienen los siguientes datos: SA = 120, SB = 96. Suponiendo que ambas poblaciones son normales e independientes, obtén un intervalo de confianza al 90 % para el cociente de varianzas. ¿Pueden considerarse significativamente distintas?. 6. Se tienen dos métodos para medir la resistencia de un cable. Se seleccionan aleatoriamente 9 cables, a los que se aplica el primer método, y otros 9 cables a los que se aplica el segundo método. Los datos son: Mét. 1 1.186 1.151 1.322 1.339 1.2 1.402 1.365 1.537 1.559 Mét. 2 1.061 0.992 1.063 1.062 1.065 1.178 1.037 1.086 1.052 Obtén un intervalo de confianza al 95 % para la diferencia entre los métodos. ¿Pueden considerarse diferentes?. 7. Un ingeniero químico está interesado en comparar el rendimiento de un proceso químico bajo dos temperaturas distintas. La realización de 5 ensayos consecutivos a cada una de las temperaturas proporcionan los siguientes rendimientos ( %): 117 7.4. Ejercicios Temperatura 1 85 83 82 85 84 Temperatura 2 90 92 91 93 90 Obtén un intervalo de confianza al 99 % para la diferencia de rendimientos promedios. ¿Pueden suponerse los rendmientos medios iguales?. Suponer ambas poblaciones normales e independientes. 8. Los tiempos de fallo en horas de una muestra aleatoria de 10 componentes electrónicos de una determinada marca son: 2300 2000 1980 2500 2432 2300 2429 1970 2100 2200 Si suponemos que estos tiempos proceden de una distribución exponencial, a. Estima el parámetro de tal distribución. b. Calcula el tiempo medio de fallo de una componente de este tipo. c. Si una componente no ha fallado pasadas 500 horas desde su puesta inicial en funcionamiento, ¿cuál es la probabilidad de que dure por lo menos otras 200 horas más?. d. Si tienen un período de garantía de 1000 horas, calcula la probabilidad de que una componente falle estando en período de garantía. De un lote de 30 componentes, ¿cuántas se esperan que sean devueltas por fallar estando en garantía?. 9. Una central de productos lácteos recibe diariamente la leche de dos granjas A y B. Con el fin de estudiar la calidad de los productos recibidos se extraen dos muestras, una de cada granja, y se analiza el contenido de materia grasa de cada producto. Se obtienen los siguientes resultados: Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 118 Capítulo 7. Estimación puntual y por Intervalos de Confianza Granja A Granja B 0.32 0.28 0.29 0.30 0.30 0.32 0.28 0.29 0.33 0.31 0.31 0.29 0.30 0.33 0.29 0.32 0.33 0.29 0.32 0.32 0.30 0.31 0.29 0.32 0.29 0.30 a. Obtén un intervalo de confianza al 95 % para el cociente de varianzas. ¿Podrían considerarse las varianzas iguales?. b. Obtén un intervalo de confianza al 95 % para la diferencia en el contenido graso promedio de los productos de ambas granjas. c. Si la central rechaza aquellos productos con un contenido graso superior a 0.32, obtén un intervalo de confianza al 90 % para la diferencia de proporciones de productos que habría que rechazar procendentes de ambas granjas.