Estimación puntual y por Intervalos de Confianza

Anuncio
Capítulo 7
Estimación puntual y por
Intervalos de Confianza
7.1.
Introducción
Consideremos una v.a X con distribución Fθ con θ desconocido. En este tema vemos cómo
dar una estimación puntual para el parámetro θ y cómo construir un intervalo de confianza
para el mismo, dos formas según se comentó de estimar el parámetro.
7.2.
Estimación puntual
Sea X una variable poblacional con distribución Fθ , siendo θ desconocido. El problema de
estimación puntual consiste en, seleccionada una muestra X1 , ..., Xn , encontrar el estadístico
T (X1 , ..., Xn ) que mejor estime el parámetro θ. Una vez observada o realizada la muestra, con
ˆ
valores x1 , ..., xn , se obtiene la estimación puntual de θ, T (x1 , ..., xn ) = θ .
Vemos a continuación dos métodos para obtener la estimación puntual de un parámetro:
método de los momentos y método de máxima verosimilitud.
107
108
Capítulo 7. Estimación puntual y por Intervalos de Confianza
7.2.1.
Métodos de estimación puntual
Método de los momentos: consiste en igualar momentos poblacionales a momentos muestrales. Deberemos tener tantas igualdades como parámetros a estimar.
Momento poblacional de orden r
αr = E(X r )
n
X
Xir
Momento muestral de orden r
ar =
i=1
n
Método de máxima verosimilitud: consiste en tomar como valor del parámetro aquel que
maximice la probabilidad de que ocurra la muestra observada.
Si X1 , ..., Xn es una muestra seleccionada de una población con distribución Fθ o densidad
fθ (x), la probabilidad de que ocurra una realización x1 , ..., xn viene dada por:
Lθ (x1 , ..., xn ) =
n
Y
fθ (xi )
i=1
A Lθ (x1 , ..., xn ) se le llama función de verosimilitud.(credibilidad de la muestra observada).
Buscamos entonces el valor de θ que maximice la función de verosimilud, y al valor
obtenido se le llama estimación por máxima verosimilitud de θ.
Nota: si la variable X es discreta, en lugar de fθ (xi ) consideramos la función masa de
probabilidad pθ (xi ).
Ejemplo 7.1: Sea X → N (µ, σ), con µ desconocido. Seleccionada una m.a.s. X1 , ..., Xn ,
con realización x1 , ..., xn , estimamos el parámetro µ por ambos métodos.
Según el método de los momentos:
E(X) =
ˆ
n
X
Xi
i=1
n
−
= X,
−
y al ser µ = E(X) se obtiene que µ = x.
Por el método de máxima verosimilitud:
Lµ (x1 , ..., xn ) =
=
n
Y
i=1
n
Y
fµ (xi ) =
−(xi −µ)2
1
√
e 2σ2 ,
2πσ
i=1
109
7.3. Estimación por Intervalos de confianza
y maximizamos en µ tal función; en este caso resulta más fácil maximizar su logaritmo:
ln Lµ (x1 , ..., xn ) = −
n
√
1 X
(xi − µ)2 − n ln( 2πσ)
2
2σ i=1
−
n
∂
1 X
nx − nµ
ˆ
−
(xi − µ) =
= 0 ⇐⇒ µ = x
ln Lµ (x1 , ..., xn ) = 2
∂µ
σ i=1
σ2
7.3.
Estimación por Intervalos de confianza
En lugar de dar una estimación puntual para el parámetro θ buscamos ahora un intervalo
−
[θ (x1 , ..., xn ), θ(x1 , ..., xn )] que contenga al parámetro con una alta probabilidad. Esta proba−
bilidad recibe el nombre de nivel de confianza del intervalo, se denota por (1 − α) y la fija el
investigador.
7.3.1.
Construcción de un Intervalo de Confianza (I.C.)
Sea X → Fθ , con θ desconocido.
Seguimos los siguientes pasos para construir un I.C. para θ :
1. Seleccionamos una m.a.s. X1 , ..., Xn .
2. Buscamos un estadístico que incluya el parámetro a estimar θ y que tenga distribución
conocida.
3. Fijamos el nivel de confianza (1 − α).
−
4. Encontramos θ (x1 , ..., xn ) y θ(x1 , ..., xn ) tal que
−
P
µ
−
θ (x1 , ..., xn ) ≤ θ ≤ θ(x1 , ..., xn )
−
¶
≥1−α
−
Diremos entonces que [θ (x1 , ..., xn ), θ(x1 , ..., xn )] es un I.C. para θ al (1 − α)100 % de con−
fianza. Eso significa que de cada 100 intervalos que pudieran obtenerse (según distintas muestras
que pudieran haber sido seleccionadas al azar), (1 − α)100 contendrían el verdadero valor del
parámetro θ.
Ejemplo 7.2: Como ejemplo construimos un I.C. al (1−α)100 % de confianza para la media
µ de una normal con varianza conocida σ 20 .
Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
110
Capítulo 7. Estimación puntual y por Intervalos de Confianza
En este caso el estadístico es:
−
Z=
Por lo tanto,

X −µ
√ → N (0, 1)
σ0 / n
−

X −µ
√ ≤ z1− α2  = 1 − α,
P −z1− α2 ≤
σ0 / n
y despejando se obtiene que
¶
µ
σ0
σ0
−
−
α
α
√
√
P x−
z1− 2 ≤ µ ≤ x +
z1− 2 = 1 − α.
n
n
·
¸
σ0
−
El Intervalo para µ al (1 − α)100 % de confianza es entonces x ± √ z1− α2 .
n
Observaciones:
- El intervalo depende de la muestra seleccionada
- La amplitud del intervalo mide la precisión de la estimación. Concretamente, el error
¯
¯
−
−¯
¯
cometido en la estimación de µ por x viene dado por E = ¯µ − x¯ y es menor o igual que
σ
√0 z1− α2 con una probabilidad (1 − α).
n
- A mayor tamaño muestral n, menor amplitud, y por lo tanto mayor precisión en la estimación. Por otro lado, cuanto mayor es el nivel de confianza, mayor es la amplitud del
intervalo.
Supongamos que llevan a cabo pruebas de la resistencia a la tensión de una clase de largueros
de aluminio utilizado en la fabricación de alas de aeroplanos. De la experiencia se considera
una desviación típica de 1 kg/mm2 . Una muestra de 10 largueros proporciona una resistencia
promedio de 87.6 kg/mm. Vamos a obtener un I.C. al 95 % de confianza para la resistencia
promedio de esta clase de largueros.
X = Resistencia a la tensión → N (µ, 1)
·
¸
σ0
−
Sabemos que el I.C. al (1 − α)100 % es x ± √ z1− α2 . En este caso, el nivel de confianza
n
es del 95 %, por lo que (1 − α) = 0,95 y α = 0,05. El intervalo resulta por lo tanto:
·
¸ ·
¸
σ0
1
−
x ± √ z1− α2 = 87,6 ± √ 1,96 = [86,98, 88,22]
n
10
111
7.3. Estimación por Intervalos de confianza
7.3.2.
Intervalos de Confianza para medias, varianzas y proporciones
- Intervalo de confianza para la media de una normal
Sea X1 , ..., Xn una m.a.s. de X → N (µ, σ).
Varianza conocida (σ 20 )
Varianza desconocida
·
−
µ∈ x±
·
−
µ∈ x±
¸
σ
√0 z1− α2
n
¸
S
√ t1− α2 ,n−1
n
- Intervalo de confianza para la varianza de una normal
Sea X1 , ..., Xn una m.a.s. de X → N (µ, σ).
Media conocida (µ0 )
P
n
(xi − µ0 )2
 i=1
σ2 ∈ 
 χ2
"
n
P
, i=1
1− α
2 ;n
(xi − µ0 )2
χ2
(n − 1)S 2 (n − 1)S 2
σ ∈
,
χ21− α ;n−1 χ2α ;n−1
2
Media desconocida
2
2
α
2 ;n
#




- Intervalo de confianza para la diferencia de medias de dos poblaciones normales e independientes
Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ1 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ 2 ),
independientes.
·
¸
σ1 σ2
µ1 − µ2 ∈ x − y ± z
+
n1
n2
r
¸
·
1
1
−
−
α
µ1 − µ2 ∈ x − y ± t1− 2 ;n1 +n2 −2 Sp
+
n1 n2
−
Varianzas conocidas
Varianzas desconocidas pero iguales (σ2 )
con
Sp =
s
−
1− α
2
r
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
- Intervalo de confianza para el cociente de varianzas de dos poblaciones normales e independientes
Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
112
Capítulo 7. Estimación puntual y por Intervalos de Confianza
Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ1 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ 2 ),
independientes.
Medias conocidas
Medias desconocidas
P
n2
σ 22 
∈  i=1
n1
σ 21  P
(yi − µ2 )
n2
P
2
n1
F α2 ;n1 ,n2 , i=1
n1
P
2 n2
2
(yi − µ2 )
(xi − µ1 )
(xi − µ1 )
i=1
" i=1
#
S22 F α2 ;n1 −1,n2 −1 S22 F1− α2 ;n1 −1,n2 −1
σ 22
∈
,
σ 21
S12
S12


n1
F1− α2 ;n1 ,n2 

2 n2
- Intervalo de confianza para una proporción
Sea X1 , ..., Xn una m.a.s. de X → Bernoulli(p).

ˆ
p ∈ p ± z1− α2
s
ˆ
ˆ

p(1 − p) 
n
- Intervalo de confianza para la diferencia de proporciones
Sean X1 , ..., Xn1 una m.a.s. de X → Bernoulli(p1 ) y Y1 , ..., Yn2 una m.a.s. de Y →
Bernoulli(p2 ).
p1 − p2 ∈

pˆ1
−
ˆ
p2
± z1− α2
s

ˆ
ˆ
ˆ
ˆ
pT (1 − pT ) pT (1 − pT ) 
+
,
n1
n2
siendo
ˆ
ˆ
pT =
ˆ
n1 p1 + n2 p2
n1 + n2
Ejemplo 7.3: El hundimiento de un petrolero en las proximidades de la costa de una
determinada región ha provocado un gran desastre tanto económico como ecológico. Con el fin
de analizar la composición del fuel que desprende el buque, han sido seleccionadas 17 galletas
de chapapote sobre las que medir la concentración de cinc, obteniéndose por término medio 140
mg/l, con una desviación típica de 30 mg/l.
(a) Obtén un intervalo de confianza al 95 % para la concentración media de cinc en el fuel
que desprende el petrolero.
X = Composición de cinc → N (µ, σ), con µ, σ desconocidas
113
7.3. Estimación por Intervalos de confianza
El I.C. para µ al 95 % es:
·
¸ ·
¸
S
30
−
α
x ± √ t1− 2 ,n−1 = 140 ± √ 2,12 = [124,575, 155,425]
n
17
(b) ¿Qué ocurriría al incrementar el tamaño de la muestra?. Razona la respuesta.
Al incrementar el tamaño de la muestra, se reduce el error de estimación de la media
S
√ t1− α2 ,n−1 y se consigue por tanto mayor precisión.
n
Ejemplo 7.4 : Un ingenierio de control de la calidad midió el espesor de la pared de 20
botellas de vidrio de 2 litros. La media muestral resultó 4.05 mm y la desviación típica 0.08
mm. Obtén un intervalo de confianza al 90 % para la variabilidad del espesor de la pared de las
botellas.
X = Espesor → N (µ, σ), con µ, σ desconocidas
El I.C. para σ 2 al 90 % es:
"
# ·
¸
(n − 1)S 2 (n − 1)S 2
24(0,08)2 24(0,08)2
,
=
,
= [0,005, 0,015]
χ21− α ;n−1 χ2α ;n−1
30,15
10,11
2
2
Ejemplo 7.5: Se piensa que la concentración del ingrediente activo de un detergente líquido
para ropa está afectado por el tipo de catalizador utilizado en el proceso de fabricación. Por
experiencias anteriores se supone que la desviación estándar de la concentración activa es de 3
g/l, sin importar el tipo de catalizador utilizado. Se toman 10 observaciones con cada catalizador
y se obtienen los siguientes datos:
Cat.1
57.9
66.2
65.4
65.4
65.2
62.6
67.6
63.7
67.2
71
Cat.2
66.4
71.7
70.3
69.3
64.8
69.6
68.6
69.4
65.3
68.8
(a) Obtén un intervalo de confianza al 90 % para el cociente de varianzas?. ¿Puede suponerse
la misma variabilidad en la concentración con el empleo de ambos catalizadores?.
X
= Concentración con catalizador 1 → N (µ1 , σ 1 )
Y
= Concentración con catalizador 2 → N (µ2 , σ 2 ),
son independientes y todos los parámetros se desconocen.
El I.C. para
σ 22
σ 21
al 90 % es:
Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
114
Capítulo 7. Estimación puntual y por Intervalos de Confianza
·
¸ ·
¸
S22 F0,05;9,9 S22 F0,95;9,9
4,946(0,314) 4,946(3,18)
,
=
,
= [0,116, 1,180],
S12
S12
13,343
13,343
Al estar el 1 contenido en el intervalo, las varianzas podrían considerarse iguales.
(b) Obtén un intervalo de confianza al 95 % para la diferencia en la concentración activa bajo
la presencia de ambos catalizadores.¿Depende la concentración activa del catalizador?.
El I.C. al 95 % para µ1 − µ2 es:
"
#
r
r
¸
·
1
1
1
1
−
−
x − y ± t1− α2 ;n1 +n2 −2 Sp
+
=
(65,2 − 68,42) ± 2,101(3,024)
+
n1 n2
10 10
= [−6,061, −0,379]
La concentración del ingrediente activo depende por lo tanto del catalizador; con el segundo catalizador se consigue mayor concentración que con el primero.
Ejemplo 7.6: Para poder controlar la fabricación de un producto se toman 85 muestras de
un determinado componente y se concluye que 10 de ellos no cumplen las especificaciones.
(a) Calcula un intervalo de confianza al 95 % para la proporción de defectuosos.
X = No de defectuosos → B(85, p)
El I.C. para p al 95 % es:
s

 "
#
r
ˆ
ˆ
p(1
−
p)
ˆ
p ± z0,975
 = 0,118 ± 1,96 0,118(1 − 0,118) = [0,05, 0,186]
n
85
(b) ¿Cuál debería ser el tamaño de la muestra si se quiere que el error cometido al estimar la
proporción sea menor de 0.05 con una probabilidad 0.95?.
ˆ
Puesto que p es el estimador puntual de p, puede definirse el error
s al estimar
 cometido

ˆ
ˆ
¯
¯
p(1
−
p)
ˆ
ˆ¯
ˆ
¯
,
p por p como E = ¯p − p¯ . Si el I.C. al (1-α)100 % para p es p ± z1− α2
n
s
ˆ
ˆ
p(1 − p)
con una
eso significa que el error de estimación E es menor o igual que z1− α2
n
probabilidad de (1 − α). En consecuencia, el tamaño de muestra n para obtener un error
en la estimación inferior o igual a E con una probabilidad (1 − α) debe ser:
³ z1− α ´2 ˆ
ˆ
2
p(1 − p)
n=
E
115
7.4. Ejercicios
En este caso:
n=
7.4.
µ
1,96
0,05
¶2
0,118(1 − 0,118) = 160
Ejercicios
1. El tiempo de fallo en horas de un componente electrónico (en horas) puede modelizarse
según una distribución Exponencial con función de densidad
f (x) = λ exp{−λx}, x ≥ 0
a. Encuentra el estimador de máxima verosimilitud de λ, basado en una muestra aleatoria de tamaño n.
b. Encuentra el estimador de λ haciendo uso del método de los momentos.
c. Estima el tiempo medio de las componentes en base a la información que proporciona
la siguiente muestra:
300,305,329,325,310,314,302,356,325,309,351,305,322,349
2. El número de accidentes de tráfico diarios en una localidad puede ser modelizado por
una distribución de Poisson de parámetro λ. Una muestra de 45 días proporciona un no
medio de accientes por día de 2 con una desviación estándar de 1.4. Obtén una estimación
puntual para λ.
3. En la siguiente tabla se recogen 15 medidas del tiempo (en segundos) de aceleración de
un vehículo.
10.9
9.63
6.5
11.06
11.39
9.76
12.52
9.25
12.40
9.84
10.45
7.67
8.77
9.63
7.68
Suponiendo que el tiempo de aceleración sigue una distribución normal,
a) Obtén un intervalo de confianza para el tiempo medio de aceleración.
b) Calcula el tamaño de muestra necesario para que el error de estimación de la media
sea menor que 0.75 con probabilidad 0.95.
c) ¿Se puede afirmar que la aceleración media es de 10 segundos?.
Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
116
Capítulo 7. Estimación puntual y por Intervalos de Confianza
4. Si realizamos una estimación de un parámetro mediante un intervalo de confianza al
90 % y obtenemos un intervalo de muy poca amplitud, ¿qué se puede concluir?. Indica
razonadamente cuáles de las siguientes afirmaciones son verdaderas o falsas:
a) Va a ser muy difícil la obtención de una estimación fiable.
b) El rango de valores entre los que está el parámetro, al 90 %, es muy pequeño.
c) De 90 intervalos que hiciéramos con muestras al azar, 90 contendrían el verdadero
valor del parámetro.
d) Para poder obtener resultados satisfactorios, el nivel de confianza ha de ser superior
al 90 %.
e) Si el nivel de confianza hubiera sido del 95 % la amplitud habría sido todavía menor
y por lo tanto mayor la precisión en la estimación.
5. Se desea comparar la variabilidad de la resistencia a la compresión de dos cementos A y B.
Para ello se fabrican 51 bloques con cada tipo de cemento a los que se mide la resistencia
2
2
a la compresión. Se obtienen los siguientes datos: SA
= 120, SB
= 96.
Suponiendo que ambas poblaciones son normales e independientes, obtén un intervalo de
confianza al 90 % para el cociente de varianzas. ¿Pueden considerarse significativamente
distintas?.
6. Se tienen dos métodos para medir la resistencia de un cable. Se seleccionan aleatoriamente
9 cables, a los que se aplica el primer método, y otros 9 cables a los que se aplica el segundo
método. Los datos son:
Mét. 1
1.186
1.151
1.322
1.339
1.2
1.402
1.365
1.537
1.559
Mét. 2
1.061
0.992
1.063
1.062
1.065
1.178
1.037
1.086
1.052
Obtén un intervalo de confianza al 95 % para la diferencia entre los métodos. ¿Pueden
considerarse diferentes?.
7. Un ingeniero químico está interesado en comparar el rendimiento de un proceso químico
bajo dos temperaturas distintas. La realización de 5 ensayos consecutivos a cada una de
las temperaturas proporcionan los siguientes rendimientos ( %):
117
7.4. Ejercicios
Temperatura 1
85
83
82
85
84
Temperatura 2
90
92
91
93
90
Obtén un intervalo de confianza al 99 % para la diferencia de rendimientos promedios.
¿Pueden suponerse los rendmientos medios iguales?.
Suponer ambas poblaciones normales e independientes.
8. Los tiempos de fallo en horas de una muestra aleatoria de 10 componentes electrónicos
de una determinada marca son:
2300
2000
1980
2500
2432
2300
2429
1970
2100
2200
Si suponemos que estos tiempos proceden de una distribución exponencial,
a. Estima el parámetro de tal distribución.
b. Calcula el tiempo medio de fallo de una componente de este tipo.
c. Si una componente no ha fallado pasadas 500 horas desde su puesta inicial en funcionamiento, ¿cuál es la probabilidad de que dure por lo menos otras 200 horas
más?.
d. Si tienen un período de garantía de 1000 horas, calcula la probabilidad de que una
componente falle estando en período de garantía. De un lote de 30 componentes,
¿cuántas se esperan que sean devueltas por fallar estando en garantía?.
9. Una central de productos lácteos recibe diariamente la leche de dos granjas A y B. Con
el fin de estudiar la calidad de los productos recibidos se extraen dos muestras, una de
cada granja, y se analiza el contenido de materia grasa de cada producto. Se obtienen los
siguientes resultados:
Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
118
Capítulo 7. Estimación puntual y por Intervalos de Confianza
Granja A
Granja B
0.32
0.28
0.29
0.30
0.30
0.32
0.28
0.29
0.33
0.31
0.31
0.29
0.30
0.33
0.29
0.32
0.33
0.29
0.32
0.32
0.30
0.31
0.29
0.32
0.29
0.30
a. Obtén un intervalo de confianza al 95 % para el cociente de varianzas. ¿Podrían
considerarse las varianzas iguales?.
b. Obtén un intervalo de confianza al 95 % para la diferencia en el contenido graso
promedio de los productos de ambas granjas.
c. Si la central rechaza aquellos productos con un contenido graso superior a 0.32, obtén
un intervalo de confianza al 90 % para la diferencia de proporciones de productos que
habría que rechazar procendentes de ambas granjas.
Descargar