Tema 7

Anuncio
ESTIMACIÓN
TEMA 5: Estimación puntual I. Propiedades de los estimadores
TEMA 6: Estimación puntual II. Métodos de estimación puntual
TEMA 7: Estimación por intervalos
CONTRASTES DE HIPÓTESIS
TEMA 8: Contrastes paramétricos
TEMA 9: Contrastes no paramétricos
MODELOS DE REGRESIÓN
TEMA 10: Introducción a la Econometría
1
TEMA 7: ESTIMACIÓN POR INTERVALOS
7.1. Concepto de intervalo de confianza
7.2. Métodos de construcción de intervalos ⇒ 7.2.1. Método del pivote
7.2.2. Intervalos aproximados para E(X)
7.3. I.C. en una población normal ⇒ 7.3.1. I.C. para µ con varianza conocida
7.3.2. I.C. para µ con varianza desconocida
7.3.3. I.C. para la varianza
7.4. I.C. en dos poblaciones normales
MUESTRAS INDEPENDIENTES: 7.4.1. I.C. para µ1-µ2 (σ1,σ2 conocidas)
7.4.2. I.C. para µ1-µ2 (σ1=σ2 desconocidas)
7.4.3. I.C. para µ1-µ2 (σ1≠σ2 desconocidas)
7.4.4. I.C. para cociente de varianzas
MUESTRAS PAREADAS : I.C. para µ1-µ2
7.5. Intervalos de confianza para proporciones
2
ANTECEDENTES
Inferencia Estadística: Tenemos una muestra (x1,...,xn). A partir de ella
¿qué conclusiones podemos sacar del modelo que los genera?.
Ejemplo: Urna con bolas rojas/negras ⇒ ¿Inferencias sobre p=p(Roja)?
POBLACIÓN/MODELO
XXXXXXXXXXXX
XXXXXXXXXXXX
XXXXXXXX
xxxx
MUESTRA
1 si ocurreRoja → p
→
0
si
ocurre
Negra
→
1
−
p
⎩
Modelo: Xi= ⎧⎨
v.a. i=1,…,n
Realización de la muestra: (x1,...,xn)=(1,1,0,1,0,…,0,1)⇒ ¿ p̂ ? ¿p<0.5?
Estimación puntual: proponer un valor plausible para el parámetro
desconocido, p, calculado como una función de la muestra,
p̂ = p̂ (X1,...,Xn).
3
7.1. CONCEPTO DE INTERVALO DE CONFIANZA
Objetivo: no proporcionar sólo una estimación puntual del parámetro p,
sino un rango de posibles valores para p, entre los cuales
“confiamos” se hallará el verdadero valor del parámetro.
⇓
“más vale acertar aproximadamente que equivocarse completamente”
⇓
límite inferior: estimador “por defecto”
límite superior: estimador “por exceso”
⇓
ENCUESTAS
4
Definición:
Sea (X1,...,Xn) m.a.s. de una distribución F(x;θ)
p( ϑˆ 1 (X1,..., X n ) ≤ θ ≤ ϑˆ 2 (X1,..., X n ) )=1-α
¡¡ [ ϑ̂1 , ϑ̂2 ] es aleatorio: depende de la muestra !!
Ejemplo:
(X1,...,X50) m.a.s. de una distribución N(µ,σ) ⇒
_
X − µ
σ / n
→ N(0,1)
0.95
-1.96
-1.96
Caso particular: σ=10 ⇒ 0.95=p(-1.96≤
X−µ
≤1.96)=p( X -2.77≤µ≤ X +2.77)
10/ 50
5
Interpretación:
ƒ El intervalo [ X -2.77, X +2.77] es ALEATORIO: depende de la muestra
(X1,...,X50). Al cambiar la muestra (otro valor X ) cambiaría el intervalo.
ƒ Con una muestra concreta, (x1,...,x50), con su media muestral,
¾ p.e. x =70 ⇒ intervalo numérico. 70±2.77= [67.23, 72.77] ¡contendrá o no a µ!
¾ p.e. x =68 ⇒ intervalo numérico. 68±2.77= [65.23, 70.77] ¡contendrá o no a µ!
Esto nunca lo sabremos, pero tenemos un nivel de confianza grande, 95%,
en que lo contendrá.
ƒ ¿Qué significa un nivel de confianza 0.95?
⇒ Si tomáramos todas las muestras de tamaño n=50 posibles y
construyéramos con cada una de ellas el intervalo [ x -2.77, x +2.77], el 95%
de estos intervalos contendría el verdadero valor de µ.
6
7
Confianza y precisión (poca longitud):
Aumentar el nivel de confianza ⇒ ampliar el intervalo (más probable
acertar apostando por un rango amplio de valores) ⇒ información
irrelevante pero certera ⇒ poca precisión.
mayor nivel confianza ⇔ menor precisión
menor nivel confianza ⇔ mayor precisión
Solución:
Fijar (1-α) y buscar I.C. longitud mínima
8
7.2. MÉTODOS DE CONSTRUCCIÓN DE INTERVALOS
7.2.1. Método del pivote ⇒ PIVOTE: T(X1,...,Xn;θ)
ƒ
Función de la muestra y del parámetro θ
ƒ
Continua y estrictamente monótona en θ
ƒ
Distribución muestral conocida que no depende del parámetro
Fijado 1-α, encontrar a,b tales que: p( a≤ T(X1,...,Xn;θ) ≤ b ) = 1-α
y luego despejar θ ⇒ p( ϑ̂1 (X1,...,Xn;a) ≤ θ ≤ ϑ̂2 (X1,...,Xn;b) )= 1-α
¾
¿Cómo elegir a y b? Para que el intervalo sea de longitud mínima
¾
Si distribución de T simétrica, dejando α/2 a ambos lados
9
Ejemplo:
(X1,...,Xn) m.a.s. de una N(µ,σ), con σ conocido ⇒ PIVOTE: X − µ → N(0,1)
σ/ n
α/2
α/2
1-α
-zα/2 0
zα/2
1-α = p(-zα/2≤ X − µ ≤zα/2)=p( X -zα/2
σ/ n
⇒ Intervalo de Confianza 100(1-α)%: X ± zα/2
σ
≤µ≤ X +zα/2 σ )
n
n
σ
σ
⇒ Simétrico, longitud =2 zα/2
n
n
L depende de: (1) α ⇒ (1-α)↑ ⇒ zα/2↑ ⇒ más longitud ⇒ menos precisión
(2) n : si n aumenta ⇒ disminuye L ⇒mayor precisión
(3) σ : si σ aumenta ⇒ aumenta L
10
7.2.2. Intervalos aproximados para la media
Sea (X1,...,Xn) m.a.s. de X con E(Xi)=µ y Var(Xi)=σ2
ƒ
Teorema central del límite: ⇒
X−µ
~ N ( 0,1)
n
→
∞
σ/ n
1-α ≅ p(-zα/2≤
X−µ
σ
σ
≤zα/2)=p( X -zα/2
≤µ≤ X +zα/2
)
σ/ n
n
n
1-α
-zα/2
0
zα/2
I.C. aproximado para E(X) = [ X - zα/2
σ
, X + zα/2 σ ]
n
n
Mejor cuanto mayor n y más simétrica la distribución de X
NOTA: si σ desconocida ⇒ sustituir por
I.C. aproximado = [ X - zα/2
σ̂ , X +
n
zα/2
σ̂
consistente ⇒otra fuente de “error”
σ̂ ]
n
¡ más impreciso que el anterior!
11
7.3. INT. CONFIANZA EN UNA POBLACIÓN NORMAL
(X1,...,Xn) m.a.s. de una distribución N(µ,σ)
7.3.1. Intervalo de confianza para µ con σ conocida
PIVOTE (I.b):
[ X - zα/2
X −µ
→
σ/ n
N(0,1)
σ
σ
σ
, X + zα/2 ] = ( X ± zα/2 )
n
n
n
Simétrico respecto a
X
con margen de error E=zα/2
Determinación del tamaño de la muestra ⇒ n =
σ
n
z2 σ 2
α/2
E2
12
7.3.2. Intervalo de confianza para µ con σ desconocida
PIVOTE (I.c): X − µ → tn-1, con Sc =
Sc / n
α/2
α/2
1-α
-tα/2
0
1 n (X − X ) 2
i
n −1 i∑
=1
tα/2
Sc
Sc
Sc
X−µ
1-α = p(-t α/2≤
≤t )=p( X -t α/2 ≤µ≤ X +t α/2 ) ⇒ X ± tα/2
n
n
n
Sc / n α/2
Simétrico respecto a
X
con margen de error E= tα/2
Sc
n
2
2
t
S
Determinación del tamaño de la muestra n = α/2 2 c
E
13
Ejemplo: Peña (2001, p. 326)
El director de una empresa ha anunciado que el
año pasado los salarios crecieron un promedio del
3.5%. Un grupo de trabajadoras toma una muestra
de los incrementos salariales que han recibido 11
mujeres
obteniendo
los
siguientes
datos:
3%,3%,5%,1%,1%,2%,1%,1%,5%,2%,2%.
Intervalo de confianza para el aumento salarial
medio de las mujeres de esta empresa.
Datos: n=11; X =2,36; Sc =
ƒ
1
n
∑ (Xi − X )2 =1,5
n − 1 i =1
(1-α)x100=90% ⇒ t α/2 = t10,0.95 =1,812
µ ∈ [2,36 ± 1,12 1,5 ] = [2,36 ± 0.51] ⇒ [1.85; 2.87]
11
No incluye el valor 3,5% entre los “más” probables
ƒ
(1-α)x100=95% ⇒ t α/2 = t10,0.975 =2,228
µ ∈ [2,36 ± 2,228 1,5 ] = [2,36 ± 1.01] ⇒ [1.35; 3.37]
11
No incluye el valor 3,5% entre los “más” probables
14
7.3.4. Intervalo de confianza para la varianza σ2
n
PIVOTE (I.d):
α/2
i =1
n
α/2
1-α
a
n S2
χ n2 -1, con S X2 =
2 X →
σ
∑ (Xi − X ) 2
b
n S2
n S2
n S2
2
p(a ≤ σ2 X ≤ b)= p( b X ≤ σ ≤ a X )= 1-α
15
7.4. INT. CONFIANZA DOS POBLACIONES NORMALES
ƒ
MUESTRAS INDEPENDIENTES
X11,...,X1n1 m.a.s. de una X1 ~N(µ1,σ1)
independientes
X21,...,X2n2 m.a.s. de una X2 ~N(µ2,σ2)
7.4.1. Intervalo de confianza para µ1-µ2 (σ1,σ2 conocidas)
α/2
-zα/2
1 − α = p( − z α 2
α/2
1-α
0
(X1 − X2 ) − (µ1 − µ2 )
→N(0,1)
PIVOTE (II.a):
2
2
σ1 σ2
+
n1 n 2
zα/2
⎡
(X1 − X 2 ) − (µ1 − µ 2 )
α
≤
≤ z 2 ) ⇒ (µ1-µ2)∈ (X1 − X2 ) ± z α 2
2
2
⎢
σ1 σ2
+
⎣
n1 n 2
σ12 σ22 ⎤
+
n1 n 2 ⎥⎦
16
7.4.2. Intervalo de confianza para µ1-µ2 (σ1=σ2)
PIVOTE (II.b):
( X1 − X 2 ) − (µ1 − µ 2 )
n1SX1 + n 2SX 2
2
2
→t n1 + n 2 − 2
1 + 1
n1 n 2
n1 + n 2 − 2
⎡
n1S2X1 + n2S2X2 1 1 ⎤
(µ1 − µ2 ) ∈ ⎢(X1 − X2 ) ± t α / 2
+n ⎥
n
1
2⎥
n1 + n2 − 2
⎢⎣
⎦
7.4.3. Intervalo de confianza para µ1-µ2 (σ1≠σ2)
PIVOTE (II.c):
(X1 − X2 ) − (µ1 − µ2 )
SC2 1
n1
(µ1-µ2)∈
+
SC2 2
→ tυ
~ N(0,1) si n1,n2 grandes
n2
⎡
⎢
⎢( X
1
⎢
⎢
⎣
− X 2 ) ± tα
2
S C2
S C2
1 +
2
n1
n2
⎤
⎥
⎥
⎥
⎥
⎦
17
RESUMEN: Intervalo de confianza para µ1-µ2 (MUESTRAS INDEPENDIENTES)
7.4.1. Con σ1,σ2 conocidas)
⎡
⎢
⎢(
⎢
⎢⎣
(µ1 - µ2) ∈ X 1 − X 2 ) ± z α / 2
σ12 σ 22
n1 + n 2
⎤
⎥
⎥
⎥
⎥⎦
7.4.2. Con σ1=σ2 desconocidas
⎡
n1S2X1 + n2S2X2 1 1 ⎤
+n ⎥
(µ1 − µ2 ) ∈ ⎢(X1 − X2 ) ± t α / 2
n
n1 + n2 − 2
1
2⎥
⎦
⎣⎢
7.4.3. Con σ1≠σ2 desconocidas
(µ1 - µ2) ∈
⎡
⎢
⎢( X
1
⎢
⎢
⎣
− X 2 ) ± tα
2
S C2
S C2
1 +
2
n1
n2
⎤
⎥
⎥
⎥
⎥
⎦
18
Ejemplo: (Newbold, 1998, pp. 263-264)
Para una muestra de 96 fumadores, el nº medio
de horas mensuales de absentismo laboral fue
de 2,15 con una desviación típica de 2,09 horas
al mes. En una muestra independiente de 206 no
fumadores resultó una media de 1,69 horas con
una desviación típica de 1,91 horas al mes.
I.C. al 99% para la diferencia de medias
Datos:
Fumadores: X1=2.15, n1=96, S1=2.09, Sc1=2.101
No fumadores: X 2 =1.69, n2=206, S2=1.91, Sc2=1.915
n1,n2 grandes ⇒ tυ~ N(0,1) ⇒ tα/2≅z0.005=2.575
VARIANZAS DISTINTAS:
⎡
⎢
⎢
⎢
⎢⎣
2
(2,15 −1,69) ± 2,575 2,101 + 1,915
96
206
2⎤
⎥
⎥
⎥
⎥⎦
⇒ [-0.19, 1.11]
VARIANZAS IGUALES:
⎡
96x2.092 + 206x1.912 1
1 ⎤
+
−
±
(2.15
1.69)
2,575
⎢
96 206 ⎥
+
−
96
206
2
⎣
⎦
⇒ [-0.27, 0.99] ⇒ El valor µ1-µ2=0 ∈ intervalos
19
7.4.4. Intervalo de confianza para
PIVOTE (II.d):
SC2 1
SC2 2
σ 22
σ12
α/2
σ12 / σ 22
α/2
1-α
→ Fn1 −1,n 2 −1
a
b
⎛
⎞ ⎛ 1 SC2 1 σ12 1 SC2 1
SC2 1 σ22
1 − α = p⎜⎜ a ≤ 2 2 ≤ b ⎟⎟ = p⎜⎜ 2 ≤ 2 ≤ 2
SC2 σ1
⎝
⎠ ⎝ b SC2 σ2 a SC2
⎞
⎟
⎟
⎠
20
DATOS PAREADOS
(X1,Y1)...(Xn,Yn) m.a.s. de Normal bidimensional
2
⎛ X i ⎞ →N ⎛⎜⎛ µ1 ⎞⎛ σ1 ρσ1σ2 ⎞⎞⎟
⎜Y ⎟
2 ⎜ ⎟⎜
2 ⎟
µ
⎝ i⎠
⎝⎝ 2 ⎠⎝ρσ1σ2 σ2 ⎠⎠
donde E(Xi)=µ1, E(Yi)=µ2, Var(Xi)= σ12 , Var(Yi)= σ22
7.3.2.5. Intervalo de confianza para µ1-µ2
Diferencias ⇒ Di=Xi-Yi → N(µD,σD), con µD=µ1-µ2
Una sóla muestra D1,D2,...,Dn de una N(µD,σD)
D − µD
SD / n
⇒ Intervalo de Confianza para µD ⇒ PIVOTE (I.c):
→ tn-1
n
n
∑ Di
1-α = p(-t α/2≤ D − µD ≤t α/2)=p(D∈ D ±t α/2 SD ), donde D = i =1
SD / n
n
n
y SD =
∑ ( Di − D ) 2
i =1
n −1
21
Ejemplo: (Casas, 1996, pp. 248-249)
Datos del consumo de gasolina por 1000 km
de una muestra aleatoria de 9 cohes con dos
carburantes X e Y. Suponiendo normalidad
para los consumos, hallar intervalo de
confianza al 99% para la diferencia de medias.
Coche
1
2
3
4
5
6
7
8
9
1
Xi
132
139
126
114
122
132
142
119
126
n
D = ∑ Di =2; SD =
n i =1
¾
1
Di= Xi-Yi
8
-2
8
-2
8
0
-3
-4
5
n
∑ (Di − D )2 =5.17
n − 1 i =1
(1-α)x100=99% ⇒ t n-1, α/2 = t8,0.005 =3.355
[2 - 3.355x
¾
Yi
124
141
118
116
114
132
145
123
121
5,17
,
9
2 + 3.355x
5,17
]=[-3.781,
9
7.781]
Al 95% ⇒ t α/2 = t8,0.075 =2.306
[2 – 2.306x
5,17
,
9
2 + 2.306x
5,17
]=[-1.974,
9
5.974]
22
7.4. INTERVALOS DE CONFIANZA PARA PROPORCIONES
7.4.1. Intervalo de confianza (aproximado) para la proporción p
1 si ocurre A (éxito) → p
⎩0 si ocurre A (fracaso) → 1 − p
Sea X1,..., Xn m.a.s de una Bernoulli b(p) ⇒ Xi= ⎧⎨
_
p̂ = X
n
=
∑ Xi
i =1
n
= proporción “muestral” de éxitos
Teorema Central límite:
pˆ − p
~
N(0,1)
p(1− p) n→∞
n
Difícil despejar p: ⇒ Sustituimos por estimador
pˆ − p
pˆ (1 − pˆ )
n
1-α=
⎛
⎜
p ⎜ - z α/2 ≤
⎜
⎜
⎝
⎞
⎟
pˆ − p
≤ z α/2 ⎟
⎟
pˆ (1 − pˆ )
⎟
n
⎠
~
n →∞
_
p̂ = X
consistente
N (0,1)
= p⎛⎜ pˆ - zα/2 pˆ (1− pˆ ) ≤ p ≤ pˆ + zα/2 pˆ (1− pˆ ) ⎞⎟
n
n ⎠
⎝
⇒
pˆ ± z α/2
pˆ (1 − pˆ )
n
23
Determinación del tamaño de la muestra
Determinar el tamaño muestral n para tener una precisión determinada
pˆ (1 − pˆ )
pˆ ± z α/2
n
Es un intervalo de la forma
margen de error ±E:
E = zα/2
p̂ ±E
⇒ centrado en
p̂
y simétrico con un
2
z
α/2 X(1 − X)
pˆ (1 − pˆ )
⇒ n=
E2
n
El máximo de X (1- X ) es 1/4 que corresponde a p̂=1- p̂=0.5 (hipótesis
más desfavorable de máxima indeterminación p=q=0.5)
z 2α/2
⇒ n= 4E 2
24
Ejemplo:
En un determinado país se celebrarán próximamente elecciones
generales y sólo se presentarán dos candidaturas A y B. Un mes antes
de las elecciones se ha realizado una encuesta de intención de voto a
100 individuos y se han obtenido los siguientes resultados: el 42%
prefiere al candidato A, el 50% prefiere a B y el 8% no contesta.
(a) Hallar un I.C: para la proporción de individuos que votarán A (95%).
(b) Si se hubieran hecho 4000 entrevistas y los % de resultados
hubieran sido los mismos, ¿cuál habría sido el I.C.?
(c) ¿Cuál debería ser el tamaño muestral necesario para poder estimar
con una precisión de ±1% y una fiabilidad del 95%?
25
7.4.2. Intervalo de confianza para la diferencia de proporciones
(X1,...,Xn1) m.a.s de b(p1)
independientes
(X1,...,Xn2) m.a.s de b(p2)
Teorema Central límite:
p̂1
N( p1,
n→∞
~
p1(1− p1)
);
n1
p̂2 n→∞ N( p2 ,
~
p2 (1− p2 )
)
n2
Independientes
⇓
pˆ 1 − pˆ 2
~
n→∞
N( p1 - p2 ,
p1 (1 − p1 ) p2 (1 − p2 )
+
)
n1
n2
Difícil despejar p1-p2: ⇒ Sustituimos p1, p2 por estimadores consistentes
PIVOTE:
( pˆ1 − pˆ 2 ) − ( p1 − p2 )
→N(0,1)
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
+
n1
n2
⎡
pˆ1(1− pˆ1) pˆ2(1− pˆ2) ⎤
ˆ
ˆ
−
±
z
(
p
p
)
⇒ (p1–p2)∈ ⎢⎣ 1 2 α/2 n1 + n2 ⎥⎦
26
Descargar