Tema: Métodos Indirectos de Estimación.

Anuncio
Tema: Métodos Indirectos de Estimación.
1.- Introducción:
X i , Y i  representa un vector aleatorio correspondiente a dos medidas tomadas en el
individuo i-ésimo. X variable auxiliar, Y variable de interés.
Cuestión fundamental, ¿Cuando realmente interesa utilizar una (o más de una) variable
auxiliar en un método indirecto?. Las técnicas de regresión resuelven la cuestión. Estas
mismas técnicas permitirían generalizar el procedimiento de estimación si tenemos dos o
más variables auxiliares que podría ser el caso.
Expresión general de estimadores indirectos:  YR   Y  b 0  X −  X  donde b 0 puede
considerarse un coeficiente de correción para mejorar  Y . Posibles valores para b 0 :
i) Estimador Directo b 0  0   YR   Y
ii) Estimador de Razón b 0 
Y
X
  YR 
Y
X
X
iii) Estimador por Diferencia b 0  1   YR   Y   X −  X 
iv) Estimador de Regresión b 0 Coef. de regresión de Y sobre X.
Características de los métodos indirectos:
i) La información auxiliar X se conoce en todos los individuos de la población,
x i  i∈U , es conocido, por tanto se conoce  X .
ii) Para los individuos tomados en la muestra s se conoce su respuesta a la variables de
interés y auxiliar y i , x i  i∈s .
2.- Estimador de Razón:
2.1 Modelo Común de razón:
Suposiciones: V.a auxiliar X positiva y ademas
n
yk
xk
N
∑y k

yk
xk
 cte. ∀k  EY/X  x k   x k y
∑y k

k1
n
∑x k
k1
N
∑x k
k1
k1
N
2.2 ¿Cómo estimar una razón R 
Y
X
∑y k

k1
N
∑
?
xk
k1
R
 Y
 X
Resultados:
i)
E R −R
2
Var R
≤
Var  X
 2X
Si el error estándar relativo
1/2
Var  X
ˆ 0 la razón del
| X |
sesgo ˆ 0 .
ii) Diseño muestral m.a.s.:
AVar R
AVar R
 E. C. M. R

1−f
n

∑
1
2
 X
1−f
n
y k −Rx k
sr
n−1
∑y k −Rx k  2
1
 2X
U
N−1
∑y 2k R ∑x 2k −2R∑y k x k
2
2

1−f
n
1
2
 X
k∈s
k∈s
n−1
k∈s
Ejemplo: Se está interesado en estudiar la diferencia en el valor catastral de las casas en
cierta comunidad particular durante un período de dos años. Se toman 20 de las 1000 casas
utilizando m.a.s. midiendo Y, valor catastral de este año, X, valor catastral de hace dos
años. A partir de la tabla adjunta de datos, ¿qué concluyes?
yi
x 2i
y 2i
xiyi
Casa
xi
1
6. 7
7. 1
44. 89
50. 41
47. 57
...
...
...
...
...
...
20
8. 9
9. 4
79. 21
88. 86
83. 66
Total 154. 5 164. 7 1210. 55 1373. 71 1288. 95
Solución:
20
∑y k
R
k1
20
∑x k

 1. 07 El valor catastral ha aumentado un 7%.
164.7
154.5
k1

Var R
2 Var R
1−
1
20
1373.71.07 2 1210.53−21071288.9
1
2
19
7.725
20
1000
 0. 02
2.3 Cómo estimar  Y :




Modelo y k  x k ∑ y k   ∑ x k   YR
U
Como
min∑ y k − x k  
∑y k x k
2

U
∑x k
U
∑y k

U
∑x k
U
2.3.1 Caso m.a.s.:
k 
n
N
  YR 

U
Y
X
∑y k
sr
∑x k
 N x  Var R
x

 X
 Y
  YR 
 X
n
 X;  Y ∑
2
N2
Nota: A menudo AVar  YR
de
aqui
yk
k
k1
se
deduce
una
U
2

 X
y
∑ x k  N x x ss  RN x ,
sr
AVar  YR
 Y
U
aproximación para la varianza:
AVar  YR


1−f
n

N 2 1−f
n
∑
y k −Rx k
∑y k −Rx k  2
U
N−1
2
s
n−1
≤ Var m.a.s  
regresión pasa, o muy cerca, del origen.
Obtención de n fijados B y K:
Tomada una muestra piloto se estima V ∗2 
x

 X

2
N2
1−f
n
 CorrX, Y ≥
∑
y k −Rx k
s
n−1
2
∗2
∗
S ∗2
y  R S x − 2RS xy
1 CV U X
2 CV U Y
y la recta de
2
n
V ∗2 N 2
B2
k2
NV ∗2
2.3.2 Diseño muestral estratificado:
Tenemos la población N dividida en L estratos, N  N 1 . . . N L , en cada estrato h se toma
una m.a.s. de n h individuos. Y es la variable de interés y X la auxiliar.
i) Estimador de razón estratificado separado; (Caso  y 
y

Se toman estimadores de razón en cada estrato,  yh  x hh  xh .
Se simplifica a un único estimador tomando un promedio con pesos de estos L estimadores:
L
y

 SRy ∑ W h x hh  xh .
h1
Nh
L

AVar SRY  ∑ W 2h
1−f h 
nh
2 ∗2
∗
∗
 ∗2
hy  R h  hx − 2R h  hxy ;  hxy 
∑x hi − xh y hi − yh 
i1
N h −1
h1
nh
L

AVar SRY  ∑ W 2h
h1
2
 xh

 Xh
1−f h 
nh
2
yh
xh
∗2
∗
S ∗2
hy  R h S hx − 2R h S hxy ; R h 
; S ∗hxy 
∑x hi − xh y hi − yh 
i1
n h −1
Obtención de n fijados B y K:
Tomada una muestra piloto se estima V ∗2
h 
2
∗2
∗
S ∗2
hy  R h S hx − 2R h S hxy
L
Si afijación proporcional n h  nW h , ∑ W 2h
1
nW h
−
1
Nh
V ∗2
h 
B2
k2
y se despeja n.
h1
ii) Estimador de razón estratificado combinado; (Caso  y 
L

 CRy 

 STy

 STx

AVar  CRy
∑W h y h
x 
L
h1
L
∑W h x h
x.
h1
∑ W 2h
1−f h 
nh
∗
2 ∗2
 ∗2
hy  R  hx − 2R hxy ;
h1

AVar  CRy
L
∑ W 2h
h1
L
 xh

 Xh
2
1−f h 
nh

 STy

 STx
2
∗2
∗
S ∗2
hy  R S hx − 2RS hxy ; R 
∑W h y h

h1
L
∑ Whxh
h1
Obtención de n fijados B y K:
Tomada una muestra piloto se estima V ∗2
h 
2
∗2
∗
S ∗2
hy  R S hx − 2RS hxy
L
Si afijación proporcional n h  nW h , ∑ W 2h
1
nW h
−
1
Nh
V ∗2
h 
B2
k2
y se despeja n.
h1
Cuestiones:
1ª ¿Cuando usar el estimador estratificado separado o el combinado?
Habitualmente sucede que el error de muestreo es superior con el estimador
combinado. Sin embargo el estimador separado puede tener mayor sesgo puesto que el
estimador de razón de cada estrato contribuye al sesgo. Por tanto, si los tamaños de muestra
son pequeños en cada estrato o si las razones dentro de los estratos son aproximadamente
iguales, utilizaremos el estimador combinado.
2ª ¿Cuando usar el estimador de razón?
Cuando la relación entre las variables Y y X sea aproximadamente lineal a traves del
origen y ademas, la varianza de la variable Y sea proporcional a la varianza de la variable
X.
3.- Estimador Producto.
El estimador de razón no puede ser utilizado para mejorar el estimador directo cuando
la correlación entre las variables de interés y auxiliar es negativa. Una alternativa es el
estimador producto.

yx
x
 YP   x , estimador más eficiente que el de m.a.s. si  xy ≤ − 12 CV
CV y

1−f
Sesgo: E YP  −  y  n  y  xy CV x CV y

1−f
∗
2 ∗2
AVar YP   n  ∗2
y  R  x  2R xy 
2

1−f
∗2
∗
AVar YP   n S ∗2
y  R S x  2RS xy
Ejemplo:
4.- Estimador de Regresión:
Cuando el modelo entre X e Y es lineal pero no pasa por el origen, el estimador de
regresión es el adecuado.
4.1 Estimador Diferencia:
Se supone y 1 , x 1 , . . . , y n , x n  m.a.s. de n unidades de una población de N elementos.
Sea  una constante predetermianda.

Definición de estimador diferencia  YD  y   x − x
Propiedades:

i) Para todo  el  YD es insesgado.

ii) La varianza de este estimador es mínima si   xy2 .
x
Alternativas para  :
i)   1; Sólo funciona bien si la relación entre X e Y es lineal con pendiente próxima a la
unidad;

 YD  y   x − x
∑d k −d 2

1−f s
Var YD   n
; dk  yk − xk
n−1
ii) Utilizar estudios previos para proponer una estimación del coeficiente de regresión

1−f
∗
2 ∗2
Var YD   n S ∗2
y   S x − 2S xy 
Ejemplo:
4.2 Estimador de Regresión:
Consideramos toda la población Uy 1 , x 1 , . . . , y N , x N  y que el modelo es
y i   0   1 x i ; i  1, . . . , N.
0  y − 1x
min∑ y i −  0 −  1 x i  2 
 0 , 1
U
1 
 xy
 2x
∑y i − y x i − x 

U
∑x i − x  2
U
El tomar una muestra
 kl ∀k, l ∈ s, y i , x i  i∈s , x i  i∈U .
s
de
U
según
un
diseñoconocer
k
y
∑

   
0  y s − 1 x s; y s  s
yk
k
N

; xs 
∑
xk
k
s
N
;N  ∑
1
k
s


y k − y s x k − x s 
k
∑

1  s

∑ xk−xks 
2
s
4.2.1 Sea s una m.a.s.:

S∗


y s  y; x s  x;  1  S ∗2xy
x
Por


y 1  y   1 x 1 − x
N
∑y i
 i1N
......


y N  y   1 x N − x
 2 ∗2
 ∗

1−f
Var  yreg  n S ∗2
y   1 S x − 2 1 S xy
tanto:
N
∑x i −x
 i1

  yreg  y   1
N

 y   1  x − x
Ejemplo:
4.2.2 Sea s una muestra obtenida mediante diseño estratificado:
N  N 1 . . . N L , en cada estrato h se toma una m.a.s. de n h individuos. Y es la variable de
interés y X la auxiliar.
i) Estimador de regresión simple:
Suponiendo que los n h  son suficentemente grandes para que los estimadores en cada
estrato sean lo suficientemente aproximados.
Nh

Para cada estrato:  h 
S ∗hxy
S ∗2
fx
L
∑x hi −x h 
 i1

,  yhreg  y h   h
Nh

 y h   h  hx − x h 


Globalmente:  yrs ∑ W h  yhreg
L

AVar  yrs
∑
h1
1−f 
W 2h n hh
 2 ∗2
 ∗
S ∗2
hy   h S hx − 2 h S hxy
h1
ii) Estimador de regresión combinado:
Cuando existan evidencias de que los  h no difieren mucho entre si, ó si los n h  no son
suficentemente grandes.
L

c 
∑W2h 1−fnhh S ∗hxy
h1
L
∑
L
,
1−f 
W 2h n h
h
S ∗2
hx
h1

 yestr ∑ W h y h (estimador
de
y
con
diseño
h1
L

 xestr ∑ W h x h (estimador de  x con diseño estratificado).
h1




Globalmente:  yrc   yestr   c  x −  xestr 
L
 2 ∗2
 ∗

1−f 
AVar  yrc ∑ W 2h n hh S ∗2
hy   c S hx − 2 c S hxy
estratificado),
h1
4.3 Expresiones Alternativas para el Estimador de Regresión:
Suponemos observado un vector x de J variables auxiliares y los modelos
E  y k   x k
E  y k    1   2 x k
y 2
1
V  y k    2 x k
V  y k    2
i) Primera alternativa :
Dada la muestra s el ajuste del modelo permite estimar
 J 

 ′ 



x k x ′k
xkyk
′
t ∑  2      1 , . . . ,  J y y k  x k  ∑  j x jk
T ∑  2 
k∈s
k k
k∈s
k k

∑s
Para el modelo 1     
∑s
∑s

ys 
∑s
yk
k
1
k
∑s

, xs 
∑s
xk
k
1
k
∑
  yr  ∑ U x k s
∑s
yk
k
xk
k

  
1
Para el modelo 2  
j1
2

∑s
, 2 


x k − x s y k − y s 
k
∑s

x k − x s  2
k

1

2

yk
k
xk
k
  −1 
 T t
/
k  1, . . . , N.
  
y s − 2 x s

2
donde
 

  yr  N y s   2 x U − x s 
ii) Segunda alternativa:
luego los residuales muestrales son,

k∈s
e ks  y k − y k ,



Observamos que e ks y y k dependen de s por , que y k es evaluable para toda la población y
que se conoce x 1 , . . . , x N . Sin embargo los residuales solo son evaluables para la muestra.
El estimador de regresión puede ser expresado:



 yr ∑ y k ∑ eksk ∑ y k ∑ e ks
U
U
k∈s
k∈s
iii) Varianza del estimador de regresión:


Var  yr  ∑ ∑ s Δ kl g ks e ks g ls e ls  / Δ kl  1 −
kl
 kl

, e ls 
e ls
k
, g ks 
∑ U xk
∑ s xkk
Casos Particulares:
Si el modelo es
Var  yr
N
2
E  y k   x k
V  y k    2 x k
∑U x
∑s
2
k
xk
k
1−f
n
∑s
, bajo m.a.s.

y k −x k
2
n−1
Propiedad: Una condición necesaria y suficiente para que ∑
e ks
k
 0 es que exista  ∈  J
k∈s
/  2k   ′ x k . Ejemplos de estructura de varianza que cumplen esta condición:
 2k   2 y x 1k  1 para k ∈ U.
 2k  x jk para todo k ∈ U.
5.- Ejemplos:
5.1 Una fábrica de frigoríficos contempla revisar su política de mercado. Por ello, desea
estimar cuántos frigoríficos se van a vender el próximo verano,  y . Atendiendo a varios
factores, se divide el país en cuatro zonas. El número de comerciales en estas cuatro zonas
es 400, 216, 364 y 274, mientras que el número total de refrigeradores vendidos el pasado
verano fue 29100, 12060, 26567 y 1811. Tratando las zonas como estratos, se decide
seleccionar una muestra de 42 comerciales. Se utiliza afijación de mínima varianza ya que
se facilita la siguiente información poblacional respecto del número de ventas del año
∗2
∗2
∗2
pasado en cada estrato:  ∗2
1  207. 36,  2  282. 24,  3  184. 96,  4  127. 69.
Los datos observados se muestran en la siguiente tabla: (X:ventas del pasado verano,
Y:ventas esperadas del próximo verano)
nh
Zona I
Zona II
Zona III
Zona IV
X Y
X Y
X Y
X Y
53
69
44 52
60 67
58 52
84
80
67 73
76 86
65 71
93
87
84 78
78 75
56 62
66
72
52 60
68 77
48 44
77
81
48 42
55 64
73 77
82
94
62 56
48 45
85 80
68
64
56 50
86 98
61 66
84
88
70 76
91 95
79
72
40 48
69 76
98 110
70 79
50
62
79 92
78
70
49 66
92
85
63
77
Nh
Wh
 xh
 xh
xh
yh
S ∗2
hy
S ∗2
hx
S ∗hxy

h
Estrato 1 14 400 0.319 72.8 29100 76.2 79.4 166.7 211.1 146.5 0.694
Estrato 2
9
216 0.172 55.8 12060 58.1 59.4 174.3 197.1 164.8 0.836
Estrato 3 12 364 0.290
Estrato 4
7
73
26567 69.1 76.7 226.6
193
188.3 0.975
274 0.218 66.1 18111 63.7 64.6 170.6 147.9 142.8 0.965

rh
0.781
0.889
0.900
0.899
5.2 Un experimento tiene por objeto estimar la superficie (v.a. Y) media de hoja de una
nueva variedad de trigo. El experimentador decide plantar 40 unidades entre tres lugares
diferentes. Se obtienen 640, 710 y 769 hojas respectivamente. El peso total de estas hojas
en estas tres plantaciones fue 69000, 81137 y 78009 grs respectivamente. Usando afijación
proporcional se toma una m.a.s. de 39 hojas con los siguientes resultados (Y: área en cm 2 ,
X: peso en grs.);
Estrato I
Estrato II
Estrato III
Y X
Y X
Y X
26. 01 103
21. 08
97
41. 07 130
25. 7
103
26. 13 107
18
89
34. 23 119
28. 05 109
17. 92
91
26. 16 107
33. 71 117
26. 73 105
19. 37
99
28. 56 112
24. 81 101
28
103
29. 43 110
28. 3
107
24. 03
91
22. 41 105
16. 07
81
36. 61 123
32. 06 113
29. 41 111
34. 09 117
27. 64 108
21. 09 104
102
35. 47 121
22. 18 102
34. 78 122
31. 57 113
17. 76
23. 17 106
39. 06 129
28. 21 101
20. 66
99
26. 7
106
19. 84
96
84
21
Estimar el área media de cada hoja.
S ∗2
hx
S ∗hxy

h
Estrato 1 12 640 0. 3020 107. 8 69000 103. 04 25. 75 40. 148
133. 9
68. 41
0. 5109
Estrato 2 13 710 0. 3351 114. 3 81137
66. 24
41. 758 0. 6304
nh
Nh
Wh
 xh
 xh
Estrato 3 14 769 0. 3629 101. 4 78009
xh
110. 9
yh
S ∗2
hy
28. 94 30. 334
104. 3 25. 84 45. 446 154. 99 81. 065
El programa metiejem.m resuelve el resto del ejercicio con el siguiente resultado:
error  6.1675
(error de muestreo)
icmyest  15.5905 39.7670
(intervalo de confianza)
myest  27.6788
(estimación puntual)
La estimación del área media en cada estrato es:
my1  27.9692
my2  31.0179
my3  24.3542
0. 523
Descargar