Predicciones bayesianas de probabilidad en presencia de umbrales

Anuncio
ESTADiSTICA ESPAÑOLA
Vol. 37, Núm. 138, 1995, págs. 75 a 100
Predicciones bayesianas de probabilidad
en presencia de umbrales
en un modelo lineal (*)
por
JOSE LUIS ROJO GARCIA
Catedrático de Economía Aplicada
Facultad de CC.EE. y EE. de Valladolid
JOSE ANTONIO SANZ GOMEZ
Profesor Titular interino de Economía Aplicada
Facultad de CC.EE. y EE. de Valladolid
RESUMEN
En este trabajo construimos un predictor ó ptimo de la probabilidad de que la variable endógena en un Modeio Lineal Clásico (MLC)
rebase un umbral, con técnicas bayesianas. Además, se obtiene de
forma explícita una predicción de la variable endógena cuando la varianza de la perturbación es conocida, y una cierta tipificación de la
misma cuando ésta es desconocida.
Asimismo, si dicha varianza es conocida se estudia la semejanza
de la predicción obtenida con la que resulta de la estimación de los
parámetros por Mínimos Cuadrados Ordinarios (MCO). Se ilustra finalmente la técnica desarrollada con una aplicación al estudio del
turismo balear.
Palabras clave: análisis bayesiano, econometría, teoría de la decisión.
C/asificación AMS: Principal 62H12. Secundaria 62P20.
(') Los autores agradecen las sugerencias de dos evaluadores anónimos que han contribuido
a mejorar notablemente este trabajo.
ESTAUISTICA E:SPAÑ(7LA
1.
INTRODUCClON
En el análísis econométrico, en ocasiones, se plantean estudios en fos que
están implicados umbra/es, esto es, valores cuya superación por una variable
provoca determinados efectos sobre otra u otras variables. EI umbral, por tanto,
será un nivel que implicará la presencia, o ausencia, de un suceso en un cíerto
período de tiempo.
EI problema general parte de que se dispone de una variable económica,
Y, para la que se presupone un comportamiento estocástico. Dicha variable tendrá una distribución de probabilidad que dependerá de uno o varios parámetros,
F(y; e1, ..., Hk), y su estimación suele ser objeto de estudio.
Supondremos que io que proporciona efectos significativos, o al menos lo
que tiene un especial interés, es que !a variable Y rebase un umbral a. Puesto
que Y es aleatoria, la posibilidad de que supere el umbral viene dada en términos probabilísticos. Nos interesará, por tanto, estimar la probabilidad de que dicha variable rebase, o no, dicho umbral, es decir, estimar
P (Yza,Q},
donde Q denota, genéricamente, la familia de parámetros presentes en la distribución de probabilidad de Y.
En numerosos trabajos [Heckman y Macurdy {1980), Fase (1971), Ashford y
Sowden (1970), por ejempio] puede verse una situación en la que el investigador se propone predecir, no ya los valores futuros de una cierta variable endógena del rnodelo, sino si dicha variable rebasará o no el umbral prefijado. En dichos trabajos, la variable endógena no es observable y, a veces, tampoco se
conoce el umbral, imposibilitándose así 1a estimación dei modelo. Los autores
realizan entonces la estimación mediante su transformación en modeios de respuesta cualitativa.
En otros trabajos [Rojo t1990), Zellner et a1. {1990}, etc.], la variable endógena es observable, pero el objetivo no consiste en predecir sus valores, sino si
dicha variable superará, o no, cierto umbral prefijado.
Las soluciones clásicas a este problema se engloban, básicamente, en dos,
aunque cada una de ellas admite posibilidades muy diferentes:
1.
Estimar los parámetros por ciertas técnicas (MC^ u otras) para, posteriormente, estimar o contrastar probabilísticamente la hipótesis de supe-
PREDICCIONES BAYESIANAS DE PRC}BABILIDAD EN PRESENCfA UE UMBRALES
Í%
ración del umbral. Esta opción, bajo las hipótesis adecuadas, usa estimadores eficientes, pero no sensibles a la existencia de umbrales, sino
que sólo tienen en cuenta la distancia entre la estimación del parámetro
y su «verdadero» valor.
2.
Construir una variable dicotómica con valores conocidos para el período
muestral, según la variable supere o no el umbral, y sustituir la variable
endógena por esa variable dicotómica, con el adecuado carnbio de modelo (logit o probit, usualmente}; pero este método provoca una pérdida
de información muestral importante al trabajar con variables de este tipo
cuando la variable endógena es observable.
En este trabajo se adopta una perspectiva bayesiana, estableciendo una
función de pérdida cuadrática. Adicionalmente, se obtienen los valores de los
parámetros que minimizan el riesgo esperado a posteriori y se deducen distintas
propiedades que relacionan, por un lado, la probabilidad estimada en el trabajo
con su estimación clásica y, por otro, la predicción clásica de la variable con !a
bayesiana obtenida.
En el apartado 2 se obtiene la estimación óptima de la probabilidad y del
predictar, cuando la varianza de la perturbación es conocida. En el tercero se
amplía el estudio al caso en que dicha varianza es desconocida, obteniendo,
asimisrno, la probabilidad óptima, aunque ahora no se obtiene una expresión
analitica del predictor de la variable endógena.
En el apartado 4 se comparan, cuando la varianza es conocida, y para modelos con términ0 constante, tanto las probabilidades clásica y bayesiana corno
los correspondientes predictores obtenidos en el apartado segundo, desde el
punto de vista de su proximidad numérica relativa.
Finalmente, en el apartado 5 se desarrolla una aplicación de la técnica anterior al estudio de los niveles de gasto de los turistas que visitan el archipiélago
balear, aplicación que ilustra la viabilidad de la implementación de la solución
obtenida en este trabajo.
2.
PLANTEAMIENTO DEL PROBLEMA
Consideremos el MLC
Y-x^+^
donde
• Y es el vector T x 1 de valores de la variable endógena.
^1^
% ^^
E^STAUCSTI('A ESPAÑO[.A
• X una matriz T x k no aleatoría de rango k de los valores de las variables
exógenas (1 }, de forma que existe el límite
,
lim
r-.^
T
- Q
siendo C? una matriz finita y no singular.
• ^ _ (^^, ..., ^k }' es un vector paramétrico aleatorio.
• E es un vector T x 1 de perturbaciones aleatorias, et, con
E--^ Nr(o, a2/r)
siendo 0 la matriz columna formada por T valores iguales a cero, con E
independiente de ^ y a2 conocido (0 < Q2 <^}.
Supondremos que ^ tiene una distribución a priori no informativa (esto es,
neutral en el sentido de Jeffreys),
[2]
P (^) ^ K
Denotemos por X°_(x °, ..., x k } el vector fila de los valores de las variables
exógenas en el período de predicción. EI modelo, entonces, en el períado de
prediccíón será Y° = X°^+ :r°, donde se supone que el vector ampiiado de las
perturbaciones aleatorias, e={E^, ..., Er, E°}' verifica E -^ Nr +^ (o, a2 I r+ ^}, con
E°, asímismo, independiente de ^.
Llamemos a a un cierto umbral para la variable endógena del modelo [1 ].
Pretendemos estimar la probabilidad de que la variable endógena en el período
de predicción, Y°, rebase el umbral, a, bajo cualquier valor paramétrico ^, esto
es, estimar la probabilidad
^
P= P{ Y° z a I R) =
^
Ja
^
1
a
eXP
-
2a 2
{Y °- X°^)2 dY °
[8]
Consideremos, de acuerdo con Rojo (1987), la función de pérdida cuadrática,
L(p , p^) _ [p - p^]2, donde p es una elección de p^. Como es conocido [véase, por ejemplo, Ferguson (1967), pág. 46], el riesgo a posteriori se minimizará
estimando p como la esperanza de p^ a posteriori dados los datas, esto es,
^
A =E (P^I Y^x)=E [p {Y°za l ^.x°)) Y^xl
[4]
Aunque en e! apartado 4 supondremos que la primera columna de X es el vector
(^ )
1=(1, ..., 1}', en los apartados 2 y 3 no se impondrá esta condición.
PREDICCIONF,S BAYESIANAS DE PRC)BABILIDAD EN PRESENC[A DE UMBRALES
^y
Ahora bien, la definición de densidad predictiva implica que
[5]
E [P (Y°za I ^^X°)IY,XJ=P (y°za I X°^Y^X)
Pero la distribución de Y° condicionada por ^ es
(Y°IX°,^.y.X)--N (X°^^Q2)
[6]
y la de ^ dados los datos
.
^
(^Iy^X,X°)--^N (^^^2(X'X)-')
[7l
Multiplicando ambas densidades e integrando en ^ se obtiene la densidad de
Y°, dados los datos,
^
(Y°) X°, y,X)-^ N (X°^,Q2(1 +X°(X'X)-^ X°'))
[8]
En consecuencia, Ilamando e al escalar
e=
1
[9]
1+X°(X'X)-'X°'
se obtiene la estimación óptima de p,
^
P=P (Y°^a IX°^y^X)=p
^
_ o^
N(^^1)z^ a x
a
^
X 0 ^^
=1-^`^ aa
=
[10]
Comparemos esta solución con la clásica, en la que el parámetro ^ se considera no aleatorio y se estima por MCO. En esta última se estima p por p^,
esto es, se asigna a Y° la distribución N(X° ^, Q2); en definitiva, si Ilamamos
p= p^ a fa estimación obtenida
0
^
P =P (Y°za (^,X°,y,X)=1 -^ a -X ^
a
[11]
FSTAb1STlCA FSPANOL.A
Corno de la definición de e se deduce que 0< e< t, entonces,
^
e
^--
a-X°^ <
^
^
a -- X ° ^
Q
[ 12]
N
y, por tanto, p estará siernpre m^s próxima a 0.5 que p, esto es, se cumple
^
0. 5< p < p
o bien
^
p< p < 0.5
[ 13)
según que el umbral sea menor o mayor, respectivamente, que la predicción
MCO.
Obsérvese que la estimación óptima de la probabilidad puede reinterpretarse
en términos de una estimación «óptima» de X°^. En dos trabajos anteriores
[véase Rojo y N"lartín (1988) y Sanz (t 994)], se planteaba buscar la estimación
óptima de la esperanza de Y°, esto es, de X°^i, que condujera a la probabilidad
estimada óptima anterior. La construcción que se hacía en dicho trabajo era directa, minimizando la función de riesgo que^se obtiene a partir de la función de
pérdida cuadrática anterior con respecto a R, donde p= p^. Se obtenía,
en el
^
último de los dos ^trabajos, no sólo fa probabiiidad estimada anterior, p, sino fa
expresión de X°^, dande ^ sería, como hemos indicado, !a estimación óptima
de ^
Dicho resultado puede obtenerse ahora como un corolario de la anterior estimacián óptima de p. Así, como la aplicación
^
^^p^`=P
(Y°^a ! ^^x°)=1 --^, a -x°^
^
^
es una transformación suprayectiva de I^$ en (o, 1), la minimización de la función
de riesgo como función de ^ se obtiene para el valor ta! que
^
^
o
a _Xo^
1 -- ^ a - X ^ -- 1 - ^ñ ^e
a
a
[14)
La ecuación anterior conduce a la solución
^
^
X° ^--a i1-^^ )+^e X°^
[15^
ó1
PRED[CCIONES BAYESIANAS DE PROBABILIDAD EN PRESENCtA DE UMBRALES
Esta expresión tiene^una interpretación analítica. Como puede observarse, la
estimación óptima, X ° ^3, de la esperanza X°^, resulta ser una combinacián lineal convexa de la estimación MCO, X°^3, y del umbral a, esto es, un punto en
el segmento que une ambas cantidades. En otras palabras, supone un ace^camiento al umbral desde la estimación MCO, siendo este acercamiento tanto mayor cuanto menor sea e.
EI rnotivo de este acercamiento puede verse comparando la distribución
a posterio^i de ( Y° ^ X°, y, X } (véase la expresión [8]) con la distribución que
se deriva de la estimación clásica, que sería una I'V (X °^, Q2). Nótese la mayor dispersión de aquélla, consecuencia del incremento de su varianza en
a2 (X° (X' X)-' X°' ), que es la varianza de X°^S, dados los datos y, X y X°.
En definitiva, esta mayor dispersión deriva de la naturaleza aleatoria de ^, y
obliga a trasladar hacia el umbral la estimación de X°^.
Obsérvese también que, cuando el tamaño de la muestra tiende a infinito,
[ 16]
lim e = 1
r-^^
En efecto,
,
lim X°(X'X)-^ X°'=1im ^ Xo
T--^
T--^ T
-^ X°'=1im
r-.^
T
1 X°G?X°'=0
T
de donde se deduce el resultado. Ello implica que, para muestras grandes, la dia cero. Asimisferencia entre la probabilidad óptima [10] y la clásica [11 ] tiende
^
mo, la estimación óptima de X°^ [15] tiende a la clásica X°^i.
Similares cálculos pueden hacerse si la probabiiidad a estimar de forma óptima es p ( Y° s a ^(3, X°), esto es, si el suceso en que estamos interesados consiste en la no superación de un umbral. En este caso, y nuevamente a partir de
la distribución de Y°, dados los datos, el áptimo sería
~
P =P (Y°sa IX°,Y^X)=P
^(0,1)5^
^
a _ ,x o R
a
^
_^^,ra-x^R^
a
La comparación con la estimación clásica de dicha probabilidad,
^
^ _^ a --X°(i
P
a
-
82
ESTADlSTI(`A ^SPAÑOLA
nos conduce, si el umbral es mayor o menor que la predicción minimo cuadrática, respectivamente, a
p <p <0.5 obien 0.5<p <p
t`inalmente, obsérvese, en este caso, que la transfarmación de II^ en (o, 1)
^
^-'p" =p {y°sa ! ^, X°}^^ a -X° ^
a
^
es también suprayectivá, Qor lo que puede deducirse dei resuitado anterior una
estirnación bptima del X°^, que coincide con la expresión [15].
Por último, si el suceso en estudio fuese de ta forma [c < Y° < d], un trabajo
análogo at anterior perrnite obtener la estimación óptirt^a de ta probabilidad de
dicho suceso, p ^ p(c < Y° < d ^^, X°), que ahora seria
~ = p ^ c ^X°^ < N (o, 1) < ^ d -X°^
p
Q
Q
^
^_
_^(,r- d- x ^^ ^-^(,r ^- x^s ^
a
^
a
No existe ahora una relación entre esta estimacíón y la clásíca, pudíendo encontrarse una cuatquiera de ambas por debajo de la otra.
En este caso, la ^minimización del riesgo en p no equivale, en principio, a
la minimización en ^. Nótese que los valores posibles de p son un subintervalo contenido estrictamente en el (0, 1) (de hecho, se trata del subintervalo
(o, p
_
c
2a
< N{0, ^)^
d- c
2a
), por lo que parecería necesario reatizar
una minimización con restricciones.
^
Ahora bien, como el óptimo en p no restringido, p, es la esperanza a posteriorí
^
p=ECP tc<Y°<d ^^ ,X°)^y,X]
verifica 1as restricciones, por lo que es también el óptimo restringido.
PREDICCIUNES BAYESIANAS DE PROBABILIDAD EN PRESENCIA DE UMBRALES
Ejemplo 1.
83
Consideremos el rnodelo más sencillo,
que, en expresión matricial, podemos escribir como Y= X ^+ E, donde
Y = (y^, ..., y T)' ,
E _ (^^, ..., ET)' ,
X=(1,...,1)'=1,
X°=1
con E --^ N (o, a2 I) e independiente de ^. La endógena en el periodo de predicción es, para este modelo, Y° _^+ E°. Sea a un umbral; se trataría de obtener
la predicción de la probabilidad de que Y° io rebase.
Supongamos una distribución neutral a priori para ^,
T
En este caso, X°(X' X )-' X°' _^ y, por tanto, e=
T
T+1
Además, como es conocido,
x°^=^-Y
donde y=
1
T
•^ r s 1 y t, es decir, la media muestral.
En definitiva, la probabilidad óptima sería
P=1-^^1
T+1
a-yl
a
y el estimador óptimo de ^ resultaría
^ = a • ^1 - I
T + 1 ^ + 1 T + 1
La probabilidad clásica es, en este caso,
P=1-^^aQy)
ESTAI^ISTICA ESPAÑOLA
Como puede verse, la diferencia entre ambas estimaciones de probabilidad,
y entre ambas estimaciones de ^, dependen de e, que, en este caso, depende
únicamente del tamaño de !a rnuestra. Así, si T= 1, e toma su menor valor,
e= 1, lueg© podemos afirmar que, en general, e z 0.5, con !o cual su raíz
2
cuadrada como mínimo valdrá 0 5= 0.707, es decir, ^ue ^ pondera en la
combinación lineal convexa, como mínimo, un 70% de Y y, como máximo, un
30% del umbral, para obtener el predictor bayesiano.
Es por esto !a justificación de la fuerte tendencia a aproximarse ambas soluciones ^ y^ en este caso particular.
En concreto, para T= 20, ^= 0.9759. Esto es, el predictor bayesiano incorpora, aproximadamente, un 97.6% del predictor MCO y un 2.4% del umbral.
3.
CASO EN QUE LA VARIANZA DE LA PERTURBACION
SEA DESCONOCIDA
En este apartado estudiaremos la estimación óptima de la probabilidad de
superar un umbral a, por parte de la variable endágena en un MLC, pero suponiendo ahora desconocida y aleatoria !a varianza, Q 2, de las perturbaciones.
Supondremos, además, que la matriz E de perturbaciones es índependente
de ^ y de Q, que son a su vez independientes a priori, y que la distribución a
priori sobre ambos parámetros es la no informativa en e! sentido de Jeffreys,
p (^^ Q) a ^
a
[ 17]
Como es conocido [véase, por ejemplo, Zeilner (1973), págs. 66 y 67], dados
Ios datos, la distribución a posteriori de (^, Q) cumple que la condicionada de ^
por a y los datos es
n
(^Ia^Y,X)--^N (^^a2(X'X}-')
[18]
y la marginal de a,
(aly,x)--^i,
T--k
T-k
s2
2
,
2
[1 g]
donde con / G denotamos la distribución gamma invertida, y s 2 es el estimador
PREDICCI(7NES BAYESIANAS DE PROBABILIDAD EN PRESENCIA DE UMBRALES
85
insesgado de a2 utilizado habitualmente en relación con la estimacián I^IICO,
esto es,
S 2 _ {Y - X ^ )' {Y - X R )
T-k
Dicho de otro modo, Ilamando ^ a la precisión, z= 1,
la distribucián a paste2
riori de (^i, ^) es la denominada normal-gamma.
^
Sea (^, á 2} una elección de (^, a 2). Consideraremos, nuevamente, la función
de riesgo asociada a una pérdida cuadrática, que ahora será
^ _
F(^^U2)
fo[P^,a2- P^,Q2]2'l^ (^^a^Y,X}d ^da2
[20]
donde D= I^. k x I^ + es el campo de variación de los parámetros, y donde la
probabilidad, p^ Q2 , que aparece en la función integrando representa la probabilidad de superación del umbral por la variable endógena en el periodo de prediccián para valores genéricos de los parámetros,
p^,az=p ( Y°za ^^,a,y,X}
^
y p^ ^a tiene análoga interpretación para una especificación, (^, á 2), de los mismos.
^
" en ( 0, 1), podemos plantearnos miComo, al variar (^, Q2) en D, p^ Q2 varia
nimizar en p dicho riesgo, donde p= p^, ^2 .
La solución óptima consiste en tomar p igual a la esperanza de p^ a2 a posteriori, dados los datos, esto es,
^
p =E (p^^21Y^X)=E [p {Y°aa ( ^^a^X°)IY^X]=
=p [Y°z a I X°,Y^ X]
[21 l
Obtengamos la distribucián de Y° dados los datos. La expresión [18] nos
proporciona
n
(Y°I Q,Y^X^X°)^N (X°^^
Q2
e
)
[22]
que conjuntamente con la expresión [19] indica que la distribución conjunta de
( Y°, a ^ y, X, X°) es normal-I G[esto es, una normal-gamma en ( Y°, z), donde
^= Q2],
1 con arámetros
P
T- k
2
Y
z
T- k s2
P ara la 9amma Y X° n^Y ^e P ara
2
ESTADISTICA ESPAIVOI,.A
86
la normal. Entonces [véase, por ejernplo, Broerneling {1985), págs. 66 y 67], ia
distribución marginal de Y°, dados y, X y X °, resulta ser una t de Student,
2
con T-- k grados de libertad, moda X° ^, y escala
probabilidad óptima estimada resulta
^
o
°
p =p ^Y aa ^X ,y,X]=p
e. En consecuencia, la
tT_kafe
a _X°^
s
[23]
4bsbrvese que, en este caso, no se obtiene una predicción óptima de la esperanza X° ^3, sino una cierta «tipificación» de la diferencia entre ella y el umbral.
Comparemos esta solución óptima obtenida con la clásica. En esta última,
^
se estimaría ^ por MC^, ^_(X' X)!' X'y, y á 2 = s 2 es el valor del estimador
insesgado clásico de a2 obtenido a partir de los residuos mínimo cuadráticos.
La probabiiidad de superación del umbral sería
^^ = P ^ Y°za I^,
R ^r,X°]= P
P^,o2
0
N (o,1)z
^
a ^X--^
s
(24]
La diferencia entre ambas probabilidades vale
p^ 0 2-- p "^ 2= Ft v^e
^•
^
a -X°^
s
- ci^
a -X°^
s
[25]
^
En ambas, al umbral, a, se le somete al mismo «cambio de origen», Xo ^,
pero el «cambio de escala» es distinto, s en el primer caso y s en el segundo.
^
Por otra parte, y debido a que e es un númera menor que la unidad, se tiene
siempre que s> s, con lo que podemos, al igual que en e! caso en el que la
^
varianza
es conocida (v^ase el apartado anterior), comparar las probabilidades
^
p y p^,Q2, dependiendo de si el umbral (que viene dado) supera, o no, la predic^
^
o ^^ , se tiene que a -X°^ < a -X°^ .
Así
,
a
>
X
ción mínimo cuadrática
.
si
^
^^o 2< P < 0.5.
con loque P ^,
s/ ^
s
Por el contrario, si a < X° ^ se tendrá que 0.5 < p < p^ á2 , por motivos análogos a los reseñados en el párrafo anterior.
PREDICCIUNES BAYES[ANAS DE F'ROBABILIDAD EN PRESENCIA DE UMBRALES
$7
La diferencia entre ambas probabilidades estimadas reside ahora en dos
hechos:
a)
En primer lugar, una dispersión extra de la estimación bayesiana dada
2
por
S
e
- s 2= s 2 X°{X ' X)-' X°', que es !a varianza estimada de
X° ^ dados los datos y proviene de la naturaleza aleatoria de ^.
b)
En segundo lugar, la distribución marginal de Y° es una t de Student y
no una normal, debido a la aleatoriedad supuesta para a 2.
.
,
Ambos factores actuan en el rnismo sentldo. Asi, si
p
N(0, 1) z
a -X°^
s
a --X°^
es posit^vo,
s
s p N (0, 1) z^%e
0
sp t_
k
T a1^e
a -X°^
s
^
a ~x
^
S
s0.5
[ 26 ^
La prirr^era desigualdad proviene de que 0 c^< 1, es decir, es una consecuencia del primero de Ios factores, y la segunda se deduce del hecho conocido
[véase, por ejemplo, Sanz (1994), pág. 105] que garantiza que la función de distribución de la N (0, 1) es superior a la de la t de Student para valores positivos
(e inferior para los negativos). Es, por tanto, una consecuencia del segundo de
los factares anteriores. En definitiva, si p^ ^2 < 0.5, entonces p^ ^2 < p< 0.5.
N
N
De la misma forma se comprueba que si p^ Q2 > 0.5, entonces 0.5 < p< p^, á2 .
Para tamaños muestrales grandes debe esperarse que las diferencias entre
ambas probabilidades se reduzcan; por un lado, las diferencias entre !as funciones de distribución normal y de Student son despreciables para más de 30 grados de libertad, y por otro, como vimos en [16], ^e tiende a la unidad cuando T
tiende a infinito. De hecho, es un principio general del análisis bayesiano que,
para muestras grandes, la información a priori es irrelevante en relación con la
que suministra la verosimilitud.
Conocida la distribución marginal de Y°, dados y, X y X°, se obtienen también sin dificultad estimaciones óptimas de las probabilidades
P^ = p[Y° s a I^^ al
0
p2=p [c sY°sd ^^,a]
xx
FS^T^AUIS'^T1C`A F^.SPANOL_A
resultando como soluciones
^
p2-p
^
c --X°^
s
str-ks^
d ^X°^
s
Sus relaciones con las estimaciones clásicas correspondientes
se obtienen
^
de forma análoga a la que acabamos de describir para p.
4.
APROXIMACION DE LOS PREDICTORES MAXIMO VEROSIMIL
Y BAYESIANO CUANDO LA VARIANZA DE LA PERTURBACION
ES CONOCIDA Y EL MODELO TIENE TERMINO CONSTANTE
^
En el apartado segundo hemos estudiado ía estimación óptima, p, de la probabilidad de que !a variable endógena de un MLG rebase un umbral cuando la
varianza de la perturbación es conocida. Como hemos visto, esta estimación difiere de la mínimo cuadrática en virtud de !a diferencia entre las distribuciones
predictivas empleadas en cada caso.
Resulta entonces natural estudiar el tamaño de las discrepancias entre ambas estirnaciones de la probabilidad, discrepancias que tendrían que ver, como
antes dijimos, con el íncremento de la incertidumbre asociada a la estimación de
X° ^, esto es, con a^ X°(X' X)-' X°'.
^C^tro enfoque del problema consiste en recordar que la estimación óptima de
p, p, puede verse cvmo la probabilidad de superar el umbral cuando la espe^
ranza de Y°, X° ^3, se obtiene mediante una estimación óptima suya, X° ^i, de
acuerdo con 1a expresión [15]. Este planteamiento traslada la comparación de la
dispersión de probabilidades normales a la de sus esperanzas, con un enfoque
más evidente.
^
De acuerdo con esta idea, nos plantearíamos evaluar la diferencia entre X° ^i
y X° ^. Pero
IX°^-x°^1=(^-^)•la-X°^I
[27]
por lo que, si a = X° ^[es decir, si (X°, a) está en la recta de regresión mínimo
cuadráticaj, ambas estimaciones de la esperanza
coinciden y, por tanto, lo ha^
rán las dos probabiiidades estimadas, p= p^ (este último resultado se podría
PREDIC_'CInIYES BAYESIANAS DE PROBABti..IDAD EN PRESEIV(^EA DE UMIBRALES
$^
deducir directamente de las desigualdades [13], y del hecho de que, en ese
caso, p ^ = 0. 5 } .
^
Si a ^ X° ^, la diferencia entre ambos estimadores de la esperanza puede
evaluarse también en términos de su distancia relativa,
1 - ^e =
f X° ^-X° ^ I
!a-X°^I
En definitiva, ambos enfoques conducen a una idea común. En el primero,
cuanto mayor sea la forma cuadrática X°(X' X)^ ^ X°', mayor incertidumbre introduce en la estimación de X° ^, por lo que las dos probabilidades estimadas
serían más diferentes. En el segundo, el incremento de dicha forma cuadrática
se traduce en una disminución de e, y, por tanto, en un incremento de la diferencia relativa entre ambas esperanzas estimadas (que a su vez hace más diferentes las probabilidades estimadas}.
^De qué depende el valor de la forma cuadrática? En primer lugar, de la información muestral, esto es, de la matriz (X' X)-' . En particular, obsérvese que
el incrernento del tamaño de la muestra, como antes dijimos, disminuye su valor, ya que Iim T^^ X°(X' X}-' X°' = 0.
Además, depende de X°, esto es, de los valores de las variables predeterminadas. Veamos la siguiente proposición.
Proposición 4.1
Sea el modelo [1 ] con término constante. La mínima distancia relativa entre
los predictores bayesiano
y máximo verosímil, X° ^ y X° ^i, y, por tanto, ia míni^
ma distancia entre p y p^ , dados a, y y X, se obtiene para
X° _ (1 j x2 , ..., Xk )
donde x; es la media aritmética de los valores de X; . Además, el m í nimo de dicha distancia relativa entre los predictores va(e
min(1-^)=1-^
Xo
T+1
[29]
90
ESTADISTICA ESPAÑOLA
Demostración: Sea X la matriz T x k de valores de las variables exógenas.
Escribamos X=(1 ^ Z), donde 1 es la matriz columna formada por T valores
iguales a la unidad. Entonces
^[I + 1' Z(Z' M Z)-^ Z^ 1
1
.,^
^]_ 1 ^^ Z(Z ^ M1 Z}-^
T
T
{ x' x )-1 l Z'MZ
1
--Z'M,Z-'Z'1
1T
1
(
}
conM1=/-
1 ^1' .Pero
T
Z'M Z=Z'Z'
^ Z'11'Z =Z'Z-Tz' z
T
donde i es la matriz (fila) de medias muestrales de Z, z= ^' z
En consecuencia, Z' M^ Z= T Cov ( Z ), donde Cov (Z ) es ia matriz de covarianzas muestrales de las variables de Z, lo que permite escribir !a inversa
(X' X )-' como
^ [I + z (Cov (Z ))a' z '] - 1 z (Cov (Z ))-
(x' x}-' _
1
Z ))
^ ^ -^
Z
-' z
^ COV ^(Z
(Cov
1
1
T
{Cov (Z })-'
y si premultiplicarnos por X° _(1 ^ x° ) y postmultiplicamos por su traspuesta obtenemos
X ° (X' X )- 1 X °' _ ^ + 1 (x° - z ) (Cov (Z ))-' (x° - z )'
T
T
EI mínimo de dicha forma cuadrática se obtiene, en consecuencia, para x° = z,
y sólo para ese valor, ya que la matriz (Cov (Z ))^' es definida positiva. EI minimo resulta, además, igual a 1, y de la expresión [9], ei máximo valor de e es
T
T
1
1
e -
1+
.
-
T+1
T
{c.q.d.}
PREDICCIUNES BAYESIANAS DE PRUBABILIDAD EN PRESENCIA DE UMBRALES
9I
Este resultado admite una interpretación geomótrica. Transformemos el modelo [1 ^ original, sustituyendo las variables prapiamente explicativas (todas menos el término constante) por sus componentes principales, y reparametricemos
el modelo. Sea A' la matriz de vectores propios de ^C'ov (Z ), es decir,
A • Cov (Z ) • A' = diag (^.^,
-^ ^k -,}
reordenados de forma que ^.^ ^ . . . z ^.k _ , .
Transformemos las variables explicativas centradas mediante A' en sus componentes principales, U=(Z - 1 z } A'. Podemos entonces jsiendo ^_^ _(^^,
^k }' ] transformar el modelo,
Y=1 ^^+Z^_^+^=1 S^+Uá_^+^
donde 81 =^^ + z^_1 y 8_, = A ^_1 , ya que Z= 1 z+ U A.
Entonces, para el modelo transformado, si Ilamamos U° _(1, u° ) la matriz
fila de valores de las variables predeterminadas en el periodo de predicción, la
medida de la incertidumbre vendrá ahora dada por la forma cuadrática
(1, u°)
1'
U,
T -1
1
u°.
0
0'
T-' diag (
^
1^^
i
, •-•:
^
^k - ,
I
u
o^
resultando
1'
(> > ^°)
V,
^
i^'
1
T
1
7
u ° • diag^ 1 , . . . , ^
^1
^ • u ° ' [30]
^k -1
Como ya sabíamos, el mínimo se obtiene para u° = 0, pero el resultado [30]
nos permite interpretar para qué valores de u° se obtendr^n pequeños valores
de la forma cuadr^tica. Para ^ u° ^ fijo, por ejemplo, igual a la unidad, el menor
, esto es,
valor se obtienepara U° = ( 1, 0, ...,} 0,
y a
q ue^. ^ s ^.^ s... s ^. 1
1
k _,
2
en la dirección de la primera componente principal. EI valor de la forma cuadrática, en esta situación, será tanto menor cuanto mayor sea ^., , es decir, cuanta
mayor variabilidad de X2 , ..., Xk recoja la primera componente principal.
92
5,
ESTADISTICA F:tiF^ANt)LA
UNA APLICACION A LA PREDICCION DEL GASTO TURISTICO
Por encarga del Gobierno autónomo balear se elabora anualmente la «Encuesta sobre el Gasto Turístico» en las Islas Baleares. Dicha encuesta, proviniente de un muestreo por conglomerados según la importancia de cada nacionalidad y de cada isla en la actividad turística, proporciona un conocimiento detallado sobre el gasto de los turistas que visítan el archipiélago, apareciendo
dich0 gast0 dividido en diferentes partidas y diferenciando, asimismo, el gasto
en e! país de origen y el gasto efectuado propiamente en las islas, La encuesta
también proporciona otros aspectos relevantes de este colectivo de visitantes
(características generales de los individuas y de la visita, grado de satisfacción} que, en conjunto, !a convierten en un material estadístico de enorme impor^tancia para el conocimiento y la determinación de las características básicas de la demanda turística hacia Baleares. Se pretende, por parte de dicho
Gobierno autánomo, estudiar la probabilidad de retorno, esto es, de volver a visitar la isla (2).
Nuestro objetivo no es estudiar la probabilidad de retorno a las islas, sino
evaluar fas probabilidades con que distintos grupos de individuos son gastadores, cansiderando gastadores a los que gastan, por persona y día, más que la
media. Como aproximación de esta media (desconocida) utilizaremos la media
muestral que, dado ei tamaño de la muestra, puede considerarse una es#imación aceptable. Esta media muestral será considerada como el umbral a efectos
de nuestro trabajo. Trabajaremos con la encuesta realizada en 1992 y efectuaremos los cálculos para el gasto en las islas, ISLAS, según que supere, o no, en
cada grupo el gasto medio correspondiente para el conjunto de la población encuestada. Esto es, para el año 1992, de 3.809 pesetas por persona y día (3}.
La varianza es desconocida, por lo cual deberíamos utilizar el procedimiento
desarrollado en el tercer apartado (ecuación [23]). No obstante, dado el tamaño
de la muestra (4.345 individuos) y dado que una distribución t„ es casr una normal estándar en cuanto los grados de libertad superan !a treintena, la probabilidad será, en la práctica, la misma que la obtenida en el caso de varianza conocida y que recoge la ecuación [y 0]. Esta aceptación del conocimiento para Q2
nos permite identificar el predictor {ecuación [15]), con lo cual podrán hacerse
comparaciones no sólo entre las probabilidades, sino entre las predicciones del
gasto.
(2)
Puede verse, en este sentido, Juaneda t 1993).
(3)
Evidentemente, puede elevarse la categoría de los gastadores a los que gastan, por ejemplo, al menos lo que el 75% de los individuos, esto es, el umbral será el tercer cuartil, 4.522 pesetas por persona y dfa; o bien, plantearnos la probabilidad de que los gastos en las islas superen
las 10.000 pesetas o cualquier otro umbral deseable.
En un trabajo anterior [véase Sanz ( 1994), págs. 187-219j se reaiiza este estudio de forma más
completa, y se amplía el análisis a los gastos en origen y al gasto total.
PREUICC'IC)NT^S BAYESIANAS UE PRC)BABILIUAD FN PRESENC.'lA UE l'MBRALES
y^
La encuesta considera 11 factores, conteniendo cada factar varias madalidades. Para cada modalidad tendremos una variable dicotómica que la describe y
que vale la unidad en la modalidad pedida y cero en el resto; los 11 factores
considerados (con mayúsculas se indica cómo denominaremas a las variables
exógenas pasteriormente) se recogen en el anexo 1.
Además de estos 1 1 factores, la encuesta proporciona el gasto turístico pagado en el país de origen, ORI, y el efectuado durante su estancia en las islas,
ISLAS, para cada encuestado. Su suma, TOTA^, es el gasto turístico totaf. Todos estos gastos aparecen medidos en pesetas por persona y día.
Juaneda (1993) plantea varios modelos de regresión con las anteriores variables independientes, actuando coma dependiente ORI, ISLAS o TOTAL. Para
estos análisis considera un grupo de referencia (el grupo más frecuente dentro
de su categoría), en relación con el cual interpretar y comparar los parámetros
de cada modela. Este está formado por /os a/emanes, menores de 30 años, de
profesión emp/eados, que se a/ojan en un hote/ de la zona 6(costa de Levante),
que trajeron pagado sólo transpvrte y habitación, que es su primera visita y,
además, que opinan del precio que es caro, con una buena impresión sobre el
via^e.
La necesidad teórica de la introducción de dicho grupo de referencia es evidente, pues con él evitamos la existencia de multicolinealidad perfecta al suprimir la variable dicotómica correspondiente a una de las rnodalidades de cada
factor.
Nuestro objetivo es estimar la probabilidad de superación de un umbral,
siendo éste el gasto medio muestral en las islas. Nuestras predicciones evalúan
el gasto por persona y día de un individuo con ciertas características. Juaneda
(1993), en el estudio de las probabilidades de retarno a las islas, se centra en
ciertos grupos de turistas (328 grupos); nosotros, en este trabajo, nos ocuparemos, para el análisis predictivo, de 80 de ellos que recogemos en el anexo 2,
correspondiéndose con las descripciones que se encuentran a su derecha; así,
por ejemplo, el grupo número 9 tratará del grupo de turistas británicos, menores
de 30 años y que se han alojado en la zona 8.
De este modo, tendrernos una matriz de dirnensión 80 x 37, que contendrá
las variables exógenas en el período de predicción y cuya construcción, para
cada fila (centrémonos, por concretar el comentario, en la fila número 9), es la
siguiente: para !os factores que caracterizan al grupo, un 1 en la columna correspondiente a la modalidad que aparece y ceros para los restantes (es decir,
un 1 en británico y un 0 en el resto de nacionalidades, un 1 en ED030 y 0 en el
resto de los grupos de edad y un 1 en Zana 8 y un 0 en el resto de las zonas).
Para los otros factores (esto es, para las variables dicotómicas correspondientes a Profesión, tipo de alojamiento, opinión sobre el viaje, impresión de su es-
94
FSTADISTICA ESPAfVOL.A
tancia y número de veces que ha visitado la isla) tomaremos los valores rnedios
de las modalidades, es decir, la frecuencia con la que se presenta la modalidad
correspondiente (nótese que ello es razonable pues tratamos de predecir la probabilidad de superación del gasto media por el gasto efectuado en las islas).
Esta matriz, por tanto, contendré los valores de las variables exógenas en
los períodos considerados de predicción, esto es, !os 80 grupos reseñados.
Para cada uno de ellos, calcularemos (4) las probabílidades p^ y p^, que se recogen en la tabla 1. Esta, muestra, para cuatro nacionalidades (alemana, británica, española
^ e italiana} y para los distintos grupos de edad, su probabílidad
(bayesiana, p, y mínimo cuadrática, p) de que ei gasto turístico rebase el gasto
medio, efectuado el estudio en cinco zonas de las islas. Se presentan, asimismo, los errores estándar de la estimación de ambas probabifidades. Para p se
utiliza el método s[véase, por ejemplo, Rao (1973}, pégs. 385-389j, que condu0 ^
ce a un error estándar
(
)
X ° X' X^' X°' •
^(
,^
a- x ^
), q ue denominaremos
ep en la tabla 1, y para el bayesiana se utiliza ia desviación típica a posteriori
de p^ , obtenida mediante una simulación de Montecarlo de la distribución a
posteriori de R. Este error estimado del estimador bayesiano aparece con la notación ep en la tabla 1.
Puede apreciarse que ambas probabilidades son muy similares y sus errores
estándar indican que, estadísticamente, no hay diferencias significativas entre
ellas. Esto es debído a la conjunción de tres factores: en primer lugar, al ser el
umbral la med'+a observada del gasto por persona y día, la predicción mínimo
cuadrática estará, usualmente, cerca del umbral; en segundo lugar, al ser p y p
valores de una misma distribución (una normal estándar), sus diferencias dependerán del valor para el que se calculan y, por tanto, de e, pero al tomarse
los valores de las variables que no intervienen en la caracterizacíón del individuo iguales a sus valores medios, esto hace que e esté próximo a la unidad,
por lo que ambas probabilidades son muy similares; por último, en tercer lugar,
el elevado tamaño de la muestra (4.345 individuos}.
^
Por otra parte, como indicamos en e! apartado 2, la predicción bayesiana, p,
se encuentra entre la mínimo cuadrática, p, y 0.5, y se comprueba que, en efecto, la predicción de la probabilidad para el predictor mí nimo cuadrático se aleja
más de 0.5 que la bayesiana obtenida.
E1 objetivo de este apartado es mostrar la viabilidad de nuestra técnica desde el punto de vista de su implementación, por lo que no nos detendremos en
camentar los resultados de las tablas. Puede observarse, no obstante, que son
los italianos los que tíenen las mayores probabilídades de superación del gasto
(4)
Los cálculos se realizaron utilizando el programa TSP 4.2A.
PREDICC[C)NES BAYESIANAS DE PROBABiL1DAU EN PRESENC[A DE UMBRALES
gS
Tabla 1
PROBABILIDADES DE QUE EL GASTO EN LAS ISLAS SUPERE
EL GASTO MEDIO ( POR PERSONA Y DIA) Y ERR^ORES ESTANDAR
^
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
^
^
P
eP
p
e`p
0.65943
0.51561
0.54097
0.53495
0.55179
0.61035
0.46353
0.48891
0.48287
0.49980
0.71887
0.58227
0.60698
0.60114
0.61744
0.041076
0.018289
0.026635
0.026927
0.65849
0.5 i 559
0.54088
0.53487
0.55172
0.60971
0.46357
0.48893
0.042283
0.018971
0.025553
0.025691
0.020024
0.043261
0.019689
0.025262
0.023622
0.020029
0.79662
0.67647
0.69902
0.69372
0.70846
0.58866
0.44130
0.46656
0.46054
0.47743
0.53722
0.39037
0.41504
0.40914
0.42572
0.65272
0.50834
0.53373
0.52770
0.54457
0.73982
0.60682
0.63110
0.62537
0.64136
0.020403
0.041844
0.019076
0.026783
0.024911
0.018948
0.037823
0.029426
0.029752
0.032222
0.027351
0.036596
0.032709
0.036205
0.034512
0.030673
0.043238
0.017492
0.026549
0.026395
0.020228
0.48290
0.49980
0.71765
0.58204
0.60667
0.60080
0.61715
0.79467
0.67579
0.69804
0.69287
0.70771
0.58813
0.44136
0.46663
0.46062
0.47746
0.042684
0.017218
0.025604
0.023260
0.017626
0.040950
0.029464
0.03042$
0.032609
0.027962
0.53700
0.39048
0.41522
0.40930
0.42579
0.041899
0.034985
0.039368
0.73810
0.60639
0.63042
0.62479
0.64082
0.037196
0.033491
0.65184
0.50832
0.53363
0.52761
0.54446
0.037395
0.029050
0.030603
0.031246
0.026372
0.038000
0.031977
0.035067
0.036551
0.031663
0.043336
0.017227
0.025402
0.024298
0.019318
0.043104
0.017317
0.024267
0.021293
0.018592
0.039000
0.028196
0.031047
0.030746
0.026266
0.042102
0.033338
0.037801
0.038640
0.033919
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
e^
^
8P
0.62938
0.48343
0.50885
0.50280
0.51974
0.042993
0.020043
0.028048
0.028166
0.022210
0.042924
0.019555
0.0271$1
0.62858
0.48345
0.50883
0.50280
0.51971
0.57861
0.43171
0.45690
0.45089
0.044796
0.020488
0.027738
0.026788
0.022929
0.044301
0.018437
0.025268
0.022415
0.020438
0.039171
0.028600
0.031171
0.030961
0.027070
0.041006
0.033243
0.037190
0.038151
0.033829
0.054013
0.037891
0.042435
0.042530
0.040141
0.054485
0.036437
0.57907
0.43162
0.45680
0.45079
0.46765
66
67
0.69103
0.55054
0.57564
0.56970
0.58631
0.77304
0.64697
0.67035
0.66485
0.68018
0.64311
0.49801
0.52343
0.51739
0.53429
0.59332
0.44604
68
69
70
71
0.47133
0.46530
0.48221
0.70380
72
0.56498
0.58992
0.58402
0.60050
0.78392
58
59
60
61
62
63
64
65
73
74
75
76
77
^
p
78
0.66046
0.68348
79
80
0.67807
0.69314
0.025183
0.019675
0.040102
0.030872
0.031363
0.033662
0.029068
0.039667
0.035030
0.038695
0.036874
0.033178
0.051789
0.038291
0.043335
0.042359
0.039238
0.052437
0.037608
0.042643
0.040237
0.037767
0.047882
0.044310
0.044675
0.045412
0.042497
0.045185
0.045884
0.04$346
0.046297
0.043551
0.46769
0.68991
0.55039
0.57540
0.56944
0.58608
0.77111
0.64635
0.66944
0.66406
0.67946
0.64181
0.49802
0.52329
0.51729
0.53413
0.59250
0.44629
0.47149
0.46548
0.48229
0.70205
0.56457
0.58934
0.58346
0.59991
0.78122
0.65928
0.68193
0.67670
0.69179
0.040783
0.039738
0.038742
0.046802
0.040094
0.041886
0.042457
0.039667
0.047899
0.045732
0.047855
0.049263
0.045754
9fi
ESTADISTCCa FSPaNC)!_A
medio, encontrándose en el polo opuesto los británicos. Asimismo, las categorías correspondientes al grupo de edad más joven, ED030, tienen mayor probabilidad de superar el gasto medio que las categorías que contienen a otro grupo
de edad.
Los autores han efectuado este mismo estudio para los gastos en origen y
para el gasto total, determinando las probabilidades de superar su gasto medio
correspondiente (5.370 y 9.179 pesetas, respectivamente, por persona y d í a},
así como los correspondientes errores estándar en cada caso. No se acompahan para no abultar el trabajo en demasía.
fi.
CONCLUSIONES
En este trabajo se estudia, bajo una óptica bayesiana, la predicción de la
probabilidad de que la variable endógena de un MLC rebase un umbral. Hemos
mejorado el resultado dado por Rajo y Martín ( i 988), simplificando notablemente la obtención de la predicción óptima de la probabilidad de superación del umbrai, y obteniendo una expresión explícita del predictor cuando la varianza de
ias perturbaciones es conocida (resulta ser una combinación lineal convexa del
predictor MCO y del umbral}.
Cuando la varianza de las perturbaciones es desconocida, hemos obtenido
una predicción óptima de la probabifidad buscada, pero el predictor no resulta
identificable.
Hemos estudiado, también, tanto la diferencia entre las estimacio^nes bayesiana y clásica de superación del umbral, como la existente entre los predictores
de la variable endógena asociados a ambas técnicas. EI objetivo consistía en localizar situaciones en las que ambos sean similares, con lo que la complicación
que supone nuestra técnica no se vería compensada por una mejora apreciable
de los resultados. Hemos demostrado que la distancia relativa entre ambos predictores se hace mínima cuando las variables exógenas en el período de predicción toman sus valores medios correspondientes al período muestral. Evaiuamos también de qué dependen sus diferencias cuando no nos encantramos en
el mínimo.
Finalmente, se aplican los resultados obtenidos para estimar la probabilidad
de que los turistas qúe arriban al archipiélago balear gasten más que la media;
ello permite evaluar qué grupos de turistas son más o menos gastadores. Los
resultados no son muy diferentes a los obtenidos por MCO, y los errores estándar indican la no existencia de diferencias significativas, debido a la naturaleza
del problema y al tamaño de la muestra. En cualquier casa, permite ilustrar la
técnica empleada, y mostrar su factibilidad en las aplicaciones prácticas.
PREDICC'IONES BAYESIANAS DE PRC)BAB[L1DAD EN PRESENC[A DE t_lMBRALES
97
Anexo 1
Nacionalidad:
• ALEMANA: de nacionalidad alemana.
• BRITAN: de nacionalidad brit^nica.
•
•
•
•
•
ESPA: de nacionalidad española.
FRANBE: de nacionalidad francesa o belga.
NORDICS: de nacionalidad holandesa, danesa, noruega o sueca.
ITA^IA: de nacianalidad italiana.
OTRAS: resto de nacionalidades.
Edad:
•
•
•
•
ED030: población de edad menor que 30 años.
ED3045: población de edad entre 30 y 45 años.
ED4560: pobiación de edad entre 45 y 60 años.
ED6090: población de edad mayor que 60 años.
Profesián:
• PFLIB: Profesión liberal.
•
•
•
•
•
•
TSUPGE: Técnico superior, jefe de empresa, gerente.
INTFUN: Cuadro intermedio, funcionario.
EMPL: Empleados.
OBR:Obreros.
JUBI: Jubilados.
ESTU: Estudiantes.
Lugar de alojamiento dei turista:
• HOTEL: se alo^jó en hotel.
• APAR: se alo^o en apartamento.
• CHAL: se alojó en chalet.
• AMIOTR: se alojó con amigos y familiares.
Zona en que se alojan. Para ello, se dividió el archipiélago en nueve zonas.
• ZONA1: los que se alojaron en la zona 1.
• ZONA2: los que se alo^aron en la zona 2.
• ZONA3: los que se alo^aron en la zona 3.
• ZONAS: los que se alojaron en la zona 4 y 5.
• ZONA6: los que se alojaron en la zona 6.
• ZONA7: los que se alojaron en la zona 7.
• ZONA8: los que se alojaron en la zona 8.
• ZONA9: los que se alojaron en la zona 9.
Lo que ha pagado el turista en origen i ncluye:
• TRA: Sólo el transporte.
• TRAHAD: En esta modalidad se incluyen los que han pagado el transporte y habitación, asi como los que han pagado e! transporte, habitac[bn y desayuno.
• TRAHAMP: Transporte, habitación y media pensión.
• TRAHAPC: Transporte, habitación y pensión cornpleta.
EXCUR: si en el precio pagado están incluidas ias excursiones.
Opinián sobre el precio:
• CARO: opinan que el precio es caro o bastante caro.
• NORMAL: opinan que el precio es normal.
• BARATO: opinan que el precio es barato o bastante barato.
Impresión sobre el viaje:
• BUENA: la impresión sobre el viaje ha sido buena.
• MBUENA: la impresión sobre el viaje ha sido muy buena.
• IMNOR: la impresión sobre el viaje ha sido normal.
• MALA: la impresión sobre el viaje ha sido mala.
Número de veces que ha pasado sus vacaciones en las islas:
• VEZ1 : ha pasado sus vacaciones una vez.
• VEZ2: ha pasado sus vacaciones dos veces.
• VEZ3: ha pasado sus vacaciones 3 veces o mós.
S1RET; si piensa volver a pasar sus vacaciones en la isla.
yx
F.STADISTIC: A ESPAÑOLA
Anexo 2
41
ALEMANA=1,
ZONA7=1
42
43
ALEMANA=1, ED4560=1, ZONA6=1
ALEMANA= i, E D4560=1, ZONA7= i
ZONA$=1
44
ALEMANA=1,
ZONA9=1
ZC1NA1=1
ZONA6=1
ZONA7=1
ZONAB=1
ZONA9=1
ZONA1=1
ZONA6=1
45
46
ALEMANA=1, ED4560=1, ZONA9=1
BRITAN=^ ,
ED456o=1, ZONA1=i
1
2
ALEMANA=1, E D030= i,
ALEMANA=1, ED030=1,
ZONA 1=1
ZONA6=1
3
ALEMANA=1, ED030=1,
4
ALEMANA=1, ED030=i ,
ALEMANA=1,
BRITAN=1,
BRITAN=1,
BRITAN=1,
BRITAN=1,
BRITAN=1,
ESPA=1,
ESPA=1,
ED030=i ,
ED030=i ,
ED030=1,
ED030=1,
ED030=1,
ED030=1,
ED030=i,
ED030=1,
13
ESPA=i,
ED030=1,
ZONA7=1
14
15
ESPA=1,
ESPA=1,
ED030= i,
ED030=1,
ZONAS=1
ZONA9=1
16
ITALIA=1,
ED030=1,
ZONA1=i
17
ITALIA=1,
ED030=1,
18
ITALIA=1,
ED030=1,
19
20
ITALIA=1,
ITALIA=1,
ED030=1,
ED030=1,
5
6
7
8
9
10
11
12
ED4560=1, ZONA1=1
ED4560=1, ZONA8=1
47
BRITAN=1,
ED4560=i , ZONA6=1
48
49
50
51
52
BR ITAN=1,
BRITAN=1,
BRITAN=1,
ES PA= i,
ESPA=1,
E D4560=1,
ED4560=1,
ED4560=1,
E D4560=1,
ED4560=1,
53
ESPA=1,
ED4560=1, ZONA7=1
ZONA6=1
54
55
56
57
ESPA= i,
ESPA=1,
ITALIA=1,
ITALIA=1,
E D4560=1,
ED4560=1,
ED4560=1,
ED4560=1,
ZONA7=1
58
ITALIA=1,
ED4560=1, ZONA7=1
ZONA8=1
ZONA9=1
ITALIA=1,
ITALIA=1,
ALEMANA=1,
ALEMANA=1,
ALEMANA=1,
ED4560=1,
E D4560=1,
ED6090=1,
ED6090=1,
ED6090=1,
ED6090=1, ZONA8=1
ZONA7=1
ZONA8=1
ZONA9=1
ZONA 1=1
ZONA6=1
ZONA8=1
ZONA9=1
ZONA1=1
ZONA6=1
ZONA8=1
ZONA9=1
ZONA1=1
ZONA6=1
ZONA7=1
2i
ALEMANA=1, E03045=1,
ZONA1=1
22
23
ALEMANA=1, ED3045=1,
ALEMANA=1, E03045=1,
ZONA6=1
ZONA7
59
60
61
62
63
24
ALEMANA=1, ED3045=1,
ZONA8=1
64
ALEMANA= t,
25
ALEMANA=1, ED3045=1,
ZONA9=1
26
27
BRITAN=1,
B R ITAN=1,
ED3045=1,
E D3045=1,
ZONA1=1
ZONA6= i
65
66
ALEMANA=1, ED6090=1, ZONA9=1
BRITAN=1,
ED6090=1, ZONAi =1
67
BRITAN=1,
ED6090=1, ZONA6=1
28
29
BRITAN=1,
BRITAN=1,
ED3045=1,
ED3045=1,
ZONA7=i
ZONA8=1
30
BRITAN=1,
ED3045=1,
ZONA9=1
31
32
33
34
35
36
37
38
39
40
ESPA=1,
ESPA=1,
ESPA=1,
ESPA=1,
ESPA=1,
ITALIA=1,
ITALIA=1,
ITALIA=1,
ITALIA=1,
ITALIA=i ,
ED3045=1,
ED3045=1,
ED3045=1,
ED3045=1,
ED3045=1,
ED3045=1,
ED3045=1,
ED3045=1,
ED3045=1,
ED3045=1,
ZONA1=1
ZONA6=1
ZONA7=1
ZONA8=1
ZONA9=1
ZONA1=1
ZONA6=1
ZONA7=1
ZONA8=1
ZONA9=1
68
69
70
71
72
73
74
75
76
77
BRITAN=1,
BRITAN=1,
BRITAN=1,
ESPA=1,
ESPA=1,
ESPA=1,
ESPA=1,
ESPA=1,
ITALIA=1,
ITALIA=1,
ED6090=1,
ED6090=i ,
ED6090=1,
ED6090=1,
E D6090=1,
E D6090= i,
E D6090=1,
ED6090=i,
ED6090=1,
ED6090=i,
78
ITALIA=1,
ED6090=i , ZONA7=1
79
80
ITALIA=1,
ITAL IA= i,
ED6090=1, ZONAB=1
E D6090= i, ZONA9=1
ZONA7=1
20NA8=1
ZONA9=1
ZONA1=1
ZONA6=1
ZONA7=1
ZONA8=1
ZONA9=1
ZONA1=1
ZONA6=i
PREDICCIONES BAYESIANAS DE PROBABILIDAU EN PRESENC'IA DE UMBRALES
99
REFERENCIAS
ASHFORD, J. R., y SowDEN, R. R. (1970): «Multivariante Probit Analysis», Biometrics, 26, 535-546.
BROEMELING, L. D. (1985) : Bayesian Ana/ysis of Linear Models, New York: Dekker.
FASE, M. M. G. (1971): «On the estimation of lifetime income», JASA, vol. 66,
366, 686-692.
FERGUSON, T. S. (1967}: Mathematica/ Statistics: a Decision Theoretic Approach,
New York & London: Academic Press.
HECKMAN, J. J., y MACURDY, T. E. {1980): «A Life Cycie Model of Female Labour
Supply», Review of Economic Studies, 47, 47-74.
JUANEDA, C. N. (1993): «Un análisis de la encuesta de gasta turistico ( Comparación temporal 1989-1992)». Trabajo de investigación (no publicado), para el
concurso al Cuerpo de Catedráticos de Universidad.
RAO, C. R. (1965) : Linear Statistical lnference and its Applications, New York:
John Wiley & Sons.
Ro^o GARCíA, J. L. (1987) : Estimación Bayesiana con funciones de pérdida ligadas a /a cola de una distribución. Homenaje a! Profesor G. Arnaiz Vellando,
I N E, 599-610.
(1990): Trabajo de Investigación (no publicado}, para el concursa al Cuerpo
de Catedráticos de Universidad (Area de Economia Aplicada).
Ro^o, J. L., y MARTÍN, I. (1988): «Predicciones de variables endógenas en problemas ligados a la existencia de umbrales», Estadistica Española, INE,
1 16, 45-53.
SAN2, J. A. (1994): «Predicciones bayesianas de probabilidad en presencia de
umbrales en un modelo lineal. Una aplicación a la predicción del gasta turístico». Tesis doctoral, Departamento de Economia Aplicada (Estadística y
Econometría), Universidad de Valladolid.
ZELLNER, A. (1971) : An /ntroduction to Bayesian Inference in Econometrics, New
York: Wiley.
ZELLNER, A.; HONG, C., y MITU GU^ATI, G. (1990): «Turning points in Econamic
Time Series, Loss structure and Bayesian forecasting», en Bayesian and Likelihood Methods in Statistics and Econometrics. Essays in Honor of George
A. Barnard, S, Geisser, J. S. Hodges, S. James Press y A. Zellner (eds.),
Amsterdam: North-Holland, pp. 371-393.
ESTAD[STICA ESPANO[_A
BAYESIAN PREDICTIONS OF PROBABILITIES RELATED
TO TNRESHOi.DS FOR A GENERAL L11`IEAL MODEL
SUMMARY
In this paper we obtain an optimal predictor for the probability of
surpassing a threshold in a General Línear Model (GLM}, applying
Bayes+an Analysis. We explicitly Obtain a pred'+ctor for the endogenous variable when the variance of errors is known and a certain
standardization of it otherwise.
Also the numerical difference between our prediction and the
{^LS one is analyied, and finally, our method is expiained through a
case concerning the tourist trade of the Balearic Islands.
Key Words: Bayesían A^ nalysis, Ecanometrics, Decision Theory.
AMS C/assífication: Primary 62H 12. Secondary 62P20.
Descargar