ESTADiSTICA ESPAÑOLA Vol. 37, Núm. 138, 1995, págs. 75 a 100 Predicciones bayesianas de probabilidad en presencia de umbrales en un modelo lineal (*) por JOSE LUIS ROJO GARCIA Catedrático de Economía Aplicada Facultad de CC.EE. y EE. de Valladolid JOSE ANTONIO SANZ GOMEZ Profesor Titular interino de Economía Aplicada Facultad de CC.EE. y EE. de Valladolid RESUMEN En este trabajo construimos un predictor ó ptimo de la probabilidad de que la variable endógena en un Modeio Lineal Clásico (MLC) rebase un umbral, con técnicas bayesianas. Además, se obtiene de forma explícita una predicción de la variable endógena cuando la varianza de la perturbación es conocida, y una cierta tipificación de la misma cuando ésta es desconocida. Asimismo, si dicha varianza es conocida se estudia la semejanza de la predicción obtenida con la que resulta de la estimación de los parámetros por Mínimos Cuadrados Ordinarios (MCO). Se ilustra finalmente la técnica desarrollada con una aplicación al estudio del turismo balear. Palabras clave: análisis bayesiano, econometría, teoría de la decisión. C/asificación AMS: Principal 62H12. Secundaria 62P20. (') Los autores agradecen las sugerencias de dos evaluadores anónimos que han contribuido a mejorar notablemente este trabajo. ESTAUISTICA E:SPAÑ(7LA 1. INTRODUCClON En el análísis econométrico, en ocasiones, se plantean estudios en fos que están implicados umbra/es, esto es, valores cuya superación por una variable provoca determinados efectos sobre otra u otras variables. EI umbral, por tanto, será un nivel que implicará la presencia, o ausencia, de un suceso en un cíerto período de tiempo. EI problema general parte de que se dispone de una variable económica, Y, para la que se presupone un comportamiento estocástico. Dicha variable tendrá una distribución de probabilidad que dependerá de uno o varios parámetros, F(y; e1, ..., Hk), y su estimación suele ser objeto de estudio. Supondremos que io que proporciona efectos significativos, o al menos lo que tiene un especial interés, es que !a variable Y rebase un umbral a. Puesto que Y es aleatoria, la posibilidad de que supere el umbral viene dada en términos probabilísticos. Nos interesará, por tanto, estimar la probabilidad de que dicha variable rebase, o no, dicho umbral, es decir, estimar P (Yza,Q}, donde Q denota, genéricamente, la familia de parámetros presentes en la distribución de probabilidad de Y. En numerosos trabajos [Heckman y Macurdy {1980), Fase (1971), Ashford y Sowden (1970), por ejempio] puede verse una situación en la que el investigador se propone predecir, no ya los valores futuros de una cierta variable endógena del rnodelo, sino si dicha variable rebasará o no el umbral prefijado. En dichos trabajos, la variable endógena no es observable y, a veces, tampoco se conoce el umbral, imposibilitándose así 1a estimación dei modelo. Los autores realizan entonces la estimación mediante su transformación en modeios de respuesta cualitativa. En otros trabajos [Rojo t1990), Zellner et a1. {1990}, etc.], la variable endógena es observable, pero el objetivo no consiste en predecir sus valores, sino si dicha variable superará, o no, cierto umbral prefijado. Las soluciones clásicas a este problema se engloban, básicamente, en dos, aunque cada una de ellas admite posibilidades muy diferentes: 1. Estimar los parámetros por ciertas técnicas (MC^ u otras) para, posteriormente, estimar o contrastar probabilísticamente la hipótesis de supe- PREDICCIONES BAYESIANAS DE PRC}BABILIDAD EN PRESENCfA UE UMBRALES Í% ración del umbral. Esta opción, bajo las hipótesis adecuadas, usa estimadores eficientes, pero no sensibles a la existencia de umbrales, sino que sólo tienen en cuenta la distancia entre la estimación del parámetro y su «verdadero» valor. 2. Construir una variable dicotómica con valores conocidos para el período muestral, según la variable supere o no el umbral, y sustituir la variable endógena por esa variable dicotómica, con el adecuado carnbio de modelo (logit o probit, usualmente}; pero este método provoca una pérdida de información muestral importante al trabajar con variables de este tipo cuando la variable endógena es observable. En este trabajo se adopta una perspectiva bayesiana, estableciendo una función de pérdida cuadrática. Adicionalmente, se obtienen los valores de los parámetros que minimizan el riesgo esperado a posteriori y se deducen distintas propiedades que relacionan, por un lado, la probabilidad estimada en el trabajo con su estimación clásica y, por otro, la predicción clásica de la variable con !a bayesiana obtenida. En el apartado 2 se obtiene la estimación óptima de la probabilidad y del predictar, cuando la varianza de la perturbación es conocida. En el tercero se amplía el estudio al caso en que dicha varianza es desconocida, obteniendo, asimisrno, la probabilidad óptima, aunque ahora no se obtiene una expresión analitica del predictor de la variable endógena. En el apartado 4 se comparan, cuando la varianza es conocida, y para modelos con términ0 constante, tanto las probabilidades clásica y bayesiana corno los correspondientes predictores obtenidos en el apartado segundo, desde el punto de vista de su proximidad numérica relativa. Finalmente, en el apartado 5 se desarrolla una aplicación de la técnica anterior al estudio de los niveles de gasto de los turistas que visitan el archipiélago balear, aplicación que ilustra la viabilidad de la implementación de la solución obtenida en este trabajo. 2. PLANTEAMIENTO DEL PROBLEMA Consideremos el MLC Y-x^+^ donde • Y es el vector T x 1 de valores de la variable endógena. ^1^ % ^^ E^STAUCSTI('A ESPAÑO[.A • X una matriz T x k no aleatoría de rango k de los valores de las variables exógenas (1 }, de forma que existe el límite , lim r-.^ T - Q siendo C? una matriz finita y no singular. • ^ _ (^^, ..., ^k }' es un vector paramétrico aleatorio. • E es un vector T x 1 de perturbaciones aleatorias, et, con E--^ Nr(o, a2/r) siendo 0 la matriz columna formada por T valores iguales a cero, con E independiente de ^ y a2 conocido (0 < Q2 <^}. Supondremos que ^ tiene una distribución a priori no informativa (esto es, neutral en el sentido de Jeffreys), [2] P (^) ^ K Denotemos por X°_(x °, ..., x k } el vector fila de los valores de las variables exógenas en el período de predicción. EI modelo, entonces, en el períado de prediccíón será Y° = X°^+ :r°, donde se supone que el vector ampiiado de las perturbaciones aleatorias, e={E^, ..., Er, E°}' verifica E -^ Nr +^ (o, a2 I r+ ^}, con E°, asímismo, independiente de ^. Llamemos a a un cierto umbral para la variable endógena del modelo [1 ]. Pretendemos estimar la probabilidad de que la variable endógena en el período de predicción, Y°, rebase el umbral, a, bajo cualquier valor paramétrico ^, esto es, estimar la probabilidad ^ P= P{ Y° z a I R) = ^ Ja ^ 1 a eXP - 2a 2 {Y °- X°^)2 dY ° [8] Consideremos, de acuerdo con Rojo (1987), la función de pérdida cuadrática, L(p , p^) _ [p - p^]2, donde p es una elección de p^. Como es conocido [véase, por ejemplo, Ferguson (1967), pág. 46], el riesgo a posteriori se minimizará estimando p como la esperanza de p^ a posteriori dados los datas, esto es, ^ A =E (P^I Y^x)=E [p {Y°za l ^.x°)) Y^xl [4] Aunque en e! apartado 4 supondremos que la primera columna de X es el vector (^ ) 1=(1, ..., 1}', en los apartados 2 y 3 no se impondrá esta condición. PREDICCIONF,S BAYESIANAS DE PRC)BABILIDAD EN PRESENC[A DE UMBRALES ^y Ahora bien, la definición de densidad predictiva implica que [5] E [P (Y°za I ^^X°)IY,XJ=P (y°za I X°^Y^X) Pero la distribución de Y° condicionada por ^ es (Y°IX°,^.y.X)--N (X°^^Q2) [6] y la de ^ dados los datos . ^ (^Iy^X,X°)--^N (^^^2(X'X)-') [7l Multiplicando ambas densidades e integrando en ^ se obtiene la densidad de Y°, dados los datos, ^ (Y°) X°, y,X)-^ N (X°^,Q2(1 +X°(X'X)-^ X°')) [8] En consecuencia, Ilamando e al escalar e= 1 [9] 1+X°(X'X)-'X°' se obtiene la estimación óptima de p, ^ P=P (Y°^a IX°^y^X)=p ^ _ o^ N(^^1)z^ a x a ^ X 0 ^^ =1-^`^ aa = [10] Comparemos esta solución con la clásica, en la que el parámetro ^ se considera no aleatorio y se estima por MCO. En esta última se estima p por p^, esto es, se asigna a Y° la distribución N(X° ^, Q2); en definitiva, si Ilamamos p= p^ a fa estimación obtenida 0 ^ P =P (Y°za (^,X°,y,X)=1 -^ a -X ^ a [11] FSTAb1STlCA FSPANOL.A Corno de la definición de e se deduce que 0< e< t, entonces, ^ e ^-- a-X°^ < ^ ^ a -- X ° ^ Q [ 12] N y, por tanto, p estará siernpre m^s próxima a 0.5 que p, esto es, se cumple ^ 0. 5< p < p o bien ^ p< p < 0.5 [ 13) según que el umbral sea menor o mayor, respectivamente, que la predicción MCO. Obsérvese que la estimación óptima de la probabilidad puede reinterpretarse en términos de una estimación «óptima» de X°^. En dos trabajos anteriores [véase Rojo y N"lartín (1988) y Sanz (t 994)], se planteaba buscar la estimación óptima de la esperanza de Y°, esto es, de X°^i, que condujera a la probabilidad estimada óptima anterior. La construcción que se hacía en dicho trabajo era directa, minimizando la función de riesgo que^se obtiene a partir de la función de pérdida cuadrática anterior con respecto a R, donde p= p^. Se obtenía, en el ^ último de los dos ^trabajos, no sólo fa probabiiidad estimada anterior, p, sino fa expresión de X°^, dande ^ sería, como hemos indicado, !a estimación óptima de ^ Dicho resultado puede obtenerse ahora como un corolario de la anterior estimacián óptima de p. Así, como la aplicación ^ ^^p^`=P (Y°^a ! ^^x°)=1 --^, a -x°^ ^ ^ es una transformación suprayectiva de I^$ en (o, 1), la minimización de la función de riesgo como función de ^ se obtiene para el valor ta! que ^ ^ o a _Xo^ 1 -- ^ a - X ^ -- 1 - ^ñ ^e a a [14) La ecuación anterior conduce a la solución ^ ^ X° ^--a i1-^^ )+^e X°^ [15^ ó1 PRED[CCIONES BAYESIANAS DE PROBABILIDAD EN PRESENCtA DE UMBRALES Esta expresión tiene^una interpretación analítica. Como puede observarse, la estimación óptima, X ° ^3, de la esperanza X°^, resulta ser una combinacián lineal convexa de la estimación MCO, X°^3, y del umbral a, esto es, un punto en el segmento que une ambas cantidades. En otras palabras, supone un ace^camiento al umbral desde la estimación MCO, siendo este acercamiento tanto mayor cuanto menor sea e. EI rnotivo de este acercamiento puede verse comparando la distribución a posterio^i de ( Y° ^ X°, y, X } (véase la expresión [8]) con la distribución que se deriva de la estimación clásica, que sería una I'V (X °^, Q2). Nótese la mayor dispersión de aquélla, consecuencia del incremento de su varianza en a2 (X° (X' X)-' X°' ), que es la varianza de X°^S, dados los datos y, X y X°. En definitiva, esta mayor dispersión deriva de la naturaleza aleatoria de ^, y obliga a trasladar hacia el umbral la estimación de X°^. Obsérvese también que, cuando el tamaño de la muestra tiende a infinito, [ 16] lim e = 1 r-^^ En efecto, , lim X°(X'X)-^ X°'=1im ^ Xo T--^ T--^ T -^ X°'=1im r-.^ T 1 X°G?X°'=0 T de donde se deduce el resultado. Ello implica que, para muestras grandes, la dia cero. Asimisferencia entre la probabilidad óptima [10] y la clásica [11 ] tiende ^ mo, la estimación óptima de X°^ [15] tiende a la clásica X°^i. Similares cálculos pueden hacerse si la probabiiidad a estimar de forma óptima es p ( Y° s a ^(3, X°), esto es, si el suceso en que estamos interesados consiste en la no superación de un umbral. En este caso, y nuevamente a partir de la distribución de Y°, dados los datos, el áptimo sería ~ P =P (Y°sa IX°,Y^X)=P ^(0,1)5^ ^ a _ ,x o R a ^ _^^,ra-x^R^ a La comparación con la estimación clásica de dicha probabilidad, ^ ^ _^ a --X°(i P a - 82 ESTADlSTI(`A ^SPAÑOLA nos conduce, si el umbral es mayor o menor que la predicción minimo cuadrática, respectivamente, a p <p <0.5 obien 0.5<p <p t`inalmente, obsérvese, en este caso, que la transfarmación de II^ en (o, 1) ^ ^-'p" =p {y°sa ! ^, X°}^^ a -X° ^ a ^ es también suprayectivá, Qor lo que puede deducirse dei resuitado anterior una estirnación bptima del X°^, que coincide con la expresión [15]. Por último, si el suceso en estudio fuese de ta forma [c < Y° < d], un trabajo análogo at anterior perrnite obtener la estimación óptirt^a de ta probabilidad de dicho suceso, p ^ p(c < Y° < d ^^, X°), que ahora seria ~ = p ^ c ^X°^ < N (o, 1) < ^ d -X°^ p Q Q ^ ^_ _^(,r- d- x ^^ ^-^(,r ^- x^s ^ a ^ a No existe ahora una relación entre esta estimacíón y la clásíca, pudíendo encontrarse una cuatquiera de ambas por debajo de la otra. En este caso, la ^minimización del riesgo en p no equivale, en principio, a la minimización en ^. Nótese que los valores posibles de p son un subintervalo contenido estrictamente en el (0, 1) (de hecho, se trata del subintervalo (o, p _ c 2a < N{0, ^)^ d- c 2a ), por lo que parecería necesario reatizar una minimización con restricciones. ^ Ahora bien, como el óptimo en p no restringido, p, es la esperanza a posteriorí ^ p=ECP tc<Y°<d ^^ ,X°)^y,X] verifica 1as restricciones, por lo que es también el óptimo restringido. PREDICCIUNES BAYESIANAS DE PROBABILIDAD EN PRESENCIA DE UMBRALES Ejemplo 1. 83 Consideremos el rnodelo más sencillo, que, en expresión matricial, podemos escribir como Y= X ^+ E, donde Y = (y^, ..., y T)' , E _ (^^, ..., ET)' , X=(1,...,1)'=1, X°=1 con E --^ N (o, a2 I) e independiente de ^. La endógena en el periodo de predicción es, para este modelo, Y° _^+ E°. Sea a un umbral; se trataría de obtener la predicción de la probabilidad de que Y° io rebase. Supongamos una distribución neutral a priori para ^, T En este caso, X°(X' X )-' X°' _^ y, por tanto, e= T T+1 Además, como es conocido, x°^=^-Y donde y= 1 T •^ r s 1 y t, es decir, la media muestral. En definitiva, la probabilidad óptima sería P=1-^^1 T+1 a-yl a y el estimador óptimo de ^ resultaría ^ = a • ^1 - I T + 1 ^ + 1 T + 1 La probabilidad clásica es, en este caso, P=1-^^aQy) ESTAI^ISTICA ESPAÑOLA Como puede verse, la diferencia entre ambas estimaciones de probabilidad, y entre ambas estimaciones de ^, dependen de e, que, en este caso, depende únicamente del tamaño de !a rnuestra. Así, si T= 1, e toma su menor valor, e= 1, lueg© podemos afirmar que, en general, e z 0.5, con !o cual su raíz 2 cuadrada como mínimo valdrá 0 5= 0.707, es decir, ^ue ^ pondera en la combinación lineal convexa, como mínimo, un 70% de Y y, como máximo, un 30% del umbral, para obtener el predictor bayesiano. Es por esto !a justificación de la fuerte tendencia a aproximarse ambas soluciones ^ y^ en este caso particular. En concreto, para T= 20, ^= 0.9759. Esto es, el predictor bayesiano incorpora, aproximadamente, un 97.6% del predictor MCO y un 2.4% del umbral. 3. CASO EN QUE LA VARIANZA DE LA PERTURBACION SEA DESCONOCIDA En este apartado estudiaremos la estimación óptima de la probabilidad de superar un umbral a, por parte de la variable endágena en un MLC, pero suponiendo ahora desconocida y aleatoria !a varianza, Q 2, de las perturbaciones. Supondremos, además, que la matriz E de perturbaciones es índependente de ^ y de Q, que son a su vez independientes a priori, y que la distribución a priori sobre ambos parámetros es la no informativa en e! sentido de Jeffreys, p (^^ Q) a ^ a [ 17] Como es conocido [véase, por ejemplo, Zeilner (1973), págs. 66 y 67], dados Ios datos, la distribución a posteriori de (^, Q) cumple que la condicionada de ^ por a y los datos es n (^Ia^Y,X)--^N (^^a2(X'X}-') [18] y la marginal de a, (aly,x)--^i, T--k T-k s2 2 , 2 [1 g] donde con / G denotamos la distribución gamma invertida, y s 2 es el estimador PREDICCI(7NES BAYESIANAS DE PROBABILIDAD EN PRESENCIA DE UMBRALES 85 insesgado de a2 utilizado habitualmente en relación con la estimacián I^IICO, esto es, S 2 _ {Y - X ^ )' {Y - X R ) T-k Dicho de otro modo, Ilamando ^ a la precisión, z= 1, la distribucián a paste2 riori de (^i, ^) es la denominada normal-gamma. ^ Sea (^, á 2} una elección de (^, a 2). Consideraremos, nuevamente, la función de riesgo asociada a una pérdida cuadrática, que ahora será ^ _ F(^^U2) fo[P^,a2- P^,Q2]2'l^ (^^a^Y,X}d ^da2 [20] donde D= I^. k x I^ + es el campo de variación de los parámetros, y donde la probabilidad, p^ Q2 , que aparece en la función integrando representa la probabilidad de superación del umbral por la variable endógena en el periodo de prediccián para valores genéricos de los parámetros, p^,az=p ( Y°za ^^,a,y,X} ^ y p^ ^a tiene análoga interpretación para una especificación, (^, á 2), de los mismos. ^ " en ( 0, 1), podemos plantearnos miComo, al variar (^, Q2) en D, p^ Q2 varia nimizar en p dicho riesgo, donde p= p^, ^2 . La solución óptima consiste en tomar p igual a la esperanza de p^ a2 a posteriori, dados los datos, esto es, ^ p =E (p^^21Y^X)=E [p {Y°aa ( ^^a^X°)IY^X]= =p [Y°z a I X°,Y^ X] [21 l Obtengamos la distribucián de Y° dados los datos. La expresión [18] nos proporciona n (Y°I Q,Y^X^X°)^N (X°^^ Q2 e ) [22] que conjuntamente con la expresión [19] indica que la distribución conjunta de ( Y°, a ^ y, X, X°) es normal-I G[esto es, una normal-gamma en ( Y°, z), donde ^= Q2], 1 con arámetros P T- k 2 Y z T- k s2 P ara la 9amma Y X° n^Y ^e P ara 2 ESTADISTICA ESPAIVOI,.A 86 la normal. Entonces [véase, por ejernplo, Broerneling {1985), págs. 66 y 67], ia distribución marginal de Y°, dados y, X y X °, resulta ser una t de Student, 2 con T-- k grados de libertad, moda X° ^, y escala probabilidad óptima estimada resulta ^ o ° p =p ^Y aa ^X ,y,X]=p e. En consecuencia, la tT_kafe a _X°^ s [23] 4bsbrvese que, en este caso, no se obtiene una predicción óptima de la esperanza X° ^3, sino una cierta «tipificación» de la diferencia entre ella y el umbral. Comparemos esta solución óptima obtenida con la clásica. En esta última, ^ se estimaría ^ por MC^, ^_(X' X)!' X'y, y á 2 = s 2 es el valor del estimador insesgado clásico de a2 obtenido a partir de los residuos mínimo cuadráticos. La probabiiidad de superación del umbral sería ^^ = P ^ Y°za I^, R ^r,X°]= P P^,o2 0 N (o,1)z ^ a ^X--^ s (24] La diferencia entre ambas probabilidades vale p^ 0 2-- p "^ 2= Ft v^e ^• ^ a -X°^ s - ci^ a -X°^ s [25] ^ En ambas, al umbral, a, se le somete al mismo «cambio de origen», Xo ^, pero el «cambio de escala» es distinto, s en el primer caso y s en el segundo. ^ Por otra parte, y debido a que e es un númera menor que la unidad, se tiene siempre que s> s, con lo que podemos, al igual que en e! caso en el que la ^ varianza es conocida (v^ase el apartado anterior), comparar las probabilidades ^ p y p^,Q2, dependiendo de si el umbral (que viene dado) supera, o no, la predic^ ^ o ^^ , se tiene que a -X°^ < a -X°^ . Así , a > X ción mínimo cuadrática . si ^ ^^o 2< P < 0.5. con loque P ^, s/ ^ s Por el contrario, si a < X° ^ se tendrá que 0.5 < p < p^ á2 , por motivos análogos a los reseñados en el párrafo anterior. PREDICCIUNES BAYES[ANAS DE F'ROBABILIDAD EN PRESENCIA DE UMBRALES $7 La diferencia entre ambas probabilidades estimadas reside ahora en dos hechos: a) En primer lugar, una dispersión extra de la estimación bayesiana dada 2 por S e - s 2= s 2 X°{X ' X)-' X°', que es !a varianza estimada de X° ^ dados los datos y proviene de la naturaleza aleatoria de ^. b) En segundo lugar, la distribución marginal de Y° es una t de Student y no una normal, debido a la aleatoriedad supuesta para a 2. . , Ambos factores actuan en el rnismo sentldo. Asi, si p N(0, 1) z a -X°^ s a --X°^ es posit^vo, s s p N (0, 1) z^%e 0 sp t_ k T a1^e a -X°^ s ^ a ~x ^ S s0.5 [ 26 ^ La prirr^era desigualdad proviene de que 0 c^< 1, es decir, es una consecuencia del primero de Ios factores, y la segunda se deduce del hecho conocido [véase, por ejemplo, Sanz (1994), pág. 105] que garantiza que la función de distribución de la N (0, 1) es superior a la de la t de Student para valores positivos (e inferior para los negativos). Es, por tanto, una consecuencia del segundo de los factares anteriores. En definitiva, si p^ ^2 < 0.5, entonces p^ ^2 < p< 0.5. N N De la misma forma se comprueba que si p^ Q2 > 0.5, entonces 0.5 < p< p^, á2 . Para tamaños muestrales grandes debe esperarse que las diferencias entre ambas probabilidades se reduzcan; por un lado, las diferencias entre !as funciones de distribución normal y de Student son despreciables para más de 30 grados de libertad, y por otro, como vimos en [16], ^e tiende a la unidad cuando T tiende a infinito. De hecho, es un principio general del análisis bayesiano que, para muestras grandes, la información a priori es irrelevante en relación con la que suministra la verosimilitud. Conocida la distribución marginal de Y°, dados y, X y X°, se obtienen también sin dificultad estimaciones óptimas de las probabilidades P^ = p[Y° s a I^^ al 0 p2=p [c sY°sd ^^,a] xx FS^T^AUIS'^T1C`A F^.SPANOL_A resultando como soluciones ^ p2-p ^ c --X°^ s str-ks^ d ^X°^ s Sus relaciones con las estimaciones clásicas correspondientes se obtienen ^ de forma análoga a la que acabamos de describir para p. 4. APROXIMACION DE LOS PREDICTORES MAXIMO VEROSIMIL Y BAYESIANO CUANDO LA VARIANZA DE LA PERTURBACION ES CONOCIDA Y EL MODELO TIENE TERMINO CONSTANTE ^ En el apartado segundo hemos estudiado ía estimación óptima, p, de la probabilidad de que !a variable endógena de un MLG rebase un umbral cuando la varianza de la perturbación es conocida. Como hemos visto, esta estimación difiere de la mínimo cuadrática en virtud de !a diferencia entre las distribuciones predictivas empleadas en cada caso. Resulta entonces natural estudiar el tamaño de las discrepancias entre ambas estirnaciones de la probabilidad, discrepancias que tendrían que ver, como antes dijimos, con el íncremento de la incertidumbre asociada a la estimación de X° ^, esto es, con a^ X°(X' X)-' X°'. ^C^tro enfoque del problema consiste en recordar que la estimación óptima de p, p, puede verse cvmo la probabilidad de superar el umbral cuando la espe^ ranza de Y°, X° ^3, se obtiene mediante una estimación óptima suya, X° ^i, de acuerdo con 1a expresión [15]. Este planteamiento traslada la comparación de la dispersión de probabilidades normales a la de sus esperanzas, con un enfoque más evidente. ^ De acuerdo con esta idea, nos plantearíamos evaluar la diferencia entre X° ^i y X° ^. Pero IX°^-x°^1=(^-^)•la-X°^I [27] por lo que, si a = X° ^[es decir, si (X°, a) está en la recta de regresión mínimo cuadráticaj, ambas estimaciones de la esperanza coinciden y, por tanto, lo ha^ rán las dos probabiiidades estimadas, p= p^ (este último resultado se podría PREDIC_'CInIYES BAYESIANAS DE PROBABti..IDAD EN PRESEIV(^EA DE UMIBRALES $^ deducir directamente de las desigualdades [13], y del hecho de que, en ese caso, p ^ = 0. 5 } . ^ Si a ^ X° ^, la diferencia entre ambos estimadores de la esperanza puede evaluarse también en términos de su distancia relativa, 1 - ^e = f X° ^-X° ^ I !a-X°^I En definitiva, ambos enfoques conducen a una idea común. En el primero, cuanto mayor sea la forma cuadrática X°(X' X)^ ^ X°', mayor incertidumbre introduce en la estimación de X° ^, por lo que las dos probabilidades estimadas serían más diferentes. En el segundo, el incremento de dicha forma cuadrática se traduce en una disminución de e, y, por tanto, en un incremento de la diferencia relativa entre ambas esperanzas estimadas (que a su vez hace más diferentes las probabilidades estimadas}. ^De qué depende el valor de la forma cuadrática? En primer lugar, de la información muestral, esto es, de la matriz (X' X)-' . En particular, obsérvese que el incrernento del tamaño de la muestra, como antes dijimos, disminuye su valor, ya que Iim T^^ X°(X' X}-' X°' = 0. Además, depende de X°, esto es, de los valores de las variables predeterminadas. Veamos la siguiente proposición. Proposición 4.1 Sea el modelo [1 ] con término constante. La mínima distancia relativa entre los predictores bayesiano y máximo verosímil, X° ^ y X° ^i, y, por tanto, ia míni^ ma distancia entre p y p^ , dados a, y y X, se obtiene para X° _ (1 j x2 , ..., Xk ) donde x; es la media aritmética de los valores de X; . Además, el m í nimo de dicha distancia relativa entre los predictores va(e min(1-^)=1-^ Xo T+1 [29] 90 ESTADISTICA ESPAÑOLA Demostración: Sea X la matriz T x k de valores de las variables exógenas. Escribamos X=(1 ^ Z), donde 1 es la matriz columna formada por T valores iguales a la unidad. Entonces ^[I + 1' Z(Z' M Z)-^ Z^ 1 1 .,^ ^]_ 1 ^^ Z(Z ^ M1 Z}-^ T T { x' x )-1 l Z'MZ 1 --Z'M,Z-'Z'1 1T 1 ( } conM1=/- 1 ^1' .Pero T Z'M Z=Z'Z' ^ Z'11'Z =Z'Z-Tz' z T donde i es la matriz (fila) de medias muestrales de Z, z= ^' z En consecuencia, Z' M^ Z= T Cov ( Z ), donde Cov (Z ) es ia matriz de covarianzas muestrales de las variables de Z, lo que permite escribir !a inversa (X' X )-' como ^ [I + z (Cov (Z ))a' z '] - 1 z (Cov (Z ))- (x' x}-' _ 1 Z )) ^ ^ -^ Z -' z ^ COV ^(Z (Cov 1 1 T {Cov (Z })-' y si premultiplicarnos por X° _(1 ^ x° ) y postmultiplicamos por su traspuesta obtenemos X ° (X' X )- 1 X °' _ ^ + 1 (x° - z ) (Cov (Z ))-' (x° - z )' T T EI mínimo de dicha forma cuadrática se obtiene, en consecuencia, para x° = z, y sólo para ese valor, ya que la matriz (Cov (Z ))^' es definida positiva. EI minimo resulta, además, igual a 1, y de la expresión [9], ei máximo valor de e es T T 1 1 e - 1+ . - T+1 T {c.q.d.} PREDICCIUNES BAYESIANAS DE PRUBABILIDAD EN PRESENCIA DE UMBRALES 9I Este resultado admite una interpretación geomótrica. Transformemos el modelo [1 ^ original, sustituyendo las variables prapiamente explicativas (todas menos el término constante) por sus componentes principales, y reparametricemos el modelo. Sea A' la matriz de vectores propios de ^C'ov (Z ), es decir, A • Cov (Z ) • A' = diag (^.^, -^ ^k -,} reordenados de forma que ^.^ ^ . . . z ^.k _ , . Transformemos las variables explicativas centradas mediante A' en sus componentes principales, U=(Z - 1 z } A'. Podemos entonces jsiendo ^_^ _(^^, ^k }' ] transformar el modelo, Y=1 ^^+Z^_^+^=1 S^+Uá_^+^ donde 81 =^^ + z^_1 y 8_, = A ^_1 , ya que Z= 1 z+ U A. Entonces, para el modelo transformado, si Ilamamos U° _(1, u° ) la matriz fila de valores de las variables predeterminadas en el periodo de predicción, la medida de la incertidumbre vendrá ahora dada por la forma cuadrática (1, u°) 1' U, T -1 1 u°. 0 0' T-' diag ( ^ 1^^ i , •-•: ^ ^k - , I u o^ resultando 1' (> > ^°) V, ^ i^' 1 T 1 7 u ° • diag^ 1 , . . . , ^ ^1 ^ • u ° ' [30] ^k -1 Como ya sabíamos, el mínimo se obtiene para u° = 0, pero el resultado [30] nos permite interpretar para qué valores de u° se obtendr^n pequeños valores de la forma cuadr^tica. Para ^ u° ^ fijo, por ejemplo, igual a la unidad, el menor , esto es, valor se obtienepara U° = ( 1, 0, ...,} 0, y a q ue^. ^ s ^.^ s... s ^. 1 1 k _, 2 en la dirección de la primera componente principal. EI valor de la forma cuadrática, en esta situación, será tanto menor cuanto mayor sea ^., , es decir, cuanta mayor variabilidad de X2 , ..., Xk recoja la primera componente principal. 92 5, ESTADISTICA F:tiF^ANt)LA UNA APLICACION A LA PREDICCION DEL GASTO TURISTICO Por encarga del Gobierno autónomo balear se elabora anualmente la «Encuesta sobre el Gasto Turístico» en las Islas Baleares. Dicha encuesta, proviniente de un muestreo por conglomerados según la importancia de cada nacionalidad y de cada isla en la actividad turística, proporciona un conocimiento detallado sobre el gasto de los turistas que visítan el archipiélago, apareciendo dich0 gast0 dividido en diferentes partidas y diferenciando, asimismo, el gasto en e! país de origen y el gasto efectuado propiamente en las islas, La encuesta también proporciona otros aspectos relevantes de este colectivo de visitantes (características generales de los individuas y de la visita, grado de satisfacción} que, en conjunto, !a convierten en un material estadístico de enorme impor^tancia para el conocimiento y la determinación de las características básicas de la demanda turística hacia Baleares. Se pretende, por parte de dicho Gobierno autánomo, estudiar la probabilidad de retorno, esto es, de volver a visitar la isla (2). Nuestro objetivo no es estudiar la probabilidad de retorno a las islas, sino evaluar fas probabilidades con que distintos grupos de individuos son gastadores, cansiderando gastadores a los que gastan, por persona y día, más que la media. Como aproximación de esta media (desconocida) utilizaremos la media muestral que, dado ei tamaño de la muestra, puede considerarse una es#imación aceptable. Esta media muestral será considerada como el umbral a efectos de nuestro trabajo. Trabajaremos con la encuesta realizada en 1992 y efectuaremos los cálculos para el gasto en las islas, ISLAS, según que supere, o no, en cada grupo el gasto medio correspondiente para el conjunto de la población encuestada. Esto es, para el año 1992, de 3.809 pesetas por persona y día (3}. La varianza es desconocida, por lo cual deberíamos utilizar el procedimiento desarrollado en el tercer apartado (ecuación [23]). No obstante, dado el tamaño de la muestra (4.345 individuos) y dado que una distribución t„ es casr una normal estándar en cuanto los grados de libertad superan !a treintena, la probabilidad será, en la práctica, la misma que la obtenida en el caso de varianza conocida y que recoge la ecuación [y 0]. Esta aceptación del conocimiento para Q2 nos permite identificar el predictor {ecuación [15]), con lo cual podrán hacerse comparaciones no sólo entre las probabilidades, sino entre las predicciones del gasto. (2) Puede verse, en este sentido, Juaneda t 1993). (3) Evidentemente, puede elevarse la categoría de los gastadores a los que gastan, por ejemplo, al menos lo que el 75% de los individuos, esto es, el umbral será el tercer cuartil, 4.522 pesetas por persona y dfa; o bien, plantearnos la probabilidad de que los gastos en las islas superen las 10.000 pesetas o cualquier otro umbral deseable. En un trabajo anterior [véase Sanz ( 1994), págs. 187-219j se reaiiza este estudio de forma más completa, y se amplía el análisis a los gastos en origen y al gasto total. PREUICC'IC)NT^S BAYESIANAS UE PRC)BABILIUAD FN PRESENC.'lA UE l'MBRALES y^ La encuesta considera 11 factores, conteniendo cada factar varias madalidades. Para cada modalidad tendremos una variable dicotómica que la describe y que vale la unidad en la modalidad pedida y cero en el resto; los 11 factores considerados (con mayúsculas se indica cómo denominaremas a las variables exógenas pasteriormente) se recogen en el anexo 1. Además de estos 1 1 factores, la encuesta proporciona el gasto turístico pagado en el país de origen, ORI, y el efectuado durante su estancia en las islas, ISLAS, para cada encuestado. Su suma, TOTA^, es el gasto turístico totaf. Todos estos gastos aparecen medidos en pesetas por persona y día. Juaneda (1993) plantea varios modelos de regresión con las anteriores variables independientes, actuando coma dependiente ORI, ISLAS o TOTAL. Para estos análisis considera un grupo de referencia (el grupo más frecuente dentro de su categoría), en relación con el cual interpretar y comparar los parámetros de cada modela. Este está formado por /os a/emanes, menores de 30 años, de profesión emp/eados, que se a/ojan en un hote/ de la zona 6(costa de Levante), que trajeron pagado sólo transpvrte y habitación, que es su primera visita y, además, que opinan del precio que es caro, con una buena impresión sobre el via^e. La necesidad teórica de la introducción de dicho grupo de referencia es evidente, pues con él evitamos la existencia de multicolinealidad perfecta al suprimir la variable dicotómica correspondiente a una de las rnodalidades de cada factor. Nuestro objetivo es estimar la probabilidad de superación de un umbral, siendo éste el gasto medio muestral en las islas. Nuestras predicciones evalúan el gasto por persona y día de un individuo con ciertas características. Juaneda (1993), en el estudio de las probabilidades de retarno a las islas, se centra en ciertos grupos de turistas (328 grupos); nosotros, en este trabajo, nos ocuparemos, para el análisis predictivo, de 80 de ellos que recogemos en el anexo 2, correspondiéndose con las descripciones que se encuentran a su derecha; así, por ejemplo, el grupo número 9 tratará del grupo de turistas británicos, menores de 30 años y que se han alojado en la zona 8. De este modo, tendrernos una matriz de dirnensión 80 x 37, que contendrá las variables exógenas en el período de predicción y cuya construcción, para cada fila (centrémonos, por concretar el comentario, en la fila número 9), es la siguiente: para !os factores que caracterizan al grupo, un 1 en la columna correspondiente a la modalidad que aparece y ceros para los restantes (es decir, un 1 en británico y un 0 en el resto de nacionalidades, un 1 en ED030 y 0 en el resto de los grupos de edad y un 1 en Zana 8 y un 0 en el resto de las zonas). Para los otros factores (esto es, para las variables dicotómicas correspondientes a Profesión, tipo de alojamiento, opinión sobre el viaje, impresión de su es- 94 FSTADISTICA ESPAfVOL.A tancia y número de veces que ha visitado la isla) tomaremos los valores rnedios de las modalidades, es decir, la frecuencia con la que se presenta la modalidad correspondiente (nótese que ello es razonable pues tratamos de predecir la probabilidad de superación del gasto media por el gasto efectuado en las islas). Esta matriz, por tanto, contendré los valores de las variables exógenas en los períodos considerados de predicción, esto es, !os 80 grupos reseñados. Para cada uno de ellos, calcularemos (4) las probabílidades p^ y p^, que se recogen en la tabla 1. Esta, muestra, para cuatro nacionalidades (alemana, británica, española ^ e italiana} y para los distintos grupos de edad, su probabílidad (bayesiana, p, y mínimo cuadrática, p) de que ei gasto turístico rebase el gasto medio, efectuado el estudio en cinco zonas de las islas. Se presentan, asimismo, los errores estándar de la estimación de ambas probabifidades. Para p se utiliza el método s[véase, por ejemplo, Rao (1973}, pégs. 385-389j, que condu0 ^ ce a un error estándar ( ) X ° X' X^' X°' • ^( ,^ a- x ^ ), q ue denominaremos ep en la tabla 1, y para el bayesiana se utiliza ia desviación típica a posteriori de p^ , obtenida mediante una simulación de Montecarlo de la distribución a posteriori de R. Este error estimado del estimador bayesiano aparece con la notación ep en la tabla 1. Puede apreciarse que ambas probabilidades son muy similares y sus errores estándar indican que, estadísticamente, no hay diferencias significativas entre ellas. Esto es debído a la conjunción de tres factores: en primer lugar, al ser el umbral la med'+a observada del gasto por persona y día, la predicción mínimo cuadrática estará, usualmente, cerca del umbral; en segundo lugar, al ser p y p valores de una misma distribución (una normal estándar), sus diferencias dependerán del valor para el que se calculan y, por tanto, de e, pero al tomarse los valores de las variables que no intervienen en la caracterizacíón del individuo iguales a sus valores medios, esto hace que e esté próximo a la unidad, por lo que ambas probabilidades son muy similares; por último, en tercer lugar, el elevado tamaño de la muestra (4.345 individuos}. ^ Por otra parte, como indicamos en e! apartado 2, la predicción bayesiana, p, se encuentra entre la mínimo cuadrática, p, y 0.5, y se comprueba que, en efecto, la predicción de la probabilidad para el predictor mí nimo cuadrático se aleja más de 0.5 que la bayesiana obtenida. E1 objetivo de este apartado es mostrar la viabilidad de nuestra técnica desde el punto de vista de su implementación, por lo que no nos detendremos en camentar los resultados de las tablas. Puede observarse, no obstante, que son los italianos los que tíenen las mayores probabilídades de superación del gasto (4) Los cálculos se realizaron utilizando el programa TSP 4.2A. PREDICC[C)NES BAYESIANAS DE PROBABiL1DAU EN PRESENC[A DE UMBRALES gS Tabla 1 PROBABILIDADES DE QUE EL GASTO EN LAS ISLAS SUPERE EL GASTO MEDIO ( POR PERSONA Y DIA) Y ERR^ORES ESTANDAR ^ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 ^ ^ P eP p e`p 0.65943 0.51561 0.54097 0.53495 0.55179 0.61035 0.46353 0.48891 0.48287 0.49980 0.71887 0.58227 0.60698 0.60114 0.61744 0.041076 0.018289 0.026635 0.026927 0.65849 0.5 i 559 0.54088 0.53487 0.55172 0.60971 0.46357 0.48893 0.042283 0.018971 0.025553 0.025691 0.020024 0.043261 0.019689 0.025262 0.023622 0.020029 0.79662 0.67647 0.69902 0.69372 0.70846 0.58866 0.44130 0.46656 0.46054 0.47743 0.53722 0.39037 0.41504 0.40914 0.42572 0.65272 0.50834 0.53373 0.52770 0.54457 0.73982 0.60682 0.63110 0.62537 0.64136 0.020403 0.041844 0.019076 0.026783 0.024911 0.018948 0.037823 0.029426 0.029752 0.032222 0.027351 0.036596 0.032709 0.036205 0.034512 0.030673 0.043238 0.017492 0.026549 0.026395 0.020228 0.48290 0.49980 0.71765 0.58204 0.60667 0.60080 0.61715 0.79467 0.67579 0.69804 0.69287 0.70771 0.58813 0.44136 0.46663 0.46062 0.47746 0.042684 0.017218 0.025604 0.023260 0.017626 0.040950 0.029464 0.03042$ 0.032609 0.027962 0.53700 0.39048 0.41522 0.40930 0.42579 0.041899 0.034985 0.039368 0.73810 0.60639 0.63042 0.62479 0.64082 0.037196 0.033491 0.65184 0.50832 0.53363 0.52761 0.54446 0.037395 0.029050 0.030603 0.031246 0.026372 0.038000 0.031977 0.035067 0.036551 0.031663 0.043336 0.017227 0.025402 0.024298 0.019318 0.043104 0.017317 0.024267 0.021293 0.018592 0.039000 0.028196 0.031047 0.030746 0.026266 0.042102 0.033338 0.037801 0.038640 0.033919 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 e^ ^ 8P 0.62938 0.48343 0.50885 0.50280 0.51974 0.042993 0.020043 0.028048 0.028166 0.022210 0.042924 0.019555 0.0271$1 0.62858 0.48345 0.50883 0.50280 0.51971 0.57861 0.43171 0.45690 0.45089 0.044796 0.020488 0.027738 0.026788 0.022929 0.044301 0.018437 0.025268 0.022415 0.020438 0.039171 0.028600 0.031171 0.030961 0.027070 0.041006 0.033243 0.037190 0.038151 0.033829 0.054013 0.037891 0.042435 0.042530 0.040141 0.054485 0.036437 0.57907 0.43162 0.45680 0.45079 0.46765 66 67 0.69103 0.55054 0.57564 0.56970 0.58631 0.77304 0.64697 0.67035 0.66485 0.68018 0.64311 0.49801 0.52343 0.51739 0.53429 0.59332 0.44604 68 69 70 71 0.47133 0.46530 0.48221 0.70380 72 0.56498 0.58992 0.58402 0.60050 0.78392 58 59 60 61 62 63 64 65 73 74 75 76 77 ^ p 78 0.66046 0.68348 79 80 0.67807 0.69314 0.025183 0.019675 0.040102 0.030872 0.031363 0.033662 0.029068 0.039667 0.035030 0.038695 0.036874 0.033178 0.051789 0.038291 0.043335 0.042359 0.039238 0.052437 0.037608 0.042643 0.040237 0.037767 0.047882 0.044310 0.044675 0.045412 0.042497 0.045185 0.045884 0.04$346 0.046297 0.043551 0.46769 0.68991 0.55039 0.57540 0.56944 0.58608 0.77111 0.64635 0.66944 0.66406 0.67946 0.64181 0.49802 0.52329 0.51729 0.53413 0.59250 0.44629 0.47149 0.46548 0.48229 0.70205 0.56457 0.58934 0.58346 0.59991 0.78122 0.65928 0.68193 0.67670 0.69179 0.040783 0.039738 0.038742 0.046802 0.040094 0.041886 0.042457 0.039667 0.047899 0.045732 0.047855 0.049263 0.045754 9fi ESTADISTCCa FSPaNC)!_A medio, encontrándose en el polo opuesto los británicos. Asimismo, las categorías correspondientes al grupo de edad más joven, ED030, tienen mayor probabilidad de superar el gasto medio que las categorías que contienen a otro grupo de edad. Los autores han efectuado este mismo estudio para los gastos en origen y para el gasto total, determinando las probabilidades de superar su gasto medio correspondiente (5.370 y 9.179 pesetas, respectivamente, por persona y d í a}, así como los correspondientes errores estándar en cada caso. No se acompahan para no abultar el trabajo en demasía. fi. CONCLUSIONES En este trabajo se estudia, bajo una óptica bayesiana, la predicción de la probabilidad de que la variable endógena de un MLC rebase un umbral. Hemos mejorado el resultado dado por Rajo y Martín ( i 988), simplificando notablemente la obtención de la predicción óptima de la probabilidad de superación del umbrai, y obteniendo una expresión explícita del predictor cuando la varianza de ias perturbaciones es conocida (resulta ser una combinación lineal convexa del predictor MCO y del umbral}. Cuando la varianza de las perturbaciones es desconocida, hemos obtenido una predicción óptima de la probabifidad buscada, pero el predictor no resulta identificable. Hemos estudiado, también, tanto la diferencia entre las estimacio^nes bayesiana y clásica de superación del umbral, como la existente entre los predictores de la variable endógena asociados a ambas técnicas. EI objetivo consistía en localizar situaciones en las que ambos sean similares, con lo que la complicación que supone nuestra técnica no se vería compensada por una mejora apreciable de los resultados. Hemos demostrado que la distancia relativa entre ambos predictores se hace mínima cuando las variables exógenas en el período de predicción toman sus valores medios correspondientes al período muestral. Evaiuamos también de qué dependen sus diferencias cuando no nos encantramos en el mínimo. Finalmente, se aplican los resultados obtenidos para estimar la probabilidad de que los turistas qúe arriban al archipiélago balear gasten más que la media; ello permite evaluar qué grupos de turistas son más o menos gastadores. Los resultados no son muy diferentes a los obtenidos por MCO, y los errores estándar indican la no existencia de diferencias significativas, debido a la naturaleza del problema y al tamaño de la muestra. En cualquier casa, permite ilustrar la técnica empleada, y mostrar su factibilidad en las aplicaciones prácticas. PREDICC'IONES BAYESIANAS DE PRC)BAB[L1DAD EN PRESENC[A DE t_lMBRALES 97 Anexo 1 Nacionalidad: • ALEMANA: de nacionalidad alemana. • BRITAN: de nacionalidad brit^nica. • • • • • ESPA: de nacionalidad española. FRANBE: de nacionalidad francesa o belga. NORDICS: de nacionalidad holandesa, danesa, noruega o sueca. ITA^IA: de nacianalidad italiana. OTRAS: resto de nacionalidades. Edad: • • • • ED030: población de edad menor que 30 años. ED3045: población de edad entre 30 y 45 años. ED4560: pobiación de edad entre 45 y 60 años. ED6090: población de edad mayor que 60 años. Profesián: • PFLIB: Profesión liberal. • • • • • • TSUPGE: Técnico superior, jefe de empresa, gerente. INTFUN: Cuadro intermedio, funcionario. EMPL: Empleados. OBR:Obreros. JUBI: Jubilados. ESTU: Estudiantes. Lugar de alojamiento dei turista: • HOTEL: se alo^jó en hotel. • APAR: se alo^o en apartamento. • CHAL: se alojó en chalet. • AMIOTR: se alojó con amigos y familiares. Zona en que se alojan. Para ello, se dividió el archipiélago en nueve zonas. • ZONA1: los que se alojaron en la zona 1. • ZONA2: los que se alo^aron en la zona 2. • ZONA3: los que se alo^aron en la zona 3. • ZONAS: los que se alojaron en la zona 4 y 5. • ZONA6: los que se alojaron en la zona 6. • ZONA7: los que se alojaron en la zona 7. • ZONA8: los que se alojaron en la zona 8. • ZONA9: los que se alojaron en la zona 9. Lo que ha pagado el turista en origen i ncluye: • TRA: Sólo el transporte. • TRAHAD: En esta modalidad se incluyen los que han pagado el transporte y habitación, asi como los que han pagado e! transporte, habitac[bn y desayuno. • TRAHAMP: Transporte, habitación y media pensión. • TRAHAPC: Transporte, habitación y pensión cornpleta. EXCUR: si en el precio pagado están incluidas ias excursiones. Opinián sobre el precio: • CARO: opinan que el precio es caro o bastante caro. • NORMAL: opinan que el precio es normal. • BARATO: opinan que el precio es barato o bastante barato. Impresión sobre el viaje: • BUENA: la impresión sobre el viaje ha sido buena. • MBUENA: la impresión sobre el viaje ha sido muy buena. • IMNOR: la impresión sobre el viaje ha sido normal. • MALA: la impresión sobre el viaje ha sido mala. Número de veces que ha pasado sus vacaciones en las islas: • VEZ1 : ha pasado sus vacaciones una vez. • VEZ2: ha pasado sus vacaciones dos veces. • VEZ3: ha pasado sus vacaciones 3 veces o mós. S1RET; si piensa volver a pasar sus vacaciones en la isla. yx F.STADISTIC: A ESPAÑOLA Anexo 2 41 ALEMANA=1, ZONA7=1 42 43 ALEMANA=1, ED4560=1, ZONA6=1 ALEMANA= i, E D4560=1, ZONA7= i ZONA$=1 44 ALEMANA=1, ZONA9=1 ZC1NA1=1 ZONA6=1 ZONA7=1 ZONAB=1 ZONA9=1 ZONA1=1 ZONA6=1 45 46 ALEMANA=1, ED4560=1, ZONA9=1 BRITAN=^ , ED456o=1, ZONA1=i 1 2 ALEMANA=1, E D030= i, ALEMANA=1, ED030=1, ZONA 1=1 ZONA6=1 3 ALEMANA=1, ED030=1, 4 ALEMANA=1, ED030=i , ALEMANA=1, BRITAN=1, BRITAN=1, BRITAN=1, BRITAN=1, BRITAN=1, ESPA=1, ESPA=1, ED030=i , ED030=i , ED030=1, ED030=1, ED030=1, ED030=1, ED030=i, ED030=1, 13 ESPA=i, ED030=1, ZONA7=1 14 15 ESPA=1, ESPA=1, ED030= i, ED030=1, ZONAS=1 ZONA9=1 16 ITALIA=1, ED030=1, ZONA1=i 17 ITALIA=1, ED030=1, 18 ITALIA=1, ED030=1, 19 20 ITALIA=1, ITALIA=1, ED030=1, ED030=1, 5 6 7 8 9 10 11 12 ED4560=1, ZONA1=1 ED4560=1, ZONA8=1 47 BRITAN=1, ED4560=i , ZONA6=1 48 49 50 51 52 BR ITAN=1, BRITAN=1, BRITAN=1, ES PA= i, ESPA=1, E D4560=1, ED4560=1, ED4560=1, E D4560=1, ED4560=1, 53 ESPA=1, ED4560=1, ZONA7=1 ZONA6=1 54 55 56 57 ESPA= i, ESPA=1, ITALIA=1, ITALIA=1, E D4560=1, ED4560=1, ED4560=1, ED4560=1, ZONA7=1 58 ITALIA=1, ED4560=1, ZONA7=1 ZONA8=1 ZONA9=1 ITALIA=1, ITALIA=1, ALEMANA=1, ALEMANA=1, ALEMANA=1, ED4560=1, E D4560=1, ED6090=1, ED6090=1, ED6090=1, ED6090=1, ZONA8=1 ZONA7=1 ZONA8=1 ZONA9=1 ZONA 1=1 ZONA6=1 ZONA8=1 ZONA9=1 ZONA1=1 ZONA6=1 ZONA8=1 ZONA9=1 ZONA1=1 ZONA6=1 ZONA7=1 2i ALEMANA=1, E03045=1, ZONA1=1 22 23 ALEMANA=1, ED3045=1, ALEMANA=1, E03045=1, ZONA6=1 ZONA7 59 60 61 62 63 24 ALEMANA=1, ED3045=1, ZONA8=1 64 ALEMANA= t, 25 ALEMANA=1, ED3045=1, ZONA9=1 26 27 BRITAN=1, B R ITAN=1, ED3045=1, E D3045=1, ZONA1=1 ZONA6= i 65 66 ALEMANA=1, ED6090=1, ZONA9=1 BRITAN=1, ED6090=1, ZONAi =1 67 BRITAN=1, ED6090=1, ZONA6=1 28 29 BRITAN=1, BRITAN=1, ED3045=1, ED3045=1, ZONA7=i ZONA8=1 30 BRITAN=1, ED3045=1, ZONA9=1 31 32 33 34 35 36 37 38 39 40 ESPA=1, ESPA=1, ESPA=1, ESPA=1, ESPA=1, ITALIA=1, ITALIA=1, ITALIA=1, ITALIA=1, ITALIA=i , ED3045=1, ED3045=1, ED3045=1, ED3045=1, ED3045=1, ED3045=1, ED3045=1, ED3045=1, ED3045=1, ED3045=1, ZONA1=1 ZONA6=1 ZONA7=1 ZONA8=1 ZONA9=1 ZONA1=1 ZONA6=1 ZONA7=1 ZONA8=1 ZONA9=1 68 69 70 71 72 73 74 75 76 77 BRITAN=1, BRITAN=1, BRITAN=1, ESPA=1, ESPA=1, ESPA=1, ESPA=1, ESPA=1, ITALIA=1, ITALIA=1, ED6090=1, ED6090=i , ED6090=1, ED6090=1, E D6090=1, E D6090= i, E D6090=1, ED6090=i, ED6090=1, ED6090=i, 78 ITALIA=1, ED6090=i , ZONA7=1 79 80 ITALIA=1, ITAL IA= i, ED6090=1, ZONAB=1 E D6090= i, ZONA9=1 ZONA7=1 20NA8=1 ZONA9=1 ZONA1=1 ZONA6=1 ZONA7=1 ZONA8=1 ZONA9=1 ZONA1=1 ZONA6=i PREDICCIONES BAYESIANAS DE PROBABILIDAU EN PRESENC'IA DE UMBRALES 99 REFERENCIAS ASHFORD, J. R., y SowDEN, R. R. (1970): «Multivariante Probit Analysis», Biometrics, 26, 535-546. BROEMELING, L. D. (1985) : Bayesian Ana/ysis of Linear Models, New York: Dekker. FASE, M. M. G. (1971): «On the estimation of lifetime income», JASA, vol. 66, 366, 686-692. FERGUSON, T. S. (1967}: Mathematica/ Statistics: a Decision Theoretic Approach, New York & London: Academic Press. HECKMAN, J. J., y MACURDY, T. E. {1980): «A Life Cycie Model of Female Labour Supply», Review of Economic Studies, 47, 47-74. JUANEDA, C. N. (1993): «Un análisis de la encuesta de gasta turistico ( Comparación temporal 1989-1992)». Trabajo de investigación (no publicado), para el concurso al Cuerpo de Catedráticos de Universidad. RAO, C. R. (1965) : Linear Statistical lnference and its Applications, New York: John Wiley & Sons. Ro^o GARCíA, J. L. (1987) : Estimación Bayesiana con funciones de pérdida ligadas a /a cola de una distribución. Homenaje a! Profesor G. Arnaiz Vellando, I N E, 599-610. (1990): Trabajo de Investigación (no publicado}, para el concursa al Cuerpo de Catedráticos de Universidad (Area de Economia Aplicada). Ro^o, J. L., y MARTÍN, I. (1988): «Predicciones de variables endógenas en problemas ligados a la existencia de umbrales», Estadistica Española, INE, 1 16, 45-53. SAN2, J. A. (1994): «Predicciones bayesianas de probabilidad en presencia de umbrales en un modelo lineal. Una aplicación a la predicción del gasta turístico». Tesis doctoral, Departamento de Economia Aplicada (Estadística y Econometría), Universidad de Valladolid. ZELLNER, A. (1971) : An /ntroduction to Bayesian Inference in Econometrics, New York: Wiley. ZELLNER, A.; HONG, C., y MITU GU^ATI, G. (1990): «Turning points in Econamic Time Series, Loss structure and Bayesian forecasting», en Bayesian and Likelihood Methods in Statistics and Econometrics. Essays in Honor of George A. Barnard, S, Geisser, J. S. Hodges, S. James Press y A. Zellner (eds.), Amsterdam: North-Holland, pp. 371-393. ESTAD[STICA ESPANO[_A BAYESIAN PREDICTIONS OF PROBABILITIES RELATED TO TNRESHOi.DS FOR A GENERAL L11`IEAL MODEL SUMMARY In this paper we obtain an optimal predictor for the probability of surpassing a threshold in a General Línear Model (GLM}, applying Bayes+an Analysis. We explicitly Obtain a pred'+ctor for the endogenous variable when the variance of errors is known and a certain standardization of it otherwise. Also the numerical difference between our prediction and the {^LS one is analyied, and finally, our method is expiained through a case concerning the tourist trade of the Balearic Islands. Key Words: Bayesían A^ nalysis, Ecanometrics, Decision Theory. AMS C/assífication: Primary 62H 12. Secondary 62P20.