Distribuciones a priori unidimensionales en modelos no regulares

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 45, Núm. 154, 2003, págs. 363 a 383
Distribuciones a priori unidimensionales en Modelos No Regulares: Medidas
de Información(∗
∗)
por
FRANCISCO JAVIER ORTEGA IRIZO
JESÚS BASULTO SANTOS
Departamento de Economía Aplicada I. Facultad de Ciencias Económicas y Empresariales
Universidad de Sevilla
RESUMEN
A partir de la Medida de Información de Akahira y Takeuchi (1991)
que generaliza la Información de Fisher a modelos no regulares, se
propone una extensión de la regla de Jeffreys que permite obtener
funciones a priori imparciales en modelos no regulares.
Palabras Clave: Medidas de Información, Información de Fisher, Modelo regular, Distribución a priori no informativa (o imparcial), Regla de Jeffreys.
Clasificación AMS: 62F15, 62A15, 62B10
(∗) Los autores queremos expresar nuestro agradecimiento al evaluador, cuyas sugerencias han contribuido a mejorar notablemente la versión inicial del trabajo.
364
ESTADÍSTICA ESPAÑOLA
1. INTRODUCCIÓN
Podemos decir que el objetivo fundamental de la estadística es extraer la información relevante que hay contenida en un conjunto de datos acerca de alguna
característica desconocida. A la vista de ello, es fundamental disponer de técnicas
de reducción de la dimensionalidad, es decir, métodos que permitan disponer de
la misma cantidad de información relevante pero con datos encuadrados en un
espacio de dimensión más pequeña (o en definitiva, trabajando con menos datos).
En este sentido, juegan un papel fundamental los estadísticos, que son funciones
del espacio muestral (de dimensión igual al número de observaciones n) en otros
espacios que pueden ser, y generalmente son, de menor dimensión; dentro de
ellos, son de especial importancia los estadísticos suficientes, que, en esencia, son
aquellos que contienen la misma información relevante que la muestra de tamaño
n.
Es necesario entonces tener alguna medida de la cantidad de información relevante que contiene un estadístico dado sobre la característica desconocida o
parámetro desconocido. Una de estas medidas, como es bien conocido, es la
Información de Fisher, cuya aplicación se limita a los llamados modelos regulares.
De todos es conocido las propiedades interesantes que tiene dicha medida de
información, que permite conocer cuándo un estadístico es suficiente y, caso de no
serlo, cuantificar la pérdida de información que se produce al trabajar con él.
Por otra parte, ya Jeffreys, en su gran obra Theory of Probability , usó medidas
de información, sobre todo la Información de Fisher, para construir distribuciones a
priori no informativas.
Así, teniendo en cuenta la importancia del concepto de información y que la Información de Fisher sólo es aplicable a los modelos regulares, se hace necesario
disponer de una medida análoga para los llamados modelos no regulares, algunos
de los cuales son de verdadero interés tanto teórico como práctico.
A partir de aquí, resumiremos, en la sección primera, la definición y propiedades
de la Información de Fisher. A continuación se analizarán los modelos no regulares,
dando una medida de información aplicable a estos casos y que hereda las propiedades importantes de la Información de Fisher lo que permite conocer la pérdida de
información que se produce al trabajar con un estadístico no suficiente. En la
sección 2, siguiendo los pasos de Jeffreys, se propone una regla para construir
distribuciones a priori no informativas aplicable también a los modelos no regulares
y que se va a basar en el concepto de información estudiado, viéndose posterior-
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
365
mente algunas de las propiedades de la distribución así definida. En la última
sección, se señalarán las conclusiones fundamentales y los problemas abiertos.
2. INFORMACIÓN DE FISHER E INFORMACIÓN DE AKAHIRA
En esta sección, vamos a recordar la definición y propiedades más importantes
de la Información de Fisher, para posteriormente considerar una medida de información aplicable a modelos regulares y no regulares, que reproduce las propiedades de la información de Fisher, y ver la relación existente entre ambas.
2.1.
Información de Fisher. Propiedades
Como sabemos, la Información de Fisher es aplicable sólo a los modelos regulares. Las condiciones de regularidad pueden variar ligeramente de unos autores a
otros según el problema que se esté tratando. Aquí vamos a seguir la definición
propuesta en Azzalini (1996).
Definición: Dada una familia de distribuciones Ρθ , θ∈ Θ ⊆ ℜ κ con funciones de
densidad f (x, θ) , decimos que constituyen un modelo regular si se verifican las
siguientes condiciones:
i) El modelo es identificable, en el sentido de que ∀ θ1 ≠ θ 2 ∈ Θ , ha de existir al
menos un conjunto B del espacio muestral tal que Ρθ1 (Β) ≠ Ρθ 2 (Β) .
ii) El espacio paramétrico Θ es un intervalo abierto de ℜ κ .
iii) Todas las funciones de densidad especificadas por el modelo tienen el mismo soporte.
iv) Para la función f, la derivación con respecto a θ y la integración con respecto
a x pueden intercambiarse hasta orden dos. Concretamente:
1.
∫
∂
∂
f (x, θ)dx =
f (x,θ)dx
∂θ
∂θ
∫
y
2.
∂2
∫ ∂θ
2
f (x, θ)dx =
∂2
∂θ 2
∫ f(x, θ)dx
donde debe entenderse que si k>1, entonces ∂ 2 ∂θ2 representa ∂ 2 ∂θ∂θt .
Como es conocido, a partir de las hipótesis anteriores pueden obtenerse las dos
propiedades siguientes:
 ∂ log f (x, θ)
 =0
∂θ


1. Ε θ 
∀θ
y
 ∂ logf (x, θ)  2 
 ∂ 2 log f (x, θ)
  = − Εθ 

∂θ
∂θ 2
 



2. Ε θ 
∀θ
366
ESTADÍSTICA ESPAÑOLA
Definición: Se llama Información de Fisher que la variable X proporciona sobre
el parámetro θ ∈ Θ ⊆ ℜκ a
 ∂ log f (x,θ) 2 
Ι x (θ) = −Ε θ 
 .
∂θ

 
Aplicando la propiedad 2, se obtiene que
 ∂ 2 log f (x,θ) 
 .
Ι x (θ) = − Εθ 


∂θ2


Dada una muestra aleatoria simple X 1 ,..., X n y un estadístico T (X 1 ,..., X n ) , uti-
lizaremos la siguiente notación a partir de ahora: Ι x1 (θ) = Ι (θ) será la información
proporcionada por una muestra de tamaño 1; Ι x (θ) será la información proporcio-
nada por la muestra de tamaño n; Ι Τ (θ) será la información proporcionada por el
estadístico T.
Nota: En el caso de más de un parámetro, podemos aprovechar la propiedad 2
para definir la matriz de Información de Fisher como la matriz dada por:
 ∂ 2 logf (x, θ)
 ∂ 2 log f (x, θ)
(
(
)
)
Ι
θ
=
−
Ε
,
es
decir
,
Ι (θ)= − Εθ 

.

θ
t
i, j
 ∂θi∂θ j 

 ∂θ∂θ
Recordemos que la Información de Fisher verifica varias propiedades interesantes, entre las que destacamos:
i) Si T y S son estadísticos independientes, entonces Ι (T ,S) (θ) = IT (θ) + Ι S (θ) .
Como consecuencia inmediata, Ι x (θ) = nΙ x1 (θ). .
ii) T es auxiliar (es decir, su distribución no depende del parámetro θ)
Ι T (θ) = 0 ∀θ .
sii
iii) Ι T (θ)≤ Ι x (θ) , dándose la igualdad ∀θ sii T es suficiente.
La Información de Fisher es de gran interés y utilidad desde diversas perspectivas. En primer lugar, podemos estudiar la pérdida de información que se produce al
trabajar con un estadístico T no suficiente calculando Ι x (θ) − Ι Τ (θ) o bien
Ι Τ (θ) Ι x (θ ) . La Información de Fisher también juega un papel relevante al propor-
cionar la conocida cota de Cramer-Rao para la varianza de los estimadores insesgados y la varianza asintótica del estimador máximo-verosímil, que en modelos
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
367
regulares coincide con la cota y, por tanto, dicho estimador en estos casos es
asintóticamente eficiente.
Además, a partir de los trabajos de Jeffreys (1946,1961), el concepto de Información de Fisher tomó también relevancia dentro del enfoque Bayesiano, ya que
dada una reparametrización biyectiva y regular ϕ=ϕ(θ) (donde suponemos que
ambos parámetros son unidimensionales), sabemos que Ι (ϕ ) = Ι (θ) ∂θ / ∂ϕ
2
y por
tanto, la regla de obtención de distribuciones a priori consistente en tomar
π(θ)∝ Ι (θ) es invariante ante reparametrizaciones, ya que verifica
π(ϕ )∝ Ι (ϕ ) = Ι (θ)
∂θ
∂θ
= π(θ)
∂ϕ
∂ϕ
Así, este autor propuso la llamada regla de Jeffreys para construir distribuciones
a priori no informativas basándose en el concepto de Información de Fisher. En el
caso univariante, esta es la opción actualmente más aceptada.
La importancia del concepto de Información de Fisher es indudable, aunque eso
sí, recordando siempre que sólo es aplicable a modelos regulares. Por ello, es
natural plantearse si habrá alguna forma de generalizar este concepto o al menos
definir una medida de información aplicable a modelos no regulares y que tenga en
esencia todas las propiedades de la Información de Fisher. La idea entonces es
que una tal medida de información permitiera, en los modelos no regulares, calcular
la pérdida de información correspondiente a un estadístico no suficiente y construir
una regla de elección de distribuciones a priori no informativas, que es el objetivo
del presente trabajo.
2.1.
Información de Akahira. Propiedades
Hay muchas definiciones de medidas de información aplicables a modelos no
regulares, aunque nosotros vamos a trabajar sólo con la que utilizan Akahira, y
Takeuchi (1991).
Consideremos una familia de distribuciones de probabilidad cuyas funciones de
densidad, con respecto a la medida de Lebesgue, sea {f (x, θ), θ∈ Θ ⊆ ℜ} y Χ 1 ,..., Χ n
una muestra aleatoria simple del modelo f (x, θ) . Definimos la cantidad de informa-
ción entre f (•, θ1 ) y f (•, θ 2 ) como:
∫
Jx1 (θ1, θ2 ) = − 8 log f (x, θ1)1 / 2 f (x, θ2 )1 / 2 dx
368
ESTADÍSTICA ESPAÑOLA
La integral que aparece en la definición es conocida como la afinidad entre
f (•, θ1 ) y f (•, θ 2 ) (que llamaremos Α x1 (θ1 , θ 2 ) ). Podemos observar de forma trivial
que:
• Si θ1 = θ 2 , entonces la afinidad es uno (es decir, la afinidad de una variable
consigo misma es uno).
• Si sop (Χ θ1 )∩ sop (Χ θ 2 ) = ∅ , entonces la afinidad entre las distribuciones es
cero (donde sop (Χ θi ) representa el soporte de la densidad f (x, θi ) ).
La afinidad es una medida de “cuán parecidas” son las distribuciones, que toma
valores entre 0 y 1 (Matusita, 1955). Al ser la información una función decreciente
de la afinidad, obtendremos que la información es una medida de “cuán distintas”
son las variables. Remarquemos también que la información entre dos variables
estará comprendida entre 0 e infinito, alcanzándose estos valores en los dos casos
extremos reseñados anteriormente.
Dada una muestra aleatoria simple Χ 1 ,..., Χ n y un estadístico Τ(Χ ) , la cantidad
de información aportada por T será:
∫
1/ 2
JΤ (θ1 , θ 2 ) = − 8 log f (t, θ1 )
f (t, θ 2 )1/ 2 dt
La Información de Akahira, reproduce las tres propiedades más importantes de
la información de Fisher.
Propiedad 1: Dados los estadísticos S y T independientes, se verifica
J(S,T ) (θ1 , θ 2 ) = JS (θ1 ,θ 2 ) + JT (θ1 , θ 2 ) .
Notemos que a partir de este resultado es inmediato establecer que la información proporcionada por una muestra aleatoria simple de tamaño n será n veces la
proporcionada por una muestra de tamaño 1.
Propiedad 2: Τ (Χ ) es un estadístico auxiliar (es decir, su distribución es independiente del parámetro) si y sólo si JT (θ1, θ 2 )= 0 .
Propiedad 3: Dado un estadístico Τ (Χ ) se verifica JΤ (θ1,θ2 ) ≤ Jx (θ1, θ 2 ) , dándose la igualdad para todo par de valores θ1 , θ2 si y sólo si T es suficiente para el
parámetro θ.
La demostración de estas propiedades puede verse en Akahira y Takeuchi,
(1991).
Ejemplo 2.1: Consideremos el modelo Exponencial de parámetro θ>0, cuya
función de densidad es f (x, θ) = θe − θx , x > 0 .
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
(
En este caso, ∀θ1 , θ 2 > 0 , tenemos Α(θ1, θ2 ) = 2 θ1θ2 / θ1 + θ2
(
(
J(θ1, θ2 ) = − 8 log 2 θ1 θ2 / θ1 + θ2
) ).
)
369
y por tanto,
Ejemplo 2.2: Consideremos el modelo U (θ − 1/ 2, θ + 1/ 2), θ ∈ ℜ . Dados dos valores θ1 y θ2, en este caso obtenemos:
− 8 log (1 + θ2 − θ1 ) si θ2 ≥ θ1 y sop (Χ1 ) ∩ sop (Χ 2 ) ≠ ∅

J (θ1, θ2 ) = − 8 log (1 + θ1 − θ2 ) si θ1 ≥ θ2 y sop (Χ1 ) ∩ sop (Χ 2 ) ≠ ∅
+ ∞
si sop (Χ1) ∩ sop (Χ 2 ) = ∅

donde Χi ≈ U (θi − 1 / 2, θi + 1 / 2), i = 1,2 . Esta fórmula, puede ser resumida en
− 8 log (1− θ1 − θ 2 ) si θ1 − θ 2 ≤ 1
J (θ1 , θ 2 ) = 
si θ1 − θ 2 > 1
+ ∞
2.2.3
Relación entre las Informaciones de Fisher y de Akahira
Como hemos señalado anteriormente, la medida de información de Akahira
puede usarse como alternativa a la información de Fisher en aquellos modelos en
los que ésta no se puede calcular (es decir, en los llamados modelos no regulares).
En el caso de modelos regulares, existe una conexión entre ambas medidas de
información reflejada en la siguiente proposición, cuya demostración puede verse
en Akahira y Takeuchi (1991).
Proposición: En los modelos regulares, para h suficientemente pequeño se verifica:
( )
J (θ, θ + h) = Ι (θ) h2 + o h2
A partir de la proposición, podemos establecer inmediatamente el siguiente corolario:
Corolario: En los modelos regulares, se verifica
Ι (θ) = lim
h→ 0
J (θ, θ + h)
h2
De este corolario, podemos extraer las dos conclusiones siguientes:
a) Tenemos que J (θ, θ + h) tiende a cero cuando h tiende a cero (para cualquier valor de θ) y además la velocidad de esta convergencia es del orden de h2.
370
ESTADÍSTICA ESPAÑOLA
b) Dado un h pequeño y fijo, mientras mayor sea Ι (θ) , “más distintas” serán
f (x, θ) y f (x, θ + h) y, por tanto, mayor será la “capacidad de discriminación” entre
θ y θ+h.
Según Pitman, (1979), págs. 18 y 19, el término de “información” de Fisher es
inadecuado y propone que Ι (θ) debería ser la “sensibilidad” en θ, ya que nos
muestra la variación que experimentan las distribuciones ante pequeños cambios
en los parámetros.
Vemos así que a través de esta definición alternativa de la Información de
Fisher se mantiene la idea de su significado y, quizás, éste queda aún más claro
que a través del proceso convencional de considerar la tasa de variación relativa
(∂ log (f (x; θ) / ∂θ)) y calcular su varianza tras observar que la esperanza de dicha
cantidad es cero.
Indiquemos también que Pitman (1979), adopta como definición de modelo regular la existencia de lim J (θ, θ + h) / h2 , resaltando que para que se cumpla esta
h→0
(
)
propiedad no es necesario que el recorrido de la variable no dependa del parámetro. En efecto, si consideramos el modelo cuya densidad es:
f (x, θ) =
1 (θ− x )
(x − θ)2 x ≥ θ ,
e
2
es fácil comprobar que se verifican:
1. lim
h→0
2. lim
h→ 0
J (θ, θ + h)
 ∂ log f (x, θ)
=Ε
=0
h
∂θ


J (θ, θ + h)
h2
 ∂ log f (x, θ)  2 
 ∂ 2 log f (x, θ)
= 1 = Ε 
  = − Ε

∂θ
∂θ2
 



y por tanto este modelo sería regular, aunque el recorrido dependa del parámetro.
Es muy importante destacar que la propiedad expresada en este corolario, en
esencia, puede encontrarse en el artículo del propio Jeffreys (1946), pág. 455.
Aunque con notaciones muy distintas, y usando dos medidas de información diferentes (ambas con el mismo comportamiento local, ante pequeñas variaciones en
los parámetros, que la medida usada en el presente trabajo), establece que las
medidas de información consideradas “son aparentemente las únicas que habitualmente son de segundo orden en la diferencia de los parámetros de las leyes
cuando esta diferencia es pequeña”. Además, también indica que su propuesta de
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
371
obtención de la distribución a priori no siempre es aplicable, poniendo como ejemplo el modelo U (0, θ) , donde el comportamiento es de primer orden (indica también
la excepción de los modelos con espacio paramétrico discreto, en los cuales no
podemos derivar). Estas observaciones han sido fundamentales para el desarrollo
de la propuesta que nosotros haremos en el epígrafe siguiente.
Nota: Obsérvese cómo la información puede calcularse sin problemas en el caso de más de un parámetro. De hecho, la definición de información puede establecerse de forma más general usando directamente medidas de probabilidad. En
concreto, en Akahira y Takeuchi (1991), la definición que se ofrece es:
Dada una variable aleatoria X definida sobre un espacio muestral χ y P y Q medidas absolutamente continuas respecto a una medida σ-finita µ, definimos la
cantidad de información entre P y Q como:
1/ 2
 dP 

J (P, Q ) = − 8 log 
 dµ 
∫
1/ 2
 dQ 


 dµ 
dµ
La definición ofrecida inicialmente en este trabajo no es más que un caso particular, donde P y Q son las medidas de probabilidad inducidas por las variables
correspondientes a los parámetros θ1, θ2, la medida σ-finita considerada es la de
Lebesgue y las derivadas respecto a esta medida son las funciones de densidad de
las variables.
3. OBTENCIÓN DE DISTRIBUCIONES A PRIORI NO INFORMATIVAS
3.1.
Elección de la distribución a priori
Tras observar la relación entre ambas medidas de información en los modelos
regulares, nos podemos preguntar qué ocurriría en el caso de considerar un modelo
no regular. Antes de pasar a resultados generales, vamos a ver un ejemplo.
Ejemplo 3.1: Consideremos el modelo U (0, θ), θ ∈ (0, + ∞ ) , con función de densidad f (x, θ) = θ −1 , 0 ≤ x ≤ θ .
Como es conocido, este modelo es no regular, puesto que
∂
1
∂
∫ ∂θ f (x, θ)dx = − θ ≠ 0 = ∂θ ∫ f (x, θ) dx
372
ESTADÍSTICA ESPAÑOLA
Para h>0 obtendremos J (θ, θ + h) = − 4 log (θ / (θ + h)) mientras que para h<0 se
tendrá J (θ, θ + h) = − 4 log ((θ + h) / θ ) , por lo que en este modelo se verifica
lim
h→ 0
J (θ, θ + h)
=+∞
h2
Es decir, J(θ,θ+h) converge a cero cuando h tiende a cero, pero la velocidad de
esta convergencia es inferior a la de h2. Sin embargo, podemos comprobar que
dicha convergencia es tan rápida como la de h. En efecto, cálculos elementales
de límites nos llevan a:
lim+
h→0
J (θ, θ + h)
J (θ, θ + h)
= lim−
= 4/θ
h→0
h
h
Hemos visto así que en ambos casos (modelo regular y no regular) se tiene
lim J (θ, θ + h) = 0 (recordar que J (θ, θ) = 0 ), si bien la velocidad de esta converh→ 0
gencia es más rápida en los modelos regulares que en el modelo uniforme. En la
literatura estudiada hasta ahora, esta medida de información ha sido usada fundamentalmente para definir la pérdida de información que se produce al trabajar con
un estadístico no suficiente en un modelo no regular y ver si esta pérdida de información converge a 0 y con qué velocidad lo hace.
Este trabajo, sin embargo, trata de aprovechar la relación existente entre ambas
medidas de información para proporcionar una propuesta de obtención de distribución a priori no informativas, que sea aplicable tanto a modelos regulares como no
regulares. Sabemos que en los modelos regulares (con un único parámetro) la
distribución a priori no informativa comúnmente aceptada es la de Jeffreys, a saber,
π(θ)∝ (Ι (θ))1/ 2 que podemos escribir a partir del corolario como

J (θ, θ + h) 
π(θ) ∝  lim
2
 h→0

h


1/ 2
Según el ejemplo visto anteriormente de la distribución uniforme, y puesto que la
convergencia es del orden de h, proponemos como distribución a priori para el
parámetro θ
π(θ) ∝ lim
h→ 0
J (θ, θ + h)
h
De forma global, nuestra propuesta es la siguiente:
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
373
1. Obtener k tal que
 J (θ, θ + h) 
lim 
 = C (θ)
h→ 0 
hk

donde C(θ) es una función que puede ser constante (pero no idénticamente nula ni
infinito).
2. Elegir como distribución a priori
 J (θ, θ + h)  1 / k

π (θ) ∝ lim 
k

h→ 0 
h


Ejemplo 3.1. (continuación): En el ejemplo anterior de la distribución uniforme
en (0,θ), como obtuvimos que el límite era 4/θ, tendremos π (θ) ∝ θ −1 que es la
distribución que se acepta comúnmente como no informativa para este modelo, y
que coincide con la distribución a priori de referencia de Bernardo y Smith (1994) y
con la distribución imparcial de Basulto (1997).
Ejemplo 3.2: Consideremos el modelo U (θ − 1/ 2, θ + 1/ 2), θ ∈ ℜ , con función
de densidad
f (x, θ) = 1,
θ−
1
1
≤x≤θ+
2
2
Para h>0, obtenemos J (θ, θ + h) = − 8 log (1 − h) , mientras que para h<0 la información es J (θ, θ + h) = − 8 log (1 + h) . Puede comprobarse sin dificultad que
también en este caso la velocidad de convergencia a 0 es del orden de h y que
se verifica
lim
h→0
J (θ, θ + h)
=8
h
y por tanto, la distribución a priori sería para este caso π (θ) ∝ 1 , que coincide con
la distribución a priori de referencia de Bernardo y Smith (1994) y con la distribución a priori imparcial de Basulto (1997).
Ejemplo 3.3: Consideremos la familia de modelos
f (x, θ) = g (θ)−1 ,
a (θ) ≤ x ≤ b(θ)
374
ESTADÍSTICA ESPAÑOLA
donde a(θ) y b(θ) pueden ser constantes, pero suponemos que si no lo son, entonces a(θ) es estrictamente creciente y b(θ) es estrictamente decreciente, siendo
ambas funciones derivables. En este caso, se tendrá que g(θ) = b(θ) − a(θ) ≥ 0 y
además g(θ) es estrictamente decreciente y diferenciable. Señalemos que si suponemos a(θ) estrictamente decreciente y b(θ) estrictamente creciente el desarrollo
del modelo es totalmente análogo. Esta familia puede verse en Basulto (1997) y en
Kosmas (1990).
Para el caso h>0, la información es
J (θ, θ + h) = −4(log g (θ + h) − log g (θ))
Por lo tanto, teniendo en cuenta que la función g es derivable, vamos a obtener
lim
h→ 0 +
∂ log g (θ)
J (θ, θ + h)
= −4
∂θ
h
El mismo resultado se tendrá para el límite por la izquierda, con lo que, teniendo
en cuenta que g (θ) es decreciente, la distribución a priori que tomaremos será
π (θ) ∝
∂ log g (θ)
∂θ
que coincide con la obtenida a través de la propuesta de Basulto(1997), y que
además tiene unas propiedades muy interesantes como veremos posteriormente.
Nota: Puede comprobarse que el resultado es el mismo si consideramos el
modelo f (x, θ) = c (x ) / g (θ), a (θ) ≤ x ≤ b (θ) imponiendo las mismas condiciones y
además que c (x ) ≥ 0 y que exista C(x) primitiva de c(x).
Ejemplo 3.4: Consideremos el modelo de Cauchy uniparamétrico definido por:
f (x, θ) =
(
1
π 1 + (x − θ)2
) , x, θ ∈ ℜ
Dados dos valores del parámetro θ1 y θ2 , la medida de información J (θ1 , θ 2 ) no
puede ser obtenida explícitamente, ya que la integral que aparece al aplicar la
definición no es resoluble en este caso. No obstante, este modelo verifica todas las
propiedades de regularidad especificadas en la sección 2.1, por lo que, aplicando el
corolario de la proposición establecida en la sección 2.2.3., obtendremos que
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
lim
h→0
375
J(θ, θ + h)
= Ι (θ ) ,
h2
y por tanto la distribución a priori será π (θ)α Ι (θ) . Por otra parte, en este modelo
tendremos:
+∞

 ∂ 2 log f (x, θ)
4 (x − θ)2
2

Ι (θ) = − Ε θ 
=
−

2
2

∂θ
1 + (x − θ)2

 − ∞ 1 + (x − θ)
∫
(
)
2

 f (x, θ) dx = 1 ,

2

y por tanto, la distribución a priori sería π (θ)α1 .
3.2.
Expresión alternativa para la obtención de la distribución a priori
En esta sección vamos a considerar una familia de modelos para los cuales vamos a deducir una expresión alternativa de la distribución a priori, que permite su
cálculo con mayor facilidad. Dicha familia de modelos es la que se considera en
Ghosal y Samanta (1997). En este artículo se estudia una familia no regular que
verifica una serie de condiciones y en ella se obtiene un desarrollo asintótico para
la distribución a posteriori y la distribución límite de la misma. La situación que se
plantea en este trabajo es la que sigue.
Sean Χ 1 ,..., Χ n independientes e idénticamente distribuidas con distribución Ρθ
y con densidad f(x,θ) respecto a la medida de Lebesgue en ℜ , donde θ ∈ Θ ⊆ ℜ
siendo Θ abierto. Suponemos que ∀θ∈Θ, f(•,θ) es estrictamente positiva en un
intervalo cerrado (acotado o no) S (θ) = [a1 (θ), a2 (θ)] y vale cero fuera de él. Está
permitido que uno de los extremos sea constante y puede ser más o menos infinito.
Vamos a exigir también que los conjuntos S(θ) sean crecientes o decrecientes en θ
(es decir, que ∀ θ1 < θ 2 se verifique S (θ1 ) ⊆ S (θ 2 ) o bien S (θ1 ) ⊇ S (θ 2 ) ). En lo
que sigue se supone que son decrecientes (si son crecientes el desarrollo es
completamente análogo), es decir, a1 (θ) es creciente y a2 (θ) decreciente; aún
más, vamos a suponer que estas funciones son estrictamente monótonas y continuamente diferenciables a menos que sean constantes o valgan más o menos
infinito.
Vamos a suponer además las siguientes hipótesis:
{(x, θ) : x ∈ S (θ)}, f (x, θ) es conjuntamente continua en (x, θ) .
log f(x, θ) es dos veces diferenciable respecto a θ en el conjunto
1) En el conjunto
2) Para cada x,
{a1 (θ) < x < a2 (θ)} .
3) ∀θ ∈ Θ,
Ε θ [∂ log f (x, θ) / ∂θ] es finita.
376
ESTADÍSTICA ESPAÑOLA
Nota 1: Estas son algunas de las hipótesis (no todas), que se suponen en la
familia que aparece en el artículo de Ghosal y Samanta (1997). Indiquemos que,
según se afirma en dicho trabajo, en Ghosal et al.(1995) se demuestra que las
condiciones exigidas son suficientes para la existencia de un límite en probabilidad
de la distribución a posteriori; Ghosh et al. (1994) aplican sus resultados a diversas
familias que no cumplen estas condiciones y obtienen que para ellas no existe un
límite. Así, en vista de estos dos artículos, la familia considerada es esencialmente
la única para la que existe el límite a posteriori.
Nota 2: Los modelos más importantes que pertenecen a esta familia son:
1. La familia de localización: f (x, θ) = f0 (x − θ), θ ∈ ℜ donde f0 (z) es una densidad en el intervalo [0,+ ∞ ) . En este caso, a1 (θ) = θ y a2 (θ) ≡ +∞ .
2. f (x, θ) = c(x ) / g (θ),
3.3).
a(θ) ≤ x ≤ b(θ) (es decir, la familia tratada en el ejemplo
Observemos que esta familia incluye a gran cantidad de modelos, entre los que
podemos destacar los modelos uniformes con soporte en (i) [0,θ], θ>0,
(ii) [-θ,θ],θ>0, (iii) [θ,1/θ], 0<θ<1, así como la familia truncada
f (x, θ) = g(x ) / G (θ), x > θ donde g(•) es una densidad en (0,+∞ ) y
∫
+∞
G (x) = g (t ) dt . Indiquemos que el modelo de Pareto pertenece a la familia truncax
da, ya que en este caso la función de densidad es f (x, θ) = αθ α x − (1+ α ) ,
∫
x > θ y así
+∞
estamos en la situación descrita tomando g (x ) = αx 1− α y G (θ) = g (t ) dt = θ −α .
x
Señalemos también que modelos tales como los uniformes en [θ − 1 / 2, θ + 1/ 2]
o en [θ,2θ] no están en esta familia por no ser los soportes ni crecientes ni decrecientes en θ (es decir, dados θ1 < θ 2 en general no se verifica ni
sop (θ1 ) ⊆ sop (θ 2 ) ni sop (θ1 ) ⊇ sop (θ 2 ) ).
Suponiendo las condiciones de regularidad (1), (2) y (3) vamos a establecer una
proposición análoga a la que se desarrolla en Akahira y Takeuchi (1991) y que va a
servir para asegurar la existencia del límite y decir cuánto vale éste.
Proposición. Bajo las condiciones señaladas anteriormente, se tiene:
lim
h→0
J (θ, θ + h)
 ∂ log f (x, θ)
= 4Ε 

∂θ
h


La demostración puede llevarse a cabo siguiendo un camino similar al desarrollado para el caso regular, siendo la diferencia más significativa que al hacer desa-
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
377
rrollos de Taylor de log f (x, θ) tomaremos orden 1 en vez de orden 2, ya que en el
caso regular se verifica
 ∂ log f (x, θ)
Εθ 
=
∂θ


∫
∂ log f (x, θ)
f (x, θ) dx = 0
∂θ
quedando así el comportamiento del desarrollo que se hace marcado por el término
de segundo orden, mientras que en el caso no regular dicho comportamiento lo
marca el término de primer orden al no ser su esperanza nula.
Como consecuencia de la proposición, la distribución a priori que elegiríamos en
este caso sería:
 ∂ log f (x, θ)
π (θ) ∝ Ε 

∂θ


Nota: Si mantenemos todas las condiciones anteriores, pero suponiendo ahora
que a1 (θ) es estrictamente decreciente y que a2 (θ) es estrictamente creciente, se
puede repetir toda la demostración, obteniéndose π (θ) ∝ − Ε [∂ log f (x, θ) / ∂θ]. En
definitiva, en la familia de modelos estudiada en Ghosal y Samanta (1997), obtenemos como distribución a priori π (θ) ∝ Ε [∂ log f (x, θ) / ∂θ] que, evidentemente, será
una distribución válida siempre que dicha esperanza no sea idénticamente nula.
Observemos también que en el caso de la familia (2) tratada anteriormente en el
ejemplo 3.3 se tiene
∂ log f (x, θ )
∂ log g(θ)
 ∂ log f (x, θ)
 ∂ log g(θ )
=−
⇒ Ε
 = Ε

∂θ
∂θ
∂
θ
∂θ




con lo que el resultado obtenido en el ejemplo concuerda con el obtenido a partir de
la proposición. Puede verse también fácilmente que en el modelo U (0, θ) ambos
resultados coinciden.
Ejemplo 3.5: Consideremos la familia de localización: f (x, θ) = f0 (x − θ), θ ∈ ℜ
donde f0 (z) es una densidad en el intervalo [0,+∞ ) .
En este caso, al aplicar el resultado obtenido en la proposición tenemos lo siguiente:
∂ log f (x, θ ) − f0' (x − θ)
 ∂ log f (x, θ)
=
⇒Ε
=−
∂θ
∂θ
f0 (x − θ)


∫
+∞
0
f0' (z ) dz = f0 (0 )
378
ESTADÍSTICA ESPAÑOLA
De esta forma, la distribución a priori sería π (θ) ∝ 1 siempre que f0(0) ≠ 0, en
cuyo caso lo que ocurre es que la convergencia de la información es de orden dos,
con lo que tendríamos que calcular el límite dividiendo por h2.
3.3.
Propiedades de la distribución a priori propuesta
3.3.1. Invarianza ante reparametrizaciones
La expresión alternativa que hemos propuesto en el epígrafe 3.2 para obtener
nuestra distribución a priori no informativa conlleva a que, al menos en la familia de
Ghosal y Samanta (1997), la regla de construcción de distribuciones a priori sea
invariante ante reparametrizaciones. En efecto, trivialmente tenemos que:
 ∂ log f (x, ϕ)
π (ϕ) ∝ Ε 

∂ϕ


 ∂ log f (x, θ) ∂θ 
 ∂ log f (x, θ)
= Ε
 = Ε

∂θ
∂ϕ 
∂θ



∂θ
,
∂ϕ
y, en definitiva, se obtiene π (ϕ )∝ π (θ) ∂θ / ∂ϕ que es precisamente la propiedad de
invarianza buscada.
3.3.2
Propiedades frecuencialistas de los intervalos Bayesianos
Uno de los argumentos más usados en la literatura para construir distribuciones a priori no informativas (o para decidir si una determinada distribución a priori
no informativa es una elección buena) es poder calcular con dichas distribuciones
intervalos bayesianos de probabilidad 1-α cuyo nivel de confianza, en el sentido de
la estadística clásica, sea también 1-α ( o al menos, de forma aproximada).
El primer trabajo que puede considerarse en este sentido es el de Welch y
Peers (1963), en el que se demuestra que en modelos regulares y con un sólo
parámetro la distribución de Jeffreys es la única que verifica
Ρ θ < g(S, α) θ = 1 − α + O n −1 donde g(S, α) es el extremo superior del intervalo
[
]
( )
bayesiano unilateral de probabilidad 1-α obtenido a partir de una muestra S de la
variable X , es decir, Ρ θ < g(S, α)S = 1 − α , o lo que es lo mismo, g(S, α) es el
[
]
percentil de orden 1 − α de la distribución a posteriori de θ dada la muestra S.
En Ghosal (1999), se demuestra que, bajo las condiciones descritas en el epígrafe 3.2 para la familia de Ghosal y Samantha (1997), cualquier distribución a
priori diferenciable lleva a intervalos unilaterales con probabilidad de cubrimiento en
sentido frecuencialista 1 − α + O n−1 ; sin embargo, también se establece en dicho
artículo que la única distribución a priori que verifica que los intervalos bayesianos
unilaterales de probabilidad 1 − α tienen probabilidad de cubrimiento 1 − α + O n −2 ,
es la obtenida según nuestra propuesta.
( )
( )
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
379
Hagamos notar que en esta situación no es aconsejable trabajar con intervalos
bilaterales, ya que tanto la distribución a posteriori como la distribución muestral de
θ̂ , en el límite, son muy asimétricas y están muy concentradas en uno de los
extremos de su recorrido.
Aunque este resultado general es bastante importante, queremos destacar también tres casos en los que la coincidencia de resultados entre la inferencia bayesiana y clásica es exacta, que son los que pasamos a describir a continuación.
a) Sea la familia de modelos considerada en el ejemplo 3.3, cuya densidad viene dada por f (x, θ) = c (x ) / g (θ), a (θ) ≤ x ≤ b (θ) , donde suponemos además que
a (θ) es estrictamente creciente y b (θ) estrictamente decreciente.
Para esta familia, en Basulto (1997) se establece que si g (− ∞ ) ≡ +∞ , entonces,
siendo r(π,θ) la función de distribución a posteriori usando la distribución a priori
propuesta en el presente trabajo, se verifica que r(π,θ) es una variable aleatoria
cuya distribución en el muestreo es U(0,1), lo que asegura que un intervalo unilateral bayesiano de probabilidad 1-α construido a partir de r(π,θ) tiene también nivel de
confianza exactamente 1-α (el intervalo Bayesiano coincidiría con el intervalo
clásico basado en la cantidad pivotal r(π,θ)). Si g (−∞ ) = c > 0 , entonces el resultado
se tiene asintóticamente.
b) Sea la familia de localización considerada en el ejemplo 3.4, cuya densidad
viene dada por f (x, θ) = f0 (x − θ), θ ∈ ℜ donde f0 (z) es una densidad en [0,+ ∞ ) .
Puesto que este modelo pertenece a la familia de Ghosal y Samantha (1997), es
aplicable el resultado general enunciado anteriormente. No obstante, es muy
interesante señalar que, para este caso, se establece que r (π, θ) es una variable
aleatoria cuya distribución condicionada al estadístico auxiliar {c 2 ,K , c n } es uniforme en (0,1) , siendo c k = y k − y1 , k = 2, K , n donde y 1 ,K , y n representa la
muestra ordenada. Por tanto, obtenemos a través del procedimiento Bayesiano un
intervalo que coincide con el intervalo clásico que se obtiene al condicionar al
estadístico auxiliar (Basulto, 1997).
c) Consideremos por último el modelo U(θ − 1/ 2, θ + 1/ 2) , θ ∈ ℜ , que no responde a las condiciones de Ghosal y Samantha (1997) por no ser los soportes
crecientes ni decrecientes en θ. Con la distribución a priori que se ha propuesto, es
decir, π(θ) ∝ 1 , puede probarse que la función de distribución a posteriori r(π, θ)
sigue una distribución U(0,1) (Basulto, 1997).
380
ESTADÍSTICA ESPAÑOLA
4. CONSIDERACIONES ACERCA DEL CASO MULTIPARAMÉTRICO
Cuando hay más de un parámetro, es decir, cuando θ ∈ Θ ⊆ ℜm , la regla general de Jeffreys, aplicable al caso regular, consiste en tomar π(θ) ∝
Ι (θ) , donde
Ι (θ) representa el determinante de la matriz de información, lo que sigue asegurando la invarianza ante reparametrizaciones arbitrarias. No obstante, esta opción
presenta deficiencias importantes, que hacen que en muchos casos no sea la
opción habitualmente elegida. En el caso del modelo Normal, X ≈ N(µ, σ ) , con
ambos parámetros desconocidos, la regla general de Jeffreys conduce a tomar
como distribución a priori π(µ, σ) ∝ σ −2 . El mismo Jeffreys (1961), p.182 encuentra
esta distribución inaceptable, ya que cuando se extiende al caso de k medias
desconocidas µ 1 ,K , µ k y varianza común σ 2 , los grados de libertad resultantes en
la distribución marginal t-Student de cada µ i no dependen de k. Un resultado muy
similar ocurre en el modelo de regresión lineal, pues si aplicamos la regla general
de Jeffreys para obtener la distribución a priori, obtendremos que la distribución a
posteriori para la varianza poblacional se relaciona con una distribución χ n2 , independientemente del número de variables explicativas del modelo.
Para evitar estos inconvenientes, Jeffreys sugirió una modificación para su regla
general en el caso multiparamétrico que debía aplicarse en los modelos con parámetros de localización y escala. Propuso que en estos casos, debían de tratarse los
parámetros de localización separadamente del resto (Jeffreys, 1961, p.182-183); es
decir, cuando tenemos parámetros de localización µ 1 ,K , µ k y un parámetro adicional de escala σ, entonces el autor recomienda utilizar π(µ 1 , K, µ k , σ ) ∝ Ι (σ ) , donde
Ι (σ ) se calcula considerando µ 1 ,K , µ k fijos, lo que llevará definitivamente a to-
mar π(µ 1 ,K , µ k , σ) ∝ σ −1 . Así, aplicando la regla modificada al modelo Normal
obtendremos π(µ, σ ) ∝ σ −1 en vez de π(µ, σ) ∝ σ −2 . Observemos que la regla
modificada resulta equivalente a obtener la distribución de cada parámetro suponiendo que los otros son fijos y posteriormente, la distribución multiparamétrica será
el producto de las correspondientes unidimensionales.
Un camino interesante para la construcción de distribuciones a priori multidimensionales consiste en obtener las mismas a partir de ciertas distribuciones
unidimensionales (bien marginales o bien condicionadas). Supongamos por simplicidad que θ = (θ1 , θ 2 ) ∈ Θ ⊆ ℜ 2 ; sean π(θ1 , θ 2 ) la distribución a priori conjunta,
π1 (θ1 ) y π 2 (θ 2 ) las respectivas distribuciones marginales y π1 2 (θ1 θ 2 ) y
π 2 1 (θ 2 θ1 ) las condicionadas. En este caso, podemos plantearnos definir la distribución a priori π(θ1 , θ 2 ) como producto de las marginales o bien como producto de
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
381
una condicionada por una marginal (si nuestro parámetro de interés es θ1 consideraríamos π1 2 (θ1 θ 2 )π 2 (θ 2 ) y en caso contrario π 2 1 (θ 2 θ1 )π1 (θ1 ) ). Otro camino
posible, cuando los dos parámetros son de interés, es obtener π1 2 (θ1 θ 2 ) y
π 2 1 (θ 2 θ1 ) y buscar posteriormente una distribución conjunta compatible con
ambas condicionadas (que no siempre tiene por qué existir). En este sentido, en
Arnold y otros (1999), pág. 8, se establece que las dos distribuciones condicionadas definen una conjunta compatible si, denotando
{
}
N1 = (θ1 , θ 2 ) : π1 2 (θ1 θ 2 ) > 0
y
{
}
N2 = (θ1 , θ 2 ) : π 2 1 (θ 2 θ1 ) > 0
se verifica que N1 = N2 = N y además existen funciones h(θ1 ) y h(θ 2 ) tales que
π1 2 (θ1 θ 2 ) / π 2 1 (θ 2 θ1 ) = h(θ1 )h(θ 2 ), ∀(θ1 , θ 2 ) ∈ N
donde
∫ h(θ )dθ
1
1
< ∞ . Para el caso que nos ocupa, es decir, la búsqueda de distri-
buciones a priori, la última condición de integrabilidad puede obviarse, ya que las
densidades a priori pueden ser, y de hecho son muy a menudo, impropias (Arnold y
otros, pág. 133).
Pensamos que la posible generalización al caso multidimensional de nuestra
propuesta debe basarse en esta última vía de construir la distribución a partir de
ciertas marginales o condicionadas, aunque es todavía un tema abierto y que será
objeto de trabajos futuros.
5. CONCLUSIONES
Acudiendo a los trabajos e ideas originales de Jeffreys, hemos propuesto un
procedimiento para obtener distribuciones a priori no informativas, aplicable tanto a
modelos regulares como no regulares. Puesto que si el modelo es regular, nuestra
distribución a priori coincide con la que se obtiene a través de la regla de Jeffreys,
puede entenderse que nuestra propuesta es una generalización de la misma.
La medida de Información usada por Akahira y Takeuchi (1991), se revela sumamente interesante, pues reproduce las propiedades de la Información de Fisher.
Como hemos comprobado, la distribución a priori propuesta muestra buen comportamiento en lo que se refiere a la propiedad de invarianza ante reparametrizaciones. Asimismo, vemos que los intervalos bayesianos obtenidos, tienen buen
comportamiento frecuencialista.
382
ESTADÍSTICA ESPAÑOLA
Es importante resaltar que, cuando en el modelo no existe un estadístico suficiente de la misma dimensión que el espacio paramétrico, los intervalos bayesianos
coinciden con los obtenidos a través del Principio de Condicionar de Fisher y no
con los intervalos clásicos no condicionados. Aunque esta última propiedad sólo se
ha comentado en el presente trabajo para el modelo f (x, θ) = f0 (x − θ), θ ∈ ℜ
hemos podido comprobar que se repite en más casos.
REFERENCIAS
AKAHIRA, M. and TAKEUCHI, K. (1991), «A Definition of Information Amount Applicable to Non-Regular Cases», Journal of Computing and Information, 2, 71-92.
ARNOLD, B.C., CASTILLO, E. and SARABIA, J.M. (1999), «Conditional Specification of
Statistical Models», Springer Series in Statistics, Springer-Verlag, New York.
AZZALINI, A. (1996), «Statistical Inference Based on the Likelihood», Chapman and
Hall, London.
BASULTO, J. (1997), «Funciones a Priori Imparciales Unidimensionales», Estadística
Española, 39, nº 142, 99-128.
BERNARDO, J.M. and SMITH, A.F.M. (1994), «Bayesian Theory», John Wiley and
Sons, Chichester.
COX, D.R. and REID, N. (1987), «Parameter Ortogonality and Approximate Conditional Inference», J. Roy. Statist. Soc., Ser. B, 49, 1-39.
GHOSAL, S. (1999), «Probability Matching Priors for Non-Regular Cases», Biometrika, 86, nº 4, 956-964.
GHOSAL, S. and SAMANTA, T. (1997), «Asymptotic Expansions of Posterior Distributions in Non-Regular Cases», Ann. Inst. Statist. Math., 49, nº 1, 181-197.
GHOSAL, S., GHOSH, J.K. and SAMANTA, T. (1995), «On Convergence of Posterior
Distributions», Ann. Statist., 23, 2145-2152.
GHOSH, J.K., GHOSAL, S. and SAMANTA, T. (1994), «Stability and Convergence of
Posterior in Non-Regular Problems», Statistical Decision Theory and Related
Topics V, (eds. SS. Gupta and J.O. Berger), 183-199, Springer, New-York.
JEFFREYS, H. (1946), «An Invariant Form for the Prior Probability in Estimation
Problems», Proc. Roy. Soc. (London), Ser. A, 186, 453-461.
JEFFREYS, H. (1961), «Theory of Probability», 3rd. edition, Oxford University Press,
London.
DISTRIBUCIONES A PRIORI UNIDIMENSIOANALES EN MODELOS NO REGULARES: MEDIDAS DE INFORMACIÓN
383
KOSMAS, K.F. (1990), «Shortest Confidence Intervals for Families of Distributions
Involving Truncation Parameters», The American Statician, 44, 167-168.
MATUSITA, K. (1955), «Decisión Rules Based on the Distance for Problems of Fit,
two Samples and Estimation», Ann. Math. Statist., 26, 631-640.
PITMAN, E.J. (1979), «Some Basic Theory for Statistical Inference», Chapman and
Hall, London.
W ELCH, B.L. and PEERS, H.W. (1963), «On Formulae for Confidence Points Based
on Integral of Weithed Likelihoods», J.R. Statist. Soc., Ser. B, 25, 318-329.
ONE-PARAMETER PRIOR DISTRIBUTIONS FOR NON-REGULAR
MODELS: AMOUNTS OF INFORMATION
SUMMARY
From the Information Measure of Akahira and Takeuchi (1991),
that it generalizes the Fisher Information to non-regular models, an
extension of the Jeffreys’ Rule sets out, that allows to obtain noninformative prior distributions in non-regular cases.
Key words: Amount of Information, Fisher Information, Regular model,
Noninformative prior distribution, Jeffreys Rule
AMS classificcation: 62F15, 62A15, 62B10
Descargar