LA FUNCION CUANTIL: UNA APLICACIÓN AL ESTUDIO DE LA

Anuncio
LA FUNCION CUANTIL: UNA APLICACIÓN AL ESTUDIO DE LA
PROPORCIONALIDAD ENTRE CARACTERISTICAS POBLACIONALES.
Cantalejo García, Francisco
García Lopera, Francisca
Molina Ruiz, Salvador Javier
Profesores del Departamento de Economía Aplicada (Universidad de Málaga)
RESUMEN
En este trabajo desarrollamos un breve estudio sobre la función cuantil y su estimación
según un determinado método en el caso de utilizar información auxiliar. Presentamos el
método de estimación de la función cuantil que va acompañado de la estimación de la función
de distribución. Consideradas dos características de esa población, definimos un estimador ratio
simple de la función cuantil que nos va a servir para poder analizar la relación de
proporcionalidad que pueda existir entre ambas, observando que cuanto mayor es esta relación
más se aproxima el estimador ratio a la función cuantil de la población, coincidiendo ambas en
el caso de que esta relación de proporcionalidad sea total. Se acompaña dicho estudio de una
simulación realizada sobre una población donde hemos analizado las dos características.
Palabras Clave: Función cuantil, Estimador ratio simple, Proporcionalidad de datos
poblacionales.
Clasificación AMS:90C40
INTRODUCCION
En este trabajo presentamos un método de análisis de la relación de proporcionalidad que
pueda existir entre las características o datos de una población, basado en la función cuantil de
la misma, cuando se utiliza información auxiliar, mediante la utilización de unos estimadores
ratios tanto de la función de distribución, como de la función cuantil, que poseen la propiedad
de coincidir con valores de la función de distribución y de la función cuantil poblacional,
cuando existe proporcionalidad entre los datos. En primer lugar definimos la función cuantil de
la siguiente forma
1
Supongamos que X1 , X2, ... , Xn son variables aleatorias independientes e idénticamente
distribuidas, con función de distribución F absolutamente continua.
La función cuantil Q ( t ) con 0 ≤ t ≤ 1, está definida por
Q ( t ) = F−1 ( t ) = inf {x : F ( x ) ≥ t }
En cuanto a las características podemos observar que
1) La función cuantil es no decreciente y continua por la izquierda
2)
Q[F(x)] ≤ x
∀x∈ℜ
3)
F[Q(t)]≥ t
∀x∈ ℜ
4)
F(x) ≥ t
si
x ≥ Q(t)
También podemos afirmar que si F es absolutamente continua, entonces se verifica
 n
k
P { x(k) ≤ Q ( t ) ≤ x(k+1) } =   tk ( 1 - t ) n-k
ESTIMACION DE LA F.DE DISTRIBUCION Y DE LA F. CUANTIL Y SU
APLICACIÓN A LA PROPORCIONALIDAD DE POBLACIONES.
Dada la definición de función cuantil vamos a estimar la función de distribución, cuando
utilizamos información auxiliar. Supongamos dos determinadas características X e Y, aplicando
el método propuesto por Chambers& Dunstan, que nos permite utilizar la información auxiliar
en las etapas de estimación. Se observa con un estudio de simulación que con un moderado
tamaño de la muestra n = 30, este estimador se puede considerar más eficiente que el usual
estimador de la función de distribución que no utiliza información auxiliar y esto con una fuerte
relación lineal entre la variable de interés y la variable auxiliar x existente.
Suponemos para ello que la población obedece un modelo de superpoblación asumido
por Chambers & Dunstan de la forma
2
yi = β xi + v ( xi ) u i
( i = 1, 2, ... , N )
dónde N es el tamaño de la población , β es un parámetro desconocido, v ( x ) = x
1
2
y ui
es la variable aleatoria independiente e idénticamente distribuida con media cero.
Para la estimación de la función de distribución, que posteriormente nos ayudará a la
estimación de la función cuantil, tendremos que como valor de interés en una población finita
F ( t ) = N-1
∑
∆ ( t - yi )
i∈ U
donde ∆ ( a ) = 1 cuando
a≥0
y
∆(a)=0
en cualquier otro caso y donde U denota
a la población. Supongamos que la muestra s, de elementos es seleccionada de acuerdo con un
plan de muestreo p ( s ) , con la probabilidad de inclusión π j
Entonces el usual diseño de estimador basado en el método tradicional será de la forma
para F ( t ) siguiente:
F$ ( t ) =
∑
i∈s
π i- 1 ∆ ( t - yi ) /
que como vemos no utiliza información auxiliar xi , para
∑
i∈s
πi- 1
i = 1, 2, ... , N en las etapas de
estimación.
Son Chambers & Dunstan los que proponen un modelo como alternativa para un modelo
de superpoblación yi = β xi + v ( xi )u i con
1 
F$ m ( t ) = 
N
∑
i∈s
∆( t - y i ) +
1
n
v( x ) conocido, y el estimador de F ( t ) es
∑
j∈ s , i ∈ s
 ( t - bn xj )
 
 
∆
−
U
n
i
v( x j )

 
donde n es el tamaño de la muestra , bn es el estimador mínimo cuadrático del peso β
viene dado por
3
que
bn
y donde
Un i =
∑ yi xi
 
i∈s
 
 
= 
2
v ( xi ) 

 
( yi − b n xi )
∑x
i∈s
2
i
− 1


2
v ( xi )

y donde s = U - s es el conjunto de unidades
v ( xi )
no muestreadas . El estimador F$ m ( t ) posee la propiedad deseada de que F$ m ( t ) = F ( t )
cuando yi es proporcional a xi para todo i ∈ U , pero es independiente del diseño de
muestreo.
Los estimadores ratio y diferencia del método tradicional de F ( t ) son obtenidos para
resultados standars, es decir, para totales y medias, tratando a ∆ ( t - y i ) y
a
∆ ( t - R$ x i ) como “ y y x variables” respectivamente; donde
∑ y i  ∑ x i 
R$ = 
Π i  
Π i 

−1
es el usual estimador consistente del ratio poblacional R = Y / X.
Un estimador ratio de F ( t ) es
F$ r ( t ) = N
-1


∑ Πi −1 ∆ ( t - y i ) 
i∈s

∑
i∈ s
−
Πi
−1
 1

$ x )   ∑ ∆ ( t - R$ x ) 
∆(t - R
i
i
  i∈ U

El cual se reduce a F ( t ) cuando yi es proporcional a xi para todo i ∈ U y de aquí la
varianza se hace cero en posteriores casos. Esto sugiere que F$ r ( t )
considerables ganancias en eficiencia
sobre F$ ( t )
cuando yi
nos podría llevar a
es aproximadamente
proporcional a xi.
Vamos a considerar el caso de la utilización de la información auxiliar, para la
estimación de los cuantiles poblacionales, aplicado a los datos de los ingresos del Ayuntamiento
de Málaga, donde vamos a utilizar el estimador de la función de distribución que presentamos
en la teoría y que representamos por
4
1 
1
F$ m ( t ) =
 ∑ ∆ ( t − yi ) +
N
n
 ( t − bn x j )
∑ ∆ 
j∈s ; i ∈ s

v ( x j ) − u n i 
donde sabemos que n es el tamaño muestral, donde el valor de bn viene dado por la relación

 y x

bn =  ∑ i i 2
v ( xi ) 
 i∈ s
donde el valor de u
s =U−s
ni
viene dado por
uni =
∑
x 2i
i∈ s


2
v ( xi )
( yi − bn xi )
−1
v ( x i ) y donde sabemos que
es el conjunto de unidades no muestreadas.
Sabemos que F$ m ( t )
posee la propiedad de que F$ m ( t ) = F ( t ) cuando yi es
proporcional a xi para todo i ∈ U , siendo independiente del diseño de muestreo. Esta propiedad
nos puede dar un camino válido, para realizar un estudio sobre la relación de proporcionalidad
que pueden guardar los distintos impuestos. En la hoja de cálculo Excel hemos definido la
macro correspondientes para obtener las funciones de distribución y la macro para obtener los
distintos cuantiles.
Por tanto, cuando los valores obtenidos para F$ m ( t ) son iguales a F ( t ) quiere decir que
ambos impuestos presentan una relación de proporcionalidad, aunque nosotros vamos a estudiar
esta relación de otra forma, más directamente relacionada con los cuantiles en vez de con las
funciones de distribución, si existe una mayor o menor proporcionalidad en los impuestos,
definimos para ello un estimador ratio de θ( α ) de la siguiente forma
 θ$ ( α )

 θ (α)
θ$ ( α ) =  y
θ$ x ( α )  x

donde
5
θ$ y ( α ) = inf
{ t ; F$ ( t ) ≥ α }
y
θ$ x ( α ) = inf { t ; F$ x ( t ) ≥ α
}
y
θ x ( α ) = inf
Este estimador ratio θ$ r ( α )
{ t ; Fx ( t )
≥ α}
se reduce a θ ( α ) cuando yi es proporcional a xi para
todo i ∈ U ,
APLICACION DE ESTE ANALISIS DE PROPORCIONALIDAD A LA
FISCALIDAD DEL AYUNTAMIENTO DE MALAGA.
Vamos a comenzar entonces estimando la función de distribución y por tanto los
cuantiles, utilizando información auxiliar, es decir , mediante F$ m ( t ) , supongamos un
determinado impuesto del que tenemos una muestra cuyos valores representamos por yi, y
desconocemos su población, por tanto no podemos calcular directamente sus cuantiles, y
tenemos la información sobre otro impuesto xi del que conocemos todos sus datos, vamos a
obtener una estimación de la función de distribución de la población desconocida, que verificará
la propiedad deseable de acercarse a la función poblacional cuando los yi son proporcionales a
los xi .
Utilizamos para ello la macro, obteniendo los valores de la función de distribución, y a
partir de aquí y mediante la macro definida para el cuantil, obtenemos los valores de los
cuantiles que presentamos a continuación, para el caso particular, en que los yi representan una
muestra de los ingresos del impuesto de circulación y los xi representan los ingresos obtenidos
por el Impuesto sobre Bienes Inmuebles ( IBI )
P10 = 507
P20 = 693
P25 = 798
P50 = 1824
P75 = 4348
P90 = 10220
6
Si ahora utilizamos como información auxiliar los ingresos obtenidos por el Impuesto
sobre actividades económicas ( IAE ), donde los resultados de la estimación de cuantiles son los
siguientes:
P10 = 507
P50 = 1418
P20 = 533
P75 = 4813
P25 = 798
P90 = 14364
Como podemos apreciar existen evidentes diferencias entre ambas estimaciones
obtenidas, y para comprobar la bondad de las dos vamos a obtener el valor de F ( t ), para la
población de los ingresos del impuesto de circulación, que ahora la suponemos conocida y
presentamos los valores de los cuantiles poblacionales que son los siguientes:
P10 = 532
P20 = 763
P25 = 798
P50 = 1065
P75 = 6804
P90 = 16080
Como podemos apreciar si comparamos las tres tablas de valores nos encontramos con
que los valores obtenidos no son muy próximos lo cual nos lleva a poder afirmar que la
proporcionalidad que existe entre los tres tipos de impuestos es muy pequeña, puesto que en
caso de existir, los valores obtenidos deberían de ser mucho más próximos, además podemos
decir que el IAE parece un poco más relacionado que el IBI, pero en cualquier caso nada
próximos entre ellos.
Pasamos ahora a analizar estas posibles relaciones entre los impuestos, pero utilizando el
cuantil ratio, que hemos definido con anterioridad y que vamos a representar por θr ( α ), este
valor coincidirá con el valor θ( α ), cuando los valores yi sean proporcionales a xi para todo
i∈ U.
Vamos a trabajar con el mismo impuesto, es decir, el impuesto de circulación y vamos a
realizar estos cálculos con otros tipos de ingresos, por ejemplo,
los datos con los que
obtenemos los siguientes resultados o valores del cuantil ratio para tres tipos de ingresos
distintos:
7
1ª población
P10 = 532
P20 = 764
P25 = 798
P50 = 1065
P75 = 6804
P90 = 19881
2ª población
P10 = 532
P20 = 978
P25 = 600
P50 = 1065
P75 = 6856
P90 = 16550
P10 = 517
P20 = 748
P25 = 806
P50 = 1075
P75 = 6840
P90 = 17377
3ª población
Recordamos que los valores de los cuantiles poblacionales θ( α ) son los siguientes:
P10 = 532
P50 = 1065
P20 = 763
P75 = 6804
P25 = 798
P90 = 16080
CONCLUSIONES
Como podemos observar, la primera de las poblaciones ofrece bastante buena
aproximación en los valores, es decir, podemos afirmar que los datos son bastante
proporcionales y analizando de que datos se trata en la primera de las poblaciones, resultan ser
los obtenidos por ingresos obtenidos en la inspección tributaria, es decir valores que se obtienen
de los propios impuestos, más un determinado recargo aplicado según ley, que evidentemente
es un porcentaje de la cuantía del impuesto, por tanto resulta ser lógica la proporcionalidad
detectada en los datos.
8
En las otras dos poblaciones los resultados son bastante más dispares, por tanto, podemos
concluir que la relación de proporcionalidad entre estos tipos de ingresos prácticamente no
existe, en la segunda población los datos pertenecen también a la inspección tributaria, pero en
este caso a otro impuesto distinto del de circulación, lo cual justifica el resultado obtenido y la
tercera población pertenece a los datos de ingresos del Impuesto sobre Bienes Inmuebles y
podemos observar que efectivamente los valores de los cuantiles son distintos prácticamente en
todos los casos, lo cual nos conduce, como en el caso anteriormente estudiado, a ratificar la nula
proporcionalidad existente entre ambos impuestos.
9
BIBLIOGRAFIA
BABU, G.J.(1986): “Estimation of density quantile function”, Sankhya, vol 48,Series A,
Pt. 2, pp. 142-149.
CHAMBERS, R. L. & DUNSTAN, R.(1986): “Estimating distribution functions from
survey data”. Biometrika 73, 597-604.
FALK, M (1987): “On the estimation of the quantile density function”. Statistics &
Probability Letters, 4, pp. 69-73 North-Holland.
HASKELL, J. and
SEDRANSK, J.(1980): “Confidence intervals for quantiles and
tolerance intervals of finite populations”, Unpublished Technical Report, SUNY at Albany,
Department of Mathematics and Statistics, Albany, NY.
KAIGH, W. D. & LACHENBRUCH, P. A.(1983): “A generalized quantile estimator”,
Commun. Statist. - Theor. Meth., vol. 11, nº 19, pp. 2217 - 2238.
KAIGH, W. D. (1983) : “Quantile interval estimation”, Commun.Statist., Theor. Meth.,
vol. 12, nº 21, pp. 2427 - 2443.
LOYNES, R. M.(1990): “Some aspects of the estimation of quantiles”. Journal of the
Royal Statistical Society Series”. B 28 ( 3 ), 497 - 512.
MUÑOZ, J. Y FERNANDEZ, A.(1987): “Estimating the quantile function by Bernstein
polynomials”. Computational Statistics & Data Analysis, vol. 5, pp. 391 - 397.
PARZEN, E.(1991): “Nonparametric statistical data modeling”. J.Amer. Statist. Assoc.,
vol. 74, pp. 105 - 131.
SEDRANSK, J. And MEYER, J.(1978): “Confidence intervals for the quantiles of a
finite population: Simple random and stratified random sampling”. Journal of the Royal
Statistical Society Series B 40 ( 2 ), 239 - 252.
SMITH, P. J. And SEDRANSK, J.(1992): “Lower bounds for confidence coefficients for
confidence intervals for finite population quantiles”. Communications in statistics, Theory and
Methods 12 ( 12 , 1329 - 1344.
WOODRUFF, R. S.(1952): “Confidence intervals for medians and other position
measures”. Journal of the American Statistical Association 47, 635 - 646.
10
Descargar