LA FUNCION CUANTIL: UNA APLICACIÓN AL ESTUDIO DE LA PROPORCIONALIDAD ENTRE CARACTERISTICAS POBLACIONALES. Cantalejo García, Francisco García Lopera, Francisca Molina Ruiz, Salvador Javier Profesores del Departamento de Economía Aplicada (Universidad de Málaga) RESUMEN En este trabajo desarrollamos un breve estudio sobre la función cuantil y su estimación según un determinado método en el caso de utilizar información auxiliar. Presentamos el método de estimación de la función cuantil que va acompañado de la estimación de la función de distribución. Consideradas dos características de esa población, definimos un estimador ratio simple de la función cuantil que nos va a servir para poder analizar la relación de proporcionalidad que pueda existir entre ambas, observando que cuanto mayor es esta relación más se aproxima el estimador ratio a la función cuantil de la población, coincidiendo ambas en el caso de que esta relación de proporcionalidad sea total. Se acompaña dicho estudio de una simulación realizada sobre una población donde hemos analizado las dos características. Palabras Clave: Función cuantil, Estimador ratio simple, Proporcionalidad de datos poblacionales. Clasificación AMS:90C40 INTRODUCCION En este trabajo presentamos un método de análisis de la relación de proporcionalidad que pueda existir entre las características o datos de una población, basado en la función cuantil de la misma, cuando se utiliza información auxiliar, mediante la utilización de unos estimadores ratios tanto de la función de distribución, como de la función cuantil, que poseen la propiedad de coincidir con valores de la función de distribución y de la función cuantil poblacional, cuando existe proporcionalidad entre los datos. En primer lugar definimos la función cuantil de la siguiente forma 1 Supongamos que X1 , X2, ... , Xn son variables aleatorias independientes e idénticamente distribuidas, con función de distribución F absolutamente continua. La función cuantil Q ( t ) con 0 ≤ t ≤ 1, está definida por Q ( t ) = F−1 ( t ) = inf {x : F ( x ) ≥ t } En cuanto a las características podemos observar que 1) La función cuantil es no decreciente y continua por la izquierda 2) Q[F(x)] ≤ x ∀x∈ℜ 3) F[Q(t)]≥ t ∀x∈ ℜ 4) F(x) ≥ t si x ≥ Q(t) También podemos afirmar que si F es absolutamente continua, entonces se verifica n k P { x(k) ≤ Q ( t ) ≤ x(k+1) } = tk ( 1 - t ) n-k ESTIMACION DE LA F.DE DISTRIBUCION Y DE LA F. CUANTIL Y SU APLICACIÓN A LA PROPORCIONALIDAD DE POBLACIONES. Dada la definición de función cuantil vamos a estimar la función de distribución, cuando utilizamos información auxiliar. Supongamos dos determinadas características X e Y, aplicando el método propuesto por Chambers& Dunstan, que nos permite utilizar la información auxiliar en las etapas de estimación. Se observa con un estudio de simulación que con un moderado tamaño de la muestra n = 30, este estimador se puede considerar más eficiente que el usual estimador de la función de distribución que no utiliza información auxiliar y esto con una fuerte relación lineal entre la variable de interés y la variable auxiliar x existente. Suponemos para ello que la población obedece un modelo de superpoblación asumido por Chambers & Dunstan de la forma 2 yi = β xi + v ( xi ) u i ( i = 1, 2, ... , N ) dónde N es el tamaño de la población , β es un parámetro desconocido, v ( x ) = x 1 2 y ui es la variable aleatoria independiente e idénticamente distribuida con media cero. Para la estimación de la función de distribución, que posteriormente nos ayudará a la estimación de la función cuantil, tendremos que como valor de interés en una población finita F ( t ) = N-1 ∑ ∆ ( t - yi ) i∈ U donde ∆ ( a ) = 1 cuando a≥0 y ∆(a)=0 en cualquier otro caso y donde U denota a la población. Supongamos que la muestra s, de elementos es seleccionada de acuerdo con un plan de muestreo p ( s ) , con la probabilidad de inclusión π j Entonces el usual diseño de estimador basado en el método tradicional será de la forma para F ( t ) siguiente: F$ ( t ) = ∑ i∈s π i- 1 ∆ ( t - yi ) / que como vemos no utiliza información auxiliar xi , para ∑ i∈s πi- 1 i = 1, 2, ... , N en las etapas de estimación. Son Chambers & Dunstan los que proponen un modelo como alternativa para un modelo de superpoblación yi = β xi + v ( xi )u i con 1 F$ m ( t ) = N ∑ i∈s ∆( t - y i ) + 1 n v( x ) conocido, y el estimador de F ( t ) es ∑ j∈ s , i ∈ s ( t - bn xj ) ∆ − U n i v( x j ) donde n es el tamaño de la muestra , bn es el estimador mínimo cuadrático del peso β viene dado por 3 que bn y donde Un i = ∑ yi xi i∈s = 2 v ( xi ) ( yi − b n xi ) ∑x i∈s 2 i − 1 2 v ( xi ) y donde s = U - s es el conjunto de unidades v ( xi ) no muestreadas . El estimador F$ m ( t ) posee la propiedad deseada de que F$ m ( t ) = F ( t ) cuando yi es proporcional a xi para todo i ∈ U , pero es independiente del diseño de muestreo. Los estimadores ratio y diferencia del método tradicional de F ( t ) son obtenidos para resultados standars, es decir, para totales y medias, tratando a ∆ ( t - y i ) y a ∆ ( t - R$ x i ) como “ y y x variables” respectivamente; donde ∑ y i ∑ x i R$ = Π i Π i −1 es el usual estimador consistente del ratio poblacional R = Y / X. Un estimador ratio de F ( t ) es F$ r ( t ) = N -1 ∑ Πi −1 ∆ ( t - y i ) i∈s ∑ i∈ s − Πi −1 1 $ x ) ∑ ∆ ( t - R$ x ) ∆(t - R i i i∈ U El cual se reduce a F ( t ) cuando yi es proporcional a xi para todo i ∈ U y de aquí la varianza se hace cero en posteriores casos. Esto sugiere que F$ r ( t ) considerables ganancias en eficiencia sobre F$ ( t ) cuando yi nos podría llevar a es aproximadamente proporcional a xi. Vamos a considerar el caso de la utilización de la información auxiliar, para la estimación de los cuantiles poblacionales, aplicado a los datos de los ingresos del Ayuntamiento de Málaga, donde vamos a utilizar el estimador de la función de distribución que presentamos en la teoría y que representamos por 4 1 1 F$ m ( t ) = ∑ ∆ ( t − yi ) + N n ( t − bn x j ) ∑ ∆ j∈s ; i ∈ s v ( x j ) − u n i donde sabemos que n es el tamaño muestral, donde el valor de bn viene dado por la relación y x bn = ∑ i i 2 v ( xi ) i∈ s donde el valor de u s =U−s ni viene dado por uni = ∑ x 2i i∈ s 2 v ( xi ) ( yi − bn xi ) −1 v ( x i ) y donde sabemos que es el conjunto de unidades no muestreadas. Sabemos que F$ m ( t ) posee la propiedad de que F$ m ( t ) = F ( t ) cuando yi es proporcional a xi para todo i ∈ U , siendo independiente del diseño de muestreo. Esta propiedad nos puede dar un camino válido, para realizar un estudio sobre la relación de proporcionalidad que pueden guardar los distintos impuestos. En la hoja de cálculo Excel hemos definido la macro correspondientes para obtener las funciones de distribución y la macro para obtener los distintos cuantiles. Por tanto, cuando los valores obtenidos para F$ m ( t ) son iguales a F ( t ) quiere decir que ambos impuestos presentan una relación de proporcionalidad, aunque nosotros vamos a estudiar esta relación de otra forma, más directamente relacionada con los cuantiles en vez de con las funciones de distribución, si existe una mayor o menor proporcionalidad en los impuestos, definimos para ello un estimador ratio de θ( α ) de la siguiente forma θ$ ( α ) θ (α) θ$ ( α ) = y θ$ x ( α ) x donde 5 θ$ y ( α ) = inf { t ; F$ ( t ) ≥ α } y θ$ x ( α ) = inf { t ; F$ x ( t ) ≥ α } y θ x ( α ) = inf Este estimador ratio θ$ r ( α ) { t ; Fx ( t ) ≥ α} se reduce a θ ( α ) cuando yi es proporcional a xi para todo i ∈ U , APLICACION DE ESTE ANALISIS DE PROPORCIONALIDAD A LA FISCALIDAD DEL AYUNTAMIENTO DE MALAGA. Vamos a comenzar entonces estimando la función de distribución y por tanto los cuantiles, utilizando información auxiliar, es decir , mediante F$ m ( t ) , supongamos un determinado impuesto del que tenemos una muestra cuyos valores representamos por yi, y desconocemos su población, por tanto no podemos calcular directamente sus cuantiles, y tenemos la información sobre otro impuesto xi del que conocemos todos sus datos, vamos a obtener una estimación de la función de distribución de la población desconocida, que verificará la propiedad deseable de acercarse a la función poblacional cuando los yi son proporcionales a los xi . Utilizamos para ello la macro, obteniendo los valores de la función de distribución, y a partir de aquí y mediante la macro definida para el cuantil, obtenemos los valores de los cuantiles que presentamos a continuación, para el caso particular, en que los yi representan una muestra de los ingresos del impuesto de circulación y los xi representan los ingresos obtenidos por el Impuesto sobre Bienes Inmuebles ( IBI ) P10 = 507 P20 = 693 P25 = 798 P50 = 1824 P75 = 4348 P90 = 10220 6 Si ahora utilizamos como información auxiliar los ingresos obtenidos por el Impuesto sobre actividades económicas ( IAE ), donde los resultados de la estimación de cuantiles son los siguientes: P10 = 507 P50 = 1418 P20 = 533 P75 = 4813 P25 = 798 P90 = 14364 Como podemos apreciar existen evidentes diferencias entre ambas estimaciones obtenidas, y para comprobar la bondad de las dos vamos a obtener el valor de F ( t ), para la población de los ingresos del impuesto de circulación, que ahora la suponemos conocida y presentamos los valores de los cuantiles poblacionales que son los siguientes: P10 = 532 P20 = 763 P25 = 798 P50 = 1065 P75 = 6804 P90 = 16080 Como podemos apreciar si comparamos las tres tablas de valores nos encontramos con que los valores obtenidos no son muy próximos lo cual nos lleva a poder afirmar que la proporcionalidad que existe entre los tres tipos de impuestos es muy pequeña, puesto que en caso de existir, los valores obtenidos deberían de ser mucho más próximos, además podemos decir que el IAE parece un poco más relacionado que el IBI, pero en cualquier caso nada próximos entre ellos. Pasamos ahora a analizar estas posibles relaciones entre los impuestos, pero utilizando el cuantil ratio, que hemos definido con anterioridad y que vamos a representar por θr ( α ), este valor coincidirá con el valor θ( α ), cuando los valores yi sean proporcionales a xi para todo i∈ U. Vamos a trabajar con el mismo impuesto, es decir, el impuesto de circulación y vamos a realizar estos cálculos con otros tipos de ingresos, por ejemplo, los datos con los que obtenemos los siguientes resultados o valores del cuantil ratio para tres tipos de ingresos distintos: 7 1ª población P10 = 532 P20 = 764 P25 = 798 P50 = 1065 P75 = 6804 P90 = 19881 2ª población P10 = 532 P20 = 978 P25 = 600 P50 = 1065 P75 = 6856 P90 = 16550 P10 = 517 P20 = 748 P25 = 806 P50 = 1075 P75 = 6840 P90 = 17377 3ª población Recordamos que los valores de los cuantiles poblacionales θ( α ) son los siguientes: P10 = 532 P50 = 1065 P20 = 763 P75 = 6804 P25 = 798 P90 = 16080 CONCLUSIONES Como podemos observar, la primera de las poblaciones ofrece bastante buena aproximación en los valores, es decir, podemos afirmar que los datos son bastante proporcionales y analizando de que datos se trata en la primera de las poblaciones, resultan ser los obtenidos por ingresos obtenidos en la inspección tributaria, es decir valores que se obtienen de los propios impuestos, más un determinado recargo aplicado según ley, que evidentemente es un porcentaje de la cuantía del impuesto, por tanto resulta ser lógica la proporcionalidad detectada en los datos. 8 En las otras dos poblaciones los resultados son bastante más dispares, por tanto, podemos concluir que la relación de proporcionalidad entre estos tipos de ingresos prácticamente no existe, en la segunda población los datos pertenecen también a la inspección tributaria, pero en este caso a otro impuesto distinto del de circulación, lo cual justifica el resultado obtenido y la tercera población pertenece a los datos de ingresos del Impuesto sobre Bienes Inmuebles y podemos observar que efectivamente los valores de los cuantiles son distintos prácticamente en todos los casos, lo cual nos conduce, como en el caso anteriormente estudiado, a ratificar la nula proporcionalidad existente entre ambos impuestos. 9 BIBLIOGRAFIA BABU, G.J.(1986): “Estimation of density quantile function”, Sankhya, vol 48,Series A, Pt. 2, pp. 142-149. CHAMBERS, R. L. & DUNSTAN, R.(1986): “Estimating distribution functions from survey data”. Biometrika 73, 597-604. FALK, M (1987): “On the estimation of the quantile density function”. Statistics & Probability Letters, 4, pp. 69-73 North-Holland. HASKELL, J. and SEDRANSK, J.(1980): “Confidence intervals for quantiles and tolerance intervals of finite populations”, Unpublished Technical Report, SUNY at Albany, Department of Mathematics and Statistics, Albany, NY. KAIGH, W. D. & LACHENBRUCH, P. A.(1983): “A generalized quantile estimator”, Commun. Statist. - Theor. Meth., vol. 11, nº 19, pp. 2217 - 2238. KAIGH, W. D. (1983) : “Quantile interval estimation”, Commun.Statist., Theor. Meth., vol. 12, nº 21, pp. 2427 - 2443. LOYNES, R. M.(1990): “Some aspects of the estimation of quantiles”. Journal of the Royal Statistical Society Series”. B 28 ( 3 ), 497 - 512. MUÑOZ, J. Y FERNANDEZ, A.(1987): “Estimating the quantile function by Bernstein polynomials”. Computational Statistics & Data Analysis, vol. 5, pp. 391 - 397. PARZEN, E.(1991): “Nonparametric statistical data modeling”. J.Amer. Statist. Assoc., vol. 74, pp. 105 - 131. SEDRANSK, J. And MEYER, J.(1978): “Confidence intervals for the quantiles of a finite population: Simple random and stratified random sampling”. Journal of the Royal Statistical Society Series B 40 ( 2 ), 239 - 252. SMITH, P. J. And SEDRANSK, J.(1992): “Lower bounds for confidence coefficients for confidence intervals for finite population quantiles”. Communications in statistics, Theory and Methods 12 ( 12 , 1329 - 1344. WOODRUFF, R. S.(1952): “Confidence intervals for medians and other position measures”. Journal of the American Statistical Association 47, 635 - 646. 10