ESTADÍSTICA II DISTRIBUCIÓN DE PARETO1 CON DOS PARÁMETROS Material exclusivo para el sector económico David Glejberman Función de densidad y de distribución La densidad de Pareto se introduce para modelizar la distribución del ingreso cuando ésta es fuertemente inequitativa. La forma funcional de la densidad se presenta a continuación: α .θ α f X ( x) = xα +1 si x ≥ θ 0 en otro caso donde α > 1 y θ > 0 (espacio paramétrico). De la fórmula anterior resulta el siguiente gráfico de la función de densidad: fX(x) α/θ θ x El parámetro θ puede interpretarse como el ingreso mínimo de la población. Se trata de un indicador de posición. Si la población es el conjunto de asalariados formales en el Uruguay que trabajan 8 horas por día, entonces θ es el Salario Mínimo Nacional. El parámetro α tiene que ver con la dispersión. A mayores valores de α, se obtienen densidades de Pareto más concentradas en las proximidades del mínimo, es decir, menos dispersas. α=2 1 α=5 Vilfredo Pareto, nacido en Italia (1848-1923), cuya fama se debe a la introducción de los métodos matemáticos en la economía política. Obras más conocidas: “Cursos de economía política” y “El peligro socialista”. θ θ La función de distribución de Pareto puede obtenerse mediante primitivación de la función de densidad. 0 si x ≤ θ α FX ( x) = x α .θ α θα x θ ∫ t α +1 dt = − t α θ = 1 − x θ si x > θ Observación: 1 – FX(x) = (θ/x) α representa la proporción de personas en la población con ingresos mayores que x. Medidas de posición Calculemos las clásicas medidas de posición de la distribución: media, mediana y modo. µ =E ( X )= +∞ +∞ θ θ ∫ x. f X ( x).dx = ∫ x. +∞ α .θ α x −α +1 + ∞ α α −α α . dx = α . θ . x . dx = α . θ . = .θ α +1 ∫ x −α +1 θ α −1 θ Observación: Para valores “grandes” de α , la media tiende a aproximarse a θ (por derecha), lo que confirma que la distribución tiende a concentrarse cerca de θ para valores grandes de α. Para que exista la media se requiere que α sea mayor que la unidad. x0 ,5 θ : FX ( x0 ,5 ) = 0,5 ⇒ 1 − x0 , 5 α = 0,5 ⇒ θ = 0,5 1 / α ⇒ x 0, 5 = θ .2 −1 / α x0 ,5 Observación: Para α “grande”, la mediana tiende a θ. Como fX es decreciente a partir de θ, y la densidad es nula hasta θ, entonces el modo de la distribución está en θ. Medidas de dispersión Para calcular la varianza se aplica la relación entre el segundo momento centrado y los momentos ordinarios: V(X) = E(X2) – E2(X) +∞ +∞ α .θ α α E ( X ) = ∫ x . α +1 .dx = α .θ α . ∫ x −α+1 .dx = ..... = .θ 2 x α−2 θ θ 2 2 2 α α .θ 2 α V(X) = .θ 2 − .θ = α −2 (α − 1) 2 .(α − 2 ) α −1 si α > 2 Entonces, S(X) = α θ . α − 2 α −1 1 , no depende de θ. Este α .(α − 2) resultado indica que la dispersión medida en unidades de media no depende de la posición del ingreso mínimo, sino sólo del parámetro α. Se necesita un valor de α mayor que 10, para conseguir un coeficiente de dispersión menor del 10%. El coeficiente de variación, Cv(X) = Curva de Lorenz Nos proponemos ahora deducir la curva de Lorenz para la distribución de Pareto, es decir, en el caso de una distribución teórica. Se trata de encontrar la relación entre FX(x) y la función T(x) que acumula los ingresos para todos los individuos con ingresos menores o iguales que x. Si en la población hay N individuos, entonces el ingreso total es: +∞ N.µ = N.E(X) = N. ∫ x. f X ( x).dx = N . θ α .θ α −1 fX(x) x x+dx fX(x).dx ≅ proporción de individuos con ingresos en el intervalo (x, x+dx). N. fX(x).dx ≅ número de individuos con ingresos en el intervalo (x, x+dx). x.[N. fX(x).dx] ≅ ingreso medio de los individuos con ingresos en (x, x+dx). x Y(x) = ∫ t.N . f X (t ).dt = Ingreso total de los individuos con ingresos ≤ x. θ α −1 − α +1 α.θα N .α.θ θ α t Y(x) = ∫ t. N . α +1 .dt =N .α.θ . = ..... = α − 1 .1 − x t − α + 1 θ θ x x Entonces, la ordenada T(x) de la curva de Lorenz en la distribución de Pareto es: α −1 N .α .θ θ .1 − α −1 Y ( x) α − 1 x θ T ( x)= = = 1− α .θ N .µ x N. α −1 Ahora vamos a encontrar la relación entre T(x) y FX(x) para representar la curva de Lorenz. α [ θ θ 1 /α FX ( x) = 1 − ⇒ = (1 − F X ( x)) ⇒ T ( x) = 1 − (1 − F X ( x))1 / α x x T ( x) = 1 − [1 − F X ( x)] 1− ] α −1 1 α Observaciones 1. La relación entre T y F no depende de θ, sólo depende de α . 2. Por ser 0 ≤ F ≤ 1 y α > 1 ⇒ T ≥ 0 para todo F ∈ [0,1]. 3. T ' F = (1 − 1 ).(1 − F ) −1 /α > 0 ∀F ∈ [0,1] ⇒ T es creciente. α α +1 − 1 1 4. T F'' = (1 − ).( ).(1 − F ) α > 0 ∀F ∈ [0,1] ⇒ T tiene concavidad positiva. α α 5. T(θ) = 1 – [1 – FX(θ)]1-1/α = 0 y T(+∞) = 1 – [1 – FX(+∞)]1-1/α = 1 F(θ) = 0 y FX(+∞) = 1. En consecuencia, la curva pasa por los puntos (0,0) y (1,1). T 1 Curva de Lorenz 1 F Índice sintético de Gini El índice sintético de Gini es el doble del área comprendida entre la curva de Lorenz y la recta de equidistribución. El área puede calcularse como la integral de la diferencia entre ambas funciones. Curva de Lorenz: T = 1 – [1 – F]1 – 1/α Recta de equidistribución: T = F Índice de Gini = 2 . ∫ F 0 1 1 2− 2 α 1 F ( 1 − F ) 1− − 1 + [1 − F ] α dF = 2. −F+ 1 2 2− α 1 1 = ..... = 2 .α − 1 0 Observaciones 1. El índice sintético de Gini no depende del nivel del ingreso mínimo (θ), sino solamente del parámetro de forma (α). 2. El índice de Gini se hace pequeño sólo para valores grandes de α, y el índice tiende a 1 para valores de α muy próximos a 1 por derecha. En consecuencia, valores grandes de α corresponden a una distribución más equitativa, mientras que valores pequeños de α (cercanos a 1+) corresponden a una distribución con mayor concentración del ingreso. Índice analítico de Gini De acuerdo con la definición, el índice analítico δx debe cumplir en el punto x la condición: [1 – T(x)]δ = 1 – FX(x) δ es el exponente de la proporción de ingresos que detentan las personas cuyo ingreso es mayor que x, para que dicha expresión se iguale a la proporción de personas cuyo ingreso es mayor que x. Como 1 – FX(x) = (θ/x) α define el índice δ se obtiene: y 1 – T(x) = (θ/x) α -1, al sustituir en la ecuación que [(θ/x) α -1]δ = (θ/x)α Luego: (α - 1).δ = α δ = α/(α - 1) Observaciones 1. δ x es constante para todo x del Rec(X). Esta es una propiedad característica de la distribución de Pareto. La concentración, medida a través del índice analítico, es constante cualquiera sea el punto de la distribución del ingreso donde estemos ubicados. 2. Se deduce adicionalmente que α = δ/δ-1. En otras palabras, el parámetro α tiene su propia interpretación en términos del índice analítico: cuanto mayor la concentración del ingreso, mayor el δ y más cercano α a 1 por derecha (situación que refleja la máxima concentración). Estimación de los parámetros θ y α Supongamos que se dispone de una muestra de n individuos de la población con sus respectivos ingresos. Intervalos de ingresos x'0 – x’1 x'1 – x’2 x'2 – x’3 Frecuencias relativas h(x1) h(x2) h(x3) ---------x'n-2 – x’n-1 x'n-1 – x’n -----h(xn-1) h(xn) Si el extremo inferior del primer intervalo coincide con el mínimo de la muestra, entonces el estimador de θ es X’0. Para estimar α, consideremos una forma intuitiva de aproximación. Si la distribución de Pareto ajusta bien a los datos, entonces h(xn) es una estimación de la proporción de individuos con ingresos mayores que x'n-1. α θ ≅ h( xn ) 1 − F X ( x' n−1 ) = x ' n−1 Con el mismo razonamiento, h(xn) + h(xn-1) es una estimación de la proporción de individuos con ingresos mayores que x'n-2. θ 1 − F X ( x' n−2 ) = x ' n −2 α ≅ h( xn−1 ) + h)(xn ) Al plantear el sistema formado por las dos ecuaciones, tomando logaritmos naturales, se obtiene: α .L θ − α .Lx 'n −1 = L h( xn ) α .Lθ − α .Lx 'n −2 = L [h ( xn−1 ) + h ( xn )] Al resolver el sistema resulta: α.[Lx' n−1 − Lx'n− 2 ] = L[h( xn−1 ) + h( xn )] − L[h( x n )] h( x n−1 ) L 1 + h( xn ) αˆ = x' L n −1 x' n− 2 Si se aplica el método de la máxima verosimilitud para la estimación de los parámetros, se obtiene: θˆMV = Mín( x' i ) αˆ MV = 1 k x ∑1 L ˆ i θMV .h( xi ) donde “k” es el número intervalos de la distribución empírica. Si se aplica el método de los momentos para la estimación de parámetros, se obtiene: m'2 m2 θˆMM = x . m' 2 1+ m2 αˆ MM = 1 + m'2 m2 donde m’ 2 es el momento ordinario de orden 2 de la muestra, y m2 el respectivo momento centrado. Ejercicio 1 En una población los ingresos se distribuyen Pareto(θ=1.000, α=3). 1. Hallar la proporción de personas que ganan más de 5.000. 2. Hallar la probabilidad que una persona gane entre 2.000 y 3.000. 3. Hallar la probabilidad que una persona tenga ingresos por debajo de la media. Ejercicio 2 Dos ciudades tienen las siguientes distribuciones del ingreso: fX(x) = Pareto(θ=500, α=2) fY(y) = Pareto(θ=700, α=3) 1. 2. 3. 4. 5. Hallar el ingreso medio en las dos ciudades. Hallar el ingreso mediano en las dos ciudades. Calcular la probabilidad que un individuo gane más de 2000 en cada ciudad. ¿En qué ciudad es más probable que un individuo gane entre 1000 y 2000? ¿En qué ciudad hay mayor concentración del ingreso? Calcular el índice sintético y el índice analítico de Gini. Ejercicio 3 Sea la distribución del ingreso dada por la densidad fX(x) = Pareto(θ=840, α=2). 1. Probar que la curva de Lorenz es creciente para toda F ∈ [0,1] y su concavidad es positiva. 2. ¿Cuál es la porción del ingreso que acumula el 50% más pobre de la población? 3. Hallar la porción del ingreso que detenta el 20% más pobre de la población. 4. Hallar la porción del ingreso que detenta el 20% más rico de la población. 5. Calcular la mediana. 6. Calcular la mediala. Ejercicio 4 Una muestra de la distribución del ingreso de una población arrojó los siguientes resultados. x'0 – x’1 h(xi) 1– 2 0,75 2– 3 0,13 3– 5 0,07 5 – 10 0,03 10 – 20 0,015 20 – 50 0,005 Supuesto que la población tiene una distribución del ingreso de Pareto, estimar a partir de la muestra los dos parámetros, mediante la estimación intuitiva, el método de máxima verosimilitud y el método de los momentos. Ejercicio 5 Deducir los estimadores máximo verosímiles y de los momentos en la distribución de Pareto.