Ignacio Cascos Fernández Departamento de Estadı́stica Universidad Carlos III de Madrid Estimación de Parámetros Estadı́stica I — curso 2008–2009 Veremos cómo construir valores aproximados de los parámetros de los modelos de probabilidad del tema anterior a partir de muestras de variables aleatorias distribuidas según esos modelos. A estas aproximaciones de los parámetros las llamaremos estimaciones y juegan un papel básico en la Inferencia Estadı́stica, proceso de que nos permite obtener conclusiones sobre el comportamiento de una población a partir de los datos de una muestra. El muestreo aleatorio consiste en la selección aleatoria de un número fijado de elementos de una población. Una muestra aleatoria de tamaño n son n variables aleatorias independientes X1 , X2 , . . . , Xn que siguen la misma distribución que la población X. 1. Estadı́sticos (estimadores) Pretendemos obtener información acerca de los parámetros de la población (media, varianza, proporción, . . . ) a partir de una muestra. Un estadı́stico es cualquier función de las observaciones de una muestra aleatoria, es por lo tanto una variable aleatoria. Se llama estimador de un parámetro θ a cualquier función de una muestra θ̂ = f (X1 , X2 , . . . , Xn ) que conduce a la obtención de valores aproximados de θ. Un estimador es un estadı́stico. Al valor que toma un estimador en una muestra especı́fica, lo denominamos estimación. La estimación es puntual cuando el estimador θ̂ toma como valores números reales. 1 1.1. Propiedades de los estimadores Estimador insesgado o centrado. Un estimador de un parámetro θ es insesgado si su valor esperado es θ, es decir, θ̂ es insesgado si E[θ̂] = θ. A la diferencia E[θ̂] − θ se le llama sesgo del estimador, sesgo[θ̂] = E[θ̂] − θ . Varianza de un estimador. De entre los estimadores insesgados de un parámetro, el mejor, o más eficiente, será aquel de menor varianza. La eficiencia de un estimador es el inverso de su varianza, Eficiencia[θ̂] = 1 var[θ̂] . Podemos estudiar cuál es el mejor de entre dos estimadores insesgados comparando sus varianzas. La eficiencia relativa se construye como ER[θ̂2 ; θ̂1 ] = Eficiencia[θ̂2 ] Eficiencia[θ̂1 ] = var[θ̂1 ] var[θ̂2 ] . El error estándar de un estimador es su desviación tı́pica, q σθ̂ = var[θ̂] . Si la desviación tı́pica depende del parámetro θ, al no conocer θ tampoco conoceremos el error estándar de su estimación. No obstante, podemos sustituir θ por su estimación θ̂ y obtendremos el error estándar estimado σ̂θ̂ . Error Cuadrático Medio. Para comparar estimadores no centrados o un estimador centrado con otro que no lo es, disponemos del Error Cuadrático Medio, que se define como ECM[θ̂] = E[(θ̂ − θ)2 ] = var[θ̂] + sesgo[θ̂]2 . Consistencia. Un estimador es consistente cuando, a medida que aumenta el tamño de la muestra, más se aproxima al valor del parámetro que pretende estimar, hasta converger a él. 2 2. 2.1. Distribuciones en el muestreo Distribución en el muestreo de la media Sea X una variable aleatoria con media µ y desviación tı́pica σ conocida. Podemos tomar una muestra aleatoria simple de X de tamaño n, obteniendo X1 , X2 , . . . , Xn , n variables aleatorias independientes distribuidas como X. La media muestral será n 1X X= Xi n i=1 que es claramente una variable aleatoria. Se trata de un estimador centrado de µ, es decir, E[X] = µ y su varianza es var[X] = σ 2 /n Si X sigue distribución normal, encones X también seguirá distribución normal. Además, por el Teorema Central del Lı́mite (si n ≥√30) la distribución de X se aproxima a la de una variable aleatoria N(µ, σ/ n). Distribución en el muestreo de la proporción. La proporción muestral es un caso particular de la media muestral. Dada una población, llamamos p a la proporción poblacional de elementos que presentan una determinada caracterı́stica. Si extraemos aleatoriamente un individuo de dicha población, la variable aleatoria X que toma valor 1 si tal individuo presenta la caracterı́stica y 0 si no es ası́, es una variable de Bernoulli, X ∼ B(1, p). Si tomamos una muestra aleatoria simple de X de tamaño n, X1 , X2 , . . . , Xn , entonces n 1X X= Xi = p̂ n i=1 representa el cociente entre el número de elementos que poseen la caracterı́stica y el tamaño de la muestra, es decir, la proporción muestral. Finalmente, si n ≥ 30, aplicando el Teorema p Central del Lı́mite, la distribución de p̂ se aproxima por una normal, N(p, p(1 − p)/n ). 3 2.2. La varianza en el muestreo Tenemos dos alternativas para estimar la varianza poblacional σ 2 . La primera es la varianza muestral que se define como n 1X 2 (Xi − X)2 , S = n i=1 y la segunda, la cuasivarianza muestral que es n 1 X Ŝ 2 = (Xi − X)2 . n − 1 i=1 La cuasivarianza muestral es un estimador insesgado de σ 2 y, en consecuencia, la varianza muestral no lo es, n − 1 2 2 2 E[Ŝ ] = σ ; E[S ] = σ2 . n 2.3. Distribuciones en el muestreo de poblaciones normales Partimos de X ∼ N(µ, σ) y una muestra aleatoria suya X1 , X2 , . . . , Xn de tamaño n. Es decir, X1 , X2 , . . . , Xn son n variables aleatorias independientes que tienen la misma distribución que X. Distribución de la varianza muestral de una población normal Cuando tomamos una muestra de una población normal, la distribución de la varianza muestral S 2 es tal que donde χ2n−1 nS 2 (n − 1)Ŝ 2 = ∼ χ2n−1 σ2 σ2 denota la distribución chi cuadrado con n − 1 grados de libertad. Distribución de la media muestral con varianza desconocida Cuando tomamos una muestra de una población normal y la varianza poblacional (σ 2 ) es desconocida, podemos reemplazarla por la (cuasi)varianza muestral y obtenemos X −µ X −µ q =p ∼ tn−1 2 /(n − 1) S 2 Ŝ /n donde tn−1 denota la distribución t de Student con n − 1 grados de libertad. 4 Distribución del cociente de varianzas Tomamos dos muestras independientes procedentes de dos poblaciones normales. Es decir, a partir de una variable X ∼ N(µX , σX ) obtenemos una muestra aleatoria suya X1 , X2 , . . . , Xn y a partir de otra variable Y ∼ N(µY , σY ) obtenemos también una muestra aleatoria de ella misma Y1 , Y2 , . . . , Ym , de tal modo que las X’s y las Y ’s son independientes. Tenemos entonces que la distribución de sus cocientes de varianzas muestrales cumple, 2 2 2 2 SˆX /σX nSX /[(n − 1)σX ] = ∼ Fn−1,m−1 2 mSY2 /[(m − 1)σY2 ] SˆY /σY2 donde Fn−1,m−1 es una distribución de Fisher-Snedecor con n − 1 y m − 1 grados de libertad. 3. Estimación Máximo Verosı́mil Partimos de una muestra aleatoria simple X1 , X2 , . . . , Xn que proviene de una distribución paramétrica conocida. Nuestro objetivo es buscar el valor θ0 del parámetro θ para el cual es más probable que los datos provengan de esa distribución con θ = θ0 . Denotamos nuestras observaciones como x = (x1 , x2 , . . . , xn ), es decir, x es un vector con n datos. Para obtener el Estimador Máximo Verosı́mil (EMV) de un parámetro θ debemos efectuar los siguientes pasos: 1. Función de verosimilitud. Si tenemos un modelo discreto l(θ|x) = n Y P (Xi = xi |θ) , i=1 mientras que si el modelo de partida es continuo, l(θ|x) = n Y f (xi |θ) , i=1 donde f (·|θ) denota la función de densidad supuesto que el parámetro es θ. El objetivo final es obtener el valor de θ para el que l(θ|x) alcanza el mayor valor. 5 2. Función soporte. L(θ|x) = ln l(θ|x) 3. Primera derivada. Resolvemos ∂L(θ|x)/∂θ para hallar θ̂, nuestro objetivo es buscar el valor de θ donde la función soporte tiene un máximo. 4. Segunda derivada. Comprobamos ∂ 2 L(θ̂)/∂θ2 < 0 para confirmar que la función soporte alcanzar un máximo en θ̂, con lo que será el Estimador Máximo Verosı́mil. Propiedades de los EMV. Para distribuciones cuyo rango es conocido y no depende de ningún parámetro, el método de máxima verosimilitud da lugar a estimadores: Asintóticamente centrados. E[θ̂] →n θ ; Asintóticamente normales. θ̂ ≈ N(θ, var[θ̂]) ; Asintóticamente de varianza mı́nima. var[θ̂] = − ∂ 2 L(θ̂) ∂θ2 −1 ; Invariantes frente a transformaciones biunı́vocas. Si θ̂ es EMV de θ, entonces g(θ̂) es EMV de g(θ) . 6