Universidad Técnica Federico Santa María Consideraciones Previas Capítulo 7 Conceptos Básicos Distribuciones usadas en Inferencia Teoremas relevantes Estimación Puntual Métodos de Evaluación de Estimadores Puntuales Estimación por Intervalos Estimación de Parámetros Estadística Computacional II Semestre 2005 Prof. Héctor Allende Página e-mail : www.inf.utfsm.cl/~hallende : hallende@inf.utfsm.cl H. Allende, R. Salas 2 Distribuciones usadas en Inferencia 1.- Ji-Cuadrado con “n” grados de libertad. Sea X1, X2, ..., Xn n v.a. continuas independientes tal que Xi ~ N (0,1) i = 1, …, n (i.i.d.) n 2 fY ( y ) = −1 − n 2 y 2 n 2 Γ 2 I R+ ( y) X Y n ~ OBS: Γ(α + 1) = α ⋅ Γ (α ), α > 0 1. E [Y ] = n TABLA fY ( y ) Var [Y ] = 2n 2 ϕY (t ) = (1 − 2t ) n − 2 y E [Y ] = n 4 OBS: 1. E [T ] = 0 n n−2 3. ϕ T (t ) no existe 2. Var [T ] = t − Student (n ) t2 n + 1 Γ 1 + n 2 fT (t ) = n πnΓ 2 Profesor: Hector Allende e dy es la función gamma además, 3 2.- t-Student Sea X v.a.c. tal que X ~ N (0,1) Y v.a.c. tal que Y ~ χ2(n) T= α −y 0 4. Distribuciones usadas en Inferencia Sea ∫y 3. χ 2 ( n ) ⇔ Γ n ;2 i =1 n ∞ 2. Var [Y ] = 2n Y = ∑ X i ~ χ 2( n ) y2 e donde Γ(α + 1) = − fT (y) n +1 2 t I R (t ) 5 6 1 Universidad Técnica Federico Santa María Distribuciones usadas en Inferencia 3.- F-de Fisher Sea X v.a.c. tal que X ~ χ2(n) Y v.a.c. tal que Y ~ χ2(m) X Sea Z = n Y m independientes donde la constante OBS: 1. E [Z ] = n+m n Γ 2 2 n K = n mm Γ Γ 2 2 n ,m>2 m−2 2 ~ 2. V [Z ] = 2 m (n + m − 2) , m > 4 F ( n, m ) K •z fZ (z) = n −1 2 n z 1 + m n+m 2 m−2 3. ϕ Z (t ) I R+ ( z) n( m − 4) fZ (z) no existe E[Z] = 7 n m−2 8 Teoremas Límites Teoremas Límites • Convergencia en Distribución (CD): Una sucesión de v.a. X1,X2,…,Xn converge en distribución a una v.a. X si Notación: • A partir de la CD nace uno de los teoremas más importantes en estadística: limn→∞ FX n ( x ) = FX ( x ) D X n → X ∀x donde FX (x ) es continua. Note que la convergencia se efectúa sobre las cdfs y no en las variables aleatorias, las cuales no requieren ser i.i.d., como en una muestra. 9 Teorema Central de Límite (TCL): Sea X1, X2, …, Xn una secuencia de v.a.i.i.d., n con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i . Sea Entonces, ∀y ∈ ℜ : D Y n → N ( 0 ,1) Xn −µ Yn = σ Es decir: y t2 1 −2 n limn→∞ FYn ( y ) = ∫ e dt − ∞ 2π 10 Teoremas Límites • El TCL es útil cualquiera sea el modelo de probabilidad a partir del cual se generaron las v.a. Xi. • No obstante, si este modelo es semejante a la distribución Normal, la aproximación será buena aun para pequeñas muestras; mientras que si el modelo de la población es poco parecido a una Normal, la aproximación resultará adecuada sólo para muestras grandes, es decir, n > 30. • La v.a. Yn se emplea para hacer inferencia sobre, µ cuando se conoce el valor de la varianza poblacional.σ 2 • Como desventaja, no existe forma de evaluar la calidad de la aproximación. 11 Profesor: Hector Allende z Teoremas Límites • Ejemplo 1: Suponga que X1, X2, …, Xn es una secuencia de v.a.i.i.d. de una distribución Binomial Negativa(r,p). Entonces, Sabemos que E [X i ] = r (1 − p) / p y V [X i ] = r (1 − p ) / p 2 . El TCL declara que: ( n X n − r (1 − p ) / p r (1 − p ) / p 2 ) D → N (0,1) Se pide calcular P ( X ≤ 11). Es mucho más fácil computar esta probabilidad mediante el TCL con N(0,1) que utilizar directamente la función de probabilidad de la distribución Binomial Negativa. 12 2 Universidad Técnica Federico Santa María Teoremas Límites Teoremas Límites • Ejemplo 2: • Considere r = 10, p = 1/2 y n = 30. • Cálculo directo: 30 P( X ≤ 11) = P ∑ X i ≤ 330 i =1 300 x 330 300 + x − 1 1 1 = ∑ 2 2 x x=0 = .8916 Obs: ∑ X es una BN(nr,p) i Se tiene una muestra de 64 datos de cierta v.a., se sabe que la desviación estándar es igual a 16. Calcule la probabilidad de que la media muestral se encuentre a no más de 4 unidades del verdadero valor. X −µ 4 P X − µ ≤ 4 = P ≤ σ / n σ / n ( ) • Usando el TCL: −4 X −µ 4 = P ≤ ≤ σ / n σ / n σ / n = P(− 2 ≤ Y ≤ 2 ) n> = FY (2) − FY ( −2) 30 ( X − 10) 30 (11 − 10) ≤ P( X ≤ 11) = P 20 20 ≈ P (Y ≤ 1.2247 ) = .8888 13 Teoremas Límites ó limn →∞ P ( X n − X < ε ) = 1 P Xn → X Note que las v.a. no requieren ser i.i.d. Además, P Xn → X ⇒ Y ~ N(0,1). 14 Teoremas Límites • Convergencia en Probabilidad (CP): Una sucesión de v.a. X1,X2,…,Xn converge en probabilidad a una v.a. X si, ∀ε > 0 , Notación: limn →∞ P ( X n − X ≥ ε ) = 0 30 = .9544 • A partir de la CP nace otro importante resultado: Ley Débil de los Grandes Números (LDGN): Sea X1,X2,…,Xn una secuencia de v.a.i.i.d., n con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i . Entonces, ∀ε > 0 : ( limn →∞ P X n − µ < ε es decir: X D X n → X n ) = 1 P → µ 15 16 Teoremas Límites Teoremas Límites • Para demostrar el resultado anterior, debemos recurrir a otro teorema muy utilizado en estadística: • Demo LDGN: Se quiere demostrar que: Desigualdad de Chebyshev (Tchebysheff): Ya que X n es una v.a. tal que E [X n ] = µ y V [X n ] = σ 2 / n del Teo. Chebyshev se tiene que Sea X una v.a. con un función (densidad) de probabilidad f ( x ) tal que E [X ] = µ y V [X ] = σ 2 son finitas. Entonces ∀ε > 0 : equivalentemente, si ε = kσ : 2 P( X − µ ≥ ε ) ≤ σ ε2 1 P( X − µ ≥ kσ ) ≤ 2 k Entrega una cota de la probabilidad de que una v.a. se aleje a lo más ‘k’ desviaciones estándar de su media. 17 Profesor: Hector Allende ( limn →∞ P X n − µ < ε ( P Xn −µ ≥ε ) ) = 1 ≤ σ2 nε 2 como σ 2 tiene valor finito, tomando límite en esta expresión conforme n → ∞ , se tiene que ( limn→∞ P X n − µ ≥ ε ) = 0 ó ( limn→∞ P X n − µ < ε ) = 1 18 3 Universidad Técnica Federico Santa María Teoremas Límites Teoremas Límites • La LDGN es útil para estimar el tamaño necesario de una muestra para asegurar con determinar probabilidad que la media no se alejará más allá de una cantidad específica de la media poblacional. • Ejemplo…: Por Chebyshev tenemos que ( ) ≤ σ2 nε 2 ( ) ≤ 10 = 1 − 0.9 n 22 P Xn −µ ≥ε • Ejemplo: Considere un proceso aleatorio de varianza conocida σ 2 = 10 y media µ desconocida. ¿Cuál debe ser el tamaño de la muestra para que la media X n se encuentre dentro de un intervalo igual a dos unidades respecto de la media poblacional, con probabilidad de al menos 0.9? P Xn −µ ≥2 n= 10 = 25 4 * 0.1 19 20 Teoremas Límites Teoremas Límites • Convergencia Casi Segura (CCS): También conocida como convergencia con probabilidad 1. Es el tipo de convergencia más dura. Una sucesión de v.a. X1,X2,…,Xn converge casi seguramente a una v.a. X si, ∀ε > 0 , Notación: ó P (limn→∞ X n − X ≥ ε ) = 0 P (limn→∞ X n − X < ε ) = 1 ⇒ Sea X1,X2,…,Xn una secuencia de v.a.i.i.d., n con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i . Entonces, ∀ε > 0 : es decir: P Xn → X ( P limn→∞ X n − µ < ε X n ) = 1 CS → µ 21 Estimación de Parámetros 22 Estimación de Parámetros El objetivo de la estimación de parámetros es proveer de métodos que permitan determinar con cierta precisión, el vector de parámetros desconocidos ϑ, de un modelo estadístico f(x ; ϑ) a partir de una muestra aleatoria de una población bajo estudio. 1. Método de estimación Puntual: Se busca un estimador ϑ que, con base en los datos muestrales, dé origen a una estimación univaluada del valor del parámetro. 2. Método de estimación por Intervalos: Se determina un intervalo aleatorio I(ϑ), donde con cierta probabilidad, se encuentra el valor del parámetro ϑ. 1. Método de estimación Puntual 2. Método de estimación por Intervalos 23 Profesor: Hector Allende Ley Fuerte de los Grandes Números (LFGN): CS X n → X Note que las v.a. no requieren ser i.i.d. Además, CS X n → X • A partir de la CCS nace otro importante resultado: 24 4 Universidad Técnica Federico Santa María Definición de Estimador Estimación Puntual La idea detrás de la estimación puntual es bastante simple. Cuando muestreamos desde una población descrita por su función de densidad o cuantía, f ( x | θ ) conocer θ significa conocer la población entera. Un estimador es una regla que nos indica cómo obtener un parámetro de un modelo, basándose en la información contenida en una muestra ( M={ f ( x | θ ) : θ ∈ Θ } modelo ) T : χ x τ⊂Θ T (x) = T (X1, X2,...., Xn) T (x) : Estimador de θ, variable aleatoria, función de la muestra, que no depende del parámetro θ. Por lo tanto, es natural contar con métodos para encontrar buenos estimadores del parámetro θ . (T (x) es una estadística basada en la Información χ) χ={x : x es una muestra aleatoria} Espacio de Información 25 Métodos de Estimación Puntual ♦ En lo que sigue θˆ = T (X1, X2,..., Xn) estimador de θ. 26 Método de Momentos Quizá este sea el método de estimación puntual más antiguo (Karl Pearson, 1800’s). ♦ Método de Momentos ♦ Método de Máxima Verosimilitud Sea X1, X2, …, Xn, una muestra desde una población con pdf o pmf f ( x | θ1 ,θ 2 ,...,θ k ) . Los estimadores de los k parámetros se encuentran igualando los primeros k momentos muestrales con los correspondientes k momentos poblacionales. Resolviendo el sistema de ecuaciones encontramos el vector de estimación: θˆ = (θˆ1 ,θˆ2 ,...,θˆk ) ♦ Método de Estimación de Bayes 27 Método de Momentos Momentos Observados n m1 = 1 / n ∑ X i1 m Ejemplo: Se tiene una muestra X1,X2,…,Xn iid que se supone siguen una distribución N ( µ ,σ 2 ). Encuentre los parámetros de la Gaussiana. µ2 = E [ X 2 ] Solución: Según la notación anterior, los parámetros de la distribución son θ1 = µ y θ 2 = σ 2 . , i =1 m n mk = 1 / n ∑ X Método de Momentos Momentos Observados (centrados en cero) , µ1 = E[ X 1 ] i =1 n m2 = 1 / n ∑ X i2 m k i , Tenemos que m1 = µk = E [ X k ] i =1 1 n 1 ∑ Xi = X n i =1 1 n 2 y m2 = n ∑ X i i =1 µt +σ La fgm de una v.a. X Gaussiana es φ X (t ) = e y resolvemos el sistema de ecuaciones: entonces µ1 = µ y µ2 = µ + σ 2 mr = µ r , r = 1,..., k 29 Profesor: Hector Allende 28 2 2 t /2 2 , 30 5 Universidad Técnica Federico Santa María Método de Momentos Método de Máxima Verosimilitud ...Ejemplo: resolviendo el sistema de ecuaciones: El método de MV es la técnica más popular para derivar estimadores. Sea X1,X2,…,Xn, una muestra desde una población con pdf o pmf f ( x | θ1 ,θ 2 ,...,θ k ) . X =µ 1 n 2 ∑ Xi = µ2 + σ 2 n i =1 La función de verosimilitud se define como: L( x | θ ) = L( x1 , x1 ,..., xn | θ1 ,θ 2 ,...,θ k ) = ∏i =1 f ( xi | θ1 ,θ 2 ,...,θ k ) Para cada punto Xi de la muestra, θ es el estimador de los parámetros en el cual L( x | θ ) alcanza su valor máximo como función del verdadero valor θ . n Encontramos que el estimador del verdadero valor de θ = (θ1 ,θ 2 ) = ( µ , σ 2 ) es θˆ = (θˆ1 ,θˆ2 ) = ( µˆ ,σˆ 2 ) tal que: µ̂ = X 1 n σˆ 2 = ∑ ( X i − X ) 2 n i =1 31 Método de Máxima Verosimilitud Si la función de verosimilitud es diferenciable (en θi ), el estimador de máxima verosimilitud (EMV) θ del verdadero valor θ es aquel que resuelve: ∂ L( x | θ ) = 0, i = 1,..., k ∂θ i 32 Método de Máxima Verosimilitud Dependiendo de la pdf o pmf, puede resultar muy complicada la función de verosimilitud, es por ello que es más fácil trabajar con la función de logverosimilitud, definida como: ( x | θ ) = ln L( x | θ ) = ∑i =1 ln f ( xi | θ1 ,θ 2 ,...,θ k ) n Equivalentemente, el EMV θˆ es el valor de θ para el cual se cumple: No obstante, habría que chequear que se cumple: ∂2 L( x | θ ) θ =θˆ , < 0 i = 1,..., k ∂θ i2 ∂ ( x | θ ) = 0, i = 1,..., k ∂θi 33 Método de Máxima Verosimilitud Ejemplo: Se tiene una muestra X1,X2,…,Xn iid que se supone siguen una distribución N ( µ ,σ 2 ). Encuentre los parámetros de la Gaussiana. Solución: Según la notación anterior, los parámetros de la distribución son:θ = (θ1 ,θ 2 ) = ( µ , σ 2 ). − ( xi − µ ) 2 1 exp 2 2π σ 2σ n n n 1 2 = − ln 2π − ln σ − ∑ ( xi − µ )2 2 2 2σ 2 i =1 ( x | θ ) = ∑i =1 ln n Método de Máxima Verosimilitud ...Ejemplo: resolviendo el sistema de ecuaciones: ∂ ( x | θ ) = 0 ∂µ ∂ ( x | θ ) = 0 ∂σ 2 Encontramos que el estimador del verdadero valor de θ = (θ1 ,θ 2 ) = ( µ , σ 2 ) es θˆ = (θˆ1 ,θˆ2 ) = ( µˆ ,σˆ 2 ) tal que: µ̂ = X 1 n ∑ ( X i − X )2 n i =1 σˆ 2 = 35 Profesor: Hector Allende 34 36 6 Universidad Técnica Federico Santa María Método de Estimación de Bayes Método de Estimación de Bayes En los enfoques previos consideramos al parámetro θ es considerado como una cantidad desconocida, pero fija. Trabajábamos con una muestra aleatoria (m.a.) proveniente de una población caracterizada por θ y, basándonos en los valores observados de la muestra, obteníamos conocimiento sobre el valor de θ , es decir, computábamos una cantidad aproximada θ . La distribución a priori es subjetiva, basada sobre la opinión del analista, y es formulada antes de que los datos sean vistos (de ahí su nombre). En el enfoque bayesiano θ es considerado una cantidad cuya variación puede ser descrita por una distribución de probabilidad, llamada Probabilidad a Priori. Entonces, se toma una muestra desde una población caracterizada por θ , y la probabilidad a priori es actualizada con la información muestral. La probabilidad a priori actualizada se denomina Probabilidad a Posteriori, cuya actualización se realiza a través de la regla de Bayes. Es la probabilidad a posteriori la que se utiliza para hacer inferencia sobre θ . 37 38 Método de Estimación de Bayes Método de Estimación de Bayes Si denotamos la distribución a priori por π (θ ) y la distribución de muestreo por f (x | θ ) , entonces la distribución a posteriori, que es la distribución condicional de θ dada la muestra x , está dada por: Note que la distribución a posteriori es una distribución condicional, condicionada sobre las observaciones de la muestra. Esta distribución será utilizada para hacer inferencia sobre θ , la cual se considera como una cantidad aleatoria. Por ejemplo, la media de la distribución a posteriori puede ser usada como estimador puntual de θ . π (θ | x ) = f (x | θ )π (θ ) m( x ) ( f (x | θ )π (θ ) = f (x,θ )) donde m(x) es la distribución marginal de x , esto es: m( x) = ∫ f ( x | θ )π (θ )dθ 39 Método de Estimación de Bayes Método de Estimación de Bayes Ejemplo: Considere la muestra X1,X2,…,Xn iid Bernoulli(p). Entonces Y = ∑ X i es una Binomial(n,p). Asumiremos que la distribución a priori de p es Beta(α , β ) Encuentre la distribución a posteriori de p. La distribución conjunta de Y y p es: ...Ejemplo: n Γ(α + β ) α −1 p (1 − p ) β −1 f ( y , p ) = p y (1 − p ) n − y y Γ(α )Γ( β ) n Γ(α + β ) y +α −1 p (1 − p) n − y + β −1 = y Γ(α )Γ( β ) y la marginal de Y es: f ( y , p ) = f ( y | p )π ( p ) 1 n Γ(α + β ) Γ( y + α ) Γ(n − y + β ) f ( y ) = ∫ f ( y, p )dp = Γ( n + α + β ) y Γ(α )Γ( β ) 0 condicional x marginal 41 Profesor: Hector Allende 40 42 7 Universidad Técnica Federico Santa María Método de Estimación de Bayes Método de Estimación de Bayes ...Ejemplo: La marginal de Y calculada previamente se conoce con el nombre de Beta-Binomial. Luego, la distribución a posteriori de p dado y es: f ( p | y) = Γ( n + α + β ) f ( y, p) = p y +α −1 (1 − p) n − y + β −1 f ( y) Γ( y + α ) Γ( n − y + β ) que es una distribución Beta ( y + α , n − y + β ) . Recuerde que p es la variable, mientras que y es tratada como fija en la actualización. ...Ejemplo: Una estimación natural para el parámetro p es la media de la distribución condicional, la cual nos entregaría en estimador de Bayes de p: pˆ B = y +α α +β +n Esta cantidad combina información proveniente de la distribución a priori, así como también de la muestra. 43 44 Método de Estimación de Bayes Métodos de Evaluación de E.Puntual ...Ejemplo: En efecto, el estimador de Bayes p̂B obtenido puede reescribirse como combinación lineal de la media a priori y la media muestral, con coeficientes determinados por α , β y n. Los métodos discutidos previamente proveen herramientas para encontrar estimadores puntuales de parámetros. Una dificultad se presenta, no obstante, cuando podemos aplicar varias de estas técnicas a una situación particular, y nos encontramos con la tarea de escoger entre diversos estimadores. y α + β α n + pˆ B = α + β + n n α + β + n α + β media muestral Es probable que diferentes técnicas entreguen el mismo resultado, pero frecuentemente esto no ocurre. A continuación examinaremos algunos criterios que faciliten la tarea de seleccionar un determinado estimador. media a priori 45 Métodos de Evaluación de E.Puntual Error Cuadrático Medio (ECM): El ECM de un estimador T ≡ θˆ del parámetro θ es la función de θ definida por E[T − θ ]2 . El ECM mide el promedio de las diferencias cuadradas entre el estimador y el verdadero valor del parámetro, una medida razonable del desempeño de un estimador puntual. Una medida alternativa podría ser E[| T − θ |] . No obstante, la medida cuadrática que utiliza ECM tiene dos ventajas sobre otras medidas de distancia: primero que es bastante tratable analíticamente, y segundo que tiene la siguiente interpretación: 47 Profesor: Hector Allende 46 Métodos de Evaluación de E.Puntual Error Cuadrático Medio (ECM): ECM (T ) = E[T − θ ]2 = E[T 2 − 2Tθ + θ 2 ] = E[T 2 ] − 2θE[T ] + θ 2 = V [T ] + ( E[T ]) 2 − 2θE[T ] + θ 2 = V [T ] + ( E[T ] − θ )2 = V [T ] + ( Sesgo(T )) 2 Donde se define el Sesgo (Bias) de un estimador puntual como: Sesgo(T ) = E [T ] − θ 48 8 Universidad Técnica Federico Santa María Métodos de Evaluación de E.Puntual Error Cuadrático Medio (ECM): El ECM incorpora dos componentes, una que mide la variabilidad del estimador (precisión) y la otra que mide su sesgo (cercanía al verdadero valor). Un estimador con buenas propiedades de ECM tiene varianza y sesgo pequeños. Parece razonable entonces escoger como el mejor estimador de θ , la estadística que tenga el ECM más pequeño posible de entre todos los estimadores factibles de θ … Métodos de Evaluación de E.Puntual Error Cuadrático Medio (ECM): … No obstante, no existe ningún estimador que minimice el ECM para todos los posibles valores de θ . Es decir, un estimador puede tener un ECM mínimo para algunos valores de θ , mientras que otro estimador tendrá la misma propiedad, pero para otros valores de θ . Ejemplo: Considere la m.a. X1,X2,…,Xn de alguna distribución tal que E [X i ] = µ y V [X i ] = σ 2 . Considere las estadísticas (estimadores): T1 = 49 Métodos de Evaluación de E.Puntual 1 n ∑ Xi = X n i =1 y T2 = como posibles estimadores de µ . Error Cuadrático Medio (ECM): Ejemplo: … Obtener los ECM de T1 y T2 y demostrar que ECM(T2) < ECM(T1) para algunos valores de µ , mientras que la proposición inversa es cierta para otros valores de µ . Solución: • Para T2 : ECM (T1 ) = V [T1 ] = ECM (T2 ) = Métodos de Evaluación de E.Puntual Error Cuadrático Medio (ECM): Solución: … Si n = 10 y σ 2 = 100, entonces 1000 + µ 2 ECM (T1 ) = 10 y ECM (T2 ) = 121 Al igualar ambas expresiones y resolviendo para µ , se tiene que: ECM(T2) < ECM(T1) para µ < 210 µ > 210 En base a esto podemos afirmar que se deben examinar ciertos criterios adicionales para la selección de los estimadores. 53 Profesor: Hector Allende 1 1 n nµ n E ∑ X i = ∑ E [X i ] = n + 1 n + 1 i =1 n + 1 i =1 n nσ 2 ∑V [X ] = (n + 1) i i =1 2 2 σ2 n para E [T2 ] = 1 1 n V [T2 ] = V ∑ Xi = 2 n + 1 i =1 (n + 1) 51 ECM(T1) < ECM(T2) 50 Métodos de Evaluación de E.Puntual Error Cuadrático Medio (ECM): Solución: • Para T1 : El sesgo de T1 es cero, dado que E [T1 ] = E [X ] = µ 1 n ∑ Xi n + 1 i =1 nσ 2 nσ 2 + µ 2 nµ + − µ = 2 (n + 1) n + 1 (n + 1)2 52 Métodos de Evaluación de E.Puntual Estimadores Insesgados: Recordemos que en el ECM de un estimador se definió el Sesgo o Bias. Se dice que la estadística T = T(X1 , X 2 ,..., X n ) es un estimador insesgado de θ , si E[T ] = θ para todos los valores posibles de θ . En otras palabras, es deseable que la media del estimador sea igual al parámetro que se está estimando. De esta forma, para cualquier estimador insesgado de θ , la distribución de muestreo de T se encuentra centrada alrededor de θ y ECM (T ) = V [T ] . 54 9 Universidad Técnica Federico Santa María Métodos de Evaluación de E.Puntual Estimadores Insesgados: Ejemplo: Sean X1,X2,X3 y X4 una m.a. de tamaño 4 proveniente de una población exponencial de parámetro θ. Demuestre que T1 = ( X 1 + X 2 ) / 6 + ( X 3 + X 4 ) / 3 y T2 = ( X 1 + 2 X 2 + 3 X 3 + 4 X 4 ) / 5 son estimadores insesgado y sesgado, respectivamente, del parámetro θ. Solución: Sabemos que E[Xi] = θ (exponencial) E[T1 ] = ( E[ X 1 ] + E[ X 2 ]) / 6 + ( E[ X 3 ] + E[ X 4 ]) / 3 insesgado = 2θ / 6 + 2θ / 3 = θ E[T2 ] = ( E[ X 1 ] + 2 E[ X 2 ] + 3E[ X 3 ] + 4 E[ X 4 ]) / 5 sesgado = 10θ / 5 = 2θ Métodos de Evaluación de E.Puntual Estimadores Consistentes: Es razonable esperar que un buen estimador de un parámetro θ sea cada vez mejor conforme crece el tamaño de la muestra. Esto es, conforme la información de una v.a. se vuelve más completa, la distribución de muestreo de un buen estimador se encuentra cada vez más centrada alrededor del parámetro θ . 55 56 Métodos de Evaluación de E.Puntual Métodos de Evaluación de E.Puntual Estimadores Consistentes: Sea T el estimador del parámetro θ , y sea T1 , T2 ,..., Tn una secuencia de estimadores que representan a T con base en muestras de tamaño 1,2,…,n, respectivamente. Se dice que T es un estimador consistente para θ si Estimadores Insesgados de Varianza Mínima: Como ya vimos, es difícil determinar un estimador con mínimo ECM para todo valor de θ . Sin embargo, podemos efectuar esta búsqueda dentro de la clase de estimadores insesgados. Si un estimador T se encuentra dentro de esta clase, se tiene que: limn →∞ P (| Tn − θ |≤ ε ) = 1 E[T ] = θ para todo valor de θ y ε > 0 . Obs.: Esta definición proviene del concepto de Convergencia en Probabilidad. Como ejemplo, anteriormente demostramos que la media muestral X n es un estimador consistente de la media poblacional µ . 57 y ECM (T ) = V [T ] Entonces, dentro de la clase de estimadores insesgados, podemos comparar éstos según su varianza. 58 Métodos de Evaluación de E.Puntual Métodos de Evaluación de E.Puntual Estimadores Insesgados de Varianza Mínima: Sea X1,X2,…,Xn una m.a. de una distribución cuya densidad tiene la forma f (x | θ ) . Sea T = T(X1 , X 2 ,..., X n ) un estimador de θ tal que E[T ] = θ y V [T ] es menor que la varianza de cualquier otro estimador insesgado de θ para todos los valores posibles de θ . Se dice entonces que T es un estimador insesgado de varianza mínima de θ . Estimadores Insesgados de Varianza Mínima: Sea X1,X2,…,Xn una m.a. de una distribución cuya densidad tiene la forma f (x | θ ). Si T es un estimador insesgado de θ , entonces la varianza de T debe satisfacer la siguiente desigualdad: −1 ∂ ln f ( X | θ ) 2 V [T ] ≥ nE ∂θ ¿Cómo encontrar, si existe, un estimador de varianza mínima? Sería iluso calcular todos los estimadores posibles para cierto parámetro θ y escoger aquel de varianza más pequeña. Para evitar dicha operatoria, recurrimos a un resultado que recibe el nombre de cota inferior de Cramér-Rao. 59 Profesor: Hector Allende Esta desigualdad establece un límite inferior para la varianza de un estimador de θ (cota inferior de Cramér-Rao). 60 10 Universidad Técnica Federico Santa María Métodos de Evaluación de E.Puntual Estimadores Eficientes: Si T es cualquier estimador insesgado del parámetro θ , se dice que T es un estimador eficiente si se cumple que: ∂ ln f ( X | θ ) 2 V [T ] = nE ∂θ −1 Por lo tanto, el estimador eficiente de θ es el estimador de mínima varianza, cuyo valor corresponde a la cota inferior de Cramér-Rao. El estimador eficiente de θ , si se puede encontrar, es el mejor estimador insesgado de θ en el contexto de la inferencia estadística. 61 Métodos de Evaluación de E.Puntual Estimadores Eficientes: ...Ejemplo: 2 Entonces: ∂ ln p( x | λ ) 2 x −λ E = E ∂λ λ 1 V[X ] 1 2 = 2 E [x − λ ] = 2 = λ λ λ Y por la definición de eficiencia, el estimador eficiente T de λ λ σ2 1 debe ser tal que se cumpla: = = V [T ] = n/λ n n De aquí inferimos que el estimador eficiente de λ es la media muestral: T = X . 63 Métodos de Evaluación de E.Puntual Estimadores Eficientes: Ejemplo: Sean X1,X2,…,Xn una m.a. de una distribución Poisson de parámetro λ . Encuentre el estimador eficiente de λ . Solución: Sabemos que la pmf de una distribución Poisson está dada por p( x | λ ) = e − λ λx / x!, y su esperanza y varianza 2 están dadas por E[ X ] = µ = λ y V [ X ] = σ = λ . Luego: ln p( x | λ ) = x ln(λ ) − λ − ln( x! ) ∂ ln p( x | λ ) x x−λ = −1 = ∂λ λ λ 62 Métodos de Evaluación de E.Puntual Eficiencia Relativa: Se define la eficiencia relativa del estimador T2 respecto del estimador T1 como: ECM (T1 ) ef (T2 , T1 ) = ECM (T2 ) La varianza de un estimador insesgado es la cantidad más importante para decidir qué tan bueno es. Si T1 y T2 son dos cualesquiera estimadores insesgados de θ : V [T1 ] ef (T2 , T1 ) = V [T2 ] Se dice que T1 es más eficiente que T2 si V [T1 ] ≤ V [T2 ] . 64 Métodos de Evaluación de E.Puntual Métodos de Evaluación de E.Puntual Estimadores Suficientes: Una estadística suficiente para un parámetro θ es aquella que utiliza toda la información contenida en la muestra aleatoria con respecto a θ . Por ejemplo, suponga que la m.a. X1,X2,…,X50 de 50 observaciones proviene de una función de densidad caracterizada por el parámetro θ . Con una estadística suficiente para θ , lo que se tiene es una manera de resumir todas las mediciones de los datos de la muestra en un valor en el que toda la información de la muestra con respecto a θ se encuentre contenida en este valor. Estimadores Suficientes: • Por ejemplo, el estimador T = (X1+X3+…+X49)/25 ¿contiene toda la información pertinente con respecto a θ ? A pesar que el estimador proporciona un solo valor, no es posible que éste contenga toda la información muestral con respecto a θ , dado que se ha excluido la mitad de los datos. 65 Profesor: Hector Allende • ¿Qué se puede decir acerca de la media muestral? Que contiene todos los datos, pero significa esto que toda información muestral con respecto a θ se extrae considerando X 66 11 Universidad Técnica Federico Santa María Métodos de Evaluación de E.Puntual Métodos de Evaluación de E.Puntual Estimadores Suficientes: Se dice que un estimador T = T(X1,X2,…,Xn) es suficiente para un parámetro θ si la distribución conjunta de X1,X2,…,Xn dado T, se encuentra libre de θ ; es decir, si se afirma T, entonces X1,X2,…,Xn no tiene nada más que decir con respecto a θ . Estimadores Suficientes: Sea X1,X2,…,Xn una m.a. de una distribución con densidad de probabilidad f (x | θ ) . Se dice que la estadística T = T(X1,X2,…,Xn) es suficiente para θ sí y sólo si la función de verosimilitud puede factorizarse de la siguiente forma: La importancia de este concepto radica en el hecho de que si existe un estimador eficiente de θ , se encontrará que éste es una estadística suficiente. L( x | θ ) = L( x1 , x1 ,..., xn | θ ) = h(t | θ ) g ( x1 ,..., xn ) para cualquier valor t = T(x1,x2,…,xn) de T (realización) y en donde g ( x1 ,..., xn ) no contiene al parámetro θ . 67 Métodos de Evaluación de E.Puntual Estimadores Suficientes: Ejemplo: Sea X1,X2,…,Xn una m.a. de una distribución Poisson con pdf p( x | λ ) = e − λ λx /. x! Demostrar que el estimador eficiente de λ es a su vez suficiente. Solución: L( x1 , x1 ,..., xn | λ ) = p( x1 | λ ) p( x2 | λ ) p( xn | λ ) Métodos de Evaluación de E.Puntual Estimadores Suficientes: …Solución: n L( x1 , x1 ,..., xn | λ ) = h ∑i =1 xi | λ g ( x1 , x2 ,..., xn ) con n n x h ∑i =1 xi | λ = λ∑i =1 i e −nλ ) ( ( ) Entonces ∑i =1 xi es una estadística suficiente para λ . Dado que el estimador eficiente X es una función uno a uno de esta estadística, X también es suficiente para λ . n = e − λ λx1 / x1!⋅e − λ λx2 / x2!⋅ ⋅ e − λ λxn / xn ! n x = λ∑i =1 i e −nλ / ∏ xi ! n 68 i =1 69 Estimación por Intervalos Propiedades de los Estimadores Máximo Verosímiles En la práctica, interesa no sólo dar una estimación de un parámetro, sino que además, un intervalo que permita precisar la incertidumbre existente en la estimación. Definición: Sea x m.a. ∝ f ( x , θ ). Sean θ1=T1(x), θ2=T2(x) dos estadísticas de θ : T1 ≤ T2 ∧ ∀x ∈χ ; P [θ1 ≤ θ ≤ θ2] = 1 - α = γ Los estimadores máximo verosímiles son: Asintóticamente insesgados Asintóticamente normales Asintóticamente eficientes Invariantes bajo transformaciones biunívocas Si ∃ estimador suficiente, θˆMV es suficiente Entonces el I = [θ1 ; θ2] se llama intervalo aleatorio de confianza del 100 γ % para θ ( 0 < α < 1 ). 71 Profesor: Hector Allende 70 72 12 Universidad Técnica Federico Santa María Estimación por Intervalos Método de la Cantidad Pivotal Fijado α, el problema de determinar θ1 y θ2 puede resolverse encontrando una variable aleatoria Q(x,θ) cuya distribución esté totalmente definida, que sea independiente de θ. 1. Encontrar una cantidad Q. 2. P [q1 ≤ Q ≤ q2] = 1 - α = γ 3. Invertir P [θ1 ≤ θ ≤ θ2] = γ , obteniendo así un intervalo I=[θ1 ; θ2] de confianza para θ de nivel 100 γ %. La variable Q(x,θ) se denomina “Cantidad Pivotal”. La construcción del intervalo de confianza se efectúa con base en el mejor estimador del parámetro desconocido θ. 73 Observación: Para muestras grandes la v.a. Q siempre ˆ existe, ya que si θˆMV , entonces Z = θ − θ MV ˆ ) ( σ θ MV tiene distribución normal estándar. El intervalo para θ estaría dado por: I = [θˆMV ± z 1 − α 2 σ (θˆMV donde el cuantil z1−α / 2 puede obtenerse de la tabla de la distribución Normal estándar. )] 74 Estimación por Intervalos Estimación por Intervalos 1) I.Confianza para µ cuando se muestrea una distribución normal con varianza conocida: Considerando como estimador de la media poblacional µ como la media muestral X , deseamos construir un intervalo de confianza tal que: 1) I.Confianza para µ cuando se muestrea una distribución normal con varianza conocida: g1 ( µ ) ∫ f ( x; µ ) d x = α / 2 −∞ y ∞ ∫ f ( x; µ ) d x = α / 2 la v.a. Z = ( X − µ ) /(σ / n ) ~ N (0,1) , g1 ( µ ) − µ considerando σ / n = zα / 2 y además de zα / 2 = − z1−α / 2 se tiene: g2 ( µ ) f ( x; µ ) es la función de densidad de la distribución de muestreo de X , y g1 ( µ ) y g 2 ( µ ) son funciones de µ , las cuales no contienen a ningún otro parámetro desconocido. X ~ N ( µ , σ ), g (µ ) − µ g (µ ) − µ P[ g1 ( µ ) < X < g 2 ( µ )] = P 1 = 1−α <Z< 2 σ / n σ/ n P[ g1 ( µ ) < X < g 2 ( µ )] = 1 − α donde Puesto que entonces: 75 g2 (µ ) − µ = z1−α / 2 , σ/ n σ σ P X − z1−α / 2 =1−α < µ < X + z1−α / 2 n n 76 Estimación por Intervalos Estimación por Intervalos 1) I.Confianza para µ cuando se muestrea una distribución normal con varianza conocida: 2) I.Confianza para µ cuando se muestrea una distribución normal con varianza desconocida: Luego, el intervalo de confianza del 100(1 − α )% para la media poblacional es: σ σ σ I = x − z1−α / 2 , x + z1−α / 2 = x ± z1−α / 2 n n n donde el cuantil z1−α / 2 puede obtenerse de la tabla de la distribución Normal estándar. Es sabido que cuando se muestrea una v.a. X ~ N ( µ ,σ ) , donde tanto µ como σ son desconocidos, la v.a. X − µ sigue una distribución t-Student con (n-1) gl., T= S / n donde S es la desviación estándar y n es el tamaño de la muestra. Por lo tanto, es posible determinar el valor del cuantil t1−α / 2 ,n −1 de T, para el cual: P[ −t1−α / 2,n −1 < T < t1−α / 2,n −1 ] = 1 − α 77 Profesor: Hector Allende 78 13 Universidad Técnica Federico Santa María Estimación por Intervalos Estimación por Intervalos 2) I.Confianza para µ cuando se muestrea una distribución normal con varianza desconocida: S S Entonces: P X − t1−α / 2,n −1 < µ < X + t1−α / 2 ,n −1 = 1−α n n Luego, el intervalo de confianza del 100(1 − α )% para la media poblacional es: s s s = x ± t1−α / 2,n −1 I = x − t1−α / 2,n −1 , x + t1−α / 2,n −1 n n n donde el cuantil t1−α / 2 ,n −1 puede obtenerse de la tabla de la distribución t-Student con (n-1) grados de libertad. 3) I.Confianza para la diferencia de medias cuando se muestrean dos distribuciones normales independientes: Sean X1,X2,…,Xnx y Y1,Y2,…,Yny dos m.a. de dos distribuciones normales independientes, con medias µ X y µY y varianzas σ X2 y σ Y2 , respectivamente. Se desea construir un intervalo de confianza para la diferencia µ X − µY , con el supuesto que se conocen las varianzas. Es sabido que la v.a. Z = X − Y −2(µ X −2 µY ) ~ N (0,1) σ X σY + n X nY 79 Estimación por Intervalos 80 Estimación por Intervalos 3) I.Confianza para la diferencia de medias cuando se muestrean dos distribuciones normales independientes: Por lo tanto, es posible determinar el valor del cuantil z1−α / 2 para el cual P[− z1−α / 2 < Z < z1−α / 2 ] = 1 − α 3) I.Confianza para la diferencia de medias cuando se muestrean dos distribuciones normales independientes: Si las varianzas se desconoce, pero son iguales, entonces la v.a. X − Y − ( µ X − µY ) gl Z= Entonces: Sp σ X2 σ Y2 σ X2 σ Y2 + < µ X − µY < X − Y + z1−α / 2 + P X − Y − z1−α / 2 = 1 −α n n n X nY X Y 2 2 El intervalo está dado por: I = x − y ± z1−α / 2 σ X + σ Y n X nY ~ t − Student (k ) 1 1 + n X nY k = n X + nY − 2 El intervalo está dado por: I = x − y ± t1−α / 2 ,k s p 1 1 + n X nY donde el estimado combinado de la varianza común es: (n X − 1) s X2 + (nY − 1) sY2 k donde el cuantil z1−α / 2 puede obtenerse de la tabla de la distribución Normal estándar. 81 s 2p = Estimación por Intervalos Estimación por Intervalos 4) I.Confianza para σ cuando se muestrea una distribución normal con media desconocida: 4) I.Confianza para σ cuando se muestrea una distribución normal con media desconocida: 2 Es sabido que cuando se muestrea una v.a. X ~ N ( µ ,σ ) , donde tanto µ como σ son desconocidos, la v.a. (n − 1) S 2 sigue una distribución Ji-cuadrada con (n-1) gl., χ= σ 2 donde S es la desviación estándar y n es el tamaño de la muestra. Por lo tanto, es posible determinar el valor de los cuantiles χ 2α / 2 ,n −1 y χ 21−α / 2 ,n −1 tales que P[ χ 2α / 2,n −1 < χ < χ 21−α / 2,n −1 ] = 1 − α Profesor: Hector Allende 83 82 2 Luego, el intervalo de confianza del 100(1 − α )% para la varianza, con base en los datos de una muestra de tamaño n es: (n − 1) s 2 (n − 1) s 2 I = 2 , 2 χ 1−α / 2,n −1 χ α / 2,n −1 donde los cuantiles χ α / 2,n −1 y χ 1−α / 2,n −1 se obtienen de la tabla de la distribución Ji-Cuadrada con (n-1) gl. 2 2 84 14 Universidad Técnica Federico Santa María Estimación por Intervalos Estimación por Intervalos 5) I.Confianza para el cuociente de dos varianzas cuando se muestrean dos distribuciones normales independientes: 5) I.Confianza para el cuociente de dos varianzas cuando se muestrean dos distribuciones normales independientes: Sean X1,X2,…,Xnx y Y1,Y2,…,Yny dos m.a. de dos distribuciones normales independientes, con medias µ X y µY y varianzas σ X2 y σ Y2 , respectivamente. Se desea construir un intervalo de confianza para el 2 2 cuociente σ Y / σ X . Es sabido que la v.a. F = donde Fa = 1 f1−α / 2,nY −1,n X −1 1 f1−α / 2,n X −1,nY −1 y Fb = 2 2 El intervalo está dado por: I = Fa sY , Fb sY 2 2 s s S X2 SY2 / ~ F (n X − 1, nY − 1) σ X2 σ Y2 85 Profesor: Hector Allende Por lo tanto, es posible determinar los cuantiles a y b tales que: P[Fa < F < Fb ] = 1 − α X X donde los cuantiles Fa y Fb pueden obtenerse de la tabla de la distribución F con (nX-1) y (nY-1) grados de libertad. 86 15