Estimación insesgada de mı́nima varianza Tratamiento Estadı́stico de Señales Pablo Musé, Ernesto López & Luı́s Di Martino {pmuse, elopez, dimartino}@fing.edu.uy Departamento de Procesamiento de Señales Instituto de Ingenierı́a Eléctrica Facultad de Ingenierı́a Curso 2015 Introducción Problema de estimación de parámetros ◮ Se dispone de N muestras una señal discreta x[n]. Se tiene además un modelo matemático de la señal que depende de un parámetro θ desconocido. ◮ El objetivo es estimar el valor del parámetro θ a partir de x[n]. ◮ Planteo matemático del problema ◮ El estimador de θ se determina a partir de los datos como θ̂ = g (x[0], x[1], . . . , x[N − 1]) ◮ ◮ ◮ g es una función a determinar ◮ θ̂ es un estimador de θ El problema consiste en encontrar una función g de los datos de forma que θ̂ sea un buen estimador de θ. Como las muestras de x[n] son variables aleatorias, el estimador θ̂ es una variable aleatoria y por lo tanto el desempeño del estimador debe ser evaluado estadı́sticamente. Introducción Objetivo ◮ Se buscará, entre los estimadores insesgados, aquél de menor variabilidad. Estimadores insesgados de mı́nima varianza (MVU, Minimum Variance Unbiased). Estimadores MVU ◮ ◮ Se verá que en general no tienen porqué existir. Cuando existen, dos técnicas para encontrarlos son: ◮ ◮ ◮ Técnica basada en la cota inferior de Cramér-Rao. Técnica basada en la noción de estadı́sticos suficientes. Cuando no existen, se pueden agregar restricciones. Por ejemplo, imponer que el estimador, además de insesgado, sea lineal en los datos (estimadores lineales). ◮ ◮ Son fáciles de implementar Son subóptimos Conceptos previos Modelado de los datos ◮ Se dispone del conjunto de datos {x[0], x[1], . . . , x[N − 1]} ◮ ◮ y un modelo que depende de un parámetro θ desconocido. Como los datos son aleatorios, hay que describirlos especificando la función de densidad de probabilidad (PDF, Probability Density Function), p(x[0], x[1], . . . , x[N − 1]; θ) La PDF está parametrizada por el parámetro desconocido θ, definiendo una familia de funciones. ◮ Notación: se usa punto y coma para denotar esa dependencia. No confundir con una densidad de probabilidad conjunta (p(x[0], θ)) Conceptos previos Ejemplo: PDF paramétrica ◮ En el caso en que N = 1, el parámetro desconocido θ es la media y se modelan los datos como x[0] ∼ N (θ, σ 2 ), ◮ la PDF serı́a: con σ 2 conocido, 1 1 2 exp − 2 (x[0] − θ) p(x[0]; θ) = √ 2σ 2πσ 2 p(x[0]; θ) θ1 ◮ θ2 θ3 x[0] Como el valor de θ afecta la probabilidad de x[0], deberı́a ser posible inferir el valor θ a partir del valor observado de x[0]. ◮ Por ejemplo, si el valor observado de x[0] es negativo, es poco probable que θ = θ2 . El valor θ = θ1 es mas razonable. Conceptos previos Modelado de los datos ◮ ◮ La especificación de la PDF es crucial para obtener un buen estimador. En un problema real, la PDF de los datos no es conocida. Debe ser elegida de forma que: ◮ ◮ ◮ Sea consistente con las restricciones del problema Refleje el conocimiento previo de los datos Sea matemáticamente tratable Conceptos previos Ejemplo: Modelado de los datos Temperatura global media anual de la Tierra (Referencia: media entre 1951 a 1980) 1 ∆T (◦ C) 0.5 0 −0.5 −1 1910 1920 1930 1940 1950 1960 Año 1970 1980 1990 2000 Datos obtenidos de la NASA (http://data.giss.nasa.gov/gistemp/). ◮ ◮ Los datos son de naturaleza ruidosa, pero en promedio tienen tendencia creciente. Un modelo razonable serı́a una recta en ruido, x[n] = A + Bn + w[n], n = 0, 1, . . . , N − 1 2010 Conceptos previos Ejemplo: Modelado de los datos ◮ Además, el ruido podrı́a asumirse blanco y Gaussiano (WGN, White Gaussian Noise). ◮ ◮ Cada muestra de w[n] tiene PDF N (0, σ 2 ) y no está correlacionada con las demás muestras. La PDF conjunta de las muestras de ruido es, p(w[0], w[1], . . . , w[N − 1]) = N −1 Y p(w[n]) n=0 N −1 Y w2 [n] √ = exp − 2σ 2 2πσ 2 n=0 # " N −1 1 1 X 2 w [n] = − 2 N exp 2σ n=0 (2πσ 2 ) 2 1 Conceptos previos Ejemplo: Modelado de los datos ◮ En este ejemplo, los parámetros desconocidos son A y B. ◮ Arreglando los datos y los parámetros como un vector, θ = [A B]T , x = [x[0] x[1] . . . x[N − 1]] T la PDF de los datos es p(x; θ) = 1 N (2πσ 2 ) 2 " # N −1 1 X 2 exp − 2 (x[n] − A − Bn) . 2σ n=0 Conceptos previos Observaciones ◮ ◮ ◮ ◮ La hipótesis de WGN es justificada por la necesidad de obtener un modelo matemáticamente tratable que conduzca a estimadores que puedan expresarse en forma cerrada. La hipótesis también es razonable a menos que haya evidencia de otra cosa, como muestras altamente correlacionadas. El desempeño del estimador tiene dependencia fuerte con las hipótesis de la PDF de los datos. A lo sumo, se puede esperar que el estimador obtenido sea robusto, en el sentido en que pequeños cambios en la PDF de los datos no afecten demasiado el desempeño del estimador. Estimadores insesgados Definición ◮ ◮ Un estimador de cierto parámetro desconocido es insesgado si en promedio conduce al valor verdadero del parámetro. Formalmente: un estimador θ̂ del parámetro θ ∈ (a, b) es insesgado si E(θ̂) = θ, ∀ θ ∈ (a, b). Estimador insesgado del nivel de DC en WGN ◮ Se consideran las observaciones x[n] = A + w[n], ◮ ◮ ◮ 2 n = 0, 1, . . . , N − 1 w[n] es WGN, w[n] ∼ N (0, σ ) A es el parámetro a estimar, con −∞ < A < ∞ Un estimador razonable de A es la media muestral,  = N −1 1 X x[n] N n=0 Estimadores insesgados Estimador insesgado del nivel de DC en WGN ◮ Se quiere ver si el estimador es insesgado. " N −1 1 X E(Â) = E x[n] N n=0 # N −1 1 X E (x[n]) = N n=0 (a) (b) = ◮ 1 N N −1 X A (a) Linealidad de la esperanza. (b) Como A es determinı́stico, E(x[n]) = E(A + w[n]) = A + E(w[n]) = A. n=0 =A Se concluye que el estimador media muestral es insesgado. ¿Cuál es la PDF de Â? ◮ Como  es la suma de variables aleatorias gaussianas independientes, es una variable aleatoria gaussiana. ◮ queda completamente especificada por la media y la varianza. Estimadores insesgados Estimador insesgado del nivel de DC en WGN ◮ ◮ La media es E(Â) = A (se vio previamente que es insesgado). Solo falta calcular la varianza: " N −1 1 X x[n] var(Â) = var N n=0 # N −1 1 X = 2 var (x[n]) N n=0 (a) Si X e Y son variables aleatorias independientes, var(aX + bY ) = a2 var(X) + b2 var(Y ) (a) (b) = 1 N2 σ2 = N ◮ ◮ N −1 X n=0 σ2 (b) Como A es constante, var(x[n]) = var(A + w[n]) = var(w[n]) = σ2 . Se concluye que  ∼ N (A, σ 2 /N ). La varianza del estimador decrece un factor de N respecto a la varianza de las muestras individuales. Estimadores insesgados Observaciones ◮ La restricción de que E(θ̂) = θ para todo θ es importante. Significa que si θ̂ = g(x), con se tiene que cumplir que Z E(θ̂) = ∞ −∞ ◮ ◮ ◮ ◮ x = [x[0], x[1], . . . , x[N − 1]]T , g(x)p(x; θ)dx = θ ∀θ Podrı́a ocurrir que se cumpla para algunos valores de θ pero no para otros. Un estimador que es insesgado no garantiza que es un buen estimador. Solo indica que en promedio alcanza el valor verdadero del parámetro. Los estimadores sesgados introducen un error sistemático en la estimación, siendo su desempeño pobre. Compromiso sesgo-varianza: en algunos casos, los estimadores sesgados tienen menor variabilidad. Estimadores insesgados Combinación de estimadores ◮ ◮ ◮ ◮ ◮ La propiedad de insesgado tiene implicancias importantes al combinar estimadores. o n Se dispone de varios estimadores del θ̂1 , θ̂1 , . . . , θ̂n mismo parámetro: n 1X Un procedimiento para mejorar la θ̂i θ̂ = n i=1 estimación podrı́a ser su promediado: Asumiendo que los estimadores son insesgados, de igual varianza y no correlacionados, se ve que var(θ̂1 ) n Cuantos mas estimadores se combinan, mas decrece la varianza. E(θ̂) = θ var(θ̂) = lim var(θ̂) → 0 ⇒ n→∞ ◮ lim θ̂ = θ. n→∞ Los estimadores insesgados se pueden combinar para obtener uno mejor. Estimadores insesgados Combinación de estimadores ◮ ◮ En el caso en que los estimadores θi son sesgados, n 1X E(θ̂i ) = θ + b(θ) E(θ̂i ) = θ + b(θ) E(θ̂) = n i=1 Sin importar cuantos estimadores se promedien, θ̂ no converge al valor verdadero. p(θ̂) p(θ̂) Estimador Insesgado θ θ̂ n crece p(θ̂) θ θ̂ θ θ̂ p(θ̂) Estimador Sesgado E(θ̂) ◮ θ θ̂ Sesgo de un estimador: b(θ) = E(θ̂) − θ E(θ̂) Criterio de Mı́nima Varianza ◮ ◮ ◮ En la búsqueda de estimadores óptimos es necesario adoptar algún criterio de optimalidad. Uno natural es la minimización del error cuadrático medio (MSE, Mean Square Error), i h mse(θ̂) = E (θ̂ − θ)2 . Análisis del error cuadrático medio h i2 θ̂ − E(θ̂) + E(θ̂) − θ 2 2 h i = E θ̂ − E(θ̂) + 2 E θ̂ − E(θ̂) E(θ̂) − θ +E E(θ̂) − θ {z } | mse(θ̂) = E E 2 (θ̂)−E(θ̂)θ−E 2 (θ̂)+E(θ̂)θ=0 =E θ̂ − E(θ̂) = var(θ̂) + | {z } depende del estimador 2 + E(θ̂) − θ b2 (θ) | {z } depende del parámetro . 2 Criterio de Mı́nima Varianza Estimador MSE del nivel de DC en WGN x[n] = A+w[n], ◮ n = 0, 1, . . . , N −1, Se considera como estimador la media muestral modificada, N −1 a X Ǎ = x[n], N n=0 ◮ w[n] i.i.d. con w[n] ∼ N (0, σ 2 ) ◮ a constante. Se quiere encontrar el valor de a que minimice el MSE. Media Sesgo E(Ǎ) = aA b(A) = (a − 1)A ◮ El estimador es insesgado si y solo si a = 1. Varianza var(Ǎ) = Sustituyendo en b(A) y var(Ǎ) en la ecuación del MSE queda mse(Ǎ) = a2 σ 2 + (a − 1)2 A2 N a2 σ 2 N Criterio de Mı́nima Varianza Estimador MSE del nivel de DC en WGN ◮ Diferenciando respecto a a, se tiene que 2aσ 2 d mse(Ǎ) = + 2(a − 1)A2 da N ◮ e igualando a cero para encontrar el valor de aopt se obtiene que aopt = ◮ A2 . A2 + σ 2 /N El estimador que produce el menor error cuadrático medio es ! N −1 1 X A2 x[n] Ǎ = A2 + σ 2 /N N n=0 Problema: el estimador del parámetro desconocido depende del valor del parámetro desconocido. Criterio de Mı́nima Varianza Observaciones ◮ En general los estimadores que minimizan el error cuadrático medio dependen del parámetro desconocido y por lo tanto no son realizables. ◮ ◮ Comparación de los estimadores del nivel de DC en WGN aopt = A2 ≤1 + σ 2 /N  = x̄ Ǎ = aopt x̄ E(Â) = A var(Â) = σ 2 /N mse(Â) = σ 2 /N E(Ǎ) = aopt A var(Ǎ) = a2opt σ 2 /N mse(Ǎ) = aopt σ 2 /N ◮ ◮ Esto es porque el MSE es función del sesgo (ver ecuación del MSE), y el sesgo depende del parámetro desconocido. A2 El estimador insesgado tiene mayor varianza y error cuadrático medio. Compromiso sesgo-varianza: en general, reducir la varianza de un estimador tiene el costo de hacerlo sesgado. Criterio de Mı́nima Varianza Estimadores MVU ◮ ◮ ◮ El enfoque de minimizar el MSE debe ser abandonado ya que conduce a estimadores irrealizables. La alternativa es restringirse a estimadores insesgados y minimizar la varianza. Como mse(θ̂) = var(θ̂) + b2 (θ), si b(θ) = 0 ◮ ⇒ mse(θ̂) = var(θ̂) Como el error cuadrático medio de estimadores insesgados es la varianza, minimizar la varianza equivale a minimizar el MSE. Estimadores insesgados de varianza mı́nima (MVU, Minimum Variance Unbiased) Estimadores MVU Existencia de estimadores MVU ◮ Se dice que existe un estimador MVU si hay un estimador de menor varianza que el resto de los posibles estimadores para todo θ. Estimador MVU: ◮ No hay estimador MVU En general, el estimador MVU no tiene porque existir. ◮ Por ejemplo, esto ocurre si la PDF de los datos cambia con el valor del parámetro. Estimadores MVU Ejemplo: no existencia de estimador MVU ◮ ◮ Se dispone de dos observaciones independientes x[0] y x[1] con PDF N (θ, 1) si θ ≥ 0 x[0] ∼ N (θ, 1) x[1] ∼ N (θ, 2) si θ < 0 y se quiere estimar θ. Se proponen los siguientes estimadores, θ̂1 = ◮ 1 (x[0] + x[1]), 2 θ̂2 = 2 1 x[0] + x[1]. 3 3 Es fácil verificar que ambos estimadores son insesgados. Estimadores MVU Ejemplo: no existencia de estimador MVU ◮ La varianza de los estimadores es 1 var(θ̂1 ) = (var(x[0]) + var(x[1])) = 4 4 1 var(θ̂2 ) = var(x[0]) + var(x[1]) = 9 9 ◮ var(θ̂) 1 2 3 4 = 5 9 6 9 = = = 18 36 27 36 si θ ≥ 0 20 36 24 36 si θ ≥ 0 si θ < 0 si θ < 0 Se cumple que en θ ≥ 0, en θ < 0, θ̂2 θ̂1 ◮ θ θ̂1 MVU θ̂2 MVU No existe un estimador MVU entre los dos estimadores propuestos. Estimadores MVU Existencia de estimadores MVU ◮ No solo puede no existir el estimador MVU, si no que incluso puede no existir un único estimador insesgado. ◮ En este caso, la búsqueda del estimador MVU no tiene sentido. No existencia de estimador insesgado ◮ ◮ Se dispone de una única observación x[0] y se sabe que x[0] ∼ U [0, 1/θ] con θ > 0. Se quiere estimar θ. Para eso, se considera un estimador genérico de la forma θ̂ = g(x[0]) y se buscan funciones g de forma que sea insesgado. E(θ̂) = E(g(x[0])) Z ∞ (a) g(u)pU (u)du = −∞ (b) =θ (c) =θ Z 1 θ g(u)du 0 (a) Definición de esperanza. (b) Como U ∼ U[0, 1/θ], θ si 0 ≤ u ≤ 1/θ pU (u) = 0 en otro caso (c) Condición de insesgado. Estimadores MVU No existencia de estimador insesgado ◮ Se llegó a que para que el estimador sea insesgado se tiene que cumplir que Z θ1 g(u)du = 1, ∀θ > 0. 0 ◮ ◮ No existe una función g que cumpla la condición ∀θ > 0. Se concluye que no existe un estimador insesgado en este problema. Estimadores MVU Búsqueda estimadores MVU ◮ ◮ Aún cuando existe un estimador MVU, puede no ser posible encontrarlo. No hay ninguna regla infalible para encontrar estimadores MVU. Enfoques de búsqueda: 1. Determinar la cota inferior de Cramér-Rao (CRLB, Cramér Rao Lower Bound), y ver si algún estimador la verifica. ◮ ◮ La CRLB determina un lı́mite inferior en la varianza de cualquier estimador insesgado. Si un estimador tiene varianza igual a la CRLB para todos los valores de θ, es el estimador MVU. Estimadores MVU Búsqueda estimadores MVU ◮ Enfoques de búsqueda: 2. Buscar estadı́sticos suficientes y aplicar el teorema de Rao-Blackwell-Lehmann-Scheffe (RBLS). ◮ Puede existir un estimador MVU que no alcance la CRLB. 3. Restringir la clase de estimadores no sólo a los insesgados, sino también a los insesgados lineales con los datos, y encontrar el MVU en esta clase. ◮ Este estimador no será óptimo, a menos que el estimador MVU sea lineal en ese problema particular. Extensión a vector de parámetros En el problema general de estimación de parámetros, los parámetros desconocidos pueden ser varios. Estimador insesgado ◮ Si hay p parámetros desconocidos, se construye el vector de parámetros desconocidos, T θ = [θ1 θ2 . . . θp ] . ◮ Se dice que un estimador θ̂ = [θ̂1 θ̂2 . . . θ̂p ]T es insesgado si E(θ̂i ) = θi , para todo i = 1, 2, . . . , p. ◮ Definiendo la esperanza de un vector de variables aleatorias como ◮ un estimador insesgado cumple la propiedad a i < θ i < bi E(θ̂) = E(θ̂1 ) E(θ̂2 ) .. . E(θ̂p ) E(θ̂) = θ Extensión a vector de parámetros Estimador MVU ◮ Un estimador MVU tiene la propiedad adicional de que var(θ̂i ) mı́nima, para i = 1, 2, . . . , p entre todos los estimadores insesgados. Propiedades de la varianza Varianza La varianza de un variable aleatoria X es el segundo momento central, var(X) = E (X − E(X))2 Ejercicio: demostrar las siguientes propiedades 1. Una formulación alternativa de la varianza es, var(X) = E(X 2 ) − E 2 (X) 2. Si X es una variable aleatoria con varianza finita, para cualquier constante a y b se cumple que, var(aX + b) = a2 var(X) 3. Si X1 y X2 son variables aleatorias independientes, var(X1 + X2 ) = var(X1 ) + var(X2 ) Referencias I Kay, S. M. (1993). Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory, chapter 2. Prentice Hall, 1st edition.