Modelos lineales en Biología, 5ª Curso de Ciencias Biológicas Clase 28/10/04 Estimación y estimadores: Distribuciones asociadas al muestreo Referencias: Cualquiera de los textos incluidos en la bibliografía recomendada En este tema se aplicarán algunos de los conceptos relativos a probabilidad que se han visto hasta ahora, pues se trata de encontrar funciones de los datos procedentes de una muestra que sirvan para estimar algunos de los parámetros poblacionales más importantes. 1.- Estadísticos y estimadores. Definimos Estadístico como cualquier función de los datos de una muestra. Cada valor de una función definida a partir de las medidas de una muestra depende de la muestra que en cada caso se haya elegido. Si la muestra es aleatoria, cualquier estadístico es una variable aleatoria y como tal, tendrá una distribución. Dedicaremos este tema a hablar de las distribuciones de algunos estadísticos muy usados en experimentación. Frecuentemente nos interesa conocer algún dato de una población, por ejemplo: ¿qué proporción de personas votará una determinada opción política?, o ¿Cuál es la talla media de esta comunidad?. En muchas ocasiones el dato que pretendemos conocer es, además, algún parámetro de una distribución. Por ejemplo, respecto de la opción política, podemos considerar toda la población dividida en dos grupos: los que votan la opción en estudio y los que no lo votan; podemos representar la situación mediante una variable aleatoria que tomará los valores 1, si eligen la opción de interés, y 0 si no la eligen. Esta situación quedará modelada por la distribución binaria, cuyo único parámetro es la proporción p que queremos conocer. Se tratará de elegir una muestra y encontrar la función de la muestra que mejor estime el dato poblacional requerido. Definimos Estimador como cualquier estadístico que sirva para evaluar un dato poblacional a partir de los de una muestra. Todos los estimadores son variables aleatorias y siguen algún modelo de distribución, comentaremos los más importantes a lo largo del tema. Representaremos con la letra griega θ un parámetro poblacional genérico, con el mismo símbolo con circunflejo, su estimador: θˆ . El estimador de la proporción p es p̂ ; el de la media µ es µ̂ ;y el de la varianza σ2 es σˆ 2 . Existen varios procedimientos para determinar estimadores, algunos de ellos son: el de analogía, el de máxima verosimilitud, el de mínimos cuadrados y otros. Nosotros definiremos estimadores por analogía: tomaremos como estimador de un parámetro poblacional su propia definición aplicada a la muestra: Estimador de una proporción: La proporción se estima en la muestra contando el numero de individuos que presenten la característica que se estudie y dividiéndolo entre el tamaño de la muestra: n Sea una muestra de tamaño n, y de ellos n a presentan la característica en estudio, entonces p̂ = a n Estimación de una media: utilizaremos la media muestral como estimación de la poblacional. Sea una muestra de tamaño n y una característica cuantitativa X cuyas medidas en los individuos de la n muestra han resultado ser x1 , x2 ,....,x n , entonces µˆ = x = ∑x i i =1 n Estimación de una varianza: se utiliza la cuasivarianza muestral para estimar la varianza poblacional: n σˆ 2 = s 2 = ∑(x i =1 − x) 2 i n −1 Estimación de parámetros, pág 1 En ocasiones observaremos el parámetro p como la media de una distribución binaria: puesto que la variable aleatoria solo puede tomar los valores 1 (acierto) y 0 (fallo), el número de aciertos es también la suma de todos los valores de la variable observados en la muestra, y al dividir la suma de todas las observaciones entre el número de ellas, tendremos la media muestral. El parámetro λ de una Poisson es su media, por lo que para estimarlo también podremos considerarlo como una media. 2.- Propiedades de los estimadores: Insesgadez: la principal característica que debe cumplir un estimador es que estime lo que realmente se pretende estimar, o sea, al repetir muchas veces la estimación, se obtenga como promedio un valor muy próximo al que se desea estimar: E( θˆ )=θ . Un estimador que cumpla esta propiedad se dice que es insesgado, en caso contrario se le denomina sesgado. • La media muestral es un estimador insesgado de la media poblacional, pues E(x) = µ . • La varianza muestral no es un estimador insesgado de la varianza poblacional, ya que: n −1 2 σ , por ese motivo se usa como estimador de la varianza poblacional la cuasivarianza n que sí es insesgado. E(s 2 ) = Eficiencia: todo estimador es una variable aleatoria, y, como tal, tendrá una media y una varianza, un estimador es tanto más eficiente cuento menor sea su varianza, pues la variabilidad implica poca seguridad en que la estimación sea correcta, desde ese punto de vista, lo ideal sería que la variabilidad fuese nula. La eficiencia siempre se define en relación a otro estimador del mismo parámetro, un estimador es más eficiente que otro si tiene menos varianza. Existe un valor mínimo de la varianza de un estimador insesgado, es la denominada cota de Frèchet-Cramer-Rao, si un estimador insesgado alcanza esta cota, decimos que es eficiente. Suficiencia: un estimador es suficiente si contiene toda la información muestral relativa al parámetro que se desea estimar. La media muestral es un estimador suficiente, pues se usan todos los datos de la muestra en su cálculo. Conocida la media muestral, el disponer de todos los datos de la muestra no mejora mi información referente a la media poblacional. Consistencia: un estimador es consistente si la probabilidad de encontrar valores estimados distintos a los que se desea estimar es muy baja (por poco que se diferencien los valores estimados de los que se pretenden estimar) cuando el tamaño de la muestra es muy grande. Los estimadores basados en una media muestral son insesgados, eficientes y suficientes. 3.- Distribuciones en el muestreo: a) Distribución de la media muestral: a.1) Variable aleatoria X es una Normal (µ µ ; σ 2). Extraida una muestra de tamaño n, con las observaciones x1 , x2 ,...xn . Al considerar todas las posibles muestras, cada observación toma los valores de la variable aleatoria X y su misma densidad, la suma de n variables aleatorias Normales, todas ellas con la misma media y varianza es una variable aleatoria Normal, cuya media es nµ y cuya varianza es nσ2, portanto, aplicando las propiedades de la esperanza matemática, podemos comprobar que la media X sigue una distribución de media µ y varianza σ2/n. . Además, al ser Normal la población de la que se extrae la muestra, la media muestral sigue también una distribución Normal: Si Xà N(µ;σ2)⇒ X à N(µ;σ2/n) − Al tipificar la media muestral: Z = X− µ σ2 n → N(0;1) Estimación de parámetros, pág 2 Con frecuencia no se conoce la varianza poblacional, entonces se estima con la cuasivarianza poblacional, pero al tipificar, lo que se obtiene no es lo mismo que antes: t = X −µ → t(n − 1) s2 n Cuando los datos proceden de una variable Normal , la media de todas las medias muestrales sigue una distribución Normal, si se tipifica con la desviación típica poblacional, la media tipificada sigue una Normal (0;1). Pero si se tipifica con la cuasidesviación típica, sigue una distribución t de Student con n-1 grados de libertad . a.2) La variable aleatoria X No es una Normal: Entonces la distribución de la media muestral depende de la distribución de la variable original. No obstante, para muestras grandes : n>30 (Teorema Central del Límite), se puede asegurar que la distribución de la media muestral es muy aproximadamente una Normal de media la de X y de varianza la de X dividido por el tamaño muestral. Si la varianza muestral es desconocida NO SE PUEDE UTILIZAR LA DISTRIBUCIÓN t, pues falla el supuesto de Normalidad, por ello se comete menos error utilizando la distribución Normal y tomando MUESTRAS DE TAMAÑO SUPERIOR A 60. b) Distribución del estimador del parámetro p de una distribución binaria: Si de una distribución binaria tomamos una muestra de tamaño n y contamos el número de aciertos, na, el cociente na/n estima la proporción de aciertos en la población. Considerando la variable aleatoria número de aciertos observados en la muestra de tamaño n, esta variable , si la extracción fue independiente, sigue una distribución binomial, de parámetros n y p: na à b(n;p) También se puede considerar que los valores posibles de la variable aleatoria de partida (binaria con media p y varianza pq) son 0 y 1, por lo tanto las observaciones muestrales solo tendrán estos valores, la suma de todas las observaciones muestrales coincide con el número de aciertos y por lo tanto, na/n puede ser considerado como una media, por lo que según el Teorema Central del Límite (T.C.L.) , si la muestra es grande: X à N(µ;σ2/n)=N(p; pq/n) c) Distribución del estimador del parámetro σ2 de una distribución Normal: Si X es una variable aleatoria N(µ;σ2) y desconocemos la media y la varianza poblacional, podemos estimar ésta con la cuasivarianza poblacional: 2 n 1 n 2 x −x (n − 1)s2 sigue una distribución Chi( xi − x ) , se puede demostrar que el estadístico ∑ i = ∑ σ n − 1 i= 1 σ2 i =1 cuadrado con n-1 grados de libertad. Esto significa que al tipificar respecto de la varianza poblacional, cada sumando es el cuadrado de una N(0;1) , y la suma de todos ellos una Chi-cuadrado, pero todos los sumandos no son independientes, ya que la suma de todas las observaciones ha de ser tal que se obtenga la media x observada. Si fijamos este valor de la media muestral y dejamos que varíen libremente las observaciones, solo hemos de calcular n-1, pues la última viene obligada. Por lo tanto, el número de grados de libertad de la distribución Chi-cuadrado es n-1 (el mismo número que se utiliza como denominador del cálculo del estimador de la varianza). s2 = d) Distribución del cociente de las los estimadores de las varianzas de dos distribuciones Normales independientes: (n −1)s 2 sigue una σ2 distribución Chi cuadrado con n-1 g.l., calculado cada uno de ellos en su respectiva muestra, el estadístico: En ocasiones hay que comparar las varianzas de dos distribuciones Normales, como el estadístico Estimación de parámetros, pág 3 ( n1 − 1) s12 σ 12 (n1 − 1) (n2 − 1) s22 σ 22 ( n2 − 1) s12 = σ12 s22 sigue una distribución F de Snedecor con n1-1 y n2-1 grados de libertad respectivamente. σ 22 4.- Estimación por punto y por intervalo: Cuando realizamos una estimación de un parámetro aplicando el estimador correspondiente, damos un valor como estimación del parámetro poblacional, entonces decimos que hemos realizado una estimación por punto. Con frecuencia hay que plantearse qué tan segura es esa estimación: ¿Qué probabilidad hay de que el valor que se ha dado como estimación coincida con lo que realmente se desea estimar?. Supongamos el caso de una distribución binaria cuyo parámetro p sea realmente 0.4, que por el momento es desconocido y tomamos una muestra de tamaño, n=5, ¿qué probabilidad hay de que se obtenga na=2 para que el p estimado sea 0.4? 5 P(X = 2) = 0.4 2 0.6 3 = 0,3456 2 Esto nos dice que en solo 34.5 de cada cien veces que tomásemos esta muestra estimaremos correctamente el parámetro poblacional (en más del 65% de los casos realizaremos una estimación incorrecta). ¿Qué decir si la variable de partida fuese contínua?. Por ello una estimación por punto es poco informativa de la calidad de esa estimación y se prefiere dar un intervalo de valores entre los cuales esperamos esté incluido el valor estimado con una cierta probabilidad, es la estimación por intervalo. Para realizar una estimación por intervalo es preciso conocer la distribución del estimador que se usa y, a partir de ella, construir un intervalo de confianza. Veámoslo con un ejemplo: a) Estimación por intervalo de la media de una variable Normal . Realizar una estimación por intervalo es encontrar los extremos a y b de un intervalo que esperamos contenga la media poblacional con una probabilidad que nosotros fijamos de antemano y que denominamos, nivel de confianza, sea este nivel 1α, entonces será : P(a < µ ≤ b) =1-α Nosotros sabemos que si la variable de partida es Normal, la media muestral es una Normal de media la poblacional y varianza la poblacional dividida por el tamaño muestral: − X à N(µ;σ /n) ⇒ Z = 2 X− µ σ2 n → N(0;1) Se puede encontrar dos valores: a y b tales que la probabilidad de que Z tome valores comprendidos entre ellos sea un valor dado 1-α, P(a<Z≤b) = 1-α . En realidad hay infinidad de posibles valores a y b y por eso se suelen tomar tales que la probabilidad de que Z sea menor que a sea igual a la probabilidad de que Z sea mayor que b, y ambas probabilidades igual a α/2 Como al distribución Normal es simétrica respecto de su media, en el caso de una N(0;1), dos abcisas a y b que delimiten colas de igual probabilidad verifican que |a| =| b|, por lo que solo hay que buscar el cuantil zα /2 de la Normal(0;1) Estimación de parámetros, pág 4 α/2 Entonces: P( − zα / < x −µ σ2 n α/2 ≤ zα ) = 1 − α , quitando denominadores dentro del paréntesis: σ2 σ2 P −zα / 2 < x − µ ≤ zα / 2 = 1 − α , restando x : n n σ2 σ2 P − x − zα / 2 < − µ ≤ −x + zα / 2 = 1 − α , cambiando el signo y el sentido de la desigualdad dentro del n n paréntesis: σ2 σ2 P x − zα / 2 < µ ≤ x + zα / 2 =1 −α n n Supongamos una variable aleatoria de la que sabemos que sigue una distribución Normal, de media desconocida y varianza conocida =4. Para estimar la media poblacional tomamos una muestra de tamaño 10 y calculamos la media muestral , que resulta ser 30. La estimación por punto será x =30. σ2 σ2 Por lo tanto, el intervalo buscado es: x − zα / 2 < µ ≤ x + zα / 2 n n Para este ejemplo, si se desea que 1-α =0.90, el cuantil buscado es el que deja a su derecha un área de 0.05, para que su simétrico deje un área a su izquierda de 0.05. En las tablas de la Normal(0;1), podemos encontrar que el cuantil buscado es 1.64, por lo que : σ2 σ2 4 4 I1−α = x − zα /2 < µ ≤ x + zα / 2 = 30 − 1.64 ; 30 +1.64 = ( 28.963;31.037 ) n n 10 10 Podemos afirmar que la media poblacional es un valor comprendido entre 28.963 y 31.037 con un grado de confianza del 90%. Estimación de parámetros, pág 5 Nótese que se habla de confianza en lugar de probabilidad: una vez tomada la muestra, todos los datos requeridos para construir el intervalo son conocidos y podemos construirlo. Este intervalo ya ha sido fijado y contendrá o no a la media poblacional. Solo podemos afirmar que de repetir el proceso muchas veces, tendríamos que, en promedio, 90 de cada 100 de los intervalos que así se constuyan contendrán a la media poblacional, y "confiamos" en que este sea uno de esos 90. Si la varianza poblacional fuese desconocida, todo sería semejante, cambiando varianza poblacional por cuasivarianza muestral y la distribución Normal por una t de Student con n-1 grados de libertad. Para el ejemplo actual, si 4 es la cuasidesviación típica: s2 s2 4 4 I1 −α = x − t ( n −1 ) ,α / 2 < µ ≤ x + t (n −1) α / 2 = 30 − 1.833 ; 30 +1.833 = ( 28.841;31.159) n n 10 10 Lógicamente, cuando valor de la varianza estimada coincide con la varianza poblacional (desconocida), al desconocer la varianza poblacional se obtiene un intervalo más amplio para tener la misma confianza de recubrir la media, pues el grado de desconocimiento es mayor. b) Estimación por intervalo de la media de una variable que no sabemos si sigue una ley Normal. En este caso solo podemos tomar muestras grandes y aplicar el T.C.L.. Si la varianza poblacional es conocida, el tamaño muestral solo debe ser superior a 30, mientras que si la varianza poblacional es desconocida, el tamaño ha de ser superior a 60. En ambos casos se debe usar la distribución Normal y no la t , ya que por no cumplirse el supuesto de normalidad, el error cometido al utilizar la t de Student es superior al que se comente manteniendo la Normal. Los resultados son solo aproximados, tanto más cuanto mayor sea la muestra: σ2 σ2 I1−α ≈ x − zα / 2 < µ ≤ x + zα / 2 n n I1−α ≈ x − zα / 2 s2 s2 < µ ≤ x + zα / 2 n n con n >30 con n >60 c) Estimación por intervalo del parámetro p de una distribución binaria: Si se toma una muestra de tamaño n de una distribución binaria de parámetro p desconocido, podemos contar el número de aciertos de la muestra para estimar p. Esta cantidad es una variable aleatoria que sigue una distribución binomial de parámetros n conocido y p desconocido. Si se supone que la estimación por punto de p es una buena aproximación de su valor poblacional, se podrá calcular las probabilidades asociados a los distintos valores de los posibles x de una distribución ˆ y sumar P(X=0)+P(X=1)+.... hasta encontrar una tal que la suma esté lo más próximo posible a α /2, supongamos b(n;p) que esta sea xa . Del mismo modo se puede proceder por el extremo superior: P(X=n)+P(X=n-1)+.... hasta encontrar un xb que haga que la suma sea lo más próximo posible a α /2,entonces, como: p̂ = n a / n , el intervalo será: xa xb ; ) aunque, como la probabilidad es discreta, el nivel 1-α deseado casi nunca se alcanza exactamente. Este n n procedimiento tiene una objeción grave y es que para construir una estimación del parámetro poblacional ha de hacer uso de este parámetro, que es desconocido y se utiliza el valor de p estimado. Otro procedimiento consiste en determinar los valores p1 y p2 del siguiente modo: p1 es la proporción que se ha de utilizar en una distribución binomial b(n ; p1) para que la probabilidad de obtener na o más aciertos sea 1-α /2 y p2 es la proporción que se ha de utilizar en una distribución binomial b(n ; p2) para que la probabilidad de obtener na o menos aciertos sea α /2 pq En el caso de que el tamaño muestral sea grande, se puede usar la aproximación de la Normal: p̂ → N p; , el intervalo n de confianza será: I1 −α = ( pq , el inconveniente es que el intervalo para p vuelve a quedar en función de p, por eso se suele sustituir los n p y q de dentro de la raíz por sus estimaciones muestrales: p = pˆ ± z α / 2 Estimación de parámetros, pág 6 ˆˆ pq n Esta fórmula solo es aplicable si el tamaño muestral es tal que tanto el número de "aciertos" como el de "fallos" sean mayor que 20. Además habría que incluir una corrección por continuidad debida al hecho de aproximar una distribución discreta (con valores para probabilidades puntuales) por una contínua, en la que la probabilidad asociada a un solo punto es nula. En el caso de que no se alcance este tamaño de muestra, se puede calcular el intervalo a partir de la fórmula inicial: p = pˆ ± z α / 2 p(1 − p) n En la que se ha sustituido q por 1− p, como el resto de cantidades son conocidas, tenemos una ecuación irracional en p, que se resuelve aislando el término irracional, elevando al cuadrado: p = pˆ ± z α / 2 2 pq = zα / 2 n y resolviendo la ecuación de segundo grado que se obtiene. Las raices de dicha ecuación son los extremos del intervalo pedido. Existen otras expresiones para la estimación por intervalo de proporciones, que no se verán aquí, (ver Martín Andrés, 1994). (p − pˆ )2 d) Estimación por intervalo de una varianza de una variable aleatoria Normal En el caso de la varianza, si la variable de la que se toma la muestra sigue una distribución Normal N(µ ; σ2 ) sabemos que el (n −1)s 2 estadístico sigue una distribución Chi-cuadrado con n-1 g.l., puesto que esta distribución toma valores a partir de σ2 cero y no es simétrica, tendremos que determinar a partir de las tablas de esta distribución los cuantiles χ21-α/2 y χ2α/2 que dejan a su derecha un área 1-α/2 y α/2, respectivamente, entonces: (n − 1)s 2 P χ12−α / 2 < < χα2 / 2 = 1 − α al despejar la varianza poblacional hay que invertir los signos de la desigualdad, y 2 σ ( n −1 ) s 2 ( n −1 ) s 2 el intervalo de confianza es: I1−α = ; χ2 χ12−α / 2 α/2 Estimación de parámetros, pág 7