Intervalos de confianza

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción En este capı́tulo, vamos a abordar la estimación mediante Intervalos de Confianza, que es otro de los tres grandes conjuntos de técnicas que se utilizan en la Inferencia Estadı́stica. La situación general que vamos a considerar es la misma que en el capı́tulo anterior: Disponemos de una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X de una población. Pensamos que esta caracterı́stica puede ser adecuadamente modelizada mediante un modelo de probabilidad con función de masa Pθ (x) (en el caso discreto) o con función de densidad fθ (x) (en el caso continuo). En cualquiera de los casos, lo único que nos falta por conocer es el valor del parámetro θ ∈ Θ, que es desconocido. Lo que tratamos de hacer en este capı́tulo es encontrar intervalos que sirvan para estimar este parámetro desconocido, fijando el nivel de confianza que queremos que tenga dicha estimación. En primer lugar, se plantearán dos ejemplos sencillos que servirán como motivación. Ejemplo 1.- En los ejercicios de cálculo de probabilidades, siempre se suele hablar de monedas equilibradas pero, naturalmente, no todas lo son. Nos gustarı́a conocer aproximadamente (estimar) la probabilidad de cara de una determinada moneda, y llamamos p = P (Cara). Necesitamos datos, para lo cual lanzamos la moneda, por ejemplo, 100 veces, y anotamos los resultados. Supongamos que obtenemos 55 caras y 45 cruces. Desde un punto de vista formal, las caras y las cruces pueden ser codificadas mediante unos y ceros, de modo que tenemos una muestra aleatoria (X1 , ..., X100 ) de ( X= 1 (si sale cara) con probabilidad p 0 (si sale cruz) con probabilidad 1 − p y, por tanto, X puede ser modelizada mediante un modelo de Bernoulli con parámetro p desoconocido. Podemos estimar la probabilidad de cara, p, mediante el estimador de máxima verosimilitud, que en este caso es: p̂ = x̄ = 55 Número de caras obtenidas = = 0, 55 Número de lanzamientos 100 1 Ahora bien, cuando decimos que estimamos que p es 0,55, no estamos afirmando que p valga exactamente 0,55; lo que realmente queremos decir es que p valdrá, aproximadamente, 0,55. Esto de aproximadamente lo podemos concretar en diferentes intervalos: (0,54 ; 0,56), (0,50 ; 0,60), ... Para decidir con qué intervalo nos quedamos, necesitamos una metodologı́a general que nos permita resolver este tipo de problemas de un modo sistemático y lo más objetivo posible. Ejemplo 2.- En una fábrica, se está ensayando una nueva fibra sintética, y se quiere conocer aproximadamente (estimar) cuál es la resistencia media a la rotura de las cuerdas fabricadas con esta nueva fibra. Llamaremos µ al valor de esta resistencia media que se quiere estimar. Necesitamos datos, para lo cual medimos la resistencia de, por ejemplo, 100 cuerdas, y anotamos los resultados. Supongamos que obtenemos una resistencia media muestral de 31 unidades. Desde un punto de vista formal, lo que tenemos es una muestra aleatoria (X1 , ..., X100 ) de la caracterı́stica X = “Resistencia a la rotura”, que puede ser modelizada mediante una distribución N (µ; σ), con parámetros µ y σ desconocidos. Podemos estimar la resistencia media de las cuerdas, µ, mediante el estimador de máxima verosimilitud, que en este caso es: µ̂ = x̄ = 31 Ahora bien, cuando decimos que estimamos que µ es 31, no estamos afirmando que µ valga exactamente 31; lo que realmente queremos decir es que µ valdrá, aproximadamente, 31. Esto de aproximadamente lo podemos concretar en diferentes intervalos: (30 ; 32), (28 ; 34), ... Para decidir con qué intervalo nos quedamos, necesitamos una metodologı́a general que nos permita resolver este tipo de problemas de un modo sistemático y lo más objetivo posible. 2 Intervalos de confianza En primer lugar, vamos a definir lo que entenderemos por un intervalo de confianza para estimar un parámetro: Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica X de una población con función de masa Pθ (x) (caso discreto), o con función de densidad fθ (x) (caso continuo), donde θ = (θ1 , ..., θk ) es desconocido. 2 Un intervalo de confianza para estimar θi , con un nivel de confianza 1−α, es una función que a cada posible muestra (x1 , . . . , xn ) le hace corresponder un intervalo (T1 , T2 ) = (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn )) tal que: P {(x1 , . . . , xn ) : θi ∈ (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn ))} = 1 − α Observaciones: 1. El significado del nivel de confianza es el siguiente: Supongamos que un intervalo de confianza es construido con un nivel de confianza 1 − α=0,95. Esto significa que la probabilidad de que el intervalo contenga al verdadero (y desconocido) valor de θi es 0,95. Es decir, el 95% de las veces, el intervalo construı́do funcionarı́a bien, en el sentido de que serı́a una buena estimación del parámetro θi . Por lo tanto, el nivel de confianza mide la probabilidad de buen funcionamiento de un intervalo y, por este motivo, el nivel de confianza siempre se elige próximo a 1. 2. Los valores tradicionalmente elegidos para 1 − α son: 0,90, 0,95 y 0,99. El más habitual de todos es 1 − α = 0,95. Si el nivel de confianza es demasiado próximo a 1, su probabilidad de buen funcionamiento será altı́sima, pero a costa de que la longitud del intervalo será muy grande, convirtiéndolo ası́ en algo inútil. Por este motivo, suele tomarse 1 − α = 0,95, que representa un valor de compromiso. 3 Distribuciones asociadas a la Normal Las distribuciones que vamos a definir en esta sección son distribuciones que aparecen de modo natural en el muestreo de poblaciones Normales y tienen un papel fundamental en los intervalos de confianza y en los contrastes de hipótesis que vamos a utilizar cuando trabajemos con muestras de poblaciones Normales. Definición.- Sean X1 , . . . , Xn variables aleatorias independientes con distribución N (0; 1). La distribución χ2 de Pearson con n grados de libertad (abreviadamente χ2n ) es la distribución de la variable aleatoria: n X Xi2 esquemáticamente: i=1 n X i=1 3 ! [N (0; 1)] 2 La distribución χ2n sólo toma valores positivos. Definición.- Sean Y, X1 , . . . , Xn variables aleatorias independientes con distribución N (0; 1). La distribución t de Student con n grados de libertad (abreviadamente tn ) es la distribución de la variable aleatoria: Y q P n 1 n 2 i=1 Xi   N (0; 1)  esquemáticamente: q 1 2 χ n n La distribución tn es simétrica con respecto al cero. Definición.- Sean X1 , . . . , Xm , Y1 , . . . , Yn variables aleatorias independientes con distribución N (0; 1). La distribución F de Fisher-Snedecor con m y n grados de libertad (abreviadamente Fm;n ) es la distribución de la variable aleatoria: ! 1 2 1 Pm 2 χ i=1 Xi m m m esquemáticamente: 1 2 1 Pn 2 χ i=1 Yi n n n La distribución Fm;n sólo toma valores positivos. 4 Método de la cantidad pivotal En esta sección, abordamos la cuestión de cómo construir intervalos de confianza de un modo sistemático y lo más objetivo posible. El método habitualmente utilizado es el método de la cantidad pivotal. En primer lugar, definimos lo que se entiende por una cantidad pivotal: Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica X de una población con función de masa Pθ (x) (caso discreto), o con función de densidad fθ (x) (caso continuo), donde θ = (θ1 , ..., θk ) es desconocido. Una cantidad pivotal para estimar el parámetro θi es una función C(X1 , . . . , Xn ; θi ) tal que su distribución es fija (no depende de ningún parámetro desconocido). De manera esquemática, los pasos que hay que dar para obtener un intervalo de confianza mediante el método de la cantidad pivotal son los siguientes: 1. Fijamos un nivel de confianza 1 − α (próximo a 1). 2. Construimos una cantidad pivotal C(X1 , . . . , Xn ; θi ) para estimar θi . 4 3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2. Esta construcción es posible gracias a que la distribución de la cantidad pivotal es fija. 4. Despejamos θi del intervalo anterior, obteniendo ası́ el intervalo de confianza buscado. El intervalo de confianza obtenido tiene sentido como estimador porque sólo depende de los valores muestrales (no depende de ningún parámetro desconocido). Su nivel de confianza es 1 − α gracias a que el contenido de probabilidad del intervalo del paso anterior era 1 − α. Obviamente, la descripción que se acaba de dar del método es muy abstracta. Por este motivo, es muy conveniente aplicar el método a algún caso concreto que ayude a entender lo que hacemos en general. Caso 1.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X ∼ N (µ; σ), donde la media µ es desconocida, pero supondremos (por sencillez) que σ es conocida. Queremos un intervalo de confianza para estimar µ. Aplicamos el método de la cantidad pivotal: 1. Fijamos un nivel de confianza 1 − α (próximo a 1). 2. Dado que queremos estimar µ, empezamos considerando su estimador de máxima verosimilitud que, en este caso, sabemos que es µ̂ = X̄: √ X̄ ∼ N (µ; σ/ n) ⇒ Por tanto: C(X1 , ..., Xn ; µ) = X̄ − µ √ ∼ N (0; 1) σ/ n X̄ − µ √ ∼ N (0; 1) σ/ n es una cantidad pivotal para estimar µ. 3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2: ( P −zα/2 ) X̄ − µ √ < zα/2 = 1 − α < σ/ n 5 4. Finalmente, despejamos µ del intervalo anterior: σ µ < X̄ + zα/2 √ n σ µ > X̄ − zα/2 √ n El intervalo de confianza que hemos obtenido es: σ σ IC1−α (µ) = X̄ − zα/2 √ ; X̄ + zα/2 √ n n ! σ = X̄ ± zα/2 √ n ! Observemos que el intervalo de confianza está centrado en X̄, lo cual parece bastante natural. La cantidad que sumamos y restamos a la media muestral para obtener el intervalo de confianza recibe el nombre de error en la estimación: σ Error en la estimación = zα/2 √ n Es interesante poner de manifiesto un par de propiedades del intervalo de confianza que acabamos de obtener: 1. Cuando el tamaño muestral, n, aumenta, el error en la estimación disminuye y, en consecuencia, la longitud del intervalo disminuye. 2. Cuando el nivel de confianza, 1 − α, aumenta, el error en la estimación aumenta y, en consecuencia, la longitud del intervalo aumenta. Estas dos propiedades eran intuitivamente esperables. La ventaja de la metodologı́a de los intervalos de confianza es que se cuantifica automáticamente la influencia de n y de 1 − α. Caso 2.- Consideramos nuevamente una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X ∼ N (µ; σ), pero ahora consideramos la situación más habitual en la práctica, donde tanto µ como σ son desconocidos. Seguimos interesados en obtener un intervalo de confianza para estimar µ. Volvemos a aplicar el método de la cantidad pivotal: 1. Fijamos un nivel de confianza 1 − α (próximo a 1). 2. Dado que queremos estimar µ, empezamos otra vez considerando su estimador de máxima verosimilitud que, en este caso, sabemos que sigue siendo µ̂ = X̄: √ X̄ ∼ N (µ; σ/ n) ⇒ 6 X̄ − µ √ ∼ N (0; 1) σ/ n Pero, en este caso, nos encontramos con el problema de que X̄ − µ √ σ/ n no puede ser una cantidad pivotal para estimar µ, ya que depende de σ que ahora es desconocida. Este problema se resuelve sustituyendo σ por una estimación: la cuasi-desviación tı́pica muestral, S. De este modo, tenemos que: C(X1 , ..., Xn ; µ) = X̄ − µ √ ∼ tn−1 S/ n es una cantidad pivotal para estimar µ. Obsérvese que la nueva cantidad pivotal sigue una distribución tn−1 en vez de seguir una distribución N (0; 1). 3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2: ) ( P −tn−1;α/2 X̄ − µ √ < tn−1;α/2 = 1 − α < S/ n 4. Finalmente, despejamos µ del intervalo anterior: S µ < X̄ + tn−1;α/2 √ n S µ > X̄ − tn−1;α/2 √ n El intervalo de confianza que hemos obtenido es: S S IC1−α (µ) = X̄ − tn−1;α/2 √ ; X̄ + tn−1;α/2 √ n n ! S = X̄ ± tn−1;α/2 √ n Observemos que, nuevamente, el intervalo de confianza está centrado en X̄, lo cual sigue siendo muy natural. La cantidad que sumamos y restamos a la media muestral para obtener el intervalo de confianza sigue recibiendo el nombre de error en la estimación, y ahora es de la forma: S Error en la estimación = tn−1;α/2 √ n 7 ! Este intervalo sigue teniendo el mismo tipo de propiedades que tenı́a el obtenido en el Caso 1. Aplicando de manera sistemática este método de la cantidad pivotal, irı́amos obteniendo los intervalos de confianza que se utilizan en las situaciones más habituales: Una muestra aleatoria de una caracterı́stica con distribución Normal, Bernoulli, Poisson,... Dos muestras aleatorias independientes de caracterı́sticas con distribución Normal, Bernoulli,... La mayorı́a de los libros dedicados a la Estadı́stica Aplicada incluyen un listado de los intervalos de confianza más frecuentemente utilizados. 5 Mı́nimo tamaño muestral En esta última sección, abordamos una cuestión práctica muy interesante: ¿Cuántos datos serán necesarios para estimar un parámetro (con un nivel de confianza 1 − α), de modo que el error en la estimación quede por debajo de una cierta cantidad, E, previamente fijada? Vamos a ver la respuesta a esta pregunta en los casos analizados en la sección anterior: Caso 1.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X ∼ N (µ; σ), donde σ es conocida. Queremos obtener un intervalo de confianza para estimar µ, con un nivel de confianza 1 − α, y queremos saber cuántos datos serı́an necesarios para estimar µ, de modo que el error en la estimación quede por debajo de una cierta cantidad, E, previamente fijada. El procedimiento es sencillo: σ Error en la estimación = zα/2 √ < E n Despejamos n y obtenemos: n> ⇒ (zα/2 σ)2 E2 Caso 2.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X ∼ N (µ; σ), donde tanto µ como σ son desconocidos. Queremos obtener un intervalo de confianza para estimar µ, con un nivel de confianza 1 − α, y queremos saber cuántos datos serı́an necesarios para estimar µ, de 8 modo que el error en la estimación quede por debajo de una cierta cantidad, E, previamente fijada. Procedemos de manera similar: S S Error en la estimación = tn−1;α/2 √ ' zα/2 √ < E n n (zα/2 S)2 Despejamos n y obtenemos: n> E2 En este caso, hay que hacer un par de observaciones sobre la manera de proceder: (a) Aunque no sabemos el valor de n (ya que es precisamente lo que estamos intentando determinar), lo que sı́ sabemos es que (en general) será un valor grande (por encima de 30). En estas condiciones: tn−1;α/2 ' zα/2 (b) Como no sabemos el valor que tendrá S en una muestra futura, se suele tomar el valor que obtengamos en una pequeña muestra piloto. En general, ésta serı́a la forma de proceder en cualquier otro caso. 9

Intervalos de confianza

Documentos relacionados

Productos

Apoyo

Intervalos de confianza

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib