Muestreo e intervalos de confianza Intervalo de confianza para la media (varianza desconocida) Intervalo de confinza para la varianza Grados en Biología y Biología sanitaria M. Marvá. Departamento de Física y Matemáticas. UAH En general, la varianza es un parámetro poblacional desconocido pero necesario para calcular el intervalo de confianza para la media: Si no lo conocemos ¿podemos estimarlo? Candidato natural: calcular la varianza de la muestra Dada una muestra X1 , · · · , Xn , calcular la media muestral X̄ y Pn (Xi − X̄) Var(X1 , · · · , Xn ) = i=1 n Se puede demostrar que E[X̄] = µX . Es un buen estimador puntual. n−1 2 E[Var(X1 , · · · , Xn )] = σX . Sistermaticamente infravalora n el verdadero valor de la varianza poblacional Estimadores Un estimador es insesgado cuando su valor esperado coincide con el valor de parámetro que pretende estimar En caso contrario, se dice sesgado Ejemplo: lo que dice el resultado (de la diapo.) anterior es La media muestral es un estimador insesgado de la media poblacional La varianza de la muestra es un estimador insesgado de la varianza poblacional con R, X̄ es un estimador sesgdo pero Var es sesgado Es estimador insesgado de la varianza Dada una muestra de la variable X, de tamaño n, formada por los valores X1 , . . . , Xn definimos la cuasivarianza muestral (a veces se llama varianza muestral) mediante: n X s2 = (Xi − X̄)2 i=1 n−1 . Y la cuasidesviación típica muestral (o desviación típica muestral) es la raíz cuadrada s de la cuasivarianza muestral. E[s2 ] = σX2 Intervalo de confianza para la media, muestras grandes Sea X una v.a. cualquiera. Si tomamos muestras de tamaño n > 30, entonces s √ X̄ ∼ N µX , n tiene una distribución normal estándar. Usando este resultado, un intervalo de confianza al nivel nc = (1 − α) para la media µX es: s s X̄ − zα/2 √ , X̄ + zα/2 √ n n que también se escribe como s µX = X̄ ± zα/2 √ . n Ejemplo: Se ha medido la presión sanguínea (en mmHg) a 40 habitantes de Framingham. Determina el intervalo de confianza para la media con un nivel de confianza del 0.95% 197.5 122.0 160.0 121.0 116.0 126.0 144.5 123.0 107.0 130.0 126.0 121.5 100.0 106.0 124.0 143.0 159.0 168.0 101.5 131.0 132.5 129.0 146.0 117.5 163.0 127.0 145.0 102.0 181.5 118.5 122.0 112.5 119.0 150.0 123.5 118.0 150.0 114.0 120.0 168.0 Usando, por ejemplo, R: X̄ = 132.15, s = 22.57, z0.025 = 1.96 22.57 22.57 132.15 − 1.96 √ , 132.15 + 1.96 √ = (125.1546, 139.1454) 40 40 Recapitulando: Si conocemos σ y X es normal σX X̄ ∼ N µX , √ n Si no conocemos σ, para cualquier v.a. X y muestras de n > 30 s X̄ ∼ N µX , √ n Si no conocemos σ y las muestras son pequeñas (n < 30), ¿qué podemos hacer? Distribución t de Student: Sea X una variable aleatoria de tipo N(µX , σX ), y sea X̄ la media muestral de X para muestras de tamaño n. Entonces, la distribución de la variable aleatoria X̄ − µX √ , Tk = s/ n es la distribución t de Student con k = n − 1 grados de libertad. Student obtuvo la función de densidad de probabilidad de Tk que, para para k = n − 1 grados de libertad es: 1 f (x) = √ k · β( 12 , 2k ) x2 1+ k Veamos su gráfica, y que lim Tk = N(0, 1) k→∞ − k+1 2 Valores críticos tk;α/2 de distribución t de Student Sean 0 ≤ p ≤ 1 y k ∈ N. El valor crítico de la distribución t de Student con k grados de libertad asociado a p es el valor tk;p tal que: P(Tk ≤ tk;p ) = 1 − p. tk;p deja una probabilidad p en su cola derecha (1 − p en la cola izda) t0.95 = −1.8125 10 grados libertad t0.05 = 1.8125 I.C. para la media: muestras normales, pequeñas, σ 2 desconocida Sea X una v.a. normal, cuya varianza σX2 se conoce. Si consideramos muestras de tamaño n, el intervalo de confianza al nivel de confianza nc = (1 − α) para la media µX es: s s X̄ − Tk,α/2 √ , X̄ + Tk,α/2 √ n n El valor Tα/2 · √sn es la semianchura del intervalo (mide la precisión). El error estándar de la muestra es √sn Ejemplo: Se ha medido las lipoproteinas de baja densisdad (LDL) (en mg/dL) a 20 habitantes de Framingham. Determina el intervalo de confianza para la media con un nivel de confianza del 90% suponiendo que la concentración de LDL se distribuye de forma normal 190 157 172 130 266 193 185 170 183 152 212 97 200 162 158 132 203 111 164 244 Usando, por ejemplo, R: X̄ = 174.05, s = 41.06, t19,0.05 = 1.73 41.06 41.06 174.05 − 1.73 √ , 174.05 + 1.73 √ = (158.1737, 189.9263) 20 20 Inferencia sobre la varianza Muchas poblaciones de interés siguen una distribución normal y para caracterizarla es necesario conocer (¡estimar!) tanto la media como la varianza. Ahora nos ocuparemos de la varianza. Sea X una variable aleatoria de tipo N(µ, σ) (que representa a la población), y sea X1 , X2 , . . . , Xn una muestra aleatoria de X (las Xi son n copias independientes de X). Entonces: n X s2 = (Xi − X̄)2 i=1 n−1 . El objetivo es relacionar s2 con una normal N(0, 1)para pder construir un intervalo de confianza para σ 2 Una función de densidad de probabilidad para hacer inferencia sobre la varianza s2 σ2 n X (Xi − X̄)2 = i=1 σ2 · (n − 1) Pn 1 = (n − 1) i=1 = n X (Xi − X̄)2 = 1 (n − 1) i=1 (Xi − X̄)2 σ2 σ2 Pn 1 = (n − 1) i=1 Xi − X̄ σ Pn 1 1 2 Z12 + Z22 + · · · + Zn2 i=1 Zi = (n − 1) n−1 2 Variable aleatoria Chi cuadrado, χ2 Si la variable aleatoria Y es la suma de los cuadrados de una familia de n copias independientes de la distribución normal estándar, entonces diremos que Y es de tipo χ2k , con k = n − 1 grados de libertad La función de densidad de probabilidad de χ2k para k grados de libertad es: 1 x(k/2)−1 e−x/2 si x ≥ 0 k/2 f (x; k) = 2 Γ(k/2) 0 si x < 0 La media de χ2k es µχ2 = k, y su desviación típica es σχ2 = k k Veamos su gráfica, que no es simétrica. √ 2k Estadístico para la distribución muestral de σ 2 , poblaciones normales. Si X es una variable aleatoria de tipo N(µ, σ)), y se utilizan muestras aleatorias de tamaño n, entonces: (n − 1) s2 ∼ χ2k , con k = n − 1. σ2 (1) Sean 0 ≤ p ≤ 1 y k ∈ N. El valor crítico χ2k;α/2 de distribución χ2k con k grados de libertad asociado a p es el valor tk;p tal que: P(χ2k ≤ χ2k;p ) = 1 − p. χ2k;p deja una probabilidad p en su cola derecha (1 − p en la cola izda) χ210;0.95 = 1.635383 6 grados de libertad χ210;0.05 = 12.59159 Intervalo de confianza para σ 2 , poblaciones normales de tamañ o n Con los valores críticos de χ2n−1 se construte el intervalo de confianza: fijado nc = 1 − α, P χ2n−1;1−α/2 < χ2n−1 < χ2n−1;α/2 = 1 − α s2 ∼ χ2n−1 sustituyendo en la expresión anterior σ2 s2 2 2 P χn−1;1−α/2 < (n − 1) 2 < χn−1;α/2 = 1 − α σ Sabemos que (n − 1) Al reorganizar términos (pág 234 del libro) se tiene ! 2 (n − 1)s2 (n − 1)s P < σ2 < 2 =1−α χ2n−1;α/2 χn−1;1−α/2 Intervalo de confianza para σ 2 , poblaciones normales Sea X una v.a. de tipo N(µ, σ). Si consideramos muestras de tamaño n, el intervalo de confianza al nivel nc = (1 − α) para la media σ es: ! (n − 1)s2 (n − 1)s2 P , χ2n−1;α/2 χ2n−1;1−α/2 Ejemplo: Se ha medido las lipoproteinas de baja densisdad (LDL) (en mg/dL) a 20 habitantes de Framingham. Determina el intervalo de confianza para la varianza al nivel de confianza del 90% suponiendo que la concentración de LDL se distribuye de forma normal 190 157 172 130 266 193 185 170 183 152 212 97 200 162 158 132 203 111 164 244 Usando, por ejemplo, R: s = 41.06, χ219,0.95 = 10.12, χ219,0.05 = 30.14 19 · 41.062 19 · 41.062 , 30.14 10.12 = (25.88, 77.12) Para tenerel intervalo para σ, extraer las raices cuadradas de los extremos del intervalo de confianza