Muestreo e intervalos de confianza Intervalo de confianza para la media: población normal, varianza conocida Grados en Biología y Biología sanitaria M. Marvá. Departamento de Física y Matemáticas. UAH La inferencia estadística: Predecir una característica poblacional a partir de una muestra La probabilidad permite asignar una fiabilidad a la predicción Ejemplo: X la concentración de colesterol en sangre en población. Tomar una muestra y Estimación puntual: calcular el valor medio exacto. ¡¡Ese valor cambia con la muestra!! Estimación por intervalos: calcular un intervalo en el que está la media (valor aproximado) Produciremos afirmaciones como la concentración media de colesterol en sangre µX en la población está entre los valores a y b con una probabilidad p P(a < µX < b) = p Ejemplo: (continuación) al producir un intervalo P(a < µX < b) = p asumimos un margen de error para esa medida (robusto frente a otras muestras) asignamos una probabilidad a que la afirmación sea cierta Atención a Diseño experimental ¿Cómo se obtienen las muestras? Distribución muestral ¿Comó son todas las muestras posibles? Ejemplo: Teorema central del límite con R (fichero en la web) El teorema central del límite, versión 2.0 Sea X una v.a. normal, X ∼ N(µX , σX ). Suponer que tomamos una muestra X1 , X2 , · · · , Xn de tamaño n (son copias independientes idénticas de X). Entonces, la media muestral X̄ := X1 + X2 + · · · + Xn n verifica σX X̄ ∼ N µX , √ n ⇔ X̄ − µX σX √ n ∼ N (0, 1) independientemente del tamaño n de la muestra La media muestral es un estimador de la media poblacional Objetivo: si la característica X ∼ N(µX , σX ), hacer predicciones tipo El valor µX está entre a y b con probabilidad (por ej.) 0.9 P(a < µX < b) = 0.9 Sabiendo que σX X̄ ∼ N µX , √ n Ejercicio: si Z ∼ N(0, 1), determina un intervalo para la v.a. Z tal que 1 tenga probabilidad 0.9 2 que sea lo más pequeño posible Valores críticos para la distribución normal estándar Sea 0 ≤ p ≤ 1 un valor de probabilidad cualquiera. El valor crítico de Z correspondiente a p es el valor zp que cumple: F(zp ) = P(Z ≤ zp ) = 1 − p z0.05 = 1.6449 Valores críticos para la distribución normal estándar Si Z ∼ N(0, 1), el intervalo más pequeño tal que P(a < Z < b) = 0.9 es aquel en el que a es el percentil 5 y b el 95. OJO: se usa la notación a = z0.95 b = z0.05 , pensando en la cola derecha, y se llaman valores críticos Observa que, por simetría, z0.95 = −z0.05 Por un lado, el menor intervalo con probabilidad 0.9 para Z ∼ N(0, 1) P(−z0.05 < Z < z0.05 ) = 0.9 Por otro lado, si X ∼ N(µX , σX ), para muestras de tamaño n σX X̄ − µX √ = Z ∼ N(0, 1) X̄ ∼ N µX , √ ⇔ n σX / n Sustituimos (2) en (1) y tenemos X̄ − µX √ < z0.05 = 0.9 P −z0.05 < σX / n Reorganizando términos en (3) σX σX P X̄ − z0.05 √ < µX < X̄ + z0.05 √ = 0.9 n n La probabilidad de que la media poblacional esté en ese es 0.9 (1) (2) (3) Población normal, varianza conocida Sea X una v.a. normal, cuya varianza σX2 se conoce. Si consideramos muestras de tamaño n, el intervalo de confianza al nivel de confianza nc = (1 − α) para la media µX es: σX σX X̄ − zα/2 √ , X̄ + zα/2 √ n n σX El valor zα/2 · √ es la semianchura del intervalo (mide la precisión). n σX El error estándar de la muestra es √ . n Ejemplo: Se toma una m.a.s. de 40 individuos de una población normal con media muestral X̄ = 176 y varianza σ = 9. Calcula el intervalo de confianza para la media poblacional al nivel de confianza 0.99 σX σX P X̄ − zα/2 √ , X̄ + zα/2 √ =1−α n n Algunas observaciones importantes Si aumenta sólo el tamaño de la muestra, mejora el error (precisión) pero no la probabilidad de acertar Si aumenta sólo el nivel de confianza (1 − α), mejora la probabilidad de acertar pero no el error (precisión) Experimentar con el fichero GeoGebra correspondiente Aún más importante La construcción del intervalo de confianza es posible porque conocemos la distribución del estimador media muestral ¿Y si la población de estudio no sigue una distribución normal? ¿Y si no conocemos la varianza de la población de estudio?