3.11 Intervalos de confianza basados en una población con distribución normal pero con muestras pequeñas Cuando n < 30 no es posible usar el teorema central del límite y habría que hacer una suposición específica acerca de la forma de la distribución (gamma, Weibull, etc) y luego derivar un intervalo de confianza para esa distribución en particular. En el presente curso nos centraremos en el caso de distribuciones normales (que son las más comunes en las mediciones experimentales). Cuando n es pequeña, ya no es tan probable que S sea cercana σ y la variable aleatoria estandarizada Z presenta aleatoriedad en el numerador y en el denominador. Esto implica que la distribución de la variable estandarizada Z= X −µ S/ N estará más dispersa que la distribución normal estándar. Esta nueva distribución es la familia de distribuciones t. Teorema: Cuando X es la media de una muestra aleatoria de tamaño n, de una distribución normal con media µ, la variable aleatoria: T= X −µ S/ N tiene una distribución de probabilidad llamada distribución t-Student con N-1 grados de libertad. Una distribución t-student está regida por un solo parámetro llamado número de grados de libertad de la distribución. Este parámetro se representa con la letra griega ν y puede tomar como valor los enteros positivos. Cada valor diferente de ν corresponde a una distribución t diferente Si representamos con tv la curva función de densidad para ν (ν = n-1) grados de libertad, resulta que: 1. Cada curva tv tiene forma de campana con centro en 0. 2. Cada curva tv está más dispersa que la curva normal estándar 3. A medida que ν aumenta, la dispersión de la curva tv correspondiente disminuye. 4. A medida que ν → ∞, la secuencia de la curva tv se aproxima a la curva normal estándar. Figura 3.10: Curva t-student para diferentes grados de libertad (ν = 5, 25). La curva z representa la curva normal estándar El área bajo la curva de densidad t, con n-1 grados de libertad, entre –tα/2,n-1 y tα/2,n-1 es 1-α Área sombreada = 1- α -tα/2 0 tα/2 Figura 3.11: Distribución de probabilidad t . El área sombreada representa la probabilidad P(-tα/2,n-1 < T < tα/2,n-1) = 1- α Esto implica que: x ± tα /2,n−1 s N es el intervalo de confianza asociado a la magnitud medida, con nivel de confianza de 100(1- α)%. Ejemplo: Una agencia de protección ambiental hizo mediciones de CL50 (concentración letal que mata al 50% de los animales de experimentación) para ciertos productos químicos que se pueden encontrar en ríos y lagos. Para cierta especie de peces, las mediciones de CL50 para DDT en 12 experimentos arrojaron los siguientes datos (expresados en partes por millón) x = 9.0 s = 6.4 Obtener un intervalo de confianza del 90 % 90% = (1 − α )% ⇒ 0.9 = 1 − α ⇒ α = 0.1 ⇒ α / 2 = 0.05 IC (90%) = 9 ± 1.7959 6.4 = 9 ± 3.3 12 3.12 Comparación de valores determinados experimentalmente para muestras pequeñas. En este caso el procedimiento de prueba es equivalente al seguido en la sección 3.10, pero en lugar de usar la variable estandarizada Z, se hace uso de la variable estandarizada T Hipótesis nula: Ho: µ = µo Hipótesis alternativa: Ha: µ ≠ µo Estadístico de prueba: t= x − µo sx Que surge de considerar que se ha trabajado con una muestra pequeña pero con distribución normal. La región de rechazo correspondiente (dos colas) resulta en este caso: RR = {t ≥ tα / 2,n−1 o t ≤ −tα / 2,n−1 } para un nivel de significancia α. Así para un nivel de significancia del 5%, α = 0.05, α/2 = 0.025, y si N = 12 entonces se debe determinar tα/2,n-1 tal que P(t > tα/2,n-1) = 0.025, resultando tα/2,n-1 = -2.2010 RR = {t ≥ 2.2010 o t ≤ −2.2010} De esta manera si el estadístico de prueba calculado con los datos muestrales cae en la región de rechazo, se debe rechazar la hipótesis nula a favor de la alternativa, concluir que nuestras mediciones son inaceptables y tratar de encontrar el origen de la discrepancia. Existen otras dos posibles hipótesis alternativas cuyas respectivas regiones de rechazo con un nivel de significancia α son: Hipótesis alternativa: Ha: µ < µo RR = {t ≤ −tα ,n−1 } Hipótesis alternativa: Ha: µ > µo RR = {t ≥ tα ,n−1 } Ejemplo: De una muestra de 10 lentes para anteojos se determina que el grosor promedio muestral es de 3.05 mm y que la desviación estándar muestral es de 0.34 mm. Se desea que el grosor promedio de las lentes que se fabrican sea de 3.20 mm. ¿Sugieren los datos muestrales que el grosor promedio de las lentes es diferente al deseado? Pruebe con α = 0.05 1º: Establecer la hipótesis nula y la hipótesis alternativa adecuada Hipótesis nula: Ho: µ = 3.20 mm Hipótesis alternativa: Ha: µ ≠ 3.20 mm 2º: Calcular el estadístico de prueba t= x − µo 3.05 − 3.20 = = −1.395 0.34 / 10 sx 3º: Establecer la región de rechazo para el nivel de significancia seleccionado. En este caso α = 0.05 y por lo tanto RR = {t ≥ t0.025,9 o t ≤ −t0.025,9 } RR = {t ≥ 2.262 o t ≤ −2.262} Como el estadístico de prueba t = −1.395 no pertenece a la región de rechazo, no se rechaza la hipótesis nula. Veremos ahora como se procede cuando se desean comparar dos valores de una magnitud determinados a partir de muestras pequeñas de poblaciones normales x, sx nx y, sy ny En este caso, hay que distinguir dos casos dependiendo si las varianzas son o no homogéneas, es decir, si se pueden o no considerar iguales. Varianzas homogéneas: Hipótesis nula Ho: µ1 - µ2 = 0 Estadístico de prueba: t= sp x− y 1 1 + nx n y 2 p s = (nx − 1)s x2 + (n y − 1)s y2 nx + n y − 2 Con el número de grados de libertad definido por: ν = nx + n y − 2 Hipótesis alternativa: Región de rechazo para prueba de nivel α Ha: µ1 - µ2 <0 RR = {t ≤ −tα ,ν } Ha: µ1 - µ2 >0 RR = {t ≥ tα ,ν } Ha: µ1 - µ2 ≠0 RR = {t ≥ tα / 2,ν o t ≤ −tα / 2,ν } Varianzas no homogéneas: Hipótesis nula Ho: µ1 - µ2 = 0 Estadístico de prueba: t= x− y 2 s x2 s y + nx n y Con el número de grados de libertad definido por: ν= s 2 s 2y x + nx n y ( s x2 / nx 2 ) +( nx − 1 2 s 2y / n y ) ny − 1 2 Hipótesis alternativa: Región de rechazo para prueba de nivel α Ha: µ1 - µ2 <0 RR = {t ≤ −tα ,ν } Ha: µ1 - µ2 >0 RR = {t ≥ tα ,ν } Ha: µ1 - µ2 ≠0 RR = {t ≥ tα / 2,ν o t ≤ −tα / 2,ν } La pregunta que surge es cuando se puede considerar que las varianzas son homogéneas y cuando no? Para responder esta pregunta hay que comparar las varianzas. Como se realiza esa comparación? 3.13 Inferencias en relación con dos varianzas poblacionales Para el caso de las poblaciones normales, los procedimientos están basados en una nueva familia de distribuciones de probabilidad: Distribución F Esta distribución tiene dos parámetros que la caracterizan: ν1 que es el número de grados de libertad del numerador y ν2 que es el número de grados de libertad del denominador. Como la función es complicada y no la usaremos explícitamente, omitimos la fórmula. Figura 3.12: Curva de densidad F En forma análoga a la notación tα ,ν , usamos Fα ,ν ,ν 1 2 para el punto sobre el eje que indica que el área bajo la curva de densidad F con grados de libertad ν1 y ν2 en la cola superior vale α. La curva no es simétrica, por lo que podría parecer que debe calcularse tanto el valor crítico de cola superior, como el de cola inferior. Sin embargo esto no es necesario debido a la siguiente propiedad: F1−α ,ν ,ν = 1 2 1 Fα ,ν 2 ,ν 1 Teorema: Sea X1, X2…..Xm una muestra aleatoria de una distribución normal con varianza σ12 , sea Y1, Y2…..Yn una muestra aleatoria de una distribución normal con varianza σ 22 y 2 2 sean S1 y S2 las varianzas muestrales. Entonces, la variable aleatoria F= S12 / σ 12 S22 / σ 22 tiene una distribución F con ν1 = m-1 y ν2 = n-1 grados de libertad. Debido a que F implica un cociente, el estadístico de prueba es el cociente de las 2 2 varianzas muestrales. La hipótesis σ 1 = σ 2 es rechazada si el cociente difiere demasiado de 1. En este caso la prueba de hipótesis es: 2 2 Hipótesis nula Ho: σ 1 = σ 2 Estadístico de prueba: f = s12 s22 Hipótesis alternativa: Región de rechazo para prueba de nivel α 2 2 Ha: σ 1 > σ 2 RR = { f ≥ Fα ,m −1,n −1} 2 2 Ha: σ 1 < σ 2 RR = { f ≤ F1−α ,m −1,n −1} 2 2 Ha: σ 1 ≠ σ 2 RR = { f ≥ Fα /2,m −1,n −1 o f ≤ F1−α /2,m −1,n −1}