7. Inferencia Estadística Métodos Estadísticos para la Mejora de la Calidad 1 Tema 7: Inferencia Estadística 1. 2. 3. 4. 5. 6. Intervalos de confianza p para μ con muestras grandes g Introducción al contraste de hipótesis Contraste de hipótesis de la media μ con muestras grandes Interpretación p de un contraste usando el p p-valor Relación entre contrastes de hipótesis e intervalos de confianza Inferencia en poblaciones normales Métodos Estadísticos para la Mejora de la Calidad 2 1. Intervalos de confianza para μ con muestras grandes Sea X una v. aleatoria l d de interés é con d distribución b ó cualquiera l i y con Si n es grande (n>30) Z 1 Métodos Estadísticos para la Mejora de la Calidad 0 3 Z ∼ N(0,1) 1- α α /2 α /2 0 -4 -3 -2 -z α/2 -1 0 1 2 zα/2 3 Métodos Estadísticos para la Mejora de la Calidad 4 4 Si tomásemos infinitas muestras, y con cada una calculásemos el intervalo x ± zα / 2 σ n Entonces, el 100(1-α)% de esos intervalos tendría el valor de μ Z ∼ N(0,1) 1- α α /2 α /2 0 -4 -3 -2 -z α/2 -1 0 1 2 zα/2 3 Métodos Estadísticos para la Mejora de la Calidad 4 5 En la práctica: 9Sólo una muestra 9Sólo un intervalo 9El intervalo sí o no contendrá a μ 9A la incertidumbre de si lo contendrá le llamaremos confianza Z ∼ N(0,1) 1- α α /2 α /2 0 -4 -3 -2 -z α/2 -1 0 1 2 zα/2 3 Métodos Estadísticos para la Mejora de la Calidad 4 6 intervalo de confianza de nivel de confianza 100×(1-α)% para μ ⎧⎪⎪ σ ⎫⎪⎪ IC(1− α ) : μ ∈ ⎨ x ± zα / 2 ⎬ ⎪⎩⎪ ⎪ n ⎭⎪ Ejemplo j p Una muestra aleatoria extraída de una población con σ²=100 de n=144 observaciones tiene una media muestral =160. se pide: (a) Calcular un intervalo de confianza del 95% para μ. (b) Calcular un intervalo de confianza del 90% para μ. (a) (b) 90% Mayor confianza=más anchos X 95% Métodos Estadísticos para la Mejora de la Calidad 7 Cuestiones ¿Verdadero falso o incierto? ¿Verdadero, ⎧ ⎪ ⎪ σ ⎫ ⎪ ⎪ IC(1− α ) : μ ∈ ⎨ x ± zα / 2 ⎬ ⎪ n⎪ ⎪⎩ ⎪⎭ • El intervalo de confianza nos dice entre qué valores variará μ de unas muestras a otras • Es imposible que μ esté fuera del intervalo de confianza • El intervalo de confianza que hemos visto sólo es válido si X es normal • El intervalo de confianza que hemos visto sólo es válido si X es normal • Lo mejor será construir intervalos de confianza del 100%, así no tendremos incertidumbre • El intervalo de confianza me dice entre qué valores estará la media poblacional con una confianza determinada • Si tengo pocos datos, el intervalo de confianza puede no ser válido Métodos Estadísticos para la Mejora de la Calidad 8 ⎧⎪⎪ σ ⎫⎪⎪ IC(1− α ) : μ ∈ ⎨ x ± zα / 2 ⎬ ⎪⎩⎪ ⎪ n ⎭⎪ Es también un parámetro, y será desconocido Lo sustituimos por un estimador ⎧⎪⎪ σˆ ⎫⎪⎪ IC(1− α ) : μ ∈ ⎨ x ± zα / 2 ⎬ ⎪⎩⎪ n ⎪⎭⎪ ¿Qué estimador usamos para σ²? Métodos Estadísticos para la Mejora de la Calidad 9 ¿Qué estimador usamos para σ² ? Método de los momentos: varianza muestral Se puede demostrar que es SESGADO subestima la verdadera varianza Métodos Estadísticos para la Mejora de la Calidad 10 ¿Qué estimador usamos para σ² ? es SESGADO Corregimos el sesgo Nuestro estimador ‘oficial’ será el estimador insesgado • Cuasivarianza • Pseudo varianza • Varianza corregida • Varianza corregida por grados de libertad Métodos Estadísticos para la Mejora de la Calidad 11 intervalo de confianza de nivel de confianza 100×(1-α)% para μ ⎧⎪⎪ sˆ ⎫⎪⎪ IC(1− α ) : μ ∈ ⎨ x ± zα / 2 ⎬ ⎪⎩⎪ n ⎪⎭⎪ Ejemplo Se mide la duración de 200 componentes electrónicos hasta su avería. De esos 200 datos se tiene que la media muestral es 1300 horas y la cuasivarianza es 10.000 (horas al cuadrado). Calcula un intervalo de confianza de μ de nivel de confianza 95% X = 1300 Sˆ 2 = 10.000 n = 200 α = 0.05 0 05 ⎧ ⎪ ⎪ 10000 ⎫ ⎪ ⎪ μ ∈ ⎨1300 ± 1.96 ⎬ ⎪ ⎪ 200 ⎪⎩ ⎪⎭ μ ∈ [1286;1314] z0.025 = 1.96 Métodos Estadísticos para la Mejora de la Calidad 12 Determinación del tamaño muestral Acabamos de ver que... intervalo de confianza de nivel de confianza 100×(1-α)% para μ ⎧⎪⎪ σ ⎫⎪⎪ IC(1− α ) : μ ∈ ⎨ x ± zα / 2 ⎬ ⎪⎩⎪ n ⎪⎭⎪ μ ∈ { x ± L} ¿Cuál debe ser n para conseguir un L determinado? Lo estimo con alguna muestra piloto Informática. Universidad Carlos III de Madrid 13 Ejemplo Sea X el contenido de impurezas en un material obtenido en cierto proceso productivo (miligramos de impureza por kilogramo de producto obtenido). Se toma una muestra aleatoria de 200 observaciones obteniéndose una media muestral del consumo de 120 mg/Kg y una desviación típica muestral 20 mg/Kg. X = 120 Sˆ = 20 n0 = 200 Estimar mediante un intervalo de un 95% de confianza el contenido medio de impurezas. ¿Qué tamaño muestral sería necesario tomar para que L=1 mg? Informática. Universidad Carlos III de Madrid 14 Tema 7: Inferencia Estadística 1. 2. 3. 4. 5. 6. Intervalos de confianza p para μ con muestras grandes g Introducción al contraste de hipótesis Contraste de hipótesis de la media μ con muestras grandes Interpretación p de un contraste usando el p p-valor Relación entre contrastes de hipótesis e intervalos de confianza Inferencia en poblaciones normales Métodos Estadísticos para la Mejora de la Calidad 15 2. Introducción al contraste de hipótesis Veamos la idea de contraste de hipótesis con un ejemplo Ejemplo Un fabricante de transistores del tipo BC547B sabe que cuando su producción se mantiene en los niveles de calidad deseables, el valor de la llamada ganancia en corriente de los transistores (conocida por β, adimensional) sigue una distribución normal de media 290 y varianza 760. β μ = 290 σ = 760 σ 2 = 760 Son en realidad estimaciones con muchísimos datos históricos. A efectos prácticos, los consideramos como si fuesen los poblacionales μ = 290 ¿Cómo puedo saber si se mantiene el proceso en los mismos parámetros? ¿Se mantiene la media? ¿Ha aumentado la variabilidad? Métodos Estadísticos para la Mejora de la Calidad 16 Ejemplo β μ = 290 σ = 760 ¿Cómo puedo saber si se mantiene el proceso en los mismos parámetros? p p σ 2 = 760 ¿Se mantiene la media? ¿Ha aumentado la variabilidad? μ = 290 Son hipótesis que quiero comprobar ¿Cómo lo puedo hacer? • Tomo una muestra de observaciones • A la vista de los datos decido si mantengo o no la hipótesis (el objetivo no es estimar sino validar) Si x >> 290 parece muy probable que la media SI haya cambiado Si x 290 parece muy probable que la media NO haya cambiado A la vista de los datos, tomo la decisión que sea más plausible (nunca estaré seguro al 100%) ¿Cómo me puede ayudar la estadística? Métodos Estadísticos para la Mejora de la Calidad 17 Ejemplo Veamos el método estadístico: μ = 290 β σ 2 = 760 Objetivo: Validar una hipótesis con los datos σ = 760 Contraste de hipótesis Las hipótesis serán restricciones sobre los parámetros μ = 290 X1 X2 X , Sˆ 2 X3 ... Xn Hipótesis nula Hipótesis alternativa H0 H1 ¿Se mantiene la media? μ = 290 ó μ ≠ 290 ¿Ha aumentado la variabilidad? σ 2 ≤ 760 ó σ 2 > 760 alternativa bilateral alternativa unilateral • Entre H0 y H1 está todo el rango de valores posibles • H0 debe tener siempre el signo = • Se aceptará H0 salvo que haya mucha evidencia en contra Métodos Estadísticos para la Mejora de la Calidad 18 Ejemplo μ = 290 β σ = 760 2 σ = 760 H0 H1 μ = 290 μ ≠ 290 σ 2 ≤ 760 σ 2 > 760 μ = 290 X1 X2 X , Sˆ 2 X3 ... Xn Rechazamos H0 sólo si hay mucha evidencia en contra. Es decir, si los datos hacen lo que dice H1 de forma y evidente muy En la sección siguiente veremos cómo obtener los límites de las regiones de aceptación y rechazo Métodos Estadísticos para la Mejora de la Calidad 19 Tema 7: Inferencia Estadística 1. 2. 3. 4. 5. 6. Intervalos de confianza p para μ con muestras grandes g Introducción al contraste de hipótesis Contraste de hipótesis de la media μ con muestras grandes Interpretación p de un contraste usando el p p-valor Relación entre contrastes de hipótesis e intervalos de confianza Inferencia en poblaciones normales Métodos Estadísticos para la Mejora de la Calidad 20 3. Contraste de hipótesis de la media μ con muestras grandes P Para contrastar una hipótesis hi ó i sobre b la l media di μ seguimos i los l siguientes i i pasos: PASO 1: Especificamos E ifi lla hi hipótesis ót i nula l y lla alternativa. lt ti Q Queremos contrastar t t alguna de estas hipótesis, donde μ0 es un valor concreto H0 : μ = μ0 H0 : μ ≤ μ0 H0 : μ ≥ μ0 H1 : μ ≠ μ0 H1 : μ > μ0 H1 : μ < μ0 j p de los transistores. Se desea saber si la p población de Ejemplo En el ejemplo transistores del proceso productivo mantiene la media en μ0 =290 H0 H1 μ = 290 μ ≠ 290 Métodos Estadísticos para la Mejora de la Calidad 21 PASO 2: Hallamos una medida de la discrepancia entre los datos y H0 Si la discrepancia es grande: se rechaza H0 Esa medida se denomina estadístico de contraste ¿Cómo se busca el estadístico de contraste, que resuma la información relevante para un contraste? Usando las propiedades de los estimadores, e introduciendo la información de H0 S b Sabemos que, para muestras t grandes d Estadístico de contraste Métodos Estadísticos para la Mejora de la Calidad 22 Ejemplo En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290 H0 H1 μ = 290 μ ≠ 290 Con 100 observaciones: Resume en un número la información para decidir entre PASO 3: H0 y H1 Para valorar el estadístico de contraste, buscamos una distribución de referencia que nos diga si es un valor grande o pequeño La distribución de referencia es la del estadístico de contraste cuando μ=μ0 Métodos Estadísticos para la Mejora de la Calidad N(0,1) ( , ) 23 PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0. Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente. PASO 1: Caso (a) PASO 2: H 0 : μ = 290; H1 : μ ≠ 290 T0 = X − 290 Sˆ / n PASO 3: T0~N(0,1) Rechazamos H0 si x << 290 t0 = x >> 290 x − 290 << 0 sˆ / n Si H0 es falsa tenderemos a estar por esta zona t0 = N(0,1) 0 Mejora de la Calidad Métodos Estadísticos para la x − 290 >> 0 sˆ / n Si H0 es falsa tenderemos a estar por esta zona 24 PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0 Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente. Caso (b) PASO 1: PASO 2: H 0 : μ ≤ 290; H1 : μ > 290 T0 = X − 290 Sˆ / n PASO 3: T0~N(0,1) Rechazamos H0 si x >> 290 t0 = N(0,1) 0 Mejora de la Calidad Métodos Estadísticos para la x − 290 >> 0 sˆ / n Si H0 es falsa tenderemos a estar por esta zona 25 PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0 Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente. PASO 1: Caso (c) PASO 2: H 0 : μ ≥ 290; H1 : μ < 290 T0 = X − 290 Sˆ / n PASO 3: T0~N(0,1) Rechazamos H0 si x << 290 t0 = x − 290 << 0 sˆ / n Si H0 es falsa tenderemos a estar por esta zona N(0,1) 0 Mejora de la Calidad Métodos Estadísticos para la 26 PASO 1: PASO 2: PASO 4: Rechazo H0 H0 : μ = μ0 ; H1 : μ ≠ μ0 Rechazo H0 Acepto H0 (a) (a) Rechazo H0 Acepto H0 H0 : μ ≤ μ0 ; H1 : μ > μ0 (b) (b) PASO 3: N(0,1) H0 : μ ≥ μ0 ; H1 : μ < μ0 Rechazo H0 Acepto H0 (c) (c) La región de rechazo está donde señala H1 Métodos Estadísticos para la Mejora de la Calidad 27 Metodología general para hacer un contraste de hipótesis PASO 1: Especificamos la hipótesis nula y la alternativa. PASO 2: Estadístico de contraste PASO 3: Distribución de referencia PASO 4: Localizamos las zonas donde estará la región de rechazo Rechazo H0 Acepto H0 ¿Qué área ocupa la región de rechazo? • La región de rechazo ocupa un área pequeña • Ese área se llama ? α=nivel de significación g • Su valor lo decide el analista • Suele ser α=0.05, 0.10, 0.01 Valor crítico Métodos Estadísticos para la Mejora de la Calidad 28 Ejemplo En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290 H0 H1 μ = 290 μ ≠ 290 Con 100 observaciones: Nivel de significación, significación α=0.05 =0 05 T0~N(0,1) Acepto H0 Rechazo H0 Rechazo H0 1 α/2=0.025 α/2=0.025 -3 -2 -1 0 -1.96 Rechazamos H0 1 2 3 1.96 -2.78 Valores críticos Métodos Estadísticos para la Mejora de la Calidad 29 Ejemplo En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290 H0 H1 μ = 290 μ ≠ 290 Con 100 observaciones: Nivel de significación, significación α=0.05 =0 05 T0~N(0,1) La diferencia entre la media de la muestra (282.3) y la de la hipótesis (290) es significativa (al 5%) Concluimos, C l i con un nivel i l de d significación del 5%, que la media poblacional ha cambiado Métodos Estadísticos para la Mejora de la Calidad 30 Cuestiones ¿Verdadero falso o incierto? ¿Verdadero, • Mediante un contraste de hipótesis buscamos el respaldo de los datos a alguna suposición sobre la población • Si rechazo la hipótesis de que μ=100 con α=0.05, la conclusión es que es imposible que μ=100 • Quiero contrastar la hipótesis de que μ=100 con α=0.05. Con unos datos obtengo x = 104.3 y el contraste me lleva a Aceptar H0. Entonces quiere decir que con un nivel de significación de 0.05 μ μ=104.3 104.3 • Quiero contrastar la hipótesis de que μ=100 con α=0.05. Con unos datos obtengo x = 104.3 y el contraste me lleva a Aceptar H0. Entonces quiere d i que con un nivel decir i l de d significación i ifi ió de d 0.05 0 05 x = 100 • Si tomamos pocos datos, el contraste puede ser erróneo • Un analista puede aceptar una hipótesis nula con α=0.05, pero rechazarla con α=0.01 Métodos Estadísticos para la Mejora de la Calidad 31 Ejemplo Según los estudios antropométricos, los jóvenes españoles entre 18 y 25 años tienen una estatura media de μ0 =177 cm. S toman las Se l alturas l de d 50 jóvenes jó madrileños d il ñ en ese rango de d edad d d y resulta l x = 175.9cm sˆ = 5.93cm ¿Hay evidencia ¿H id i suficiente fi i t para d decir i que llos jó jóvenes madrileños d il ñ tiene una estatura media inferior a la nacional? PASO 1: Especificamos la hipótesis nula y la alternativa. Estatura media inferior μ < 177 E Estatura media di no inferior i f i μ ≥ 177 Dos opciones H 0 : μ ≥ 177 H1 : μ < 177 Métodos Estadísticos para la Mejora de la Calidad 32 Ejemplo Según los estudios antropométricos, los jóvenes españoles entre 18 y 25 años tienen una estatura media de μ0 =177 cm. S toman las Se l alturas l de d 50 jóvenes jó madrileños d il ñ en ese rango de d edad d d y resulta l H 0 : μ ≥ 177 H1 : μ < 177 x = 175.9cm sˆ = 5.93cm ¿Hay evidencia ¿H id i suficiente fi i t para d decir i que llos jó jóvenes madrileños d il ñ tiene una estatura media inferior a la nacional? PASO 2: Estadístico de contraste PASO 3: Distribución de referencia PASO 4: Localizamos las zonas donde estará la región de rechazo La dif L diferencia i entre la l media di muestral (175.9) y la hipótesis nula no es significativa (al 5%) N(0,1) Acepto H0 Rechazo H0 α=0.05 0.05 La diferencia observada se atribuye, con un nivel de significatividad del 5%, a la variabilidad de la muestra y no a diferencias reales -3 -2 -1 Valor crítico=-1.65 Métodos Estadísticos para la Mejora de la Calidad 0 1 2 3 -1.31 33 El resultado del contraste La verdad (que nunca sabré con sólo n datos) (sólo n datos) Acepto H0 H0 cierta H0 falsa ((H1 falsa)) ((H1 cierta)) (Rechazo H1) ACIERTO!! Rechazo H0 ERROR TIPO I (Acepto H1) Lo cometo L t con probabilidad ERROR TIPO II Lo cometo con p probabilidad q que depende de cada caso ACIERTO!! α Cuando demos la conclusión de un contraste debemos dar siempre el nivel de significación, para dar una medida de su precisión Métodos Estadísticos para la Mejora de la Calidad 34 Metodología general para hacer un contraste de hipótesis 1 1. Determinar D t i H0 y H1 teniendo t i d en cuenta t que H0 debe d b ttener ell signo i =y que el método favorecerá dicha hipótesis. 2. Buscar el estadístico de contraste que será la medida de discrepancia entre la muestra y H0. 3. A partir de las propiedades del estadístico de contraste, y el nivel de significación, delimitamos con los valores críticos las regiones de aceptación y rechazo. 4. Localizamos si el valor que toma el estadístico de contraste cae en la región de aceptación o en la de rechazo. Métodos Estadísticos para la Mejora de la Calidad 35 Tema 7: Inferencia Estadística 1. 2. 3. 4. 5. 6. Intervalos de confianza p para μ con muestras grandes g Introducción al contraste de hipótesis Contraste de hipótesis de la media μ con muestras grandes Interpretación p de un contraste usando el p p-valor Relación entre contrastes de hipótesis e intervalos de confianza Inferencia en poblaciones normales Métodos Estadísticos para la Mejora de la Calidad 36 4. Interpretación de un contraste usando el p-valor El resultado de un contraste tiene dos elementos: 1. Aceptamos o rechazamos H0 Conclusión del contraste 2. El nivel de significación Medida de su incertidumbre α El nivel de significación es una medida de incertidumbre poco precisa Ejemplo Hacemos el contraste H0 : μ ≥ μ0 ; H1 : μ < μ0 con Caso 1 α = 0.05 Caso 2 Rechazo H0 Acepto H0 Rechazo H0 Acepto H0 α = 0.05 0 05 α = 0.05 -1.65 t0=-1.7 Rechazamos H0 t0=-3 Rechazamos -1.65 1 65 H0 En ambos casos la conclusión sería la misma: Rechazamos con α=0.05 Sin embargo en el caso 2 estamos más seguros ¿Cómo expresarlo? Métodos Estadísticos para la Mejora de la Calidad 37 Vamos a ver otra forma mejor de medir la incertidumbre del resultado del contraste El p-valor es el nivel de significación que deberíamos usar para dejar al valor del estadístico de contraste justo en la frontera de la región de rechazo Caso 1 Acepto H0 Rechazo H0 α = 0.05 p-valor= p 0.045 t0=-1.7 Rechazamos Como p-valor<α Rechazamos H0 H0 El p-valor es más informativo que el nivel de significación Métodos Estadísticos para la Mejora de la Calidad 38 El p-valor es el nivel de significación que deberíamos usar para dejar al valor del estadístico de contraste justo en la frontera de la región de rechazo Caso 2 Acepto H0 Rechazo H0 α = 0.05 0 05 p-valor= 0 00 3 0.0013 t0=-3 Rechazamos Como p-valor<<α H0 Rechazamos H0 En este Caso 2 el p-valor es realmente pequeño Estamos mucho más pequeño. seguros de nuestra conclusión Métodos Estadísticos para la Mejora de la Calidad 39 H 0 : ϑ ≤ ϑ0 ; H1 : ϑ > ϑ0 Aceptamos H0 Rechazamos H0 α p-valor>α t0 p-valor<α Métodos Estadísticos para la Mejora de la Calidad t0 40 H 0 : ϑ ≥ ϑ0 ; H1 : ϑ < ϑ0 Rechazamos H0 Aceptamos H0 α pp-valor> valor α t0 p-valor<α Métodos Estadísticos para la Mejora de la Calidad t0 41 H 0 : ϑ = ϑ0 ; H1 : ϑ ≠ ϑ0 α /2 α /2 pp-valor> valor>α -|t0| |t0| p-valor: es la suma de las dos áreas p-valor>α -|t0| Métodos Estadísticos para la Mejora de la Calidad |t0| 42 Tema 7: Inferencia Estadística 1. 2. 3. 4. 5. 6. Intervalos de confianza p para μ con muestras grandes g Introducción al contraste de hipótesis Contraste de hipótesis de la media μ con muestras grandes Interpretación p de un contraste usando el p p-valor Relación entre contrastes de hipótesis e intervalos de confianza Inferencia en poblaciones normales Métodos Estadísticos para la Mejora de la Calidad 43 5. Relación entre contrastes de hipótesis e intervalos de confianza I Intervalos l d de confianza fi para la l media di y contrastes usan la l misma i información i f ió T= X −μ Sˆ / n T0 = X − μ0 ~ N (0,1) ˆ S/ n H0 : μ = μ0 ; H1 : μ ≠ μ0 N(0,1) Rechazo H0 Se puede demostrar que la realización de un contraste de hipótesis bilateral α /2 H0 : μ = μ0 ; H1 : μ ≠ μ0 con nivel de significación α es equivalente a realizar a a un u intervalo e a o de confianza co a a d de nivel (1-a) y comprobar si μ0 está dentro o fuera de dicho intervalo. Métodos Estadísticos para la Mejora de la Calidad Rechazo H0 Acepto H0 α /2 t0 44 Ejemplo En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290 C Con 100 observaciones: b i H0 μ = 290 H1 μ ≠ 290 Contraste de hipótesis Rechazo H0 Rechazo H0 α/2=0.025 Rechazamos H0:μ=290 -3 3 -2 2 -2.78 -1.96 α/2=0.025 Acepto H0 -1 1 0 1 2 3 1.96 Intervalo de confianza de nivel (1-a) (1 a) No contiene al 290 Métodos Estadísticos para la Mejora de la Calidad 45 Tema 7: Inferencia Estadística 1. 2. 3. 4. 5. 6. Intervalos de confianza p para μ con muestras grandes g Introducción al contraste de hipótesis Contraste de hipótesis de la media μ con muestras grandes Interpretación p de un contraste usando el p p-valor Relación entre contrastes de hipótesis e intervalos de confianza Inferencia en poblaciones normales Métodos Estadísticos para la Mejora de la Calidad 46 6. Inferencia en poblaciones normales 1. 2. 3. 4. Inferencia Inferencia Inferencia Inferencia en muestras pequeñas p q con la distribución t de Student sobre μ sobre σ² Métodos Estadísticos para la Mejora de la Calidad 47 1. Inferencia en muestras pequeñas En el tema anterior usamos que si X es una v. aleatoria de interés con distribución cualquiera y con si n es grande (n>30) Construimos C i métodos é d estadísticos dí i b basados d en la aproximación a esa normal ¿Y si n no es grande? Métodos Estadísticos para la Mejora de la Calidad 48 1. Inferencia en muestras pequeñas ¿Y si n no es grande? Las propiedades estadísticas de X −μ σ/ n X −μ Sˆ / n cambian!! Dependen de la distribución de X Los intervalos y los contrastes del tema anterior no serían correctos En el caso de X normal, se tiene que independientemente del tamaño de n X −μ ~ N (0,1) σ/ n X −μ ~ Sˆ / n Métodos Estadísticos para la Mejora de la Calidad Distribución t de Student 49 6: Inferencia en poblaciones normales 1. 2. 3. 4. Inferencia Inferencia Inferencia Inferencia en muestras pequeñas p q con la distribución t de Student sobre μ sobre σ² Métodos Estadísticos para la Mejora de la Calidad 50 2. Inferencia con la distribución t de Student • La distribución t de Student es una variable aleatoria continua, simétrica, de media cero, y de perfil muy parecido a la normal estándar. • Depende de un parámetro g que se denomina grados de libertad. libertad Su notación habitual es tg Métodos Estadísticos para la Mejora de la Calidad 51 2. Inferencia con la distribución t de Student Puede demostrarse que si X N(μ,σ²), X −μ ~ tn −1 Sˆ / n La distribución cambia con n Si el tamaño muestral es grande X −μ ~ tn −1 ~ N (0,1) ( ) Sˆ / n Métodos Estadísticos para la Mejora de la Calidad 52 6. Inferencia en poblaciones normales 1. 2. 3. 4. Inferencia Inferencia Inferencia Inferencia en muestras pequeñas p q con la distribución t de Student sobre μ sobre σ² Métodos Estadísticos para la Mejora de la Calidad 53 3. Inferencia sobre μ Intervalos de confianza para m en lugar de zα / 2 ⎧⎪ Sˆ ⎫⎪ IC(1 − α ) : μ ∈ ⎨ X ± tn −1;α /2 ⎬ n ⎪⎭ ⎪⎩ Métodos Estadísticos para la Mejora de la Calidad 54 Ejemplo En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su contenido de Cadmio. Después de analizar li 25 rocas se obtiene bti que x = 9.77 sˆ = 3.164 Suponiendo p q que el contenido de Cadmio sigue g una distribución normal. Se quiere construir un intervalo de confianza al 95% para el contenido medio de Cadmio en las rocas de la mina. ⎧⎪ Sˆ ⎪⎫ IC(1 − α ) : μ ∈ ⎨ X ± tn −1;α /2 ⎬ n ⎭⎪ ⎩⎪ Métodos Estadísticos para la Mejora de la Calidad 55 Ejemplo En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su contenido de Cadmio. Después de analizar li 25 rocas se obtiene bti que x = 9.77 sˆ = 3.164 Suponiendo p q que el contenido de Cadmio sigue g una distribución normal. Se quiere construir un intervalo de confianza al 95% para el contenido medio de Cadmio en las rocas de la mina. Para n=25 y a=0.05 a/2=0 025 a/2=0.025 t24;0.025 = 2.06 3.164 ⎫ ⎧ IC(0.95) (0 95) : μ ∈ ⎨9 9.77 77 ± 2 2.06 06 (8.47,11.07) 47 11 07) ⎬ = (8 25 ⎭ ⎩ Métodos Estadísticos para la Mejora de la Calidad 56 Para n=25 y a=0.05 a/2=0.025 t24;0.025 = 2.06 2 06 Usando la aproximación N(0,1) como si fuese para muestras grandes... a/2=0.025 z0.025 0 025 = 1.96 Métodos Estadísticos para la Mejora de la Calidad 57 Usando la t de Student: intervalo exacto 3.164 ⎫ ⎧ IC(0.95) : μ ∈ ⎨9.77 ± 2.06 ⎬ = (8.47,11.07) 25 ⎭ ⎩ Usando la aproximación a N(0,1) N(0 1) para muestras grandes 3.164 ⎫ ⎧ μ ∈ ⎨9.77 9 77 ± 1 1.96 96 (8.53,11) 53 11) ⎬ = (8 25 ⎭ ⎩ Si no usamos la t de Student, daremos un intervalo más estrecho del que tiene realmente un confianza del 95%. Este intervalo tiene una confianza menor de la que pensamos Para poblaciones normales usaremos siempre la t de Student Métodos Estadísticos para la Mejora de la Calidad 58 3. Inferencia sobre μ Contraste de hipótesis (a) H0:μ=μ0; frente a H1:μ≠μ0, (b) H0:μ≤μ0; frente a H1:μ>μ0, (c) H0:μ≥μ0; frente a H1:μ<μ0. Se hacen igual, pero usando las siguientes distribuciones de referencia X − μ0 Z0 = ~ N (0,1) σ/ n X − μ0 T0 = ~ tn −1 Sˆ / n Métodos Estadísticos para la Mejora de la Calidad 59 PASO 1: PASO 2: PASO 4: Rechazo H0 H0 : μ = μ0 ; H1 : μ ≠ μ0 Rechazo H0 Acepto H0 (a) (a) − zα / 2 −tn −1;α /2 Acepto H0 H0 : μ ≤ μ0 ; H1 : μ > μ0 (b) (b) zα /2 tn −1;α / 2 Rechazo H0 zα tn −1;α PASO 3: Z 0 ~ N (0,1) H0 : μ ≥ μ0 ; H1 : μ < μ0 T0 ~ tn −1 Rechazo H0 (c) (c) Acepto H0 − zα −tn −1; −1;α La región de rechazo está 60 donde señala H1 Métodos Estadísticos para la Mejora de la Calidad Ejemplo Se quiere saber si la media de la ganancia β de los transistores BC547B se mantiene el valor nominal μ=290 H0 : μ=290 H1: μ≠290 Con 100 datos: p-valor del test de la chi-cuadrado para el ajuste de una normal: p-value=0.43 l 0 43 P d Podemos asumir i normalidad lid d en X Métodos Estadísticos para la Mejora de la Calidad 61 Ejemplo Se quiere saber si la media de la ganancia β de los transistores BC547B se mantiene el valor nominal μ=290 a=0.05 H0 : μ=290 H1: μ≠290 Con 100 datos: Rechazo H0 Rechazo H0 La d diferencia f entre los l d datos y 290 es significativa Acepto H0 (a) −t99;0.025 -1.98 Con un nivel de significación del 5%, rechazamos H0 t99;0.025 1.98 (z0.025 = 1.96) 1 96) El tamaño muestral es grande, y por eso el valor crítico es muy similar al de N(0,1) Métodos Estadísticos para la Mejora de la Calidad 62 6. Inferencia en poblaciones normales 1. 2. 3. 4. Inferencia Inferencia Inferencia Inferencia en muestras pequeñas p q con la distribución t de Student sobre μ sobre σ² Métodos Estadísticos para la Mejora de la Calidad 63 4. Inferencia sobre σ² Estimadores de s2 n S2 = ∑( Xi − X ) i =1 n sesgado n 2 Sˆ 2 = ∑( Xi − X ) 2 i =1 n −1 (cuasivarianza) g insesgado En poblaciones normales normales, la distribución muestral de estos estimadores está relacionada con la distribución chi-cuadrado Métodos Estadísticos para la Mejora de la Calidad 64 4. Inferencia sobre σ² La distribución chi-cuadrado • La chi-cuadrado es una variable aleatoria no negativa. Es asimétrica positiva • Depende de un parámetro g que se llama grados de libertad • Su notación es χ g2 Si X es normal (n − 1) Sˆ 2 σ2 nS 2 σ2 Métodos Estadísticos para la Mejora de la Calidad ~ χ n2−1 ~ χ n2−1 65 4. Inferencia sobre σ² Intervalos de confianza para σ² Operando igual que en el caso de la media... ⎧⎪ (n − 1)sˆ 2 (n − 1)sˆ 2 ⎫ ⎪ 2 ⎪ ⎪ ; 2 IC(1− α ) : σ ∈ ⎨ 2 ⎬ ⎪⎪ χn−1;α / 2 χn−1;1−α / 2 ⎪ ⎪ ⎩ ⎭ 2 ⎧⎪ ns 2 ⎫ ⎪ ns ⎪ ⎪ IC(1− α ) : σ ∈ ⎨ 2 ; 2 ⎬ ⎪ ⎪ ⎪ ⎩ χn−1;α / 2 χn−1;1−α / 2 ⎪ ⎭ No son simétricos alrededor de la estimación 2 Métodos Estadísticos para la Mejora de la Calidad 66 Ejemplo En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su contenido de Cadmio. Después de analizar li 25 rocas se obtiene bti que x = 9.77 sˆ = 3.164 sˆ2 = 10.01 Suponiendo p q que el contenido de Cadmio sigue g una distribución normal. Se quiere construir un intervalo de confianza al 99% para la varianza poblacional s2 ⎧⎪ (n − 1)sˆ 2 (n − 1)sˆ 2 ⎫ ⎪ ⎪ ⎪ IC(1− α ) : σ ∈ ⎨ 2 ; 2 ⎬ ⎪⎪ χn−1;α / 2 χn−1;1−α / 2 ⎪ ⎪ ⎩ ⎭ 2 Métodos Estadísticos para la Mejora de la Calidad 67 Ejemplo En una explotación minera las rocas excavadas se someten a un análisis químico para determinar su contenido de Cadmio. Después de analizar li 25 rocas se obtiene bti que x = 9.77 sˆ = 3.164 sˆ2 = 10.01 Suponiendo p q que el contenido de Cadmio sigue g una distribución normal. Se quiere construir un intervalo de confianza al 99% para la varianza poblacional s2 α/2=0.005 a/2=0.005 2 χ 24;0.995 = 9.89 2 χ 24;0.005 = 45.6 ⎛ 24 × 3.1652 24 × 3.1652 ⎞ IC (0.99) : σ ∈ ⎜ , ⎟ 45.6 9.89 ⎝ ⎠ 2 Para una confianza del 99% tenemos α/2=0.005 IC (0.99) : σ 2 ∈ ( 5.27,24.29 ) ¿Podría ser σ2=25? Métodos Estadísticos para la Mejora de la Calidad 68 4. Inferencia sobre σ² Contraste de hipótesis para σ² ( ) H0 : σ²=σ (a): ² 0²; ² H1: σ²≠σ ² 0² (b): H0 : σ²≤σ0²; H1: σ²>σ0² Sigue la misma metodología que para otros parámetros (c): H0 : σ σ²≥σ ≥σ0²;; H1: σ σ²<σ σ0² Estadístico de contraste X 02 = (n − 1) Sˆ 2 σ 02 X 02 = nS 2 σ 02 Distribución de referencia X 02 ~ χ n2−1 Métodos Estadísticos para la Mejora de la Calidad 69 PASO 1: PASO 2: H0 : σ²=σ0²; H1: σ²≠σ0² (a) X 02 = (n − 1) Sˆ 2 σ 2 0 PASO 4: Rechazo H0 Rechazo H0 Acepto H0 (a) χ 2 n −1;1− α / 2 X = 2 0 χ n2−1;α / 2 nS 2 σ 02 Acepto H0 H0 : σ²≤σ0²; H1: σ²>σ0² Rechazo H0 (b) (b) χ n2−1;α PASO 3: Rechazo H0 H0 : σ²≥σ0²; H1: σ²<σ0² (c) Acepto H0 X 02 ~ χ n2−1 (c) χ n2−1;1−α La región egión de rechazo echa o está donde señala H1 Métodos Estadísticos para la Mejora de la Calidad 70 Ejemplo Sobre los transistores BC547B mencionados anteriormente, teníamos el objetivo de comprobar si la media no había cambiado, así como comprobar si la varianza no había aumentado. Podemos ahora contrastar este segundo punto. Los datos históricos decían que σ0²=760. Por tanto el contraste es H0:σ²≤760;H₁:σ²>760. Rechazo H0 Acepto H0 χ Con 100 datos 2 99;0.05 ; = 123.2 La diferencia entre los datos y la hipótesis no es significativa (con nivel 5%) y puede deberse al azar de la muestra x = 2 0 (n − 1) sˆ 2 σ 02 = sˆ 2 = 766.85 99 × 766.85 = 99.89 760 7 N rechazamos No h H0 Métodos Estadísticos para la Mejora de la Calidad 71