Pruebas de Hipótesis

Anuncio
Diseño Estadístico y
Herramientas para
la Calidad
Pruebas de Hipótesis
Expositor:
Dr. Juan José Flores Romero
juanf@umich.mx
http://lsc.fie.umich.mx/~juan
M. en Calidad Total y Competitividad
Pruebas de Hipótesis
Hipótesis
Analizar datos de una muestra y verificar si
confirman una especulación (hiótesis)
acerca de parámetros.
z
z
Afirmación acerca de una o más poblaciones.
Ejemplos:
z
z
z
Hipótesis de la población
z
z
z
z
z
z
z
Media
Proporción
Varianza
Diferencia de medias
Diferencia de proporciones
Razón de varianzas
Media de diferencias
z
z
z
Un periódico atrae más lectores que otro
Empleados con cierta capacitación son más eficientes que
con otra capacitación
La varianza de un proceso tiene un valor dado
El ingreso promedio familiar en cierta área tiene cierto
valor I
60% de los empleados han terminado la preparatoria
Pruebas de Hipótesis
1.
2.
3.
4.
5.
6.
7.
Formulación de la Hipótesis
Identificación del estadístico de prueba y su
distribución
Nivel de significancia
Formulación de la regla de decisión
Colección de datos y cálculos
Decisión estadística
Decisión administrativa
Identificación del Estadístico
de Prueba y su Distribución
z
z
La decisión de rechazar o no rechazar la
hipótesis nula depende de la magnitud del
estadístico de prueba
Estadísticos de prueba:
z
z
z
z
z para medias
t para medias varianza desconocida
z para proporciones
etc.
Formulación de la Hipótesis
z
Hipótesis Nula H0
z
z
z
z
Hipótesis a probar
Nula = no hay diferencia
Ej. 60% de los empleados tienen prepa
Hipótesis Alternativa H1
z
z
Alternativa disponible cuando la hipótesis nula se
rechaza
Ej. No es el 60%, es mayor del 60%, es menor
del 60%
Nivel de Significancia
z
Acciones posibles:
z
z
z
Rechazar H0
No rechazar H0 (noten que no dice aceptar)
Resultados posibles:
1.
2.
3.
4.
Rechazar H0 cuando es falsa
Rechazar H0 cuando es verdadera
No rechazar H0 cuando es falsa
No rechazar H0 cuando es verdadera
Nivel de Significancia
Nivel de Significancia
z
H0 Verdadera H0 Falsa
No rechazar H0
Rechazar H0
1
OK
3 Error Tipo I
α
z
2 Error tipo II
β
4
OK
Nivel de Significancia
z
z
z
z
z
Cuando se ha calculado el estadístico de prueba, se
determina la probabilidad de obtener un valor tan o
más extremo que el nuestro cuando H0 es cierta
Si la probabilidad es menor o igual que α, rechazamos
H0, a favor de H1 (el valor del estadístico es
significativo)
Si la probabilidad es mayor que α, no podemos
rechazar H0 (el valor del estadístico no es significativo)
Valores comunes de α: 0.05 y 0.01
Seleccionamos el valor de α de acuerdo a las
consecuencias de un error tipo I
Se desea minimizar la probabilidad de
cometer ambos errores
Para un tamaño de muestra dado:
z
z
z
z
⇓α ⇒ ⇑β
⇓β ⇒ ⇑α
La única forma de decrementar ambos es
incrementar el tamaño de la muestra
α es el nivel de significancia
Formulación de la Regla de
Decisión
z
Si, cuando H0 se cumple, la probabilidad de
obtener un valor del estadístico tan o más extremo
que el obtenido es menor o igual que α, se rechaza
la hipótesis. Si no, no se rechaza.
z
Si el valor calculado del estadístico cae en la región
de rechazo, se rechaza H0. Si cae en la región de
aceptación, no se rechaza H0. Si el valor calculado
es igual al valor crítico, se rechaza H0.
Colección de Datos y Cómputo
z
z
z
La calidad de una decisión final depende de
la calidad de los datos en los que se basa.
La muestra debe ser aleatoria y
representativa.
Los cálculos del estadístico de prueba se
llevan a cabo como se estudió en la parte de
Estadística Desciptiva.
PH de la Media, Distribución
Normal, Varianza Conocida
z
Ej. Una compañía carga una tarifa constante
por envíos, basados en un estudio (viejo) que
dice que la media de los paquetes es de 17.5
onzas y la d.e. es de 3.6 (considera que
todos los paquetes pesaran 17.5). El gerente
cree que la media ya no es la misma. El
tamaño de la compañía hace que un estudio
de la población completa sea imposible. Se
decide tomar una muestra de 100 paquetes.
Decisiones Estadística y
Administativa
z
z
z
Evaluar el estadístico de prueba
La decisión estadística consiste en rechazar
o no rechazar H0, basados en esta
evaluación.
Si rechazamos H0, la decisión administrativa
deberá ser compatible con H1, o bien, puede
ser algo como colectar más datos.
Formulación de la Hipótesis
z
z
La media de los pesos de los paquetes es la
misma.
H0: μ = 17.5
H1: μ ≠ 17.5
Estadístico de Prueba
z
El estadístico de prueba
z=
x − μ0
σ
Nivel de Significancia
z
z
n
z
z
tiene la distribución normal estándar
z
z
Regla de Decisión
a)
b)
Si los datos arrojan un valor de la media tan
grande que su probabilidad de ocurrencia
cuando H0 es verdadera es menor o igual a
α/2, se rechaza H0
Si los datos arrojan un valor del estadístico
tan pequeño que su probabilidad de
ocurrencia cuando H0 es verdadera es
menor o igual a α/2, se rechaza H0
α = 0.05
α establece los límites entre la región de
aceptación y la de rechazo
Los valores de z que tienen α/2 del área bajo
la curva normal estándar la izquierda y
derecha.
α/2 = 0.05/2 = 0.025
z1 = -1.96, z2 = 1.96
Colección de Datos y Cómputo
z
z
z
100 paquetes fueron pesados
Suponga que la media fue de 18.4 oz.
z = (18.4-17.5)/(3.6/√100) = 2.5
Decisiones Estadística y
Administrativa
z
Como 2.5>1.96, rechazamos la hipótesis
z
El peso promedio de los paquetes ha
cambiado. La compañía debe considerar un
incremento en los cargos de envío.
Relación entre PH y
Estimación
z
Al construir el intervalo de confianza de 100(1-α)%
para μ,
z
z
si μ0 se encuentra en ese intervalo, no podemos rechazar
la hipótesis
si μ0 no se encuentra en ese intervalo, se rechaza la
hipótesis.
x ± 1.96
z
Valores p
z
z
z
Un valor p es la probabilidad de obtener un
valor del estadístico de prueba tan grande o
mayor (pequeño-menor) que el obtenido,
dado que H0 es verdadera.
Es el valor mínimo de significancia al cual H0
sea rechazada.
Es la magnitud de la sorpresa que le
causaría el rechazo a un creyente de H0.
σ
n
= 18.4 ± 1.96
3.6
= 18.4 ± 0.7 = [17.7,19.1]
100
Como el intervalo no contiene μ0=17.5, se rechaza
la hipótesis
Segundo Ejemplo
z
El departamento de control de calidad de una
compañía procesadora de alimentos
especifica que la media del peso neto por
paquete de cereal no debe ser menor que 20
oz. La experiencia indica que los pesos
están distribuidos normalmente con una
desviación estándar de 19.5 oz. ¿Existe
evidencia suficiente para indicar que el peso
medio real de los paquetes ha
decrementado?
Formulación de la Hipótesis
z
La media de los pesos de los paquetes es la
mayor que 20.
Estadístico de Prueba
z
El estadístico de prueba
z=
z
H0: μ ≥ 20
H1: μ < 20
z
Nivel de Significancia
z
z
z
z
α = 0.05
α establece los límites entre la región de
aceptación y la de rechazo
Esta es una prueba asimétrica, llamada
prueba de na cola. El valor de z que tiene α
del área bajo la curva normal estándar a la
izquierda es:
z = -1.645
x − μ0
σ
n
tiene la distribución normal estándar
Regla de Decisión
a)
Si los datos arrojan un valor de la media tan
grande que su probabilidad de ocurrencia
cuando H0 es verdadera es mayor o igual a
α, se rechaza H0.
Colección de Datos y Cómputo
z
z
z
15 paquetes fueron pesados
Suponga que la media fue de 19.5 oz.
z = (19.5-20)/(31.5/√15) = -1.29
Cálculo de Valores p
z
z
z
z
z
p el es menor valor de significancia α, para el
cual H0 puede ser rechazada.
Para el ejemplo anterior, z=-1.29.
¿Cuál es el área bajo la curva normal
estándar en la región (-∞, -1.29)?
Usando la hoja de XL que desarrollamos en
el tema de probabilidad, tenemos que
p=0.0985.
Si p>α, rechazamos H0
Decisiones Estadística y
Administrativa
z
Como -1.29>-1.645, no podemos rechazar la
hipótesis.
z
No existe evidencia estadística que indique
que el peso promedio de los paquetes ha
disminuido.
PH de la Media, Distribución
Normal, Varianza Desconocida
z
Una compañía manufacturera de llantas dice
que la vida promedio de cierto tipo de llanta
es mayor que 25,000 millas. Una muestra
aleatoria de 15 llantas es probada. La media
y d.e. Son de 27,000 y 5,000 milla,
respectivamente. ¿Podemos concluir que el
producto es tan bueno como se presume?
Formulación de la Hipótesis
z
z
La media de la vida de las llantas no llega a
25,000 millas.
H0: μ ≤ 25,000
Estadístico de Prueba
z
t=
H1: μ > 25,000
z
Nivel de Significancia
z
z
z
z
α = 0.05
α establece los límites entre la región de
aceptación y la de rechazo
Prueba de una cola. El valor de t que tiene α
del área bajo la curva t a la derecha,
considerando 14 grados de libertad es:
t = 1.7613
Como la d.e. de la población es desconocida,
el estadístico de prueba utilizado es:
x − μ0
s
n
el cual tiene la distribución t
Regla de Decisión
a)
Si los datos arrojan un valor de la media tan
grande que su probabilidad de ocurrencia
cuando H0 es verdadera es menor o igual a
α, se rechaza H0
Colección de Datos y Cómputo
z
z
z
15 llantas fueron probadas
μ = 27,000, s = 5,000
t = (27,000-25,000)/(5,000/√15) = 1.55
Pares de Observaciones
z
Decisiones Estadística y
Administrativa
z
Como 1.55<1.7613, no podemos rechazar la
hipótesis.
z
Como no pudimos rechazar la hipótesis nula,
los datos no aportan evidencia que indique
que la vida de las llantas sea mayor.
Cualquier decisión administrativa que
contraponga H0, no podrá garantizarse, en
base a los datos.
Formulación de la Hipótesis
Una compañía decide probar que método de capacitación es mejor,
el A o el B. Para ello, decide aplicar ambos métodos a parejas de
empleados y, al final del curso, medir su desempeño. La siguiente
tabla muestra los resultados:
Pareja
Método A
Método B
Diferencia
1
90
85
5
2
95
88
7
3
87
87
0
4
85
86
-1
5
90
82
8
6
94
82
12
7
85
70
15
8
88
72
16
9
92
80
12
z
El método B es mejor que el A.
z
H0: μd ≤ 0
H1: μd > 0
Estadístico de Prueba
z
Como la d.e. de la población es desconocida,
el estadístico de prueba utilizado es:
t=
z
z
d − μd 0
sd
el cual tiene la distribución t
μd0 se considera 0.
Regla de Decisión
a)
Si los datos arrojan un valor de la media tan
grande que su probabilidad de ocurrencia
cuando H0 es verdadera es menor o igual a
α, se rechaza H0
Nivel de Significancia
z
z
z
z
α = 0.05
α establece los límites entre la región de
aceptación y la de rechazo
Prueba de una cola. El valor de t que tiene α
del área bajo la curva t a la derecha,
considerando 8 grados de libertad es:
t = 1.8595
Colección de Datos y Cómputo
z
z
z
z
z
De los datos colectados se tiene:
⎯d = 8.2
sd = 6.12
s⎯d = 6.12/√9 = 2.04
t=(8.2 - 0) / 2.04 = 4.02
Decisiones Estadística y
Administrativa
z
Como 4.02>1.85, rechazamos la hipótesis.
z
Como rechazamos la hipótesis nula,
concluimos, en base a la evidencia que los
datos aportan, que el método A es superior al
método B.
Como 4.02>3.3554, p<0.005
z
Descargar