Escuela Superior de Informática Prácticas de Estadística SPSS

Anuncio
CONTRASTES DE HIPÓTESIS
Introducción
Consideremos el siguiente problema:
La media poblacional del peso de los recién nacidos en el norte de España es de 3.4 kg.
Poseemos los datos de una muestra de 128 recién nacidos de la provincia de Ciudad
Real.
Pregunta: ¿Son en media más o menos fuertes los recién nacidos de Ciudad Real que los
del norte de España?
Suponiendo que los datos x1, x2, …, x128 provienen de una distribución normal N(µ,
σ2), podemos expresar esta pregunta de la siguiente forma:
¿Es µ diferente de 3.4 kg?
µ = media poblacional
µˆ = x = media muestral = 3.387kg
Calculando un intervalo de confianza para la media al 95% fue (3.31, 3.46) kg.
A la luz de los datos, ¿qué podemos concluir?
Ideas principales del contraste de hipótesis
En cada problema la cuestión de interés se simplifica en dos “hipótesis” competitivas,
complementarias y excluyentes. Estas hipótesis no serán tratadas de igual modo,
daremos prioridad a una de ellas.
Situaciones comunes:
•
El experimento se ha realizado en un intento de rechazar una hipótesis en
particular. Damos prioridad a esa hipótesis diciendo que no podemos rechazarla
a menos que la evidencia en contra de ella sea suficientemente fuerte.
•
Si una de las dos hipótesis es más simple que la otra le damos prioridad para no
tener que adoptar una teoría mas complicada a menos que haya suficiente
evidencia en contra de la simple.
Escuela Superior de Informática
Prácticas de Estadística SPSS
Profesor: Raúl Martín
A esta hipótesis que tenemos en “especial” consideración la llamamos hipótesis nula y
se denota por H0. La otra, consiste en el conjunto de alternativas a la hipótesis nula y la
llamamos hipótesis alternativa H1.
Ejercicio.
Un fabricante de cierta marca de cereal de arroz afirma que el contenido promedio de grasa saturada no
excede 1.5 gramos. ¿Cuáles son las hipótesis?
H0:
H1:
Para contrastar H0 contra H1 obtenemos una muestra de datos y basándonos en los
resultados:
•
Rechazamos H0 a favor de H1, o bien
•
no rechazamos H0
No rechazar H0 no significa necesariamente que H0 sea cierta, solamente que no
tenemos la suficiente evidencia contra H0 y a favor de H1.
Por otro lado rechazar H0 no significa que H0 sea falsa.
Para realizar estos contrastes elegimos y evaluamos un estadístico de contraste o test
estadístico a partir de los datos de la muestra y usamos su valor para decir si
rechazamos o no H0. La elección del test dependerá del modelo de probabilidad que se
asuma y de la hipótesis en cuestión.
El conjunto de los valores posibles del test estadístico estará dividido en dos conjuntos:
Región de rechazo/región crítica RC = { conjunto de los valores del test que llevan
a rechazar H0}
Región de aceptación RA = { valores del test que hacen que H0 no sea rechazada}
(Esta región “coincide con el intervalo de confianza”)
Al efectuar el contraste estaremos en condiciones de decir qué probabilidad hay de que
H1 las diferencias se deban al azar o a la casualidad. Si esta medida es pequeña, es
decir es poco probable que las diferencias sean debidas al azar, p.ej. 0.0001, entonces
podemos concluir que las diferencias observadas son debidas a “rendimientos” reales.
En este caso se dice que las diferencias son significativas.
Escuela Superior de Informática
Prácticas de Estadística SPSS
Profesor: Raúl Martín
P{algo ocurra considerando H0} es baja Æ rechazo H0
Si por el contrario las diferencias pudieran haber surgido por casualidad o por azar
entonces decimos que las diferencias no son significativas desde el punto de vista
estadístico.
Si rechazamos la hipótesis queremos indicar que los datos de la muestra ofrecen cierta
evidencia para no considerarlos correctos; mientras que si la aceptamos estamos
diciendo que no se rechaza (los datos no ofrecen evidencia para considerarlos no
correctos).
Nivel de significación
¿En qué umbral se fija la probabilidad a partir de la cual se decide si las diferencias son
o no significativas? (A este umbral se le denomina nivel de significación.(α)
α = “peor” probabilidad de rechazar H0
α = P{H1 es cierta | H0 es cierta}
Nos gustaría que este valor fuera lo más pequeño posible para “proteger” a H0
El procedimiento de decisión puede llevas a dos conclusiones erróneas:
1. Rechazar H0 cuando esta sea verdadera (a esto se le llama error de tipo I)
La probabilidad de cometer este error es a lo que hemos llamado nivel de
significación.
2. No rechazar H0 cuando esta es falsa. (Error de tipo II). La probabilidad de
cometer el error de tipo II se denota por β.
A menudo resulta de mayor interés considerar la probabilidad de rechazar H0
cuando es falsa (es decir la complementaria) 1-β. A esto se le llama potencia
del test.
1 - β = P{H1 verdadera | H0 es falsa}
β = P{error tipo II } = P{H0 verdadera | H1 verdadera}
Queremos hacer a 1-β lo más grande posible, sin embargo el objetivo de hacer α tan
pequeño como sea posible y al mismo tiempo 1-β lo más grande posible es incompatible
cuando es cierta
cuando una decrece la otra crece.
α=5%
Reg. Crit.
Escuela Superior de Informática
Prácticas de Estadística SPSS
Reg. Crit.
No rechazo H0
Η : µ=40 Raúl Martín
Profesor:
0
Interpretación
Si α = 0.05 queremos decir que en caso de ser verdadera H0 sólo en un 5% de las veces
o menos las diferencias observadas serán lo suficientemente grandes para conducirnos
erróneamente a la conclusión H1.
A veces se toman valore más exigente como 0.01
La probabilidad p de que las diferencias observadas sean debidas exclusivamente al azar
se denomina significación muestral de la hipótesis nula (p-valor)
Si p > α Æ Aceptamos H0
Si p < α Æ Rechazamos H0
Relación entre intervalos de confianza y contrastes de hipótesis: La región de
aceptación de un contraste de hipótesis para un parámetro theta con tamaño alpha
coincide con un intervalo de confianza para theta al (1-alpha)x100%
Procedimiento general para contrastes de hipótesis
Descripción de los datos
1. Dibujar los datos y obtener una primera impresión intuitiva
Análisis formal
2. Establecer el contraste que será usado
3. Estableces y comprobar cualquier hipótesis
4. Definir la hipótesis nula y alternativa
5. Elegir un nivel de significación α
6. Elegir el estadístico de contraste (TS)
7. Encontrar la distribución del estadístico de contrastes cuando H0 sea cierta
8. Obtener la región crítica, tal que P{TS ∈ RC | H0 es cierta} = α
Y si es posible la potencia del test.
Conclusión
9. Establecer una conclusión final que resuelva la pregunta propuesta.
Ejercicio: Suponga que un ingeniero se interesa en probar el sesgamiento de un medidor de pH. Se
reúnen datos de una sustancia neutra (pH = 7.0). Se toma una muestra de las medidiocnes y los datos
son los siguientes:
7.07, 7.00, 7.10, 6.97, 7.00, 7.03, 7.01, 7.01, 6.98, 7.08
¿Qué haría? ¿cuál es el problema?, ¿cuáles las hipótesis? Realice una descripción de los datos y trate
de obtener alguna conclusión.
Escuela Superior de Informática
Prácticas de Estadística SPSS
Profesor: Raúl Martín
Descargar