Document

Anuncio
7. Contrastes de Hipótesis para una Muestra
Tema 7
Contrastes de Hipótesis para una Muestra
Introducción
Introducción
Metodología
Metodología del
del contraste
contraste de
de hipótesis
hipótesis
Métodos
Métodos no
no paramétricos
paramétricos
Test
Test binomial
binomial
Test
Test de
de los
los signos
signos
Test
Test de
de rango
rango con
con signos
signos de
de Wilcoxon
Wilcoxon
Test
Test de
de bondad
bondad del
del ajuste:
ajuste: χχ22
Test
Test de
de bondad
bondad del
del ajuste:
ajuste: Kolmogorov-Smirnov
Kolmogorov-Smirnov
Test
Test de
de corridas
corridas
Métodos
Métodos bayesianos
bayesianos
Contraste
Contraste para
para la
la media
media de
de una
una población
población normal
normal
Ejemplo:
Ejemplo: cúmulos
cúmulos globulares
globulares de
de la
la Galaxia
Galaxia
7-1
7. Contrastes de Hipótesis para una Muestra
Introducción
Contrastes de hipótesis
Estimación de parámetros – ajuste de modelos
El contraste de hipótesis permite tomar decisiones (¿son los datos consistentes con un cierto
modelo? ¿se ajustan a una cierta distribución de probabilidad? ¿es la muestra consistente
con otra muestra? ¿hay correlación?
Métodos paramétricos
Contrastes
clásicos
Muestras grandes
Distribución de probabilidad conocida
Datos cuantitativos
Contrastes
bayesianos
Distribución de probabilidad conocida
Se calcula la probabilidad de la hipótesis
Método más directo para incorporar
nuevo conocimiento y entender las
incertidumbres
Métodos no paramétricos
Muestras pequeñas
Distribución de probabilidad desconocida
Válidos para datos de rango y cualitativos
No existen
7-2
7. Contrastes de Hipótesis para una Muestra
Metodología del contraste de hipótesis
Formulación de las hipótesis:
Hipótesis nula (H0)
vs
Hipótesis alternativa (H1)
• Aceptación de la hipótesis nula → los datos no están en contra
• Rechazo de la hipótesis nula → los datos indican que es improbable que sea cierta
Se utiliza un estadístico de prueba con distribución conocida en el caso de que H0 sea cierta
Ejemplo: media de una población normal
α: nivel de
significación
Contraste bilateral
región crítica
Contrastes unilaterales
región crítica
región crítica
región de
aceptación
región de
aceptación
región de
aceptación
7-3
7. Contrastes de Hipótesis para una Muestra
Métodos no paramétricos
Test
Test para
para el
el parámetro
parámetro de
de una
una población
población binomial:
binomial:
Test
Test binomial
binomial
Tests
Tests para
para la
la mediana
mediana de
de una
una población
población oo para
para comparar
comparar
observaciones
observaciones pareadas:
pareadas:
Test
Test de
de los
los signos
signos
Test
Test de
de rango
rango con
con signos
signos de
de Wilcoxon
Wilcoxon
Tests
Tests de
de bondad
bondad del
del ajuste
ajuste aa una
una distribución
distribución oo aa un
un modelo:
modelo:
Test
Test χ22
Test
Test de
de Kolmogorov-Smirnov
Kolmogorov-Smirnov (1
(1 muestra)
muestra)
Test
Test para
para comprobar
comprobar la
la aleatoriedad
aleatoriedad de
de una
una secuencia:
secuencia:
Test
Test de
de corridas
corridas
7-4
7. Contrastes de Hipótesis para una Muestra
Test binomial
Test para el parámetro de una distribución binomial
Sea una muestra binomial: n ensayos independientes, con O1 éxitos y O2 fracasos
p: probabilidad de éxito en un ensayo (cte para todos los ensayos)
Bilateral:
Se buscan los valores críticos t1 y t2 tales que,
bajo la hipótesis nula:
(no se puede hacer
para cualquier α)
H0 se acepta si:
Unilateral:
H0 se acepta si:
Es
Es la
la base
base de
de tests
tests más
más elaborados
elaborados yy versátiles
versátiles que
que se
se pueden
pueden aplicar
aplicar aa variables
variables no
no binomiales
binomiales (NO
(NO
aplicar
aplicar este
este test
test aa otro
otro tipo
tipo de
de variables).
variables).
Válido
Válido para
para muestras
muestras pequeñas.
pequeñas. Para
Para muestras
muestras grandes,
grandes, la
la binomial
binomial se
se aproxima
aproxima por
por una
una normal.
normal.
El
El test
test de
de los
los signos
signos es
es el
el más
más directo
directo yy potente.
potente.
7-5
7-6
7. Contrastes de Hipótesis para una Muestra
Test de los signos
Prueba no paramétrica para contrastar la mediana de una población.
Bilateral:
Se reemplaza cada valor de la muestra por
un signo + o – dependiendo de si es mayor
o menor que la mediana poblacional.
X: nº de signos + en la muestra
(variable aleatoria binomial)
Mediana de una población
Los valores iguales a la mediana
se excluyen de la muestra
→ Se realiza un test binomial con p = 0.5
Para muestras grandes (n > 10):
Aproximación a la normal.
Para α=0.05
H0 se acepta si:
Se
Se puede
puede utilizar
utilizar para
para probar
probar la
la igualdad
igualdad de
de medias
medias en
en observaciones
observaciones pareadas.
pareadas. Cada
Cada
par
par de
de valores
valores X
Xi,i, Y
Yii se
se reemplaza
reemplaza por
por un
un signo
signo ++ oo –– dependiendo
dependiendo de
de cual
cual sea
sea mayor
mayor
Aplicable
Aplicable aa datos
datos dicotómicos
dicotómicos yy de
de rango.
rango.
Algo
Algo menos
menos eficiente
eficiente que
que el
el test
test tt para
para distribuciones
distribuciones normales
normales
Mucho
Mucho más
más fiable
fiable que
que el
el test
test tt si
si la
la distribución
distribución tiene
tiene grandes
grandes colas.
colas.
7. Contrastes de Hipótesis para una Muestra
7-7
Test de rangos con signo de Wilcoxon
Modificación del test de los signos para tener en cuenta las magnitudes de las diferencias con la
mediana. Sólo se puede aplicar si la distribución es simétrica y continua
Bilateral:
• Se calculan las diferencias respecto a la mediana poblacional.
• Se asignan rangos a las diferencias absolutas de menor a mayor (sin
tener en cuenta el signo; si hay empates se asignan los rangos medios)
Unilateral:
• Se calculan:
Bilateral: H0 se acepta si:
Unilateral: H0 se acepta si:
Para muestras grandes (n > 15):
Aproximación a la normal.
Comparado con el test t, la
eficiencia (A.R.E.) es > 0.864
Se
Se puede
puede utilizar
utilizar para
para probar
probar la
la igualdad
igualdad de
de medias
medias en
en observaciones
observaciones pareadas
pareadas
(no
(no hace
hace falta
falta suponer
suponer simetría).
simetría).
7. Contrastes de Hipótesis para una Muestra
Valores críticos para el test de rangos con signo de Wilcoxon
7-8
7-9
7. Contrastes de Hipótesis para una Muestra
Cúmulo
47 Tuc
Ejemplo: Cúmulos
globulares de la Galaxia
M(K)
Cúmulo
M(K)
Cúmulo
M(K)
-11.79
NGC 6235
-8.359
M 28
-10.557
NGC 362
-10.694
NGC 6256
-10.374
M 69
-9.803
NGC 1261
-9.452
M 62
-12.318
Pal 8
-8.478
Eridanus 4
-5.14
M 19
-12.279
M 54
-12.717
-10.229
Pal 2
-13.515
NGC 6284
-10.775
NGC 6723
NGC 1851
-10.591
NGC 6287
-10.706
Be42 19
NGC 2298
-8.825
NGC 6304
-11.042
NGC 6760
NGC 2419
-11.687
NGC 6316
-12.452
M 55
-9.199
NGC 2808
-11.687
NGC 6325
-10.481
M 75
-10.929
NGC 4147
-7.633
M9
-10.611
NGC 7006
NGC 4833
-11.347
NGC 6342
-9.825
M2
-10.682
M 53
-10.284
NGC 6356
-11.74
M 30
-8.759
NGC 5286
-11.046
NGC 6355
-11.163
NGC 5694
-9.991
NGC 6366
-8.558
IC 4499
-9.083
Ton 1
Pal 12
-6.7
-11.649
-9.696
-6.97
NGC 7492
-7.365
-12.693
2MASS GC01
-10.21
-12.667
NGC 5824
-11.339
NGC 6388
-13.509
2MASS GC02
NGC 5927
-11.183
NGC 6401
-10.578
NGC 288
-7.741
NGC 5946
-10.845
NGC 6440
-14.205
M 79
-9.372
NGC 5986
-11.418
NGC 6441
-13.294
omega Cen
-11.747
M 80
-10.16
NGC 6453
-10.922
NGC 5466
-7.273
M4
-10.091
NGC 6496
-9.227
NGC 5634
-9.088
NGC 6101
-8.662
NGC 6517
-13.34
NGC 5897
-8
NGC 6144
-9.497
NGC 6539
-12.565
NGC 6293
-9.253
NGC 6139
-12.647
NGC 6544
-11.478
M 92
-7.19
M 107
-10.019
NGC 6553
-12.36
NGC 6642
-8.73
M 13
-10.206
Pal 7
-10.584
NGC 6652
-8.079
NGC 6229
-10.388
NGC 6569
-10.962
Pal 9
-7.509
7. Contrastes de Hipótesis para una Muestra
Ejemplo: Cúmulos globulares de la Galaxia
Contraste para la media (¿puede ser la magnitud media igual a -10?
Test de los signos:
30
30 signos
signos ++
Se rechaza para α=0.05
51
51 signos
signos ––
Test de Wilcoxon:
Se asignan rangos a los |Di|
Se acepta para α=0.05
Pero se ha supuesto distribución simétrica
7-10
7. Contrastes de Hipótesis para una Muestra
7-11
Test de bondad del ajuste: χ2
¿Se ajusta la muestra a un determinado modelo o a una determinada distribución de probabilidad?
Los datos se agrupan en k intervalos
Oi: frecuencias observadas en cada intervalo
Ei: frecuencias esperadas si se cumple el modelo
Si H0 es cierta:
es una χ2 con k - 1
grados de libertad
λ>5
Si no se cumple que todos los
Ei > 5, se unen varios intervalos
(al menos el 80%)
H0 se acepta si:
Si para calcular Ei hay que usar p parámetros estimados de
la muestra (ej. μ, σ), el número de grados de libertad es:
Ventajas
Ventajas:: Método
Método muy
muy usado.
usado. Se
Se puede
puede analizar
analizar bin
bin aa bin.
bin. Fácil
Fácil de
de aplicar
aplicar (como
(como regla
regla aproximada,
aproximada, si
si χχ22
es
es mayor
mayor que
que 2×k,
2×k, se
se rechaza
rechaza la
la hipótesis
hipótesis nula).
nula).
Desventajas
Desventajas:: Pérdida
Pérdida de
de eficiencia
eficiencia ee información
información al
al agrupar
agrupar los
los datos
datos en
en intervalos.
intervalos. Son
Son necesarias
necesarias
muestras
muestras grandes
grandes (para
(para cumplir
cumplir E
Eii >> 5).
5). Es
Es bilateral
bilateral (no
(no indica
indica la
la dirección
dirección de
de las
las desviaciones).
desviaciones).
7. Contrastes de Hipótesis para una Muestra
7-12
Test de bondad del ajuste: Kolmogorov-Smirnov
Se(x): distribución de frecuencias acumuladas (función de distribución) bajo H0
So(x): distribución de frecuencias acumuladas de la muestra
H0 se acepta si:
Ventajas
Ventajas sobre
sobre el
el test
test χχ22
9
9 No
No hay
hay pérdida
pérdida de
de información
información por
por agrupamiento
agrupamiento
9
9 Válido
Válido para
para muestras
muestras pequeñas
pequeñas (para
(para muestras
muestras
intermedias
es
más
potente)
intermedias es más potente)
9
9 Pueden
Pueden hacerse
hacerse contrastes
contrastes unilaterales
unilaterales
9
9 Permite
Permite calcular
calcular un
un intervalo
intervalo de
de confianza
confianza para
para la
la
distribución
distribución de
de probabilidad
probabilidad de
de la
la población.
población.
Inconvenientes
Inconvenientes
88 La
La distribución
distribución teórica
teórica debe
debe ser
ser continua
continua
(aunque
(aunque existen
existen modificaciones
modificaciones para
para distribuciones
distribuciones
discretas
no
se
puede
aplicar
a
variables
discretas no se puede aplicar a variables cualitativas)
cualitativas)
88 No
No se
se pueden
pueden conocer
conocer los
los valores
valores críticos
críticos si
si
se
se calculan
calculan estimaciones
estimaciones de
de los
los parámetros
parámetros
poblacionales
poblacionales aa partir
partir de
de la
la muestra.
muestra.
7. Contrastes de Hipótesis para una Muestra
7-13
Valores críticos para el test de Kolmogorov-Smirnov (1 muestra)
7. Contrastes de Hipótesis para una Muestra
Ejemplo: Cúmulos globulares de la Galaxia
¿Siguen sus magnitudes absolutas una distribución normal?
Test χ2
12 intervalos
Variable:
Variable: Var2,
Var2, Di
Distri
stribution:
bution: Norm
Normal
al
Chi
-Square
test
=
3,1
32
14
,
d
f
=
4
(adj
usted
Chi -Square test = 3,1 32 14 , d f = 4 (adj usted)) ,, pp == 0,5
0,535
3596
96
30
30
No. of
of observations
observations
No.
25
25
Agrupando intervalos para tener
frecuencias esperadas > 5:
20
20
7 intervalos
15
15
10
10
55
00
-16
-16
-15
-15
-14
-14
-13
-13
-12
-12
-11
-11
-10
-10
-9
-9
-8
-8
-7
-7
-6
-6
-5
-5
-4
-4
Category
Category (upper
(upper lim
limits)
its)
Se acepta la hipótesis de normalidad
7-14
7-15
7. Contrastes de Hipótesis para una Muestra
Ejemplo: Cúmulos globulares de la Galaxia
Test de Kolmogorov-Smirnov
Suponiendo:
110
110
100
100
Relative Frequency
Frequency (%)
(%)
Relative
90
90
80
80
70
70
60
60
Se acepta la hipótesis
de normalidad
50
50
40
40
30
30
Si:
20
20
10
10
00
Valores
Valores críticos
críticos (N=81):
(N=81):
αα == 0.20
0.20 D
D == 0.1189
0.1189
αα == 0.10
0.10 D
D == 0.1356
0.1356
αα == 0.05
0.05 D
D == 0.1511
0.1511
Se rechaza para p =
0.10 pero se acepta
para p = 0.05
7-16
7. Contrastes de Hipótesis para una Muestra
Test de corridas
Test para comprobar la aleatoriedad de una secuencia binaria
Sea una secuencia de resultados de un proceso binario (éxito/fracaso): (ej. EEFEEFFEEEEFFF)
n1: número de éxitos
n2: número de fracasos
(las observaciones sucesivas
son independientes)
r : número de corridas
(secuencias del mismo resultado)
Ej:
H0 se acepta si:
Típicamente, el test se hace unilateral:
H0 se acepta si:
Para muestras
grandes (n1 ó n2 > 20)
Método
Método útil
útil para
para comprobar
comprobar la
la aleatoriedad
aleatoriedad de
de secuencias
secuencias temporales.
temporales.
Se
Se suele
suele usar
usar para
para comprobar
comprobar la
la aleatoriedad
aleatoriedad de
de los
los residuos
residuos (positivos/negativos)
(positivos/negativos) en
en un
un ajuste
ajuste aa un
un
modelo
(ej.
espectro).
Comprobación
de
la
validez
del
modelo
ajustado
modelo (ej. espectro). Comprobación de la validez del modelo ajustado
7. Contrastes de Hipótesis para una Muestra
Valores críticos para el
test de corridas
Los dos números indican los valores
críticos (mínimo y máximo) para un
test con n1 éxitos y n2 fracasos.
El nivel de significación es α = 0.05
para un test bilateral y α = 0.025 para
un test unilateral.
7-17
7. Contrastes de Hipótesis para una Muestra
Ejemplo: Ajuste al espectro del cuasar 3C207
Se acepta la hipótesis
de aleatoriedad
Se rechaza. Hay
evidencias de emisión
7-18
7. Contrastes de Hipótesis para una Muestra
Métodos bayesianos
Contraste para la media para una distribución normal
Verosimilitud:
La verosimilitud de la muestra es proporcional a la verosimilitud de la media
Prior uniforme:
7-19
7-20
7. Contrastes de Hipótesis para una Muestra
Métodos bayesianos (II)
Prior normal:
La distribución de probabilidad posterior de μ es una normal con:
Posterior
Likelihood
Prior
-5 -4 -3 -2 -1 0 1 2 3 4 5
m
Posterior mean
1 31
(prior conjugado)
7. Contrastes de Hipótesis para una Muestra
7-21
Métodos bayesianos (III)
Contrastes de hipótesis:
Bilateral:
Para un nivel α, se calcula un intervalo de credibilidad: [μ1,μ2]
Prior normal:
(σ se supone conocida)
Prior no normal:
H0 se acepta si:
Unilateral:
Se calcula
Para un prior normal:
H0 se acepta si:
Distribución de probabilidad
de la hipótesis
Descargar