Document

Anuncio
CONTRASTES NO PARAMÉTRICOS:
BONDAD DEL AJUSTE Y TABLAS DE CONTINGENCIA
Antonio Morillas
A. Morillas: C. no paramétricos (I)
1
CONTRASTES NO PARAMÉTRICOS:
BONDAD DE AJUSTE Y TABLAS DE CONTINGENCIA
Inferencia realizada hasta ahora:
•
Una muestra aleatoria (n) Æ las xi son variables
aleatorias independientes en el muestreo Æ estimador
Æ distribución del estimador Æ inferencia
•
Modelo de población conocido, salvo sus parámetros
Queda por comprobar (para una inferencia correcta):
•
Si el modelo es consistente con la muestra (ajuste)
•
Si las observaciones (variables) xi son realmente
independientes (aleatoriedad e independencia)
•
Si la población cambia o no entre dos muestras
distintas (homogeneidad)
A. Morillas: C. no paramétricos (I)
2
CONTRASTES NO PARAMÉTRICOS:
BONDAD DE AJUSTE Y TABLAS DE CONTINGENCIA
1.
Contrastes de bondad del ajuste
a. χ2 de Pearson
b. Kolmogorov-Smirnov
c. Contrastes específicos de normalidad
a. Lilliefors
b. Jarque-Bera
c. Shapiro-Wilks
2. Contraste de independencia (asociación). Tablas de
contingencia
3. Contraste de homogeneidad
A. Morillas: C. no paramétricos (I)
3
CONTRASTE DE BONDAD DE AJUSTE χ2
f(x)
X/H0
H0: f(x)=f0(x)
pi =
Li
∫f
0
( x ) dx
Li −1
pi
fi
Li-1
Li
X
fi=ni /n
ni=nfi
fi
Li-1
Li
A. Morillas: C. no paramétricos (I)
X
4
ESTADÍSTICO DE PRUEBA
1.
ni ∼ B(n, pi ), marginal de una multinomial:
ei=E(ni )=npi Æ Bajo H0: ei = npi0
2.
Si ei=E(ni )=npi ≥ 5 y pi es pequeña (Poisson):
ni − npi ni − ei
=
∼ N (0,1)
npi
ei
3.
Para prescindir del signo de (ni – ei), se eleva al
cuadrado: [N(0,1)]2 ~ χ21
4.
Discrepancia total en los k intervalos: Σk χ2
5.
Bajo H0 :
k
k (n − ei ) 2
∼ χ 2k − 1 , ya que ∑ ni = n
∑ i
ei
i =1
i =1
A. Morillas: C. no paramétricos (I)
5
PROCESO DE CÁLCULO
1.
Tabulación de la muestra en clases (k ≥ 5 y ei ≥ 5 )
2.
Cálculo de las probabilidades teóricas (pi), bajo H0.
3.
Obtener las frecuencias esperadas: ei=npi
4.
Obtener la χ2obs Æ valor muestral de ∑(ni-ei)2 / ei
5.
Si χ2obs ≥ χ21-α (cola derecha), rechazar H0 Æ la discrepancia
es significativa
Nota: Si no se conocen los r parámetros poblacionales en H0 , se
estiman por máxima verosimilitud y se reducen los grados de
libertad en r :
k ( ni − ei )
∑
i =1
ei
2
∼χ
2
k − r −1
A. Morillas: C. no paramétricos (I)
6
RESUMEN TEST χ2
• Hipótesis nula: Ho: f(x) = fo(x) Æ H0: pi = pi0 , i=1, 2, ...,k
• Base del test: discrepancia entre ni (muestra) y ei=npi (Ho)
Intervalos
< L1
L1 – L2
..
Li-1 – Li
..
Lk-1 y más
Frecuencias Probabilidad
observadas
intervalo
ni
pi /H0
Frecuencias
esperadas
ei
Valor del
estadístico
(ni-ei)2 / ei
n1
n2
..
ni
..
nk
p1
p2
..
pi
..
pk
e1 = np1
e2 = np2
..
ei = npi
..
ek = npk
(n1-e1)2 / e1
(n2-e2)2 / e2
..
(ni-ei)2 / ei
..
(nk-ek)2 / ek
∑ni = n
∑ pi = 1
∑ ei = n
χ2obs.
A. Morillas: C. no paramétricos (I)
7
COMENTARIOS SOBRE EL TEST χ2
1.
Aplicable a variables continuas (agrupadas en intervalos) y
discretas
2.
Muestra y número intervalos grandes (ei = npi ≥5 )
3.
Estadístico, según parámetros en H0 :
1. Especificados Æ χ2k-1
2. No especificados (r) Æ χ2k-r-1 (EMV o χ2-mínimos)
4.
Es un test asintótico Æ sensible al valor de n Æ Distinguir
entre significación estadística y significación real. Para c > 1:
2
(cni − cnpi ) 2
χ obs.(c.n) = ∑ cnp = c χ obs.
i =1
i
2
k
A. Morillas: C. no paramétricos (I)
8
TEST DE KOLMOGOROV-SMIRNOV
F0 (x)
Fn (x)
Hipótesis nula Æ H0 : F(x) = F0 (x)
Fn (x)
Fn (x(n))=1
Fn (x(i) )
F0 (x)
D2 (xi )
F0 (xi )
D1 (xi )
Fn (x(i-1) )
Fn (x(2) )
Fn (x(1) )
x(1)
x(2) ......... x(i-1)
x(i) ................
x(n)
X
Estadístico de prueba: Dn= max {D1 (xi ) ∪ D2 (xi )}
A. Morillas: C. no paramétricos (I)
9
RESUMEN TEST K-S
• Hipótesis nula: H0: F(x) = F0(x), especificada en
forma y en parámetros.
• Estadístico de prueba: Dn=max ⎨D1(x(i)) ∪ D2(x(i))⎬ ,
i=1,2,...,n
• Región crítica: Dobs.≥ Dn , rechazar H0 (el modelo
propuesto no es válido).
• Aplicable sólo a variables continuas. Puede utilizarse
para muestras pequeñas.
A. Morillas: C. no paramétricos (I)
10
CÁLCULOS EN K-S
x(i)
Ni
Fn(x(i))
F0(x(i))
D1(x(i))
D2(x(i))
x(1)
x(2)
..
x(i)
..
x(n)
N1
N2
..
Ni
..
Nn
Fn(x(1))
Fn(x(2))
..
Fn(x(i))
..
Fn(x(n))
F0(x(1))
F0(x(2))
..
F0(x(i))
..
F0(x(n))
D1(x(1))
D1(x(2))
..
D1(x(i))
..
D1(x(n))
D2(x(1))
D2(x(2))
..
D2(x(i))
..
D2(x(n))
D1(x(i) ) = |Fn(x(i-1) ) - F0(x(i) )| ; D2(x(i) ) =|Fn(x(i) ) - F0(x(i) )|
A. Morillas: C. no paramétricos (I)
11
TEST DE NORMALIDAD DE LILLIEFORS
• Adaptación de K-S al caso de una normal con parámetros
desconocidos.
• Hipótesis nula: H0: F(x) = Normal ; parámetros desconocidos.
• µ y σ2 se estiman de la muestra, mediante x y ŝ 2 .
• Estadístico de prueba: Dn=max ⎨D1(x(i) ) ∪ D2(x(i) )⎬ , el mismo
que el de K-S, pero los valores críticos cambian. Hay que
mirarlos en la tabla obtenida por Lilliefors.
• La potencia de este test para un tamaño muestral no muy
grande es baja. Por tanto, necesita muestras grandes (n ≥ 100).
A. Morillas: C. no paramétricos (I)
12
TEST DE NORMALIDAD DE JARQUE-BERA
• Contrastes de asimetría y apuntamiento:
• H0 : X es simétrica Æ Estadístico de asimetría:
n
3
x
x
(
−
)
∑ i
α
1
6
~ Z , para n ≥ 50
i =1
α1 =
~ N ( µ = 0, σ =
)
6n
3
ns
n
•H0 : X es mesocúrtica Æ Estadístico de apuntamiento:
n
∑ ( xi − x )
α 2 = i=1
ns 4
4
~ N ( µ = 3, σ = 24 n )
α2 − 3
24 / n
~ Z , n ≥ 200
• Región crítica de 2 colas: Zobs ≤ Zα/2 o Zobs ≥ Z1-α/2
A. Morillas: C. no paramétricos (I)
13
TEST DE NORMALIDAD DE JARQUE-BERA
• Contraste de normalidad:
• H0 : X es normal Æ Estadístico de prueba:
⎛ α1 − 0 ⎞
2
⎛ α2 − 3 ⎞
2
⎜
⎟ ∼ χ2
⎟ +⎜
⎝ 6 / n ⎠ ⎝ 24 / n ⎠
2
n ⎛ 2 (α 2 − 3)
⎜⎜ α1 +
6⎝
4
2
2
⎞
⎟⎟ ∼ χ
2
⎠
• Región crítica: si α1=0 y α2=3 Æ χ2 =0 (aceptaríamos H0).
2
Por tanto, la RCO estará a la derecha: χ obs
≥ χ 22; 1−α
• Se trata de un test para muestras grandes
A. Morillas: C. no paramétricos (I)
14
TEST DE NORMALIDAD DE SHAPIRO-WILKS
RECTA PROBABILÍSTICO NORMAL
E ( x( i ) ) = µ + σ ci ,n
(c1,7 )
(c2,7 )=q1
(c4,7 )= Me
Z (ci,7 )
(c5,7 )
(c7,7 )
Si H0 es cierta: E[(x(i) - µ) /σ ] = ci,n
(c3,7 )
(c6,7 ) =q3
x(1)
x’(1)
x(2)
x(3)
x’(2) x’(3)
x(4)
x’(4)
x(5)
x’(5)
A. Morillas: C. no paramétricos (I)
x(6) x(7)
x’(6)
X
Muestra 1
x’(7) Muestra 2
15
ESTADÍSTICO DE SHAPIRO-WILKS
GRÁFICO Q-Q
x(6)
x(i)
x(7)
x(4)
x(5)
x(2)
x(1)
σ
E[x(i)]= µ + ci, n σ
x(3)
µ
⎛ s x( i ) , c i , n ⎞
⎟
w =r = R =⎜
⎜ s x sc ⎟
⎝ ( i ) i ,n ⎠
2
ci, n
2
2
Si ωobs< ωαÆRechazar H0
A. Morillas: C. no paramétricos (I)
16
TEST DE NORMALIDAD DE SHAPIRO-WILKS
• Si H0 : X ~N(µ,σ), el valor esperado de la observación muestral
i-ésima (cuantil), tipificada, vendrá dado por un cuantil en Z:
⎛ x( i ) − µ ⎞
E ( x( i ) ) = µ + ci ,nσ
E⎜
⎟ = c i ,n
⎝ σ ⎠
• Los datos muestrales deberían estar próximos a esta recta
• El test mide esa proximidad, estudiando la bondad del ajuste,
gráfico q-q, entre los cuantiles x(i) y los cuantiles ci,n (w = r2):
2
⎤
1 ⎡
A
w = 2 ⎢∑ a( j ),n (x( n− j +1) − x( j ) )⎥ = 2
ns
ns ⎣ j =1
⎦
q
2
• n par Æ q=n/2
• n impar Æ q=(n-1)/2
• RCO Æ wobs ≤ wα
• Muestras pequeñas (n < 30). Potente. Los a(j),n están tabulados
A. Morillas: C. no paramétricos (I)
17
RESUMEN BONDAD DE AJUSTE
TIPO DE HIPÓTESIS TAMAÑO
VARIABLE
MUESTRA
NULA
Chi-cuadrado Cont. o disc. No especif.(r) Grande
Especificada Pequeño
Kolmo.-Smir. Continua
Grande
K-S-Lilliefors Continua (N) No especif.
Continua (N) No especif.
Grande
Jarque-Bera
Pequeño
Shapiro-Wilks Continua (N) No especif.
TEST
A. Morillas: C. no paramétricos (I)
18
TABLAS DE CONTINGENCIA
TABLA DE CONTINGENCIA
Característica B
1
n11
2
n21
..
..
i
ni1
..
..
r
nr1
Total n
.1
Característica A
1
r
2
..
j
..
s
Total
n12
n22
..
ni2
..
nr2
n.2
..
..
..
..
..
..
..
n1j
n2j
..
nij
..
nrj
n.j
..
..
..
..
..
..
..
n1s
n2s
..
nis
..
nrs
n.s
n1.
n2.
..
ni.
..
nr.
n
s
∑∑n
i =1
j =1
ij
=
r
∑n
i =1
i.
=
s
∑n
j =1
.j
=n
A. Morillas: C. no paramétricos (I)
19
CONTRASTE DE INDEPENDENCIA
• H0: independencia Æ H0: pij = pi. . p.j , i=1,2,...,r ; j=1,2,...,s
• Aplicando el criterio de la χ2 de Pearson (frecuencias
observadas-esperadas):
r
s (n − e ) 2
2
ij
ij
∼χ
; eij = npij
∑∑
1
−
rs
eij
i =1 j =1
• Si H0 es cierta Æ pij = pi. . p.j , la expresión anterior queda como:
2
r
s
∑∑
i =1 j =1
(nij − npi. p. j ) 2
npi. p. j
∼χ
Densidades conocidas
2
rs −1
ni .
pˆ i . =
n
ni.n. j ⎞
⎛
⎜ nij −
⎟
r
s
2
n ⎠
⎝
∼χ
∑∑
( r −1)( s −1)
ni.n. j
i =1 j =1
n rs-1-(r-1)-(s-1)
Densidades desconocidas
A. Morillas: C. no paramétricos (I)
20
Característica A
CONTRASTE DE HOMOGENEIDAD
Muestras o experimentos
1
2
..
j
..
s Total
1
n11 n12 .. n1j .. n1s n1.
2
n21 n22 .. n2j .. n2s n2.
..
..
..
..
..
..
..
..
i
ni1 ni2 ..
nij
.. nis
ni.
..
..
..
..
..
..
..
..
r
nr1 nr2 .. nrj .. nrs
nr.
Total n.1 n.2 ..
n.j
.. n.s
n
A. Morillas: C. no paramétricos (I)
21
OBJETO E HIPÓTESIS NULA
Objeto: Comprobar si las muestras provienen de la misma
población (poblaciones homogéneas para variable A)
Repetición de un experimento multinomial (s veces)
Igual proporción de observaciones en cada categoría de la
característica A
H0: La probabilidad de éxito en cada categoría es la misma:
H0 : pi1 = pi2 = ... = pij = ... = pis = pi. , ∀ i =1,2,...,r
A. Morillas: C. no paramétricos (I)
22
ESTADÍSTICO DE PRUEBA
H0 es compuesta Æ Test de la RV Æ Se demuestra que la χ2 del
test de la RV (-2 ln λ), coincide con el test de independencia Æ
Discrepancia entre valores observados y esperados.
Los valores esperados son:
• eij = E(nij ) = n. j pi . Æ si se conocen las pi teóricas
• eij = n. j (ni . /n) Æ si se estiman de la muestra por MV
2
ni.n. j ⎞
⎛
⎟
⎜ nij −
r
s
2
n ⎠
⎝
Estadístico prueba (RCO derecha): ∑∑
∼χ
( r −1)( s −1)
ni.n. j
i =1 j =1
(r-1)s con las pi conocidas
(r-1)s-(r-1)
n
A. Morillas: C. no paramétricos (I)
23
Descargar