fo-fe

Anuncio
A.
PRUEBAS DE BONDAD DE AJUSTE:
Chi cuadrado
Metodo G de Fisher
Kolmogorov-Smirnov
Lilliefords
B.TABLAS DE CONTINGENCIA
Marta Alperin
Profesora Adjunta de Estadística
alperin@fcnym.unlp.edu.ar
http://www.fcnym.unlp.edu.ar/catedras/estadistica
2

A. PRUEBAS DE BONDAD DE AJUSTE: 1. Chi cuadrado
•Objetivo
Inferir si la población muestreada, cuyos datos se clasifican en una escala nominal o
son agrupados en intervalos, sigue una cierta distribución teórica.
•Hipótesis
Hipótesis nula: frecuencias observadas son iguales a las frecuencias esperadas.
Hipótesis alternativa: frecuencias observadas son diferentes a las frecuencias
esperadas.
H0: fo=fe
H1: fo≠fe
2
(
fo

fe
)
 c2  
fe
i 1
k
•Estadístico de prueba
•Prueba de hipótesis
La hipótesis nula se acepta
   ( , )
2
c
Tabla Chi cuadrado
  k  n parámetros estimados  1
fo: frecuencia observada
fe: frecuencia esperada
k: número de categorías
•Decisión estadística
Cuando se acepta la hipótesis nula, se
puede afirmar que la muestra es extraída de
una población cuya distribución es la del
modelo contrastado con una confianza α.
Número de parámetros estimados
Modelo Binomial, se estima “p”
Modelo Poisson, se estima “λ”
Modelo Normal, se estima “μ y σ”
Modelo Uniforme no se estima ningún parámetro
Para evitar errores calcular las frecuencias esperadas con 4 decimales
y  2 con 3 decimales.
Restricciones:
•Los datos deben ser frecuencias
•Las categorías deben ser mutuamente excluyentes
•El test da resultados falsos si se aplica a datos que son porcentajes o
proporciones de ocurrencias de estas categorías mutuamente excluyentes.
•Las categorías no deben ser muchas.
•La frecuencia esperada en cada categoría debe ser al menos de 5 (cinco). Si esto
no ocurre se deben combinar las frecuencias de dos o mas categorías hasta que la
frecuencia esperada se >5.
Ejemplo DISTRIBUCIÓN UNIFORME: Un geólogo está estudiando los sedimentos
del perfil de playa de un lago que está compuesto por gravas de composición
pómez, granitos y rocas esquistosas. Aunque los tres componentes están
presentes en cantidades similares, el investigador sospecha que la roca
madre no contribuye en la misma proporción en la composición de la grava.
Realiza un muestreo de 600 individuos y encuentra 180 pómez, 186
graníticos y 234 esquistosos. ¿Son estos resultados compatibles con su
hipótesis?
H0: fo=fe
H1: fo≠fe
α: 0,05
= 3-1=2
Pumicesos
fo
180
fe
200
(fo-fe)2/fe
2,0
Graníticos Esquistosos
186
234
200
200
0,98
5,78
2(2;0,05)=5,99
2
(
fo

fe
)
 c2  
fe
i 1
k
 c2  2,0  0,98  5,78  8,76
8,76 >5,99
El valor de 2c supera el 2 crítico de tabla
para alfa de 0,5.
Se puede afirmar, con un nivel de significación
del 5%, que la muestra ha sido tomada de una
población dónde la proporción de componentes
pómez, graníticos y esquistosos no es la
misma.
Ejemplo DISTRIBUCIÓN POISSON
DISTRIBUCIÓN AL AZAR
s2
1
X
DISTRIBUCIÓN REGULAR
DISTRIBUCIÓN CONTAGIOSA
s2
1
X
s2
1
X
Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion
tendientes a estudiar los meteoritos en la Antártida. Se analizaron los meteoritos
caídos en un área de 200 km2. El área fue subdividida con una cuadricula de 1
km2 y se contó el número de meteoritos presentes en cada cuadricula.
N°
meteoritos
por
cuadricula
0
1
2
3
4
5
6
7
8
Frecuencia
observada
p (Poisson)
Frecuencia
esperada
(pxn)
10
14
9
23
65
74
5
0
0
0,0226
0,0847
0,1611
0,2044
0,1944
0,1479
0,0938
0,0509
0,0406
4,4
16,9
32,2
40,9
38,9
29,6
18,8
10,2
8,1
Los meteoritos se distribuyen al azar?
H0: fo=fe
H1: fo≠fe
=0,05
=8-1-1=6
χ2(6; 0,05)=12,59
( fo  fe ) 2
 
fe
i 1
k
2
c
 c2  137,20
137,20>12,59; se rechaza H0
Los meteoritos no se distribuyen al azar
Chi cuadrado

0,1125
16,7155
7,8340
17,5118
66,6000
10,1298
10,2000
8,1000
e   x
P( x) 
x!
m
n
m=n° meteoritos=761
n=n° cuadriculas=200
X
X  3,805
s2=2,17
((10+14)-(4,4+16,9))2/(4,4+16,9)=0,1125
Los meteoritos están agrupados o se distribuyen unifomemente?
s2
s2
=0,05; /2=0,025
H 0 :  1; H a :  1
s 2 2,17


0
,
57
X
X
=n-1=200-1=199
X 3,805
2
s
t(199; 0,025)=-1,960
1
2
S est 
t n1  X
n 1
2,17
S est
1
3
,
805
2
t 2001 
 4,297
S est 
 0,100
0,1
200  1
-1,960>-4,297; se rechaza H0
La distribución de los meteoritos no es al azar. El signo de t, y el valor
de la relación varianza-media permite afirmar que la distribucion es
relativamente uniforme.
Ejemplo PRUEBA DE NORMALIDAD
Para comercializar la merluza se necesita investigar si el largo del cuerpo se
ajusta a un modelo normal.
Se realiza un lanzamiento de red en la plataforma a la latitud de Mar del Plata y
se recuperan 300 peces.
Intervalo
35,5-40,5
40,5-45,5
45,5-50,5
50,5-55,5
55,5-60,5
60,5-65,5
Marca
de clase
(x)
38
43
48
53
58
63
X  49,5
S=5
Frecuencia
Observada
Intervalo
Z sup
7
54
120
84
31
4
Menos de 40,5
40,5-45,5
45,5-50,5
50,5-55,5
55,5-60,5
Más de 60,5
-1,8
-0,8
0,2
1,2
2,2
infinito
Area
normal
p
0,0359
0,1760
0,3674
0,3056
0,1012
0,0139
Frecuencia
esperada
Pxn
10,77
52,8
110,22
91,68
30,36
4,17
Se desconocen
y
Se estiman con
X yS
N=300
Recordemos
El área del intervalo (40,5 - 45,5) viene dada por: p((z  Zsup.) - p((z  Zinf.)
siendo (Zsup.) = (45,5 – 49,5) / 5 = -0,8
(Zinf.) = (40,5 – 49,5) / 5 = -1,8
Z
xi  X
S
p(z  -0,8) – p(z  -1,8) = 0,4641 – 0,2881 = 0,1760
El Zsup. de un intervalo será el Zinf. del siguiente intervalo.
El primer intervalo tiene siempre como Zinf. menos infinito (-∞)
El último como Zsup. más infinito (+∞).
Para obtener las frecuencias esperadas, las áreas debajo de la curva normal se
multiplican por el número total de observaciones (N).
H0: fo=fe
H1: fo≠fe
=0,05
Intervalo
35,5-40,5
40,5-45,5
45,5-50,5
50,5-55,5
55,5-60,5
60,5-65,5
Marca
de clase
(x)
38
43
48
53
58
63
Frecuencia
Observada
Intervalo
Z sup
7
54
120
84
31
4
Menos de 40,5
40,5-45,5
45,5-50,5
50,5-55,5
55,5-60,5
Más de 60,5
-1,8
-0,8
0,2
1,2
2,2
infinito
Area
normal
p
0,0359
0,1760
0,3674
0,3056
0,1012
0,0139
Frecuencia
esperada
Pxn
10,77
52,8
110,22
91,68
30,36
4,17
Si las fe son menores que “5”; se deben sumar las fe de intervalos contiguos hasta
que todos los intervalos tengan fe  5.
2
(
fo

fe
)
 c2  
fe
i 1
k
k
 c2  
i 1
fo 2
N
fe
 72
54 2
352 
  300  2,8645
  

 ... 
34,53 
 10,7 52,8
2
c
  k  n parámetros estimados  1
= 5 -2 -1 = 2
2(2;0,05)=5,99
2,86 < 5,99
Como el valor de 2c no supera el 2 crítico de
tabla al 5%, no se encuentran evidencias
suficientes para rechazar la H0
Se puede afirmar, con un nivel de
significación del 5%, que el largo de la
merluza sigue una distribución normal.
A.
PRUEBAS
DE BONDAD DE AJUSTE:
2. Método “G” de Fisher
k
G  2
i 1
 fo 
fo ln 
 fe 
El estadístico G sigue la misma distribución que 2 c
No es tan sensible como la prueba de Chi las frecuencias esperadas bajas
Ejemplo del largo de la merluza
G  2(7 ln
7
52
4
 54 ln
 ...  4 ln
 3,06
10,77
52,8
4,17
Grados de libertad 6 -3 =3
2 (3; 0,05) = 7,81
3,06<7,81
Como el valor de G no supera el 2 crítico de tabla al 5%, no se encuentran
evidencias suficientes para rechazar la H0
Se puede afirmar, con un nivel de significación del 5%, que el largo de la
merluza sigue una distribución normal.
A.
PRUEBAS DE
BONDAD DE AJUSTE:
3. Método de Kolmogorov - Smirnov
Diferencia máxima
max O: frecuencia acumulada observada
max E: frecuencia acumulada esperada
N: numero total de datos
max O  max E
d
N
•Se necesita conocer la media y el desvío estándar poblacional.
•El valor critico se busca en la Tabla Kolmogorv-Smirnov.
4. Método de Lilliefords (1967)
•No es necesario conocer la media y el desvío estándar poblacional.
•Las estandarizaciones se calculan con los estimadores muestrales.
• El valor crítico se busca en la Tabla Lilliefords
Ejemplo del largo de la merluza
Intervalo
Frecuencia
Observada
35,5-40,5
40,5-45,5
45,5-50,5
50,5-55,5
55,5-60,5
60,5-65,5
7
54
120
84
31
4
d
Frecuencia
acumulada
observada
7
61
181
265
296
300
Frecuencia
esperada
181  173,79 7,21

 0,024
300
300
10,77
52,8
110,22
91,68
30,36
4,17
Frecuencia
acumulada
esperada
10,77
63,57
173,79
265,47
289,83
300,00
d
3,77
2,57
7,21
0,47
6,17
0
Valor crítico al 5% d de Lillifords
0,024<0,051
Como el valor de “d” no supera
el “d” crítico de tabla al 5%, no
se
encuentran
evidencias
suficientes para rechazar la H0.
Se puede afirmar, con un
nivel de significación del 5%,
que el largo de la merluza
sigue
una
distribución
normal.
0,890
 0,0514
300
B.TABLAS DE CONTINGENCIA
•Objetivo
Inferir si en la población de la que es extraída la muestra, existe alguna relación
entre las frecuencias de ocurrencia simultanea entre dos variables aleatorias.
Las variables son atributos categóricos, codificados o en escalas nominales.
Cada individuo se clasifica teniendo en cuenta simultáneamente las dos variables.
Se registra la frecuencia de ocurrencia en cada individuo que forma parte de la
muestra
V1
1
...
m
V2
1 ... n
x
Tabla de contingencia
•Hipótesis
Hipótesis nula: las variables son independientes
Hipótesis alternativa: las variables no son independientes.
•Estadístico de prueba
fe 
TF  TC
TT
2
(
fo

fe
)
 c2  
fe
i 1
k
•Prueba de hipótesis
La hipótesis
nula se acepta
 
2
c
2
( , )
  (numero de filas  1)(numero de columnas  1)
H0: fo=fe
H1: fo≠fe
fo: frecuencia observada en 1 celda
fe: frecuencia esperada en 1 celda
k: número de celdas de la tabla
•Decisión estadística
Cuando se acepta la hipótesis nula, se
puede afirmar que la muestra es extraída de
una población en donde las variables son
independientes, con una confianza α.
Ejemplo
El objetivo del trabajo es investigar si en los humanos el color del
pelo es independiente del sexo.
Color del pelo
Total Fila
Negro Castaño Rubio Pelirrojo
32
43
16
9
Hombres
100
29,0000 36,0000 26,6667 8,3333
55
65
64
16
Mujeres
200
58,0000 72,0000 53,3333 16,6667
Total columna
87
108
80
25
300
Sexo
Color del pelo Chi cuadrado
Total Fila
Negro Castaño Rubio Pelirrojo
Hombres
0,3103 1,3611 4,2667 0,0533
Mujeres
0,1552 0,6806 2,1444 0,0267
Total columna
8,987
Sexo
( fo  fe) 2
 
 8,987
fe
i 1
6
2
c
fe 
fe( MR )
TF  TC
TT
200  80

 53,3333
300
H0: fo=fe
H1: fo≠fe
= 0,05
 02,05;( 41)( 21)  7,81
8,987 > 7,81
El valor de 2c es menor al 2 crítico de tabla.
No se encuentran evidencias suficientes para aceptar la H0 de independencia entre el
color del pelo y el sexo trabajando con un nivel de significación de 5%.
CORRECCIÓN POR CONTINUIDAD
Cuando los grados de libertad utilizados para
hacer el contraste de la prueba de hipótesis es
uno (1) se debe realizar la corrección por
continuidad de Yates.
k
 
2
c
i 1
( fo  fe  0,5)
fe
2
GRACIAS
Descargar