Subido por Amilcar Gianelli

PRUEBAS ESTADÍSTICAS CON LA DISTRIBUCIÓN CHI-CUADRADO

Anuncio
PRUEBAS ESTADÍSTICAS CON LA DISTRIBUCIÓN CHI-CUADRADO
1. BONDAD DE AJUSTE
Las pruebas de bondad de ajuste tienen por objetivo determinar si los
datos se ajustan a una determinada distribución, esta distribución puede estar
completamente especificada (hipótesis simple) o perteneciente a una clase
paramétrica (hipótesis compuesta).
Con mucha frecuencia no se conoce la distribución de probabilidad de la
variable aleatoria en estudio, digamos X, y se desea probar la hipótesis de que
X sigue una distribución de probabilidad particular. Por ejemplo, podría ser de
interés probar la hipótesis de que X sigue una
distribución normal, una
exponencial, etc.
Existen dos procedimientos para realizar pruebas de bondad de ajuste
que son los más conocidos. El primero se basa en una técnica gráfica muy útil
llamada gráfica de probabilidad y el segundo procedimiento se basa en la
distribución Chi-cuadrada.
2. INTRODUCCIÓN A LA CHI-CUADRADO
La prueba de Chi- cuadrado (X2), permite calcular la probabilidad de
obtener resultados que únicamente por efecto del azar se desvíen de las
expectativas en la magnitud observada si el modelo es correcto.
Para realizar una prueba de Chi-cuadrado, el primer paso es comparar el
número de individuos observado en cada categoría con los números esperados
considerando el tamaño de la muestra y el modelo propuesto. Las desviaciones
son elevadas al cuadrado y divididas por los valores esperados, lo cual
proporciona un valor de Chi-cuadrado. Se utiliza el número de individuos y no
las proporciones, X2 toma en consideración el tamaño de la muestra.
La formula para X2 es como se indica a continuación:
x
2
=
∑
(resultados observados
i
− resultados esperados
)
2
resultados esperados
El siguiente paso es determinar los grados de libertad. Los grados de
libertad son el número de categorías o clases variables independientes que
existe. Generalmente, esto es igual a uno menos el número total de clases.
Por ejemplo, si hay dos clases de semillas, amarillas y verdes,
únicamente una de ellas es variable independientemente una vez se conozca
el número de semillas amarillas en un tamaño de muestra determinado,
también se conoce el número de semillas verdes. Por lo tanto, los grados de
libertad en este ejemplo son uno.
El paso final en la aplicación de la prueba de Chi-cuadrado es buscar el
valor de Chi-cuadrado y los grados de libertad en una tabla o grafica como las
que se presentan a continuación y determinar el valor de la probabilidad. Este
valor es la probabilidad de que el azar por sí mismo pudiera ser responsable de
una desviación tan grande o mayor que la observada, si la hipótesis es
correcta.
Si la probabilidad es alta se considera que los datos están de acuerdo
con el modelo, lo cual no prueba que el modelo sea correcto, sino que
simplemente no se puede demostrar que sea incorrecto. Si la probabilidad es
baja, la desviación no es debida al azar y se considera que los datos no
respaldan el modelo.
Seguidamente se tiene que decidir que tan baja probabilidad es posible
aceptar antes de rechazar el modelo propuesto. Generalmente, el nivel de
confianza escogido es de 5%. Si la probabilidad es menor de 0.05, la diferencia
es “significativa”, y si es menor de 0.01, esta es considerada “altamente
significativa”. Las probabilidades en estos intervalos generalmente causan el
rechazo de un modelo, sin embargo, el rechazo de la hipótesis al nivel del 5%
significa que se rechazan hipótesis correctas 5% de las veces.
Tabla Distribución de ji-cuadrado
Grados de libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,1
2,71
4,61
6,25
7,78
9,24
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26
51,81
63,17
74,40
85,53
96,58
107,57
118,50
Probabilidad de un valor superior
0,05
0,025
0,01
3,84
5,02
6,63
5,99
7,38
9,21
7,81
9,35
11,34
9,49
11,14
13,28
11,07
12,83
15,09
12,59
14,45
16,81
14,07
16,01
18,48
15,51
17,53
20,09
16,92
19,02
21,67
18,31
20,48
23,21
19,68
21,92
24,73
21,03
23,34
26,22
22,36
24,74
27,69
23,68
26,12
29,14
25,00
27,49
30,58
26,30
28,85
32,00
27,59
30,19
33,41
28,87
31,53
34,81
30,14
32,85
36,19
31,41
34,17
37,57
32,67
35,48
38,93
33,92
36,78
40,29
35,17
38,08
41,64
36,42
39,36
42,98
37,65
40,65
44,31
38,89
41,92
45,64
40,11
43,19
46,96
41,34
44,46
48,28
42,56
45,72
49,59
43,77
46,98
50,89
55,76
59,34
63,69
67,50
71,42
76,15
79,08
83,30
88,38
90,53
95,02
100,43
101,88
106,63
112,33
113,15
118,14
124,12
124,34
129,56
135,81
0,005
7,88
10,60
12,84
14,86
16,75
18,55
20,28
21,95
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67
66,77
79,49
91,95
104,21
116,32
128,30
140,17
3. TABLAS DE CONTINGENCIA
En estadística las tablas de contingencia se emplean para registrar y
analizar la relación entre dos o más variables, habitualmente de naturaleza
cualitativa, nominales u ordinales.
Las tablas de contingencia tienen dos objetivos fundamentales:
1) Organizar la información contenida en un experimento cuando ésta es de
carácter bidimensional, es decir, cuando está referida a dos factores (variables
cualitativas).
2) A partir de la tabla de contingencia se puede además analizar si existe
alguna relación de dependencia o independencia entre los niveles de las
variables cualitativas objeto de estudio. El hecho de que dos variables sean
independientes significa que los valores de una de ellas no están influidos por
la modalidad o nivel que adopte la otra.
Supóngase que se dispone de dos variables, la primera el sexo (hombre
o mujer) y la segunda que recoge si consume o no alimentos ecológicos. Se ha
observado esta pareja de variables en una muestra aleatoria de 100 individuos.
Se puede emplear una tabla de contingencia para expresar la relación entre
estas dos variables, del siguiente modo:
CONSUME
NO
TOTAL
CONSUME
HOMBRE
43
9
52
MUJER
44
4
46
TOTAL
87
13
100
Las cifras en la columna de la derecha y en la fila inferior reciben el
nombre de frecuencias marginales y la cifra situada en la esquina inferior
derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporción de hombres
consumidores es aproximadamente igual a la proporción de mujeres
consumidoras. Sin embargo, ambas proporciones no son idénticas y la
significación estadística de la diferencia entre ellas puede ser evaluada con el
test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una
muestra aleatoria de una población. Si la proporción de individuos en cada
columna varía entre las diversas filas y viceversa, se dice que existe asociación
entre las dos variables. Si no existe asociación se dice que ambas variables
son independientes.
El grado de asociación entre dos variables se puede evaluar empleando
distintos coeficientes: el más simple es el coeficiente phi que se define por
ϕ=
x
2
N
donde χ2 se deriva del test de Pearson, y N es el total de observaciones -el
gran total-. φ puede oscilar entre 0 (que indica que no existe asociación entre
las variables) y 1 (asociación total).
Para identificar relaciones de dependencia entre variables cualitativas se
utiliza un contraste estadístico basado en el estadístico
x
2
(Chi-cuadrado),
cuyo cálculo nos permitirá afirmar con un nivel de confianza estadístico
determinado si los niveles de una variable cualitativa influyen en los niveles de
la otra variable nominal analizada.
Siguiendo con el ejemplo propuesto, el cálculo de la Chi-cuadrado nos
permitiría saber si el sexo de una persona es un factor determinante en que
dicha persona fume o no fume.
¿Cómo podemos determinar si existe una relación de dependencia o
independencia entre las variables analizadas?
Dos variables son independientes si:
a) las frecuencias relativas condicionadas son iguales a las frecuencias
relativas marginales, es decir:
⎞
⎛
f ⎜⎜ Α1 ⎟⎟ =
Β1 ⎠
⎝
n
n
⎞
⎛
f ⎜⎜ Α 2 ⎟⎟ =
Β1 ⎠
⎝
11
1•
n
n
⎞
⎛
= f ⎜ Α1 ⎟ =
Β2 ⎠
⎝
21
2•
⎞
⎛
⎟=
= ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ f ⎜⎜ Αi
⎟
Β
j⎠
⎝
n
n
⎞
⎛
= f ⎜ Α2
⎟=
Β2 ⎠
⎝
12
1•
n
n
22
2•
⎞
⎛
⎟=
= ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ f ⎜⎜ Α2
⎟
Β
j
⎠
⎝
Frecuencias relativas marginales:
⎛
⎞
⎟=
f ⎜ Αi
⎜
⎟
Β
j⎠
⎝
n
n
⎛
⎞
⎟=
f ⎜Β j
⎜
Αi ⎟⎠
⎝
=
ij
f
i•
n
n
ij
•j
=
ij
f
n
n
=
ji
n
i•
Ν
=
n
•j
Ν
=
1j
1•
n
n
2j
2•
n
1•
Ν
=
n
2•
Ν
b) O bien si se cumple que la frecuencia relativa conjunta es igual al
producto de las frecuencias relativas marginales:
f
(Α ∩ Β ) = nΝ = nΝ x nΝ
i•
ij
i
•j
j
De esta forma, comparando las frecuencias teóricas esperadas en caso
de independencia entre los factores con las frecuencias observadas en la
muestra, podremos concluir si existe una relación de dependencia o
independencia entre los factores o atributos analizados.
Según la notación de la tabla inicial, y utilizando el concepto
frecuentalista de probabilidad, podemos estimar la probabilidad de que se de
un suceso determinado a partir de sus frecuencias relativas:
Ρ
ij
=
n
ij
Ν
Ρ
;
i•
=
n
i•
Ν
;
Ρ
•j
=
n
•j
Ν
De esta forma, si las variables son independientes
Ρ
ij
=
Ε
ij
Ν
=
n xn
i•
Ν
•j
Ν
donde Eij sería el número de casos o frecuencia absoluta esperada o teórica
en condiciones de independencia. Por lo tanto podremos calcular las
frecuencias esperadas:
Εij =
n xn
i•
•j
Ν
En lugar de los Eij , habremos observado los nij. Tendremos tantos
valores Eij y nij como celdas de la matriz, concluyendo que si hay poca
diferencia entre estos valores los atributos serán independientes, no
pudiéndose afirmar lo mismo en caso contrario. Supuesto que el atributo A
tiene n filas y el atributo B, k columnas, la tabla será de orden nxk. Pearson
planteó la utilización del estadístico c2 para analizar la independencia, definido
por:
∑ ∑ (nij −Εij )
h
x
2
=
k
2
i =1 j =1
Ε
ij
La hipótesis nula a contrastar será la de independencia entre los
factores, siendo la hipótesis alternativa la de dependencia entre los factores.
El valor de
x
2
calculado se compara con el valor tabulado de una
x
2
para un nivel de confianza determinado y (n-1) (k-1) grados de libertad. Si el
valor calculado es mayor que el valor de tablas de una
2
x(
n −1)( k −1)
, significará que
las diferencias entre las frecuencias observadas y las frecuencias teóricas o
esperadas son muy elevadas y por tanto diremos con un determinado nivel de
confianza que existe dependencia entre los factores o atributos analizados.
Resumiendo:
x ⟩ x(
2
2
n −1)( k −1)
Rechazar hipótesis nula (dependencia entre las variables)
x ⟨ x(
2
2
n −1)( k −1)
Aceptar hipótesis nula (independencia entre las variables)
Veámoslo con el mismo ejemplo anterior:
ALIMENTO ECOLÓGICO
CONSUME
NO CONSUME
MARGINAL
SEXO
HOMBRE
65
43
108
MUJER
58
67
125
MARGINAL
123
110
233
Frecuencias relativas marginales:
P (ser hombre) = 108/ 233 = 46.4%
P (ser mujer) = 125/ 233 = 53.6%
P (consumir) = 123/ 233 = 52.8%
P (no consumir) = 110/ 233 = 47.2%
Frecuencias relativas conjuntas:
P (hombre y consumir) = 65/ 233 = 27.9%
P (hombre y no consumir) = 43/ 233 = 18.5%
P (mujer y consumir) = 58/ 233 = 24.9%
P (mujer y no consumir) = 67/ 233 = 28.8%
Frecuencias relativas teóricas esperadas en caso de independencia:
E (hombre y consumir) = 46.4% x 52.8% = 24.5%
E (hombre y no consumir) = 46.4% x 47.2% = 21.9%
E (mujer y consumir) = 53.6% x 52.8% = 28.3%
E (mujer y no consumir) = 53.6% x 47.2% = 25.3%
Frecuencias absolutas teóricas esperadas en caso de independencia:
E (hombre y consumir) = 123 * 108 /233 = 57
E (hombre y no consumir) = 108*110/233 = 51
E (mujer y consumir) = 123*125/233 = 66
E (mujer y no consumir) = 125*110/233 = 59
Valor de la Chi-cuadrado:
∑ ∑ (nij −Εij )
h
x
2
=
k
2
i =1 j =1
Ε
ij
(65−57) + (58−66) + (43−51) + (67−59) = 4,42
=
2
57
Dado que el valor calculado de la
2
66
x
2
2
51
2
59
para un nivel de confianza del 95%
(5% nivel de significación) es mayor que el valor de tablas, se rechaza la
hipótesis nula de independencia entre los factores, aceptando por tanto que el
sexo de una persona influye en que ésta sea consumidora o no de alimentos
ecológicos.
4. TABLAS PIVOTE EN EXCEL
También llamadas tablas dinámicas, es una tabla interactiva que
contiene campos, la que se usa para resumir y analizar los datos de múltiples
filas de información de una tabla o de una lista original. Una tabla dinámica
puede actualizarse cada vez que se modifiquen los datos originales de la
misma, o sea los utilizados para su confección.
EJEMPLO:
Disponemos de una hoja de cálculo con las horas trabajadas durante una
semana por los trabajadores de una planta de procesado de fruta de una
empresa según los diferentes cargos que ocupa.
Queremos crear una tabla dinámica que muestre, para cada empleado
de la empresa, en páginas individuales, el total de horas trabajadas en cada
uno de las funciones durante la última semana.
1. Sitúate en una de las celdas que contienen los datos y ve a Datos (Menú
principal), Asistente para tablas dinámicas. Se iniciará el Asistente, que
consta de cuatro cuadros de diálogo consecutivos.
2. En el primer cuadro de diálogo (paso 1 de 4) se solicita el origen de los
datos a organizar en forma de tabla dinámica. En este caso, dejamos la
opción preseleccionada (Lista o base de datos de Microsoft Excel) y
pulsamos Siguiente.
3. El siguiente cuadro de diálogo (paso 2 de 4) permite seleccionar el rango
de celdas en el que están situados los datos a organizar.
4. En el tercer cuadro de diálogo (paso 3 de 4) se diseñará la distribución
de los campos en la tabla a crear.
En la parte derecha de la ventana se muestra un botón para cada campo
de la lista y en la parte izquierda aparece el área en donde se diseñará la tabla,
que está dividida en cuatro secciones (PÁGINA, FILA, COLUMNA y DATOS),
en las que se pueden colocar los distintos campos, pulsando sobre el botón del
campo y arrastrándolo a una sección.
A la hora de organizar los datos en nuestro ejemplo deberá tenerse en
cuenta lo siguiente:
1. El campo que se coloque en la sección PÁGINA aparecerá en forma
de una lista desplegable desde la que se podrá seleccionar aquel
elemento del que se desee mostrar el resumen. Existirá además la
posibilidad de mostrar el resumen correspondiente a cada empleado en
una hoja diferente.
2. El campo que se coloque en la sección FILA mostrará sus elementos
como encabezados o títulos de las filas en la tabla
3. El campo que se coloque en la sección COLUMNA, mostrará sus
elementos como encabezados de las columnas de la tabla
4. En cuanto al campo que se coloque en la sección DATOS, sus datos
se someterán a una determinada operación de cálculo: Suma (es la
que se ofrece por defecto cuando los datos de este campo son todos
numéricos), Contar (la que se ofrece por defecto en los demás casos),
Promedio, Mínimo, Máximo, Producto, etc.
En nuestro ejemplo, por tanto, colocaremos los campos del siguiente
modo:
¾ El campo Empleado en la sección PÁGINA
¾ El campo Proyecto en la sección FILA
¾ El campo Fecha en la sección COLUMNA
¾ El campo Horas (que contiene los valores que queremos sumar) en
la sección DATOS, aceptando la función de SUMA que Excel
propone por defecto.
Notas:
a)
La forma elegida aquí para organizar los datos sólo es una de entre
todas las posibles. Cabe organizar los datos de otra manera; no obstante,
hemos de procurar que la forma elegida sea la más clara y fácil de
interpretar.
b)
Aunque los datos de una tabla dinámica tienen el mismo aspecto que
cualquier hoja de cálculo, no se pueden introducir ni editar los datos
directamente en ella. Para modificar sus resultados deberán modificarse
forzosamente los datos a partir de los cuales se ha creado.
c)
No obstante, las tablas dinámicas no se actualizan automáticamente
cuando los datos de origen cambian, sino que, cambiados los datos
fuente es necesario seleccionar con el botón derecho del ratón una celda
cualquiera de la tabla y elegir la opción Actualizar datos del menú
contextual correspondiente.
d) Una vez creada la tabla dinámica, se puede cambiar fácilmente su
diseño arrastrando los botones sombreados con los nombres de los
campos a otras posiciones de la tabla (por esta razón se llaman
“dinámicas”, precisamente)
5. DISTRIBUCIÓN CHI-CUADRADO EN EXCEL
DISTR.CHI
Devuelve la probabilidad de una variable aleatoria continua siguiendo
una distribución chi cuadrado de una sola cola. La distribución γ2 está asociada
a una prueba γ2. Utilice la prueba γ2 para comparar los valores observados
con los esperados. Por ejemplo, un experimento genético podría estar basado
en la hipótesis de que la próxima generación de plantas presentará un conjunto
determinado de colores. Al comparar los resultados observados con los
resultados esperados, puede decidir si su hipótesis original es válida.
Sintaxis
DISTR.CHI(x;grados_de_libertad)
X es el valor al que desea evaluar la distribución.
Grados_de_libertad es el número de grados de libertad.
Observaciones
•
Si uno de los argumentos no es numérico, DISTR.CHI devuelve el valor
de error #¡VALOR!
•
Si el argumento x es negativo, DISTR.CHI devuelve el valor de error
#¡NUM!
•
Si el argumento grados_de_libertad no es un entero, se trunca.
•
Si el argumento grados_de_libertad < 1 o si grados_de_libertad ≥ 10^10,
DISTR.CHI devuelve el valor de error #¡NUM!
•
DISTR.CHI se calcula como DISTR.CHI = P(X>x), donde X es una
variable aleatoria de γ2.
PRUEBA.CHI
Devuelve la prueba de independencia. PRUEBA.CHI devuelve el valor
de la distribución chi cuadrado (γ2) para la estadística y los grados de libertad
apropiados. Las pruebas γ2 pueden utilizarse para determinar si un
experimento se ajusta a los resultados teóricos.
Sintaxis
PRUEBA.CHI(rango_actual;rango_esperado)
Rango_actual es el rango de datos que contiene observaciones para
probar frente a valores esperados.
Rango_esperado es el rango de datos que contiene la relación del
producto de los totales de filas y columnas con el total global.
Observaciones
•
Si rango_actual y rango_esperado tienen un número diferente de puntos
de datos, PRUEBA.CHI devuelve el valor de error #N/A.
•
La prueba γ2 primero calcula una estadística γ2 y después suma las
diferencias entre los valores reales y los valores esperados. La ecuación
para esta función es PRUEBA.CHI=p( X>γ2 ), donde:
y donde:
Aij = frecuencia actual en la iésima fila, jésima columna
Eij = frecuencia esperada en la iésima fila, jésima columna
r = número de filas
c = número de columnas
PRUEBA.CHI devuelve la probabilidad para una estadística γ2 y grados
de libertad, gl, donde gl = (r - 1)(c - 1).
PRUEBA.CHI.INV
Devuelve para una probabilidad dada, de una sola cola, el valor de la
variable aleatoria siguiendo una distribución chi cuadrado. Si el argumento
probabilidad = DISTR.CHI(x;...), entonces PRUEBA.CHI.INV(probabilidad,...) =
x. Utilice esta función para comparar los resultados observados con los
resultados esperados, a fin de decidir si la hipótesis original es válida.
Sintaxis
PRUEBA.CHI.INV(probabilidad;grados_de_libertad)
Probabilidad es una probabilidad asociada con la distribución chi cuadrado.
Grados_de_libertad es el número de grados de libertad.
Observaciones
•
•
•
•
Si uno de los argumentos no es numérico, PRUEBA.CHI.INV devuelve el
valor de error #¡VALOR!
Si probabilidad < 0 o si probabilidad > 1, PRUEBA.CHI.INV devuelve el
valor de error #¡NUM!
Si el argumento grados_de_libertad no es un entero, se trunca.
Si grados_de_libertad < 1 o si grados_de_libertad ≥ 10^10,
PRUEBA.CHI.INV devuelve el valor de error #¡NUM!
PRUEBA.CHI.INV usa una técnica iterativa para calcular la función. Dado
un valor de probabilidad, PRUEBA.CHI.INV itera hasta que el resultado tenga
una exactitud de ± 3x10^-7. Si PRUEBA.CHI.INV no converge después de 100
iteraciones, la función devuelve el valor de error #N/A.
6. BIBLIOGRAFÍA
I. http://64.233.183.104/search?q=cache:ieq5iAYRk9EJ:ininweb.uprm.edu/
cc/PRUEBA%2520DE%2520BONDAD%2520Y%2520AJUSTE%2520.d
oc+bondad+de+ajuste&hl=es&ct=clnk&cd=7&gl=es
II. http://cete.iespana.es/genetica/pragen10.pdf
III. http://www.wiphala.net/research/manual/statistic/chi_cuadrado.html
IV. http://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf
V. http://es.wikipedia.org/wiki/Tablas_de_contingencia
VI. http://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf
VII. http://iteso.mx/~luisfnc/practica%207.htm
Descargar