ayuda spss chi cuadrado – notas metodológicas

Anuncio
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
1/19
AYUDA SPSS
CHI CUADRADO – NOTAS METODOLÓGICAS
Rubén José Rodríguez
Octubre de 2004
INTRODUCCIÓN
Chi Cuadrado de Pearson es un estadístico no paramétrico y es una potente herramienta para
pruebas de significación de la hipótesis nula de independencia estadística entre variables
categoriales en tablas de contingencia. Para poder realizar una correcta aplicación e
interpretación de Chi Cuadrado se han desarrollado estas Notas Metodológicas que sistematizan
las consideraciones de los principales tratadistas en la materia. Se hace hincapié en los análisis
de los residuos (diferencias entre las frecuencia observadas y esperadas), específicamente en
los residuos tipificado corregidos (o residuos ajustados), dado que nos permiten interpretar con
precisión el significado de la asociación detectada, en términos del puntaje standardizado Z.
También se desarrolla formulas alternativas del Chi Cuadrado de Pearson para ciertas
condiciones de uso. Se compara la Prueba de Independencia de la Ley del producto o de la
probabilidad compuesta en el marco de la Teoría matemática de la probabilidad 'a prior' de Pierre
Simón Laplace, con los resultados de Chi Cuadrado. Se expone la Regla de Hans Zeizel para
calcular los porcentajes de celdas. Se introduce la noción de celda falsificadora de la hipótesis
nula (y las celdas verificadoras de la hipótesis alternativa o del investigador). Se realizar una
lectura de los porcentajes de celdas y se interpreta la diferencia porcentual. Se utiliza la prueba t
de diferencia de media de proporciones para muestras independientes como vía alternativa
de establecer la significación estadística de la diferencia entre porcentajes condicionales o de
celdas. Por último se expone el caso TITANIC (ver Ayuda SPSS - Chi Cuadrado_Caso TITANIC)
para ejemplificar lo desarrollado es estas notas metodológicas y brindar una definición e
interpretación del P-value. Se resume el modelo Chi Cuadrado, se formulan las hipótesis
estadísticas (nula y del investigador), se establecen las reglas de decisión de Pearson y Fisher, y
se adjunta la tabla de Chi Cuadrado para identificar el Chi Cuadrado teórico según determinados
grados de libertad y nivel de significación.
Notas I [RJR]:
a) “Razón de Verosimilitud Ji-cuadrado: La razón de verosimilitud Ji-cuadrado es
una alternativa al estadístico Ji-cuadrado (X2 = Chi cuadrado) de Pearson para
contrastar la hipótesis de independencia entre las variables. Mientras el estadístico Jicuadrado de Pearson se basa en las diferencias entre las frecuencias observadas y las
frecuencias esperadas, la razón de verosimilitud Ji-cuadrado se basa en el
cociente entre ellas…(si) el p-valor asociado a la razón de verosimilitud Ji-cuadrado
(“Significance=0,00000”) también es menor que Pα = 0,05. En consecuencia, al nivel
de significación 0,005, también se rechazará la hipótesis nula de independencia entre
las variables…podría suceder que, para un mismo nivel de significación, el p-valor
asociado a uno de estas test, fuera menor que el nivel de significación, mientras que
el p-valor asociado a la otra prueba fuera mayor, en dicho caso, debería optarse por
el más conservador (por el que presente menor p-valor)”.
Ferrán Aranaz, Magdalena (1996). SPSS para Windows. Programación y análisis
estadístico. Madrid, Editorial McGraw-Hill. 1996. ISBN 84-481-0589-3, págs. 144145.
b) El Test de la Razón de Verosimilitudes: Como alternativa al contraste Chicuadrado, S. Wiks (1935), (“The Likelihood test of independence in contingency
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
2/19
tables”, Annals of Mathematical Statistics, Nº 6, pág. 190), ha propuesto el siguiente
estadístico:
F 
G 2  2 Fi * ln  i 
 Ei 
siendo :
Fi : Frecuencias observadas (fo ), es decir, la cantidad de casos
o de valores que se han registrado para cada valor de la variable,
si es una tabla de contingencia.
E i : Frecuencias esperadas (f e ), suponiendo que la hipótesis
nula que se ensaya es verdadera.
(en general), se obtienen resultados muy similares en todos los casos y, por lo tanto,
el uso de uno u otro procedimiento sería, en principio, indiferente. Ello no obstante, el
test de la razón de verosimilitud presenta una ventaja con respecto al Chicuadrado: No requiere que todas frecuencias esperadas sean mayores de 5”
García, Roberto M. (1995). Contraste Chi-cuadrado. Buenos Aires, Cuadernos de
UADE nº 123, Departamento de Matemática y Métodos Cuantitativos, UADE, 1995,
ISBN 987-519-1-012-8, pág. 27.
c)
Chi cuadrado de la razón de verosimilitud Likelihood ratio chi square
Estadístico de bondad de ajuste similar al Chi cuadrado de Pearson. Para tamaños de
muestra grandes, los dos estadísticos son equivalentes. La ventaja del chi cuadrado
de la razón de verosimilitud es que puede subdividirse en una serie de partes
interpretables por separado que, sumadas, equivalen al total.
Diccionario Estadístico, http://www.estadistico.com/dic.html?p=122
d)
“…cuando se pide el test de Ji-Cuadrado al programa, SPSS proporciona además la
Razón de Verosimilitud (Likelihood Ratio), y el “Mantel-Haenzel Test” (Asociación
lineal por lineal). El primero de estos está basado en la teoría de máxima
verosimilitud, y su valor es dos veces la suma de las frecuencias observadas de cada
celda multiplicadas por el logaritmo neperiano de la frecuencia observada dividida
entre la frecuencia teórica. Con grandes tamaños de muestra adopta valores similares
al test Ji-Cuadrado. El “Mantel-Haenzel Test” es una medida de avocación que analiza
la relación existente entre las filas y columnas de una tabla; y se calcula multiplicando
el coeficiente de correlación de Pearson por el número de casos menos uno. Como ha
señalado Norusis, hay que tener en cuenta que únicamente debe ser utilizado con
variables ordinales y de intervalo (Norusis, 1990:131).
Díaz de Rada, Vidal (1999): Técnicas de análisis de datos para investigadores
sociales. Aplicaciones prácticas con SPSS para Windows: Madrid, Ra-Ma, 1999, p.
171. [RJR]
Nota II [RJR]:
“Análisis de los Residuos: La prueba de la Ji-cuadrada que hemos explicado
en 6.3.1. sirve para ver si la relación entre un par de variables es estadísticamente
significativa. El análisis de los residuos va a utilizar las ideas de la ji-cuadrada para
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
3/19
estudiar de una manera pormenorizada la tabla: en lugar de ver si las dos variables
están relacionadas estudiamos la relación entre cada pareja de categorías.
Básicamente, el análisis de los residuos (diferencia entre valor observado (fo),
Oij) y el valor esperado (fe), Eij) es una aplicación de la Ji-cuadrada al estudio de las
parejas de categorías: observamos las frecuencias obtenidas y las comparamos con
las esperadas…si la pareja de categorías no estuviera relacionada –el cálculo se
realiza según el procedimiento explicado en 6.3.1. De la magnitud del residuo
concluiremos sobre la relación entre las categorías…Cada casilla de la tabla
incluye el número de casos, o valores observados (COUNT), los valores esperados
(EXPECTED), la diferencia entre observados y esperados (RESID), los residuos
estandarizados (SRESID) y estos mismos residuos ajustados según procedimiento de
Haberman (ASRESID). Veamos el cálculo de cada uno de estos valores:

Los residuos (RESID):
(RESID) R ij  (Oij  Eij )
donde Oij y Eij son los valores observados y esperados, respectivamente, en casilla
definida por la fila i y la columna j”.
Sánchez Carrión, Juan Javier (1995): Manual de análisis estadístico de los datos,
2ª ed. Revisada, Madrid, Alianza Editorial, 1999, capítulo 6: Las tablas de
contingencia: relación entre variables nominales (ordinales), pp. 341-344. [RJR].
“La diferencia entre un valor observado y el valor pronosticado por el modelo. El valor
pronosticado es el número de casos que se esperarían en la casilla si no hubiera
relación entre las dos variables. Un residuo positivo indica que hay más casos en la
casilla de los que habría en ella si las variables de fila y columna fueran
independientes”.
SPSS 11.51, Ayuda contextual, Tablas de Contingencia, Chi Cuadrado, Mostrar en
las celdas, Residuos. [RJR]

Los residuos estandarizados (SRESID):
(SRESID) SR ij  (Oij  Eij ) / Eij
Estos residuos eliminan el efecto que sobre el valor del residuo puedan tener
los marginales de ambas variables”
Sánchez Carrión (1995: 341-344). [RJR]
“El residuo dividido por una estimación de su error típico. Los residuos tipificados, que
son conocidos también como los residuos de Pearson o residuos estandarizados,
tienen una media de 0 y una desviación típica de 1”.
SPSS 11.51, Ayuda contextual, Tablas de Contingencia, Chi Cuadrado, Mostrar en
las celdas, Residuos tipificados. [RJR]

Los residuos ajustados (ASRESID):
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
4/19
(SRESID) AR ij  SRij / Vij
donde Vij es la varianza estimada de SRij ,de valor igual a:
Vij  1  (Oi. / n)  1  (O. j / n) 
siendo Oi. y O.j son las frecuencias observadas, respectivamente, en la fila i y la
columna j, y n el tamaño de la muestra…Cuanto mayor sea el valor absoluto del
residuo ajustado, mayor será la relación entre la pareja de categorías”.
Sánchez Carrión (1995: 341-344). [RJR]
“El residuo de una casilla (valor observado menos valor pronosticado) dividido por
una estimación de su error típico. El residuo tipificado resultante viene expresado en
unidades de desviación típica, por encima o por debajo de la media”.
SPSS 15.0, Ayuda contextual, Tablas de Contingencia, Chi Cuadrado, Mostrar en
las celdas, Residuos tipificados corregidos [RJR].
“Los Residuos tipificados corregidos de Haberman (1973). Estos residuos se
distribuyen normalmente con media 0 y desviación típica 1. Se calculan dividiendo el
residuo de cada casilla por su Error Típico (ES o SE), que en tablas bidimensionales se
obtienen como la raíz cuadrada de: mij (1-ni) (1-nj)/n2 .
La gran utilidad de los Residuos tipificados corregidos radica en que, puesto que
se distribuye normalmente con media cero y desviación típica uno, N (0,1), son
fácilmente interpretables: utilizando un nivel de confianza de 0,95, podemos afirmar
que los residuos mayores de 1,96 delatan casillas con más casos de los que debería
haber en esa casilla si las variables estudiadas fueran independientes; mientras que
los residuos menores de -1,96 delatan casillas con menos casos de los que cabría
esperar bajo la condición de independencia.
En tablas de contingencia con variables nominales, una vez que hemos establecido
que entre dos variables existe asociación significativa (mediante el estadístico Chicuadrado) y que hemos cuantificado esa asociación con algún índice de asociación
(Coeficiente de Contingencia, CC), los residuos tipificados corregidos constituyen la
mejor herramienta disponible para poder interpretar con precisión el significado de la
asociación detectada…Los distintos porcentajes pueden ayudarnos a intuir posibles
pautas de asociación, pero son los Residuos tipificados corregidos los que nos
permite interpretar de forma precisa la relación existente entre las
variables…Basta con fijarnos en aquellos (puntajes z) que son mayores que
+1,96 o menores que -1,96.”. [Ver ejemplo Tabla 5 y 6 en Nota IV d)]
Guía 10.0 SPSS para el Análisis de Datos, capítulo 12: Análisis de variables
categóricas, p. 39 y 41. (En línea):
http://www.uca.es/serv/sai/manuales/spss/Pantalla/12contin.pdf [Consulta: 10 de
octubre de 2004]
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
5/19
Nota III: [RJR]
“Prueba Estadística de Fisher: Prueba estadística ideada para el caso de tablas
dicotómicas en las que no se pueda aplicar el test X2 por ser la frecuencia o
frecuencias de alguna de sus casillas más bajas que lo permitido por dicho test, es
decir, inferiores a cinco.
Fórmula:
P=
(a+b)!(c+d)!(a+c)!(b+d)!
N! a! b! c! d!
Tiene el inconveniente de la dificultad de su cálculo por el número de factoriales (!)
que comprende la fórmula (El paquete estadístico SPSS calcula automáticamente esta
prueba)”.
Sierra Bravo, Restituto (1991): Diccionario Práctico de Estadística, Madrid,
Editorial Paraninfo, 1991, p. 379. [RJR]
“En caso de tablas de 2 X 2 (las dos variables dicotómicas o dicotomizadas mediante
un punto de corte), p-value asociado al estadístico Ji-cuadrado de Pearson puede ser
poco preciso. En el caso de que el número total de observaciones en la muestra sea
grande, una alternativa al estadístico Ji-cuadrado de Pearson, que incorpora una
corrección por continuidad y, por lo tanto, un p-value más preciso, es Jicuadrado por Corrección de Continuidad de Yates puede ser poco preciso. En el
caso de que el número total de observaciones en la muestra sea grande, una
alternativa al estadístico. Si el tamaño muestral es pequeño, mediante la prueba
de la probabilidad exacta de Fisher, se puede calcular la probabilidad exacta de
observar un conjunto particular de frecuencias en una tabla 2 X 2. El propio
programa SPSS optará por una u otra de las pruebas en función del tamaño
muestral y de las frecuencias esperadas en las celdas”
Ferrán Aranaz, Magdalena (1996): SPSS para Windows. Programación y Análisis
Estadístico, Madrid, McGraw-Hill, 1996, capítulo 7: Tablas de contingencia y medidas
de asociación, p. 145. [RJR]
Nota IV: [RJR]
Pruebas de independencia:
Es necesario sistematizar las distintas opciones estadístico-metodológicas de analizar la
independencia estadística entre dos variables, dado que en la bibliografía según sea la disciplina
que trate –estadística o metodología- no desarrollan de modo exhaustivo los diferentes modos
alternativos de analizar o probar la existencia o no de independencia estadística: Existen cinco
modos alternativos para analizar la independencia estadística:
a) Una manera es calculando la proporción entre la frecuencia condicional de una celda y la
frecuencia marginal de columna, comparándola con la proporción entre la
correspondiente frecuencia marginal, de esa fila, y la frecuencia total. Si se da una
igualdad entre ambas proporciones, se comprueba que ambas variables son independientes. Es
decir, que la distribución condición es igual a la distribución marginal, o lo que es lo mismo, la
distribución bivariada se comporta del mismo modo que la distribución univariada. Por lo que
la conclusión es que la introducción de la segunda variable en las columnas no afecta, no
modifica las distribuciones condicionales. En caso contrario, que se de una desigualdad entre
las proporciones, se sostiene la No independencia entre las categorías, y generalizando, entre
las variables comparadas. Obsérvese que no se afirma la dependencia entre las variables, sino
la No independencia entre las mismas.
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
6/19
b) Otro modo de comprobar lo mismo es recurrir a la Prueba de independencia, en el marco de la
Teoría de Clásica de la Probabilidad formulada por Jean Batiste Laplace, donde se compara la
probabilidad simple de un evento con su probabilidad condicional.
En las siguientes tablas se dan simbólicamente, y se expresan analíticamente ambos casos.
TABLA I
Variable X
Variable Y
0
1
Total
1
a
b
a+b
0
c
d
c+d
Total
a+c
b+d
n
[Elaboración propia][RJR]
a) Igualdad de proporciones entre distribuciones condicionales y marginales:
SI:
d
cd

 Independencia
bd
n
a) Un segundo método de la cálculo lo brinda la Prueba de independencia de la 2ª Ley de la
Multiplicación de Laplace para sucesos simultáneos dependientes:
P(A)=P A/B  Independencia
(Se lee: Si la P(A) es igual a su Probabilidad Condicional, es decir, la P(A sabiendo que se ha
dado B), se concluye que ambas categorías son independientes)
Aplicando ambos criterios a una tabla empírica, para averiguar si el Sexo es independiente o
no respecto del Estado Civil, tenemos:
TABLA 2
Sexo
Estado Civil
Hombre
Mujer
Total
Solteros
8.000
5.000
13.000
Casados
10.000
12.000
22.000
1.000
4.000
5.000
21.000
40.000
Viudos
Total
19.000
Sierra Bravo (1991: 365)
PA/B
P(A)
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
7/19
b) La proporción entre la distribución condicional comparada con la distribución marginal,
del ejemplo, da:
f (viudo)/f (total) ≠ f (viudo y mujer)/f (mujer)
5.000/40.000 ≠ 4.000/21.000
0,125 ≠ 0,191  No independencia
La desigualdad nos confirma que el hecho de ser mujer No es independiente del Estado Civil que
se posee. Se pueden comparar las proporciones de cada una de las celdas y se obtendrá la misma
conclusión para cada par de categorías. Por lo que podemos generalizar las conclusiones para el
conjunto del cuadro bivariado: el Sexo No es independiente del Estado Civil.
b) Si P(A) es la Probabilidad Simple de que una persona sea “Viudo”, es decir, la Probabilidad de
ser Viudo, es igual a la cantidad de Viudos divido el Total de personas, es decir:
P (Viudo) = 5.000/40.000= 0,125
Y P (B) la Probabilidad Simple de que una persona sea “Mujer”, es igual:
P (Mujer)= 21.000/40.000= 0,525
Pero, P(A/B) es la Probabilidad Condicional de “Ser Viudo sabiendo que es Mujer”, es decir, la
Probabilidad de ser Viudo condicionado a que sea Mujer, es igual a:
P (Viudo/Mujer)= 4.000/21.000= 0,191
Comparando los resultados, comprobamos que ambas probabilidades son distintas:
P (Viudo) ≠ P (Viudo/Mujer)
0,125 ≠ 0,191  No independencia
Obsérvese que analíticamente, la expresión
P (Viudo/Mujer)= f (viudo y mujer)/f (mujer),
con lo cual se demuestra que ambos criterios (a) y (b) de Prueba de Independencia son equivalente.
c) Un tercer modo alternativo de análisis empírico de un cuadro bivariado es convertir las
frecuencias absolutas en frecuencias relativas, es decir en porcentajes, y calcular la Diferencia
Porcentual (d%). Para ello debemos tener en cuenta la Regla de Hans Zeisel 1: Porcentuar en el
1
Galtung, Johan (1966): Teoría y métodos de la investigación social, 2ª ed., Buenos Aires, Eudeba, Tomo
II, 1969, p. 234: “La regla es muy simple: sacar porcentajes tomando siempre como base los valores de lo
que se considera variable independiente en el modelo subyacente”.
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
8/19
sentido de la variable independiente, -tomando como base el marginal de esta última- y comparar
los porcentajes en sentido opuesto. También debemos observar la forma de la distribución
condicional relativa (distribución diagonal o rinconal), e identificar las celdas verificadoras
(circuladas en rojo en el ejemplo) y las celdas falsificadoras de la hipótesis que subyace al cuadro.
En nuestro ejemplo:
TABLA 3
Sexo (%)
Estado Civil
Hombre
Mujer
%
d%
Solteros
42,1
23,8
32,5
18,3
Casados
55,6
57,1
55,0
-1,5
5,3
19,1
12,5
-13,8
100,0
∑: 0
Viudos
Total
100,0
100,0
Obsérvese que los porcentajes resaltados en azul, coinciden con las proporciones y probabilidades
obtenidas mediante los criterios alternativos (a) y (b). La Diferencia porcentual, nos indica la
fuerza o intensidad relativa de la asociación entre las variables, y no solamente es una Prueba
de Independencia. Si la d% = 0 indica independencia estadística, o asociación nula, y si la d% =
100, estaría señalando máxima asociación. En nuestro ejemplo, (d% = -13,8) indica leve
asociación. Hubiese existido asociación nula –según los subíndices de la TABLA 1- si los
porcentajes hubiesen sido iguales:
p 00  p01
p viudo y hombre = p viudo y mujer
Y hubiese existido algún grado de asociación si los porcentajes hubiesen sido:
p 00  p 01
p viudo y hombre  p viudo y mujer
No obstante que, la diferencia porcentual como medida de asociación, actúa como medida de
influencia de una variable X sobre otra Y, debe ser interpretada mediante la prueba t de
diferencia de medias de proporciones para muestras independientes (Galtung, 1969, II: 241)
para medir la significación estadística del tamaño de la diferencia, pues una d% = 10%, puede ser
tanto la diferencia entre 95-85% como entre 25-15%. Si bien en ambos casos la d% es igual al
10%. En el primer caso la diferencia del 10% en proporción al porcentaje menor representa un
incremento porcentual (∆%) del 11,76%:
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
9/19
 95  85 
%  100  
 11, 76%
 85 
Mientras que en el segundo caso la diferencia del 10% en proporción al 15% representa un
incremento (∆%) del 66,67%. En este sentido, se puede opinar que es más significativo este
segundo caso que el primero.
 25  15 
%  100  
 66, 67%
 15 
d) Un cuarto modo es, justamente, la prueba t de diferencias de proporciones de
dos muestras independientes, que permite verificar diferencias entre proporciones
o porcentajes (d%) de dos muestra (grandes) independientes. Los componentes del
modelo y los pasos para el cálculo del estadístico de prueba, son:
 Modelo estadístico: Distribución de diferencias de proporciones muestrales,
con media igual a la Media de la distribución diferencias de proporciones
muestrales y con Desvío Standard igual al Error Estándar de las diferencias
de proporciones muestrales. En símbolos:
D  0
D 
p1  q1 p2  q2

n1
n2
= ESD
 Hipótesis estadísticas: La hipótesis nula plantea la igualdad de las
proporciones en las dos muestras, o lo que es lo mismo, que su diferencia es igual
a 0. Mientras que la hipótesis alternativa, la hipótesis del investigador, plantea
que las proporciones muestrales son distintas, es decir, que sus diferencias son
distintas de 0, divergiendo del mero azar. Simbólicamente:
H 0  p1  p2  D  0
H1  p1  p2  0; o D  0
 Estadístico de prueba:
Caso I: t de Student para diferencias de proporciones muestrales
independientes (muestras grandes).
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
t p p 
1
2
10/19
p1  p2
d%

p1  q1 p2  q2  D

n1
n2
 Estadístico de prueba:
Caso II: t de Student diferencias de medias de muestras independientes
(muestras grandes).
t X1  X 2 
X
1
 X 2   D
2
1
s
n1
2

s2
n2

DX X
1
2
D
 Cálculo del estadístico de prueba: Si aplicamos la prueba t para el caso II, al
Fichero Ventas-Beneficios-1994-95 X 83 empresas2 para poner a prueba la
hipótesis nula de la no existencia de diferencia entre las medias de Beneficios
antes de impuestos en l995 (bai95) entre empresas del sector servicios e
industriales. Para ello, debemos dar los siguientes pasos:
i. Recodificar la variable Sector (sector) asignando los viejos códigos del sector de
actividad de la variable sector a la nueva variable dicotomizada sectorb,
categorizada en Sector Servicios (1) y Sector Industrial (2). Dato que la prueba t
compara dos medias en base a una variable de agrupación dicotómica.
ii. Luego se abre la cuadro de diálogo: Comparar medias>Prueba T para
muestras independientes…, del menú Analizar.
iii. En dicho cuadro seleccionamos la variables bai95 y la pasamos a la ventana
Contrastar variables (Test Variable), en Variables de agrupación,
seleccionamos la nueva variable que recodifica los sectores: sectorb.
/h
2
Visauta Vinacua, Bienvenido (1997): Análisis estadístico con SPSS para Windows (6.1), Madrid,
McGraw-Hill, 1997, capítulo 4: Test de hipótesis: Comparación de medias, pp. 111-114.
11/19
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
iv. Luego se definen los grupos: Usar valores especificados O Punto de corte.
Oprimir Continuar para volver a la ventana original o primaria. Y luego Aceptar.
SPSS ejecuta el comando T-Test y arroja dos tablas con los resultados que se
observan en el Visor de SPSS:
TABLA 4
Estadísticos de grupo
Sector-ServicioIndustria
Beneficios antes de
impuestos (1995)
N
Media
Desviación típ.
Error típ. de la media
Sector Servicios
39
23.068,74
50.154,834
8.031,201
Sector Industrial
36
10.774,83
32.247,476
5.374,579
TABLA 5
Prueba de muestras independientes
Prueba de
Levene para la
igualdad de
varianzas
F
Beneficios
antes de
impuestos
(1995)
Sig.
Prueba T para la igualdad de medias
t
Sig.(
bilate
ral)
gl
Diferencia
de medias
Error típ.
de la
diferencia
95% Intervalo de confianza
para la diferencia
Inferior
Se han
asumido
varianzas
iguales
No se han
asumido
varianzas
iguales
2,356
,129
Superior
1,251
73
,215
12.293,91
9.827,639
7.292,546
31.880,367
1,272
65,413
,208
12.293,91
9.663,658
7.003,436
31.591,256
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
12/19
vi. Luego para visualizar los resultados reemplazamos en la fórmula del
estadístico t los datos obtenidos en el output y confirmamos el t-value:
t X1  X 2 
X
t X1  X 2 
1
 X 2   D
2
1
s
n1
2

s2
n2

DX X
1
2
D
12.293,91
 1, 251
9.827,639
vii. Por último, tomamos la decisión estadística con relación a la hipótesis nula.
Dado que aplicando la Regla de Decisión de Fisher, tenemos que:
Si P-Value < P
Pero:
Si 0,215 > 0,05
H0 y H1
H0 y H1
y concluimos que no hay diferencias en los Beneficios antes de impuestos en
1995, en las 83 empresas entre los Sectores Servicios e Industria.
d) Por ultimo, una quinta forma de probar la hipótesis de independencia es
mediante el estadístico Chi Cuadrado.
En la tabla 6: Destino de sobrevivientes al hundimiento del TITANIC by
Sexo, ponemos a prueba la hipótesis nula de que no hay diferencias entre los
hombres y mujeres que perecieron. En cambio el investigador sostendrá que en
los datos se puede poner a prueba la hipótesis de que en el siniestro del TITANIC
se evidenció una vez más la aplicación del principio marinero “Primero las mujeres
y los niños y segundo los hombres”. Por lo que esperaríamos hallar en la celda
verificadora (rayado oblicuo en rojo) ‘mujeres/niños’ y ‘sobrevieron’ una
proporción (p) mayor que en la celda ‘hombre’ y ‘sobrevivieron’. Observemos qué
decisión nos indica tomar Chi Cuadrado respecto de la hipótesis nula.
H 0  phombres y sobrevivieron  pmujeres y sobrevivieron  d %  0
H1  phombres y sobrevivieron  pmujeres y sobrevivieron  d %  0
13/19
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
TABLA 6
Tabla de contingencia: Destino en el hundimiento del TITANIC según el Sexo del pasajero
Sexo del pasajero
Hombres
Recuento
Destino en el
hundimiento
Se salvaron
163
800
82,2%
32,0%
62,3%
154,5
-154,5
Residuos
tipificados
7,0
-8,7
Residuos
corregidos
18,2
-18,2
Recuento
138
347
485
% de Sexo de
pasajero
17,8%
68,0%
37,7%
Residuo
-154,5
154,5
-9,0
11,1
-18,2
18,2
775
510
1285
100,0%
100,0%
100,0%
Residuo
Residuos
tipificados
Residuos
corregidos
Total
Total
637
% de Sexo de
pasajero
Perecieron
MujeresNiños
Recuento
% de Sexo de
pasajero
d%
+50,2%
-50,2%
Adaptado y reelaborado de Sanchez Carrión (1999: 331-333) (S.S. Titanic, White Star Line, 14
de abril de 1912)[RJR]
14/19
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
TABLA 7
Pruebas de chi-cuadrado
Valor
Sig. asintótica
(bilateral)
gl
P-value
Chi-cuadrado de Pearson
330,307(b)
1
,000
Corrección por continuidad
de Yates (a)
328,172
1
,000
Razón de verosimilitud
338,182
1
,000
Sig. exacta
(bilateral)
Estadístico exacto de
Fisher
,000
Asociación lineal por lineal
N de casos válidos
Sig. exacta
(unilateral)
330,050
1
,000
,000
1285
a Calculado sólo para una tabla de 2x2.
b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es
192,49.
TABLA 8
Medidas simétricas
Nominal por nominal
Valor
Sig.
aproximada
Phi
,507
,000
V de Cramer
,507
,000
Coeficiente de Contingencia
,452
,000
N de casos válidos
1285
a Asumiendo la hipótesis alternativa.
b Empleando el error típico asintótico basado en la hipótesis nula.
Las conclusiones que se pueden obtener a partir de los resultados de las distintas
medias, pruebas y coeficientes, son:
La diferencia porcentual (d% = 82,2-32,0=50,2%) actúa como medida de la
influencia que tuvo el sexo en la suerte corrida por los pasajeros.
Se confirma una distribución diagonal de las frecuencias condicionales relativas,
efectivamente, la celda verificadora esperada según el principio marinero, confirma
que el porcentaje de mujeres/niños que sobrevivieron es 3,8 veces más (68,0/17,8)
que los hombres que se salvaron. Siendo importante esta magnitud de la diferencia
porcentual.
Los Residuos tipificados corregidos (± 18,2) se ubican a 9,2 Desvíos Standard
respecto del valor crítico ±1,96 esperado por azar (18,2/1,96= 9,2), con un intervalo
de confianza de .95. Un tal desvío no puede ser atribuido al azar sino que cabe
esperar que para producirse una tal diferencia es probable (95 veces de cada 100)
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
15/19
que haya operado una decisión y una voluntad en el alto mando del S.S. TITANIC, de
hacer cumplir el principio marinero de salvar a las mujeres y niños primero.
El valor del Chi cuadrado calculado o empírico (Chi-square value) es de una magnitud
muy grande (330,307) y acusa una Significación asintótica bilateral de .000. Esta
cifra es una probabilidad y significa = P-Value. Cuando esta probabilidad es inferior a
0,05, (P: Nivel de Significación = 5%) se suele rechazar la hipótesis de independencia
Ho de no relación entre las variables –según la Regla de decisión de Fisher-, para
aceptar la hipótesis alternativa H1, que indica que la relación entre las variables existe
y es estadísticamente significativa y no se debe al azar. Se puede concluir que el
capitán del S. S. Titanic hizo honor a la armada británica aplicando con firmeza el
principio marinero que dice: Primero las mujeres y los niños, y luego los hombres,
permitiendo que sobrevivan más mujeres que hombres, más allá del azar, que es lo
sostenido por la hipótesis del investigador. En símbolos:
Resumen del modelo
Chi square value: 330, 337
Chi Cuadrado-Corrección por continuidad de Yates: 328,172
P : 0,05 (Nivel de significación)
P-value: 0,000 (Significación asintótica bilateral)
Grados de Libertad: 1 [df: (c-1)*(f-1)]
Chi Cuadrado de Tabla: 3,841 (Ver Tabla de Chi Cuadrado para 1 gl y P:
0,05)
Regla de decisión de Fisher:
Si P-Value < P  H0 y H1
Si 0,000 < 0,05  H0 y H1
Regla de decisión de Pearson:
Si X 2 calculado > X 2 tabla  H 0 H 1
Si 300,337 > 3,841  H 0 H1
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICA
16/19
Distribución de la Curva de Chi-Cuadrado:
Pα  0, 05
Rechazo H 0
Aceptacion H0
P-value= 0,000
Zona de Riesgo
X 2 teo rico  X 2 1;0 , 0 5   3 ,8 4 1
X 2 calculado  Chi  square value  300,337
[Elaboración Propia. RJR]
 Finalmente, la magnitud de los coeficientes de asociación indican,
efectivamente, una relación entre ambas variables del orden de 0,452 y 0,507.
Expresando una mediana fuerza de asociación teniendo en cuenta que estos
coeficientes varían entre 0 y 1.
CALCULADORA CHI-CUADRADO3
CORRECCION DE CONTINUIDAD DE YATES
A
B
SUM
I
637
163
800
II
138
347
485
SUM
775
510
1285
Chi-square value (X):
328.172423
Difference (p<0.05)?
yes
Difference (p<0.01)?
yes
[RJR]
3
Calculadora Chi Cuadrado-Corrección por continuidad de Yates. (En línea): Disponible:
http://members.tripod.com/~gineco/CHISQUAR.HTM [Consulta: 11 de octubre de 2004]
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICAS
17/19
Table: Chi-Square Probabilities
The areas given across the top are the areas to the right of the critical value. To look up an area on the left, subtract it from one, and then look it up (ie: 0.05 on the left is 0.95
on the right)
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICAS
df
0.995
0.99
0.975
0.95
0.90
0.10
0.05
18/19
0.025
0.01
0.005
1
---
---
0.001
0.004
0.016
2.706
3.841
5.024
6.635
7.879
2
0.010
0.020
0.051
0.103
0.211
4.605
5.991
7.378
9.210
10.597
3
0.072
0.115
0.216
0.352
0.584
6.251
7.815
9.348
11.345
12.838
4
0.207
0.297
0.484
0.711
1.064
7.779
9.488
11.143
13.277
14.860
5
0.412
0.554
0.831
1.145
1.610
9.236
11.070
12.833
15.086
16.750
6
0.676
0.872
1.237
1.635
2.204
10.645
12.592
14.449
16.812
18.548
7
0.989
1.239
1.690
2.167
2.833
12.017
14.067
16.013
18.475
20.278
8
1.344
1.646
2.180
2.733
3.490
13.362
15.507
17.535
20.090
21.955
9
1.735
2.088
2.700
3.325
4.168
14.684
16.919
19.023
21.666
23.589
10
2.156
2.558
3.247
3.940
4.865
15.987
18.307
20.483
23.209
25.188
11
2.603
3.053
3.816
4.575
5.578
17.275
19.675
21.920
24.725
26.757
12
3.074
3.571
4.404
5.226
6.304
18.549
21.026
23.337
26.217
28.300
13
3.565
4.107
5.009
5.892
7.042
19.812
22.362
24.736
27.688
29.819
14
4.075
4.660
5.629
6.571
7.790
21.064
23.685
26.119
29.141
31.319
15
4.601
5.229
6.262
7.261
8.547
22.307
24.996
27.488
30.578
32.801
16
5.142
5.812
6.908
7.962
9.312
23.542
26.296
28.845
32.000
34.267
17
5.697
6.408
7.564
8.672
10.085
24.769
27.587
30.191
33.409
35.718
18
6.265
7.015
8.231
9.390
10.865
25.989
28.869
31.526
34.805
37.156
19
6.844
7.633
8.907
10.117
11.651
27.204
30.144
32.852
36.191
38.582
20
7.434
8.260
9.591
10.851
12.443
28.412
31.410
34.170
37.566
39.997
21
8.034
8.897
10.283
11.591
13.240
29.615
32.671
35.479
38.932
41.401
22
8.643
9.542
10.982
12.338
14.041
30.813
33.924
36.781
40.289
42.796
23
9.260
10.196
11.689
13.091
14.848
32.007
35.172
38.076
41.638
44.181
24
9.886
10.856
12.401
13.848
15.659
33.196
36.415
39.364
42.980
45.559
25
10.520
11.524
13.120
14.611
16.473
34.382
37.652
40.646
44.314
46.928
26
11.160
12.198
13.844
15.379
17.292
35.563
38.885
41.923
45.642
48.290
AYUDA SPSS - CHI CUADRADO-NOTAS METODOLÓGICAS
19/19
27
11.808
12.879
14.573
16.151
18.114
36.741
40.113
43.195
46.963
49.645
28
12.461
13.565
15.308
16.928
18.939
37.916
41.337
44.461
48.278
50.993
29
13.121
14.256
16.047
17.708
19.768
39.087
42.557
45.722
49.588
52.336
30
13.787
14.953
16.791
18.493
20.599
40.256
43.773
46.979
50.892
53.672
40
20.707
22.164
24.433
26.509
29.051
51.805
55.758
59.342
63.691
66.766
50
27.991
29.707
32.357
34.764
37.689
63.167
67.505
71.420
76.154
79.490
60
35.534
37.485
40.482
43.188
46.459
74.397
79.082
83.298
88.379
91.952
70
43.275
45.442
48.758
51.739
55.329
85.527
90.531
95.023
100.425
104.215
80
51.172
53.540
57.153
60.391
64.278
96.578
101.879
106.629
112.329
116.321
124.116
128.299
90
59.196
61.754
65.647
69.126
73.291
107.565
113.145
118.136
100
67.328
70.065
74.222
77.929
82.358
118.498
124.342
129.5
Descargar