Document

Anuncio
ANALISIS CUALITATIVO
Bibliografía:
-
Ruiz-Maya Perez, L.; y otros “ Metodología estadística para el análisis de
datos cualitativos” CIS. 1990
-
Manzano Arrondo, V.; Inferencia estadística. Aplicaciones con SPSS/PC.
Ra-ma. 1995
-
Siegel, S.: “Estadística no paramétrica aplicada a las ciencias de la
conducta” Trillas, México, 1970
OBSERVACION
ANALIS NO PARAMETRICO
TABLAS DE CONTINGENCIA 2X2
En las tablas mas sencillas (2x2) podemos disponer los datos de la
siguiente manera:
A\B
1
2
1
a
c
a+c
2
b
d
b+d
a+b
c+d
N
INDEPENDENCIA EN TABLAS 2X2:
χ2
H0: ES CIERTA
X2 =
α
N (a ⋅ d − b ⋅ c )2
(a + b)(a + c )(b + d )(c + d )
Eˆ ij =
n i. ⋅ n . j
N
X
2
=
r
∑
i =1
(n
i
− Eˆ i
Eˆ
)
2
i
Si X2< C aceptamos la Ho
Si X2> C rechazamos la Ho
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
CORRELACION DE YATES.Hasta ahora estamos realizando el estudio de independencia a través de
una Chi-cuadrado con 1 g.l. como una aproximación a la distribución de
probabilidad discreta de las frecuencias observadas.
Restar 0’5 a las desviaciones
positivas entre las F.Obs. y las F.
Esp.
Para mejorar esta distribución
Sumar 0’5 en el caso de que sean
negativas
N ( a ⋅ d − b ⋅ c − 0'5 N )
2
X c2 =
(a + b)(c + d )(a + c )(b + d )
La utilización de la corrección de continuidad de Yates es necesaria cuando
trabajamos en tablas 2x2 , de no ser así se utiliza cuando la muestra es pequeña.
TEST EXACTO DE FISHER
Uno de los supuestos consistía en que las estimaciones de las frecuencias
esperadas no debían ser excesivamente pequeñas puesto en caso contrario la
aproximación podía no ser aceptable.
En tablas de 2x2 se considera
exc.pequeña cuando las F.Esp. <5
TEST EXACTO DE FISHER
Se caracteriza por utilizar no una aproximación de probabilidad
sino la distribución de probabilidad exacta de la configuración de
las fre. observadas
Como para totales marginales fijos, la distribución de probabilidad de las
F.Ob. sigue una ley hipergeometrica, en el caso de que las dos variables
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
observadas sean independientes la probabilidad P de obtener cualquier
disposición de las nij viene dada por:
P =
(a + b )!(c + d )! (a + c )!(b + d )!
a ! b ! c! d ! N !
Probabilidad de la configuración de las F. Obtenidas
Probabilidad de otras configuraciones que sugieran
mayor asociación entre las variables
¿En que sentido entendemos que una configuración de
frecuencias sugiere mayor asociación entre las variables?
Decimos que una configuración de frecuencias sugiere mayor
asociación que otra cuando se acentúa la tendencia a la aparición
conjunta de los niveles de las variables
COMBINACION DE TABLAS
1º METODO DE AGRUPACION.Consiste en combinar o agrupar la información procedente de G tablas 2x2
en una sola para lo cual el estadístico χ se calcula de la manera habitual.
2
Condiciones:
•
•
Debe existir semejanza de las proporciones
correspondientes a las G tablas
No debe ser utilizado si las proporciones varían
tabla a tabla
2º METODO DE LA SUMA DE ESTADISTICOS INDIVIDUALES
Consiste en calcular el valor del estadístico X 2 para cada tabla y sumar
todos ellos. Con lo que el estadístico suma se distribuirá como una Chi-cuadrado
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
con G g.l. aplicando el contraste y las reglas de decisión como lo hacíamos
anteriormente.
•
No tiene en cuenta la dirección de las diferencias
entre las proporciones que puedan revelar las
tablas
3º METODO
X2
Condicionantes:
•
Que los tamaños de las muestras individuales no difieran
notablemente
Que los valores de las proporciones estén comprendidos
entre: 0’2 y 0’8
•
Bajo estos condicionantes este método consiste en sumar las
raíces cuadradas de los estadísticos X2 de cada tabla, teniendo en
cta. Los signos de las diferencias entre las proporciones.
Bajo la Ho : de independencia entre las dos variables el estadístico X para
cualquier tabla 2x2 se distribuye aproximadamente como un N(0;1) y por tanto la
suma de X i se distribuye como una N( 0;G) siendo G el numero de tablas.
Para contrastar la Ho :
•
•
Existe independencia entre las variables
No existe diferencia entre las proporciones
G
W=
∑X
i
i =1
G
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
METODO DE COCHRAN.Se utiliza cuando no se cumplen las condiciones anteriormente expuestas.
Por lo que debe utilizarse cuando tenemos tamaños muéstrales muy dispares.
El M.Cochran introduce un criterio de ponderación para contrarrestar los
resultados de las tablas contempladas individualmente.
Cochran sugirió un Test basado en una media ponderada de las diferencias
entre las proporciones, este estadístico es:
G
Y =
∑W
i =1
G
∑W
i =1
i
i
⋅di
⋅ Pi ⋅ Q i
Se distribuye aproximadamente como una N(0;1) bajo la
hipótesis de que las proporciones son iguales para todas las
tablas.
G = nº de tablas
n ⋅n
Wi = i1 i 2
ni1 + ni2
(n P + ni2 Pi 2 )
Pi = i1 i1
ni1 + ni 2
Qi = 1 − Pi
d i = Pi1 − Pi2
ni1 y ni2 tamaños muéstrales de los grupos 1 y 2 respectivamente
Pi1 y Pi2 Proporciones en las muestras 1 y 2 respectivamente
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
ASOCIACION EN TABLAS 2X2
Existencia de Asociación
Si Rechazamos Ho
¿Cuál es la intensidad de la asociación entre los
factores implicados?
¿Cuál es la dirección de tal asociación?
Asociación Perfecta: Diremos que en una tabla existe A.P. entre los
dos factores cuando al menos uno de los niveles de los factores queda
determinado por uno de los niveles del otro factor. (Cuando existe
algún cero en la tabla)
Estricta
A\B
Niv. 1
Niv. 2
Cuando dado un nivel de uno de los factores
queda inmediatamente determinado el nivel
del otro factor
Niv 1
20
0
20
Niv. 2
0
30
30
Implícita de Tipo 2
20
30
50
•
•
A\B
Niv. 1
Niv. 2
Niv 1
20
0
20
Niv. 2
30
40
70
50
40
90
•
•
n11 ó n22 =0
n12 ó n21 =0
Si tomamos un nivel de u factor
queda determinado el nivel del otro
factor
Si tomamos el otro nivel no queda
determinado el restante
Necesariamente una de las
frecuencias observadas es cero.
n11 ó n12 ó n21 ó n22 =0
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
Asociación Positiva: Existe asociación positiva cuando el nivel 1 del factor A
está asociado con el nivel 1 del factor B y cuando el nivel 2 de dicho factor A
está asociado con el nivel 2 del factor B.
Asociación Negativa: Cuando el nivel 1 del factor A esté asociado con el
nivel 2 del factor B y cuando el nivel 2 del factor A esté asociado con el 1 del
factor B.
MEDIDA DE ASOCIACION GENERAL: LA Q DE YULE
Decimos que existe independencia entre los dos factores cuando las frecuencias
observadas son iguales a las esperadas. Por tanto los residuos nos pueden dar
una primera medida del grado de asociación existente entre los factores, así como
el sentido de dicha asociación.
A\B
Niv. 1
Niv. 2
Niv. 1
n11
n21
n.1
Niv. 2
n12
n22
n.2
Las diferencias Dij entre nij y Eij se
expresan, bajo la hipótesis de
independencia
n1.
n2.
N
n ⋅n
n ⋅ n − n12 ⋅ n 21
D11 = n 11 − Eˆ11 = n11 − . 1 1 . = 22 11
N
N
n ⋅n
n ⋅ n − n 11 ⋅ n 22
D12 = n 12 − Eˆ12 = n12 − .1 2 . = 12 21
N
N
n
⋅
n
n
⋅
n
− n11 ⋅ n 22
D 21 = n 21 − Eˆ 21 = n 21 − 2. . 1 = 12 21
N
N
n ⋅n
n ⋅ n − n12 ⋅ n 21
D 22 = n 22 − Eˆ 22 = n 22 − 2 . . 2 = 22 11
N
N
Donde podemos observar que:
2
2
∑∑D
i = 1 j =1
ij
=
2
2
∑∑n
i =1 j =1
2
ij
−∑
2
∑ Eˆ
i = 1 j =1
ij
=0
Y que:
D 11 = D 12 = D 21 = D 22
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
A partir de las Dij
•
•
•
Si existe independencia entre los factores se verificara que
D11 = D22 =0 y por tanto D12 = D21 =0
Si existe asociación positiva entre los factores se verificara
que D11 = D22 >0 y por tanto D12 = D21 <0
Si existe asociación negativa entre los factores se verificara
que D11 = D22 <0 y por tanto D12 = D21 >0
Dado que D11 = D22 =0 y D12 = D21 y que además la suma de las diferencias Dij
es cero podemos decir que:
•
•
•
Si D11 = 0
Si D 11 > 0
Si D 11 < 0
Definida la dirección
INDEPENDENCIA
ASOCIACION POSITIVA
ASOCIACION NEGATIVA
No esta definida la intensidad
La Q de Yule
Qˆ =
N ⋅ D11
n ⋅n − n ⋅n
= 11 22 12 21
n11 ⋅ n22 + n12 ⋅ n21 n11 ⋅ n22 + n12 ⋅ n21
•
•
•
Si Q = 0 INDEPENDENCIA
Si Q > 0 ASOCIACION POSITIVA
Si Q < 0 ASOCIACION NEGATIVA
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
PROPIEDADES DE LA Q DE YULE:
•
•
•
Alcanza sus valores extremos entre +1 y -1 bajo condición de
asociación perfecta
Es invariante ante cambios de escala de filas y columnas, lo cual
permite trabajar con proporciones o porcentajes
Si se intercambian entre si las filas o columnas se mantiene la
magnitud de la intensidad de la asociación, pero cambia la
dirección de la misma, es decir, cambia el signo de la medida.
ASOCIACIÓN DE DOS FACTORES ( SPSS\PC+)
de CRAMER
VARIABLES
NOMINALES
VARIABLES ORDINALES
•
•
•
•
•
Coef. PHI
Coef. CONTINGENCIA
V de CRAMER
As. L. Mantel-Haenszel
•
Coef. KENDALL
• Tau-b
• Tau-c
Gamma
D de SOMMER
•
•
VARIABLES INTERV. O RAZON
ETA
•
•
Coef. Correl. Pearson
Coef. Correl. Spearman
MEDIDAS DE ASOCIACION DE DOS VARIABLES A ESCALA NOMINAL
•
• Coef. PHI
Φ=
•
X2
N
•
Su campo de variación esta entre 0 y 1, solo
alcanzara el valor 1 cuando se A.P. Estricta
Medida muy sensible a la presencia de totales
marginales desequilibrado
Se suele utilizar en tablas 2x2
• Coef. Contingencia • Soluciona el problema de la presencia de los
C=
Cmax
•
•
2
X
2
X +N
min (r − 1)(c − 1)
=
1 + min (r − 1)(c − 1)
•
marginales desequilibrados
Su campo de variación esta entre (0 1(
Se interpreta a través de Cmax como limite al
valor posible de obtener
El cociente entre C/ Cmax proporciona una idea
del verdadero grado de asociación
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
• V de Cramer
V =
•
2
X
N ⋅ min (r − 1 ); (c − 1 )
•
Estadístico idóneo que para cualquier tipo
de tabla
Su campo de variación (0 1)
MEDIDAS DE ASOCIACION PARA DOS VARIABLES A ESCALA ORDINAL
Para tratar las variables cualitativas a escala ordinal como cuantitativasderivadas, en las variables nominales se opera con frecuencias y en el caso de
ordinales con RANGOS.
Sustitución de los datos originales por la posición que ocupan en la escala
Las pruebas de Kendall (taus) , la Gamma de Goodman y kruskall y la D de
Sommer utilizan la misma estrategia: Contabilización de CONCORDANCIAS,
DISCORDANCIAS Y EMPATES entre pares de casos, operando después con
estas cantidades para generar un índice de asociación.
Ejemplo:
A
1
4
7
8
9
B
11
12
13
56
58
C
34
32
30
21
15
RA
1
2
3
4
5
RB
1
2
3
4
5
RC
5
4
3
2
1
1. Relación entre A&B es máxima positiva
2. Relación entre A&C es máxima negativa
3. Relación entre B&C es máxima negativa
Veamos la Concordancias ( C ) - Discordancias ( D ) - Empates ( E ):
Escojamos el tercer y cuarto caso. En RA son el 3 y el 4 luego el caso 4
tiene mayor puntuación que el 3, es decir, el rango de la variable A aumenta de
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
valor al pasar del tercer caso al cuarto. En la variable B ocurre lo mismo: el valor
del rango aumenta al pasar del caso 3 al 4. (a tenido lugar una Concordancia en
la paraje A&B). En lo que se refiere a la variable C, al pasar del 3 al 4 el valor del
rango disminuye ( en la pareja A&C ha tenido lugar una discordancia)
•
•
•
Si todas las M parejas posibles de valores hay M
concordancias la relación entre las dos variables es
máxima positiva .
Si todas las M parejas posibles de valores hay M
discordancias la relación entre las dos variables es
máxima negativa .
Si existe M/2 concordancias y M/2 discordancias (
EMPATE)
Cuando al menos una de las dos variables presenta
el mismo valor de discordancias que concordancias
Hay tres tipos de empates: el empate en la variable A y no en B ( en B
hay aumento o disminución del valor del Rango); el empate en la variable B y no
en A (en A hay aumento o disminución del valor del rango), y el empate en
ambos. Se simbolizan respectivamente, como EA , EB , y E D .
τ =
TAU-a de Kendall:
•
C − D
2 (C − D )
(N − 1 ) = N ( N − 1 )
2
•
N
•
El numero de concordancias es
máximo. C coincide con el nº de
parejas posibles y D =0
(Relación máxima y positiva)
El numero de discordancias es
maximo (Relación máxima y
negativa)
El nº de concordancias y
discordancias es igual (no existe
relacion entre ambas variables)
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
GAMMA de Goodman y Kruskall
Para gamma los empates son irrelevantes y no se utilizan:
•
C−D
γ=
C+ D
•
•
No existe ninguna discordancia (Máxima
rel. Positiva)
No existe ninguna concordancia(Máxima
Rel. Negativa)
Coinciden las concordancias y
discordancias ( no existe relación lineal)
La D de Sommers
Sommers si que utiliza los empates en su formula excepto los empates
dobles.
D =
C − D
E A + E
C + D +
2
B
Permite realizar un análisis de relación
entre dos variables, considerando a
una de ellas como dependiente
Las Tau-b y Tau-c de Kendall
Kendall realiza una corrección de su primera Tau e introduce los empates:
τb =
(C
C − D
+ D + E A )(C + D + E B )
τc =
2V (C − D )
N 2 (V − 1)
Donde el numero de empates depende, en parte, de la relación que exista entre el
numero de datos en una variable (N) y el numero de valores diferentes(V)
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
Descargar