ANALISIS CUALITATIVO Bibliografía: - Ruiz-Maya Perez, L.; y otros “ Metodología estadística para el análisis de datos cualitativos” CIS. 1990 - Manzano Arrondo, V.; Inferencia estadística. Aplicaciones con SPSS/PC. Ra-ma. 1995 - Siegel, S.: “Estadística no paramétrica aplicada a las ciencias de la conducta” Trillas, México, 1970 OBSERVACION ANALIS NO PARAMETRICO TABLAS DE CONTINGENCIA 2X2 En las tablas mas sencillas (2x2) podemos disponer los datos de la siguiente manera: A\B 1 2 1 a c a+c 2 b d b+d a+b c+d N INDEPENDENCIA EN TABLAS 2X2: χ2 H0: ES CIERTA X2 = α N (a ⋅ d − b ⋅ c )2 (a + b)(a + c )(b + d )(c + d ) Eˆ ij = n i. ⋅ n . j N X 2 = r ∑ i =1 (n i − Eˆ i Eˆ ) 2 i Si X2< C aceptamos la Ho Si X2> C rechazamos la Ho Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo CORRELACION DE YATES.Hasta ahora estamos realizando el estudio de independencia a través de una Chi-cuadrado con 1 g.l. como una aproximación a la distribución de probabilidad discreta de las frecuencias observadas. Restar 0’5 a las desviaciones positivas entre las F.Obs. y las F. Esp. Para mejorar esta distribución Sumar 0’5 en el caso de que sean negativas N ( a ⋅ d − b ⋅ c − 0'5 N ) 2 X c2 = (a + b)(c + d )(a + c )(b + d ) La utilización de la corrección de continuidad de Yates es necesaria cuando trabajamos en tablas 2x2 , de no ser así se utiliza cuando la muestra es pequeña. TEST EXACTO DE FISHER Uno de los supuestos consistía en que las estimaciones de las frecuencias esperadas no debían ser excesivamente pequeñas puesto en caso contrario la aproximación podía no ser aceptable. En tablas de 2x2 se considera exc.pequeña cuando las F.Esp. <5 TEST EXACTO DE FISHER Se caracteriza por utilizar no una aproximación de probabilidad sino la distribución de probabilidad exacta de la configuración de las fre. observadas Como para totales marginales fijos, la distribución de probabilidad de las F.Ob. sigue una ley hipergeometrica, en el caso de que las dos variables Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo observadas sean independientes la probabilidad P de obtener cualquier disposición de las nij viene dada por: P = (a + b )!(c + d )! (a + c )!(b + d )! a ! b ! c! d ! N ! Probabilidad de la configuración de las F. Obtenidas Probabilidad de otras configuraciones que sugieran mayor asociación entre las variables ¿En que sentido entendemos que una configuración de frecuencias sugiere mayor asociación entre las variables? Decimos que una configuración de frecuencias sugiere mayor asociación que otra cuando se acentúa la tendencia a la aparición conjunta de los niveles de las variables COMBINACION DE TABLAS 1º METODO DE AGRUPACION.Consiste en combinar o agrupar la información procedente de G tablas 2x2 en una sola para lo cual el estadístico χ se calcula de la manera habitual. 2 Condiciones: • • Debe existir semejanza de las proporciones correspondientes a las G tablas No debe ser utilizado si las proporciones varían tabla a tabla 2º METODO DE LA SUMA DE ESTADISTICOS INDIVIDUALES Consiste en calcular el valor del estadístico X 2 para cada tabla y sumar todos ellos. Con lo que el estadístico suma se distribuirá como una Chi-cuadrado Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo con G g.l. aplicando el contraste y las reglas de decisión como lo hacíamos anteriormente. • No tiene en cuenta la dirección de las diferencias entre las proporciones que puedan revelar las tablas 3º METODO X2 Condicionantes: • Que los tamaños de las muestras individuales no difieran notablemente Que los valores de las proporciones estén comprendidos entre: 0’2 y 0’8 • Bajo estos condicionantes este método consiste en sumar las raíces cuadradas de los estadísticos X2 de cada tabla, teniendo en cta. Los signos de las diferencias entre las proporciones. Bajo la Ho : de independencia entre las dos variables el estadístico X para cualquier tabla 2x2 se distribuye aproximadamente como un N(0;1) y por tanto la suma de X i se distribuye como una N( 0;G) siendo G el numero de tablas. Para contrastar la Ho : • • Existe independencia entre las variables No existe diferencia entre las proporciones G W= ∑X i i =1 G Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo METODO DE COCHRAN.Se utiliza cuando no se cumplen las condiciones anteriormente expuestas. Por lo que debe utilizarse cuando tenemos tamaños muéstrales muy dispares. El M.Cochran introduce un criterio de ponderación para contrarrestar los resultados de las tablas contempladas individualmente. Cochran sugirió un Test basado en una media ponderada de las diferencias entre las proporciones, este estadístico es: G Y = ∑W i =1 G ∑W i =1 i i ⋅di ⋅ Pi ⋅ Q i Se distribuye aproximadamente como una N(0;1) bajo la hipótesis de que las proporciones son iguales para todas las tablas. G = nº de tablas n ⋅n Wi = i1 i 2 ni1 + ni2 (n P + ni2 Pi 2 ) Pi = i1 i1 ni1 + ni 2 Qi = 1 − Pi d i = Pi1 − Pi2 ni1 y ni2 tamaños muéstrales de los grupos 1 y 2 respectivamente Pi1 y Pi2 Proporciones en las muestras 1 y 2 respectivamente Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo ASOCIACION EN TABLAS 2X2 Existencia de Asociación Si Rechazamos Ho ¿Cuál es la intensidad de la asociación entre los factores implicados? ¿Cuál es la dirección de tal asociación? Asociación Perfecta: Diremos que en una tabla existe A.P. entre los dos factores cuando al menos uno de los niveles de los factores queda determinado por uno de los niveles del otro factor. (Cuando existe algún cero en la tabla) Estricta A\B Niv. 1 Niv. 2 Cuando dado un nivel de uno de los factores queda inmediatamente determinado el nivel del otro factor Niv 1 20 0 20 Niv. 2 0 30 30 Implícita de Tipo 2 20 30 50 • • A\B Niv. 1 Niv. 2 Niv 1 20 0 20 Niv. 2 30 40 70 50 40 90 • • n11 ó n22 =0 n12 ó n21 =0 Si tomamos un nivel de u factor queda determinado el nivel del otro factor Si tomamos el otro nivel no queda determinado el restante Necesariamente una de las frecuencias observadas es cero. n11 ó n12 ó n21 ó n22 =0 Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo Asociación Positiva: Existe asociación positiva cuando el nivel 1 del factor A está asociado con el nivel 1 del factor B y cuando el nivel 2 de dicho factor A está asociado con el nivel 2 del factor B. Asociación Negativa: Cuando el nivel 1 del factor A esté asociado con el nivel 2 del factor B y cuando el nivel 2 del factor A esté asociado con el 1 del factor B. MEDIDA DE ASOCIACION GENERAL: LA Q DE YULE Decimos que existe independencia entre los dos factores cuando las frecuencias observadas son iguales a las esperadas. Por tanto los residuos nos pueden dar una primera medida del grado de asociación existente entre los factores, así como el sentido de dicha asociación. A\B Niv. 1 Niv. 2 Niv. 1 n11 n21 n.1 Niv. 2 n12 n22 n.2 Las diferencias Dij entre nij y Eij se expresan, bajo la hipótesis de independencia n1. n2. N n ⋅n n ⋅ n − n12 ⋅ n 21 D11 = n 11 − Eˆ11 = n11 − . 1 1 . = 22 11 N N n ⋅n n ⋅ n − n 11 ⋅ n 22 D12 = n 12 − Eˆ12 = n12 − .1 2 . = 12 21 N N n ⋅ n n ⋅ n − n11 ⋅ n 22 D 21 = n 21 − Eˆ 21 = n 21 − 2. . 1 = 12 21 N N n ⋅n n ⋅ n − n12 ⋅ n 21 D 22 = n 22 − Eˆ 22 = n 22 − 2 . . 2 = 22 11 N N Donde podemos observar que: 2 2 ∑∑D i = 1 j =1 ij = 2 2 ∑∑n i =1 j =1 2 ij −∑ 2 ∑ Eˆ i = 1 j =1 ij =0 Y que: D 11 = D 12 = D 21 = D 22 Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo A partir de las Dij • • • Si existe independencia entre los factores se verificara que D11 = D22 =0 y por tanto D12 = D21 =0 Si existe asociación positiva entre los factores se verificara que D11 = D22 >0 y por tanto D12 = D21 <0 Si existe asociación negativa entre los factores se verificara que D11 = D22 <0 y por tanto D12 = D21 >0 Dado que D11 = D22 =0 y D12 = D21 y que además la suma de las diferencias Dij es cero podemos decir que: • • • Si D11 = 0 Si D 11 > 0 Si D 11 < 0 Definida la dirección INDEPENDENCIA ASOCIACION POSITIVA ASOCIACION NEGATIVA No esta definida la intensidad La Q de Yule Qˆ = N ⋅ D11 n ⋅n − n ⋅n = 11 22 12 21 n11 ⋅ n22 + n12 ⋅ n21 n11 ⋅ n22 + n12 ⋅ n21 • • • Si Q = 0 INDEPENDENCIA Si Q > 0 ASOCIACION POSITIVA Si Q < 0 ASOCIACION NEGATIVA Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo PROPIEDADES DE LA Q DE YULE: • • • Alcanza sus valores extremos entre +1 y -1 bajo condición de asociación perfecta Es invariante ante cambios de escala de filas y columnas, lo cual permite trabajar con proporciones o porcentajes Si se intercambian entre si las filas o columnas se mantiene la magnitud de la intensidad de la asociación, pero cambia la dirección de la misma, es decir, cambia el signo de la medida. ASOCIACIÓN DE DOS FACTORES ( SPSS\PC+) de CRAMER VARIABLES NOMINALES VARIABLES ORDINALES • • • • • Coef. PHI Coef. CONTINGENCIA V de CRAMER As. L. Mantel-Haenszel • Coef. KENDALL • Tau-b • Tau-c Gamma D de SOMMER • • VARIABLES INTERV. O RAZON ETA • • Coef. Correl. Pearson Coef. Correl. Spearman MEDIDAS DE ASOCIACION DE DOS VARIABLES A ESCALA NOMINAL • • Coef. PHI Φ= • X2 N • Su campo de variación esta entre 0 y 1, solo alcanzara el valor 1 cuando se A.P. Estricta Medida muy sensible a la presencia de totales marginales desequilibrado Se suele utilizar en tablas 2x2 • Coef. Contingencia • Soluciona el problema de la presencia de los C= Cmax • • 2 X 2 X +N min (r − 1)(c − 1) = 1 + min (r − 1)(c − 1) • marginales desequilibrados Su campo de variación esta entre (0 1( Se interpreta a través de Cmax como limite al valor posible de obtener El cociente entre C/ Cmax proporciona una idea del verdadero grado de asociación Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo • V de Cramer V = • 2 X N ⋅ min (r − 1 ); (c − 1 ) • Estadístico idóneo que para cualquier tipo de tabla Su campo de variación (0 1) MEDIDAS DE ASOCIACION PARA DOS VARIABLES A ESCALA ORDINAL Para tratar las variables cualitativas a escala ordinal como cuantitativasderivadas, en las variables nominales se opera con frecuencias y en el caso de ordinales con RANGOS. Sustitución de los datos originales por la posición que ocupan en la escala Las pruebas de Kendall (taus) , la Gamma de Goodman y kruskall y la D de Sommer utilizan la misma estrategia: Contabilización de CONCORDANCIAS, DISCORDANCIAS Y EMPATES entre pares de casos, operando después con estas cantidades para generar un índice de asociación. Ejemplo: A 1 4 7 8 9 B 11 12 13 56 58 C 34 32 30 21 15 RA 1 2 3 4 5 RB 1 2 3 4 5 RC 5 4 3 2 1 1. Relación entre A&B es máxima positiva 2. Relación entre A&C es máxima negativa 3. Relación entre B&C es máxima negativa Veamos la Concordancias ( C ) - Discordancias ( D ) - Empates ( E ): Escojamos el tercer y cuarto caso. En RA son el 3 y el 4 luego el caso 4 tiene mayor puntuación que el 3, es decir, el rango de la variable A aumenta de Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo valor al pasar del tercer caso al cuarto. En la variable B ocurre lo mismo: el valor del rango aumenta al pasar del caso 3 al 4. (a tenido lugar una Concordancia en la paraje A&B). En lo que se refiere a la variable C, al pasar del 3 al 4 el valor del rango disminuye ( en la pareja A&C ha tenido lugar una discordancia) • • • Si todas las M parejas posibles de valores hay M concordancias la relación entre las dos variables es máxima positiva . Si todas las M parejas posibles de valores hay M discordancias la relación entre las dos variables es máxima negativa . Si existe M/2 concordancias y M/2 discordancias ( EMPATE) Cuando al menos una de las dos variables presenta el mismo valor de discordancias que concordancias Hay tres tipos de empates: el empate en la variable A y no en B ( en B hay aumento o disminución del valor del Rango); el empate en la variable B y no en A (en A hay aumento o disminución del valor del rango), y el empate en ambos. Se simbolizan respectivamente, como EA , EB , y E D . τ = TAU-a de Kendall: • C − D 2 (C − D ) (N − 1 ) = N ( N − 1 ) 2 • N • El numero de concordancias es máximo. C coincide con el nº de parejas posibles y D =0 (Relación máxima y positiva) El numero de discordancias es maximo (Relación máxima y negativa) El nº de concordancias y discordancias es igual (no existe relacion entre ambas variables) Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo GAMMA de Goodman y Kruskall Para gamma los empates son irrelevantes y no se utilizan: • C−D γ= C+ D • • No existe ninguna discordancia (Máxima rel. Positiva) No existe ninguna concordancia(Máxima Rel. Negativa) Coinciden las concordancias y discordancias ( no existe relación lineal) La D de Sommers Sommers si que utiliza los empates en su formula excepto los empates dobles. D = C − D E A + E C + D + 2 B Permite realizar un análisis de relación entre dos variables, considerando a una de ellas como dependiente Las Tau-b y Tau-c de Kendall Kendall realiza una corrección de su primera Tau e introduce los empates: τb = (C C − D + D + E A )(C + D + E B ) τc = 2V (C − D ) N 2 (V − 1) Donde el numero de empates depende, en parte, de la relación que exista entre el numero de datos en una variable (N) y el numero de valores diferentes(V) Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo