Licenciatura en derecho y ADE. Universidad Autónoma de Madrid NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce) TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS1 rafael.dearce@uam.es El objeto de las tablas de contingencia es extraer información de cruce entre dos o más variables de tipo categórico o cualitativo, ya sean éstas de tipos nominal u ordinal. La idea básica es que se pretende juzgar si existe o no algún tipo de relación de dependencia entre dos variables no métricas. Con este tipo de análisis se podrían contestar a preguntas tales como: - - - ¿Hay alguna relación entre el área geográfica en la que se inscribe un país, o su confesión religiosa mayoritaria, y el sistema político con el que se rige? (se ponen en relación dos variables nominales). ¿Depende el nivel de desarrollo (alto, medio, bajo) del sistema político (democracia, dictadura, oligarquía, etc.)? (se ponen en relación una variable ordinal con otra nominal). ¿Está relacionado el índice de democracia (clasificado en bajo, medio, alto y muy alto) con el nivel de corrupción (con igual clasificación)? (se ponen en relación dos variables ordinales). En el análisis de tablas de contingencia tendrá sentido interrogarse sobre: 1. La existencia de relación o no (dependencia o independencia) entre un par de variables. 2. Si existe dependencia, en qué grado o con qué fuerza se produce la misma. 3. Caso de haber relación, entre que cruces, de entre todos los posibles, existe dicha relación. ¿EXISTE RELACIÓN ENTRE LAS VARIABLES? Evidentemente, uno puede recurrir a la observación directa de los datos y realizar algunas conclusiones intuitivas sobre la existencia o no de relaciones de de dependencia entre ellos. Si la muestra no es muy elevada, a partir de un análisis sensato de una tabla cruzada entre las variables que se desea comparar será una aproximación bastante adecuada. ¿Qué incorpora entonces el análisis estadístico de “tablas de contingencia” a un análisis directo y simple de los datos? Por un lado, la dimensión de análisis en términos de probabilidad (las variables que estamos midiendo son aleatorias, luego exigen tener en cuenta sus intervalos de confianza) y, por otro, el descuento de las coincidencias casuales en la observación de la realidad. 1 Para el seguimiento de los cálculos realizados en este documento es conveniente abrir al tiempo la hoja de excel http://www.uam.es/personal_pdi/economicas/rarce//pdf/demo_corrup_cross_tab.xls Licenciatura en derecho y ADE. Universidad Autónoma de Madrid NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce) Respecto al primer punto, no hace falta entrar en más detalle sobre la precisión de medida de cualquier variable (más aún cuando es de tipo cualitativo). Al no existir una precisión perfecta, o al poder haberse incluido errores de otro tipo al contabilizar un fenómeno, siempre es necesario recurrir a los instrumentos de la estadística de probabilidad para poder realizar análisis con cierta garantía. Respecto al segundo punto, quizá el más interesante por específico en esta técnica, el análisis de tablas de contingencia observará cuando efectivamente se dan coincidencias asociativas entre los pares de combinaciones posibles en una tabla más allá de aquellos que podrían haberse dado “por mera casualidad” o, dicho de otro modo, en condiciones de independencia estadística entre ambas variables. A modo de ejemplo, escribimos los datos de una tabla de contingencia (bivariada o cross-tab) que cruza los datos para 164 países de dos variables: el “índice de democracia” y el “control de corrupción”. Ambas variables han sido categorizadas desde sus unidades iniciales, de modo que ahora se presentan tres/cuatro niveles de las mismas: bajo, medio, alto y muy alto. Tabla 1: Tabla de contingencia Democracia Bajo Medio Alto Total Col. Bajo 18 20 6 44 Control de la corrupción Medio Alto Muy alto 14 4 5 13 8 1 17 23 35 44 35 41 Total Filas 41 42 81 164 Fuente: base de datos de la Universidad de Gottenburg (QOG Institute, Quality of Goverment dataset) Inicialmente, podría observarse a partir de esta tabla si existe o no relación entre ambas variables. De una forma muy intuitiva, el hecho de que los extremos de la tabla (por simplificar) presenten gran cantidad de datos podría ser significativo de una relación entre ambas variables (nótese que un bajo índice de democracia está asociado a un bajo nivel de democracia – se dan 18 países en esta circunstancia, el 21% de los países – y, de una forma mucho más clara, un alto nivel democrático está asociado a un mayor control de corrupción – se dan 35 países en este cruce –). Podría seguir argumentándose este hecho comprobando, por ejemplo, que pocos valores de bajo nivel de democracia están asociados con un alto control de la corrupción (apenas cinco países de un total de 164), etc. Este primer análisis puede ser claramente mejorado si se incluye en él una dimensión estadística básica: incluso en el caso en el que no hubiera relación entre ambas variables, casualmente podrían encontrarse datos de coincidencias bajo-bajo, alto-muy alto, etc. Habría países en los que se producirían estos cruces que, sin embargo, no representarían una mayoría más allá de la de la anécdota. Dicho esto, cabe plantearse cuáles serían aquellos cruces posibles entre cada par de situaciones (en cada una de las variables) que podrían no ser significativos. Licenciatura en derecho y ADE. Universidad Autónoma de Madrid NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce) Recurriendo a la teoría estadística básica, la probabilidad conjunta de dos sucesos independientes viene marcada por el producto de sus probabilidades individuales. (recuérdese, por ejemplo, cuál es la probabilidad de obtener dos caras seguidas en dos lanzamientos consecutivos de una moneda: al ser sucesos totalmente independientes, será el producto de la probabilidad de cada suceso – 0.5*0.5=0.25). En nuestro caso, la selección concreta de esos 164 países para los que se disponía de información produce, para cada variable, una probabilidad determinada de estar ante una de las situaciones posibles (niveles de la variable bajo, medio, alto o muy alto). En la muestra, y simplemente calculando los porcentajes del total de filas y columnas, podremos observar este hecho. Como se ve en la tabla siguiente, por ejemplo, nuestra muestra contiene un alto número de países con alto nivel en el índice de democracia (un 49,4% de los países exhiben este alto nivel de democracia, luego, elegido al azar un país cualquiera de la muestra, será bastante probable obtener un país de estas características – casi en la mitad de las ocasiones -). En el caso de la variable de control de la corrupción, el porcentaje está más equilibrado. Tabla 2: Tabla de contingencia con marginales (en porcentaje) Democracia Bajo Medio Alto Total Col. Marginal Bajo 18 20 6 44 26,8% Control de la corrupción Medio Alto 14 4 13 8 17 23 44 35 26,8% 21,3% Muy alto 5 1 35 41 25,0% Total Filas 41 42 81 164 100,0% Marginal 25,0% 25,6% 49,4% 100,0% Para calcular el número de países que se podrían haber situado en cada cruce (celda) aun existiendo independencia entre ambas variables, a cada casilla le podemos asignar el producto de sus marginales por el número total de observaciones: (Prob. Democ = i) * (Prob. Control Corrupción =j) * (Nº de datos) = casos esperables en independencia Tabla 3. Valores esperados bajo el supuesto de independencia entre ambas variables Democracia Bajo Medio Alto Total Col. Bajo 11,0 11,3 21,7 44,0 Control de la corrupción Medio Alto 11,0 8,8 11,3 9,0 21,7 17,3 44,0 35,0 Muy alto 10,3 10,5 20,3 41,0 Total Filas 41,0 42,0 81,0 164,0 Licenciatura en derecho y ADE. Universidad Autónoma de Madrid NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce) Con la información de esta tabla de valores esperables incluso en condiciones de independencia entre las variables, nuestro cálculo intuitivo se puede refinar, simplemente considerando cuántos cuál es el número de casos en cada celda más allá de los que se producen por simple azar estadístico. O dicho de otro modo, podríamos calcular la diferencia entre las tablas 1 y 3 para observar si, efectivamente, entre ambas variables existe una relación significativa o no. Para obtener un dato global que nos muestre si hay claras diferencias entre los casos casuales (esperados en condiciones de independencias) y los realmente observados se emplea el siguiente ratio: Donde, simplemente, se obtiene la suma cuadrada2 de todas las diferencias en términos relativos a las unidades que estamos midiendo (divididas por el número de valores esperados). Intuitivamente, cuanto más pequeño sea este ratio, menor será la diferencia entre los valores observados y los esperados, luego mayor probabilidad de que no haya dependencia entre las variables. Dicho esto, en términos estadísticos, diremos que la hipótesis nula de este contraste es la independencia entre ambas variables. Para determinar hasta que nivel en el valor de este ratio podemos considerar que las diferencias no son significativamente distintas de cero, basta con conoce cómo se distribuye dicho ratio en condiciones de independencia (no diferencia entre valores observados y esperados). De un modo muy sucinto, sin entrar en detalle, comprobamos que se trata del sumatorio de variables normales estándar al cuadrado (en condiciones de independencia), por lo que podríamos demostrar que la distribución de este ratio será la de una chi-cuadrado con grados de libertad iguales al número de filas menos uno por el número de columnas menos uno. En el ejemplo que nos ocupa, el valor del ratio es 798,6. Aunque, por lo abultado, es evidente que es significativamente distinto de cero, para comprobarlo estadísticamente habría que ver de donde a donde están los valores de las tablas de la chi-cuadrado para el porcentaje de confianza deseado y, en este caso, con seis grados de libertad ((3-1)*(4-1)). Por ejemplo, para un 95% de confianza, todos los valores de una variable que se distribuye como un chi-cuadrado con seis grados de libertad son iguales o menores que 12.5916. Luego nuestro valor es claramente mayor que este así que, con más de un 95% se puede afirmar que se rechaza la hipótesis nula de independencia o, dicho de modo alterno, existe una clara dependencia entre el índice de democracia y el control de la corrupción. 2 Al cuadrado simplemente para evitar que en la suma se compensen diferencias de signo negativo con diferencias de signo positivo. Se trata ahora de ver si hay diferencias, no de cuál es su signo. Licenciatura en derecho y ADE. Universidad Autónoma de Madrid NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce) ¿CUÁL ES EL GRADO DE IMPORTANCIA DE LA RELACIÓN ENCONTRADA?3 Una vez determinado que existe relación entre dos variables, el segundo aspecto de interés lógico será medir de algún modo el grado de importancia de la misma y, para el caso de las variables ordinales, medir también su carácter inverso o directo (recuérdese que en este tipo de variables, el número asignado a cada opción representa el tamaño u orden, luego tiene sentido observar si aumentos en una variable producen aumentos en la otra – relación directa – o lo contrario – relación inversa -). Otro aspecto de interés sería analizar la “direccionalidad” de la relación encontrada. Dicho de otro modo, observar qué variable actúa mejor como explicativa o causante de la otra. Existen multitud de test para analizar la importancia de la relación, alguno de ellos simplemente diferentes en cuestiones de matiz. Claramente se puede hacer las siguientes distinciones entre ellos: Phi (Es la más utilizada en tablas 2x2 con verdaderas dicotómicas φ= Variables nominales [0 , 1] Basados ChiCuadrado (si la dependencia es perfecta, el valor de la chi-cuadrado tiende a ser igual al número de observaciones –n–) 3 n C Coeficiente de Contingencia (Intenta corregir la PHI para tablas de más de 2x2) C= χ2 ( χ 2 + n) T Cramer V (Es la más utilizada, vale para tablas de cualquier orden PERO sólo alcanza el 1 si los marginales son iguales en filas y columnas. Tiende a dar un valor más pequeño que la Phi o C ) V= Variables Ordinales [-1, 1] χ2 χ2 n(k − 1) k es el max{nºfilas, nº columnas} Lambda: observa el ratio de reducción del error de considerar la asignación de cada Basados en la caso a una celda sólo teniendo en cuenta una reducción variable frente al de tener en cuenta las dos proporcional del a la vez error Coeficiente de incertidumbre (similar al anterior). Incorpora direccionalidad Gamma de Goodman y Kruskal (discordancia o concordancia entre -1 y 1 PERO para variables ordinales, es decir, concordancia o discordancia entre dos ordenaciones Y ADEMÁS con la posibilidad de Se puede encontrar más detalle sobre los distintos estadísticos presentados en esta sección en el libro de Antonio Pardo “Guía para la utilización de SPSS 11.0” (http://www.uca.es/serv/ai/formacion/spss/Pantalla/verguia.pdf ) Licenciatura en derecho y ADE. Universidad Autónoma de Madrid NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce) observar intervalos de confianza) Tau de Kendall (Tau de Kendall Concordancia ordinal, como la Gamma pero teniendo en cuenta los empates PERO adecuada sólo para tablas cuadradas) o D-Somers (es igual que las “TAUS” pero con la ventaja de que es simétrica, puede analizarse por separado el efecto de R (rows) sorbe C (columns) o al revés) En nuestro ejemplo, ambas variables son ordinales, luego correspondería utilizar un análisis como los presentados en la segunda parte de la tabla anterior. A pesar de ello, en la hoja de cálculo que completa este documento, también se presentan los cálculos de los coeficientes C y V de Cramer, más adecuados para las tablas de contingencia en las que interviene una variable nominal. Los resultados obtenidos en el ejemplo son C=0,48 y V= 0,21, lo que nos indicaría (en el caso de que utilizarlos fuera lo correcto) que el grado de dependencia sería entre bajo y medio. Teóricamente, ambos oscilan entre 0 y 1, aunque raramente alcanzan el valor máximo. Como regla práctica de uso, se podría decir que: 0 - 0,25 : poca dependencia 0,26 - 0,5: dependencia media 0,6 - 0,75: alta dependencia > 0,76: muy alta dependencia En las medidas de asociación para variables ordinales, tiene interés observar no sólo la “potencia” de la relación, sino también su signo, dado que en dichas variables se contiene una medida no exacta de la magnitud que permite, precisamente, ordenarlas: es útil saber si la relación de dependencia es directa o inversamente proporcional (a más “cantidad” de una variable, más de la otra o a más cantidad de la variable menos de la segunda, respectivamente). En las distintas medidas propuestas en la tabla anterior, se analizan los cambios en una variable y otra (cuando una crece la otra también o lo contrario) y se contabilizan el número de “inversiones” y “no inversiones”. Cualquier software al uso incluye el cálculo de estos coeficientes, por lo que no entraré en más detalle sobre su cálculo que, a hecho mano, sería algo largo. En nuestro ejemplo, el estadístico más habitual, la tau beta de kendall, da un valor de +….., valorable como dependencia media y positiva (a más de una variable, más de la otra). ¿ENTRE QUÉ COMBINACIONES DE ATRIBUTOS SE PRODUCE UNA MAYOR DEPENDENCIA? Siguiendo la lógica del procedimiento que estamos utilizando, y una vez ya hemos visto que existe dependencia y cuál es el grado de importancia de la misma; el siguiente paso de nuestro análisis debiera ser determinar concretamente entre qué combinaciones de las dos variables que estamos explorando se produce esa dependencia con más fuerza. Licenciatura en derecho y ADE. Universidad Autónoma de Madrid NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce) En nuestro procedimiento, bastará simplemente con observar en qué celdas de la tabla se produce una mayor diferencia entre los valores observados (reales) y esperados (en caso de independencia). Intuitivamente, bastaría con restar los resultados de ambas tablas (observadas – esperadas = residuos) y determinar aquellos valores más grandes presentes en ellas. Sin embargo, este análisis se puede mejorar estadísticamente haciendo dos cálculos sencillos: - Sabemos que la dependencia se determinó a partir del valor de la chi-cuadrado calculada anteriormente. En vez de observar directamente los residuos, podría observarse la aportación de cada celda al valor total de la chi-cuadrado, lo que resultaría en una estimación de cómo cada cruce en las tablas aporta a que haya o no dependencia entre ambas variables. Para ello, basta simplemente con calcular el valor de cada residuo dividido de la raíz cuadrado de su valor esperado en condiciones de independencia. residuoij (esperadoij Dado que la suma de todos estos valores al cuadrado resulta la chi-cuadrado calculada (nuestro modo de ver si hay o no dependencia), los valores anteriores al cuadrado entre la chi nos serán útiles para ver lo que cada cruce aporta a la construcción de la dependencia. - Tiene especial interés poder calcular lo que se conoce con el nombre de los residuos tipificados corregidos (los anteriores divididos por su desviación típica). En esta nueva tabla, se podrá asumir que dichos residuos se distribuyen como una N(0,1). Siendo así, cualquier valor de la tabla que, en valor absoluto, supere el valor de dos representará un cruce con un error especialmente alto (más alto o bajo que donde se situarían el 95% de los casos en una normal). Estos cruces serán entonces los que más están contribuyendo a generar esa dependencia entre ambas variables. El cálculo de estos valores simplemente incorpora al anterior el valor de variación máxima de las frecuencias observadas en el cruce de cada fila y columna: residuoij (esperadoij (1 − suma _ filai / n)(1 − suma _ colum j / n)) En nuestro ejemplo, los resultados son los siguientes: Aportación a la dependencia a partir de los residuos tipificados Democracia Bajo Bajo 8,7% Control de la corrupción Medio Alto 1,6% 5,0% Muy alto 5,2% Licenciatura en derecho y ADE. Universidad Autónoma de Madrid NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce) Medio Alto 13,2% 22,2% 0,5% 2,0% 0,2% 3,7% 16,7% 20,9% En 12 cruces, la aportación igual en cada celda sería 1/12=8,3%. Cualquier valor de esta tabla que exceda ese porcentaje es reseñable. Para observar qué valores de error son especialmente significativos y utilizando los residuos tipificados corregidos, obtenemos los siguientes resultados: Residuos tipificados corregidos Democracia Bajo Medio Alto Bajo 2,8 3,5 -5,5 Control de la corrupción Medio Alto 1,2 -2,1 0,7 -0,4 -1,7 2,2 Muy alto -2,2 -3,9 5,3 Donde valores absolutos por encima de dos representan un cruce con una diferencia estadísticamente significativa entre el valor observado y el esperable en caso de independencia.