Asociación de variables bidimensionales cualitativas DOCENTE: Dra. ROSA YOLANDA CARPIO BARREDA LOGRO DE LA SESIÓN Al finalizar la sesión de aprendizaje, el estudiante conoce la asociación entre variables cualitativas. Introducción El análisis estadístico descriptivo univariado permite organizar, representar y describir los datos de una muestra o población, sin embargo, en la mayoría de los estudios o investigaciones, lo que resulta mas importante es conocer si hay relación entre dos variables (investigaciones correlaciónales, causa-efecto). Los estudios correlacionales pretenden responder a preguntas de investigación como las siguientes: 1. ¿Aumenta la satisfacción del cliente conforme se mejore la calidad del producto? 2. ¿A mayor autonomía en el trabajo corresponde mayor motivación intrínseca respecto de las tareas laborales? Muchas veces el interés de los investigadores está centrado en establecer la relación entre dos o más variables. RELACION ENTRE DOS VARIABLES CUALITATIVAS NOMINALES ¿Influye el nivel de estudios sobre la practica del cumplimiento de protocolos? ¿Tiene relación el genero con los hábitos de lectura? ¿Hay alguna relación entre la práctica religiosa, y el sistema político con el que se rige el país? ¿Hay alguna relación entre el tipo de empresa, y el servicio que ofrece al público? ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS Las tablas de contingencia (bivariadas), los gráficos de barras agrupados, apilados y el coeficiente de asociación; permiten organizar, describir datos bivariados y analizar la relación entre dos variables cualitativas. TABLA DE CONTINGENCIA GRAFICOS DE BARRAS AGRUPADO GRAFICOS DE BARRAS APILADO COEFICIENTES DE ASOCIACIÓN INDEPENDENCIA O ASOCIACIÓN TABLAS DE CONTINGENCIA Las tablas de contingencia permiten conocer como se distribuyen los datos en forma conjunta en dos variables cualitativas o mixtas, también se utilizan para examinar la relación entre ambas variables (cualitativas o categóricas). 𝟏 𝟐 La independencia de dos variables consiste en que la distribución de una de las variables es similar sea cual sea el nivel que examinaremos de la otra. En una tabla de contingencia las frecuencias de las filas (y las columnas) son aproximadamente proporcionales, es recomendable hacerlo por porcentajes por fila (o columnas) y observando si estos son similares. EJEMPLO 1 (a) Prioridades y sexo Los siguientes datos recogen las respuestas de estudiantes universitarios a los que se les preguntó, entre otras cosas, a qué daban más prioridad de entre tres posibilidades: • Tener buenas notas, • Destacar en los deportes o • Ser popular entre los compañeros. Vamos a estudiar la independencia o asociación entre variables, consideremos la variable sexo y la variable prioridades. Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Sexo Hombre Mujer Mujer Mujer Hombre Mujer Hombre Hombre Hombre Mujer Mujer Hombre Hombre Mujer Mujer Hombre Hombre Mujer Prioridades Notas Deportes Notas Deportes Deportes Popularidad Notas Deportes Popularidad Deportes Notas Popularidad Notas Popularidad Deportes Deportes Deportes Notas Del ejemplo anterior, se elabora la tabla de contingencia: Prioridades Sexo Notas Deportes Popularidad Total Varón 3 (16,67%) 4 (22,22%) 2 (11,11%) 9 (50%) Mujer 3 (16,67%) 4 (22,22%) 2 (11,11%) 9 (50%) Total 6 (33,34%) 8 (44,44%) 4 (22,22%) 18 (100%) De acuerdo a la tabla de contingencias se observa cantidades iguales de estudiantes varones o mujeres. En cuanto a la importancia que tienen para ellos las notas, deportes o popularidad, tampoco se observa diferencia en la preferencia según el sexo. Interpretación De acuerdo a la tabla de contingencia y los gráficos, el sexo del estudiante no está relacionado con la importancia que le dan a las prioridades. EJEMPLO 2 Un investigador quiere estudiar si hay asociación entre la práctica deportiva y la sensación de bienestar. Extrae una muestra aleatoria de 250 sujetos. Los datos aparecen a continuación en la siguiente tabla. ¿Están las variables relacionadas o son independientes? Justifique su respuesta. Muchos podrían pensar que las variables están relacionadas, pues la celda donde hay mayor frecuencia es en las personas que tienen sensación de bienestar y practica deporte. ¡Pero sería un error basar el juicio de asociación en los datos de una sola celda de la tabla! Para analizar la asociación podemos comparar la proporción de personas con sensación de bienestar entre los que practican deporte y los que no. Utilice las tablas condicionales. EJEMPLO 3 ¿El defecto en el lenguaje está relacionado con el grupo socioeconómico? Interpretación De acuerdo al grafico, se puede observar un comportamiento proporcional en los grupos socioeconómico con respecto a la presencia o ausencia del lenguaje en los niños (fig. 1). Si prestamos atención a la tabla, observamos los porcentajes la diferencia presentada es muy similar de acuerdo a los niveles tanto en presencia o ausencia de lenguaje, por lo tanto esto implica que no hay influencia o dependencia del grupo socioeconómico con respecto al defecto del lenguaje presentado por los niños de la escuela. EJEMPLO 4 De cara a la planificación del próximo curso, seria conveniente analizar la relación entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias. Se cuenta para ello con la información obtenida en el centro. Se puede representar gráficamente, mediante barras agrupadas: Interpretación De acuerdo al grafico, se puede observar la mayor diferencia en el nivel básico mostrado por los padres (12 con orientación hacia las ciencias y 42 no orientados), caso contrario ocurre en el nivel medio de los padres (34 muestra orientación a las ciencias y 16 no la muestra), en el caso del nivel nulo y superior la diferencia no es muy significativa (fig. 1). Si prestamos atención la distribución de la orientación hacia ciencias en porcentajes por el nivel educativo de los padres, la diferencia resulta mas evidente (tabla 1). El resultado de un examen y la situación de pobreza en que se encuentran un conjunto de estudiantes que estudian en un centro educativo en las afueras de la ciudad. Ejemplo: aprobó Variables: categorías Si no Situación de pobreza v. Nominal dicotómica Si no v. Nominal dicotómica El resultado de un examen y la situación de pobreza en que se encuentran un conjunto de estudiantes que estudian en un centro educativo en las afueras de la ciudad. Ejemplo: No Pobres Pobres Total Aprobaron 23 10 33 No aprobaron Total 15 8 23 38 18 56 Nos preguntamos: ¿existe relación significativa entre una y otra variable? ¿Cúal es la fuerza y el sentido de dicha relación? Para medir el grado de dependencia o asociación entre las variables X e Y se utilizan medidas de asociación. Existen diferentes medidas o coeficientes de asociación, según las características de la tabla, las características de las variables y el tipo de hipótesis que nos planteamos. COEFICIENTES DE ASOCIACION Introducción Los términos asociación, correlación, contingencia, concordancia y otros similares, se suelen utilizar como equivalentes muy a menudo. No obstante, haciendo un uso más correcto de la terminología estadística, aún con significado semejante, se puede considerar: • Correlación de variables propiamente dichas, o sea, medidas en escala de intervalo. • Concordancia de ordenaciones, entendiéndose como tales las denominadas variables ordinales, y • Asociación o contingencia de variables nominales o atributos. Así, para clasificar los coeficientes que detectan y miden el grado de relación, o dependencia estadística, se ha tenido en cuenta el tipo y la naturaleza de las variables sometidas a estudio. COEFICIENTES DE ASOCIACION Miden el grado de dependencia o asociación entre dos características cualitativas. La medida básica es el estadístico Chi Cuadrado de Pearson: El Coeficiente Phi El Coeficiente Chi Cuadrado El Coeficiente Contingencia C El Coeficiente V de Cramer El estudio de la relación entre dos variables se puede caracterizar mediante: i) La existencia o no de asociación; ii) La fuerza de dicha asociación y iii) La dirección de ésta. El uso apropiado de un coeficiente de asociación (correlación) depende del nivel de medición de las variables. COEFICIENTE PHI DE PEARSON 𝝓 El estadístico Phi 𝝓 mide o cuantifica la asociación entre dos variables cualitativas nominales dicotómicas. Las dos deberán ser realmente dicotómicas (ej.: hombre-mujer, vivomuerto...) o una dicotómica y la otra dicotomizada artificialmente. Condiciones: • Se requiere que 𝑛 ≥ 100, • No debe emplearse ninguna proporción total que sea inferior a 0,05 siendo peligroso emplear proporciones inferiores a 0,10. Variable dicotómica Expresa 2 categorías excluyentes. Ejemplo: • Si o No, • Hombre o Mujer. COEFICIENTE PHI DE PEARSON 𝝓 El estadístico Phi 𝝓 mide o cuantifica la asociación entre dos variables cualitativas nominales dicotómicas. Se trata de cuantificar la fuerza de la relación entre dos variables X e Y. TABLA DE CONTINGENCIA Se define el coeficiente Phi 𝝓 , de la forma siguiente: 𝝓= 𝒏𝟏𝟏 𝒏𝟐𝟐 − 𝒏𝟏𝟐 𝒏𝟐𝟏 𝒙𝟏 𝒚𝟏 (a) n11 Total 𝒚𝟐 (b) n12 (a+b) n1. 𝒙𝟐 (c) n21 (d) n22 (c+d) n2. 𝒏𝟏𝟏 + 𝒏𝟐𝟏 𝒏𝟏𝟐 + 𝒏𝟐𝟐 𝒏𝟏𝟏 + 𝒏𝟏𝟐 𝒏𝟐𝟏 + 𝒏𝟐𝟐 𝒂𝒅 - bc 𝝓 Total (a+c) n.1 (b+d) n.2 n TABLA DE CONTINGENCIA 𝒙𝟏 𝒙𝟐 Total 𝒚𝟏 n11 n21 n.1 𝒚𝟐 n12 n22 n.2 Total n1. n2. n También se define el coeficiente Phi 𝝓 ,de la forma siguiente: 𝝓= 𝒏𝟏𝟐 𝒏𝟐𝟏 − 𝒏𝟏𝟏 𝒏𝟐𝟐 𝒏𝟏. 𝒏𝟐. 𝒏.𝟏 𝒏.𝟐 PROPIEDADES • Toma valores en el intervalo: − 1 1 • Se trata de cuantificar la fuerza de la relación entre dos variables X e Y. Interpretación Valor 1: se obtiene cuando la dependencia es directa y perfecta, Valor -1: se obtiene cuando la dependencia es inversa y perfecta, Valor 0: se obtiene cuando hay independencia. 𝟐 COEFICIENTE PHI DE PEARSON 𝝓 −1 1 Existen discusiones con respecto a lo que se debe considerar como una relación débil, moderada o fuerte, pero el rango de valores mayormente utilizado puede ser teniendo en cuenta una mayor degradación, consideremos la siguiente clasificación mostrada en la tabla. Valor del coeficiente Nivel 0.00 Ninguno 0.01 – 0.09 Muy débil 0.10 – 0.29 Débil 0.30 – 0.59 Moderado 0.60 – 0.74 Fuerte 0.75 – 0.99 Muy fuerte 1 Perfecto EJEMPLO 5 Se quiere establecer la relación entre el consumo del tabaco y el género del paciente. Consumo de Tabaco Sexo Sí No Total Masculino 18 (a) 32 (b) 50 Femenino 22 (c) 28 (d) 50 Total 40 60 100 La fórmula expuesta anteriormente se puede explicar con palabras estableciendo que el coeficiente phi es igual a la resta de los productos de los valores diagonales de la matriz de datos entre la raíz cuadrada del producto de las sumas de los valores lineales de la tabla. 𝜙= 18 . 28 − 32 . 22 18 + 22 . 32 + 28 . 18 + 32 . (22 + 28) 𝜙= 18 . 28 − 32 . 22 18 + 22 . 32 + 28 . 18 + 32 . (22 + 28) Tras realizar las operaciones algebraicas relativas a sumas, restas y multiplicaciones el resultado será: 𝜙= 18 . 28 − 32 . 22 18 + 22 . 32 + 28 . 18 + 32 . (22 + 28) −200 6.000.000 = − 0,0816 Interpretación Cómo 𝝓 = - 0,0816 es cercano muy a 0, indica que no hay relación o es muy débil entre las dos variables. El estadístico Chi Cuadrado 𝝌𝟐 mide o cuantifica la asociación entre dos variables cualitativas. Coeficiente Chi Cuadrado Se fundamenta su cálculo e interpretación , en las diferencias entre las frecuencias observadas y las frecuencias esperadas. 𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒂𝒔 𝝌𝟐 𝒇𝒐 − 𝒇𝒆 = 𝑺𝒖𝒎𝒂 𝒇𝒆 𝟐 𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂𝒔 𝒆𝒔𝒑𝒆𝒓𝒂𝒅𝒂𝒔 𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒂𝒔 𝒇𝒐 𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂𝒔 𝒆𝒔𝒑𝒆𝒓𝒂𝒅𝒂𝒔 𝒇𝒆 = 𝑻𝒐𝒕𝒂𝒍 𝒇𝒊𝒍𝒂 𝒊 × 𝑻𝒐𝒕𝒂𝒍 𝒄𝒐𝒍𝒖𝒎𝒏𝒂 𝒋 𝑻𝒐𝒕𝒂𝒍 𝒈𝒆𝒏𝒆𝒓𝒂𝒍 Coeficiente Chi Cuadrado En notación matemática, la coeficiente chi cuadrado sería: fórmula del N ⁰ de modalidades de la variable 2 N ⁰ de modalidades de la variable 1 Frecuencias Absoluta Observada ( 𝒏𝒊𝒋 ) 𝑛𝑖. 𝑛.𝑗 𝑛𝑖𝑗 − 𝑛 𝜒2 = 𝑛𝑖. 𝑛.𝑗 𝑖=1 𝑗=1 𝑛 ℎ Coeficiente chi cuadrado 𝑝 2 Frecuencias Absoluta Esperada ( 𝒆𝒊𝒋 ) 𝑛𝑖. 𝑛.𝑗 𝒆𝒊𝒋 = 𝑛 Interpretación Si 𝝌𝟐 = 𝟎 entonces no hay asociación entre las variables cualitativas Si 𝝌𝟐 > 𝟎, entonces hay asociación entre las variables cualitativas No hay asociación Si hay asociación 0 ➢ En la medida en que 𝝌𝟐 se acerque a cero, la dependencia o asociación será débil, ➢ en la medida en que se aleje, la dependencia o asociación será más fuerte. ➢ El valor del coeficiente de chi cuadrado 𝝌𝟐 es sensible al tamaño de la muestra EJEMPLO 6 (a) Prioridades en niños y sexo Los datos donde se recogen las respuestas de unos escolares de 10 a 12 años a los que se les preguntó, entre otras cosas, a qué daban más prioridad de entre tres posibilidades: • Tener buenas notas, • Destacar en los deportes o • Ser popular entre los compañeros. La tabla de distribución conjunta, se muestra a continuación: Prioridades Sexo Notas Deportes Popularidad Total Varón 12 (44,44%) 10 (37,08%) 5 (18,51%) 27 (100%) Mujer 20(50%) 8 (20%) 12 (30%) 40 (100%) Vamos a estudiar la independencia o asociación entre variables, consideremos la variable sexo y la variable metas (prioridad). Solución Calculando las frecuencias absolutas esperadas 𝑒𝑖𝑗 : Frecuencias observadas Frecuencias esperadas 𝒏𝒊. 𝒏.𝒋 𝒆𝒊𝒋 = 𝒏 Prioridades Sexo Notas Deportes Popularidad Total Varón 12 10 5 27 Mujer 20 8 12 40 Total 32 18 17 67 𝒆𝟏𝟏 = 𝟐𝟕 × 𝟑𝟐 = 𝟏𝟐. 𝟗𝟎 𝟔𝟕 𝒆𝟏𝟐 = 𝟐𝟕 × 𝟏𝟖 = 𝟕. 𝟐𝟓 𝟔𝟕 Prioridades Sexo Notas Deportes Popularidad Total Varón 12 10 5 27 Mujer 20 8 12 40 Total 32 18 17 67 Popularidad Total Prioridades Sexo Notas Deportes Varón 12 10 5 27 Mujer 20 8 12 40 Total 32 18 17 67 𝒆𝟏𝟑 = 𝟐𝟕 × 𝟏𝟕 = 𝟔. 𝟖𝟓 𝟔𝟕 Solución Calculando las frecuencias absolutas esperadas 𝑒𝑖𝑗 : Frecuencias observadas Frecuencias esperadas 𝒏𝒊. 𝒏.𝒋 𝒆𝒊𝒋 = 𝒏 Prioridades Sexo Notas Deportes Popularidad Total Varón 12 10 5 27 Mujer 20 8 12 40 Total 32 18 17 67 𝒆𝟐𝟏 = 𝟒𝟎 × 𝟑𝟐 = 𝟏𝟗. 𝟏𝟎 𝟔𝟕 𝒆𝟐𝟐 = 𝟒𝟎 × 𝟏𝟖 = 𝟏𝟎. 𝟕𝟓 𝟔𝟕 𝒆𝟐𝟑 = 𝟒𝟎 × 𝟏𝟕 = 𝟏𝟎. 𝟏𝟓 𝟔𝟕 Prioridades Sexo Notas Deportes Popularidad Total Varón 12 10 5 27 Mujer 20 8 12 40 Total 32 18 17 67 Prioridades Sexo Notas Deportes Popularidad Total Varón 12 10 5 27 Mujer 20 8 12 40 Total 32 18 17 67 Solución Calculando el coeficiente chi cuadrado 𝜒 2 : Prioridades Sexo Notas Deportes Popularidad Total Varón 12 (12.9) 10 (7.25) 5 (6.85) 27 Mujer 20(19.1) 8 (10.75) 12 (10.15) 40 𝝌𝟐 12 − 12.9 = 12.9 2 10 − 7.25 + 7.25 2 5 − 6.85 + 6.85 2 20 − 19.1 + 19.1 𝑛𝑖. 𝑛.𝑗 𝑛𝑖𝑗 − 𝑛 𝜒2 = 𝑛𝑖. 𝑛.𝑗 𝑖=1 𝑗=1 𝑛 ℎ 2 𝑝 8 − 10.75 + 10.75 2 2 12 − 10.15 + 10.15 2 segunda fila Primera fila 𝝌𝟐 = 0.0622 + 1.0397 + 0.5000 + 0,0420 + 0.7018 + 0.3375 Primera fila segunda fila 𝝌𝟐 = 2.6832 Interpretación Cómo 𝝌𝟐 = 𝟐. 𝟔𝟖𝟑𝟐 > 𝟎 es mayor a cero, indica que hay relación entre las dos variables, es decir, hay relación entre el sexo del escolar y el tipo de prioridades . Solución Prioridades Sexo Notas Deportes Popularidad Total Varón 12 (44,44%) 10 (37,08%) 5 (18,51%) 27 (100%) Mujer 20(50%) 8 (20%) 12 (30%) 40 (100%) Calculando el coeficiente chi cuadrado 𝜒 2 : Interpretación 𝑛𝑖. 𝑛.𝑗 𝑛𝑖𝑗 − 𝑛 𝜒2 = 𝑛𝑖. 𝑛.𝑗 𝑖=1 𝑗=1 𝑛 ℎ 𝑝 2 𝝌𝟐 = 2.6832 Cómo 𝝌𝟐 = 𝟐. 𝟔𝟖𝟑𝟐 > 𝟎 es mayor a cero, indica que hay relación entre las dos variables, es decir, hay relación entre el sexo del escolar y el tipo de prioridades . Con un poco de atención se observa porcentajes similares de niños y niñas en cuanto a la importancia que tienen para ellos las notas. Donde más diferencia se observa entre los sexos es en la preferencia que muestran muchos chicos por los deportes y muchas chicas por la popularidad. EJEMPLO 7 De cara a la planificación del próximo curso, seria conveniente analizar la relación entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias. Se cuenta para ello con la información obtenida en el centro. Orientación Orientado No orientado Total Nivel estudios Básico Medio Superior Total 12 34 32 78 42 16 28 86 54 50 60 164 Calcule e interprete el coeficiente Chi cuadrado 𝝌𝟐 . Solución Calculando las frecuencias absolutas esperadas 𝑒𝑖𝑗 : Orientación Orientado No orientado Total Frecuencias esperadas Nivel estudios Básico Medio Superior Total 12 34 32 78 42 16 28 96 54 50 60 174 𝒏𝒊. 𝒏.𝒋 𝒆𝒊𝒋 = 𝒏 𝒆𝟏𝟏 = 𝟕𝟖 × 𝟓𝟒 = 𝟐𝟒. 𝟐𝟏 𝟏𝟕𝟒 𝒆𝟐𝟏 = 𝟗𝟔 × 𝟓𝟒 = 𝟐𝟗. 𝟕𝟗 𝟏𝟕𝟒 𝒆𝟏𝟐 = 𝟕𝟖 × 𝟓𝟎 = 𝟐𝟐. 𝟒𝟏 𝟏𝟕𝟒 𝒆𝟐𝟐 = 𝟗𝟔 × 𝟓𝟎 = 𝟐𝟕. 𝟓𝟗 𝟏𝟕𝟒 𝒆𝟏𝟑 = 𝟕𝟖 × 𝟔𝟎 = 𝟐𝟔. 𝟗𝟎 𝟏𝟕𝟒 𝒆𝟐𝟐 = 𝟗𝟔 × 𝟔𝟎 = 𝟑𝟑. 𝟏𝟎 𝟏𝟕𝟒 Nivel estudios Calculando el coeficiente chi cuadrado 𝜒 2 : 𝑛𝑖. 𝑛.𝑗 𝑛𝑖𝑗 − 𝑛 𝜒2 = 𝑛𝑖. 𝑛.𝑗 𝑖=1 𝑗=1 𝑛 ℎ 12 − 24.21 𝝌 = 24.21 𝟐 𝑝 2 34 − 22.41 + 22.41 2 2 32 − 26.9 + 26.9 Orientación Orientado No orientado Total 2 Básico Superior Total Medio 12 (24.21) 34 (22.41) 32 (26.90) 78 42 (29.79) 16 (27.59) 28 (33.10) 96 42 − 29.79 + 29.79 60 50 54 2 16 − 27.59 + 27.59 2 174 28 − 33.10 + 33.10 2 segunda fila Primera fila 𝝌𝟐 = 6.1556 + 5.9892 + 0.9683 + 5.0014 + 4.8662 + 0.7868 Primera fila segunda fila 𝝌𝟐 = 23.7676 Interpretación Cómo 𝝌𝟐 = 𝟐𝟑. 𝟕𝟔𝟕𝟔 > 𝟎 es mayor a cero, indica que hay relación entre las dos variables, es decir, hay relación entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias. Una expresión alternativa de este estadístico es: 𝑛𝑖. 𝑛.𝑗 𝑛𝑖𝑗 − 𝑛 𝜒2 = 𝑛𝑖. 𝑛.𝑗 𝑖=1 𝑗=1 𝑛 ℎ 𝑝 2 ℎ 𝑝 𝑛𝑖𝑗 2 −1 𝜒 = 𝑛 𝑛𝑖. 𝑛.𝑗 2 𝑖=1 𝑗=1 Inconvenientes • Uno de los inconvenientes del estadístico 𝜒 2 es que no esta acotado entre o y 1. 𝜒2 ≥ 0 • Con objeto de tener coeficientes acotados que además permitan comparar tablas distintas, se han propuesto diversas medidas, algunas de las cuales se recogen a continuación. Uno de los inconvenientes del estadístico 𝜒 2 es que no esta acotado entre o y 1. Con objeto de tener coeficientes acotados que además permitan comparar tablas distintas, se han propuesto diversas medidas, algunas de las cuales se recogen a continuación. El Coeficiente V de Cramer El Coeficiente de Contingencia C de Pearson CHI CUADRADO V DE CRAMER C DE CONTINGENCIA DE PEARSON C DE CONTINGENCIA DE PEARSON Viene definido por: Coeficiente Chi cuadrado 𝐶= 𝜒2 𝑛 + 𝜒2 Tamaño de la muestra Donde: 𝟎≤𝑪<𝟏 El valor máximo es: 𝒗𝒎á𝒙 = 𝟏 𝟏− 𝒎𝒊𝒏(𝒉; 𝒑) 𝟏 es decir: 0 ≤ 𝐶 ≤ 𝟏 − 𝒎𝒊𝒏 𝒉; 𝒑 < 𝟏 En el caso de tablas de contingencia ℎ × ℎ, se tiene: 𝒗𝒎á𝒙 = 1 1− ℎ es decir: 0 ≤ 𝐶 ≤ 1− 1 <1 ℎ CARACTERÍSTICAS • Puede asumir valores mayores o iguales a cero y menores que 1. • El valor 0, lo alcanza cuando 𝜒 2 = 0 indica que las dos variables no tienen relación. • El valor 1 sólo lo consigue si 𝒏 = 𝟎, lo que implica que no hay observaciones. • Cuanto mayor es el valor de C, mayor es la relación. • Esta medida de asociación no se ve afectada por el tamaño de la muestra y está acotada. • No se puede utilizar para comparar la fuerza de asociación entre dos tablas de clasificación cruzada. C DE CONTINGENCIA DE PEARSON Para una mejor interpretación del grado de la relación del coeficiente, utilizaremos el siguiente clasificador: : Valor del coeficiente Nivel 0.00 Ninguno 0.01 – 0.09 Muy débil 0.10 – 0.29 Débil 0.30 – 0.59 Moderado 0.60 – 0.74 Fuerte 0.75 – 0.99 Muy fuerte 1 Perfecto EJEMPLO 8 De cara a la planificación del próximo curso, seria conveniente analizar la relación entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias. Se cuenta para ello con la información obtenida en el centro. Orientación Orientado No orientado Total Nivel estudios Básico Medio Superior Total 12 34 32 78 42 16 28 86 54 50 60 164 Calcular e interpretar el coeficiente C de contingencia Solución Como se trata de una tabla de contingencia, se calcula el coeficiente Chi cuadrado ese resultado se encontró en el ejemplo anterior 𝝌𝟐 = 23.7676 El coeficiente C de contingencia es: 𝐶 = El valor máximo es: 𝒗𝒎á𝒙 = 𝟏− 𝜒2 = 𝑛 + 𝜒2 𝟏 = 𝒎𝒊𝒏(𝟑; 𝟐) 𝟏− 23.7676 = 0.3557 164 + 23.7676 𝟏 = 𝟎. 𝟕𝟎𝟕𝟏 𝟐 el coeficiente de contingencia con respecto al valor máximo representa: 𝐶 𝒗𝒎á𝒙 × 100 0.3557 × 100 = 50,30% Es un porcentaje moderado 0.7071 0 Interpretación 𝑪 = 𝟎. 𝟑𝟓𝟓𝟕 𝒗𝒎á𝒙 = 𝟎. 𝟕𝟎𝟕𝟏 1 Luego, podemos concluir que el grado de asociación entre las variables es moderado. V DE CRAMER Viene definido por: Coeficiente Chi cuadrado 𝑉= 𝜒2 𝑛 min ℎ; 𝑝 − 1 Numero de columnas Tamaño de la muestra Numero de filas Donde: 𝟎≤𝑽≤𝟏 Que toma el valor 0 en el caso de independencia y el valor de 1 en el de asociación perfecta, V DE CRAMER Para una mejor interpretación del grado de la relación del coeficiente, utilizaremos el siguiente clasificador: : Valor del coeficiente Nivel 0.00 Ninguno 0.01 – 0.09 Muy débil 0.10 – 0.29 Débil 0.30 – 0.59 Moderado 0.60 – 0.74 Fuerte 0.75 – 0.99 Muy fuerte 1 Perfecto CARACTERISTICAS • Puede asumir valores mayores o iguales a cero y también menores o iguales que 1. • El valor 0 lo alcanza cuando 𝜒 2 = 0 relación. indica que las dos variables no tienen • Cuanto mayor es el valor de V, mayor es la relación. • Esta medida de asociación no se ve afectada por el tamaño de la muestra y está acotada. • Se puede utilizar para comparar la fuerza de asociación entre dos tablas de clasificación cruzada. Se puede considerar que las tablas que tienen un valor mayor para Cramer's V tienen una relación fuerte entre las variables, con un valor menor para V que indica una relación más débil. EJEMPLO 9 De cara a la planificación del próximo curso, seria conveniente analizar la relación entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias. Se cuenta para ello con la información obtenida en el centro. Orientación Orientado No orientado Total Nivel estudios Básico Medio Superior Total 12 34 32 78 42 16 28 86 54 50 60 164 Calcular e interpretar el coeficiente V de Cramer Solución De cara a la planificación del próximo curso, seria conveniente analizar la relación entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias. Se cuenta para ello con la información obtenida en el centro. Como se trata de una tabla de contingencia, se calcula el coeficiente Chi cuadrado y sus derivados para hacer posible la interpretación. 𝝌𝟐 = 23.7676 El coeficiente V de Cramer es: 𝑉= 23.7676 = 164 min 2; 3 − 1 Interpretación 𝑉= 𝜒2 𝑛 min ℎ; 𝑝 − 1 23.7676 = 164 2 − 1 23.7676 = 0.3806 164(1) Luego, podemos concluir que el grado de asociación entre las variables es moderado. EJEMPLO 10 A un grupo de 50 jóvenes recién licenciados en Economía, Derecho o Matemáticas, se les pregunta su opinión sobre la posibilidad de encontrar trabajo en menos de un año tras la finalización de sus estudios. Las respuestas se ordenan en tres categorías: poco probable, bastante probable y muy probable. Los resultados obtenidos se reflejan en la tabla adjunta a. Construir la tabla de frecuencias esperadas b. Estudiar la asociación entre la titulación y la opinión respecto al mercado de trabajo. Solución a. Los valores de la tabla de frecuencias esperadas suponiendo independencia vienen definidos por: Tabla de frecuencias esperadas Opinión Titulación Poco probable Bastante probable Muy probable Total Economía 2,1 4,8 8,1 15 Derecho 3,5 8,0 13,5 25 Matemáticas 1,4 3,2 5,4 10 Total 7 16 27 50 Tabla de frecuencias esperadas Opinión 𝝌𝟐 Titulación Poco probable Bastante probable Muy probable Total Economía 2,1 4,8 8,1 15 Derecho 3,5 8,0 13,5 25 Matemáticas 1,4 3,2 5,4 10 Total 7 16 27 50 1 − 2,1 = 2.1 2 4 − 4,8 + 4,8 2 10 − 8,1 + 8,1 Primera fila 𝝌𝟐 = 𝟏𝟒, 𝟔𝟒 2 1 − 3,5 + 3,5 2 9−8 + 8 Segunda fila 2 2 − 5,4 +. . . 5,4 2 tercera fila Como 𝝌𝟐 = 14,64 De donde se deduce que existe cierta asociación entre ambos atributos. Los coeficientes de contingencia de Pearson C, V de Cramer son: 𝐶= 𝑉= 𝜒2 𝑛 + 𝜒2 = 14,64 = 0,48 50 + 14,64 14,64 50 min 3;3 −1 = 14,64 50 3−1 = 14,64 50(2) = 0,38 Valor del coeficiente Nivel 0.00 Ninguno 0.01 – 0.09 Muy débil 0.10 – 0.29 Débil 0.30 – 0.59 Moderado 0.60 – 0.74 Fuerte 0.75 – 0.99 Muy fuerte 1 Perfecto Interpretación El grado de asociación entre los dos caracteres es moderado. EJERCICIOS PROPUESTOS Determinar si existe relación entre situación laboral (se trabaja / no se trabaja) y tipo de enseñanza elegida (tradicional / a distancia) por estudiantes universitarios. En una muestra de 2000 alumnos se observó que el 20% estaban matriculados en enseñanza a distancia, y de ellos trabajaban 300, mientras que de los alumnos matriculados en la enseñanza tradicional sólo trabajaba un 10%. a. Construir la tabla de frecuencias esperadas b. Estudiar la asociación entre el tipo de enseñanza y la situación laboral. EJERCICIOS PROPUESTOS Un investigador desea encontrar la asociación entre la cantidad de estrés en 167 estudiantes de una Universidad del primer semestre dependiendo de sus condiciones socioeconómicas, como se muestra en la siguiente tabla: a. Construir la tabla de frecuencias esperadas b. Estudiar la asociación entre la condición socioeconómica y la cantidad de estrés en los estudiantes. Limitaciones ➢ Como esta prueba (chi cuadrado) depende el cálculo de las frecuencias esperadas, entonces no conviene que muchas frecuencias esperadas sean muy pequeñas (inferiores a 5) más que en unas pocas casillas, sino el cálculo se distorsiona y no es adecuado para su interpretación. ➢ Si es en muchas las casillas donde esto ocurre (más del 20% por ejemplo) se debe usar una prueba que no incluya aproximaciones, como la prueba exacta de Fisher ➢ Si las variables poseen muchos niveles posiblemente la prueba no resulte de mucho interés, ya que es lógico esperar que se encuentren diferencias. ➢ Se aplica principalmente a variables cualitativas y no cuantitativas Si una de las variables es cuantitativa (ingresos, salarios, deudas) u ordinal (puntuaciones), es posible que nos interese además de la asociación , saber si hay cambios significativos según incrementos de unidades de alguna de las variables, lo cual no es adecuado si usa chi cuadrado. Coeficiente de Correlación por Rangos de Spearman: • El Coeficiente de Correlación por Rangos de Spearman permite determinar la correlación de datos de carácter ordinal midiendo la concordancia o discordancia entre las clasificaciones. • Formulación: Si no hay empates D: diferencia de valores para las dos variables. • Interpretación: ✓ Si ρ= 1: Correlación por rangos perfecta y positiva. La concordancia entre los rangos es perfecta ✓Si ρ = -1: Correlación por rangos perfecta y negativa. La concordancia entre los rangos es perfecta ✓Si ρ = 0: Correlación por rangos nula. No hay concordancia entre los rangos ✓Si 0 < ρ < 1: Correlación por rangos positiva y si -1 < ρ <0: Correlación por rangos negativa MEDIDAS DE ASOCIACIÓN Medida de asociación Tabla Escala de Medida Observaciones Phi 2x2 Nominales V de Cramer fxc Nominales Lambda fxc Nominales Toma valores entre 0 y 1. Disponen versión asimétrica. Es fácil de interpretar en términos de la proporción que se reduce le error de predicción del valor de una variable a partir de los valores de la otra (pero puede tomar valores muy bajos en tablas con asociación). Gamma fxc Ordinales Tau b / c de fxc Ordinales Toma valores entre -1 y 1, pasando por 0. Gamma es más fácil de interpretar. Asume relaciones curvilineales. Tau b sólo alcanza valores extremos cuando hay asociación total y f y c son iguales. Tau c tiende a subestimar la relación. Kendall Medidas basadas en chi cuadrado. Toman valores comprendidos entre 0 y 1. Evalúa hipótesis lineales (diagonal principal). Son útiles para estimar grados de asociación entre pares de variables, sobre un mismo conjunto de individuos para n filas y columnas.