SEMANA 5– ESTADÍSTICA ESTADÍSTICA SEMANA 5 Estadística bivariada Todos los derechos de autor son de la exclusiva propiedad de IACC o de los otorgantes de sus licencias. No está permitido copiar, reproducir, reeditar, descargar, publicar, emitir, difundir, poner a disposición del público ni utilizar los contenidos para fines comerciales de ninguna clase. IACC 1 SEMANA 5– ESTADÍSTICA APRENDIZAJE ESPERADO El estudiante será capaz de analizar ejercicios y problemas de estadística bivariada usando procedimientos de relacionamiento de variables. IACC 2 SEMANA 5– ESTADÍSTICA APRENDIZAJE ESPERADO..................................................................................................................... 2 INTRODUCCIÓN ................................................................................................................................... 4 1. TABLAS DE FRECUENCIAS BIVARIADAS ....................................................................................... 5 2. ¿CÓMO SE RELACIONAN LAS VARIABLES? ................................................................................ 10 3. 2.1. COVARIANZA ..................................................................................................................... 10 2.2. COEFICIENTE DE CORRELACIÓN ........................................................................................ 12 2.3. COEFICIENTE DE DETERMINACIÓN ................................................................................... 15 ESTADÍSTICA BIVARIADA CON EXCEL ........................................................................................ 16 COMENTARIO FINAL.......................................................................................................................... 20 REFERENCIAS ..................................................................................................................................... 21 IACC 3 SEMANA 5– ESTADÍSTICA INTRODUCCIÓN En las aplicaciones de la estadística hay muchos problemas que requieren un análisis combinado de dos variables. En las siguientes áreas: administración, en educación y en muchas otras materias, a menudo es necesario contestar preguntas como: “¿Están relacionadas estas dos variables? Si es así, ¿de qué manera? ¿Existe una correlación entre las variables?”. Considere los siguientes ejemplos: - ¿Existe alguna relación entre la estatura y el peso? - Los médicos prueban fármacos nuevos para combatir la fiebre amarilla, al prescribir dosis diferentes y observar las respuestas de sus pacientes. IACC 4 SEMANA 5– ESTADÍSTICA 1. TABLAS DE FRECUENCIAS BIVARIADAS Una tabla de frecuencias bivariada también es llamada tabla de frecuencias bidimensional y lo que hace es resumir la distribución de frecuencias de dos variables de manera simultánea. En donde: nij : es la frecuencia conjunta del valor de la clase xi y del valor de la clase yj ni : es la frecuencia marginal de la clase xi n j : es la frecuencia marginal de la clase yj n : es el tamaño de la muestra. Además se cumple que: Para un mejor entendimiento, a continuación se revisarán ejemplos, teniendo en cuenta los contenidos vistos en semanas anteriores: IACC 5 SEMANA 5– ESTADÍSTICA Ejemplo 1: Se tiene la siguiente información acerca de la edad X y del número de años de estudio Y, de un grupo de personas de una localidad del sur de Chile: Si se quiere calcular el “promedio de edad de las personas que estudiaron 14 años”, se transforma en un problema de una sola variable: Como la variable es continua (se debe considerar la marca de clase de la variable edad), el tiempo promedio es: Tiempo 20 2 24 1 28 2 5 Cabe destacar que el total de individuos es 5, ya que son ellos los que cumplen la condición de estudiar 14 años y que 2 tienen 20 años, 1 tiene 24 y 2, 28 años, entonces: Tiempo 20 2 24 1 28 2 40 24 56 120 24 5 5 5 Luego, la edad promedio de las personas que estudiaron 14 años es de 24 años. Ejemplo 2: Se desea estudiar el promedio de “años de estudio”, pero solo de aquellas personas menores de 26 años: IACC 6 SEMANA 5– ESTADÍSTICA Nuevamente se transforma en un problema de una sola variable. Luego, se tiene: Años 12 7 13 1 14 3 15 3 84 13 42 45 184 13,14 14 14 14 Así, el promedio de años de estudio para los menores de 26 años es de aproximadamente 13 años. Ejemplo 3: Para un grupo de matrimonios la información de la edad del marido (X) y la edad de la mujer (Y) está dada en la siguiente tabla: a) Determine el porcentaje de matrimonios en que ambos cónyuges tienen entre 20 y 30 años. b) Determine la media de la edad de las mujeres cuyos maridos tienen a lo más 35 años. c) Determine cuál rango de edad de los maridos es más homogéneo, ¿de las mujeres que tienen entre 20 y 25 años o de las que tienen entre 35 y 40 años? IACC 7 SEMANA 5– ESTADÍSTICA Solución: a) El total de matrimonios es de 93 (que es la suma de datos de la tabla). El número de matrimonios que cumplen con la condición de edad (entre 20 y 30) son: Es decir: 35 + 7 + 3 + 14 = 59 Luego, el porcentaje es = (59/93) * 100 = 63,44% b) “A lo más 35 años” significa que la edad de los maridos es menor o igual a dicho número. Entonces, el grupo que se debe evaluar es: Así, se puede escribir la tabla de la siguiente manera. Recordar que la marca de clases es calcular los extremos dividido por dos, es decir y tomando como ejemplo el primer intervalo, se tiene (20 + 25)/2 = 45/2 = 22,5. Y(años) 20 - 25 25 - 30 30 - 35 35 - 40 Marca de Clase 22,5 27,5 32,5 37,5 N° matrimonios 40 24 22 6 Y(años) 20 - 25 25 - 30 30 - 35 35 - 40 N° matrimonios Mc*N°matri 40 900 24 660 22 715 6 225 2500 IACC 8 SEMANA 5– ESTADÍSTICA Luego, si la cantidad total de matrimonios es 92: YX 35 2.500 27,174 92 Por lo tanto, la media de la edad de las mujeres cuyos maridos tienen a lo más 35 años es de 27 años aproximadamente. c) Finalmente, para determinar cuál rango de edad de los maridos es más homogéneo, hay que calcular el coeficiente de variación para las siguientes tablas: X(años) 20 - 25 25 - 30 30 - 35 35 - 40 N° matrimonios 35 3 2 0 X(años) 20 - 25 25 - 30 30 - 35 35 - 40 N° matrimonios 1 3 2 1 - Para la primera tabla se tiene: Recordar que las fórmulas son: Luego: X 20Y 25 935 23,375 . 40 CV ( X 20Y 25 ) 22.100 23,375 2 6,11 2,47 40 2,47 0,1057 10,57% 23,375 IACC 9 SEMANA 5– ESTADÍSTICA - Para la segunda tabla se tiene: Marca de Clase 22,5 27,5 32,5 37,5 X(años) 20 - 25 25 - 30 30 - 35 35 - 40 N° matrimonios Mc*N°matri Mc^2*N°matrim 1 22,5 506,3 3 82,5 2.268,8 2 65 2.112,5 1 37,5 1.406,3 207,5 6.293,8 Luego: X 35Y 40 207,5 29,642 7 6.293,8 29,642 2 20,46 4,523 7 CV ( X 35Y 40 ) 4,523 0,1526 15,26% 29,642 Por lo tanto el grupo más homogéneo son los matrimonios cuya edad de la mujer es menor a 25 años, ya que su coeficiente de variación es menor. 2. ¿CÓMO SE RELACIONAN LAS VARIABLES? En este segmento se explicarán tres conceptos básicos de la estadística bivariada muy importantes para determinar cómo se pueden relacionar las variables, llamadas medidas de correlación, cuya técnica permite justamente determinar si existe o no relación entre dos o más variables. 2.1. COVARIANZA La covarianza entre dos variables es una medida estadística para determinar el tipo de relación entre dichas variables. Se la identificará como: S xy S xy XY X Y IACC 10 SEMANA 5– ESTADÍSTICA Observaciones: La covarianza pertenece a los números reales. Si S xy 0 La relación entre la variable x e y es directa, es decir, si una de las variables aumenta la otra también o si una de ellas disminuye la otra también. Si S xy 0 La relación entre la variable x e y es inversa, es decir, si una de las variables aumenta la otra disminuye o si una de ellas disminuye la otra aumenta. Si S xy 0 No existe relación entre la variable x e y. Ejemplo: Una empresa desea estudiar la relación entre la edad de sus trabajadores y los días no trabajados. Considerar: X = edad. Y = N° de días no trabajados. Los datos son: Edad de los trabajadores 20 – 25 25 – 30 30 – 40 40 – 50 N° días no trabajados 0–6 6 – 12 12 – 18 0 4 12 6 3 4 1 2 1 0 6 8 Al completar la tabla con los totales, se calculan los promedios: IACC 11 SEMANA 5– ESTADÍSTICA De este modo: Edad 22,5 5 27,5 18 35 13 45 11 1.557,5 33,14 47 47 Dias 3 16 9 16 15 15 417 8,8723 47 47 Para el promedio de la multiplicación de las variables, observe la siguiente tabla: Edad 20 – 25 25 – 30 30 – 40 40 – 50 Total columna Mc (N° días no trabajados) 0–6 0/0 12 / 990 3 / 315 1 / 135 16 3 N° días no trabajados 6 – 12 12 – 18 4 / 810 1 / 337,5 6 / 1.485 0/0 4 / 1.260 6 / 3.150 2 / 810 8 / 5.400 16 15 9 Total fila 5 18 13 11 Mc (Edad) 22,5 27,5 35 45 N 47 15 Donde los números destacados se obtienen multiplicando la Mc de X, Mc de Y y la frecuencia (por ejemplo: 990 = 27,5 * 3 * 12) Edad Días 0 810 337,5 990 1485 0 315 1260 3150 135 810 5400 312,61 47 S xy XY X Y 312,61 33,14 8,8723 18,58 0 Entonces, se puede concluir que la relación es directa, pues, si la edad de los trabajadores aumenta, los días no trabajados también. 2.2. COEFICIENTE DE CORRELACIÓN En una distribución bivariada (bidimensional) puede ocurrir que las dos variables tengan algún tipo de relación entre sí. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso. El coeficiente de correlación mide el grado de intensidad de esta posible relación entre las variables. IACC 12 SEMANA 5– ESTADÍSTICA Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si se representara en un gráfico los pares de valores de las dos variables, la nube de puntos se aproximaría a una recta). No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal no mediría correctamente la intensidad de la relación de las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado. rxy S xy S S x y Observaciones: El coeficiente de correlación pertenece al intervalo: 1 r xy Si r xy 1 1 La relación entre la variable x e y es lineal con pendiente positiva, es decir, la nube de puntos puede aproximarse a una línea recta con pendiente positiva (una recta creciente). Por ejemplo, altura y peso: los alumnos más altos suelen pesar más. Si r xy 1 La relación entre la variable x e y es lineal con pendiente negativa, es decir, la nube de puntos puede aproximarse por una línea recta con pendiente negativa (una recta decreciente). Por ejemplo, peso y velocidad: los alumnos más gordos suelen correr menos. IACC 13 SEMANA 5– ESTADÍSTICA Si r xy 0 Significa que no existe relación lineal entre la variable x e y. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.). Ejemplo: La siguiente tabla muestra el número de trabajadores y las utilidades (en millones de $) de un grupo de 56 empresas. Considerar: X = N de trabajadores. Y = utilidades (en millones de $). N° de trabajadores Utilidades (en millones de $) 4–8 1–4 0 – 100 100 – 200 200 – 300 300 – 400 nj MC j 8 – 12 ni 12 / 1.500 6 / 2.250 4 / 2.500 0/0 22 6 / 1.800 3 / 2.700 5 / 7.500 6 / 12.600 20 0/0 1 / 1.500 3 / 7.500 10 / 35.000 14 2,5 6 10 MCi 18 10 12 16 50 150 250 350 N 56 Calculando el coeficiente de correlación ( r ). xy X 50 18 150 10 250 12 350 16 11.000 196,428 56 56 IACC 14 SEMANA 5– ESTADÍSTICA Y 2,5 22 6 20 10 14 315 5,625 56 56 2,5 50 12 6 50 6 10 50 0 2,5 150 6 6 150 3 10 150 1 2,5 250 4 6 250 5 10 250 3 2,5 350 0 6 350 6 10 350 10 XY 56 74.850 1.336,607 56 Por lo tanto: S xy XY X Y S 1.336 ,607 196 ,428 5,625 xy S xy 231,6995 Entonces la covarianza indica que existe relación directa entre el número de trabajadores y las utilidades de las empresas, es decir, a mayor número de trabajadores, mayor cantidad de utilidades). s x 2.980 .000 11.000 2 14.630 ,102 120 ,955 56 56 s y 2.257 ,5 315 2 8,672 2,945 56 56 r xy 231,6995 0,65 120 ,955 2,945 El coeficiente de correlación indica que existe relación lineal entre el número de trabajadores y las utilidades, con pendiente positiva. 2.3. COEFICIENTE DE DETERMINACIÓN El coeficiente de determinación es un instrumento de medición estadística que sirve para conocer cuánto influye la variable x (independiente) en la y (dependiente). IACC 15 SEMANA 5– ESTADÍSTICA 2 rxy S xy S x S y 2 Es decir, al calcular el coeficiente de correlación, se eleva al cuadrado. Siguiendo el ejemplo anterior: rxy 231,6995 0,65 120 ,955 2,945 231,6995 ) 2 0,42 120 ,955 2,945 rxy ( Luego, el coeficiente de determinación indica que el 42% de las utilidades son influenciadas por la cantidad de trabajadores o que el 42% de los trabajadores tiene influencias sobre las utilidades. 3. ESTADÍSTICA BIVARIADA CON EXCEL Para desarrollar algunos ejemplos en Excel se ocupará la base de datos que se encuentra en el archivo Excel de esta semana (Contenidos Semana 5.xlsx) y se contestará lo siguiente: Ejemplo 1: Construir una tabla que cuente los datos clasificados por rango de estatura y nivel socioeconómico. a) ¿Cuántas personas tienen una estatura sobre 161 cm y hasta 179 cm? b) ¿Cuántas personas tienen una estatura de a lo más 170 cm y poseen un nivel socioeconómico bajo o medio? c) ¿Qué porcentaje de personas son de nivel socioeconómico medio o alto? d) De las personas que tienen una estatura desde 152 cm y hasta 170 cm, ¿qué porcentaje poseen un nivel socioeconómico bajo? IACC 16 SEMANA 5– ESTADÍSTICA Solución: Para desarrollar este ejercicio, se debe construir una tabla dinámica que presente las variables descritas, esto es: Cuenta de ID Rango Estatura 152 - 161 161 - 170 170 - 179 Total general Nivel socioeconómico Bajo 59 56 11 126 Medio 122 119 25 266 Alto 47 40 21 108 Total general 228 215 57 500 a) ¿Cuántas personas tienen una estatura sobre 161 cm y hasta 179 cm? Para resolver esto, se debe filtrar la variable Rango Estatura según la o las filas que se deban ocupar: Cuenta de ID Rango Estatura 161 - 170 170 - 179 Total general Nivel socioeconómico Bajo 56 11 67 Medio 119 25 144 Alto 40 21 61 Total general 215 57 272 Entonces, hay 272 personas que tienen una estatura sobre 161 cm y hasta 179 cm. b) Para saber ¿cuántas personas tienen una estatura de a lo más 170 cm y poseen un nivel socioeconómico bajo o medio? Al realizar los filtros se tiene: Cuenta de ID Rango Estatura 152 - 161 161 - 170 Total general Nivel socioeconómico Bajo 59 56 115 Medio 122 119 241 Total general 181 175 356 Hay 356 personas que miden a lo más 170 cm y son de nivel socioeconómico bajo o medio. c) Ahora ¿qué porcentaje de personas son de nivel socioeconómico medio o alto? Al realizar los filtros se ordenan los datos como porcentaje del total: Cuenta de ID Rango Estatura 152 - 161 161 - 170 170 - 179 Total general Nivel socioeconómico Bajo 11,80% 11,20% 2,20% 25,20% Medio 24,40% 23,80% 5,00% 53,20% Alto 9,40% 8,00% 4,20% 21,60% Total general 45,60% 43,00% 11,40% 100,00% Por tanto, el 74,8% (53,2% + 21,6%) de las personas son de nivel socioeconómico medio o alto. IACC 17 SEMANA 5– ESTADÍSTICA d) Y de las personas que tienen una estatura desde 152 cm y hasta 170 cm, ¿qué porcentaje poseen un nivel socioeconómico bajo? Al realizar los filtros se ordenan los datos como porcentaje del total: Cuenta de ID Rango Estatura 152 - 161 161 - 170 Total general Nivel socioeconómico Bajo 13,32% 12,64% 25,96% Medio 27,54% 26,86% 54,40% Alto 10,61% 9,03% 19,64% Total general 51,47% 48,53% 100,00% Entonces el resultado arroja que el 25,96% de los que miden desde 152 cm y hasta 170 cm, tienen un nivel socioeconómico bajo. Ejemplo 2: Construir una tabla que cuente con los datos clasificados por rango de peso y rango de estatura. a) ¿Cuántas personas pesan entre 51,3 y 59,9 kg y miden entre 170 y 179 cm? b) De las personas que miden a lo más 170 cm, ¿qué porcentaje pesa más de 68,5 kg? c) ¿Con respecto a qué variable la muestra presenta menos variabilidad? Justifique. Cuenta de ID Rango peso 51,3 - 59,9 59,9 - 68,5 68,5 - 77,1 Total general Rango Estatura 152 - 161 106 111 11 228 161 - 170 39 88 88 215 170 - 179 0 17 40 57 Total general 145 216 139 500 Solución: a) La primera pregunta es ¿cuántas personas pesan entre 51,3 y 59,9 kg y miden entre 170 y 179 cm? Se obtiene que: Cuenta de ID Rango peso Total general Rango Estatura Total general 0 Entonces, no hay personas que pesan entre 51,3 y 59,9 kg, y que midan entre 170 y 179 cm. b) Luego, se obtiene la siguiente tabla de acuerdo a los datos obtenidos: IACC 18 SEMANA 5– ESTADÍSTICA Cuenta de ID Rango peso 51,3 - 59,9 59,9 - 68,5 68,5 - 77,1 Total general Rango Estatura 152 - 161 23,93% 25,06% 2,48% 51,47% 161 - 170 8,80% 19,86% 19,86% 48,53% Total general 32,73% 44,92% 22,35% 100,00% Aproximadamente un 22,35% de los que miden a lo más 170 cm, pesan más de 68,5 kg. c) Finalmente para responder qué variable presenta menos variabilidad: Promedio de Peso (kg) Rango peso 51,3 - 59,9 59,9 - 68,5 68,5 - 77,1 Total general Total 57,7 63,4 71,5 64,0 Promedio de Estatura (cm) Rango Estatura 152 - 161 161 - 170 170 - 179 Total general Total 159 165 173 163 Desvest de Peso (kg) Rango peso 51,3 - 59,9 59,9 - 68,5 68,5 - 77,1 Total general Total 1,8 2,6 2,1 5,7 Desvest de Estatura (cm) Rango Estatura 152 - 161 161 - 170 170 - 179 Total general Total 2,2 2,6 1,8 5,3 CV (peso) = 8,9% CV (estatura) = 3,3% Otra manera para responder la pregunta de variabilidad, es con el resumen de estadística descriptiva, de la función análisis de datos. Para calcular la covarianza y coeficiente de correlación se debe digitar las siguientes fórmulas: Covarianza: =COVAR(DATOS_DE_X ; DATOS_DE_Y) Coeficiente de correlación: =COEF.DE.CORREL(DATOS_DE_X; DATOS_DE_Y) IACC 19 SEMANA 5– ESTADÍSTICA COMENTARIO FINAL En esta semana se aprendió como introducción el estudio de la estadística bivariada, ya que es el comienzo de las aplicaciones más comunes de esta área en, por ejemplo, medicina, psicología, y especialmente en economía y econometría. Sin lugar a dudas, estas áreas serán beneficiadas con estos conocimientos y herramientas estadísticas aplicadas en la vida del futuro profesional, que no solo las necesitará, sino que sacará mucho provecho en su diario quehacer al obtener valiosos resultados inapelables. IACC 20 SEMANA 5– ESTADÍSTICA REFERENCIAS Anderson, D.; Sweeney, D. y Williams, T. (2008). Estadística para administración y economía, 10ª edición. México: Cengage Learning. Devore, J. (1998). Probabilidad y estadística para ingeniería y ciencias. México: International Thomson Editores. Levin, R.; Rubin, D.; Balderas, M.; Del Valle, J. C. y Gómez, R. (2004). Estadística para administración y economía. 7ª edición. México: Pearson, Prentice-Hall. Ross, S. (1997). A first course in probability. Berkeley: Universidad de California. IACC 21 SEMANA 5– ESTADÍSTICA PARA REFERENCIAR ESTE DOCUMENTO, CONSIDERE: IACC 22 SEMANA 5– ESTADÍSTICA IACC (2018). Estadística bivariada. Estadística. Semana 5. IACC 23 SEMANA 5– ESTADÍSTICA IACC 24