ESTADÍSTICA GRADO INGENIERÍA MECÁNICA Celeste Pizarro Romero Departamento de Matemática Aplicada. ESCET. URJC Curso 2018/19 TEMA 2 DESCRIPCIÓN DE DATOS BIVARIANTES Introducción Datos bivariantes I En el anterior tema hemos analizado herramientas para describir el comportamiento de una variable observada en un conjunto de unidades experimentales. I Pero en muchas ocasiones será necesario estudiar dos (o más) variables o caracterı́sticas sobre cada unidad experimental. I Por ejemplo, al analizar las nidos de Talampaya, puede que sea importante estudiar la subespecie de los ñandúes junto con el número de huevos, y realizar un estudio conjunto de las dos variables. I Los datos bivariantes proceden de la observación simultánea de dos variables, llamémoslas X e Y , en una población de n individuos. I Por tanto, este tipo de datos serán pares de la forma (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) Esquema I Relación entre dos variables categóricas I Variables independientes I La paradoja de Simpson I Relación entre una variable cuantitativa y una cualitativa I Relación entre dos variables cuantitativas I Tipos de relación entre variables numéricas I Covarianza I Coeficiente de correlación lineal I Correlaciones espurias Relación entre dos variables categóricas Frecuencias absolutas conjuntas I Consideremos una población de n individuos u objetos, y dos variables cualitativas: I una variable C con k modalidades, clases o valores, c1 , c2 , ...., ck , I otra variable D con l modalidades, d1 , d2 , ...., dl . I La frecuencia absoluta conjunta del par (ci , dj ), que denotaremos por nij , es el número total de observaciones que poseen al mismo tiempo la modalidad ci de C y la modalidad dj de D. I Estas frecuencias conjuntas se pueden disponer en una tabla de doble entrada. I Cuando las dos variables son cualitativas, dicha tabla recibe el nombre de tabla de contingencia. Tablas de contigencia I Las tablas de contingencia recogen las frecuencias conjuntas registradas para dos variables categóricas: C \D c1 c2 .. . d1 n11 n21 .. . d2 n12 n22 .. . ··· ··· ··· .. . dl n1l n2l .. . ck nk1 nk2 ··· nkl I Estas tablas resumen la distribución conjunta de las variables. I La suma de las frecuencias absolutas conjuntas de todas las combinaciones de las modalidades de C con las modalidades de D (es decir, de todas las casillas) es n, esto es, el número total de individuos o elementos en la población: k X l X i=1 j=1 nij = n Ejemplo: tabla de contigencia I En la la región del Biobı́o (Chile) se han llevado a cabo sesiones de avistamiento de chungungo (Lontra felina). Para cada ejemplar se ha registrado el hábitat en el que ha sido avistado (H) y el tipo de actividad que estaba realizando (A). I La tabla siguiente resume el resultado de este estudio: ↓A \ H → Alimentación Descanso Socialización Tránsito Agua 4 82 38 16 Roca 14 10 12 9 Arena 2 8 0 5 I Observamos, por ejemplo, que 12 de los chungungos avistados estaban sobre roca mientras socializaban. I Vemos también que lo más frecuente es encontrar chungungos que se encuentran en el agua y descansando. Hay un total de 82 chungungos con estas caracterı́sticas. Ejemplo: tablas de contigencia (continuación) I Para los chungungos del Biobı́o, ↓ A \ H → Agua Roca Arena Alimentación 4 14 2 Descanso 82 10 8 Socialización 38 12 0 Tránsito 16 9 5 podemos preguntarnos, por ejemplo: ¿cuál es el total de chungungos que fueron avistados en el agua? I Para responder a esta pregunta debemos sumar todos los casos en los cuales el hábitat es agua, independientemente de cuál sea el tipo de actividad realizada. Esto hace un total de 4 + 82 + 38 + 16 = 140 chungungos I De forma similar podemos comprobar que el número de chungungos que se encontraron descansando es 82 + 10 + 8 = 100 chungungos Frecuencias absolutas marginales I Además de la distribución conjunta de las variables C y D, cada una de ellas tiene su propia distribución de frecuencias absolutas. Estas son las llamadas frecuencias absolutas marginales. I La frecuencia absoluta marginal de la modalidad ci de la variable C es el número de veces que se repite la modalidad ci con independencia de la modalidad que tome la variable de D. Denotaremos este valor por ni. ni. = ni1 + ni2 + . . . + nil = l X nij j=1 I De forma análoga, la frecuencia absoluta marginal de D = dj , es el número de veces que se repite la modalidad dj independientemente de la modalidad que tome C . Este valor se denota por n.j n.j = n1j + n2j + . . . + nkj = k X i=1 nij Frecuencias absolutas marginales (continuación) I Las frecuencias marginales se calculan fácilmente en los márgenes de la tabla sumando las frecuencias conjuntas por filas o por columnas: C \D c1 c2 .. . d1 n11 n21 .. . d2 n12 n22 .. . ··· ··· ··· .. . dl n1l n2l .. . Total n1 . n2 . ck Total nk1 n. 1 nk2 n. 2 ··· ··· nkl n. l nk . n I La suma de las frecuencias marginales absolutas de cualquiera de las dos variables es n , es decir, el número total de elementos en la población: k X i=1 ni. = l X j=1 n.j = k X l X i=1 j=1 nij = n Distribuciones absolutas marginales I Las frecuencias marginales determinan una distribución para cada una de las variables: I I distribución marginal de C : Ci c1 c2 .. . ni n1 . n2 . .. . ck Total nk . n distribución marginal de D: D d1 d2 ni n. 1 n. 2 ··· ··· dl n. l Total n I Estas son las distribuciones de frecuencias absolutas marginales de las variables C y D, y permiten hacer un estudio (univariante) completo de cada una de las variables por separado. Ejemplo: frecuencias marginales absolutas I La tabla siguiente incluye las frecuencias absolutas marginales de las variables Actividad y Habitat en los chungungos del Biobı́o: ↓A \ H → Alimentación Descanso Socialización Tránsito Total Agua 4 82 38 16 140 Roca 14 10 12 9 45 Arena 2 8 0 5 15 Total 20 100 50 30 200 I Vemos que la distribución marginal de la variable tipo de actividad es Actividad (A) Alimentación Descanso Socialización Tránsito Total Total 20 100 50 30 200 Ejemplo (continuación) I A partir de la distribución marginal podemos, por ejemplo, representar la variable tipos de actividad mediante un diagrama de barras: 0 20 40 60 80 100 Tipo de actividad Alimentación Descanso Socialización Tránsito I Observamos que lo más frecuente es encontrar chungungos descansando. Esta es la moda de la variable cualitativa A. Ejemplo (continuación) I Por su parte, la distribución marginal de la variable habitat es Habitat (H) Total Agua 140 Roca 45 Arena 15 Total 200 0 20 40 60 80 100 120 140 Tipo de habitat Agua Roca Arena I Como puede verse, la moda de esta variable, es el agua. Frecuencias relativas conjuntas I Habitualmente es más informativo conocer la proporción de la frecuencia que corresponde a cada par de modalidades. I La frecuencia relativa conjunta del par (ci , dj ), que denotaremos por fij , es el cociente entre las frecuencias absolutas de dicho par y el número total de observaciones, es decir, nij fij = n I fij expresa la proporción (o tanto por uno) de observaciones que están en la clase ci de la variable C y al mismo tiempo en la clase dj de la variable D. I Multiplicado por 100 representa el porcentaje o tanto por ciento ( %) de la población que pertenece a ese par. Frecuencias relativas conjuntas (continuación) I Las frecuencias relativas conjuntas también se pueden resumir en una tabla de contingencia: C \D c1 c2 .. . d1 f11 f21 .. . d2 f12 f22 .. . ··· ··· ··· .. . dl f1l f2l .. . ck fk1 fk2 ··· fkl I La suma de las frecuencias relativas conjunta de todas las combinaciones de las modalidades de C con las modalidades de D (es decir, de todas las casillas) es 1 , esto es, el 100 %: k X l X i=1 j=1 fij = 1 Ejemplo: frecuencias relativas conjuntas I Las frecuencias relativas conjuntas del tipo de actividad y el habitat de los datos del Biobı́o se calculan dividiendo las frecuencias absolutas entre 200, que es el número total de chungungos avistados: ↓A \ H → Alimentación Descanso Socialización Tránsito Agua 0.02 0.41 0.19 0.08 Roca 0.07 0.05 0.06 0.045 Arena 0.01 0.04 0 0.025 I La tabla indica, por ejemplo, que la proporción de chungungos que se encuentran sobre roca y socializando es fsocializando, roca = nsocializando, roca 12 = = 0,06 n 200 o, si lo expresamos como porcentaje, un 6 %. Frecuencias relativas marginales I La frecuencia relativa marginal de C = ci es la proporción con la que aparece la modalidad ci con independencia de la modalidad que tome la variable de D. Denotaremos este valor por fi . : fi. = fi1 + fi2 + . . . + fil = l X fij j=1 Esta frecuencia relativa marginal también puede calcularse dividiendo la frecuencia absoluta marginal ni . entre el número total de datos: ni . fi . = n I De forma análoga, la frecuencia relativa marginal de D = dj , es la proporción con la que aparece la modalidad dj independientemente de la modalidad que tome C . Este valor se denota por f. j : f.j = n1j + f2j + . . . + fkj = k X i=1 fij = n. j n Frecuencias relativas marginales (continuación) I Las frecuencias relativas marginales también pueden calcularse en los márgenes de la tabla sumando las frecuencias relativas conjuntas por filas o por columnas: C \D c1 c2 .. . d1 f11 f21 .. . d2 f12 f22 .. . ··· ··· ··· .. . dl f1l f2l .. . Total f1 . f2 . ck Total fk1 f. 1 fk2 f. 2 ··· ··· fkl f. l fk . 1 I La suma de las frecuencias marginales relativas de cualquiera de las dos variables es 1 : k X i=1 fi. = l X j=1 f.j = k X l X i=1 j=1 fij = 1 Distribuciones relativas marginales I Las frecuencias marginales relativas determinan una distribución para cada una de las variables: I Las distribuciones de frecuencias relativas marginales de lasIvariables C y D son: distribución marginal de frecuencias relativas de C : Ci fi c1 f1 . c2 f2 . .. .. . . ck Total I fk . 1 distribución marginal de frecuencias relativas de D: D d1 d2 · · · dl Total fi f. 1 f. 2 · · · f. l 1 Ejemplo: distribuciones relativas marginales I La tabla siguiente incluye las frecuencias relativas marginales de las variables Actividad y Habitat en los chungungos de Biobı́o: ↓ A \ H → Agua Roca Arena Total Alimentación 0.02 0.07 0.01 0.1 Descanso 0.41 0.05 0.04 0.5 Socialización 0.19 0.06 0 0.25 Tránsito 0.08 0.045 0.025 0.15 Total 0.7 0.225 0.075 1 I Estas frecuencias marginales nos permiten comprobar, por ejemplo, que la proporción de chungungos del Biobı́o que han sido avistados descansando es 0.5, es decir, la mitad del total. O que los chungungos que avistados en el agua son el 70 % del total. Ejemplo (continuación) I Siguiendo con el ejemplo de los chungungos, ya hemos visto que la distribución de los tipos de Habitat en el total del Biobı́o es 0 20 40 60 80 100 Tipo de actividad en todos los chungungos avistados Alimentación Descanso Socialización Tránsito I La tabla y el diagrama se refieren a la distribución de los tipos de Habitat en el total de avistamientos. Pero, podrı́amos preguntarnos, por ejemplo, ¿cómo se distribuyen los tipos de actividad en los chungungos encontrados sobre roca? Ejemplo (continuación) I Observemos que, si nos limitamos a los chungungos avistados sobre roca, la distribución de frecuencias absolutas es 0 2 4 6 8 10 12 14 Tipo de actividad en chungungos avistados sobre roca Alimentación Descanso Socialización Tránsito I La población inicial de 200 chungungos se ha restringido a sólo 45: aquellos que cumplen la condición de haber sido avistados sobre roca. Además, la forma de distribuirse la frecuencia ha cambiado. Ejemplo (continuación) I Vamos a comparar la distribución de frecuencias en ambas poblaciones: Tipo de actividad en chungungos avistados sobre roca 0 0 2 20 4 40 6 8 60 10 80 12 14 100 Tipo de actividad en todos los chungungos avistados Alimentación Descanso Socialización Tránsito Alimentación Descanso Socialización Tránsito I En estos diagramas de barras se aprecia claramente que la distribución de la actividad para los chungungos avistados sobre roca es muy diferente a la del total de chungungos del Biobı́o. Ejemplo (continuación) I Hay que en cuenta que las escalas de los dos diagramas de barras anteriores son diferentes, ya que el número de chungungos representadas en ellos no es el mismo. El primer gráfico se refiere a un total de 45 chungungos y el segundo a 200 chungungos. I Para que la comparación sea más razonable deberı́amos basarnos en las frecuencias relativas de la variable en cada población. I La frecuencia relativa de cada tipo de actividad dentro de la población formada sólo por los 45 chungungos vistos sobre roca es: Tipo de Actividad ni fi Alimentación 14 0.31 Descanso 10 0.22 Socialización 12 0.27 Tránsito 9 0.20 Total 45 1 Ejemplo (continuación) I Por ejemplo la proporción de chungungos avistados en tránsito dentro de esta población es ntransito, roca 9 = = 0,20 n.roca 45 es decir, un 20 %. Esta es la frecuencia de los chungungos vistos en tránsito condicionada al hecho de que la variable Habitat toma la modalidad roca. I Estas frecuencias condicionadas sı́ pueden comparse directamente con las frecuencias relativas en toda la comarca de Biobı́o: Tipo de Actividad fi total Biobı́o fi Roca Alimentación 0.10 0.31 Descanso 0.50 0.22 Socialización 0.25 0.27 Tránsito 0.15 0.20 Total 1 1 Ejemplo (continuación) I Los diagramas de barras siguientes representan las distribuciones de frecuencias de la tabla anterior: Actividad en chungungos avistados sobre roca 0.0 0.0 0.1 0.1 0.2 0.2 0.3 0.3 0.4 0.4 0.5 0.5 Actividad en todos los chungungos avistados Alimentación Descanso Socialización Tránsito Alimentación Descanso Socialización Tránsito I Se aprecia, por ejemplo, que, aunque la moda en toda la población de chungungos es estar decansando, si nos limitamos a los chungungos avistados sobre roca, lo más frecuente es encontrarlos alimentándose. Distribuciones condicionadas I La frecuencia de la modalidad dj de la variable D condicionada a C = ci , que denotaremos fj|C =ci , es la proporción de elementos para los cuales se verifica D = dj dentro de los elementos de la población que satisfacen C = ci . I La frecuencia condicionada fj|C =c i viene dada por fj|C =ci = nij ni. y también puede calcularse como fj|C =ci = fij fi. I La distribución de D condicionada a C = ci , denotada D|C = ci , es la distribución de frecuencias relativas de la variable D sobre los elementos de la población que satisfacen la condición C = ci . D|C = ci d1 d2 ··· dl Total fj|C =ci f1|C =ci f2|C =ci · · · fl|C =ci 1 Distribuciones condicionadas (continuación) I De forma análoga, la frecuencia de la modalidad ci de la variable C condicionada a D = dj , que denotaremos fi|D=dj , es es la proporción de elementos para los cuales se verifica C = ci dentro de los elementos de la población que satisfacen la condición D = dj . I La frecuencia condicionada fi|D=d j viene dada por fi|D=dj = nij n.j y también puede calcularse como fi|D=dj = fij f.j I La distribución de C condicionada a D = dj , denotada C |D = dj , es la distribución de frecuencias relativas de la variable C sobre los elementos de la población que satisfacen D = dj . C |D = dj c1 c2 ··· ck Total fi|D=dj f1|D=dj f2|D=dj · · · fk|D=dj 1 Ejemplo: distribuciones condicionadas I Consideremos de nuevo los datos sobre los chungungos del Biobı́o: ↓A \ H → Alimentación Descanso Socialización Tránsito Total Agua 0.02 0.41 0.19 0.08 0.7 Roca 0.07 0.05 0.06 0.045 0.225 Arena 0.01 0.04 0 0.025 0.075 Total 0.1 0.5 0.25 0.15 1 I Vamos a calcular las frecuencias de la variable Habitat condicionadas a la modalidad alimentación de la variable Tipo de actividad fH=agua|A=alimentación = fH=roca|A=alimentación = fH=arena|A=alimentación = falimentación, agua falimentación falimentación, roca falimentación falimentación, arena falimentación = 0,02 = 0,2 0,1 = 0,07 = 0,7 0,1 = 0,01 = 0,1 0,1 Ejemplo: distribuciones condicionadas I Por tanto, la distribución de la variable Habitat condicionada a la modalidad alimentación de la variable Tipo de actividad es Habitat (H) fj|A=alimentación Agua 0.2 Roca 0.7 Arena 0.1 Total 1 I Esta es otra distribución de frecuencias para la variable H, diferente de la distribución marginal: Habitat (H) f.j Agua 0.7 Roca 0.225 Arena 0.075 Total 1 I Ambas son distribuciones de frecuencias relativas para la variable habitat constituidas por cantidades no negativas que suman 1. Pero la primera se refiere sólo a los chungungos que cumplen la condición de estar socializando, y la segunda al total de la población avistada. Ejemplo: distribuciones condicionadas (continuación) I Los siguientes diagramas de barras representan ambas distribuciones: Habitat en todos los changungos avistados 0.0 0.0 0.2 0.2 0.4 0.4 0.6 0.6 0.8 0.8 Habitat en changungos alimentándose Agua Roca Arena Agua Roca Arena I Los gráficos ponen de relieve que son muy diferentes entre sı́. Diagramas de barras adosadas I Para representar gráficamente la distribución de frecuencias de dos variables cualitativas se utilizan diagramas de barras adosadas, que ilustran la distribución de una de la variables dentro de cada una de las modalidades de la otra: 100 Habitat Agua Arena Roca 60 40 20 0 0 20 40 60 80 Alimentacion Descanso Socializacion Transito 80 100 Tipo de actividad Agua Arena Habitat Roca Alimentacion Descanso Socializacion Tipo de actividad Transito Variables independientes Variables estadı́sticamente independientes I Se dice que las variables C y D son estadı́sticamente independientes si para todas las combinaciones de modalidades de ambas se verifica fij = fi. × f.j I Ejemplo: Las variablesTipo de Actividad y Habitat de los chungungos del Biobı́o NO son ı́ndependientes, ya que, por ejemplo fAlimentación, Agua = 0,02 6= 0,07 = 0,1×0,7 = fAlimentación. ×f.A I El ejemplo siguiente ayudará a entender lo que significa que dos variables sean independientes. Ejemplo: variables independientes I La tabla siguiente resume el sexo (S) y el tipo (T ) al que pertenecen las aves rapaces de un bosque: T \S Aguila Buitre Halcón Milano Total Hembra 90 60 30 60 240 Macho 60 40 20 40 160 Total 150 100 50 100 400 I Vamos a analizar si las variables S y T son independientes. Ejemplo: variables independientes (continuación) I Para ello comenzamos por construir una tabla de frecuencias relativas: T \S Aguila Buitre Halcón Milano Total Hembra 0.225 0.150 0.075 0.150 0.6 Macho 0.15 0.10 0.05 0.10 0.4 Total 0.375 0.250 0.125 0.250 1 I Vemos que en todas las casillas se verifica fij = fi. × f.j ya que fHembra, Aguila = 0,225 fHembra, Buitre = 0,150 = 0,6 × 0,375 = fHembra. × f.Aguila = 0,6 × 0,250 = fHembra. × f.Buitre fHembra, Halcón = 0,075 = 0,6 × 0,125 = fHembra. × f.Halcón etcétera Ejemplo: variables independientes (continuación) I Puesto que que en todas las casillas se verifica fij = fi. × f.j las variables Sexo y Tipo de rapaz son variables independientes I Vamos a analizar la distribución de frecuencias relativas de la variable Tipo de rapaz en la población de hembras, es decir, la distribución de T condicionada por S=Hembra: Tipo Aguila Buitre Halcón Milano Total nS=Hembra 90 60 30 60 240 f S=Hembra 0.375 0.250 0.125 0.250 1 Ejemplo: variables independientes (continuación) I Analicemos ahora la distribución de frecuencias relativas de la variable Tipo de rapaz en la población de machos, es decir, la distribución de T condicionada por S=Macho: Tipo Aguila Buitre Halcón Milano Total nS=Macho 60 40 20 40 160 fS=Macho 0.375 0.250 0.125 0.250 1 I Como puede observarse, las frecuencias de T condicionadas por cualquiera de las categorı́as de S, son idénticas. Ejemplo: variables independientes (continuación) I Para terminar este análisis, vamos a comparar las frecuencias condicionadas (idénticas entre sı́) con las frecuencias marginales de T: Tipo ni. fi. Aguila 150 0.375 Buitre 100 0.250 Halcón 50 0.125 Milano 100 0.250 Total 400 1 I Observamos que las distribuciones de la variable Tipo de rapaz condicionada por cualquiera de los sexos son iguales entre sı́ y coinciden además con la distribución marginal de dicha variable. I Puede comprobarse que ocurre lo mismo con la distribución de la variable Sexo condicionada por cualquiera de los tipos de rapaz. I Esto es lo que ocurre en general cuando dos variables son independientes: la distribución de cada una de ellas no varı́a en función de la otra. Ejemplo: variables independientes (continuación) I Representando el tipo de rapaz dentro de cada sexo mediante barras adosadas, se observa que, en los cuatro tipos, machos y hembras se mantienen en la misma proporción: 100 Sexo 0 20 40 60 80 Hembra Macho Aguila Buitre Halcón Tipo de rapaz Milano Ejemplo: variables independientes (continuación) I Lo mismo se observa si se representa el tipo de rapaz para cada sexo: 100 Tipo de rapaz 0 20 40 60 80 Aguila Buitre Halcón Milano Hembra Macho Sexo Contrastes de independencia I Con los datos reales, rara vez sucede que dos variables cumplan la condición de independencia, es decir, que verifiquen fij = fi. × f.j para todas las combinaciones de modalidades de ambas. I Sin embargo, en bastantes ocasiones esta condición se cumple de manera aproximada, y puede considerarse que el hecho de que no se cumpla exactamente es debido sólo al azar. I Para poder decidir si dos variables se pueden considerar independientes en la práctica, existen varios contrastes o test estadı́sticos de independencia. En el módulo de inferencia veremos algunos de ellos. I Estos contrastes sirven para evaluar, en base a los datos, si hay o no hay evidencia de que las variables se afecten la una a la otra. La paradoja de Simpson La paradoja de Simpson I Se denomina paradoja de Simpson al cambio que experimenta a veces el sentido de la relación entre dos variables cuando se controla el efecto de una tercera variable. I La paradoja de Simpson puede aparecer cuando los datos que estudiamos están agregados o combinados, es decir, son datos heterogéneos. I Si los datos no se disgregan por grupos (por ejemplo por edad, por religión, por raza, por pertenencia al G8, etc) el efecto global puede no representar lo que realmente ocurre, por lo que se puede llegar a conclusiones erróneas. I Este fenomeno debe su nombre a Edward Simpson, quien la describió en 1951 en relación con ciertas pruebas médicas, aunque ya habı́a sido analizada a principios del siglo XX por el estadı́stico británico G. Udny Yule, por lo que a veces se le llama efecto Yule-Simpson. Ejemplo: la paradoja de Simpson I La siguiente tabla de doble entrada se refiere a las 674 personas que fueron juzgadas por asesinato en el estado de Florida entre los años 1976 y 1987. I La tabla resume la información relativa a dos variables: la raza del acusado –blanca o negra– y el castigo aplicado –pena de muerte u otra pena: I Fuente de los datos: M.L. Radelet y G.L. Pierce. Florida Law Review 43: 1-34 (1991) Ejemplo: la paradoja de Simpson (continuación) I Puesto que el número de acusados blancos es muy superior al de acusados negros, para poder comparar los porcentajes de condenas de muerte en cada raza deben utilizarse las frecuencias condicionadas por la raza del acusado: I En esta tabla se observa que el porcentaje de sentencias de pena de muerte es superior entre los acusados de raza blanca, contradiciendo la idea que suele tenerse. Ejemplo: la paradoja de Simpson (continuación) I ¿Será entonces falsa la creencia de que los tribunales condenan a muerte los negros con más facilidad que a los blancos? I Antes de sacar conclusiones precipitadas, conviene incluir una tercera variable en el estudio: la raza de la vı́ctima del asesinato: Ejemplo: la paradoja de Simpson (continuación) I La tabla siguiente muestra las frecuencias condicionadas por la raza del acusado, pero teniendo en cuenta la variable raza de la vı́ctima: I Como puede observarse, las conclusiones del estudio cambian drásticamente cuando se incluye esta tercera variable: el porcentaje de sentencias de pena de muerte es superior entre los acusados de negros tanto si la vı́ctima es blanca como si es negra. ¿A qué se debe esta paradoja? I Los datos sobre los asesinatos en Florida son heterogéneos, y al disgregarlos por la raza de la vı́ctima sexos cambia el sentido de la relación entre las variables sentencia y raza del acusado. I Lo que ocurre en este caso es que los asesinos de vı́ctimas de raza blanca tienen más posibilidades de ser condenados a la pena capital que los que matan a personas negras. I Entre los acusados de raza negra son más infrecuentes las vı́ctimas de raza blanca que entre los acusados de raza blanca. De las 515 vı́ctimas de raza blanca 467 han sido asesinadas por personas también blancas. Sin embargo, de las 159 vı́ctimas de raza negra, sólo 16 lo fueron a manos de acusados blancos. Dado que entre las vı́ctimas blancas la proporción de penas de muerte es mayor, el porcentaje total de penas de muerte resulta ser más alto entre los acusados blancos. I Al analizar por separado los datos de vı́ctimas blancas y negras se elimina esta heterogeneidad, y se comprueba que en ambos casos el porcentaje de penas de muerte es superior entre los acusados negros. Relación entre una variable cuantitativa y otra cualitativa ¿Cómo enfocamos el análisis de esta relación? I Para analizar conjuntamente una variable numérica y otra categórica, lo más natural es enfocar el estudio hacia la comparación del comportamiento de la variable cuantitativa en las diferentes subpoblaciones o clases que define la variable cualitativa, es decir, en cada categoria de elementos. I Para ello pueden utilizarse tablas de doble entrada, representaciones gráficas y estadı́sticos que resuman el comportamiento de la variable numérica en cada categoria. I Vamos a ilustrar estas herramientas con un ejemplo. Ejemplo: CO2 per capita y pertenencia al G-8 I El G-20 es un bloque de paı́ses formado en el año 1999 por los ocho paı́ses más industrializados (G-8), los once paı́ses con las principales economı́as emergentes, y la Unión Europea como bloque. I La transparencia siguiente recoge las emisiones de CO2 per capita de estos paı́ses para el año 2004 (medidas en toneladas métricas), y el estatus de pertenencia de cada uno de ellos al G-8. I En este caso se están considerando dos variables sobre cada unidad experimental, es decir, sobre cada paı́s del G-20: I I La variable continua Emisiones de CO2 per percapita (C ). La variable categórica Pertenencia al G-8 (G ) con dos modalidades: sı́ y no. I Los datos se han extraı́do de la página web oficial de la División Estadı́stica de la ONU para los Indicadores de los Objetivos del Milenio (http://millenniumindicators.un.org/unsd/mdg/Data.aspx). Emisiones de CO2 per capita y pertenencia al G-8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Pais Alemania Arabia Saudi Argentina Australia Brasil Canadá China Corea del Sur USA Francia India Indonesia Italia Japón México Reino Unido Rusia Sudáfrica Turquı́a G-8 sı́ no no no no sı́ no no sı́ sı́ no no sı́ sı́ no sı́ sı́ no no CO2 97881 133811 133811 162720 18001 200095 38393 97652 203792 61608 12023 16945 76908 98434 42387 97934 105393 91927 31395 Diagramas de caja comparativos I Los diagramas de caja son una herramienta muy útil para comparar G8 Pertenencia al G−8 NoG8 los valores de la variable numérica en las distintas categorı́as que establece la variable cualitativa (en este caso las emisiones de CO2 per capita en función de la pertenencia al G8): 50000 100000 150000 200000 Emisiones de CO2 percapita I El gráfico refleja que los paı́ses del G8 emiten más CO2 que el resto. Estadı́sticos condicionados I Para completar el análisis comparativo, podemos calcular los estadı́sticos que resumen la variable numérica (media, mediana, desviación tı́pica, cuantiles, etc), para cada uno de los grupos definidos por la variable cualitativa, es decir, condicionando por las distintas modalidades de la variable G-8. I Estos estadı́sticos condicionados proporcionan un resumen numérico sobre aspectos concretos de las emisiones de CO2 en cada uno de los grupos, según el paı́s pertenezca o no al G8: x̄ sx Min Q1 Q2 Q3 Max G8 117756 53874 61608 92638 98184 129068 203792 NoG8 62019 51418 12023 24698 38393 94789 162720 I Estos valores corroboran que las emisiones de CO2 difieren ampliamente en ambos grupos, siendo mucho mayores las del grupo perteneciente al G8. Otros ejemplos I El análisis de las medidas biométricas sobre el Lucanus cervus que hemos visto en las sesiones de tutorı́as son otro ejemplo de relación entre una variable numérica y otra categórica. I En dicho ejemplo hemos analizado: La relación entre la variable numérica Anchura de la cabeza (KB), y la variable categórica Sexo con dos modalidades: hembra y macho. I La relación entre la variable numérica Anchura de la cabeza (KB), y la variable categórica Provincia de procedencia con tres modalidades: Asturias, Cantabria y Otras. I I El análisis detallado esta disponible en la sección ”R y R-commander” del campus virtual. Relación entre dos variables cuantitativas Ejemplo: niveles de NO2 en Madrid (2007-2008) I Para ilustrar el análisis de conjunto de dos variables cuantitativas, vamos a considerar los niveles de dióxido de nitrógeno (NO2 ) alcanzados en las estaciones de la red de medición de la contaminación atmosférica del Ayuntamiento de Madrid. I Nótese que en este ejemplo ambas variables son continuas. I La transparencia siguiente recoge los niveles de NO2 correspondientes a los años 2007 y 2008. I Los datos se han extraı́do de los balances anuales sobre la calidad del aire elaborados por Ecologistas en Acción. No se incluyen las estaciones de la Glorieta de Carlos V ni de Villaverde, por encontrarse fuera de servicio durante todo este periodo. Datos sobre niveles de NO2 en Madrid (2007- 2008) Diagramas de dispersión I Un gráfico muy útil para visualizar la relación entre dos variables continuas, X e Y , es el diagrama de dispersión (también llamado nube de puntos, o scatterplot). Se construye representando sobre el plano cada dato bivariante, (xi , yi ), con sus dos coordenadas, como se muestra en el esquema: Ejemplo: diagramas de dispersión I La nube de puntos siguiente corresponde a los niveles de NO2 en las estaciones de Madrid en los años 2007 y 2008: I Se aprecia claramente que existe una fuerte relación entre los niveles de NO2 en ambos años: las estaciones con niveles altos en 2007 tienden a tener también niveles altos en 2008, y viceversa. Relación entre NO2 -2007 y NO2 -2008 I Tambien se observa que los puntos bivariantes parecen agruparse entorno a una recta: I Es decir, la relación que hay entre en nivel de NO2 en 2007 y el de 2008 es lineal y positiva. Tipos de relación entre dos variables numéricas Relación lineal positiva. Otros tipos de relación I En el ejemplo de los niveles de contaminación por dióxido de nitrógeno, la nube de puntos está muy concentrada alrededor de una recta con pendiente positiva. Por eso se dice que hay una relación lineal positiva entre los valores de NO2 de 2007 y los de 2008. I Esta forma de dependencia entre dos variables numéricas aparece con frecuencia en la naturaleza. Otros ejemplos son la relacion entre la altura de los padres y la de sus crı́as, o entre los pesos y las estaturas en una misma especie. I En otros casos, ocurre que las dos variables están muy relacionadas pero la relación entre es de otro tipo. También hay ocasiones en las que las dos variables no parecen estar relacionadas. I Los diagramas de dispersión ayudan a identificar el tipo de relación existente entre dos variables numéricas. Relación lineal negativa I La siguiente nube de puntos representa los datos sobre el 62 60 58 56 ritmo cardiaco 64 66 tiempo que tardan varios antı́lopes en recorrer dos kilómetros y el ritmo cardiaco que alcanzan: 86 88 90 92 tiempo en recorrer 2 km 94 Relación lineal negativa (continuación) I En este caso los datos se agrupan alrededor de una recta, pero 62 60 58 56 ritmo cardiaco 64 66 los valores altos de una variable aparecen con más frecuencia asociados a valores bajos de la otra, y viceversa: 86 88 90 92 tiempo en recorrer 2 km 94 Relación lineal negativa (continuación) I Las variables ”tiempo en recorrer 2 km” y ”ritmo cardiaco” de los antı́lopes tienen una relación lineal negativa, ya que los datos bivariantes están agrupados alrededor de una recta con pendiente negativa. I Otro ejemplo de esta situación es la relación entre el precio de 450 440 430 420 ventas 460 470 un determinado producto y la cantidad de ventas del mismo: 30 40 50 precio 60 70 Relaciones no lineales I En muchos casos la relación entre las dos variables no es lineal, 38.5 Y 38.0 37.5 90 80 37.0 85 Y 95 39.0 100 39.5 sino de otro tipo: exponencial, cuadrática, logarı́tmica... 5 10 15 20 X 25 30 35 −3 −2 −1 0 1 2 X I Por ejemplo, la relación entre la antigüedad de una máquina y la cantidad de averias anuales suele ser positiva pero no lineal. 3 Ausencia de relación entre las variables I Por último, existen casos en los que no hay ninguna relación entre 70 80 90 Y 100 110 120 las dos variables. Esto ocurre cuando las variables son independientes: 5 10 15 20 25 30 35 X I Por ejemplo, por regla general, no existe ninguna relación entre la altura de las personas y su coeficiente de inteligencia. Esquema: tipos de relación entre dos variables Covarianza Medidas de la relación entre dos variables I Cuando las variables X e Y son ambas numéricas, se pueden calcular, a partir de sus frecuencias marginales, estadı́sticos que resuman determinados aspectos del comportamiento de cada una de ellas por separado. I Por ejemplo, para obtener un resumen básico de cada variable, se pueden utilizar sus medias, x e y , que indican cúal es el centro de cada una de ellas, y sus varianzas, sx2 y sy2 que miden sus respectivos grados de dispersión. I Para completar este resumen, serı́a adecuado contar algún estadı́stico que indique cómo es la relación entre las dos variables. I La covarianza entre dos variables cumple con este objetivo. Covarianza entre dos variables I Consideremos un conjunto de n observaciones bidimensionales, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) de dos variable numéricas, X e Y . I La covarianza entre X e Y se define como n X sxy = (xi − x̄)(yi − ȳ ) i=1 n I La covarianza es una medida de la variabilidad conjunta de dos variables variables X e Y . I Cuando la covarianza entre las variables X e Y es nula, es decir, si se verifica sxy = 0 se dice que las variables son (o están) incorrelacionadas entre sı́. Cálculo de la covarianza I Una fórmula alternativa para la covarianza, que hace los cálculos más sencillos, es la siguiente: n X sxy = xi yi i=1 n − x̄ ȳ I Es decir, la covarianza entre dos variables es el promedio de sus productos menos el producto de sus promedios. I Cuestión: ¿cuál es la covarianza entre una variable y ella misma, sxx ? Interpretación de la covarianza I La covarianza, sxy , mide la dependencia lineal existente entre las variables X e Y : Cuando lo más frecuente es encontrar valores grandes de X asociados con valores grandes de Y , y valores pequeños de X asociados a valores pequeños de Y , la covarianza será positiva, sxy > 0. I Por el contrario, si lo más frecuente es encontrar valores grandes de X asociados a valores pequeños de Y y viceversa, la covarianza será negativa, sxy < 0. I Cuando no existe ninguna relación de tipo lineal entre las variables X e Y , la covarianza entre ellas será sxy = 0, es decir, X e Y serán variables incorrelacionadas. I I Es importante señalar que la covarianza tiene en cuenta sólo las relaciones lineales, por lo que dos variables incorrelacionadas pueden estar relacionadas mediante otro tipo de función: exponencial, logarı́tmica, cuadrática, cúbica, sinusoidal, etc. Esquema: signo de la covarianza Ejemplo: covarianza en viviendas de Piriapolis I La siguiente tabla recoge la superficie (X ) de una selección de viviendas costeras de Piriapolis (Uruguay) y sus precios de venta (Y ): Superficie (X ) Precio (Y ) Superficie (X ) Precio (Y ) 106 178 92 119 73 114 132 86 117 125 68 91 188 165 132 115 173 116 114 116 114 126 113 124 76 101 137 203 186 181 214 50 71 111 97 204 100 97 131 124 Las superficies de las viviendas están medidas en m2 y los precios en miles de pesos uruguayos. I Queremos analizar cómo es la relación entre las variables X e Y . Evidentemente, lo que esperamos es encontrar una relación positiva entre las variables, es decir, que las viviendas más grandes tiendan a ser más caras y viceversa. I Para comprobar si esta intuición es cierta, vamos a utilizar las herramientas que nos permiten analizar cómo es esa relación. Ejemplo: viviendas de Piriapolis (continuación) I Comenzaremos por representar gráficamente estos datos 50 100 Precio 150 200 mediante un diagrama de dispersión: 70 80 90 100 Superficie 110 120 130 Ejemplo: viviendas de Piriapolis (continuación) I La nube de puntos parece confirmar que existe relación lineal positiva entre precio y superficie de las viviendas de Piriápolis. I Para corroborar la existencia de este tipo de relación, calcularemos la covarianza entre ambas variables. I Comenzamos por por calcular la media de cada una de las variables: n x̄ = 1 1X xi = (106 + 73 + . . . + 97) = 103,75 m2 n 20 i=1 n 1X 1 ȳ = yi = (178 + 91 + . . . + 124) = 145,214 pesos n 20 i=1 Ejemplo: viviendas de Piriapolis (continuación) I Por otra parte, el promedio de los productos es n X xi yi i=1 n = 106 × 178 + 73 × 91 + . . . . . . + 97 × 124 = 15667,413 20 I Luego, la covarianza resulta ser sxy = 15667,413 − 103,75 × 145,214 = 601,46 I Tal como esperábamos, la covarianza es positiva, sxy = 601,46 > 0, lo cual indica una relación lineal de tipo positivo entre X e Y . Ejemplo: covarianza datos de NO2 en 2007 y 2008 I Vamos a calcular ahora la covarianza entre los niveles de NO2 en el municipio de Madrid en los años 2007 (X ) y 2008 (Y ). Como hemos visto en el diagrama de dispersión de estos datos, existe una fuerte dependencia positiva entre ambas variables: Ejemplo: covarianza datos de NO2 (continuación) I Se tiene que 25 x̄ = 1 X 38 + 54 + . . . + 62 xi = = 59,92 25 25 i=1 ȳ = 25 1 X 25 i=1 yi = 35 + 50 + . . . + 66 = 55,48 25 25 1 X 38 × 35 + 54 × 50 + . . . + 62 × 66 xi yi = = 3481,4 25 25 i=1 I Por tanto la covarianza entre X e Y es sxy = 3482,4 − 59,92 × 55,48 = 157,04 I Puesto que la covarianza es positiva (sxy = 157,04 > 0), se confirma que existe una dependencia lineal positiva entre X e Y . I Puede sorprender que esta covarianza sea inferior a la que existe entre superficies y precios de las casas de Piriápolis... Covarianza entre variables independientes I Puede demostrarse que, cuando X e Y son variables independientes, el promedio de sus productos coincide con el producto de sus promedios, es decir, se verifica n X xi yi i=1 = x̄ · ȳ n y en consecuencia n X sxy = xi yi i=1 n − x̄ · ȳ = 0 I Por tanto, las variables independientes son siempre variables incorrelacionadas. Incorrelación e independencia de variables I Las variables independientes son siempre variables incorrelacionadas, pero el recı́proco de esta afirmación no es cierto, ya que dos variables pueden tener covarianza cero y ser dependientes. Es decir, la incorrelación no implica independencia. I Esto es ası́ porque la covarianza entre X e Y lo que mide es la co-dependencia lineal entre dos variables. Pero, evidentemente, dos variables pueden depender la una de la otra mediante otro tipo de relación. Por ejemplo, la covarianza entre las variables representadas en el siguiente diagrama de dispersión es 0, a pesar de que existe entre ellas una clara relación cuadrática: Vector de medias y matriz de varianzas-covarianzas I Dado un conjunto de n observaciones bidimensionales, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) de dos variable numéricas, X e Y , se llama vector de medias de (X , Y ) al vector bi-dimensional x̄ ȳ I Se llama matriz de varianzas y covarianzas de (X , Y ) a la matriz sx2 sxy sxy sy2 S = I La matriz de covarianzas es una matriz cuadrada. Es además una matriz simétrica, es decir, verifica S 0 = S, ya que sxy = syx . I El vector de medias y la matriz de covarianzas constituyen un buen resumen de los datos bivariantes, ya que informan sobre el centro y la dispersión de cada variable y sobre la relación entre ambas. Ejemplo: vector de medias y matriz de covarianzas I Retomemos los datos sobre la superficie (X ) y el precio (Y ) de las viviendas de Piriápolis: Superficie (X ) Precio (Y ) 106 178 73 91 114 188 132 165 86 132 117 115 125 173 68 116 71 97 111 204 Superficie (X ) Precio (Y ) 92 119 114 101 116 137 114 203 126 186 113 181 124 214 76 50 100 131 97 124 I Ya hemos visto que para estos datos se tiene x̄ = 103,75; ȳ = 145,21; sxy = 601,46 I Calculamos, además, las varianzas de ambas variables, sx2 y sy2 : n sx2 = 1X 2 1 x − x̄ 2 = (1062 + . . . + 972 ) − 103,752 = 375,88 n i=1 i 20 sy2 = 1X 2 1 y − ȳ 2 = (1782 + . . . + 1242 ) − 145,212 = 1908,58 n i=1 i 20 n Ejemplo: vector de medias y matriz de covarianzas I El vector de medias correspondientes a la superficie (X ) y el precio (Y ) de las viviendas de Piriápolis son por tanto, 103,75 x̄ = ȳ 145,21 y su matriz de covarianzas, 2 sx sxy 375,88 = S = sxy sy2 601,46 601,46 1908,58 Limitaciones de la covarianza I La covarianza es una medida de la variabilidad conjunta de dos variables que tiene en cuenta sólo dependencias de tipo lineal. I Además, la covarianza entre dos variables varı́a si cambiamos las unidades en las que medimos alguna de ellas. I Por ejemplo, si la variable X está está expresada en gramos, su covarianza con cualquier otra variable Y será 1000 veces mayor que la covarianza entre esa misma variable X expresada en kilos, e Y . I Por tanto, tiene sentido interpretar el signo de la covarianza, pero su valor absoluto no tiene utilidad. Coeficiente de correlación lineal Coeficiente de correlación entre dos variables I Dado un conjunto de n observaciones bidimensionales, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) de dos variable numéricas, X e Y , se define el coeficiente de correlación lineal entre X e Y , como rxy = sxy sx · sy Correlación y dependencia lineal entre dos variables I Evidentemente, el coeficiente de correlación lineal, rxy = sxy sx sy siempre conserva el signo de la covarianza, por lo que Cuando lo más frecuente es encontrar valores grandes de X asociados con valores grandes de Y , y valores pequeños de X asociados a pequeños de Y , el coeficiente de correlación será positivo, rxy > 0. I Por el contrario, si lo más frecuente es encontrar valores grandes de X asociados a valores pequeños de Y y viceversa, el coeficiente de correlación lineal será negativo, rxy < 0. I Cuando no existe ninguna relación de tipo lineal entre las variables X e Y , el coeficiente de correlación entre ellas es rxy = 0. Esta es la razón por la que, en estos casos, se dice que las variables X e Y están incorrelacionadas. I Cotas del coeficiente de correlación I El coeficiente de correlación es un estadı́stico adimensional, es decir, no depende de las unidades en las que estén medidas los datos. I Además, puede demostrarse que el coeficiente de correlación entre dos variables siempre toma valores entre -1 y 1, es decir, para cualquier par de variables X e Y se verifica −1 ≤ rxy ≤ 1 I Esto permite evaluar el grado de dependencia lineal entre las dos variables. Interpretación del coeficiente de correlación I Si rxy = 0, es decir, si X e Y están incorrelacionadas, no existe ninguna dependencia de tipo lineal entre ellas. I Si rxy = 1, entonces todos los puntos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) están sobre una recta con pendiente positiva. I Si rxy = −1, entonces todos los puntos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) están sobre una recta con pendiente negativa. I Si rxy toma un valor próximo a 1, X e Y tienen una fuerte dependencia lineal de tipo positivo. I Si rxy toma un valor próximo a -1, X e Y tienen una fuerte dependencia lineal de tipo negativo. I Si rxy toma un valor próximo a 0, la dependencia lineal entre X e Y es leve. Gráfico: coeficiente de correlación lineal Ejemplo: coeficiente de correlación I Retomemos los datos sobre la superficie (X ) y el precio de las viviendas (Y ) de Piriápolis. I Hemos visto que la matriz de varianzas y covarianzas de estos datos es sx2 sxy S = sxy sy2 375,88 601,46 = 601,46 1908,58 I Por tanto, el coeficiente de correlación lineal entre superficie y precio de las viviendas es rxy = √ 601,46 = 0,71 375,88 × 1908,58 I Puesto que se trata de un coeficiente de correlación positivo y relativamente próximo a 1, se confirma que existe una cierta dependencia lineal positiva entre X e Y . Ejemplo: correlación datos de NO2 en 2007 y 2008 I Calculemos ahora el coeficiente de correlación entre los niveles de NO2 en el municipio de Madrid en los años 2007 (X ) y 2008 (Y ). I Como ya hemos visto, el diagrama de dispersión de estos datos sugiere que existe una fuerte dependencia positiva entre los niveles de NO2 en los años 2007 y 2008. Ejemplo: correlación datos de NO2 (continuación) I Hemos visto que las medias de X e Y y la covarianza entre ambas son x̄ = 59,92; ȳ = 55,48; sxy = 3482,4 − 59,92 × 55,48 = 157,04 I Por otra parte las varianzas de X e Y son n sx2 = 1 1X 2 xi − x̄ 2 = (382 + 542 + . . . + 622 ) − 59,922 = 202,71 n 25 i=1 sy2 = n 1X n i=1 yi2 − ȳ 2 = 1 (352 + 502 + . . . + 662 ) − 55,482 = 138,89 20 I Por tanto, el coeficiente de correlación lineal entre X e Y es rxy = √ 157,04 = 0,9359 202,71 × 138,89 I Puesto que se trata de un coeficiente de correlación muy próximo a 1, se confirma que existe una dependencia lineal positiva muy fuerte entre las variables. Correlaciones espurias: a correlación no siempre indica causalidad Ejemplo: no de cigüeñas y nacimientos de bebés I Un ornitólogo está estudiando si existe alguna relación entre el número de nacimientos de niños en una localidad (N) y el número de cigüeñas avistadas (C ). Tras observar ambas variables mensualmente durante un año, obtiene los siguientes resultados: 12 X ni = 421 i=1 12 X i=1 12 X ci = 991 i=1 ni2 = 15565 12 X i=1 ci2 = 86099 12 X i=1 ni ci = 36604 Ejemplo: estadı́sticos de cigüeñas y bebés I A partir de los sumatorios de los que disponemos se pueden calcular la medias y varianzas de las variables N y C y la covarianza entre ellas: 12 12 X X ni ci 421 991 = = 35,08 = = 82,58 n = i=1 c = i=1 12 12 12 12 12 X ni2 i=1 12 12 X ci2 i=1 12 12 X = 15565 = 1297,08 12 sn2 = 1297,08 − 35,082 = 66,48 = 86099 = 7174,92 12 sc2 = 7174,92 − 82,582 = 355,46 n c Ejemplo: correlación entre cigüeñas y bebés I Con los estadı́sticos anteriores podemos calcular el coeficiente de correlación entre el número de nacimientos y la cantidad de cigüeñas observadas: 153,43 snc =√ = 0,998 rnc = p 66,48 × 355,46 sn2 × sc2 Puesto que se trata de un coeficiente de correlación muy próximo a 1, indica que existe una dependencia lineal positiva muy fuerte entre N y C . Ejemplo: ¿traen las cigüeñas a los bebés? I Es evidente que, aunque el coeficiente de correlación sea muy próximo a 1 (r ≃ 1), no podemos concluir que exista una relación causal entre el número de cigüeñas y los nacimientos de bebes. Correlaciones espurias I El anterior es un ejemplo clásico de lo que suele denominarse correlación espuria o falsa correlación. I Evidentemente, las cigüeñas no influyen en la natalidad. Pero las cigüeñas suelen anidar en los pueblos europeos entre los meses de febrero y septiembre, y en esta época del año se producen más nacimientos (porque más niñ@s son concebid@s en la época que va de mayo a diciembre). I Hay un tercer factor que no estamos considerando, un ”factor de confusión” o ”variable escondida” que influye tanto en N como en C : la época del año (recordemos que los 12 datos de este ejemplo corresponden a los 12 meses del año). I Es importante tener presente que la correlación no siempre es un indicador de causalidad. Otro ejemplo de correlación espuria I ”Los niños que duermen con la luz encendida son más propensos a desarrollar miopı́a en la edad adulta” I ésta fue la conclusión de un estudio del centro médico de la Universidad de Pensilvania, publicada el 13 de mayo de 1999 en la revista Nature, y que tuvo gran repercusión en la prensa. I Sin embargo, un posterior estudio de la Universidad Estatal de Ohio no encontró ningún enlace entre el hecho de niños durmiendo con la luz encendida y el desarrollo de miopı́a I Lo que sı́ encontró este segundo estudio fue una fuerte relación entre la miopı́a parental y el desarrollo en los niños de este defecto. I También observó que los padres miopes tenı́an una mayor tendencia a dejar las luces encendidas en las habitaciones de sus hijos. Esta es la variable escondida de este ejemplo. Un ejemplo más de correlación espuria I Para casi cualquier ciudad, si se analizan las variables venta de helados y cantidad de sofocos registrados, en distintas épocas de año, es muy probable que se obtenga un coeficiente de correlación próximo a 1. I ¿Quiere esto decir que el consumo de helados es el causante de los sofocos? I De nuevo, la respuesta en no. Lo que ocurre es que los helados tienden a consumirse bastante más en las épocas más calurosas, y el calor sı́ puede provocar sofocos. I En este caso, la variable escondida es la temperatura. Los datos se toman en distintas épocas, y la temperatura varı́a a lo largo de ellas, influyendo tanto en el consumo de helados como en el número de sofocos. Pero estas dos variables no se afectan entre sı́ de manera directa. Bibliografı́a I Grima, P. (2010) La certeza absoluta y otras ficciones. Los secretos de la estadı́stica. RBA Capı́tulo 1. I Peña, D. (2001) Fundamentos de Estadı́stica. Alianza Editorial Capı́tulo 3. I Ross, S.M. (2007) Introducción a la Estadı́stica. Reverte Capı́tulo 3, sección 7. I Milton, J.S. (2007). Estadı́stica para Biologı́a y Ciencias de la Salud. Mc Graw Hill Capı́tulo 11, sección 3.