Subido por Vaneee Barrera Mendez

t2 bivariante

Anuncio
ESTADÍSTICA
GRADO INGENIERÍA MECÁNICA
Celeste Pizarro Romero
Departamento de Matemática Aplicada. ESCET. URJC
Curso 2018/19
TEMA 2
DESCRIPCIÓN DE DATOS BIVARIANTES
Introducción
Datos bivariantes
I En el anterior tema hemos analizado herramientas para
describir el comportamiento de una variable observada en un
conjunto de unidades experimentales.
I Pero en muchas ocasiones será necesario estudiar dos (o más)
variables o caracterı́sticas sobre cada unidad experimental.
I Por ejemplo, al analizar las nidos de Talampaya, puede que
sea importante estudiar la subespecie de los ñandúes junto
con el número de huevos, y realizar un estudio conjunto de las
dos variables.
I Los datos bivariantes proceden de la observación
simultánea de dos variables, llamémoslas X e Y , en una
población de n individuos.
I Por tanto, este tipo de datos serán pares de la forma
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
Esquema
I Relación entre dos variables categóricas
I Variables independientes
I La paradoja de Simpson
I Relación entre una variable cuantitativa y una cualitativa
I Relación entre dos variables cuantitativas
I Tipos de relación entre variables numéricas
I Covarianza
I Coeficiente de correlación lineal
I Correlaciones espurias
Relación entre dos variables categóricas
Frecuencias absolutas conjuntas
I Consideremos una población de n individuos u objetos, y dos
variables cualitativas:
I
una variable C con k modalidades, clases o valores,
c1 , c2 , ...., ck ,
I
otra variable D con l modalidades,
d1 , d2 , ...., dl .
I La frecuencia absoluta conjunta del par (ci , dj ), que
denotaremos por nij , es el número total de observaciones que
poseen al mismo tiempo la modalidad ci de C y la modalidad
dj de D.
I Estas frecuencias conjuntas se pueden disponer en una tabla
de doble entrada.
I Cuando las dos variables son cualitativas, dicha tabla
recibe el nombre de tabla de contingencia.
Tablas de contigencia
I Las tablas de contingencia recogen las frecuencias conjuntas
registradas para dos variables categóricas:
C \D
c1
c2
..
.
d1
n11
n21
..
.
d2
n12
n22
..
.
···
···
···
..
.
dl
n1l
n2l
..
.
ck
nk1
nk2
···
nkl
I Estas tablas resumen la distribución conjunta de las
variables.
I La suma de las frecuencias absolutas conjuntas de todas las
combinaciones de las modalidades de C con las modalidades
de D (es decir, de todas las casillas) es n, esto es, el número
total de individuos o elementos en la población:
k X
l
X
i=1 j=1
nij = n
Ejemplo: tabla de contigencia
I En la la región del Biobı́o (Chile) se han llevado a cabo
sesiones de avistamiento de chungungo (Lontra felina). Para
cada ejemplar se ha registrado el hábitat en el que ha sido
avistado (H) y el tipo de actividad que estaba realizando (A).
I La tabla siguiente resume el resultado de este estudio:
↓A \ H →
Alimentación
Descanso
Socialización
Tránsito
Agua
4
82
38
16
Roca
14
10
12
9
Arena
2
8
0
5
I Observamos, por ejemplo, que 12 de los chungungos avistados
estaban sobre roca mientras socializaban.
I Vemos también que lo más frecuente es encontrar chungungos
que se encuentran en el agua y descansando. Hay un total de
82 chungungos con estas caracterı́sticas.
Ejemplo: tablas de contigencia (continuación)
I Para los chungungos del Biobı́o,
↓ A \ H → Agua Roca Arena
Alimentación
4
14
2
Descanso
82
10
8
Socialización
38
12
0
Tránsito
16
9
5
podemos preguntarnos, por ejemplo: ¿cuál es el total de
chungungos que fueron avistados en el agua?
I Para responder a esta pregunta debemos sumar todos los
casos en los cuales el hábitat es agua, independientemente de
cuál sea el tipo de actividad realizada. Esto hace un total de
4 + 82 + 38 + 16 = 140 chungungos
I De forma similar podemos comprobar que el número de
chungungos que se encontraron descansando es
82 + 10 + 8 = 100 chungungos
Frecuencias absolutas marginales
I Además de la distribución conjunta de las variables C y D, cada una
de ellas tiene su propia distribución de frecuencias absolutas. Estas
son las llamadas frecuencias absolutas marginales.
I La frecuencia absoluta marginal de la modalidad ci de la variable
C es el número de veces que se repite la modalidad ci con
independencia de la modalidad que tome la variable de D.
Denotaremos este valor por ni.
ni. = ni1 + ni2 + . . . + nil =
l
X
nij
j=1
I De forma análoga, la frecuencia absoluta marginal de D = dj , es el
número de veces que se repite la modalidad dj independientemente
de la modalidad que tome C . Este valor se denota por n.j
n.j = n1j + n2j + . . . + nkj =
k
X
i=1
nij
Frecuencias absolutas marginales (continuación)
I Las frecuencias marginales se calculan fácilmente en los
márgenes de la tabla sumando las frecuencias conjuntas por
filas o por columnas:
C \D
c1
c2
..
.
d1
n11
n21
..
.
d2
n12
n22
..
.
···
···
···
..
.
dl
n1l
n2l
..
.
Total
n1 .
n2 .
ck
Total
nk1
n. 1
nk2
n. 2
···
···
nkl
n. l
nk .
n
I La suma de las frecuencias marginales absolutas de cualquiera
de las dos variables es n , es decir, el número total de
elementos en la población:
k
X
i=1
ni. =
l
X
j=1
n.j =
k X
l
X
i=1 j=1
nij = n
Distribuciones absolutas marginales
I Las frecuencias marginales determinan una distribución para
cada una de las variables:
I
I
distribución marginal de C :
Ci
c1
c2
..
.
ni
n1 .
n2 .
..
.
ck
Total
nk .
n
distribución marginal de D:
D
d1
d2
ni
n. 1 n. 2
···
···
dl
n. l
Total
n
I Estas son las distribuciones de frecuencias absolutas
marginales de las variables C y D, y permiten hacer un
estudio (univariante) completo de cada una de las variables
por separado.
Ejemplo: frecuencias marginales absolutas
I La tabla siguiente incluye las frecuencias absolutas marginales de las
variables Actividad y Habitat en los chungungos del Biobı́o:
↓A \ H →
Alimentación
Descanso
Socialización
Tránsito
Total
Agua
4
82
38
16
140
Roca
14
10
12
9
45
Arena
2
8
0
5
15
Total
20
100
50
30
200
I Vemos que la distribución marginal de la variable tipo de actividad
es
Actividad (A)
Alimentación
Descanso
Socialización
Tránsito
Total
Total
20
100
50
30
200
Ejemplo (continuación)
I A partir de la distribución marginal podemos, por ejemplo,
representar la variable tipos de actividad mediante un
diagrama de barras:
0
20
40
60
80
100
Tipo de actividad
Alimentación
Descanso
Socialización
Tránsito
I Observamos que lo más frecuente es encontrar chungungos
descansando. Esta es la moda de la variable cualitativa A.
Ejemplo (continuación)
I Por su parte, la distribución marginal de la variable habitat es
Habitat (H)
Total
Agua
140
Roca
45
Arena
15
Total
200
0
20
40
60
80
100
120
140
Tipo de habitat
Agua
Roca
Arena
I Como puede verse, la moda de esta variable, es el agua.
Frecuencias relativas conjuntas
I Habitualmente es más informativo conocer la proporción de la
frecuencia que corresponde a cada par de modalidades.
I La frecuencia relativa conjunta del par (ci , dj ), que
denotaremos por fij , es el cociente entre las frecuencias
absolutas de dicho par y el número total de observaciones, es
decir,
nij
fij =
n
I fij expresa la proporción (o tanto por uno) de observaciones
que están en la clase ci de la variable C y al mismo tiempo en
la clase dj de la variable D.
I Multiplicado por 100 representa el porcentaje o tanto por
ciento ( %) de la población que pertenece a ese par.
Frecuencias relativas conjuntas (continuación)
I Las frecuencias relativas conjuntas también se pueden resumir
en una tabla de contingencia:
C \D
c1
c2
..
.
d1
f11
f21
..
.
d2
f12
f22
..
.
···
···
···
..
.
dl
f1l
f2l
..
.
ck
fk1
fk2
···
fkl
I La suma de las frecuencias relativas conjunta de todas las
combinaciones de las modalidades de C con las modalidades
de D (es decir, de todas las casillas) es 1 , esto es, el 100 %:
k X
l
X
i=1 j=1
fij = 1
Ejemplo: frecuencias relativas conjuntas
I Las frecuencias relativas conjuntas del tipo de actividad y el
habitat de los datos del Biobı́o se calculan dividiendo las
frecuencias absolutas entre 200, que es el número total de
chungungos avistados:
↓A \ H →
Alimentación
Descanso
Socialización
Tránsito
Agua
0.02
0.41
0.19
0.08
Roca
0.07
0.05
0.06
0.045
Arena
0.01
0.04
0
0.025
I La tabla indica, por ejemplo, que la proporción de chungungos
que se encuentran sobre roca y socializando es
fsocializando, roca =
nsocializando, roca
12
=
= 0,06
n
200
o, si lo expresamos como porcentaje, un 6 %.
Frecuencias relativas marginales
I La frecuencia relativa marginal de C = ci es la proporción con la
que aparece la modalidad ci con independencia de la modalidad que
tome la variable de D. Denotaremos este valor por fi . :
fi. = fi1 + fi2 + . . . + fil =
l
X
fij
j=1
Esta frecuencia relativa marginal también puede calcularse
dividiendo la frecuencia absoluta marginal ni . entre el número total
de datos:
ni .
fi . =
n
I De forma análoga, la frecuencia relativa marginal de D = dj , es la
proporción con la que aparece la modalidad dj independientemente
de la modalidad que tome C . Este valor se denota por f. j :
f.j = n1j + f2j + . . . + fkj =
k
X
i=1
fij =
n. j
n
Frecuencias relativas marginales (continuación)
I Las frecuencias relativas marginales también pueden calcularse
en los márgenes de la tabla sumando las frecuencias relativas
conjuntas por filas o por columnas:
C \D
c1
c2
..
.
d1
f11
f21
..
.
d2
f12
f22
..
.
···
···
···
..
.
dl
f1l
f2l
..
.
Total
f1 .
f2 .
ck
Total
fk1
f. 1
fk2
f. 2
···
···
fkl
f. l
fk .
1
I La suma de las frecuencias marginales relativas de cualquiera
de las dos variables es 1 :
k
X
i=1
fi. =
l
X
j=1
f.j =
k X
l
X
i=1 j=1
fij = 1
Distribuciones relativas marginales
I Las frecuencias marginales relativas determinan una
distribución para cada una de las variables:
I Las distribuciones de frecuencias relativas marginales de
lasIvariables C y D son:
distribución marginal de frecuencias relativas de C :
Ci
fi
c1
f1 .
c2
f2 .
..
..
.
.
ck
Total
I
fk .
1
distribución marginal de frecuencias relativas de D:
D
d1 d2 · · · dl
Total
fi
f. 1 f. 2 · · · f. l
1
Ejemplo: distribuciones relativas marginales
I La tabla siguiente incluye las frecuencias relativas marginales
de las variables Actividad y Habitat en los chungungos de
Biobı́o:
↓ A \ H → Agua Roca
Arena Total
Alimentación
0.02 0.07
0.01
0.1
Descanso
0.41 0.05
0.04
0.5
Socialización
0.19 0.06
0
0.25
Tránsito
0.08 0.045 0.025
0.15
Total
0.7
0.225 0.075 1
I Estas frecuencias marginales nos permiten comprobar, por
ejemplo, que la proporción de chungungos del Biobı́o que han
sido avistados descansando es 0.5, es decir, la mitad del total.
O que los chungungos que avistados en el agua son el 70 %
del total.
Ejemplo (continuación)
I Siguiendo con el ejemplo de los chungungos, ya hemos visto
que la distribución de los tipos de Habitat en el total del
Biobı́o es
0
20
40
60
80
100
Tipo de actividad en todos los chungungos avistados
Alimentación
Descanso
Socialización
Tránsito
I La tabla y el diagrama se refieren a la distribución de los tipos
de Habitat en el total de avistamientos. Pero, podrı́amos
preguntarnos, por ejemplo, ¿cómo se distribuyen los tipos de
actividad en los chungungos encontrados sobre roca?
Ejemplo (continuación)
I Observemos que, si nos limitamos a los chungungos avistados
sobre roca, la distribución de frecuencias absolutas es
0
2
4
6
8
10
12
14
Tipo de actividad en chungungos avistados sobre roca
Alimentación
Descanso
Socialización
Tránsito
I La población inicial de 200 chungungos se ha restringido a
sólo 45: aquellos que cumplen la condición de haber sido
avistados sobre roca. Además, la forma de distribuirse la
frecuencia ha cambiado.
Ejemplo (continuación)
I Vamos a comparar la distribución de frecuencias en
ambas poblaciones:
Tipo de actividad en chungungos avistados sobre roca
0
0
2
20
4
40
6
8
60
10
80
12
14
100
Tipo de actividad en todos los chungungos avistados
Alimentación
Descanso
Socialización
Tránsito
Alimentación
Descanso
Socialización
Tránsito
I En estos diagramas de barras se aprecia claramente que la
distribución de la actividad para los chungungos avistados
sobre roca es muy diferente a la del total de chungungos del
Biobı́o.
Ejemplo (continuación)
I Hay que en cuenta que las escalas de los dos diagramas de
barras anteriores son diferentes, ya que el número de
chungungos representadas en ellos no es el mismo. El primer
gráfico se refiere a un total de 45 chungungos y el segundo a
200 chungungos.
I Para que la comparación sea más razonable deberı́amos
basarnos en las frecuencias relativas de la variable en cada
población.
I La frecuencia relativa de cada tipo de actividad dentro de la
población formada sólo por los 45 chungungos vistos sobre
roca es:
Tipo de Actividad ni
fi
Alimentación
14 0.31
Descanso
10 0.22
Socialización
12 0.27
Tránsito
9 0.20
Total
45
1
Ejemplo (continuación)
I Por ejemplo la proporción de chungungos avistados en
tránsito dentro de esta población es
ntransito, roca
9
=
= 0,20
n.roca
45
es decir, un 20 %. Esta es la frecuencia de los chungungos
vistos en tránsito condicionada al hecho de que la variable
Habitat toma la modalidad roca.
I Estas frecuencias condicionadas sı́ pueden comparse
directamente con las frecuencias relativas en toda la comarca
de Biobı́o:
Tipo de Actividad fi total Biobı́o fi Roca
Alimentación
0.10
0.31
Descanso
0.50
0.22
Socialización
0.25
0.27
Tránsito
0.15
0.20
Total
1
1
Ejemplo (continuación)
I Los diagramas de barras siguientes representan las
distribuciones de frecuencias de la tabla anterior:
Actividad en chungungos avistados sobre roca
0.0
0.0
0.1
0.1
0.2
0.2
0.3
0.3
0.4
0.4
0.5
0.5
Actividad en todos los chungungos avistados
Alimentación
Descanso
Socialización
Tránsito
Alimentación
Descanso
Socialización
Tránsito
I Se aprecia, por ejemplo, que, aunque la moda en toda la
población de chungungos es estar decansando, si nos
limitamos a los chungungos avistados sobre roca, lo más
frecuente es encontrarlos alimentándose.
Distribuciones condicionadas
I La frecuencia de la modalidad dj de la variable D condicionada
a C = ci , que denotaremos fj|C =ci , es la proporción de elementos
para los cuales se verifica D = dj dentro de los elementos de la
población que satisfacen C = ci .
I La frecuencia condicionada fj|C =c
i
viene dada por
fj|C =ci =
nij
ni.
y también puede calcularse como
fj|C =ci =
fij
fi.
I La distribución de D condicionada a C = ci , denotada D|C = ci ,
es la distribución de frecuencias relativas de la variable D sobre los
elementos de la población que satisfacen la condición C = ci .
D|C = ci
d1
d2
···
dl
Total
fj|C =ci
f1|C =ci f2|C =ci · · · fl|C =ci
1
Distribuciones condicionadas (continuación)
I De forma análoga, la frecuencia de la modalidad ci de la
variable C condicionada a D = dj , que denotaremos fi|D=dj , es es
la proporción de elementos para los cuales se verifica C = ci dentro
de los elementos de la población que satisfacen la condición D = dj .
I La frecuencia condicionada fi|D=d
j
viene dada por
fi|D=dj =
nij
n.j
y también puede calcularse como
fi|D=dj =
fij
f.j
I La distribución de C condicionada a D = dj , denotada C |D = dj ,
es la distribución de frecuencias relativas de la variable C sobre los
elementos de la población que satisfacen D = dj .
C |D = dj
c1
c2
···
ck
Total
fi|D=dj
f1|D=dj f2|D=dj · · · fk|D=dj
1
Ejemplo: distribuciones condicionadas
I Consideremos de nuevo los datos sobre los chungungos del Biobı́o:
↓A \ H →
Alimentación
Descanso
Socialización
Tránsito
Total
Agua
0.02
0.41
0.19
0.08
0.7
Roca
0.07
0.05
0.06
0.045
0.225
Arena
0.01
0.04
0
0.025
0.075
Total
0.1
0.5
0.25
0.15
1
I Vamos a calcular las frecuencias de la variable Habitat condicionadas a la
modalidad alimentación de la variable Tipo de actividad
fH=agua|A=alimentación
=
fH=roca|A=alimentación
=
fH=arena|A=alimentación
=
falimentación, agua
falimentación
falimentación, roca
falimentación
falimentación, arena
falimentación
=
0,02
= 0,2
0,1
=
0,07
= 0,7
0,1
=
0,01
= 0,1
0,1
Ejemplo: distribuciones condicionadas
I Por tanto, la distribución de la variable Habitat condicionada a la
modalidad alimentación de la variable Tipo de actividad es
Habitat (H)
fj|A=alimentación
Agua
0.2
Roca
0.7
Arena
0.1
Total
1
I Esta es otra distribución de frecuencias para la variable H,
diferente de la distribución marginal:
Habitat (H)
f.j
Agua
0.7
Roca
0.225
Arena
0.075
Total
1
I Ambas son distribuciones de frecuencias relativas para la variable
habitat constituidas por cantidades no negativas que suman 1.
Pero la primera se refiere sólo a los chungungos que cumplen la
condición de estar socializando, y la segunda al total de la población
avistada.
Ejemplo: distribuciones condicionadas (continuación)
I Los siguientes diagramas de barras representan ambas
distribuciones:
Habitat en todos los changungos avistados
0.0
0.0
0.2
0.2
0.4
0.4
0.6
0.6
0.8
0.8
Habitat en changungos alimentándose
Agua
Roca
Arena
Agua
Roca
Arena
I Los gráficos ponen de relieve que son muy diferentes entre sı́.
Diagramas de barras adosadas
I Para representar gráficamente la distribución de frecuencias de
dos variables cualitativas se utilizan diagramas de barras
adosadas, que ilustran la distribución de una de la variables
dentro de cada una de las modalidades de la otra:
100
Habitat
Agua
Arena
Roca
60
40
20
0
0
20
40
60
80
Alimentacion
Descanso
Socializacion
Transito
80
100
Tipo de actividad
Agua
Arena
Habitat
Roca
Alimentacion
Descanso
Socializacion
Tipo de actividad
Transito
Variables independientes
Variables estadı́sticamente independientes
I Se dice que las variables C y D son estadı́sticamente
independientes si para todas las combinaciones de
modalidades de ambas se verifica
fij = fi. × f.j
I Ejemplo: Las variablesTipo de Actividad y Habitat de los
chungungos del Biobı́o NO son ı́ndependientes, ya que, por
ejemplo
fAlimentación, Agua = 0,02 6= 0,07 = 0,1×0,7 = fAlimentación. ×f.A
I El ejemplo siguiente ayudará a entender lo que significa que
dos variables sean independientes.
Ejemplo: variables independientes
I La tabla siguiente resume el sexo (S) y el tipo (T ) al que
pertenecen las aves rapaces de un bosque:
T \S
Aguila
Buitre
Halcón
Milano
Total
Hembra
90
60
30
60
240
Macho
60
40
20
40
160
Total
150
100
50
100
400
I Vamos a analizar si las variables S y T son independientes.
Ejemplo: variables independientes (continuación)
I Para ello comenzamos por construir una tabla de frecuencias relativas:
T \S
Aguila
Buitre
Halcón
Milano
Total
Hembra
0.225
0.150
0.075
0.150
0.6
Macho
0.15
0.10
0.05
0.10
0.4
Total
0.375
0.250
0.125
0.250
1
I Vemos que en todas las casillas se verifica
fij = fi. × f.j
ya que
fHembra, Aguila = 0,225
fHembra, Buitre = 0,150
=
0,6 × 0,375 = fHembra. × f.Aguila
=
0,6 × 0,250 = fHembra. × f.Buitre
fHembra, Halcón = 0,075
=
0,6 × 0,125 = fHembra. × f.Halcón
etcétera
Ejemplo: variables independientes (continuación)
I Puesto que que en todas las casillas se verifica
fij = fi. × f.j
las variables Sexo y Tipo de rapaz son variables
independientes
I Vamos a analizar la distribución de frecuencias relativas de la
variable Tipo de rapaz en la población de hembras, es decir, la
distribución de T condicionada por S=Hembra:
Tipo
Aguila
Buitre
Halcón
Milano
Total
nS=Hembra
90
60
30
60
240
f S=Hembra
0.375
0.250
0.125
0.250
1
Ejemplo: variables independientes (continuación)
I Analicemos ahora la distribución de frecuencias relativas de la
variable Tipo de rapaz en la población de machos, es decir, la
distribución de T condicionada por S=Macho:
Tipo
Aguila
Buitre
Halcón
Milano
Total
nS=Macho
60
40
20
40
160
fS=Macho
0.375
0.250
0.125
0.250
1
I Como puede observarse, las frecuencias de T condicionadas
por cualquiera de las categorı́as de S, son idénticas.
Ejemplo: variables independientes (continuación)
I Para terminar este análisis, vamos a comparar las frecuencias
condicionadas (idénticas entre sı́) con las frecuencias marginales de
T:
Tipo
ni.
fi.
Aguila 150 0.375
Buitre 100 0.250
Halcón
50 0.125
Milano 100 0.250
Total
400
1
I Observamos que las distribuciones de la variable Tipo de rapaz
condicionada por cualquiera de los sexos son iguales entre sı́ y
coinciden además con la distribución marginal de dicha variable.
I Puede comprobarse que ocurre lo mismo con la distribución de la
variable Sexo condicionada por cualquiera de los tipos de rapaz.
I Esto es lo que ocurre en general cuando dos variables son
independientes: la distribución de cada una de ellas no varı́a en
función de la otra.
Ejemplo: variables independientes (continuación)
I Representando el tipo de rapaz dentro de cada sexo mediante
barras adosadas, se observa que, en los cuatro tipos, machos y
hembras se mantienen en la misma proporción:
100
Sexo
0
20
40
60
80
Hembra
Macho
Aguila
Buitre
Halcón
Tipo de rapaz
Milano
Ejemplo: variables independientes (continuación)
I Lo mismo se observa si se representa el tipo de rapaz para
cada sexo:
100
Tipo de rapaz
0
20
40
60
80
Aguila
Buitre
Halcón
Milano
Hembra
Macho
Sexo
Contrastes de independencia
I Con los datos reales, rara vez sucede que dos variables
cumplan la condición de independencia, es decir, que
verifiquen
fij = fi. × f.j
para todas las combinaciones de modalidades de ambas.
I Sin embargo, en bastantes ocasiones esta condición se cumple
de manera aproximada, y puede considerarse que el hecho de
que no se cumpla exactamente es debido sólo al azar.
I Para poder decidir si dos variables se pueden considerar
independientes en la práctica, existen varios contrastes o test
estadı́sticos de independencia. En el módulo de inferencia
veremos algunos de ellos.
I Estos contrastes sirven para evaluar, en base a los datos, si
hay o no hay evidencia de que las variables se afecten la una a
la otra.
La paradoja de Simpson
La paradoja de Simpson
I Se denomina paradoja de Simpson al cambio que experimenta
a veces el sentido de la relación entre dos variables
cuando se controla el efecto de una tercera variable.
I La paradoja de Simpson puede aparecer cuando los datos que
estudiamos están agregados o combinados, es decir, son
datos heterogéneos.
I Si los datos no se disgregan por grupos (por ejemplo por
edad, por religión, por raza, por pertenencia al G8, etc) el
efecto global puede no representar lo que realmente ocurre,
por lo que se puede llegar a conclusiones erróneas.
I Este fenomeno debe su nombre a Edward Simpson, quien la
describió en 1951 en relación con ciertas pruebas médicas,
aunque ya habı́a sido analizada a principios del siglo XX por el
estadı́stico británico G. Udny Yule, por lo que a veces se le
llama efecto Yule-Simpson.
Ejemplo: la paradoja de Simpson
I La siguiente tabla de doble entrada se refiere a las 674
personas que fueron juzgadas por asesinato en el estado de
Florida entre los años 1976 y 1987.
I La tabla resume la información relativa a dos variables: la raza
del acusado –blanca o negra– y el castigo aplicado –pena de
muerte u otra pena:
I Fuente de los datos: M.L. Radelet y G.L. Pierce. Florida Law
Review 43: 1-34 (1991)
Ejemplo: la paradoja de Simpson (continuación)
I Puesto que el número de acusados blancos es muy superior al de
acusados negros, para poder comparar los porcentajes de condenas
de muerte en cada raza deben utilizarse las frecuencias
condicionadas por la raza del acusado:
I En esta tabla se observa que el porcentaje de sentencias de pena de
muerte es superior entre los acusados de raza blanca, contradiciendo
la idea que suele tenerse.
Ejemplo: la paradoja de Simpson (continuación)
I ¿Será entonces falsa la creencia de que los tribunales condenan a
muerte los negros con más facilidad que a los blancos?
I Antes de sacar conclusiones precipitadas, conviene incluir una
tercera variable en el estudio: la raza de la vı́ctima del asesinato:
Ejemplo: la paradoja de Simpson (continuación)
I La tabla siguiente muestra las frecuencias condicionadas por la raza
del acusado, pero teniendo en cuenta la variable raza de la vı́ctima:
I Como puede observarse, las conclusiones del estudio cambian
drásticamente cuando se incluye esta tercera variable: el
porcentaje de sentencias de pena de muerte es superior entre los
acusados de negros tanto si la vı́ctima es blanca como si es negra.
¿A qué se debe esta paradoja?
I Los datos sobre los asesinatos en Florida son heterogéneos, y al
disgregarlos por la raza de la vı́ctima sexos cambia el sentido de la
relación entre las variables sentencia y raza del acusado.
I Lo que ocurre en este caso es que los asesinos de vı́ctimas de raza
blanca tienen más posibilidades de ser condenados a la pena capital
que los que matan a personas negras.
I Entre los acusados de raza negra son más infrecuentes las vı́ctimas
de raza blanca que entre los acusados de raza blanca. De las 515
vı́ctimas de raza blanca 467 han sido asesinadas por personas
también blancas. Sin embargo, de las 159 vı́ctimas de raza negra,
sólo 16 lo fueron a manos de acusados blancos. Dado que entre las
vı́ctimas blancas la proporción de penas de muerte es mayor, el
porcentaje total de penas de muerte resulta ser más alto entre los
acusados blancos.
I Al analizar por separado los datos de vı́ctimas blancas y negras se
elimina esta heterogeneidad, y se comprueba que en ambos casos el
porcentaje de penas de muerte es superior entre los acusados
negros.
Relación entre una variable cuantitativa y otra cualitativa
¿Cómo enfocamos el análisis de esta relación?
I Para analizar conjuntamente una variable numérica y otra
categórica, lo más natural es enfocar el estudio hacia la
comparación del comportamiento de la variable
cuantitativa en las diferentes subpoblaciones o clases que
define la variable cualitativa, es decir, en cada categoria de
elementos.
I Para ello pueden utilizarse tablas de doble entrada,
representaciones gráficas y estadı́sticos que resuman el
comportamiento de la variable numérica en cada categoria.
I Vamos a ilustrar estas herramientas con un ejemplo.
Ejemplo: CO2 per capita y pertenencia al G-8
I El G-20 es un bloque de paı́ses formado en el año 1999 por los
ocho paı́ses más industrializados (G-8), los once paı́ses con las
principales economı́as emergentes, y la Unión Europea como
bloque.
I La transparencia siguiente recoge las emisiones de CO2 per
capita de estos paı́ses para el año 2004 (medidas en toneladas
métricas), y el estatus de pertenencia de cada uno de ellos al
G-8.
I En este caso se están considerando dos variables sobre cada
unidad experimental, es decir, sobre cada paı́s del G-20:
I
I
La variable continua Emisiones de CO2 per percapita (C ).
La variable categórica Pertenencia al G-8 (G ) con dos
modalidades: sı́ y no.
I Los datos se han extraı́do de la página web oficial de la
División Estadı́stica de la ONU para los Indicadores de los
Objetivos del Milenio
(http://millenniumindicators.un.org/unsd/mdg/Data.aspx).
Emisiones de CO2 per capita y pertenencia al G-8
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Pais
Alemania
Arabia Saudi
Argentina
Australia
Brasil
Canadá
China
Corea del Sur
USA
Francia
India
Indonesia
Italia
Japón
México
Reino Unido
Rusia
Sudáfrica
Turquı́a
G-8
sı́
no
no
no
no
sı́
no
no
sı́
sı́
no
no
sı́
sı́
no
sı́
sı́
no
no
CO2
97881
133811
133811
162720
18001
200095
38393
97652
203792
61608
12023
16945
76908
98434
42387
97934
105393
91927
31395
Diagramas de caja comparativos
I Los diagramas de caja son una herramienta muy útil para comparar
G8
Pertenencia al G−8
NoG8
los valores de la variable numérica en las distintas categorı́as que
establece la variable cualitativa (en este caso las emisiones de CO2
per capita en función de la pertenencia al G8):
50000
100000
150000
200000
Emisiones de CO2 percapita
I El gráfico refleja que los paı́ses del G8 emiten más CO2 que el resto.
Estadı́sticos condicionados
I Para completar el análisis comparativo, podemos calcular los
estadı́sticos que resumen la variable numérica (media, mediana,
desviación tı́pica, cuantiles, etc), para cada uno de los grupos
definidos por la variable cualitativa, es decir, condicionando por las
distintas modalidades de la variable G-8.
I Estos estadı́sticos condicionados proporcionan un resumen
numérico sobre aspectos concretos de las emisiones de CO2 en cada
uno de los grupos, según el paı́s pertenezca o no al G8:
x̄
sx
Min
Q1
Q2
Q3
Max
G8
117756 53874 61608 92638 98184 129068 203792
NoG8 62019 51418 12023 24698 38393 94789 162720
I Estos valores corroboran que las emisiones de CO2 difieren
ampliamente en ambos grupos, siendo mucho mayores las del grupo
perteneciente al G8.
Otros ejemplos
I El análisis de las medidas biométricas sobre el Lucanus cervus
que hemos visto en las sesiones de tutorı́as son otro ejemplo
de relación entre una variable numérica y otra categórica.
I En dicho ejemplo hemos analizado:
La relación entre la variable numérica Anchura de la cabeza
(KB), y la variable categórica Sexo con dos modalidades:
hembra y macho.
I La relación entre la variable numérica Anchura de la cabeza
(KB), y la variable categórica Provincia de procedencia con
tres modalidades: Asturias, Cantabria y Otras.
I
I El análisis detallado esta disponible en la sección ”R y
R-commander” del campus virtual.
Relación entre dos variables cuantitativas
Ejemplo: niveles de NO2 en Madrid (2007-2008)
I Para ilustrar el análisis de conjunto de dos variables
cuantitativas, vamos a considerar los niveles de dióxido de
nitrógeno (NO2 ) alcanzados en las estaciones de la red de
medición de la contaminación atmosférica del Ayuntamiento
de Madrid.
I Nótese que en este ejemplo ambas variables son continuas.
I La transparencia siguiente recoge los niveles de NO2
correspondientes a los años 2007 y 2008.
I Los datos se han extraı́do de los balances anuales sobre la
calidad del aire elaborados por Ecologistas en Acción. No se
incluyen las estaciones de la Glorieta de Carlos V ni de
Villaverde, por encontrarse fuera de servicio durante todo este
periodo.
Datos sobre niveles de NO2 en Madrid (2007- 2008)
Diagramas de dispersión
I Un gráfico muy útil para visualizar la relación entre dos
variables continuas, X e Y , es el diagrama de dispersión
(también llamado nube de puntos, o scatterplot). Se construye
representando sobre el plano cada dato bivariante, (xi , yi ), con
sus dos coordenadas, como se muestra en el esquema:
Ejemplo: diagramas de dispersión
I La nube de puntos siguiente corresponde a los niveles de NO2 en las
estaciones de Madrid en los años 2007 y 2008:
I Se aprecia claramente que existe una fuerte relación entre los niveles
de NO2 en ambos años: las estaciones con niveles altos en 2007
tienden a tener también niveles altos en 2008, y viceversa.
Relación entre NO2 -2007 y NO2 -2008
I Tambien se observa que los puntos bivariantes parecen
agruparse entorno a una recta:
I Es decir, la relación que hay entre en nivel de NO2 en 2007 y
el de 2008 es lineal y positiva.
Tipos de relación entre dos variables numéricas
Relación lineal positiva. Otros tipos de relación
I En el ejemplo de los niveles de contaminación por dióxido de
nitrógeno, la nube de puntos está muy concentrada alrededor
de una recta con pendiente positiva. Por eso se dice que hay
una relación lineal positiva entre los valores de NO2 de 2007
y los de 2008.
I Esta forma de dependencia entre dos variables numéricas
aparece con frecuencia en la naturaleza. Otros ejemplos son la
relacion entre la altura de los padres y la de sus crı́as, o entre
los pesos y las estaturas en una misma especie.
I En otros casos, ocurre que las dos variables están muy
relacionadas pero la relación entre es de otro tipo. También
hay ocasiones en las que las dos variables no parecen estar
relacionadas.
I Los diagramas de dispersión ayudan a identificar el tipo de
relación existente entre dos variables numéricas.
Relación lineal negativa
I La siguiente nube de puntos representa los datos sobre el
62
60
58
56
ritmo cardiaco
64
66
tiempo que tardan varios antı́lopes en recorrer dos kilómetros
y el ritmo cardiaco que alcanzan:
86
88
90
92
tiempo en recorrer 2 km
94
Relación lineal negativa (continuación)
I En este caso los datos se agrupan alrededor de una recta, pero
62
60
58
56
ritmo cardiaco
64
66
los valores altos de una variable aparecen con más frecuencia
asociados a valores bajos de la otra, y viceversa:
86
88
90
92
tiempo en recorrer 2 km
94
Relación lineal negativa (continuación)
I Las variables ”tiempo en recorrer 2 km” y ”ritmo cardiaco” de
los antı́lopes tienen una relación lineal negativa, ya que los
datos bivariantes están agrupados alrededor de una recta con
pendiente negativa.
I Otro ejemplo de esta situación es la relación entre el precio de
450
440
430
420
ventas
460
470
un determinado producto y la cantidad de ventas del mismo:
30
40
50
precio
60
70
Relaciones no lineales
I En muchos casos la relación entre las dos variables no es lineal,
38.5
Y
38.0
37.5
90
80
37.0
85
Y
95
39.0
100
39.5
sino de otro tipo: exponencial, cuadrática, logarı́tmica...
5
10
15
20
X
25
30
35
−3
−2
−1
0
1
2
X
I Por ejemplo, la relación entre la antigüedad de una máquina y la
cantidad de averias anuales suele ser positiva pero no lineal.
3
Ausencia de relación entre las variables
I Por último, existen casos en los que no hay ninguna relación entre
70
80
90
Y
100
110
120
las dos variables. Esto ocurre cuando las variables son
independientes:
5
10
15
20
25
30
35
X
I Por ejemplo, por regla general, no existe ninguna relación entre la
altura de las personas y su coeficiente de inteligencia.
Esquema: tipos de relación entre dos variables
Covarianza
Medidas de la relación entre dos variables
I Cuando las variables X e Y son ambas numéricas, se pueden
calcular, a partir de sus frecuencias marginales, estadı́sticos
que resuman determinados aspectos del comportamiento de
cada una de ellas por separado.
I Por ejemplo, para obtener un resumen básico de cada variable,
se pueden utilizar sus medias, x e y , que indican cúal es el
centro de cada una de ellas, y sus varianzas, sx2 y sy2 que
miden sus respectivos grados de dispersión.
I Para completar este resumen, serı́a adecuado contar algún
estadı́stico que indique cómo es la relación entre las dos
variables.
I La covarianza entre dos variables cumple con este objetivo.
Covarianza entre dos variables
I Consideremos un conjunto de n observaciones bidimensionales,
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
de dos variable numéricas, X e Y .
I La covarianza entre X e Y se define como
n
X
sxy =
(xi − x̄)(yi − ȳ )
i=1
n
I La covarianza es una medida de la variabilidad conjunta de
dos variables variables X e Y .
I Cuando la covarianza entre las variables X e Y es nula, es
decir, si se verifica sxy = 0 se dice que las variables son (o
están) incorrelacionadas entre sı́.
Cálculo de la covarianza
I Una fórmula alternativa para la covarianza, que hace los
cálculos más sencillos, es la siguiente:
n
X
sxy =
xi yi
i=1
n
− x̄ ȳ
I Es decir, la covarianza entre dos variables es el promedio
de sus productos menos el producto de sus promedios.
I Cuestión: ¿cuál es la covarianza entre una variable y ella
misma, sxx ?
Interpretación de la covarianza
I La covarianza, sxy , mide la dependencia lineal existente
entre las variables X e Y :
Cuando lo más frecuente es encontrar valores grandes de X
asociados con valores grandes de Y , y valores pequeños de X
asociados a valores pequeños de Y , la covarianza será
positiva, sxy > 0.
I Por el contrario, si lo más frecuente es encontrar valores
grandes de X asociados a valores pequeños de Y y viceversa,
la covarianza será negativa, sxy < 0.
I Cuando no existe ninguna relación de tipo lineal entre las
variables X e Y , la covarianza entre ellas será sxy = 0, es
decir, X e Y serán variables incorrelacionadas.
I
I Es importante señalar que la covarianza tiene en cuenta sólo
las relaciones lineales, por lo que dos variables
incorrelacionadas pueden estar relacionadas mediante otro
tipo de función: exponencial, logarı́tmica, cuadrática, cúbica,
sinusoidal, etc.
Esquema: signo de la covarianza
Ejemplo: covarianza en viviendas de Piriapolis
I La siguiente tabla recoge la superficie (X ) de una selección de viviendas costeras
de Piriapolis (Uruguay) y sus precios de venta (Y ):
Superficie (X )
Precio (Y )
Superficie (X )
Precio (Y )
106
178
92
119
73
114
132
86
117
125
68
91
188
165
132
115 173
116
114
116
114
126
113
124
76
101
137
203
186
181
214
50
71
111
97
204
100
97
131
124
Las superficies de las viviendas están medidas en m2 y los precios en miles de
pesos uruguayos.
I Queremos analizar cómo es la relación entre las variables X e Y . Evidentemente,
lo que esperamos es encontrar una relación positiva entre las variables, es decir,
que las viviendas más grandes tiendan a ser más caras y viceversa.
I Para comprobar si esta intuición es cierta, vamos a utilizar las herramientas que
nos permiten analizar cómo es esa relación.
Ejemplo: viviendas de Piriapolis (continuación)
I Comenzaremos por representar gráficamente estos datos
50
100
Precio
150
200
mediante un diagrama de dispersión:
70
80
90
100
Superficie
110
120
130
Ejemplo: viviendas de Piriapolis (continuación)
I La nube de puntos parece confirmar que existe relación lineal
positiva entre precio y superficie de las viviendas de Piriápolis.
I Para corroborar la existencia de este tipo de relación,
calcularemos la covarianza entre ambas variables.
I Comenzamos por por calcular la media de cada una de las
variables:
n
x̄ =
1
1X
xi = (106 + 73 + . . . + 97) = 103,75 m2
n
20
i=1
n
1X
1
ȳ =
yi = (178 + 91 + . . . + 124) = 145,214 pesos
n
20
i=1
Ejemplo: viviendas de Piriapolis (continuación)
I Por otra parte, el promedio de los productos es
n
X
xi yi
i=1
n
=
106 × 178 + 73 × 91 + . . . . . . + 97 × 124
= 15667,413
20
I Luego, la covarianza resulta ser
sxy = 15667,413 − 103,75 × 145,214 = 601,46
I Tal como esperábamos, la covarianza es positiva,
sxy = 601,46 > 0,
lo cual indica una relación lineal de tipo positivo entre X e Y .
Ejemplo: covarianza datos de NO2 en 2007 y 2008
I Vamos a calcular ahora la covarianza entre los niveles de NO2
en el municipio de Madrid en los años 2007 (X ) y 2008 (Y ).
Como hemos visto en el diagrama de dispersión de estos datos,
existe una fuerte dependencia positiva entre ambas variables:
Ejemplo: covarianza datos de NO2 (continuación)
I Se tiene que
25
x̄ =
1 X
38 + 54 + . . . + 62
xi =
= 59,92
25
25
i=1
ȳ =
25
1 X
25
i=1
yi =
35 + 50 + . . . + 66
= 55,48
25
25
1 X
38 × 35 + 54 × 50 + . . . + 62 × 66
xi yi =
= 3481,4
25
25
i=1
I Por tanto la covarianza entre X e Y es
sxy = 3482,4 − 59,92 × 55,48 = 157,04
I Puesto que la covarianza es positiva (sxy = 157,04 > 0), se
confirma que existe una dependencia lineal positiva entre X e Y .
I Puede sorprender que esta covarianza sea inferior a la que existe
entre superficies y precios de las casas de Piriápolis...
Covarianza entre variables independientes
I Puede demostrarse que, cuando X e Y son variables
independientes, el promedio de sus productos coincide con el
producto de sus promedios, es decir, se verifica
n
X
xi yi
i=1
= x̄ · ȳ
n
y en consecuencia
n
X
sxy =
xi yi
i=1
n
− x̄ · ȳ = 0
I Por tanto, las variables independientes son siempre
variables incorrelacionadas.
Incorrelación e independencia de variables
I Las variables independientes son siempre variables
incorrelacionadas, pero el recı́proco de esta afirmación no es
cierto, ya que dos variables pueden tener covarianza cero y ser
dependientes. Es decir, la incorrelación no implica
independencia.
I Esto es ası́ porque la covarianza entre X e Y lo que mide es la
co-dependencia lineal entre dos variables. Pero, evidentemente,
dos variables pueden depender la una de la otra mediante otro tipo
de relación. Por ejemplo, la covarianza entre las variables
representadas en el siguiente diagrama de dispersión es 0, a pesar de
que existe entre ellas una clara relación cuadrática:
Vector de medias y matriz de varianzas-covarianzas
I Dado un conjunto de n observaciones bidimensionales,
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
de dos variable numéricas, X e Y , se llama vector de medias de
(X , Y ) al vector bi-dimensional


x̄


ȳ
I Se llama matriz de varianzas y covarianzas de (X , Y ) a la matriz

sx2
sxy
sxy
sy2
S =


I La matriz de covarianzas es una matriz cuadrada. Es además una
matriz simétrica, es decir, verifica S 0 = S, ya que sxy = syx .
I El vector de medias y la matriz de covarianzas constituyen un buen
resumen de los datos bivariantes, ya que informan sobre el centro y
la dispersión de cada variable y sobre la relación entre ambas.
Ejemplo: vector de medias y matriz de covarianzas
I Retomemos los datos sobre la superficie (X ) y el precio (Y ) de las viviendas de
Piriápolis:
Superficie (X )
Precio (Y )
106
178
73
91
114
188
132
165
86
132
117
115
125
173
68
116
71
97
111
204
Superficie (X )
Precio (Y )
92
119
114
101
116
137
114
203
126
186
113
181
124
214
76
50
100
131
97
124
I Ya hemos visto que para estos datos se tiene
x̄ = 103,75;
ȳ = 145,21;
sxy = 601,46
I Calculamos, además, las varianzas de ambas variables, sx2 y sy2 :
n
sx2 =
1X 2
1
x − x̄ 2 =
(1062 + . . . + 972 ) − 103,752 = 375,88
n i=1 i
20
sy2 =
1X 2
1
y − ȳ 2 =
(1782 + . . . + 1242 ) − 145,212 = 1908,58
n i=1 i
20
n
Ejemplo: vector de medias y matriz de covarianzas
I El vector de medias correspondientes a la superficie (X ) y el
precio (Y ) de las viviendas de Piriápolis son por tanto,

  
103,75
x̄

 =
ȳ
145,21
y su matriz de covarianzas,
 2
 
sx sxy
375,88
=
S =
sxy sy2
601,46
601,46


1908,58
Limitaciones de la covarianza
I La covarianza es una medida de la variabilidad conjunta de dos
variables que tiene en cuenta sólo dependencias de tipo lineal.
I Además, la covarianza entre dos variables varı́a si cambiamos
las unidades en las que medimos alguna de ellas.
I Por ejemplo, si la variable X está está expresada en gramos,
su covarianza con cualquier otra variable Y será 1000 veces
mayor que la covarianza entre esa misma variable X expresada
en kilos, e Y .
I Por tanto, tiene sentido interpretar el signo de la
covarianza, pero su valor absoluto no tiene utilidad.
Coeficiente de correlación lineal
Coeficiente de correlación entre dos variables
I Dado un conjunto de n observaciones bidimensionales,
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
de dos variable numéricas, X e Y , se define el coeficiente de
correlación lineal entre X e Y , como
rxy =
sxy
sx · sy
Correlación y dependencia lineal entre dos variables
I Evidentemente, el coeficiente de correlación lineal,
rxy =
sxy
sx sy
siempre conserva el signo de la covarianza, por lo que
Cuando lo más frecuente es encontrar valores grandes de X
asociados con valores grandes de Y , y valores pequeños de X
asociados a pequeños de Y , el coeficiente de correlación será
positivo, rxy > 0.
I Por el contrario, si lo más frecuente es encontrar valores
grandes de X asociados a valores pequeños de Y y viceversa,
el coeficiente de correlación lineal será negativo, rxy < 0.
I Cuando no existe ninguna relación de tipo lineal entre las
variables X e Y , el coeficiente de correlación entre ellas es
rxy = 0. Esta es la razón por la que, en estos casos, se dice que
las variables X e Y están incorrelacionadas.
I
Cotas del coeficiente de correlación
I El coeficiente de correlación es un estadı́stico adimensional,
es decir, no depende de las unidades en las que estén
medidas los datos.
I Además, puede demostrarse que el coeficiente de
correlación entre dos variables siempre toma valores entre
-1 y 1, es decir, para cualquier par de variables X e Y se
verifica
−1 ≤ rxy ≤ 1
I Esto permite evaluar el grado de dependencia lineal entre
las dos variables.
Interpretación del coeficiente de correlación
I Si rxy = 0, es decir, si X e Y están incorrelacionadas, no
existe ninguna dependencia de tipo lineal entre ellas.
I Si rxy = 1, entonces todos los puntos
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) están sobre una recta con
pendiente positiva.
I Si rxy = −1, entonces todos los puntos
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) están sobre una recta con
pendiente negativa.
I Si rxy toma un valor próximo a 1, X e Y tienen una fuerte
dependencia lineal de tipo positivo.
I Si rxy toma un valor próximo a -1, X e Y tienen una fuerte
dependencia lineal de tipo negativo.
I Si rxy toma un valor próximo a 0, la dependencia lineal
entre X e Y es leve.
Gráfico: coeficiente de correlación lineal
Ejemplo: coeficiente de correlación
I Retomemos los datos sobre la superficie (X ) y el precio de las
viviendas (Y ) de Piriápolis.
I Hemos visto que la matriz de varianzas y covarianzas de estos
datos es

sx2 sxy
S =
sxy
sy2


375,88
601,46
=


601,46
1908,58
I Por tanto, el coeficiente de correlación lineal entre superficie y
precio de las viviendas es
rxy = √
601,46
= 0,71
375,88 × 1908,58
I Puesto que se trata de un coeficiente de correlación positivo y
relativamente próximo a 1, se confirma que existe una cierta
dependencia lineal positiva entre X e Y .
Ejemplo: correlación datos de NO2 en 2007 y 2008
I Calculemos ahora el coeficiente de correlación entre los niveles
de NO2 en el municipio de Madrid en los años 2007 (X ) y
2008 (Y ).
I Como ya hemos visto, el diagrama de dispersión de estos
datos sugiere que existe una fuerte dependencia positiva entre
los niveles de NO2 en los años 2007 y 2008.
Ejemplo: correlación datos de NO2 (continuación)
I Hemos visto que las medias de X e Y y la covarianza entre ambas
son
x̄ = 59,92;
ȳ = 55,48;
sxy = 3482,4 − 59,92 × 55,48 = 157,04
I Por otra parte las varianzas de X e Y son
n
sx2 =
1
1X 2
xi − x̄ 2 =
(382 + 542 + . . . + 622 ) − 59,922 = 202,71
n
25
i=1
sy2 =
n
1X
n
i=1
yi2 − ȳ 2 =
1
(352 + 502 + . . . + 662 ) − 55,482 = 138,89
20
I Por tanto, el coeficiente de correlación lineal entre X e Y es
rxy = √
157,04
= 0,9359
202,71 × 138,89
I Puesto que se trata de un coeficiente de correlación muy próximo a
1, se confirma que existe una dependencia lineal positiva muy fuerte
entre las variables.
Correlaciones espurias: a correlación no siempre indica
causalidad
Ejemplo: no de cigüeñas y nacimientos de bebés
I Un ornitólogo está estudiando si existe alguna relación entre el
número de nacimientos de niños en una localidad (N) y el
número de cigüeñas avistadas (C ).
Tras observar ambas variables mensualmente durante un año,
obtiene los siguientes resultados:
12
X
ni = 421
i=1
12
X
i=1
12
X
ci = 991
i=1
ni2 = 15565
12
X
i=1
ci2 = 86099
12
X
i=1
ni ci = 36604
Ejemplo: estadı́sticos de cigüeñas y bebés
I A partir de los sumatorios de los que disponemos se pueden
calcular la medias y varianzas de las variables N y C y la
covarianza entre ellas:
12
12
X
X
ni
ci
421
991
=
= 35,08
=
= 82,58
n = i=1
c = i=1
12
12
12
12
12
X
ni2
i=1
12
12
X
ci2
i=1
12
12
X
=
15565
= 1297,08
12
sn2 = 1297,08 − 35,082 = 66,48
=
86099
= 7174,92
12
sc2 = 7174,92 − 82,582 = 355,46
n c
Ejemplo: correlación entre cigüeñas y bebés
I Con los estadı́sticos anteriores podemos calcular el coeficiente
de correlación entre el número de nacimientos y la cantidad
de cigüeñas observadas:
153,43
snc
=√
= 0,998
rnc = p
66,48 × 355,46
sn2 × sc2
Puesto que se trata de un coeficiente de correlación muy
próximo a 1, indica que existe una dependencia lineal positiva
muy fuerte entre N y C .
Ejemplo: ¿traen las cigüeñas a los bebés?
I Es evidente que, aunque el coeficiente de correlación sea muy
próximo a 1 (r ≃ 1), no podemos concluir que exista una
relación causal entre el número de cigüeñas y los
nacimientos de bebes.
Correlaciones espurias
I El anterior es un ejemplo clásico de lo que suele denominarse
correlación espuria o falsa correlación.
I Evidentemente, las cigüeñas no influyen en la natalidad. Pero
las cigüeñas suelen anidar en los pueblos europeos entre los
meses de febrero y septiembre, y en esta época del año se
producen más nacimientos (porque más niñ@s son concebid@s
en la época que va de mayo a diciembre).
I Hay un tercer factor que no estamos considerando, un ”factor
de confusión” o ”variable escondida” que influye tanto en N
como en C : la época del año (recordemos que los 12 datos de
este ejemplo corresponden a los 12 meses del año).
I Es importante tener presente que la correlación no siempre
es un indicador de causalidad.
Otro ejemplo de correlación espuria
I ”Los niños que duermen con la luz encendida son más
propensos a desarrollar miopı́a en la edad adulta”
I ésta fue la conclusión de un estudio del centro médico de la
Universidad de Pensilvania, publicada el 13 de mayo de 1999
en la revista Nature, y que tuvo gran repercusión en la prensa.
I Sin embargo, un posterior estudio de la Universidad Estatal de
Ohio no encontró ningún enlace entre el hecho de niños
durmiendo con la luz encendida y el desarrollo de miopı́a
I Lo que sı́ encontró este segundo estudio fue una fuerte
relación entre la miopı́a parental y el desarrollo en los niños de
este defecto.
I También observó que los padres miopes tenı́an una mayor
tendencia a dejar las luces encendidas en las habitaciones de
sus hijos. Esta es la variable escondida de este ejemplo.
Un ejemplo más de correlación espuria
I Para casi cualquier ciudad, si se analizan las variables venta de
helados y cantidad de sofocos registrados, en distintas épocas
de año, es muy probable que se obtenga un coeficiente de
correlación próximo a 1.
I ¿Quiere esto decir que el consumo de helados es el causante
de los sofocos?
I De nuevo, la respuesta en no. Lo que ocurre es que los
helados tienden a consumirse bastante más en las épocas más
calurosas, y el calor sı́ puede provocar sofocos.
I En este caso, la variable escondida es la temperatura. Los
datos se toman en distintas épocas, y la temperatura varı́a a
lo largo de ellas, influyendo tanto en el consumo de helados
como en el número de sofocos. Pero estas dos variables no se
afectan entre sı́ de manera directa.
Bibliografı́a
I Grima, P. (2010) La certeza absoluta y otras ficciones. Los
secretos de la estadı́stica. RBA
Capı́tulo 1.
I Peña, D. (2001) Fundamentos de Estadı́stica. Alianza Editorial
Capı́tulo 3.
I Ross, S.M. (2007) Introducción a la Estadı́stica. Reverte
Capı́tulo 3, sección 7.
I Milton, J.S. (2007). Estadı́stica para Biologı́a y Ciencias de la
Salud. Mc Graw Hill
Capı́tulo 11, sección 3.
Descargar