Estadística Descriptiva Bivariante

Anuncio
24
Estadı́stica
Tema 2: Estadı́stica Descriptiva Bivariante.
Se va a estudiar la situación en la que los datos representan observaciones, correspondientes a
dos variables o caracteres, efectuadas en los individuos de una determinada población. Su estudio
conjunto nos va a permitir determinar las relaciones entre ellas.
Ambas variables pueden ser cuantitativas, una cualitativa y la otra cuantitativa, o las dos
cualitativas.
Vamos a denotar por X e Y las variables estadı́sticas objeto de estudio; A1 , A2 , .., Al serán
las modalidades de la variable X, B1 , B2 , ..., Bk las modalidades de la variable Y . El par (xi , yi )
denotará, en general, el valor de las variables X e Y sobre el elemento i-ésimo de la población.
Tablas de doble entrada.
Una primera forma de resumir la información contenida en los datos es por medio de tablas de
frecuencias.
Definición 1
i. Se denomina frecuencia total al número total de individuos observados o número
total de datos, N.
ii. Se denomina frecuencia absoluta del par (Ai , Bj ), al número de individuos, nij , de entre los N,
que poseen la modalidad Ai de X, y la modalidad Bj de Y a la vez.
iii. Se denomina frecuencia relativa del par (Ai , Bj ), al cociente fij =
nij
.
N
Definición 2 Se dice que se ha dado la distribución conjunta de las variables estadı́sticas X e Y si
se dan las modalidades de las variables y las correspondientes frecuencias (absolutas o relativas) con
que aparece cada par.
La forma de dar estos valores es por medio de tablas en las que aparecen las distintas modalidades
de las variables (ordenadas de menor a mayor, si la variable es cuantitativa). En la tabla pueden
aparecer frecuencias relativas en lugar de absolutas y en ocasiones, se indican ambas.
X\Y
A1
A2
..
.
B1
n11
n21
..
.
B2
n12
n22
..
.
Al
nl1
nl2
. . . Bk
. . . n1k
. . . n2k
..
..
.
.
. . . nlk
N
Si las dos variables X e Y son cualitativas, la tabla correspondiente recibe el nombre de
tabla de contingencia.
25
Estadı́stica
Propiedades 1
1.
k
l nij = N
i=1 j=1
2.
l k
fij = 1
i=1 j=1
Ejemplo:
Distribución de alumnos de 2o de I.T.I. por titulación y sexo:
Hombre Mujer
27
5
Titulación\Sexo
Eléctrico
Electrónico
27
285
5
285
85
285
22
285
90
285
23
285
19
285
14
285
85
Mecánico
22
90
Quı́mico
23
19
14
285
1
1
Distribuciones marginales.
A partir de una distribución conjunta de dos variables es posible estudiar la distribución de cada una
de las variables aisladamente ( es decir, independientemente de los valores que tome la otra variable).
Los valores de las frecuencias para las variables X e Y se obtienen a partir de la tabla conjunta,
anotando en los márgenes de la tabla la suma de los valores de cada fila y de cada columna:
X\Y
A1
A2
..
.
B1
n11
n21
..
.
B2
n12
n22
..
.
Al
nl1
n.1
nl2
n.2
. . . Bk
. . . n1k
. . . n2k
..
..
.
.
. . . nlk
. . . n.k
n1.
n2.
..
.
nl.
N
• Las frecuencias relativas y absolutas, respectivamente, de la modalidad Ai de la variable X son:
fi. =
k
j=1
fij
ni. =
k
j=1
nij
• Las frecuencias relativas y absolutas, respectivamente, de la modalidad Bj de la variable Y son:
f.j =
l
i=1
fij
n.j =
l
i=1
nij
26
Estadı́stica
Observación 1 Las distribuciones marginales de X e Y son distribuciones univariantes; en este
sentido, puede aplicárselas todo lo estudiado en el tema anterior. En particular, si son variables
cuantitativas, tendrán asociada media, varianza, etc.
Ejemplo:
Distribución de alumnos de 2o de I.T.I. por titulación y sexo:
Titulación\Sexo
Eléctrico
Electrónico
Mecánico
Quı́mico
Hombre Mujer
27
5
5
285
85
285
22
285
90
285
23
285
19
285
14
285
33
285
221
64
285
1
85
90
19
221
285
La distribución marginal de Titulación es:
Titulación
Eléctrico Electrónico
Frecuencia
32
107
32
107
Frecuencia relativa 285
285
Y la de Sexo:
Hombre
Sexo
Frecuencia
221
Frecuencia relativa 221
285
2
32
27
285
32
285
22
107
23
113
14
33
64
285
107
285
113
285
Mecánico
113
Quı́mico
33
113
285
33
285
Mujer
64
64
285
Distribuciones condicionadas.
Definición 3 Se define la distribución condicionada de Y cuando X = Ai ( respectivamente, de
X condicionada a Bj ) , que se denota por Y /(X = Ai ) ( respectivamente X/(Y = Bj )) como la
distribución de la variable Y (respectivamente X) sobre los elementos de la población que tienen la
caracterı́stica Ai (respectivamente, Bj ).
Observación 2 Un aspecto importante de las distribuciones condicionadas es que la población objeto
de estudio no es la misma que la de partida.
Los valores de las frecuencias para la variables Y /(X = Ai ) y X/(Y = Bj ) se obtienen a partir
de la tabla conjunta:
• Las frecuencias absolutas de la variable Y cuando X = Ai son las de la lı́nea correspondiente
a Ai .
• Las frecuencias relativas de la variable Y cuando X = Ai son: fj/i =
por f (Bj /(X = Ai ))).
En efecto, fj/i =
nij
ni.
=
nij/N
ni. /N
f ij
fi.
(también se representan
27
Estadı́stica
• Las frecuencias absolutas de la variable X cuando Y = Bj son las de la columna correspondiente
a Bj .
• Las frecuencias relativas de la variable X cuando Y = Bj son: fi/j =
por f (Ai /(Y = Bj ))).
f ij
(también
f.j
se representan
Ejemplo:
La distribución condicionada de Titulación a Mujer es:
Titulación/(Mujer)
Frecuencia
Frecuencia relativa
Eléctrico
5
Electrónico
22
Mecánico
23
Quı́mico
14
5
64
22
64
23
64
14
64
Y la de Sexo a Mecánico:
Hombre
Sexo/(Mecánico)
Frecuencia
90
90
Frecuencia relativa 113
Mujer
23
23
113
Proposición 1 Dadas las distribuciones condicionadas de la variable X a cada modalidad de la
variable Y, y dada la distribución marginal de Y (respectivamente, de Y a cada modalidad de X, y
la marginal de X), queda determinada la distribución conjunta de (X,Y).
En efecto, basta observar que fij = fi/j f.j = fj/i fi. .
Definición 4 Se dice que las variables estadı́sticas X e Y son estadı́sticamente independientes si se
verifica: fi/j = fi. para i = 1, 2, . . . , l, j = 1, 2, . . . , k.
Se dice que dos modalidades Ai y Bj son estadı́sticamente independientes si se verifica: fi/j = fi.
La definición anterior significa que la distribución de la variable X no depende de los valores que
tome la variable Y, y recı́procamente.
Proposición 2 Las siguientes condiciones son equivalentes:
1. Las variables estadı́sticas X e Y son independientes,
2. fij = fi. f.j , para i = 1, 2, . . . , l, j = 1, 2, . . . , k.
3. fj/i = f.j para i = 1, 2, . . . , l, j = 1, 2, . . . , k.
Ejemplo:
Variables no independientes:
X\Y B1 B2 B3
1
1
A1
0
0
3
3
1
1
A2
0
0
3
3
1
1
A3
0
0
3
3
1
1
1
1
3
3
3
Variables independientes:
X/Y B1 B2 B3
1
1
1
1
A1
9
9
9
3
1
1
1
1
A2
9
9
9
3
1
1
1
1
A3
9
9
9
3
1
1
1
1
3
3
3
Estadı́stica
3
28
Representaciones gráficas de las distribuciones bidimensionales
de frecuencias.
Las distribuciones marginales y condicionadas son distribuciones unidimensionales, como ya se ha
indicado y, por tanto, sus representaciones gráficas se ajustarán a las vistas en la sección de distribuciones
unidimensionales de frecuencias.
Se van a considerar sólo representaciones gráficas de distribuciones bidimensionales:
• Diagrama de Mosaico. Sobre el eje Y se representan las modalidades de una de las variables
y sobre cada una se levanta un rectángulo con área proporcional a la frecuencia marginal
de la modalidad. Cada rectángulo se subdivide en subrectángulos de base proporcional a la
frecuencia condicionada de cada valor de la otra variable a esta modalidad. De esa manera se
da también una imagen gráfica de la distribución conjunta de ambas variables (proporcionada
por el área de cada subrectángulo).
En el ejemplo de la distribución de alumnos por titulación y sexo:
• Diagramas de barras. Se utiliza para representar la distribución cuando ambas variables tienen
pocas modalidades.
Consiste en dibujar para cada par (Ai , Bj ) una barra de longitud proporcional a la frecuencia
(relativa o absoluta). Las barras se pueden disponer de diversas formas. Damos dos ejemplos:
29
Estadı́stica
• Histograma tridimensional. Se utiliza para representar la distribución cuando ambas variables
son continuas y agrupadas en intervalos.
Consiste en representar las clases de cada variable en un plano y levantar sobre cada rectángulo
un paralelepı́pedo de volumen proporcional a la frecuencia relativa o absoluta.
Si los rectángulos base de todas las clases son iguales, los paralelepı́pedos que se levantan, y
que tienen que verificar que su volumen sea proporcional a la frecuencia de la clase, tendrán
como altura un valor proporcional a las frecuencias (relativas o absolutas).
• Diagrama de dispersión o nube de puntos. Se utiliza para variables cuantitativas sin agrupar
en clases y en las que no existen pares de valores repetidos.
Consiste en representar cada par de puntos (xi , yj ) en un plano. Permite obtener también una
representación gráfica de las distribuciones marginales de X e Y, si se proyectan los puntos
sobre cada eje (se obtiene ası́ el diagrama de puntos para cada variable).
En el siguiente gráfico están representados, para una población de cereales de uso comn en el
desayuno, el contenido de carbohidratos y de calorı́as para 100gr de producto:
4
Dependencia lineal.
Una de las formas de dependencia de más interés entre variables continuas es la dependencia lineal,
por varias razones:
• En muchos problemas prácticos la relación entre las variables es lineal.
• Aún cuando la relación no sea lineal, frecuentemente es linealizable, mediante transformaciones.
• Si el rango de valores es pequeño, la aproximación lineal puede ser válida.
Vamos a introducir a continuación medidas de la relación lineal entre las variables:
1. Covarianza.
Definición 5 Sea (X, Y ) una distribución bidimensional, se define la covarianza de (X,Y) y
se representa por Cov(X,Y) ó sXY como:
Cov(X,Y) =
l k
i=1 j=1
(xi − x̄) (yj − ȳ) fij
30
Estadı́stica
Observación 3 La fórmula anterior es válida cuando se tiene la distribución de frecuencias
de (X, Y ).
Si lo que se tiene son los N pares de datos en la forma (xi , yi ) ∀i = 1, 2, . . . , N la expresión
anterior queda de la forma:
Cov(X,Y) =
N
(xi − x̄)(yi − ȳ)
N
i=1
Si los datos están agrupados en frecuencias absolutas, entonces
Cov(X,Y) =
l,k
(xi − x̄)(yj − ȳ)nij
N
i,j=1
Vamos a ver una forma de expresar la covarianza, útil a la hora de hacer cálculos:
Usando la expresión anterior y desarrollando:
Cov(X,Y) =
1
=
N
N
N
N
N
1 1 (xi − x̄) (yi − ȳ) =
(xi yi − xi ȳ − x̄yi + x̄ȳ) =
N i=1
N i=1
N
N
N
1 1 xi yi − ȳ
xi − x̄
yi + N x̄ȳ =
xi yi − ȳx̄ − x̄ȳ + x̄ȳ =
xi yi − ȳx̄
N i=1
N i=1
i=1
i=1
i=1
Observación 4 El valor de la covarianza proporciona información sobre la posible relación
lineal entre dos variables; cuando los datos parecen disponerse entorno a una recta de pendiente
positiva, la covarianza es positiva; si parecen disponerse en torno a una recta de pendiente
negativa, la covarianza es negativa; si no parece haber relación lineal, la covarianza es próxima
a cero:
31
Estadı́stica
Propiedades 2 Sean X e Y dos variables estadı́sticas.
1. Si X e Y son independientes, entonces Cov(X,Y) = 0. (El recı́proco no es en general
cierto).
En efecto, si X e Y son independientes, para cada i,j se tiene que fij = fi. f.j y por tanto,
Cov(X,Y) =
l k
i=1 j=1
=
l
i=1
xi yi fij − x̄ȳ =
l k
i=1 j=1
xi yi fi. f.j − x̄ȳ =
⎞
⎛ k
xi fi. ⎝ yj f.j ⎠ − x̄ȳ
=0
j=1
2. Si a, b, c, d ∈ IR, y U = aX + b, V = cY + d, entonces Cov(U,V) = a c Cov(X,Y).
Cov(U,V) = Cov(aX+b,cY+d) =
=
N
1 (axi + b − (ax̄ + b)) (cyi + d − (cȳ + d)) =
N i=1
N
1 (axi − ax̄) (cyi − cȳ) = a c Cov(X,Y)
N i=1
Ejemplo:
Las variables X e Y cuya distribución viene dada por la siguiente tabla conjunta, tienen
Cov(X,Y) = 0, pero no son independientes, es fácil observar que Y = X 2 .
X\Y
-1
0
1
0
0
1
3
0
1
3
1
1
3
0
1
3
2
3
1
3
1
3
1
3
1
2. Coeficiente de correlación.
Uno de los principales inconvenientes de la covarianza es que depende de las unidades de medida
de las variables. El coeficiente de correlación es una medida adimensional.
32
Estadı́stica
Definición 6 Se define el coeficiente de correlación lineal entre dos variables X e Y y se
Cov(X,Y)
denota por r, como: r =
.
sX sY
Propiedades 3
1. Es un coeficiente adimensional.
2. El valor de r no varı́a si multiplicamos X por a e Y por b con a y b números reales del
mismo signo.
3. −1 ≤ r ≤ 1.
4. |r| = 1 si, y sólo si, exite relación lineal exacta entre las variables, es decir, si existen
a, b ∈ IR tales que yi = axi + b, i = 1, . . . , N. Además, si a > 0, es r=1 y si a < 0 es
r = −1.
4. Si X e Y son estadı́sticamente independientes, entonces r = 0.
Observación 5 De las propiedades anteriores se deduce que si r es próximo a ±1 se puede
sospechar la existencia de relación lineal entre las variables y que si r es próximo a 0, se puede
sospechar la inexistencia de tal relación. En cualquier caso, el coeficiente de correlación es una
medida resumen de la estructura de un diagrama de dispersión, y por tanto siempre conviene
dibujar el diagrama que es el que contiene toda la información.
5
Rectas de regresión.
Una vez que sabemos que dos variables estadı́sticas tienen un cierto grado de relación lineal,
puede interesarnos obtener la ecuación que mejor expresa esta relación. Dicha recta se denomina
recta de ajuste y no es única (depende del criterio de proximidad elegido). Cuando el objetivo
es que la recta nos permita explicar el comportamiento de una variable a través de la otra,
el criterio adecuado es el de mı́nimos cuadrados que consite en minimizar la suma de las
desviaciones, en sentido ortogonal al eje de la variable predictora, de cada punto a la recta,
tomadas al cuadrado para prescindir del signo.
Dados (xi , yi ) i = 1, 2, . . . , N,(tal que existen j,k con xj = xk ) veremos dos casos:
- determinar la recta y = ax + b que haga mı́nima
N
i=1
(yi − axi − b)2 , (es decir, las distancias
verticales entre el valor observado y el “previsto” por la recta) si se quiere explicar el comportamiento
de Y a través de X. (Recta de regresión de Y respecto de X.)
- determinar la recta x = cy + d que haga mı́nima
N
i=1
(xi − cyi − d)2 , (es decir, las distancias
horizontales entre el valor observado y el “previsto” por la recta) si se quiere explicar el
comportamiento de X a través de Y. (Recta de regresión de X respecto de Y.)
Nos vamos a centrar en la obtención de la primera; el otro caso es similar.
1. Recta de regresión de Y respecto de X.
Definición 7 Llamaremos residuo ei a la diferencia entre el valor observado y el proporcionado
por la recta de regresión: ei = yi − axi − b.
33
Estadı́stica
El criterio elegido es, entonces, minimizar la suma de cuadrados de los residuos. Para ello,
vamos a llamar y = (y1, y2 , . . . , yN )t , x = (x1 , . . . , xN )t y 1 = (1, . . . , 1)t , vectores en IRN .
El problema de determinar la recta de ajuste se puede plantear de la siguiente forma:
Encontrar el vector v en el subespacio vectorial de IRN , S, generado por 1 y x, que haga
mı́nima la distancia en norma euclı́dea del vector y a S. Gráficamente se observa que este
vector es la proyección ortogonal de y sobre S, es decir, el único vector v ∈ S tal que
cumple:
y − v ⊥x y y − v ⊥1.
Por tanto, v será la solución (única) del sistema:
(y − v)x = 0
(y − v)1 = 0
Poniendo v = ax + b1 y desarrollando los productos escalares en el sistema anterior se
obtiene:
⎛
⎞
⎛ N
⎞
N
N
x
y
i
i
⎜
⎟
⎜
⎟
b
i=1
⎜
⎟
⎜ i=1
⎟
=
⎝ ⎠
⎝
⎠
N
N
N
2
a
xi
xi
xi yi
i=1
i=1
i=1
Dividiendo por N las dos ecuaciones del sistema y resolviéndole por medio de eliminación
gaussiana, se obtiene el sistema equivalente:
1 x̄
0 s2X
b
a
=
ȳ
sXY
Resolviendo este sistema se obtiene que:
a = ssXY
2
X
sXY
b = ȳ − s2 x̄
X
Definición 8 Se llama recta de regresión de Y respecto de X, a la recta de ecuación:
sXY
y − ȳ = 2 (x − x̄)
sX
Observación 6 Se observa que siempre es posible construir una única recta de regresión
aunque no exista relación lineal entre las variables (con tal de que existan i,j con xi = xj ).
Utilizando el coeficiente de correlación, tenemos que la expresión de la recta es
sY
(X − x̄)
Y = ȳ + r
sX
Observación 7 Se observa que ē = 0:
N
ei
i=1
N
=
N
N
N
(yi − axi − b) yi
xi
Cov(X,Y)
x̄ − b = 0.
=
−a
− b = ȳ −
N
s2X
i=1
i=1 N
i=1 N
y por tanto la varianza residual ó varianza de los residuos, tiene la siguiente expresión:
N
s2eY /X =
i=1
(yi − axi − b)2
N
34
Estadı́stica
Proposición 3 s2eY /X = s2Y (1 − r 2 )
Demostración
s2eY /X
N
N ((yi − ȳ) −
(yi − axi − b)2 =
=
N
i=1
i=1
N
(yi − ȳ)2
Cov(X,Y)
+
=
N
s2X
i=1
=
SY2
Cov(X,Y)
s2X
N
(xi − x̄))2
=
2 N
N
(xi − x̄)2
(xi − x̄)(yi − ȳ)
Cov(X,Y) −2
=
2
N
sX
N
i=1
i=1
(Cov(X,Y))2
−
= s2Y (1 − r 2 ).
s2X
Observación 8 Interpretacin de la varianza de los residuos. A partir del resultado
anterior, se obtiene una descomposición de la varianza de Y como
s2Y = s2eY /X + r 2 s2Y
La primera parte es la variabilidad debida a los residuos y la segunda la variabilidad de Y
explicada por X y se interpreta de la siguiente forma: si la varianza residual es próxima
a 0, la recta proporciona valores previstos de Y próximos a los observados (en ese caso
|r| 1 y podrı́a existir relación lineal); en el caso opuesto, si la varianza residual es
próxima a la varianza de Y, el modelo no ayuda a explicar la variabilidad de Y (se tendrı́a
r 0). Se deduce que el porcentaje de variabilidad de Y explicada por X se puede expresar
como r 2 100%.
2. Recta de regresión de X respecto de Y.
Si de lo que se trata es de encontrar la recta función de Y que mejor explica X, es decir,
la recta de regresión de X sobre Y , entonces llegamos a las ecuaciones:
X = x̄ +
Cov(X,Y)
(Y − ȳ)
s2Y
X = x̄ + r
sX
(Y − ȳ)
sY
Se define la varianza residual para la recta de X/Y como:
s2eX/Y =
N
(xi − cyi − d)2
,
N
i=1
donde x = cy + d es la recta.
Se verifica que: s2eX/Y = s2X (1 − r 2 )
Entonces dadas dos variables estadı́sticas, se pueden construir dos rectas de regresión,
según me interese explicar Y en función de X o bien X en función de Y .
35
Estadı́stica
Definición 9
1. Se denominan coeficientes de regresión a los valores:
bY /X =
Cov(X,Y)
s2X
bX/Y =
Cov(X,Y)
s2Y
2. Se denominan pendientes de regresión a los valores de las pendientes de ambas rectas:
mY /X
Cov(X,Y)
=
s2X
mX/Y
s2Y
=
Cov(X,Y)
Observación 9 Obsérvese que la recta de regresión de Y respecto de X es de la forma:
Cov(X,Y)
(X − x̄), y por tanto su pendiente (coeficiente de la variable X) es
Y − ȳ =
s2X
Cov(X,Y)
.
s2
X
Cov(X,Y)
Sin embargo, la recta de regresión de X respecto de Y es de la forma: X−x̄ =
(Y −
s2Y
ȳ), y su pendiente (que también es el coeficiente de la variable X, una vez despejada la
s2Y
variable Y) es por tanto
.
Cov(X,Y)
Propiedades 4
1. Las dos rectas de regresión se cortan en (x̄, ȳ).
2. Las pendientes de ambas rectas tienen siempre el mismo signo.
3. bY /X = r ssXY
bX/Y = r ssXY
4. bY /X bX/Y = r 2
5. mY /X mX/Y =
s2Y
.
s2X
6. |mX/Y | ≥ |mY /X |
mX/Y
mY /X
s2Y /Cov(X,Y)
= r12 ≥ 1, ya que |r| ≤ 1.
Cov(X,Y)/s2X
Esta propiedad nos permite identificar, conocidas las dos rectas de regresión de dos variables
X e Y, cuál es la recta de regresión de X respecto de Y y cuál es la recta de regresión de
Y respecto de X.
En efecto,
=
6. Los signos de Cov(X,Y), r, bY /X , bX/Y , mY /X y mX/Y coinciden.
Descargar