Regresión y Correlación

Anuncio
Tema 12 Regresión y Correlación

Recta de regresión

Covarianza

Coeficiente de correlación lineal : interpretación
Dependencia entre variables
Dependencia Matemática
Entre dos variables se dice que existe dependencia matemática
cuando existe una función matemática que las rige .
Dependencia Estadística
Cuando entre dichas variables existe dependencia sin que exista una
formula matemática que las rija , se dice que hay dependencia
estadística
Tipos de dependencia estadística :

Dependencia unidireccional, cuando una variable influye en la otra
pero no tiene sentido la dependencia inversa.

Interdependencia, cuando una variable influye en la otra y esta a
su vez puede influir en la 1ª .

Dependencia indirecta, cuando una variable influye en otra a
través de otras variables que llamamos explicativas.
Concordancia
Cuando entra variables intrínsecamente independientes se presenta
algún tipo de dependencia.
Análisis de la correlación
Consiste en estudiar si existe dependencia entra dos variables y
cuantificar el grado de dependencia.
Correlación lineal
En el caso de que la dependencia que se estudie sea lineal se dice
que es correlación lineal, los parámetros para estudiar la
correlación lineal son :


Covarianza
xy , Cr (x-y)
que se representa  r
que se representa 
Coeficiente de correlación
ó
Sxy
Covarianza
Nos indicará el grado de dependencia entre las variables y si son
positivas o negativas estas dependencias.
En tablas simples sin frecuencias
Xi
X1
X2
Yi
Y1
Y2
X3
Xn
Y3
Yn
Su formula

xy = ( Xi – X )*( Yi – Y )
n
Formula abreviada sin frecuencias
xy =  Xi * Yi
- X·Y
n
En tablas simples con frecuencias
Xi
X1
X2
X3
Xn
Yi
Y1
Y2
Y3
Yn
ni
n1
n2
n3
nn
Formula abreviada con
frecuencias
xy =  Xi * Yi * ni
N
– X *Y
xy = ( Xi – X )*( Yi – Y ) * ni
N
Interpretación de la covarianza
Si es positiva : Significa que el tipo de dependencia entre las
variables es directa, es decir que ambas variables varían en el
mismo sentido . Si X  Y
Si es negativa : Indica que la dependencia es inversa, es decir que
varían en sentido contrario . Si X  Y
Mientras mayor sea la covarianza en valor absoluto mayor es el grado
de dependencia
Coeficiente de correlación
Indica el grado de dependencia o independencia de las variables y si
la dependencia es directa o indirecta.
Interpretación del coeficiente de correlación
El coeficiente de correlación
entre 1 y –1
r
esta comprendido
–1 
r 1
Su formula es :
r = xy / x * y
Casos
extremos
Si vale 1  dependencia matemática perfecta y directa.
Si vale –1  dependencia matemática perfecta e inversa
Si vale 0  independencia total
Por lo tanto :
Mientras mas se aproxime a 1 mayor será la
dependencia directa, y si lo hace a –1 mayor grado de dependencia
inversa. Como mas próximo a 0 mayor grado de independencia .
Análisis de la Regresión
Consiste en ajustar el diagrama de dispersión a una recta. A dicha
recta se le llama recta de regresión.
Su ecuación será  Y*= a + b x
Para determinar los coeficientes de a y b de dicha recta se utiliza el
método de los mínimos cuadrados, que consiste en calcular los
valores de dichos coeficientes que minimizan a la suma de los
cuadrados de los errores.
b = xy
/  x2
a= Y–bX
Como se interpretan los coeficientes de
ayb
El a se llama valor en el origen y representa el valor estimativo de la
Y cuando la X es nula
El b que se llama coeficiente de regresión representa lo que valdría
por termino medio la Y cuando la X aumentara en una unidad.
En los casos de interdependencia se puede calcular la X sobre la Y,
siendo la misma formula cambiando X por Y .
Medidas de la bondad del ajuste
Para medir si un modelo esta bien ajustado se utiliza un coeficiente
llamado "coeficiente de determinación" el cual se representa por R2 .
Solo en regresiones lineales esta R es la misma de la
de correlación , por lo que R2 =
r2
r del coeficiente
.
El R2 varia siempre entre O R2 1 .
Se interpreta :



Mientras mas próximo este a 1 mejor ajustado esta el modelo.
El índice de aceptabilidad se sitúa por encima del 0,7.
El R2 cuando se expresa en % indica el % de variaciones en la Y
que viene explicados por las variaciones de la X.
Ejercicio 1:
Dados 2 valores de X e Y se obtiene la siguiente tabla:
Xi
2
5
Yi
10
11
7
9
13
18
15
18
19
24
Xi * Yi
20
55
Xi2
4
25
Yi2
100
121
Media X = 9
Media Y =
16,166
105
49
225
162
81
324
247
169
361
432
324
576
1.021
652
1.707
Sacar el coeficiente de correlación e interpretarlo :
r = xy / x * y que para formularlo
tendremos que obtener primero xy =  Xi * Yi - X *Y
Nos piden
n
segundo
x =
  Xi2
- X2
Y =
y
  Yi2
n
- Y2
n
Operando :
xy = 1.021 / 6 - (9 – 16,166) = 145,494 – 24,672
x =  652/6 – 92 =  108,66 – 81 = 5,259
y = 1.707/6 – 16,1662 = 4,812
r = 24,672/5,259 * 4,812 = 0,9749
Donde comentamos que guardan una dependencia alta y
directa
Ejercicio 2:
Estudiado el numero de hijos e hijas en familias se obtiene la
siguiente tabla bidimensional :
Hijas
Hijos
0
1
2
3
4
5
n j
0
1
0
0
1
0
0
2
1
0
4
2
0
0
2
8
2
1
2
0
1
1
0
5
3
0
0
0
0
0
1
1
4
0
0
1
0
2
0
3
5
0
1
0
0
0
0
1
ni
2
7
3
2
3
3
20
a) Determinar el número medio de hijos y de hijas y comparar la
representatividad de ambas medias.
b) Calcula el coeficiente de correlación entre ambas variables y
comenta su significado
c) Coeficiente de correlación
HIJOS
Xi
0
1
2
3
4
5
ni
2
Xi * ni
0
Xi2 * ni
0
7
3
2
3
3
20
7
6
5
12
15
45
7
12
15
48
75
157
Media = 45/20 =
2,25
HIJAS
Yi
0
1
2
3
4
5
nj
2
Yi * nj
0
Yi2 * nj
0
8
5
1
3
1
20
8
10
3
12
5
38
8
20
9
48
25
110
Media = 38/20 =
1,9
Para determinar la representatividad tenemos que determinar V (
coeficiente de variación ) y como su formula nos pide la  desviación
típica , empezaremos por establecer esta .
=
 xi2 * ni - X2
V =  / x * 100
N
x
y
= 157 / 20 – 2,252 = 7,85 – 5,06 = 2,79= 1,6703
= 110 / 20 – 1,92 = 5,5 – 3,61 = 1,89 = 1,3747
Vx = 1,6703/2,25 * 100 = 74,23%
Vy = 1,3747/1,9 * 100 = 72,35%
Donde podemos decir que la variable X (hijos) es un poco mas
representativa que la variable Y (hijas).
Coeficiente de correlación
Donde necesitamos la covarianza
r = xy / x * y
xy =  Xi * Yi * ni
– X *Y
N
xy = 96/20 – 2,25 * 1,9 = 4,8 – 4,275 = 0,525
r = 0,525/1,6703 * 1,3747 = 0,2286
Donde son poco dependientes pero con dependencia directa
Descargar