Subido por Leonel Gustavo Morales Tissera

regresion

Anuncio
Distribuciones bidimensionales
Correlación
Regresión Lineal
Relación estadística y relación
funcional
Relación funcional: se verifican siempre
globalmente y para cada valor en
particular.
Relación estadística: sólo se verifican
globalmente y para cada valor en
particular la respuesta puede ser múltiple.
Relación estadística: correlación
Las relaciones estadísticas de alguna
manera están sujetas al azar y son efectos
de muchas causas.
La Estadística es capaz de dar respuestas
a muchos de los problemas.
Para referirnos a relación estadística entre
variables utilizamos el término correlación.
distribución
bidimensional
( x1 , y1 )
( x2 , y 2 )
( x3 , y3 )
diagrama de dispersión
nube de puntos
y
.
.
.
( xn , y n )
x
Alumno
Matemática
Química
Geología
a
2
1
2
b
3
3
5
c
4
2
7
d
4
4
8
e
5
4
5
f
6
4
3
g
6
6
4
h
7
4
6
i
7
6
7
j
8
7
5
k
10
9
5
l
10
10
9
Alumno
Matemática
Química
Geología
a
2
1
2
b
3
3
5
c
4
2
7
d
4
4
8
e
5
4
5
f
6
4
3
g
6
6
4
h
7
4
6
i
7
6
7
j
8
7
5
k
10
9
5
l
10
10
9
Tratamiento estadístico de datos
bidimensionales
n
n
x
i
x
i 1
y
x
n
n
2
i
i 1
n
i
i 1
n
n
sx 
y
x
2
sy 

yi
i 1
n
2
y
2
La covarianza
n
 x  x  y
i
sx y 
i
 y
i 1
n
n
x
i
sx y 
i 1
n
yi
x y

Interpretación de la covarianza


















Interpretación de la covarianza
n
 x
i 1
i
 x  yi  y 
Una covarianza grande y positiva (muchos
puntos en el primer y tercer cuadrante)
estará asociada a una fuerte correlación
positiva.
Interpretación de la covarianza



















 
 
 


 
Interpretación de la covarianza
n
 x
i 1
i
 x  yi  y 
Una covarianza grande y negativa (muchos
puntos en el segundo y cuarto cuadrante)
estará asociada a una fuerte correlación
negativa.
Interpretación de la covarianza
s xy  0
s xy  0
En consecuencia el signo de la covarianza
determina el sentido de la correlación.
La correlación será más fuerte en la
medida que la covarianza sea más grande.
Inconvenientes de la covarianza
Los puntos más alejados de la nube
influyen más en su valor y signo que los
centrales.
Esta influenciada
medición.
por
la
escala
de
Tabla de cálculos
Sumas
x
y
x2
x1
y1
x1
2
y1
2
x1 y1
x2
y1
x1
2
y1
2
x1 y1

xn

yn

2
xn
x
i 1
Promedios
n
n
y
i
i 1
n
x
x
i 1
n
x
i
i 1
y
y
i 1
x
i 1
i 1
y
i
i 1
s x2 
n
x
i
i 1
i
x2
n
x
i 1
n
s y2 
x
i
i 1
i
 x 2 sy 
i
yi
n
2
i
 y2
n
n
2
yi
n
y
i 1
i
n
2
n
2
n
sx 
xn yn
n
x
i 1

2
n
2
n
Desvíos Estándares
Marginales
y
i
n
n
Varianzas y Covarianza
n
2
n
i
xy

2
yn
n
n
i
y2
y
i 1
n
2
i
 y2
s xy 
x
i 1
i
n
yi
x y
Coeficiente de correlación lineal
r
sx y
sx s y
Propiedades del coeficiente
El signo de r coincide con el signo de la covarianza
r no esta influenciado por los valores extremos
r no se altera cuando se realiza un cambio de
escala.
r esta siempre ente –1 y +1 , es decir
1  r  1
Propiedades del coeficiente
r próximo a +1 ó –1 significa que hay correlación lineal
fuerte.
r 1
Correlación lineal negativa
r  1
Propiedades del coeficiente
r próximo a 0 significa que hay correlación lineal débil.
r0
Correlación no lineal
r0
Propiedades del Coeficiente
r > 0, correlación directa. Al aumentar una variable cabe
esperar un aumento de la otra.
Propiedades del Coeficiente
r < 0, correlación inversa. Al aumentar una variable
disminuye la otra.
Propiedades del Coeficiente
r=1
r=-1
r = 1 ó r = -1 significa que la correlación lineal es
perfecta para los datos analizados.
Coeficiente de correlación lineal
Recta de regresión mínimo cuadrática
di
d2
d3
d1
di: la ordenada yi menos la ordenada de la recta a xi  b
d i  yi  a xi  b 
Minimizar
f ( a, b) 
n
 y
 (a xi  b)
2
i
i 1
La recta que minimiza la suma de los cuadrados de
los residuos pasa por el centro de gravedad de
distribución es decir pasa por el punto de coordenadas
( x, y)
y tiene pendiente
a
s xy
2
sx

r sy
sx
Ecuación punto –pendiente
yy
r sy
sx
(x  x)
Ecuación pendiente – ordenada al origen
y  a x b



n xi yi   xi  yi 
 i 1  i 1 
a  i 1
2
n
n


2
n xi   xi 
i 1
 i 1 
n
n



n


n
b
 n
 n

yi xi   xi  xi yi 
i 1
 i 1  i 1

2
n
n


2
n xi   xi 
i 1
 i 1 
n
 
i 1

2



Observaciones
La recta de regresión sirve para predecir la variable
dependiente y por eso suele hablarse de recta de
regresión de y sobre x.
Al usar la recta de regresión para predecir un
resultado y se corre un riesgo, éste aumenta a
medida que nos alejamos del valor central.
Observaciones
Si la recta se ajusta a la nube de puntos indica que
la correlación es fuerte.
Observaciones
La pendiente de la recta tiene el mismo signo que
el coeficiente de correlación.
Operaciones Mensuales en una Empresa de
Transporte
de
Pasajeros.
Costos
Millas
Mes Nº
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Totales Vehículo
(miles)
(miles)
Y
X
213.9
3147
212.6
3160
215.3
3197
215.3
3173
215.4
3292
228.2
3561
245.6
4013
259.9
4244
250.9
4159
234.5
3776
205.9
3232
202.7
3141
198.5
2928
195.6
3063
200.4
3096
Mes Nº
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Y
200.1
201.5
213.2
219.5
243.7
262.3
252.3
224.4
215.3
202.5
200.7
201.8
202.1
200.4
209.3
213.9
227.0
246.4
X
3096
3158
3338
3492
4019
4394
4251
3844
3276
3184
3037
3142
3159
3139
3203
3307
3585
4073
Resumen univariado
Costos
Millas
Media
219,1242424
3450,87879
Error típico
3,424541084
74,5767319
Mediana
213,9
3232
Moda
215,3
3096
Desviación estándar
19,67249079
428,410708
Varianza de la muestra
387,0068939
183535,735
-0,435732103
-0,53039194
0,867980969
0,9543273
Rango
66,7
1466
Mínimo
195,6
2928
Máximo
262,3
4394
7231,1
113879
33
33
Curtosis
Coeficiente de asimetría
Suma
Cuenta
y= 0,045 x + 64,963
25,84
x, y   (3450.87 ;219.124)
549,13
r = 0.98
Descargar