Subido por Dario Manobanda

Regresión y Correlación Estadísticas

Anuncio
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
CORRELACION Y REGRESION ESTADISTICAS
Todos los procesos productivos o de cualquier actividad humana, se rigen por el principio de
causa y efecto, es decir que siempre podemos encontrar relación entre las actividades
desarrolladas y los resultados obtenidos, existiendo una o más leyes que rigen, norman y
determinan el curso del fenómeno o actividad. El concepto de correlación estadística, se maneja
para grupos de datos que pueden ser determinados experimentalmente o pueden ser el resultado
de procesos productivos, resultados para los cuales se pretende determinar primero la existencia
de una relación y luego la ley matemática a la que esta responde. En los datos se cuenta con la
presencia de una variable dependiente “Y“ y de una variable independiente “X“ (una o más), y se
persigue determinar el grado de dependencia o interrelación entre ellos. Decimos que los datos
están correlacionados si por su ubicación gráfica, pueden definirse como parte de una familia,
dependencia funcional o ley matemática. El grado de correlación se conceptúa como el nivel de
acercamiento o alejamiento respectivamente de los datos respecto de una expresión funcional o
ley. La regresión estadística es el proceso que nos permite matemáticamente determinar la
función que más o mejor se ajuste a los datos correlacionados. En sentido práctico, la correlación
estadística se puede determinar en base a los denominados diagramas de dispersión, ya que al
observar la ubicación de los puntos en el plano, podemos definir el tipo de función al que más se
asemejan, y escogiendo el tipo de función, procedemos entonces a su determinación.
Si todos los valores de las variables satisfacen exactamente una ecuación, se dice que hay una
correlación perfecta entre ellas. Cuando se trata de dos variables solamente, se habla de
1
Ingeniero MSc. Alexis Sánchez Miño
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
correlación simple y regresión simple. Cuando se trata de más de dos variables se habla de
correlación múltiple y de regresión múltiple.
CORRELACION LINEAL..- Si X e Y representan las dos variables que se consideran, y en un
diagrama de dispersión todos o casi todos los puntos parecen describir una recta, como en (a) y
(b) de la Figura adjunta, la correlación se dice lineal. En tales casos, para propósitos de regresión
o estimación es adecuada una ecuación lineal.
Si Y tiende a incrementarse cuando se incrementa X, como en (a), la correlación se dice positiva
o correlación directa. Si Y tiende a disminuir cuando se incrementa X, como en (b) la correlación
se dice negativa o correlación inversa.
Si todos los puntos parecen estar cerca de alguna curva, la correlación se dice no lineal y una
ecuación no lineal es la apropiada para la regresión o estimación. Es evidente que una correlación
no lineal puede ser a veces positiva y a veces negativa.
Si no hay ninguna relación entre las variables, como en la Fig (c), se dice que no hay correlación
entre ellas, es decir, no están correlacionadas.
(a)
(b)
(c)
2
Ingeniero MSc. Alexis Sánchez Miño
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
(a) Correlación Lineal Positiva
(b) Correlación Lineal Negativa
(c) No hay correlación
RECTAS DE REGRESION POR MINIMOS CUADRADOS
Se considera en primer lugar el problema de la bondad con que una línea recta explica la relación
entre dos variables. Para ello son necesarias las ecuaciones de las rectas de regresión por
mínimos cuadrados. Matemáticamente, mediante el siguiente sistema de ecuaciones, podemos
calcular la recta regresional y = a x + b.
 ax2 +  bx =  xy
 ax + bn = y
; en donde:
 x2 - Sumatoria de los valores del argumento x elevadas al cuadrado
 x-
Sumatoria de los valores del argumento x
 xy- Sumatoria de los productos de los valores de x por la función y
y-
Sumatoria de los valores de la función y
n-
Número de valores dados en la tabla
3
Ingeniero MSc. Alexis Sánchez Miño
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
El sistema propuesto es de dos ecuaciones con dos incógnitas. Resolviendo el sistema, podemos
calcular los valores “a “ y “ b “, con lo cual determinamos la recta regresional : y = ax + b
Ejercicio de aplicación.- Del análisis de las ventas hechas por una compañía para los años 2008
a 2017, respecto de los ingresos netos mensuales promedio del consumidor en este período, se
han obtenido los siguientes datos estadísticos:
VENTAS
PERIODO
(Y)
SUELDOS
(años) Miles USD usd/QUINCENA
2008
50,2
200
2009
62,8
215
2010
76,4
220
2011
63,8
210
2012
67,1
230
2013
72,9
235
2014
66,8
225
2015
77,1
240
2016
71,1
235
2017
72,5
240
La compañía desea utilizar este análisis para pronósticos de ventas futuras, asumiéndose una
correlación lineal. Se quiere determinar la función regresional correspondiente.
SOLUCION: Lógico es pensar que en cualquier actividad de mercado, las ventas dependen de la
capacidad de compra del consumidor, es decir de sus ingresos. Por esta razón para nuestro caso,
adoptamos como función “Y” a las ventas, y como argumento “X” a los ingresos del consumidor.
Calculamos tabularmente las diferentes sumatorias necesarias para el cálculo de la recta
regresional, de la siguiente manera:
4
Ingeniero MSc. Alexis Sánchez Miño
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
PERIODO
(años)
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
Sumas
VENTAS INGRESOS
(Y)
(X)
milesUSD usd/QUIN
50,2
200
62,8
215
76,4
220
63,8
210
67,1
230
72,9
235
66,8
225
77,1
240
71,1
235
72,5
240
680,7
2250
X2
XY
40000
46225
48400
44100
52900
55225
50625
57600
55225
57600
507900
10040,00
13502,00
16808,00
13398,00
15433,00
17131,50
15030,00
18504,00
16708,50
17400,00
153955,00
Por tanto el sistema será:
 ax2 +  bx =  xy
507900 a + 2250 b = 153955
 ax + bn = y
2250 a +
10 b =
680.7
Resolviendo el sistema:
1:507900 a + 2250 b = 153955 x (1): 507900 a + 2250 b = 153955
2: 2250 a +
10 b = 680.7 x ( -225):
-506250 a - 2250 b = -153157.3
1650 a
=
797.7
a = 797.7/1650 = 0.483
Reemplazando a = 0.483 en 2:
b = (680.7 – 1086.75) /10;
Por tanto, la recta regresional es :
2250(0.483) +10b = 680.7
b = -40.605
y = 0.483 x – 40.605
5
Ingeniero MSc. Alexis Sánchez Miño
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
Esta ecuación determina el comportamiento del fenómeno “Ventas de la compañía, respecto del
ingreso de los consumidores”. Esto significa que en conocimiento de los ingresos futuros del
consumidor (en base al desarrollo económico del sector, región o país), con ayuda de la ecuación
calculada, podemos “ pronosticar ” el nivel de ventas esperado. Si por ejemplo, deseamos
proyectar las ventas de la compañía para los años 2019 y 2020, con valores determinados de
ingresos de 245 y 255 dólares QUINCENAL respectivamente:
Yp = 0.483 (245) – 40.605 = 77.73 (miles de dólares) para 2019
Yp= 0.483 (255) – 40.605 = 82.56 (miles de dólares) para 2020
EVALUACION Y SIGNIFICACION DE LA CORRELACION LINEAL
Significa “ poner a trabajar” a la recta regresional determinada, con el propósito de comprobar en
función de valores de “y” conocidos, aquellos que pudieran proyectarse (reemplazando en la
función). Con estos valores, se determinan las desviaciones medias absolutas, para comprobar a
través de “valores de tolerancia” , la bondad de la recta regresional, es decir si a futuro los
pronósticos pueden o no ser avalizados. Los parámetros de evaluación más utilizados son:
 Variación Total
 Variación Explicada
 Variación Inexplicada
 Coeficiente de Correlación
 Coeficiente de determinación
 Error típico de la estimación
6
Ingeniero MSc. Alexis Sánchez Miño
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
VARIACION TOTAL (VT).- Representa la sumatoria de las desviaciones cuadradas de los valores
dados de “y” respecto de su media aritmética “ym”.
VT =  ( y - ym ) 2
VARIACION EXPLICADA (VE).- Representa la parte de la variación total que depende de la
variable independiente “x” . Se calcula como la sumatoria de las desviaciones cuadradas de los
valores de “y” pronosticados, “yc”; respecto de la media de los valores de “y” dados: “ym”
VE =  ( yc - ym ) 2
VARIACION INEXPLICADA (VI).-Es la variación residual que refleja el comportamiento de las
fuerzas del mercado
sobre y bajo las fluctuaciones de la variable independiente “x”.
Matemáticamente se calcula como la sumatoria de las desviaciones cuadradas de los valores de
la variable dependiente “y” dados, respecto de los valores pronosticados “yc”. Es decir:
VI =  ( y - yc )2
COEFICIENTE DE CORRELACION (CR).- Expresa el grado de asociación de las dos variables,
la independiente y la dependiente.
CR = ( VE / VT ) ½ = ( (yc-ym)2 /  (y-ym)2)1/2
7
Ingeniero MSc. Alexis Sánchez Miño
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
COEFICIENTE DE DETERMINACION (CD).- No es sino el coeficiente de correlación elevado al
cuadrado.
CD = CR 2
ERROR TIPICO DE LA PENDIENTE O ERROR DE LA ESTIMA (m).-
Se calcula
matemáticamente mediante la fórmula:
m = ((  (y-yc)2 /(N-K))/ ( (x-xm)2 ) ½ ; en donde:
(x-xm)2 - Sumatoria de las desviaciones cuadradas de x respecto de xm
k-
# de variables de la correlación (siendo lineal en nuestro caso, k = 2)
Para el ejercicio que estamos analizando tendremos:
VENTAS INGRESOS
PERIODO
(Y)
(Y –Ym)2
(X)
(años) miles USD usd/QUIN
2008
50,2
200
319,34
2009
62,8
215
27,77
2010
76,4
220
69,39
2011
63,8
210
18,23
2012
67,1
230
0,94
2013
72,9
235
23,33
2014
66,8
225
1,61
2015
77,1
240
81,54
2016
71,1
235
9,18
2017
72,5
240
19,62
Suma
680,7
2250
570,961
8
Yc (Yc-Ym)2 (Y-Yc)2 (X-Xm)2
56,00 145,81
63,24 23,33
65,66
5,83
60,83 52,49
70,49
5,83
72,90 23,33
68,07
0,00
75,32 52,49
72,90 23,33
75,32 52,49
384,93
Ingeniero MSc. Alexis Sánchez Miño
33,58
0,19
115,46
8,85
11,46
0,00
1,61
3,19
3,24
7,92
185,50
625
100
25
225
25
100
0
225
100
225
1650
Facultad de Ingeniería en Sistemas, Electrónica e Industrial
TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI
Ym =
Xm =
68,07
225
Por tanto los valores serán:
La variación Total : VT =  ( y - ym ) 2 ;
VT = 570.96
La variación Explicada: VE =  ( yc - ym ) 2 ;
VE = 384.93
La variación Inexplicada : VI =  ( y - yc ) 2;
VI = 185.50
El coeficiente de correlación: CR = (VE / VT )1/2 = ( 384.93/570.96) ½ = 0.821
El coeficiente de determinación : CD = CR2 = (0.816)2 = 0.674
El error de la estima: m = (( VI / (N-K))/ ( (x-xm)2 ))½
m = ((185.50/(10-2))/(1650)) ½ = 0.1185
Generalmente, a partir de CR = 0.75, se estima que el nivel de correlación del fenómeno es
bueno. En nuestro caso, por ser CR = 0.821, consideramos que nuestra curva regresional es
bastante confiable. Esto se corrobora con el error de la estima, que es de alrededor del 12%.
9
Ingeniero MSc. Alexis Sánchez Miño
Descargar