Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI CORRELACION Y REGRESION ESTADISTICAS Todos los procesos productivos o de cualquier actividad humana, se rigen por el principio de causa y efecto, es decir que siempre podemos encontrar relación entre las actividades desarrolladas y los resultados obtenidos, existiendo una o más leyes que rigen, norman y determinan el curso del fenómeno o actividad. El concepto de correlación estadística, se maneja para grupos de datos que pueden ser determinados experimentalmente o pueden ser el resultado de procesos productivos, resultados para los cuales se pretende determinar primero la existencia de una relación y luego la ley matemática a la que esta responde. En los datos se cuenta con la presencia de una variable dependiente “Y“ y de una variable independiente “X“ (una o más), y se persigue determinar el grado de dependencia o interrelación entre ellos. Decimos que los datos están correlacionados si por su ubicación gráfica, pueden definirse como parte de una familia, dependencia funcional o ley matemática. El grado de correlación se conceptúa como el nivel de acercamiento o alejamiento respectivamente de los datos respecto de una expresión funcional o ley. La regresión estadística es el proceso que nos permite matemáticamente determinar la función que más o mejor se ajuste a los datos correlacionados. En sentido práctico, la correlación estadística se puede determinar en base a los denominados diagramas de dispersión, ya que al observar la ubicación de los puntos en el plano, podemos definir el tipo de función al que más se asemejan, y escogiendo el tipo de función, procedemos entonces a su determinación. Si todos los valores de las variables satisfacen exactamente una ecuación, se dice que hay una correlación perfecta entre ellas. Cuando se trata de dos variables solamente, se habla de 1 Ingeniero MSc. Alexis Sánchez Miño Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI correlación simple y regresión simple. Cuando se trata de más de dos variables se habla de correlación múltiple y de regresión múltiple. CORRELACION LINEAL..- Si X e Y representan las dos variables que se consideran, y en un diagrama de dispersión todos o casi todos los puntos parecen describir una recta, como en (a) y (b) de la Figura adjunta, la correlación se dice lineal. En tales casos, para propósitos de regresión o estimación es adecuada una ecuación lineal. Si Y tiende a incrementarse cuando se incrementa X, como en (a), la correlación se dice positiva o correlación directa. Si Y tiende a disminuir cuando se incrementa X, como en (b) la correlación se dice negativa o correlación inversa. Si todos los puntos parecen estar cerca de alguna curva, la correlación se dice no lineal y una ecuación no lineal es la apropiada para la regresión o estimación. Es evidente que una correlación no lineal puede ser a veces positiva y a veces negativa. Si no hay ninguna relación entre las variables, como en la Fig (c), se dice que no hay correlación entre ellas, es decir, no están correlacionadas. (a) (b) (c) 2 Ingeniero MSc. Alexis Sánchez Miño Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI (a) Correlación Lineal Positiva (b) Correlación Lineal Negativa (c) No hay correlación RECTAS DE REGRESION POR MINIMOS CUADRADOS Se considera en primer lugar el problema de la bondad con que una línea recta explica la relación entre dos variables. Para ello son necesarias las ecuaciones de las rectas de regresión por mínimos cuadrados. Matemáticamente, mediante el siguiente sistema de ecuaciones, podemos calcular la recta regresional y = a x + b. ax2 + bx = xy ax + bn = y ; en donde: x2 - Sumatoria de los valores del argumento x elevadas al cuadrado x- Sumatoria de los valores del argumento x xy- Sumatoria de los productos de los valores de x por la función y y- Sumatoria de los valores de la función y n- Número de valores dados en la tabla 3 Ingeniero MSc. Alexis Sánchez Miño Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI El sistema propuesto es de dos ecuaciones con dos incógnitas. Resolviendo el sistema, podemos calcular los valores “a “ y “ b “, con lo cual determinamos la recta regresional : y = ax + b Ejercicio de aplicación.- Del análisis de las ventas hechas por una compañía para los años 2008 a 2017, respecto de los ingresos netos mensuales promedio del consumidor en este período, se han obtenido los siguientes datos estadísticos: VENTAS PERIODO (Y) SUELDOS (años) Miles USD usd/QUINCENA 2008 50,2 200 2009 62,8 215 2010 76,4 220 2011 63,8 210 2012 67,1 230 2013 72,9 235 2014 66,8 225 2015 77,1 240 2016 71,1 235 2017 72,5 240 La compañía desea utilizar este análisis para pronósticos de ventas futuras, asumiéndose una correlación lineal. Se quiere determinar la función regresional correspondiente. SOLUCION: Lógico es pensar que en cualquier actividad de mercado, las ventas dependen de la capacidad de compra del consumidor, es decir de sus ingresos. Por esta razón para nuestro caso, adoptamos como función “Y” a las ventas, y como argumento “X” a los ingresos del consumidor. Calculamos tabularmente las diferentes sumatorias necesarias para el cálculo de la recta regresional, de la siguiente manera: 4 Ingeniero MSc. Alexis Sánchez Miño Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI PERIODO (años) 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 Sumas VENTAS INGRESOS (Y) (X) milesUSD usd/QUIN 50,2 200 62,8 215 76,4 220 63,8 210 67,1 230 72,9 235 66,8 225 77,1 240 71,1 235 72,5 240 680,7 2250 X2 XY 40000 46225 48400 44100 52900 55225 50625 57600 55225 57600 507900 10040,00 13502,00 16808,00 13398,00 15433,00 17131,50 15030,00 18504,00 16708,50 17400,00 153955,00 Por tanto el sistema será: ax2 + bx = xy 507900 a + 2250 b = 153955 ax + bn = y 2250 a + 10 b = 680.7 Resolviendo el sistema: 1:507900 a + 2250 b = 153955 x (1): 507900 a + 2250 b = 153955 2: 2250 a + 10 b = 680.7 x ( -225): -506250 a - 2250 b = -153157.3 1650 a = 797.7 a = 797.7/1650 = 0.483 Reemplazando a = 0.483 en 2: b = (680.7 – 1086.75) /10; Por tanto, la recta regresional es : 2250(0.483) +10b = 680.7 b = -40.605 y = 0.483 x – 40.605 5 Ingeniero MSc. Alexis Sánchez Miño Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI Esta ecuación determina el comportamiento del fenómeno “Ventas de la compañía, respecto del ingreso de los consumidores”. Esto significa que en conocimiento de los ingresos futuros del consumidor (en base al desarrollo económico del sector, región o país), con ayuda de la ecuación calculada, podemos “ pronosticar ” el nivel de ventas esperado. Si por ejemplo, deseamos proyectar las ventas de la compañía para los años 2019 y 2020, con valores determinados de ingresos de 245 y 255 dólares QUINCENAL respectivamente: Yp = 0.483 (245) – 40.605 = 77.73 (miles de dólares) para 2019 Yp= 0.483 (255) – 40.605 = 82.56 (miles de dólares) para 2020 EVALUACION Y SIGNIFICACION DE LA CORRELACION LINEAL Significa “ poner a trabajar” a la recta regresional determinada, con el propósito de comprobar en función de valores de “y” conocidos, aquellos que pudieran proyectarse (reemplazando en la función). Con estos valores, se determinan las desviaciones medias absolutas, para comprobar a través de “valores de tolerancia” , la bondad de la recta regresional, es decir si a futuro los pronósticos pueden o no ser avalizados. Los parámetros de evaluación más utilizados son: Variación Total Variación Explicada Variación Inexplicada Coeficiente de Correlación Coeficiente de determinación Error típico de la estimación 6 Ingeniero MSc. Alexis Sánchez Miño Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI VARIACION TOTAL (VT).- Representa la sumatoria de las desviaciones cuadradas de los valores dados de “y” respecto de su media aritmética “ym”. VT = ( y - ym ) 2 VARIACION EXPLICADA (VE).- Representa la parte de la variación total que depende de la variable independiente “x” . Se calcula como la sumatoria de las desviaciones cuadradas de los valores de “y” pronosticados, “yc”; respecto de la media de los valores de “y” dados: “ym” VE = ( yc - ym ) 2 VARIACION INEXPLICADA (VI).-Es la variación residual que refleja el comportamiento de las fuerzas del mercado sobre y bajo las fluctuaciones de la variable independiente “x”. Matemáticamente se calcula como la sumatoria de las desviaciones cuadradas de los valores de la variable dependiente “y” dados, respecto de los valores pronosticados “yc”. Es decir: VI = ( y - yc )2 COEFICIENTE DE CORRELACION (CR).- Expresa el grado de asociación de las dos variables, la independiente y la dependiente. CR = ( VE / VT ) ½ = ( (yc-ym)2 / (y-ym)2)1/2 7 Ingeniero MSc. Alexis Sánchez Miño Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI COEFICIENTE DE DETERMINACION (CD).- No es sino el coeficiente de correlación elevado al cuadrado. CD = CR 2 ERROR TIPICO DE LA PENDIENTE O ERROR DE LA ESTIMA (m).- Se calcula matemáticamente mediante la fórmula: m = (( (y-yc)2 /(N-K))/ ( (x-xm)2 ) ½ ; en donde: (x-xm)2 - Sumatoria de las desviaciones cuadradas de x respecto de xm k- # de variables de la correlación (siendo lineal en nuestro caso, k = 2) Para el ejercicio que estamos analizando tendremos: VENTAS INGRESOS PERIODO (Y) (Y –Ym)2 (X) (años) miles USD usd/QUIN 2008 50,2 200 319,34 2009 62,8 215 27,77 2010 76,4 220 69,39 2011 63,8 210 18,23 2012 67,1 230 0,94 2013 72,9 235 23,33 2014 66,8 225 1,61 2015 77,1 240 81,54 2016 71,1 235 9,18 2017 72,5 240 19,62 Suma 680,7 2250 570,961 8 Yc (Yc-Ym)2 (Y-Yc)2 (X-Xm)2 56,00 145,81 63,24 23,33 65,66 5,83 60,83 52,49 70,49 5,83 72,90 23,33 68,07 0,00 75,32 52,49 72,90 23,33 75,32 52,49 384,93 Ingeniero MSc. Alexis Sánchez Miño 33,58 0,19 115,46 8,85 11,46 0,00 1,61 3,19 3,24 7,92 185,50 625 100 25 225 25 100 0 225 100 225 1650 Facultad de Ingeniería en Sistemas, Electrónica e Industrial TEXTO GUIA DE ESTADISTICA Y PROBABILIDADES. UTA-FISEI Ym = Xm = 68,07 225 Por tanto los valores serán: La variación Total : VT = ( y - ym ) 2 ; VT = 570.96 La variación Explicada: VE = ( yc - ym ) 2 ; VE = 384.93 La variación Inexplicada : VI = ( y - yc ) 2; VI = 185.50 El coeficiente de correlación: CR = (VE / VT )1/2 = ( 384.93/570.96) ½ = 0.821 El coeficiente de determinación : CD = CR2 = (0.816)2 = 0.674 El error de la estima: m = (( VI / (N-K))/ ( (x-xm)2 ))½ m = ((185.50/(10-2))/(1650)) ½ = 0.1185 Generalmente, a partir de CR = 0.75, se estima que el nivel de correlación del fenómeno es bueno. En nuestro caso, por ser CR = 0.821, consideramos que nuestra curva regresional es bastante confiable. Esto se corrobora con el error de la estima, que es de alrededor del 12%. 9 Ingeniero MSc. Alexis Sánchez Miño