Regresión Lineal y Correlación Regresión Lineal Simple El objetivo del modelo de regresión es tratar de explicar la relación que existe entre una variable dependiente (variable de respuesta) Y y un conjunto de variables independientes (variables explicativas) 𝑋1 , 𝑋2 , … , 𝑋𝑛 . Mediante las técnicas de regresión de una variable Y sobre la variable X, buscamos una función que sea una buena aproximación de la nube de puntos 𝑥𝑖 , 𝑦𝑖 , mediante una curva del siguiente tipo: El modelo de regresión lineal simple se representa: 𝑌 = 𝛼𝑋 + 𝛽 + 𝜀, Δ𝑦 𝑦2 −𝑦1 𝛼: 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒; 𝛼 = Δ𝑥 = 𝑥 −𝑥 𝑥1 , 𝑦1 ; 𝑥2 , 𝑦2 2 1 𝑚>0 Creciente 𝑚<0 Decreciente 𝑚=0 Constante(Hor) 𝑚=∞ Vertical Método de los mínimos cuadrados El método consiste en minimizar la suma de los cuadrados de los errores. Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una recta de la forma: 𝑌 = 𝛼𝑋 + 𝛽 = 𝑎𝑋 + 𝑏 De forma tal que se ajuste a la nube de puntos. 𝑛 𝑛 𝑒𝑖2 = 𝑖=1 𝑦𝑖 − 𝑦𝑖 2 𝑖=1 La suma de los cuadrados de las diferencias de los valores reales observados menos los valores mínimos observados. Ademàs los valores de 𝑎 𝑦 𝑏 se dan 𝑆𝑋𝑌 por: 𝑎 = 𝑦 − 𝑏𝑥, 𝑏 = 𝑆 2 ; 𝑠𝑖𝑒𝑛𝑑𝑜 𝑆𝑋𝑌 :Covarianza de XY 𝑋 Y 𝑆𝑋2 : Varianza de X Fórmulas: Ejemplo: En un restaurante se analiza la relación entre una población de estudiantes (miles), con las ventas trimestrales (miles de $) Restaurante 𝑖 Población de Estudiantes (Miles) 𝑥𝑖 Ventas trimestrales (Miles de $) 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 1 2 58 -12 -72,1 865,2 2 6 105 -8 -25,1 200,8 3 8 88 -6 -42.1 252,6 4 8 118 -6 -12,1 72,6 5 12 117 -2 -13,1 26,2 6 16 138 2 7,9 15,8 7 20 157 6 26,9 162,4 8 20 169 6 38.8 233,9 9 22 149 8 18,9 151,2 10 26 202 12 71,9 862,8 2 + 6 + 8 + 8 + 12 + 16 + 20 + 20 + 22 + 26 140 𝑥= = = 14 10 10 58 + 105 + 88 + 118 + 117 + 138 + 157 + 169 + 149 + 202 1301 𝑦= = 10 10 = 130.1 −12 2 + −8 𝑆𝑥2 = −72,1 𝑆𝑦2 = 2 + −25,1 2 2 + −6 2 + −6 2 + −2 6 2 + 8 2 + 12 2 10 + −46,1 2 + −12,1 6 2 + 8 2 + 12 10 2 2 + 2 + −2 2 + 6 2 + = 56,8 2 + 2 2 + 6 2 + 2 = 1574,49 𝑆𝑥2 = 56,8; 𝑆 865,2 + 200,8 + ⋯ 𝑆𝑥𝑦 = = 284,2 10 𝑆𝑋𝑌 𝑎 = 𝑦 − 𝑏𝑥, 𝑏= 2 𝑆𝑋 𝑥 = 14; 𝑦 = 130,1; 𝑆𝑥𝑦 = 284,2; 284,2 𝑏 = 𝑆𝑋𝑌 A medida que aumenta la población de 2 = 56,8 = 5,003 > 0; 𝑋 estudiantes, también aumentan las ventas trimestrales 𝑎 = 𝑦 − 𝑏𝑥 = 130,1 − 5,003 14 = 60,058 𝑆𝑥 2 = 7,53 𝑆𝑦 = 𝑆𝑦 2 = 39,67 𝑆𝑋𝑌 284,2 𝑟= = = 0,95 > 0 𝑆𝑋 𝑆𝑌 (7,53)(39,57) la relación entre las variables es directa (a medida que aumenta la poblaciòn de estudiantes, también lo hace las ventas trimestrales) 𝑆𝑥 = Coeficiente de Regresión : 𝑏𝑌/𝑋 Éste coeficiente nos proporciona información sobre el comportamiento de la variable Y con la variable X a) Cuando 𝑏𝑌/𝑋 = 0, 𝑝𝑎𝑟𝑎 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑋 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑌 𝑒𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (𝑁𝑜 𝑐𝑎𝑚𝑏𝑖𝑎) b) Cuando 𝑏𝑌/𝑋 > 0, a medida que aumenta X también aumenta Y c) Cuando 𝑏𝑌/𝑋 < 0, a medida que aumenta X disminuye Y Coeficiente de Correlación: r 𝑆𝑋𝑌 , 𝑆𝑋 𝑆𝑌 El coeficiente de Correlación entre X y Y esta dado por 𝑟 = el cual trata de medir la dependencia lineal entre las dos variables y su cuadrado 𝑟 2 se denomina Coeficiente de Determinación. Propiedades: a) No tiene dimensión y siempre toma valores entre −1,1 b) Si la variables son independientes 𝑟 = 0, pero el inverso no tiene que ser cierto. c) Si existe una relación exacta entre X y Y, entonces 𝑟 = 1 (relación directa) y si 𝑟 = −1 (relación inversa) d) Si 𝑟 > 0, la relación entre las variables es directa (a medida que aumenta X, también lo hace Y) e) Si 𝑟 < 0, la correlación entre las variables es inversa (a medida que aumenta una, la otra disminuye) Nota El coeficiente de Regresión y el de Correlación tienen una relación: 𝑏𝑌/𝑋 = 𝑆𝑌 𝑟𝑆 , 𝑋 𝑏 𝑋/𝑌 = 𝑆𝑋 𝑟𝑆 ; 𝑌 𝑆𝑥𝑦 Recordemos que: 𝑏𝑌/𝑋 = 𝑆 𝑥 2 𝑆𝑥𝑦 𝑏 𝑋/𝑌 = 𝑆𝑦2 Los dos coeficientes tienen el mismo signo. Ejemplo