INT-0310 c./ ÍN3TITOT0 UTIIníÜAÍSÍÍICANO DE PLMIPICACION ECONOMICA Y SOCIAL Santiago, 27 de mayo de 1963 R E S m « SOBRE REGRESION LINEAL ^ Preparado por el Profesor Juan Ayza para el Programa de Capacitación del Instituto, Curso Básico de Planificación, RESUDEN S O m 1-?£G.RE3I0N LIN'fcAL Nomenclatura Diferenciamos las propiedades de la "población" original, de las muéstrales, y éstas de las deducciones que obtengamos. Las propiedades de la población original las expresamos con letras griegas. Asi una relación lineal entre dos variables, en la población original, la e:)qpresaremos Y « c< Las muestras vendi-án en pares de observaciones que indicamos con minúsculas. Para diferenciar una observación de otra, cuando se requiere pondremos un subíndice que indique el número de la observación, asi el par de valores observados en las variables Y y X, en la observación i, será y^, A veces no será preciso diferenciar una observación de otra (en ciertas sumas) y entonces prescindiremos del subíndice. ^Si de las diversas observaciones deducimos una recta, más aceptable, a los datos de la muestra de la "poblacion original". La relación deducida será Y = a •!• bX La recta deducida, será "más aceptable" en relación con el estudio estadístico de la muebtra, y las hipótesis que se hagan respecto a la población original. Ecuaciones normales Son las relaciones de carácter estaüistico, que nos permiten relacionar las observaciones con los parámetros a y b, a determinar. Nota: Para ampliación de conceptos y aplicaciones prácticas debe revisarse el folleto "Análisis de Correlación" por Pearo Vuskovid (1962). /Podemos basarnos - 2 - Podemos basarnos en el método de los momentos o en el de los mínimos cuadrados. Enc&mboscasos obtendremos las mismas ecuaciones normales. La representación gráfica de la nube de puntos, donde cada punto corresponde a un par observado x^, y^, puede ser la siguiente: Gráfico 1 V X El método de los momentos, de más fácil comprensión para ingenieros considera a cada punto como extremo de iHia fuerza paralela al eje Y y de módulo y^. El problema consiste en encontrar una distribución uniforme (a lo largo de una recta) de otras fuerzas, que tengan la misma proyección y el mismo momento; condición de equilibrio. Es decir de donde se deducen las dos ecuaciones normales: /El método - 3 El método de los míniiaos cuadrados se basa en aceptar un tipo de distribución de las desviaciones, con la cual debe cumplirse ¿ (.y - Y) = mínimo ¿ (y - a - hx)2 ~ mínimo o sea Por tanto 3, 2 (y - a - bx)^ £3; _ 9 - 2 ¿ (y - a - bx) •i a / (y - a - bx)^ = O = _ 2 2(y - a - bx)x de donde se obtienen las dos ecuaciones normales 2 y = Na -l-b^x 2y3c=a2x4-b2x^ que cun?3len con otras condiciones del mínimo. De estas ecuaciones por determinantes, indicaremos el valor de a y b. ¿y a ¿^ a N IL 2 ^ 2 yx i N 2x 2 U /b puede y ' 2 ^ 1 - 4 - b puede calcularse de esta manera, en cuyo caso a se obtiene más fácilmente de la primera ecxiación normal = i ( I y - b / x ) o también a = y - bx Donde representamos los promedios aritméticos con una barra. í = S Definimos otros dos sLnbolos s y s . Al primero lo llamamos desviación X xy standard. X ^1/2 s X = I ^ (x - x)^ N s / = Z (x ~ x f T ==f Z (x - x)(y - y) Ns^jy = ¿ (x - x)(y - y) a estas últimas expresiones las llamamos varianza y covarianza, respectivamente. A continuación ueduciremos expresiones de mayor simplicidad en el cálculo de varianza y covarianza, y mostraremos después su relación con los parámetros de regresión a y b. /Ma/ = ~ 5 - = ^ x ^ - ¿E ^ X 4- Nx^ = ¿ c ^ - 2Nx^ 4 Nx^ Ns 2 - \ 2 = /x - Nx = ¿xy - - Ni^ •!• = Ixy - N' = N^xy - ( Ix )( ^ .,2 2 _ N s X " Zx ¿X Zx2 N ) h T T Si compar>...mos estos determinantes con los de b, deducimos b = 2 W s xy N s^2 m2 s Si reemplazamos a por su expresión en términos de promedios, en la ecuación de la recta, obtendremos A = - 6 - Y = a 4. bX a = y - bx Y - y = b(X - x) ecuación de la recta que pasa por el punto x> y» Es decir la línea de regresión pasa por x, y. La misma ecuación también la podemos expresar: s X (X-x) ;.Dos líneas de regresión? Todo lo anteriormente deducido partía de ajustar la ecuación Y = a 4- bX donde Y =y^(X), se considera la fxmción directa. Podríamos despejar X, obteniendo asi la llsanada función inversa de Y, o sea X que sería otra relación lineal, por ejemplo X = a' 4- b'Y esta función pueUe obtenerse matemáticamente de la precedent^ operación que no introduce noveaad alguna, Pero otra solución alternativa seria plantear el problema nuevamente. Es decir, con los mismos pares de observaciones x», ^ , se desea encontrar el valor ,de los parámetros que nos dfe la relación lineal X s a« •!• b'Y /Aplicando los - 7 - Aplicando los mismos razonamientos que en el caso anterior mutatis mutandis , se llega a fórmulas similares. La principal conclusión es que, en general, la recta asi obtenida no es la misma que la obtenida para la primera ecuación, o lo que es lo mismo, la deducida de esta despejando X. Veamos priiiiero las fórmulas a que se llega, que pondremos por simple an.alogla^on la diferencia de que definimos una desviación standard ^ . ecuaciones normales V = Na' 4- b' ¿r a' Zy -í- I» = 2x ^ y Z^ T2 Zy b N b» = N Zx Z^ T t ¿J 1/ • = I (Z- - b' = X - b'y Ns 2 = Z(y - y) T 2 2 2 ^Zy) Ws/ = y y 2 2 N s.. = N N 1 Jj ^ .2 /b' =: - 8 - b' = s. N- s • y X = a» 4 b«Y a' ~ b'y X - X = b' (Y - y) o sea, ciue esta recta pasa también por el punto proméclio y,-y. Pero esta recta, no coincide con la primera, salvo casos especiales, como veremos a continuación. Para que coincidan las rectas X =t a' 4- b' Y Y = a 4 bX se requiere: 1) b' = ^ 2) a. un examen rápido de las expresiones para b y b', en determinantes nos indica que sólo en condiciones especiales coincidirán las pendientes de ambas rectas. Algo similar sucede si examinamos las expresiones de a y a', Las condiciones son justmente las que resulten de igualar las expresiones anteriores. Nos encontramos ante el hecho de ^lue procediendo en manera similar tendremos, en el caso general, dos rectas de regresión distintas que gráficamente podemos representar /Gráfico 2 - 9 - Gráfico 2 A la que representa y = a -í- "bX se le llama regresión de Y sobre X, /Grado de ~ 10 - Grado de asociación entre las variables. • Consideremos nuevamente el gráfico 2. Ambas rectas pasan por el mismo punto x, y. Si cambiamos el origen de coordenadas a ese punto, tendremos expresiones más simples para ambas rectas. Estas expresiones son justamente las ecuaciones que obtuvimos ya: (Y - y) = b (X - x) (X - 50 :: b' (Y - y) donde cada una de las dos diferencias sería la nueva variable, referida al eje de coordenadas con origen x^ y. Pero estas rectas no tienen por qué» ser funciones inversas. Es decir, no son simétricas respecto al eje de 45®. Las funciones simétricas deben tener esta propiedad. Sin embargo, si variamos las escalas convenientemente podemos lograr esa simetría. Veamos primero cuales son las condiciones de simetría. Si tenemos dos variables Z y ¥, relacionadas linealmente Z - rW r mide la pendiente de la recta, que pasa por el origen, respecto al eje W. La función inversa será Z - r'W y entre ambas pendientes debe cumplirse la condición rr» 1 o sea que la función inversa puede expresarse también así: W - r Z. Volvamos a nuestras ecuaciones referidas a los nuevos ejes y reemplacemos los parámetros b xy, X y ®y j buscando lograr la simetría señalada, (Y - y) = ^^ " ^^ por su expresión en términos de b (X ~ 3c) = JíSL 2 (X -xD (X - = (X - x) - b' (Y - y) s^, '(Y - y ) y / (Y - y) - 11 (Y. y) = X - . Í X ^ X (X > X) = ^ V Si dividimos las ecuaciones entre s y habremos conseguido la simetría buscada. (Y " y) s s y x donde s y . s x •• x) r = ^xy s s X y • y s , respectivamente, X Cx 2 = (Y-y) s y s x = fíSE . (Y - y) s s s x y y 1. = (X -x) s X En resumen, mediante uri camoio en el origen de coordenadas, y una modificación de las escalas hemos simplificado las fórmulas de las dos lineas de regresión a Z = r¥ W = rZ que son dos rectas que pasan por el nuevo origen, y una de ellas es función inversa de la otra. La pendiente r de estas rectas modificadas, tiene mucha importancia y se llama coeficiente de correlación. Si el grado de asociación lineal de las variables X e Y fuera excelente, las dos lineas de regresión tenderían a coincidir, y en consecuencia r tendería a 1 ó a -1. Si el graao de asociación fuera mínimo, en el peor de los casos las rectas de regresión serian normales entre si y r tenderla a cero. /Es fácil -12 « Es fácil demostrar r = i/bb' y toma el mismo signo de s ^ También se demuestra, que el valor de r no «¡rambia ni con el origen de coordenadas ni con las unidades de medida. Es decir, es invariante a estas transformaciones. Variación alrededor de la linea de regresión Si lina vez ajustada la recta Y = a 4- bX estudiamos los residuos (distancias verticales de cada punto a la recta) y-i / v 2 y formamos £ d , en forma análoga a las anteriores podemos definir una desviación correspondiente sey NsJ^ - 1 (y - Y ) ' = Z (y - yf 2 ' 2 • -2b / (y - y)(x - x) 4 b^ ¿U 2 2 Ns = Ns - 2bNs 4. b^ s ^ ey y xy x 2 2 2 2 s ^ = s - 2bs 4- b s ^ ey y xy X /Pero de -x)^ - 13 s Pero de se deduce 2 2 b^s = bs X xy , y entonces - 2 2 -" V ey y y y Con objeto de relacionarla a la anterior desviación s^^, estudiaremos ahora la varianza de la linea de regresión, definiendo su desviación correspondiente s y Ns2 = liY - y)2 = /(I _ yf pues la linea pasa por y , como vimos. Ademas I -y = b(x - x) NsJ = b2 2 (X - x) - b2ws2 2 s Y ,22 = bs ^ Zsto indica también la importancia de r, al representar una relación entre la varianza explicada por Y, y la varianza total de las obseIlaciones y. /Por consiguiente í. . - 14 - Por consiguiente S 2 _ ey - S 2 y - 2 Sv Y lo que explica el nombre de varianza residual o no explicada a ái la distribución e s normal dentro de alrededor de la linea de regresión debe encontrcirse apro^iraciaaraente 2/3 de los puntos, Gráfico 3 /Formatos para 15 - Forraatos para el cálculo práctico de la línea de regjresión y otros indicadores de importancia Interesa fundamentalmente calcular b,a,r y s^^, en este orden f Y = a 2 X y X T V Ij /x X y xy bX i y 2 o o H- cr o 03 3 <t) a> CO < fü r L I/ .-N /2{y /y 2 2 Calculamos en prii ler lagar s , s^ , s X N T Zx ¿x Zx^ ycy 1 1 y X y - 1 V Zx V z^ J2LJ - ló - I Ir y y y f y X. Con los datos anteriores calculamos b y a s X a = y ~ bx Además b' = s 2 s y de donde con el signo de s xy r^ = bb» Calculamos ahora 2 f. 2v 2 s = (1 - r ) s ey ^ ' y ey de donde deducimos la desviación residual. Con distribución normal, dentro entro de 2s alrededor de la linea Y - a 4 bx deben caer 2 / 3 de ey los puntos, aproximadamente. ey