Regresión y Correlación El diagrama de dispersión En la presente unidad, los métodos de los análisis de regresión y de correlación serán aplicados a dos problemas. En el primero, suponga que al administrador de una cadena de almacenes departamentales le gustaría desarrollar un modelo para predecir las ventas semanales (en miles de pesos) de cada tienda. Se seleccionó una muestra de 20 almacenes de entre todos los que conforman la cadena. Al desarrollar el modelo, se tomarían en consideración muchas variables explicatorias. Con fines pedagógicos, se empieza el análisis con un modelo de regresión simple en el que solamente se utiliza una variable explicatoria numérica para predecir los valores de una variable dependiente. Así pues, se desarrolla un modelo para predecir las ventas semanales (la variable dependiente Y) basándose en el número de clientes (la variable explicatoria o independiente, X). Los resultados correspondientes a una muestra de 20 almacenes se resumen en la tabla a continuación. Tales datos, sin embargo, pueden presentarse de una forma que es más explicable visualmente. Almacenes Clientes Ofertas ($) 1 592 7,63 2 420 9,43 3 679 9,46 4 872 7,64 5 924 6,92 6 729 7,41 7 798 11,77 8 856 10,23 9 456 9,33 10 784 8,95 11 498 6,12 12 789 11,20 13 907 11,05 14 926 6,84 15 506 9,21 16 741 9,42 17 789 10,08 18 889 9,45 19 874 6,73 20 510 7,24 1 Regresión y Correlación En el análisis de regresión que implica una variable dependiente y una variable independiente, los valores individuales se representan en una gráfica bidimensional conocida como diagrama de dispersión. Cada valor es graficado en 15 coordenadas particulares, X y Y. El diagrama de dispersión correspondiente a los datos de la tabla se muestra en la figura. Un examen de la figura nos indica que existe una relación claramente creciente entre el número de clientes (X) y las ventas semanales (Y). A medida que aumenta el número de clientes, se incrementa el volumen de ventas. Figura 1 MODELOS DE REGRESIÓN En muchos problemas existe una relación inherente entre dos o más variables, y resulta necesario explorar la naturaleza de esta relación. El análisis de regresión es una técnica estadística para el modelado y la investigación de la relación entre dos o más variables Por ejemplo, en un proceso químico, supóngase que el rendimiento del producto está relacionado con la temperatura de operación del proceso. El análisis de regresión puede emplearse para construir un modelo que permita predecir el rendimiento para una temperatura dada. Este modelo también puede utilizarse para la optimización del proceso, tal como hallar la temperatura que maximiza el rendimiento, o para fines de control. El análisis del diagrama de dispersión indica que, si bien una curva no pasa exactamente por todos los puntos, existe una evidencia fuerte de que los puntos están dispersos de manera aleatoria alrededor de una línea recta. Por consiguiente es 2 Regresión y Correlación razonable suponer que la media de la variable aleatoria Y está relacionada con x por la siguiente relación lineal: E(Ylx) = μy/x = β0 + β1 x donde la pendiente y la ordenada al origen de la recta reciben el nombre de coeficientes de regresión. Si bien la media de Y es una función lineal de x, el valor real observado de y no cae de manera exacta sobre la recta. La manera apropiada para generalizar este hecho con un modelo probabilístico lineal es suponer que el valor esperado de Y es una función lineal de x, pero que para un valor fijo de x el valor real de Y está determinado por el valor medio de la función (el modelo lineal) más un término que representa un error aleatorio, por ejemplo, Y = β0 + β 1 x + ε donde ε es el error aleatorio. Este modelo recibe el nombre de modelo de regresión lineal simple, ya que solo tiene una variable jndependiente o regresor. En ocasiones, los modelos de este tipo surgen de una relación teórica. En otras, no hay ningún conocimiento teórico de la relación existente entre x y y, y la selección del modelo se basa en el análisis del diagrama de dispersión, tal como se hizo con el volúmen de ventas. En estos casos, el modelo de regresión se considera como un modelo empírico. Para lograr una mayor familiaridad con este modelo, supóngase que es posible fijar el valor de x y observar el valor de la variable aleatoria Y. Ahora bien, si x es fijo, el componente aleatorio ε del miembro derecho del modelo dado por la primera ecuación determina las propiedades de Y. Supóngase que la media y la varianza de ε son 0 y σ 2 respectivamente. Entonces, E (Y|x) = E (β0 + β1 x + ε) = β0 + β1 x + E(ε) = β0 + β1 x Nótese que ésta es la misma relación que se escribió al inicio, de manera empírica, a partir del análisis del diagrama de dispersión de la figura. La varianza de y dado x es V (Y|x) = V (β0 + β1 x + ε) = V (β0 + β1 x) + V(ε) = 0 + σ2 = σ2 3 Regresión y Correlación Por tanto, el modelo de regresión verdadero μy/x = β0 + β1 x es una recta de valores promedios, la altura de la recta de la regresión en cualquier valor de x es precisamente, el valor esperado de y para dicha x. La pendiente β, puede interpretarse como el cambio en la media de Y por unidad de cambio en x. Por otra parte, la variabilidad de y en un valor particular de x está determinada por la varianza del error σ2. Esto implica que existe una distribución de valores de y para cada x, y que la varianza de esta distribución es la misma en cada x. Por ejemplo, supóngase que el modelo de regresión verdadero que relaciona la pureza del oxígeno con el nivel de hidrocarburos es μ y/x = 75 + 15x, y que la varianza es σ2. La figura 2 ilustra esta situación. Nótese que se ha utilizado una distribución normal para describir la variación aleatoria en ε. Puesto que Y es la suma de una constante β 0 + β1 (la media) y una variable aleatoria distribuida de manera normal, Y es una variable aleatoria con distribución normal. La varianza σ2 determina la variabilidad en las observaciones y sobre la pureza del oxígeno. Por tanto, cuando σ2 es pequeño, los valores observados de Y caen cerca de la línea, y cuando σ2 es grande, los valores observados de Y pueden desviarse considerablemente de la línea. Dado que σ2 es constante, la variabilidad en y para cualquier valor de x es la misma. El modelo de regresión describe la relación entre la pureza del oxígeno Y y el nivel de hidrocarburo x. Por consiguiente, para cualquier valor del nivel de hidrocarburo, la pureza del oxígeno tiene una distribución normal con media 75 + 15x y varianza 2. Por ejemplo, si x = 1.25, entonces Y tiene un valor promedio μy/x = 75 + 15(1.25) = 93.75 y varianza2. Figura 2 4 Regresión y Correlación En muchos problemas reales, los valores de la ordenada al origen y la pendiente β0, β1 y la varianza del error σ2 no se conocen, y deben estimarse a partir de datos muestrales. El análisis de regresión es una colección de herramientas estadísticas para encontrar estimaciones de los parámetros del modelo de regresión. Comúnmente, esta ecuación de regresión ajustada o modelo se utiliza en la predicción de observaciones futuras de Y, o para estimar la respuesta promedio para un nivel particular de x. Para ilustrar esto, es probable que un ingeniero químico esté interesado en estimar la pureza promedio del oxígeno producido cuando el nivel de hidrocarburo es x = 1.25%. Esta unidad presenta procedimientos y aplicaciones para el modelo de regresión lineal simple. REGRESIÓN LINEAL SIMPLE El caso de la regresión lineal simple considera sólo un regresar o predictor x, y una variable dependiente o respuesta Y. Supóngase que la verdadera relación entre Y y x es una línea recta, y que la observación y en cada nivel x es una variable aleatoria. Tal como ya se indicó, el valor esperado de y para cada valor de x es E(Ylx) = β0 + β1 x donde la ordenada al origen β0 y la pendiente β son los coeficientes desconocidos de la regresión. Se supone que cada observación, Y, puede describirse por el modelo Y = β0 + β 1 x + ε donde ε es un error aleatorio con media cero y varianza σ 2 . También se supone que los errores aleatorios que corresponden a observaciones diferentes son variables aleatorias no correlacionadas. Supóngase que se tienen n pares de observaciones (X1, y1)(X2, y2)...(Xn, yn). La figura 3 contiene una representativa gráfica de dispersión de los datos observados y un candidato para la recta de regresión. Las estimaciones de β0 y β1 deben dar como resultado una línea que (en algún sentido) se "ajuste mejor" a los datos. El científico alemán Karl Gauss propuso estimar los parámetros β 0 y β1 de la ecuación segunda de modo que se minimice la suma de los cuadrados de las desviaciones verticales de la figura 3. 5 Regresión y Correlación Este criterio para estimar los coeficientes de regresión se conoce como método de mínimos cuadrados. Al utilizar la ecuación segunda, es posible expresar las n observaciones de la muestra como Y = β0 + β1 x + ε i = I, 2, ..., n y la suma de los cuadrados de las desviaciones de las observaciones con respecto a la recta de regresión es n L=∑ i=1 n ε2 = ∑ (yi – β0 - β1 x)2 i=1 Figura 3 6 Regresión y Correlación