Tema 2. Regresión Lineal 3.2.1. Definición Mientras que en el apartado anterior se desarrolló una forma de medir la relación existente entre dos variables; en éste, se trata de esta técnica que permite establecer una ecuación que exprese tal relación lineal, que, en virtud, de lo que se le llama Ecuación de regresión y la línea a la que representa tal ecuación se llama Línea de regresión. Esta técnica incluye el utilizar la ecuación y línea de regresión para hacer estimaciones acerca del valor que asumirá la variable dependiente según el valor que tome la variable independiente. Esto es, el análisis de regresión lineal comprende el intento de desarrollar una línea recta y su ecuación matemática que describan la relación entre dos variables. Un análisis de regresión lineal se hace con los siguientes propósitos: • • Encontrar una ecuación que exprese la relación en forma de línea recta entre dos variables. Esta ecuación relaciona los cambios en una variable con cambios en la otra variable. Estimar el valor de la variable aleatoria (dependiente-de respuesta) a partir de que se conoce el valor de una variable asociada (independiente-de predicción). Y puede ser aplicado en casos en los que se desee: • • • • Predecir el desempeño en áreas en donde no son deseables o no es posible lograr experimentos controlados. Estimar o explicar el valor de una variable a partir del valor de la otra. Pronosticar o predecir el valor futuro de una variable Ahorrar tiempo y dinero, evitando estudios muy largos y tediosos. Por otro lado, para realizar éste tipo de análisis se requiere partir de los mismos supuestos que en el caso de la correlación y también que: los valores observados de la variable dependiente son independientes entre sí. 3.2.2. Fórmula Puesto que se trata de llegar a la ecuación de una línea recta que describa o exprese la relación entre las variables, requerimos utilizar una de las formas de la ecuación de línea recta; para ello, se utilizará la fórmula abscisa - pendiente, es decir: En ella, los valores para a y b son determinados por las siguientes fórmulas, tomadas del método matemático llamado mínimos cuadrados, el cual origina lo que comúnmente se conoce como la recta de «mejor ajuste». Este método establece el criterio de que la línea de regresión es aquélla para la cual se reduce al mínimo la suma de las desviaciones cuadradas entre los valores estimado y real de la variable dependiente para los datos muéstrales. Con la aplicación de estas fórmulas se inicia el procedimiento del análisis de regresión, el cual consta de los siguientes pasos: 1) Una vez determinados los llamados Coeficientes de Regresión, es decir, los valores de a y b, establecer la Ecuación de Regresión. 2) A partir de esta ecuación, trazar la Recta de Regresión. 3) Con la ecuación formulada, estimar el valor de la variable dependiente dado el valor de la independiente. A este respecto, debes considerar que tales estimaciones solo se pueden realizar dentro del rango de valores muestreados, ya que no existe base estadística de que fuera de ellos, el comportamiento sea el mismo. 4) Obtener el Error Estándar de Estimación, es decir, la medida de la dispersión de los valores observados con respecto a la línea de regresión, el cual se representa por Sy.x si se trata de una población o Sy.x, si se trata de una muestra, y cuya fórmula es la siguiente: Es importante mencionar que: El error estándar es una medida que indica qué tan preciso es el pronóstico de y con base en x o, por el contrario, cuán inexacta podría ser la predicción. El error estándar de la estimación se refiere a que no todos los puntos coinciden o están en la línea de regresión, de lo contrario, la predicción sería perfecta y eso, es imposible. Ejemplo Cálculo de Regresión Lineal y Componentes: Con los datos del ejemplo anterior, a) Establecer la Ecuación de Regresión y comentarla b) Trazar la Línea de Regresión c) Pronosticar cuántas unidades se venderán si se realizan 20 llamadas d) Evaluar el error estándar de estimación e) Comentar el resultado Solución: a) Para establecer la ecuación de regresión, primero debemos construir la tabla con los datos necesarios: Con estos datos, sustituir en las fórmulas para los coeficientes de regresión: con lo que la Ecuación de Regresión queda: y = 18.9476 + 1.1842x Comentario: Puesto que b resultó ser positiva y con valor de 1.1842 y es la pendiente de la recta, esto indica que se trata de una relación directa o positiva, es decir, que por cada llamada adicional que se realice se puede esperar un aumento de casi 1.2 artículos vendidos. Por su parte a resultó ser 19 que es el punto en que la recta de regresión corta al eje de Y y si se interpreta literalmente, significaría que si se hacen 0 llamadas se venderán 19 artículos. Sin embargo, como se dijo antes, esta conclusión no es válida porque 0 no está en el intervalo de los datos muestreados, es decir, entre 10 y 40. En resumen, b) Trazar la línea de regresión Con los datos anteriores se traza esta recta de regresión c) Para hacer la estimación de cuántos artículos se venderán si se realizan 20 llamadas, se tienen dos opciones: a) se puede hacer gráficamente, es decir, localizar el punto x = 20 y proyectarlo hacia arriba hasta tocar la recta de regresión y moverse horizontalmente hasta tocar el eje de Y y leer el valor de y al que corresponde ese punto sobre la recta, en este caso, aproximadamente 42 artículos. Este método que puede llamársele gráfico, tiene la seria desventaja de que no proporciona exactitud ya que está depende de la precisión con la que se haya construido el diagrama de dispersión. b) La segunda opción, y la más exacta, es usar la ecuación de regresión establecida y sustituir en ella el valor dado de x y estimar y: lo que significa que si se hacen 20 llamadas telefónicas, puede esperarse una cantidad de 42.6316 artículos vendidos. d) Para evaluar el error de estimación se utiliza la fórmula mencionada arriba: lo cual indica que en promedio la desviación entre los valores reales y los valores representados por la recta de regresión es de 9.901 hacia arriba y hacia abajo, es decir, que en el caso de que se hagan 20 llamadas se esperan vender 42.6316 ± 9.901 artículos, es decir, entre 33 y 53 artículos y como se está considerando solamente una vez el error estándar este pronóstico tiene un 65% de probabilidad de realizarse. Actividad Preliminar 2: (Recuerda que estas actividades son opcionales y será tu asesor quien defina aquellos que serán evaluados en tu curso. Sin embargo te recomiendo que las realices para verificar efectivamente el nivel de aprendizaje logrado) Resuelve los siguientes problemas: No. 1 Problema Supóngase que los datos siguientes son de equipos cuya vida de servicio en miles de horas está en el primer renglón y el precio al que se han vendido está en el segundo renglón, el cual evidentemente se deprecia según el uso: Número de 1 equipo Vida de 40 servicio (Miles de horas) Precio pagado 10 (Miles de pesos) 2 3 30 15 4 5 6 30 25 50 12 18 8 7 8 9 10 11 12 13 14 60 65 10 15 20 55 40 35 30 10 5 30 25 20 8 15 20 20 a) b) c) d) e) 2 Establecer la Ecuación de Regresión y comentarla Trazar la Línea de Regresión Pronosticar en cuánto se venderá un equipo que tenga 20 mil horas de servicio Evaluar el error estándar de estimación Comentar el resultado Si los siguientes datos muestran las horas de capacitación que ha recibido un grupo de trabajadores y las quejas que se han recibido por parte de los clientes respecto a la atención que han recibido: a) Establecer la Ecuación de Regresión y comentarla b) Trazar la Línea de Regresión c) Pronosticar cuántas quejas de clientes se recibirán un empleado que se ha capacitado 3 horas d) Evaluar el error estándar de estimación e) Comentar el resultado Número de 1 2 3 empleado Horas de 8 1 11 capacitación Número de 25 32 22 quejas 4 5 6 7 8 9 10 11 12 2 4 10 12 8 14 6 7 38 26 24 18 23 16 28 20 9 26