Regresión lineal y correlación 13 OBJETIVOS Al concluir el capítulo, será capaz de: 1. Comprender e interpretar los términos variable dependiente e independiente. 2. Calcular e interpretar el coeficiente de correlación, el coeficiente de determinación y el error estándar de estimación. 3. Realizar una prueba de hipótesis para determinar si el coeficiente de correlación en la población es cero. 4. Calcular la recta de regresión por mínimos cuadrados. 5. Elaborar e interpretar intervalos de confianza y pronóstico para la variable dependiente. En el ejercicio 61 se listan las películas con los mayores ingresos mundiales y su presupuesto mundial. Determine la correlación entre presupuesto mundial e ingresos mundiales. Comente sobre la asociación entre las dos variables (véase el objetivo 2). 13_cap_Economia_Lind.indd 457 12/26/07 11:57:20 PM Capítulo 13 458 Introducción De los capítulo 2 a 4 se aborda la estadística descriptiva. Los datos sin procesar se organizaron en una distribución de la frecuencia, y se calcularon varias medidas de ubicación y medidas de dispersión para describir las características importantes de los datos. En el capítulo 5 se inició el estudio de la inferencia estadística. El foco de atención principal fue inferir algo acerca de un parámetro poblacional, como la media poblacional, con base en una muestra. Se probó lo razonable de una media poblacional o una proporción poblacional, la diferencia entre dos medias poblacionales, o si varias medias poblacionales eran iguales. Todas estas pruebas implicaron sólo una variable de intervalo o de nivel de razón, como el peso de una botella de plástico de una bebida de cola, el ingreso de los presidentes de un banco o el número de pacientes admitidos en un Estadística en acción El transbordador espacial Challenger explotó el 28 de junio de 1986. Una investigación para determinar la causa examinó a cuatro contratistas: Rockwell International por el transbordador y motores, Lockheed Martin por el apoyo terrestre, Martin Marietta por los tanques de combustible externos y Morton Thiokol por los cohetes aceleradores de combustible sólido. Después de varios meses, en la investigación se determinó responsable de la explosión a los empaques en “O” producidos por Morton Thiokol. Un estudio de los precios accionarios del contratista reveló algo interesante. En el día del accidente, las acciones de Morton Thiokol bajaron 11.86% y las acciones de los otros tres contratistas sólo perdieron de 2% a 3%. ¿Es posible concluir que en los mercados financieros se anticipó el resultado de la investigación? 13_cap_Economia_Lind.indd 458 hospital. En este capítulo el hincapié cambia al estudio de dos variables. Recuerde que en el capítulo 4 se presentó la idea de mostrar la relación entre dos variables con diagrama de dispersión. Se graficó el precio de vehículos vendidos en Whitner Autoplex en el eje vertical y la edad del comprador en el eje horizontal. Véase la salida del software estadístico en la página 119. En ese caso se observó que, cuando aumentaba la edad del comprador, la cantidad gastada en el vehículo también aumentaba. En este capítulo se amplía esta idea. Es decir, se desarrollan medidas numéricas para expresar la relación entre dos variables. ¿Es fuerte o débil la relación, o es directa o inversa? Además, se desarrolla una ecuación para expresar la relación entre variables, para permitir la estimación de una variable con base en otra. A continuación se presentan algunos ejemplos. •¿Existe alguna relación entre la cantidad que Healthtex gasta por mes en publicidad y sus ventas mensuales? •Con base en el costo de calefacción de una casa en el mes de enero, ¿es posible estimar el área de la casa? •¿Hay alguna relación entre las millas por galón que rinde una camioneta grande y el tamaño del motor? •¿Hay alguna relación entre el número de horas que estudiaron los alumnos para un examen y la calificación que obtuvieron? Advierta que en cada uno de los casos anteriores hay dos variables por cada muestra. En el último ejemplo se determinaron, por cada estudiante seleccionado en la muestra, las horas estudiadas y la calificación obtenida. Este capítulo inicia con el examen del significado y propósito del análisis de correlación. Continúa con el desarrollo de una ecuación matemática que permita estimar el valor de una variable con base en el valor de otra: un análisis de regresión. Así, (1) determinaremos la ecuación de la recta que se ajusta mejor a los datos, (2) utilizaremos la ecuación para estimar el valor de una variable con base en otra, (3) mediremos el error en el estimado y (4) estableceremos intervalos de confianza y pronóstico para el estimado. ¿Qué es el análisis de correlación? El análisis de correlación es el estudio de la relación entre variables. Para explicarlo en otras palabras, suponga que el gerente de ventas de Copier Sales of America, que tiene una fuerza de ventas muy grande en Estados Unidos y Canadá, desea determinar si hay alguna relación entre el número de llamadas de ventas en un mes y el número de copiadoras vendidas ese mes. El gerente selecciona una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas de ventas que cada uno hizo el 12/26/07 11:57:21 PM Regresión lineal y correlación 459 mes pasado y el número de copiadoras vendidas. La información muestral aparece en la tabla 13.1. TablA 13.1 Número de llamadas de ventas y copiadoras vendidas para 10 vendedores Representante de ventas Tom Keller Jeff Hall Brian Virost Greg Fish Susan Welch Carlos Ramirez Rich Niles Mike Kiel Mark Reynolds Soni Jones Número de llamadas de ventas Número de copiadoras vendidas 20 40 20 30 10 10 20 20 20 30 30 60 40 60 30 40 40 50 30 70 Al revisar los datos se observa que parece haber una relación entre el número de llamadas de ventas y el número de unidades vendidas. Es decir, los vendedores que hicieron más llamadas de venta vendieron más unidades. Sin embargo, la relación no es “perfecta” o exacta. Por ejemplo, Soni Jones hizo menos llamadas de ventas que Jeff Hall, pero vendió más unidades. En lugar de hablar en términos generales, como en el capítulo 4 y hasta este capítulo, ahora se desarrollan algunas medidas estadísticas para representar de manera más precisa la relación entre ambas variables: llamadas de ventas y copiadoras vendidas. Este grupo de técnicas estadísticas se denomina análisis de correlación. ANÁLiSIS de CORRELAcióN Grupo de técnicas para medir la asociación entre dos variables. La idea básica del análisis de correlación es reportar la asociación entre dos variables. El primer paso habitual es trazar los datos en un diagrama de dispersión. Un ejemplo ilustrará cómo se emplea un diagrama de dispersión. Ejemplo Solución 13_cap_Economia_Lind.indd 459 Copier Sales of America vende copiadoras a empresas de todos tamaños en Estados Unidos y Canadá. Hace poco ascendieron a la señora Marcy Bancer al puesto de gerente nacional de ventas. A la siguiente junta de ventas asistirán los representantes de ventas de todo el país. Ella desea destacar la importancia de hacer una última llamada de ventas adicional cada día, y decide reunir información sobre la relación entre el número de llamadas de ventas y el número de copiadoras vendidas. Así, selecciona una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas que hicieron el mes pasado y el número de copiadoras que vendieron. La información muestral se reporta en la tabla 13.1 ¿Qué observaciones cabe hacer respecto de la relación entre el número de llamadas de ventas y el número de copiadoras vendidas? Elabore un diagrama de dispersión para representar la información. Con base en la información de la tabla 13.1, la señora Bancer sospecha que hay una relación entre el número de llamadas de venta hechas en un mes y el número de copiadoras vendidas. Soni Jones vendió más copiadoras el mes anterior, y fue una de las tres representantes que hicieron 30 llamadas o más. Por otro lado, Susan 12/26/07 11:57:22 PM 460 Capítulo 13 Welch y Carlos Ramirez sólo hicieron 10 llamadas de ventas durante el mes anterior. La señora Welch, junto con otros dos, tuvo el número menor de copiadoras vendidas entre los representantes muestreados. La implicación es que el número de copiadoras vendidas se relaciona con el número de llamadas de ventas. Conforme aumenta el número de llamadas de venta, parece que el número de copiadoras vendidas también aumenta. De este modo, el número de llamadas de ventas se considera variable independiente, y el de copiadoras vendidas, variable dependiente. VARIABLE DEPENDIENTE Variable que se predice o estima. Se muestra en el eje Y. VARIABLE INDEPENDIENTE Variable que proporciona la base para la estimación. Es la variable de pronóstico. Se muestra en el eje X. Copiadoras vendidas Es práctica común escalar la variable dependiente (copiadoras vendidas) en el eje vertical o Y y la variable independiente (número de llamadas de ventas) en el eje horizontal o X. Para elaborar un diagrama de dispersión de la información de Copier Sales of America, inicie con el primer representante de ventas, Tom Keller, quien hizo 20 llamadas de ventas el mes anterior y vendió 30 copiadoras, por tanto, X = 20 y Y = 30. Para trazar esta información, a partir del origen vaya por el eje horizontal hasta el valor X = 20, después haga lo mismo en el eje vertical hasta Y = 30 y marque un punto en la intersección. Continúe este proceso hasta que trace todos los datos pareados, como se muestra en la gráfica 13.1. 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 Llamadas de ventas GRÁFICA 13.1 Diagrama de dispersión que representa las llamadas de ventas y las copiadoras vendidas El diagrama de dispersión muestra en forma gráfica que los representantes con más llamadas tienden a vender más copiadoras. Es razonable que la señora Bancer, gerente nacional de ventas en Copier Sales of America, diga a sus vendedores que, entre más llamadas de ventas hagan, se espera que vendan más copiadoras. Observe que, aunque parece haber una relación positiva entre las dos variables, no todos los puntos se encuentran en una recta. En la siguiente sección se miden la fuerza y la dirección de esta relación entre dos variables, para determinar el coeficiente de correlación. Coeficiente de correlación Se requiere información sobre el nivel del intervalo o de la razón Características de r 13_cap_Economia_Lind.indd 460 El coeficiente de correlación, creado por Karl Pearson alrededor de 1900, describe la fuerza de la relación entre dos conjuntos de variables en escala de intervalo o de razón. Se designa con la letra r, y con frecuencia se le conoce como r de Pearson y coeficiente de correlación producto-momento. Puede adoptar cualquier valor de –1.00 a +1.00, inclusive. Un coeficiente de correlación de –1.00 o bien de +1.00 indica una correlación perfecta. Por ejemplo, un coeficiente de correlación para el caso anterior calculado a +1.00 indicaría que el número de llamadas de ventas y el número de copiadoras vendidas están perfectamente relacionados en un sentido lineal positivo. Un valor calculado de –1.00 revela que las llamadas de ventas y el número de copiadoras vendidas están 12/26/07 11:57:22 PM Regresión lineal y correlación 461 perfectamente relacionados en un sentido lineal inverso. En la gráfica 13.2 se muestra cómo aparecería el diagrama de dispersión si la relación entre los dos conjuntos de datos fuera lineal y perfecta. Y Correlación negativa perfecta Y Recta con pendiente negativa Correlación positiva perfecta r = +1.00 Recta con pendiente positiva r = –1.00 X X GRÁFICA 13.2 Diagramas de dispersión con correlación negativa perfecta y correlación positiva perfecta Si no hay ninguna relación entre los dos conjuntos de variables, la r de Pearson es cero. Un coeficiente de correlación r cercano a 0 (sea 0.08) indica que la relación lineal es muy débil. Se llega a la misma conclusión si r = –0.08. Los coeficientes de –0.91 y + 0.91 tienen una fuerza igual; los dos indican una correlación muy fuerte entre las dos variables. Por tanto, la fuerza de la correlación no depende de la dirección (ya sea – o bien +). En la gráfica 13.3 se muestran los diagramas de dispersión para r = 0, una r débil (sea –0.23), y una r fuerte (sea +0.87). Observe que, si la correlación es débil, se presenta una dispersión considerable respecto de la recta trazada a través del centro de los datos. Para el diagrama de dispersión que representa una fuerte relación, hay muy poca dispersión respecto de la recta. Esto indica, en el ejemplo que se muestra en la gráfica, que las horas estudiadas constituyen un factor de pronóstico de la calificación en el examen. Ejemplos de grados de correlación GRÁFICA 13.3 Diagramas de dispersión que representan una correlación cero, débil y fuerte 13_cap_Economia_Lind.indd 461 12/26/07 11:57:25 PM 462 Capítulo 13 En la siguiente gráfica se resume la fuerza y la dirección del coeficiente de correlación. Correlación negativa perfecta Correlación negativa fuerte –1.00 Correlación positiva perfecta No hay correlación Correlación negativa moderada Correlación positiva débil Correlación negativa débil –0.50 Correlación negativa 0 Correlación positiva moderada Correlación positiva fuerte 0.50 Correlación positiva 1.00 COEFICIENTE DE CORRELACIÓN Medida de la fuerza de la relación lineal entre dos variables. Las características del coeficiente de correlación se resumen a continuación. CARACTERÍSTICAS DEL COEFICIENTE DE CORRELACIÓN 1.El coeficiente de correlación de la muestra se identifica por la letra minúscula r. 2.Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables en escala de intervalo o en escala de razón. 3. Varía de –1 hasta +1, inclusive. 4. Un valor cercano a 0 indica que hay poca asociación entre las variables. 5.Un valor cercano a 1 indica una asociación directa o positiva entre las variables. 6.Un valor cercano a –1 indica una asociación inversa o negativa entre las variables. ¿Cómo se determina el coeficiente de correlación? Como ejemplo, emplee los datos de Copier Sales of America, que se reportan en la tabla 13.2. Inicie con un diagrama TablA 13.2 Llamadas de ventas y copiadoras vendidas de 10 vendedores Llamadas de Representantes ventas de ventas (X ) Tom Keller 20 Jeff Hall 40 Brian Virost 20 Greg Fish 30 Susan Welch 10 Carlos Ramirez 10 Rich Niles 20 Mike Kiel 20 Mark Reynolds 20 Soni Jones 30 Total 13_cap_Economia_Lind.indd 462 220 Copiadoras vendidas, (Y ) 30 60 40 60 30 40 40 50 30 70 450 12/26/07 11:57:25 PM Regresión lineal y correlación 463 de dispersión, similar a la gráfica 13.2. Se traza una recta vertical con los valores de datos en la media de los valores X y una recta horizontal en la media de los valores Y. En la gráfica 13.4 se agregó una recta en 22.0 llamadas (X = ∑ X / n = 220 /10 = 22) y una recta horizontal en 45.0 copiadoras (Y = ∑Y / n = 450 /10 = 45.0) . Estas rectas pasan por el “centro” de los datos y dividen el diagrama de dispersión en cuatro cuadrantes. Considere mover el origen de (0, 0) a (22, 45). Copiadoras vendidas (Y ) X = 22 80 70 60 50 40 30 20 10 0 IV I Y = 45 III 0 II 10 20 30 40 Llamadas de ventas (X ) 50 GRÁFICA 13.4 Cálculo del coeficiente de correlación Dos variables tienen una relación positiva cuando el número de copiadoras vendidas está por arriba de la media y el número de llamadas de ventas también se encuentra arriba de la media. Estos puntos aparecen en el cuadrante superior derecho (cuadrante I) de la gráfica 13.4. De manera similar, cuando el número de copiadoras vendidas es menor que la media, también lo es el número de llamadas de ventas. Estos puntos se encuentran en el cuadrante inferior izquierdo de la gráfica 13.2 (cuadrante III). Por ejemplo, la última persona en la lista de la tabla 13.2, Soni Jones, hizo 30 llamadas de ventas y vendió 70 copiadoras. Estos valores se encuentran arriba de sus medias respectivas, por tanto, este punto se ubica en el cuadrante I, que es el cuadrante superior derecho. Soni hizo 8(X − X = 30 − 22) más llamadas de ventas que la media y vendió 25(Y − Y = 70 − 45) más copiadoras que la media. Tom Keller, el primer nombre en la lista de la tabla 13.2, hizo 20 llamadas y vendió 30 copiadoras. Ambos valores son menores que sus respectivas medias, por lo que este punto se ubica en el cuadrante inferior derecho. Tom hizo 2 llamadas menos y vendió 15 copiadoras menos que las medias respectivas. Las desviaciones del número medio de llamadas de ventas y para el número medio de copiadoras vendidas se resumen en la tabla 13.3 para los 10 representantes de ventas. La suma de los productos de las desviaciones de las medias respectivas es 900. Es decir, el término ∑(X − X )(Y − Y ) = 900 . En los cuadrantes superior derecho e inferior izquierdo, el producto de (X − X )(Y − Y ) es positivo debido a que los dos factores tienen el mismo signo. En el ejemplo, esto TablA 13.3 Desviaciones de la media y sus productos Representante de ventas Tom Keller Jeff Hall Brian Virost Greg Fish Susan Welch Carlos Ramirez Rich Niles Mike Kiel Mark Reynolds Soni Jones Llamadas, X 20 40 20 30 10 10 20 20 20 30 Ventas, Y 30 60 40 60 30 40 40 50 30 70 X – X –2 18 –2 8 –12 –12 –2 –2 –2 8 Y–Y –15 15 –5 15 –15 –5 –5 5 –15 25 13_cap_Economia_Lind.indd 463 _ _ (X – X )(Y – Y ) 30 270 10 120 180 60 10 –10 30 200 900 12/26/07 11:57:29 PM 464 Capítulo 13 sucede con todos los representantes, excepto Mike Kiel. Por tanto, se espera que el coeficiente de correlación tenga un valor positivo. Si las dos variables tienen una relación inversa, una variable estará arriba de la media y la otra debajo de la media. La mayoría de los puntos en este caso suceden en los cuadrantes superior izquierdo e inferior derecho, es decir, en los cuadrantes II y IV. Ahora (X − X ) y (Y − Y ) tendrán signos opuestos, y su producto será negativo. El coeficiente de correlación resultante es negativo. ¿Qué sucede si no hay una relación lineal entre las dos variables? Los puntos en el diagrama de dispersión aparecerán en los cuatro cuadrantes. Los productos negativos de (X − X )(Y − Y ) equilibran los productos positivos, por lo cual la suma casi es cero. Esto conduce al coeficiente de correlación cercano a cero. Es necesario también que el coeficiente de correlación no se afecte por las unidades de las dos variables. Por ejemplo, si se hubieran empleado cientos de copiadoras vendidas en lugar del número vendido, el coeficiente de correlación sería el mismo. El coeficiente de correlación es independiente de la escala empleada si se divide el término ∑(X − X )(Y − Y ) entre las desviaciones estándar muestrales. También se hace independiente del tamaño muestral y está acotado por los valores +1.00 y –1.00 si se divide entre (n – 1). Este razonamiento conduce a la siguiente fórmula: r= COEFICIENte de CORRELAcióN ∑(X − X )(Y − Y ) (n − 1)s x sy [13.1] Para calcular el coeficiente de correlación, se utilizan las desviaciones estándar de la muestra de 10 llamadas de ventas y 10 copiadoras vendidas. Se puede emplear la fórmula (3.12) para calcular las desviaciones estándar muestrales o un paquete de software estadístico. Para los comandos específicos en Excel y MINITAB vea la sección “Comandos de software” al final del capítulo 3. La siguiente es la salida en pantalla de Excel. La desviación estándar del número de llamadas de ventas es 9.189, y del número de copiadoras vendidas, 14.337. Ahora se sustituyen estos valores en la fórmula (13.1) para determinar el coeficiente de correlación: ∑(X − X )(Y − Y ) 900 = = 0.759 r= (n − 1)s x sy (10 − 1)(9.189)(14.337) ¿Cómo se interpreta una correlación de 0.759? Primero, es positiva, por lo que se observa una relación directa entre el número de llamadas de ventas y el número de 13_cap_Economia_Lind.indd 464 12/26/07 11:57:33 PM Regresión lineal y correlación 465 copiadoras vendidas. Esto confirma el razonamiento basado en el diagrama de dispersión, gráfica 13.4. El valor de 0.759 está muy cercano a 1.00, y por ende se concluye que la asociación es fuerte. Debe tener mucho cuidado con la interpretación. La correlación de 0.759 indica una asociación positiva fuerte entre las variables. La señora Bancer acierta al motivar al personal de ventas para hacer llamadas adicionales, debido a que el número de llamadas de ventas hechas se relaciona con el número de copiadoras vendidas. Sin embargo, ¿más llamadas de ventas ocasionan más ventas? No, aquí no se ha demostrado la causa y el efecto, sólo que hay una relación entre las dos variables, llamadas de ventas y copiadoras vendidas. El coeficiente de determinación En ejemplo anterior, la relación entre el número de llamadas de ventas y las unidades vendidas, el coeficiente de correlación, 0.759, se interpretó como “fuerte”. Sin embargo, los términos débil, moderado y fuerte no tienen un significado exacto. Una medida cuyo significado se interpreta con más facilidad es el coeficiente de determinación. Éste se calcula elevando al cuadrado el coeficiente de correlación. Entonces, en dicho ejemplo, el coeficiente de correlación, r 2, es 0.576, determinado por (0.759)2. Ésta es una proporción o un porcentaje; es posible decir que 57.6% de la variación en el número de copiadoras vendidas se explica, o contabiliza, por la variación en el número de llamadas de ventas. COEFICIENTE DE DETERMINACIÓN Proporción de la variación total en la variable dependiente Y que se explica, o contabiliza, por la variación en la variable dependiente X. Más adelante, en este capítulo, se hace un análisis más detallado del coeficiente de determinación. Correlación y causa Si hay una relación fuerte (sea 0.91) entre dos variables, es factible suponer que un aumento o una disminución en una variable causa un cambio en la otra variable. Por ejemplo, se puede demostrar que el consumo de cacahuates de Georgia y el consumo de aspirina tienen una correlación fuerte. Sin embargo, esto no indica que un aumento en el consumo de cacahuates causó que creciera el consumo de aspirina. De igual forma, los ingresos de profesores y el número de pacientes en instituciones psiquiátricas han aumentado en forma proporcional. Además, conforme disminuye la población de burros, aumenta el número de grados doctorales otorgados. Las relaciones de este tipo se denominan correlaciones espurias. Lo que se puede concluir cuando se tienen dos variables con fuerte correlación es que hay una relación o asociación entre ambas variables, no que un cambio en una ocasiona un cambio en la otra. Autoevaluación 13.1 Haverty’s Furniture es un negocio familiar que vende a clientes minoristas en el área de Chicago desde hace muchos años. La compañía se anuncia ampliamente en radio, televisión e Internet, destacando sus precios bajos y términos fáciles de crédito. El propietario desea analizar la relación entre las ventas y la cantidad monetaria gastada en publicidad. A continuación se presenta la información de las ventas y de los gastos publicitarios durante los últimos cuatro meses. Mes Julio Agosto Septiembre Octubre Gastos publicitarios (en millones de dólares) 2 1 3 4 Ingresos por ventas (en millones de dólares) 7 3 8 10 a)El propietario desea pronosticar las ventas con base en los gastos publicitarios. ¿Cuál es la variable dependiente? ¿Cuál es la variable independiente? 13_cap_Economia_Lind.indd 465 12/26/07 11:57:33 PM