Estadística aplicada a los negocios y la economía

Anuncio
Regresión lineal
y correlación
13
OBJETIVOS
Al concluir el capítulo,
será capaz de:
1. Comprender e interpretar los
términos variable dependiente e
independiente.
2. Calcular e interpretar el
coeficiente de correlación, el
coeficiente de determinación y el
error estándar de estimación.
3. Realizar una prueba de hipótesis
para determinar si el coeficiente de
correlación en la población es cero.
4. Calcular la recta de regresión por
mínimos cuadrados.
5. Elaborar e interpretar intervalos
de confianza y pronóstico para la
variable dependiente.
En el ejercicio 61 se listan las películas con los mayores ingresos
mundiales y su presupuesto mundial. Determine la correlación entre
presupuesto mundial e ingresos mundiales. Comente sobre la asociación
entre las dos variables (véase el objetivo 2).
13_cap_Economia_Lind.indd 457
12/26/07 11:57:20 PM
Capítulo 13
458
Introducción
De los capítulo 2 a 4 se aborda la estadística descriptiva. Los datos sin
procesar se organizaron en una distribución de la frecuencia, y se calcularon varias medidas de ubicación y medidas de dispersión para describir
las características importantes de los datos. En el capítulo 5 se inició el
estudio de la inferencia estadística. El foco de atención principal fue inferir algo acerca de un parámetro poblacional, como la media poblacional,
con base en una muestra. Se probó lo razonable de una media poblacional o una proporción poblacional, la diferencia entre dos medias poblacionales, o si varias medias poblacionales eran iguales. Todas estas pruebas
implicaron sólo una variable de intervalo o de nivel de razón, como el
peso de una botella de plástico de una bebida de cola, el ingreso de
los presidentes de un banco o el número de pacientes admitidos en un
Estadística en acción
El transbordador espacial
Challenger explotó el 28
de junio de 1986. Una investigación para determinar
la causa examinó a cuatro
contratistas: Rockwell International por el transbordador y motores, Lockheed
Martin por el apoyo terrestre, Martin Marietta por
los tanques de combustible
externos y Morton Thiokol
por los cohetes aceleradores
de combustible sólido. Después de varios meses, en la
investigación se determinó
responsable de la explosión a
los empaques en “O” producidos por Morton Thiokol.
Un estudio de los precios
accionarios del contratista
reveló algo interesante. En el
día del accidente, las acciones de Morton Thiokol bajaron 11.86% y las acciones
de los otros tres contratistas
sólo perdieron de 2% a 3%.
¿Es posible concluir que en
los mercados financieros se
anticipó el resultado de la
investigación?
13_cap_Economia_Lind.indd 458
hospital.
En este capítulo el hincapié cambia al estudio de dos variables. Recuerde que en el
capítulo 4 se presentó la idea de mostrar la relación entre dos variables con diagrama de
dispersión. Se graficó el precio de vehículos vendidos en Whitner Autoplex en el eje vertical y la edad del comprador en el eje horizontal. Véase la salida del software estadístico
en la página 119. En ese caso se observó que, cuando aumentaba la edad del comprador, la cantidad gastada en el vehículo también aumentaba. En este capítulo se amplía
esta idea. Es decir, se desarrollan medidas numéricas para expresar la relación entre
dos variables. ¿Es fuerte o débil la relación, o es directa o inversa? Además, se desarrolla una ecuación para expresar la relación entre variables, para permitir la estimación de
una variable con base en otra. A continuación se presentan algunos ejemplos.
•¿Existe alguna relación entre la cantidad que Healthtex gasta por mes en publicidad
y sus ventas mensuales?
•Con base en el costo de calefacción de una casa en el mes de enero, ¿es posible
estimar el área de la casa?
•¿Hay alguna relación entre las millas por galón que rinde una camioneta grande y el
tamaño del motor?
•¿Hay alguna relación entre el número de horas que estudiaron los alumnos para un
examen y la calificación que obtuvieron?
Advierta que en cada uno de los casos anteriores hay dos variables por cada muestra. En
el último ejemplo se determinaron, por cada estudiante seleccionado en la muestra, las
horas estudiadas y la calificación obtenida.
Este capítulo inicia con el examen del significado y propósito del análisis de correlación. Continúa con el desarrollo de una ecuación matemática que permita estimar el
valor de una variable con base en el valor de otra: un análisis de regresión. Así, (1)
determinaremos la ecuación de la recta que se ajusta mejor a los datos, (2) utilizaremos
la ecuación para estimar el valor de una variable con base en otra, (3) mediremos el
error en el estimado y (4) estableceremos intervalos de confianza y pronóstico para
el estimado.
¿Qué es el análisis de correlación?
El análisis de correlación es el estudio de la relación entre variables. Para explicarlo en
otras palabras, suponga que el gerente de ventas de Copier Sales of America, que tiene
una fuerza de ventas muy grande en Estados Unidos y Canadá, desea determinar si
hay alguna relación entre el número de llamadas de ventas en un mes y el número de
copiadoras vendidas ese mes. El gerente selecciona una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas de ventas que cada uno hizo el
12/26/07 11:57:21 PM
Regresión lineal y correlación
459
mes pasado y el número de copiadoras vendidas. La información muestral aparece en
la tabla 13.1.
TablA 13.1 Número de llamadas de ventas y copiadoras vendidas para 10 vendedores
Representante de ventas
Tom Keller
Jeff Hall
Brian Virost
Greg Fish
Susan Welch
Carlos Ramirez
Rich Niles
Mike Kiel
Mark Reynolds
Soni Jones
Número de llamadas de ventas
Número de
copiadoras vendidas
20
40
20
30
10
10
20
20
20
30
30
60
40
60
30
40
40
50
30
70
Al revisar los datos se observa que parece haber una relación entre el número de
llamadas de ventas y el número de unidades vendidas. Es decir, los vendedores que
hicieron más llamadas de venta vendieron más unidades. Sin embargo, la relación no
es “perfecta” o exacta. Por ejemplo, Soni Jones hizo menos llamadas de ventas que Jeff
Hall, pero vendió más unidades.
En lugar de hablar en términos generales, como en el capítulo 4 y hasta este capítulo, ahora se desarrollan algunas medidas estadísticas para representar de manera más
precisa la relación entre ambas variables: llamadas de ventas y copiadoras vendidas.
Este grupo de técnicas estadísticas se denomina análisis de correlación.
ANÁLiSIS de CORRELAcióN Grupo de técnicas para medir la asociación entre dos
variables.
La idea básica del análisis de correlación es reportar la asociación entre dos variables. El primer paso habitual es trazar los datos en un diagrama de dispersión. Un
ejemplo ilustrará cómo se emplea un diagrama de dispersión.
Ejemplo
Solución
13_cap_Economia_Lind.indd 459
Copier Sales of America vende copiadoras a empresas de todos tamaños en Estados Unidos y Canadá. Hace poco ascendieron a la señora Marcy Bancer al puesto
de gerente nacional de ventas. A la siguiente junta de ventas asistirán los representantes de ventas de todo el país. Ella desea destacar la importancia de hacer una
última llamada de ventas adicional cada día, y decide reunir información sobre la
relación entre el número de llamadas de ventas y el número de copiadoras vendidas.
Así, selecciona una muestra aleatoria de 10 representantes de ventas y determina
el número de llamadas que hicieron el mes pasado y el número de copiadoras que
vendieron. La información muestral se reporta en la tabla 13.1 ¿Qué observaciones
cabe hacer respecto de la relación entre el número de llamadas de ventas y el número de copiadoras vendidas? Elabore un diagrama de dispersión para representar la
información.
Con base en la información de la tabla 13.1, la señora Bancer sospecha que hay
una relación entre el número de llamadas de venta hechas en un mes y el número
de copiadoras vendidas. Soni Jones vendió más copiadoras el mes anterior, y fue
una de las tres representantes que hicieron 30 llamadas o más. Por otro lado, Susan
12/26/07 11:57:22 PM
460
Capítulo 13
Welch y Carlos Ramirez sólo hicieron 10 llamadas de ventas durante el mes anterior.
La señora Welch, junto con otros dos, tuvo el número menor de copiadoras vendidas
entre los representantes muestreados.
La implicación es que el número de copiadoras vendidas se relaciona con el
número de llamadas de ventas. Conforme aumenta el número de llamadas de venta,
parece que el número de copiadoras vendidas también aumenta. De este modo, el
número de llamadas de ventas se considera variable independiente, y el de copiadoras vendidas, variable dependiente.
VARIABLE DEPENDIENTE Variable que se predice o estima. Se muestra en el eje Y.
VARIABLE INDEPENDIENTE Variable que proporciona la base para la estimación.
Es la variable de pronóstico. Se muestra en el eje X.
Copiadoras vendidas
Es práctica común escalar la variable dependiente (copiadoras vendidas) en el eje
vertical o Y y la variable independiente (número de llamadas de ventas) en el eje
horizontal o X. Para elaborar un diagrama de dispersión de la información de Copier
Sales of America, inicie con el primer representante de ventas, Tom Keller, quien hizo
20 llamadas de ventas el mes anterior y vendió 30 copiadoras, por tanto, X = 20 y Y
= 30. Para trazar esta información, a partir del origen vaya por el eje horizontal hasta el valor X = 20, después haga lo mismo en el eje vertical hasta Y = 30 y marque
un punto en la intersección. Continúe este proceso hasta que trace todos los datos
pareados, como se muestra en la gráfica 13.1.
80
70
60
50
40
30
20
10
0
0
10
20
30
40
50
Llamadas
de ventas
GRÁFICA 13.1 Diagrama de dispersión que representa las llamadas de ventas
y las copiadoras vendidas
El diagrama de dispersión muestra en forma gráfica que los representantes con más
llamadas tienden a vender más copiadoras. Es razonable que la señora Bancer, gerente
nacional de ventas en Copier Sales of America, diga a sus vendedores que, entre más
llamadas de ventas hagan, se espera que vendan más copiadoras. Observe que, aunque parece haber una relación positiva entre las dos variables, no todos los puntos se
encuentran en una recta. En la siguiente sección se miden la fuerza y la dirección de esta
relación entre dos variables, para determinar el coeficiente de correlación.
Coeficiente de correlación
Se requiere información sobre el
nivel del intervalo o de la razón
Características de r
13_cap_Economia_Lind.indd 460
El coeficiente de correlación, creado por Karl Pearson alrededor de 1900, describe la
fuerza de la relación entre dos conjuntos de variables en escala de intervalo o de razón.
Se designa con la letra r, y con frecuencia se le conoce como r de Pearson y coeficiente de correlación producto-momento. Puede adoptar cualquier valor de –1.00 a +1.00,
inclusive. Un coeficiente de correlación de –1.00 o bien de +1.00 indica una correlación
perfecta. Por ejemplo, un coeficiente de correlación para el caso anterior calculado a
+1.00 indicaría que el número de llamadas de ventas y el número de copiadoras vendidas están perfectamente relacionados en un sentido lineal positivo. Un valor calculado
de –1.00 revela que las llamadas de ventas y el número de copiadoras vendidas están
12/26/07 11:57:22 PM
Regresión lineal y correlación
461
perfectamente relacionados en un sentido lineal inverso. En la gráfica 13.2 se muestra
cómo aparecería el diagrama de dispersión si la relación entre los dos conjuntos de
datos fuera lineal y perfecta.
Y
Correlación negativa perfecta
Y
Recta con pendiente
negativa
Correlación positiva perfecta
r = +1.00
Recta con
pendiente positiva
r = –1.00
X
X
GRÁFICA 13.2 Diagramas de dispersión con correlación negativa perfecta y correlación
positiva perfecta
Si no hay ninguna relación entre los dos conjuntos de variables, la r de Pearson es
cero. Un coeficiente de correlación r cercano a 0 (sea 0.08) indica que la relación lineal
es muy débil. Se llega a la misma conclusión si r = –0.08. Los coeficientes de –0.91 y
+ 0.91 tienen una fuerza igual; los dos indican una correlación muy fuerte entre las dos
variables. Por tanto, la fuerza de la correlación no depende de la dirección (ya sea – o
bien +).
En la gráfica 13.3 se muestran los diagramas de dispersión para r = 0, una r débil
(sea –0.23), y una r fuerte (sea +0.87). Observe que, si la correlación es débil, se presenta una dispersión considerable respecto de la recta trazada a través del centro de
los datos. Para el diagrama de dispersión que representa una fuerte relación, hay muy
poca dispersión respecto de la recta. Esto indica, en el ejemplo que se muestra en la
gráfica, que las horas estudiadas constituyen un factor de pronóstico de la calificación
en el examen.
Ejemplos de grados de
correlación
GRÁFICA 13.3 Diagramas de dispersión que representan una correlación cero, débil y fuerte
13_cap_Economia_Lind.indd 461
12/26/07 11:57:25 PM
462
Capítulo 13
En la siguiente gráfica se resume la fuerza y la dirección del coeficiente de correlación.
Correlación
negativa
perfecta
Correlación
negativa
fuerte
–1.00
Correlación
positiva
perfecta
No hay
correlación
Correlación
negativa
moderada
Correlación
positiva
débil
Correlación
negativa
débil
–0.50
Correlación negativa
0
Correlación
positiva
moderada
Correlación
positiva
fuerte
0.50
Correlación positiva
1.00
COEFICIENTE DE CORRELACIÓN Medida de la fuerza de la relación lineal entre dos
variables.
Las características del coeficiente de correlación se resumen a continuación.
CARACTERÍSTICAS DEL COEFICIENTE DE CORRELACIÓN
1.El coeficiente de correlación de la muestra se identifica por la letra
minúscula r.
2.Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables
en escala de intervalo o en escala de razón.
3. Varía de –1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociación entre las variables.
5.Un valor cercano a 1 indica una asociación directa o positiva entre las
variables.
6.Un valor cercano a –1 indica una asociación inversa o negativa entre las
variables.
¿Cómo se determina el coeficiente de correlación? Como ejemplo, emplee los datos
de Copier Sales of America, que se reportan en la tabla 13.2. Inicie con un diagrama
TablA 13.2 Llamadas de ventas y copiadoras vendidas de 10 vendedores
Llamadas de Representantes
ventas
de ventas
(X )
Tom Keller
20
Jeff Hall
40
Brian Virost
20
Greg Fish
30
Susan Welch
10
Carlos Ramirez
10
Rich Niles
20
Mike Kiel
20
Mark Reynolds
20
Soni Jones
30
Total
13_cap_Economia_Lind.indd 462
220
Copiadoras
vendidas,
(Y )
30
60
40
60
30
40
40
50
30
70
450
12/26/07 11:57:25 PM
Regresión lineal y correlación
463
de dispersión, similar a la gráfica 13.2. Se traza una recta vertical con los valores de
datos en la media de los valores X y una recta horizontal en la media de los valores Y.
En la gráfica 13.4 se agregó una recta en 22.0 llamadas (X = ∑ X / n = 220 /10 = 22) y
una recta horizontal en 45.0 copiadoras (Y = ∑Y / n = 450 /10 = 45.0) . Estas rectas pasan
por el “centro” de los datos y dividen el diagrama de dispersión en cuatro cuadrantes.
Considere mover el origen de (0, 0) a (22, 45).
Copiadoras vendidas (Y )
X = 22
80
70
60
50
40
30
20
10
0
IV
I
Y = 45
III
0
II
10 20 30 40
Llamadas de ventas (X )
50
GRÁFICA 13.4 Cálculo del coeficiente de correlación
Dos variables tienen una relación positiva cuando el número de copiadoras vendidas está por arriba de la media y el número de llamadas de ventas también se encuentra
arriba de la media. Estos puntos aparecen en el cuadrante superior derecho (cuadrante
I) de la gráfica 13.4. De manera similar, cuando el número de copiadoras vendidas
es menor que la media, también lo es el número de llamadas de ventas. Estos puntos
se encuentran en el cuadrante inferior izquierdo de la gráfica 13.2 (cuadrante III). Por
ejemplo, la última persona en la lista de la tabla 13.2, Soni Jones, hizo 30 llamadas de
ventas y vendió 70 copiadoras. Estos valores se encuentran arriba de sus medias respectivas, por tanto, este punto se ubica en el cuadrante I, que es el cuadrante superior
derecho. Soni hizo 8(X − X = 30 − 22) más llamadas de ventas que la media y vendió
25(Y − Y = 70 − 45) más copiadoras que la media. Tom Keller, el primer nombre en la lista
de la tabla 13.2, hizo 20 llamadas y vendió 30 copiadoras. Ambos valores son menores
que sus respectivas medias, por lo que este punto se ubica en el cuadrante inferior
derecho. Tom hizo 2 llamadas menos y vendió 15 copiadoras menos que las medias respectivas. Las desviaciones del número medio de llamadas de ventas y para el número
medio de copiadoras vendidas se resumen en la tabla 13.3 para los 10 representantes
de ventas. La suma de los productos de las desviaciones de las medias respectivas es
900. Es decir, el término ∑(X − X )(Y − Y ) = 900 .
En los cuadrantes superior derecho e inferior izquierdo, el producto de (X − X )(Y − Y )
es positivo debido a que los dos factores tienen el mismo signo. En el ejemplo, esto
TablA 13.3 Desviaciones de la media y sus productos
Representante de ventas
Tom Keller
Jeff Hall
Brian Virost
Greg Fish
Susan Welch
Carlos Ramirez
Rich Niles
Mike Kiel
Mark Reynolds
Soni Jones
Llamadas, X
20
40
20
30
10
10
20
20
20
30
Ventas, Y
30
60
40
60
30
40
40
50
30
70
X – X
–2
18
–2
8
–12
–12
–2
–2
–2
8
Y–Y
–15
15
–5
15
–15
–5
–5
5
–15
25
13_cap_Economia_Lind.indd 463
_
_
(X – X )(Y – Y )
30
270
10
120
180
60
10
–10
30
200
900
12/26/07 11:57:29 PM
464
Capítulo 13
sucede con todos los representantes, excepto Mike Kiel. Por tanto, se espera que el
coeficiente de correlación tenga un valor positivo.
Si las dos variables tienen una relación inversa, una variable estará arriba de la
media y la otra debajo de la media. La mayoría de los puntos en este caso suceden en
los cuadrantes superior izquierdo e inferior derecho, es decir, en los cuadrantes II y IV.
Ahora (X − X ) y (Y − Y ) tendrán signos opuestos, y su producto será negativo. El coeficiente de correlación resultante es negativo.
¿Qué sucede si no hay una relación lineal entre las dos variables? Los puntos en el
diagrama de dispersión aparecerán en los cuatro cuadrantes. Los productos negativos
de (X − X )(Y − Y ) equilibran los productos positivos, por lo cual la suma casi es cero.
Esto conduce al coeficiente de correlación cercano a cero.
Es necesario también que el coeficiente de correlación no se afecte por las unidades de las dos variables. Por ejemplo, si se hubieran empleado cientos de copiadoras
vendidas en lugar del número vendido, el coeficiente de correlación sería el mismo.
El coeficiente de correlación es independiente de la escala empleada si se divide el
término ∑(X − X )(Y − Y ) entre las desviaciones estándar muestrales. También se hace
independiente del tamaño muestral y está acotado por los valores +1.00 y –1.00 si se
divide entre (n – 1).
Este razonamiento conduce a la siguiente fórmula:
r=
COEFICIENte de CORRELAcióN
∑(X − X )(Y − Y )
(n − 1)s x sy
[13.1]
Para calcular el coeficiente de correlación, se utilizan las desviaciones estándar
de la muestra de 10 llamadas de ventas y 10 copiadoras vendidas. Se puede emplear
la fórmula (3.12) para calcular las desviaciones estándar muestrales o un paquete de
software estadístico. Para los comandos específicos en Excel y MINITAB vea la sección
“Comandos de software” al final del capítulo 3. La siguiente es la salida en pantalla de
Excel. La desviación estándar del número de llamadas de ventas es 9.189, y del número
de copiadoras vendidas, 14.337.
Ahora se sustituyen estos valores en la fórmula (13.1) para determinar el coeficiente de
correlación:
∑(X − X )(Y − Y )
900
=
= 0.759
r=
(n − 1)s x sy
(10 − 1)(9.189)(14.337)
¿Cómo se interpreta una correlación de 0.759? Primero, es positiva, por lo que se
observa una relación directa entre el número de llamadas de ventas y el número de
13_cap_Economia_Lind.indd 464
12/26/07 11:57:33 PM
Regresión lineal y correlación
465
copiadoras vendidas. Esto confirma el razonamiento basado en el diagrama de dispersión, gráfica 13.4. El valor de 0.759 está muy cercano a 1.00, y por ende se concluye
que la asociación es fuerte.
Debe tener mucho cuidado con la interpretación. La correlación de 0.759 indica una
asociación positiva fuerte entre las variables. La señora Bancer acierta al motivar al personal
de ventas para hacer llamadas adicionales, debido a que el número de llamadas de ventas
hechas se relaciona con el número de copiadoras vendidas. Sin embargo, ¿más llamadas
de ventas ocasionan más ventas? No, aquí no se ha demostrado la causa y el efecto, sólo
que hay una relación entre las dos variables, llamadas de ventas y copiadoras vendidas.
El coeficiente de determinación
En ejemplo anterior, la relación entre el número de llamadas de ventas y las unidades
vendidas, el coeficiente de correlación, 0.759, se interpretó como “fuerte”. Sin embargo,
los términos débil, moderado y fuerte no tienen un significado exacto. Una medida cuyo
significado se interpreta con más facilidad es el coeficiente de determinación. Éste se
calcula elevando al cuadrado el coeficiente de correlación. Entonces, en dicho ejemplo, el
coeficiente de correlación, r 2, es 0.576, determinado por (0.759)2. Ésta es una proporción
o un porcentaje; es posible decir que 57.6% de la variación en el número de copiadoras
vendidas se explica, o contabiliza, por la variación en el número de llamadas de ventas.
COEFICIENTE DE DETERMINACIÓN Proporción de la variación total en la variable
dependiente Y que se explica, o contabiliza, por la variación en la variable
dependiente X.
Más adelante, en este capítulo, se hace un análisis más detallado del coeficiente de
determinación.
Correlación y causa
Si hay una relación fuerte (sea 0.91) entre dos variables, es factible suponer que un
aumento o una disminución en una variable causa un cambio en la otra variable. Por
ejemplo, se puede demostrar que el consumo de cacahuates de Georgia y el consumo
de aspirina tienen una correlación fuerte. Sin embargo, esto no indica que un aumento
en el consumo de cacahuates causó que creciera el consumo de aspirina. De igual
forma, los ingresos de profesores y el número de pacientes en instituciones psiquiátricas han aumentado en forma proporcional. Además, conforme disminuye la población
de burros, aumenta el número de grados doctorales otorgados. Las relaciones de este
tipo se denominan correlaciones espurias. Lo que se puede concluir cuando se tienen
dos variables con fuerte correlación es que hay una relación o asociación entre ambas
variables, no que un cambio en una ocasiona un cambio en la otra.
Autoevaluación 13.1
Haverty’s Furniture es un negocio familiar que vende a clientes minoristas en el área de Chicago
desde hace muchos años. La compañía se anuncia ampliamente en radio, televisión e Internet,
destacando sus precios bajos y términos fáciles de crédito. El propietario desea analizar la relación entre las ventas y la cantidad monetaria gastada en publicidad. A continuación se presenta la
información de las ventas y de los gastos publicitarios durante los últimos cuatro meses.
Mes
Julio
Agosto
Septiembre
Octubre
Gastos publicitarios
(en millones de dólares)
2
1
3
4
Ingresos por ventas
(en millones de dólares)
7
3
8
10
a)El propietario desea pronosticar las ventas con base en los gastos publicitarios. ¿Cuál es la
variable dependiente? ¿Cuál es la variable independiente?
13_cap_Economia_Lind.indd 465
12/26/07 11:57:33 PM
Descargar