El análisis de regresión

Anuncio
El análisis de regresión
Joaquín Aldás Manzano1
Universitat de València
Dpto. de Dirección de Empresas “Juan José Renau Piqueras”
1
Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de seleccionar, ordenar y, en algunos casos traducir los textos originales.
2
Análisis de regresión
Joaquín Aldás Manzano
El análisis de regresión
1. ¿Qué es el análisis de regresión?
(Hair, Anderson, Tatham y Black, 1995)
El análisis de regresión es, con mucho la técnica multivariable más utilizada y
versátil, aplicable en muchísimos campos de la toma de decisiones en
marketing. El análisis de regresión es una técnica estadística utilizada para
analizar la relación entre una sola variable dependiente y varias
independientes, siendo su formulación básica la siguiente:
Y1 = X1 + X2 + ... + Xn
(métrica)
(métricas)
El objetivo de esta técnia es usar las variables independientes, cuyos valores se
conocen, para predecir el de la variabla dependiente. Cada variable independiente está ponderada por unos coeficientes que indican la contribución
relativa de cada una de las variables para explicar la dependiente.
2 Un ejemplo de aplicación del análisis de regresión
Tal como hemos venido haciendo en temas anteriores, seguiremos los seis pasos
imprescindibles para especificar correctamente un modelo multivariable,
ilustrando cada uno de ellos con el mismo ejemplo que hemos venido
utilizando: el de la empresa HATCO.
Paso 1. Establecimiento de los objetivos
(Hair, Anderson, Tatham y Black, 1995)
Como hemos señalado con anterioridad, el análisis de regresión es una técnica
tremendamente flexible y adaptable para analizar cualquier relación de dependencia. Para aplicarla correctamente, el investigador debe considerar tres factores:
1. Su adecuación al problema que se pretende resolver
2. El establecimiento de una relación estadística
3. La selección de las variables dependientes e independientes
3
Análisis de regresión
Joaquín Aldás Manzano
Veámoslos detenidamente. Respecto a la adecuación al problema que se
pretende resolver, la regresión lineal puede aplicarse básicamente a dos tipos de
estudios: los de carácter predictivo y los de carácter explicativo. Ambos campos
no son necesariamente excluyentes y un análisis de regresión lineal puede ser
aplicados a problemas que pretendan los dos tipos de objetivos.
En cuanto al establecimiento de una relación, el análisis de regresión sirve para
relaciones estadísticas y no funcionales. Por ejemplo, en una empresa siempre
se cumple que:
Costes totales = Coste variables + Costes fijos
Si mi empresa tiene unos costes unitarios de 2 u.m. y produce 100 unidades,
con unos costes fijos de 500 u.m., los costes totales necesariamente son de 700
u.m. y cualquier desviación de esta cantidad impicará que no hemos sido
capaces de medir adecuadamente los costes unitarios o los fijos, porque la
relación entre ambos es la señalada y se cumple siempre. Esta es una relación
funcional.
Sin embargo, si pretendemos relacionar el número de tarjetas de crédito que
tiene una familia, con el tamaño de la misma y los ingresos, la relación que
establezcamos a través de la regresión lineal será aproximada, no una predicción exacta. Esto se debe a que es una relación estadística, dado que siempre
habrá un componente aleatorio en la relacion que no podremos controlar. La
variable dependiente es una variable aleatoria, del que sólo podremos estimar
un valor promedio.
El tercer aspecto importante que hemos señalado, es la selección de las variables dependientes e independientes. Dado que la regresión es una técnica de
dependiencia, hay que especificar qué variables son de un tipo y cuáles son de
otro, y esta es una decisión que debe adoptar el investigador fundamentándose
en un análisis conceptual del problema que está abordando.
Es importante destacar que no es baladí la selección de las variables independientes. Puede pensarse que, dado que el modelo nos dirá cuál es la importancia relativa de todas ellas, mediante sus coeficientes, si estas no son
importantes, tendrán coeficientes cercanos a cero y no afectarán al modelo.
Esto no es así, la inclusión de variables independientes irrelevantes, puede
provocar que se enmascare el efecto de las variables relevantes. Pero también es
muy crítico excluir variables independientes que sean relevantes, dado que no
sólo se reducirá la capacidad predictiva del modelo, sino que si estas variables
4
Análisis de regresión
Joaquín Aldás Manzano
excluidas guardan correlación con las que se mantienen, se estará introduciendo un fuerte sesgo en los resultados. Por lo tanto, y en conclusión, el investigador debe ser muy cuidadoso en el proceso de selección de las variables y, en
todo caso, siempre es peor excluir variables relevantes que incluir variables
irrelevantes.
Volviendo a nuestro ejemplo de HATCO, el director de esta empresa está muy
interesado en ser capaz de determinar si el grado de relación de los clientes con
su empresa (medido mediante X9 que, recordemos, era el porcentaje que
suponían para cada cliente las compras a HATCO sobre el total de las
compras que realizan) tiene o no que ver con la percepción que estos tienen de
HATCO, medida esta percepción mediante las variables:
X1
X2
X3
X4
X5
X6
X7
Rapidez de servicio
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Calidad del servicio
Imagen de los vendedores
Calidad del producto
considerando el director que parece lógico en base a su experiencia suponer que
el grado de relación de los clientes puede estar influenciado por esas variables
(establece así cuáles son las dependientes y la independiente) y encontrádonos
ante una relación estadística, dado que se incluyen percepciones de los clientes
que, evidentemente, están sujetas a error.
Paso 2. Desarrollo del plan de análisis
En el diseño de un plan de análisis basado en la regresión lineal, el investigador
debe tener en cuenta un tema fundamental: el tamaño de la muestra.
El tamaño de la muestra es, en la regresión lineal, el factor más importante
para la fiabilidad de los resultados que puede controlar el investigador. Con
muestras pequeñas (menos de 20 observaciones) el análisis de regresión sólo
será adecuado cuando exista una única variable independiente y, aún así, solo
las relaciones muy fuertes podrán detectarse con cierta certeza. Por el
contrario, con tamaños muestrales superiores a los 1000, los test de significatividad se vuelven muy sensibles haciendo que casi todas las relaciones sean
estadísticamente significativa. El poder de una regresión lineal hace referencia
5
Análisis de regresión
Joaquín Aldás Manzano
a la probabilidad de que un R2 sea significativo, dado un nivel de signficatividad, un tamaño muestral y un número de variables independientes predeterminados. El cuadro 1 resume estas relaciones y debe tenerse en cuenta.
Cuadro 1. Valor mínimo del R2 que puede ser considerado estadísticamente
significativo con una probabilidad del 80% para diversos tamaños muestrales,
número de variables independientes y diversos niveles de significación
Tamaño
Muestral
20
50
100
250
500
1.000
Nivel de significación = 0.01
Nivel de significación = 0.05
Número de variables independientes
Número de variables independientes
2
45
23
13
5
3
1
5
10
20
2
56
71
-39
29
36
49
19
16
20
26
10
7
8
11
4
3
4
6
3
2
2
3
1
Fuente: Cohen y Cohen (1983)
5
48
23
12
5
4
1
10
64
29
15
6
5
2
20
-42
21
8
9
2
Tabla que debe ser leída de la siguiente forma. Tomando el primer valor por la
izquierda (45), querrá decir que una regresión con 20 observaciones y dos variables independientes, requiere de un R2 de por lo menos 0.45 para que la
relación pueda considerarse estadísticamente significativa con una probabilidad
del 80% si el nivel de significación se ha establecido en 0.01. En esta tabla se
aprecia la fuerte influencia que ejerce el tamaño muestral sobre el poder de la
regresión. Si, en el mismo ejemplo anterior, se pasa de una muestra de 20
individuos a 100, bastará que el R2 sea superior a 0.05 para que la relación
devenga significativa.
El tamaño de la muestra también afecta a la generalizabilidad de los resultados
que se obtengan a través del ratio entre observaciones y variables independientes. Una regla general es que este ratio nunca debe caer por debajo de cinco, es
decir que para que los resultados sean generalizables nunca deben existir menos
de cinco observaciones por cada variable independiente. Aunque este es el valor
mínimo, el valor deseable oscila entre 15-20 observaciones por variable consiguiendo que si la muestra es representativa, los resultados sean generalizables.
En el caso de que se utilice un procedimiento de regresión “paso a paso” (que
veremos con posterioridad), el nivel recomendado pasa a ser de 50 a 1.
En la encuesta de la empresa HATCO, se obtuvieron 100 respuestas válidas de
sus clientes. Este tamaño muestral, de acuerdo con el cuadro 1, hace que pueda
6
Análisis de regresión
Joaquín Aldás Manzano
considerarse que existen relaciones significativas cuando se alcancen R2
superiores a 0.2 a un nivel de significación de 0.01 y superiores a 0.15 si el nivel
de significación se relaja a 0.05.
Asimismo, dado que se dispone de 7 variables independientes este tamaño
muestral se mueve en el entorno del ratio 15 a 1 recomendado.
Paso 3. Condiciones de aplicabilidad del análisis de
regresión
Las condiciones de aplicabilidad del análisis de regresión, deben considerarse en
dos etapas. Antes de estimar el modelo, sólo pueden comprobarse en las variables independientes y la dependiente de manera individual. Después de estimar
el modelo, podrá evaluarse si se cumplen las condiciones de manera conjunta y,
por ello, los resultados son fiables.
Recordemos que las tres condiciones que debían cumplir las variables dependientes e independientes eran las de linealidad, homogeneidad de varianzas y
normalidad. En el tema 1 de este curso, ya indicamos como comprobar estas
condiciones respecto a todas las variables dependientes e independientes que
van a ser utilizadas. Dejamos como ejercicio, el verificar que:
1. Los gráficos de dispersión no parecer indicar la existencia de relaciones no lineales entre la variable dependiente y las independientes.
2. Solamente la variable X2 viola la hipótesis de homoscedasticidad.
3. X2, X4 y X6 violan las hipótesis de normalidad.
Puede demostrarse que el análisis de regresión no se ve muy afectado por la
heteroscedasticidad. La ausencia de normalidad puede corregirse, como se
indicó, transformando las variables originales mediante logaritmos neperianos.
El investigador debería estimar el modelo considerando las variables transformadas y sin transformar, para después, cuando se compruebe si, de manera
global, se violan las hipótesis señaladas, mantener las variables de la manera
que menos distorsion provoquen respecto al cumplimiento de estas hipótesis.
Paso 4. Estimación del modelo y establecimiento del
ajuste del mismo.
Habiendo sido especificados los objetivos del análisis, seleccionado las variables
dependientes e independientes y comprobadas las condiciones de aplicabilidad
7
Análisis de regresión
Joaquín Aldás Manzano
del modelo, el investigador está preparado para estimar el modelo y establecer
la bondad del mismo (su ajuste). Esta tarea se desdobla en tres decisiones:
1. Seleccionar un método para estimar el modelo.
2. Establecer la significatividad global del modelo estimado y de los
coeficientes de cada una de las variables independientes.
3. Determinar si hay observaciones que ejercen una influencia no deseable sobre los resultados.
En esta primera decisión, el investigador debe optar entre dos alternativas:
decidir aquellas variables independientes que, según su conocimiento del tema
pueden ejercer algún tipo de influencia sobre la dependiente, e incluirlas, o bien
recurrir a procedimientos secuenciales, en los cuales es el propio programa
quien va introduciendo y eliminando del análisis aquellas variables que aseguren la mejor especificación del modelo. En el primer tipo de aproximación, el
investigador debe estar muy seguro de que no está dejando fuera variables
relevantes, ni introduciendo variables irrelevantes. En el segundo enfoque, el
proceso iterativo asegura que se acaban considerando las variables que mejor
pueden explicar el comportamiento de la dependiente, por este motivo desarrollaremos en este tema este último enfoque.
Los métodos secuenciales estiman la ecuación de regresión añadiendo o eliminando (según los dos enfoques que veremos) aquellas variables que cumplen
determinados criterios. Esta aproximación ofrece un procedimiento objetivo
para seleccionar las variables, que maximiza la capacidad predictiva del modelo
con el menor número posible de variables independientes. Aunque este enfoque
parece ideal, hay que tener en cuenta que es muy sensible al efecto de la multicolinealidad y, por ello, su determinación y corrección es crítica en estos
modelos.
Los métodos secuenciales pueden ser de dos tipos:
Eliminación hacia atrás. Es básicamente un procedimiento de prueba y error.
Comienza estimando una recta de regresión con todas las variables independientes posibles y luego va eliminando aquellas que no contribuyen significativamente. Los pasos son los siguientes:
1. Cálculo de una recta de regresión con todas las variables independientes posibles.
8
Análisis de regresión
Joaquín Aldás Manzano
2. Cálculo de un estadístico F parcial para cada variable que computa
la varianza que explicaría el modelo si se eliminasen todas las variables menos esa.
3. Se eliminan las variables con F parciales que indican que no realizan
una contribución estadísticamente significativa.
4. Después de eliminar esas variables se vuelve a estimar la recta de
regresión con las que quedan.
5. Se vuelve al paso 2 hasta que sólo quedan las variables significativas.
Estimación paso a paso. Es el procedimiento secuencial más utilizado dado que
permite analizar la contribución de cada variable independiente por separado
al modelo de regresión. Se diferencia del anterior en que no incluye todas las
variables y luego las va eliminando, sino que las evalúa una a una antes de
incorporarlas al modelo y, además, puede eliminar una variable después de
haberla introducido en una etapa anterior. Los pasos que sigue son los siguientes:
1. Comienza con el modelo de regresión más simple, que es el formado
por la constante y aquella variable que está más correlacionada con la
variable dependiente.
2. Examina los coeficientes de correlación parcial para encontrar la
variable independiente la mayor proporción del error que se comete
con la recta de regresión anterior.
3. Vuelve a calcular la ecuación de regresión utilizando ahora las dos
variables independientes seleccionadas y analiza el valor de la F
parcial de la primera variable para ver si todavía lleva a cabo una
contribución significativa dado que hemos incluido una variable
adicional. Si no lo hace la elimina y en caso contrario la mantiene.
4. El proceso continúa examinando todas las variables independientes
para ver cual debe ser introducida en la ecuación. Cuando se incluye
una nueva se examinan las ya introducidas para determinar cuál
debe permanecer y así hasta que ninguna variable cumple el criterio
de entrada.
Estimemos el modelo, mediante este procedimiento, para nuestro ejemplo de la
empresa HATCO. El cuadro 2 muestra las correlaciones entre las siete variables independientes y la variable dependiente X9 (nivel de uso), mostrando que
la variable X5 (calidad del servicio), es la más correlacionada con ella (0.701).
Como hemos indicado, el primer paso en el procedimiento de estimación que
estamos empleando, pasará por estimar un modelo formado por la variable X5
y una constante. La salida correspondiente a este primer paso (y a los dos
9
Análisis de regresión
Joaquín Aldás Manzano
siguientes que realiza el programa), se recoge en el cuadro 4 y debemos familiarizarnos con los términos que en él figuran.
Coeficiente R
Se le conoce también como R múltiple y es el coeficiente de correlación (en el
primer paso 0.701, según el cuadro 3) entre la variable dependiente y las que se
incorporan al modelo (como sólo se incorpora X5, coincide con la correlación
que vimos antes).
2
Coeficiente R
Es el coeficiente de correlación anterior al cuadrado, conocido también como
coeficiente de determinación. Este valor indica el porcentaje de la variación de
la variable dependiente que explican las independientes (en este caso sólo X5).
La suma total de los cuadrados (3927.309 + 4071.691 = 7999.000), es el error
cuadrático que se produciría si utilizáramos sólo la media de la variable dependiente X9 para predecir su valor real. Vemos que utilizar a X5 para esta
predicción, en lugar de a la media de X9, reduce el error en un 49.1%
(3927.309/7999.000).
Variables incluidas en el paso 1
Como hemos señalado, en el primer paso sólo se introduce la variable X5. En
general, para cada variable que se incluya, el programa calcula una serie de
indicadores que debemos comprender: el coeficiente de la variable, su error
típico y el valor asociado al mismo. Veámoslos.
Ÿ
Coeficiente de la variable. Aparece como B en el cuadro 3. Para la variable
X5, toma el valor 8.384. Es el valor que necesitamos para predecir la variable dependiente. En este caso, dado que la constante toma el valor 21.653,
nuestra recta de regresión sería X9 = Y = 21.653 + 8.384·X5. El
programa nos muestra también el valor estandarizado del coeficiente
(Beta), que en este caso es 0.701. Dado que el coeficiente viene afectado por
las unidades en que estén medidas las variables, si el valor está estandarizado nos permitirá comparar más fácilmente los coeficientes de unas variables con los de otras para determinar cuál tiene una influencia mayor en
explicar la variable dependiente.
10
Análisis de regresión
Joaquín Aldás Manzano
Cuadro 2. Matriz de correlaciones
Correlaciones
Rapidez
de
servicio
Nivel de
uso
Correlación
de Pearson
Nivel de
uso
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Covarianza
Calidad del
producto
Nivel de
uso
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Sig.
(unilateral)
Servicio
Imagen de
los
vendedores
Calidad del
producto
Nivel de
uso
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
nivel de
precios
Imagen
del
fabricante
flexibilidad
de precios
Imagen de
los
vendedores
Servicio
Calidad
del
producto
1,000
,676
,082
,559
,224
,701
,255
-,192
,676
1,000
-,349
,509
,050
,612
,077
-,483
,082
-,349
1,000
-,487
,272
,513
,185
,470
,559
,509
-,487
1,000
-,116
,067
-,035
-,448
,224
,050
,272
-,116
1,000
,299
,788
,200
,701
,612
,513
,067
,299
1,000
,240
-,055
,255
,077
,185
-,035
,788
,240
1,000
,177
-,192
-,483
,470
-,448
,200
-,055
,177
1,000
80,798
8,031
,880
6,967
2,280
4,732
1,767
-2,743
8,031
1,744
-,551
,933
7,533E-02
,607
7,881E-02
-1,010
,880
-,551
1,430
-,808
,368
,461
,171
,890
6,967
,933
-,808
1,922
-,182
6,939E-02
-3,718E-02
-,985
2,280
7,533E-02
,368
-,182
1,280
,254
,687
,359
4,732
,607
,461
6,939E-02
,254
,564
,139
-6,57E-02
1,767
7,881E-02
,171
-3,718E-02
,687
,139
,594
,216
-2,743
-1,010
,890
-,985
,359
-6,57E-02
,216
2,513
,
,000
,209
,000
,012
,000
,005
,028
,000
,
,000
,000
,309
,000
,222
,000
,209
,000
,
,000
,003
,000
,032
,000
,000
,000
,000
,
,125
,255
,366
,000
,012
,309
,003
,125
,
,001
,000
,023
,000
,000
,000
,255
,001
,
,008
,293
,005
,222
,032
,366
,000
,008
,
,039
,028
,000
,000
,000
,023
,293
,039
,
11
Análisis de regresión
Joaquín Aldás Manzano
Cuadro 3. Salida del procedimiento “paso a paso”
Resumen del modelod
Cambiar los estadísticos
Modelo
1
2
3
R
R
cuadrado
,701 a
,491
,869 b
,755
,876 c
,768
R
cuadrado
corregida
,486
,750
,761
Error típ.
de la
estimación
6,446
4,498
4,395
Cambio
en R
cuadrado
,491
,264
,014
Cambio
en F
94,525
104,252
5,607
gl1
gl2
1
1
1
98
97
96
Sig. del
cambio
en F
,000
,000
,020
Criterio de selección
Criterio de Criterio de
predicción predicción
de
de
Amemiya
Mallows
,530
111,980
,261
6,243
,251
2,711
Criterio de
información
de Akaike
374,664
303,680
300,003
a. Variables predictoras: (Constante), Servicio
b. Variables predictoras: (Constante), Servicio, flexibilidad de precios
c. Variables predictoras: (Constante), Servicio, flexibilidad de precios, Imagen de los vendedores
d. Variable dependiente: Nivel de uso
ANOVAd
Modelo
1
2
Regresión
gl
1
Media
cuadrática
3927,309
F
94,525
Sig.
,000a
Residual
Total
4071,691
7999,000
98
99
41,548
Regresión
6036,513
1962,487
2
97
3018,256
20,232
149,184
,000
7999,000
6144,812
99
3
2048,271
106,049
,000c
1854,188
96
19,314
7999,000
99
Residual
Total
3
Suma de
cuadrados
3927,309
Regresión
Residual
Total
a. Variables predictoras: (Constante), Servicio
b. Variables predictoras: (Constante), Servicio, flexibilidad de precios
c. Variables predictoras: (Constante), Servicio, flexibilidad de precios, Imagen de los
vendedores
d. Variable dependiente: Nivel de uso
b
Criterio
bayesiano
de
Schwarz
379,875
311,495
310,424
Durbin-Watson
1,910
12
Análisis de regresión
Joaquín Aldás Manzano
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
2
3
(Constante)
Servicio
(Constante)
Servicio
flexibilidad
de precios
(Constante)
Servicio
flexibilidad
de precios
Imagen de
los
vendedores
B
21,653
8,384
-3,489
7,974
Error típ.
2,596
,862
3,057
,603
3,336
Coeficientes
estandarizados
,701
,072
,666
,050
t
8,341
9,722
-1,141
13,221
,327
,515
,050
10,210
,000
2,688
-6,514
7,623
3,248
,608
,637
,051
-2,005
12,548
,048
,000
3,376
,320
,521
,049
10,560
1,400
,591
,120
,051
2,368
a. Variable dependiente: Nivel de uso
Beta
Error típ.
Sig.
,000
,000
,257
,000
Intervalo de confianza
para B al 95%
Límite
Límite
inferior
superior
16,502
26,804
6,673
10,095
-9,556
2,578
6,777
9,171
Estadísticos de
colinealidad
Correlaciones
Orden
cero
Parcial
Semiparcial Tolerancia
FIV
,701
,701
,701
1,000
1,000
,701
,802
,665
,996
1,004
3,985
,559
,720
,514
,996
1,004
-12,962
6,417
-,065
8,829
,701
,788
,617
,937
1,068
,000
2,742
4,011
,559
,733
,519
,993
1,007
,020
,226
2,574
,255
,235
,116
,940
1,064
13
Ÿ
Análisis de regresión
Joaquín Aldás Manzano
Valor t de las variables que están en la ecuación. El valor t de las variables que
están en la ecuación, permite contrastar la hipótesis nula de que el coeficiente
de esa variable es cero con lo que no tendría ninguna capacidad esa variable de
explicar la dependiente. Pero intentar contrastar o rechazar esa hipótesis nula
mediante el valor t obligaría a que conociésemos todos sus valores críticos a
distintos niveles de significación y grados de libertad (en concreto a un nivel de
0.01 y para 98 grados de libertad, el nivel crítico es de 1.658 y como el valor de
t para el coeficiente de X5 es 9.722, podríamos rechazar la hipótesis nula de
que el coeficiente es cero y afirmar que la variable X5 tiene capacidad explicativa de la variable dependiente). Para evitar tener que conocer esos valores
críticos, el programa (cuadro 3) ofrece su nivel de significación (p=Sig.=0.000)
que es mucho más fácil de analizar. Si es inferior a 0.01 (0.05 según el criterio
del investigador), puede rechazarse la hipótesis nula y concluir la significatividad del parámetro.
Variables no incluidas en la ecuación en el paso 1
Aunque X5 ha sido incluida en la regresión, disponemos de otras 6 variables que
potencialmente podrían incluirse y mejorar la capacidad predictiva del modelo
significativamente (cuadro 4). Pues bien, para estas variables, existen dos medidas
para establecer cuál puede ser su contribución y determinar si las incluimos o no:
la correlación parcial y sus valores t.
Ÿ
Ÿ
Correlación parcial. Es una medida de la variación de la variable dependiente
Y (X9) que no está explicada por las variables que sí se han incluido en la
regresión (en este primer paso, solamente X5) y que puede explicarse por cada
una de las variables restantes. Hay que ser muy cuidadoso al interpretar este
indicador. Por ejemplo el de la variable X3 (flexibilidad de precios) toma el
valor 0.720. Esto no significa que X3 explique el 72% de la varianza total, sino
que el 51.8% (72.02 = coeficiente de determinación parcial) de la varianza que
no estaba explicada ya por X5 (no de la total) puede ser explicada por X3.
Como X5 ya explicaba el 49.1% (.7012 ), X3 explicará el 26.4% de la varianza
total si la incluimos [(1-49.1%)·51.8% = 26.4].
Valores t de las variables que no están en la ecuación. Miden la significación
de las correlaciones parciales de las variables que no están en la ecuación. Si el
nivel de significación p asociado no supera el nivel crítico (0.01 ó 0.05, según el
criterio del investigador) estas variables serán candidatas a entrar en la
ecuación en el paso siguiente. En la salida puede observarse que cuatro variables: X1 rapidez del servicio (p=0.000), X2 nivel de precios (p=0.000), X3 flexi-
14
Análisis de regresión
Joaquín Aldás Manzano
bilidad de precios (p=0.000) y X7 calidad de servicio (p=0.032), pueden entrar
en la ecuación en la próxima iteración.
Pues bien, es el momento de decidir cuál de las cuatro variables que pueden entrar
en la recta de regresión para mejorar significativamente la capacidad predictiva
del modelo, va a hacerlo. Podíamos pensar que la variable que entrará será aquella
que, inicialmente, tenía una mayor correlación con la variable dependiente (véase
cuadro 4), en cuyo caso debería ser X1 dado que su coeficiente de correlación es el
mayor (0.676) después de la variable que entró inicialmente X5 (0.701). Pero el
criterio de entrada no es este, sino qué variable tiene mayor coeficiente de correlación parcial con la variable dependiente después de haber incluido a X5 que, como
puede comprobarse en el cuadro 4, no es X1 (0.439) sino X3 (0.720). Luego en el
siguiente paso estimaremos el modelo con X5, X3 y el término constante.
Vemos, en el cuadro 3 que al añadir la variable X3, el coeficiente de determinación
R2 se incrementa en torno al 26.4% (pasa de 0.491 a 0.755). Puede comprobarse
que el coeficiente de la variable X5 apenas cambia (pasa de 8.384 a 7.974) y el de
X3 es 3.336, siendo ambos significativos como puede apreciarse en sus respectivos
valores de p<0.01.
A continuación volvemos a repetir el proceso para ver si hay más variables candidatas a entrar en la recta de regresión. Viendo el cuadro 4, observamos que el
mayor coeficiente de correlacion parcial lo ostenta X6 imagen de los vendedores
(0.235), variable que explica por si sola el 5.6% de la varianza todavía no explicada
(0.2352 ) que es sólo el 1.37% de la varianza total [(1-0.755)·0.56 = 0.0137], siendo
además la única con un valor t significativo (p = 0.02 < 0.05). Por ello, en este
segundo paso entraría en el modelo.
Finalmente, se observa en el cuadro 4 que, tras introducir en el modelo X5, X3 y
X6, no existe ninguna variable más que sea candidata a formar parte de la recta
de regresión.
15
Análisis de regresión
Joaquín Aldás Manzano
Cuadro 4. Variables excluidas en cada paso
Variables excluidasd
Modelo
1
2
3
Beta
dentro
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Imagen de
los
vendedores
Calidad del
producto
Rapidez de
servicio
nivel de
precios
Imagen del
fabricante
Imagen de
los
vendedores
Calidad del
producto
Rapidez de
servicio
nivel de
precios
Imagen del
fabricante
Calidad del
producto
,396
-,377
,515
t
a
a
a
Sig.
Correlación
parcial
Estadísticos de colinealidad
Tolerancia
Tolerancia
FIV
mínima
4,812
,000
,439
,626
1,599
,626
-5,007
,000
-,453
,737
1,357
,737
10,210
,000
,720
,996
1,004
,996
,216
,830
,022
,911
1,098
,911
1,242
,217
,125
,942
1,061
,942
-2,178
,032
-,216
,997
1,003
,997
,205
,838
,021
,405
2,469
,405
-,267
,790
-,027
,464
2,156
,464
1,808
,074
,181
,892
1,121
,892
2,368
,020
,235
,940
1,064
,937
1,683
,096
,169
,799
1,252
,797
,386
,701
,040
,403
2,482
,403
-,401
,690
-,041
,462
2,162
,462
-,009
,993
-,001
,357
2,804
,357
1,277
,205
,130
,769
1,301
,769
a
,016
,092
-,154
a
a
b
,016
-,020
,095
,120
,094
,030
-,029
-,001
,071
b
b
b
b
c
c
c
c
a. Variables predictoras en el modelo: (Constante), Servicio
b. Variables predictoras en el modelo: (Constante), Servicio, flexibilidad de precios
c. Variables predictoras en el modelo: (Constante), Servicio, flexibilidad de precios, Imagen de los vendedores
d. Variable dependiente: Nivel de uso
En este momento, debe verificarse si el modelo estimado viola o no las hipótesis de
normalidad, homoscedasticidad y linealidad, considerando conjuntamente las
variables dependientes e independientes que se han incorporado.
La primera condición que deben cumplir las variables dependientes e independientes, es la linealidad de su relación, es decir, en qué medida el coeficiente asociado a
una variable independiente es constante para todos los valores de esta variable, es
decir, en qué medida la ratio entre la variable dependiente e independiente es
16
Análisis de regresión
Joaquín Aldás Manzano
constante. Esta condición se comprueba fácilmente a través de los gráficos de
residuos (diferencias entre el valor real de la variable dependiente y el predicho).
Si no existe linealidad, el gráfico de los residuos estudentizados frente a la variable
dependiente debería adoptar una forma curvilínea como la de la figura 1.
Residuos estudentizados
Figura 1 Aspecto de gráfico de residuos en caso de no linealidad
.
.. . .
.
.
.. . . . . .. .. .
..
..
V. dependiente
si se cumple la linealidad, estos residuos no deberán mostrar un patrón marcado
alguno. En nuestro ejemplo, el gráfico de residuos es el que recoge la figura 5.2
que, como se puede observar no muestra el aspecto del gráfico de la figura 5.1,
más bien al contrario los residuos están dispersos sin forma definida.
Figura 2 Gráfico de residuos ejemplo de HATCO
Gráfico de dispersión
Variable dependiente: Nivel de uso
10
Regresión Residuo
0
-10
-20
20
30
40
50
60
70
Regresión Valor pronosticado
El segundo supuesto que deben cumplir los datos es el de homoscedasticidad
(igualdad de las varianzas). La heteroscedasticidad se detecta también mediante
17
Análisis de regresión
Joaquín Aldás Manzano
los gráficos de residuos estudentizados que, para constatar la existencia de varianzas distintas, debería adoptar la forma de triángulo od diamante que se muestra la
figura 3.
Residuos estudentizados
...
.
.
.. .. . .. ....
.. . ..... ........
. . .. ... .... ......
.... ..
.
.
. . ... ..
.
.
.
..... ... ........
.
.
.
. . . . . .. . ...
. ..... ..
..... .... ....
. .. ........................
Residuos estudentizados
Figura 3. Patrones típicos de heteroscedasticidad
V. dependiente
V. dependiente
que, comparados con la figura 2 que resume los resultados para nuestra base de
ejemplo, permiten constatar el cumplimiento de la hipótesis de homoscedasticidad.
La siguiente hipotésis que deben cumplir los datos para permitir la aplicación del
análisis de regresión, es la independiencia de los términos de error. En una regresión asumimos que cada valor predicho es independiente, es decir que no afecta a
otra predicción. Esta hipótesis se constata mediante el estadístico de Durbin
Watson, que mide el grado de autocorrelación entre el residuo correspondiente a
cada observación y la anterior. Si su valor está próximo a 2, los residuos estarán
18
Análisis de regresión
Joaquín Aldás Manzano
incorrelados, si se aproxima a 4 esterán negativamente autocorrelados y si se
aproxima a 0 estarán positivamente autocorrelados. En nuestro caso, la salida de
SPSS proporciona el valor de 1.910 del estadístico de Durbin-Watson, como
recoge el cuadro 3, luego podemos considerar que los datos cumplen la hipótesis de
independencia de los residuos.
La última condición de aplicabilidad que debe considerarse, es el de normalidad
multivariable del término de error. Como indicamos en el primer tema, el mejor
procedimiento para detectar la ausencia de normalidad es recurrir a los llamados
gráficos q-q donde, si el comportamiento no es normal, los puntos adoptarían
patrones sistemáticos por encima o debajo de la línea recta lo que, como puede
comprobarse en la figura 6.4, no es el caso en nuestros datos de ejemplo.
Figura 4. Prueba de normalidad de los residuos.
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Nivel de uso
1,00
Prob acum esperada
,75
,50
,25
0,00
0,00
,25
,50
,75
1,00
Prob acum observada
Luego después de comprobar la posible violación de todas las hipótesis, comprobamos que sólo la violación de la hipótesis de normalidad por parte de las variables
X2, X4 y X6 puede ejercer algún tipo de influencia sobre los resultados. Tal como
indicamos en el tema 1, procede transformarlas mediante logaritmos y comprobar
si los resultados difieren sustancialmente de los que ya hemos obtenido. El cuadro
5 ofrece la solución con las variables transformadas. Puede comprobarse que la
capacidad explicativa del modelo apenas mejora (R2 = 0.771 frente a 0.768 en el
caso anterior) y entran las mismas variables en la ecuación luego, en este caso, las
19
Análisis de regresión
Joaquín Aldás Manzano
consecuencias de la violación de una de las hipótesis que deben cumplir los datos,
apenas ejerce influencia alguna.
En resumen, como se ha podido comprobar, los análisis de los residuos proporcionan una buena herramienta para determinar si se están violando las condiciones
de aplicabilidad de la técnica de regresión. Con frecuencia este análisis no se lleva
a cabo pudiendo provocarse sesgos y errores como la falta de fiabilidad de los test
que detectan la significatividad de los coeficientes de la regresión.
La última cuestión que debía analizarse en este paso de la regresión lineal, es si
existen valores anómalos de alguna de las variables que intervienen que puedan
tener una influencia importante sobre los resultados de la regresión. En la figura
6.5 se ilustran la naturaleza de estas posibles influencias, que pueden ser poco
graves, como en el caso a) o tremendamente influyentes, como en el b).
Figura 5. Posible influencia de las observaciones anómalas
a)
b)
¡
¡
¡
¡
l
l
¡
¡
¡
¡
¡
¡
l
l
Observación anómala
¡
Observación normal
l
20
Análisis de regresión
Joaquín Aldás Manzano
Cuadro 5. Modelo con las variables X2, X4 y X6 transformadas
Resumen del modelod
Cambiar los estadísticos
R
Error típ.
Cambio
R
cuadrado
de la
en R
Cambio
Modelo
R
cuadrado corregida estimación cuadrado
en F
1
,701a
,491
,486
6,446
,491
94,525
2
,869b
,755
,750
4,498
,264
104,252
3
,878c
,771
,764
4,370
,016
6,785
a. Variables predictoras: (Constante), Servicio
b. Variables predictoras: (Constante), Servicio, flexibilidad de precios
c. Variables predictoras: (Constante), Servicio, flexibilidad de precios, LNX6
d. Variable dependiente: Nivel de uso
gl1
gl2
1
1
1
98
97
96
Sig. del
cambio
en F
,000
,000
,011
Criterio de selección
Criterio de Criterio de
Criterio de predicción predicción
información
de
de
de Akaike
Amemiya
Mallows
374,664
,530
115,736
303,680
,261
8,053
298,851
,248
3,317
Criterio
bayesiano
de
Schwarz
379,875
311,495
309,271
Durbin-Watson
1,918
21
Análisis de regresión
Joaquín Aldás Manzano
La mejor herramienta para identificar a los outliers (observaciones anómalas, o no
bien predichas por la recta de regresión) es mediante el análisis de los residuos. Si
no están bien predichas esas observaciones por la recta de regresión, sus residuos
deben ser grandes. Se trabaja normalmente con los residuos estudentizados, que es
un procedimiento de estandarización bastante común, consistente en transformar
todos los residuos de tal forma que tengan media 0 y desviación típica 1, sólo que
la desviación típica necesaria para estandarizar se calcula omitiendo el caso para el
que se está calculando el residuo en ese momento. El trabajar con residuos
estudentizados tiene la ventaja de que puede fácilmente considerarse anómala
cualquier observación cuyo residuo supere el valor de 1.96 para un nivel de significación de 0.05. La figura 6.6 muestra que cuatro observaciones (7, 11, 14 y 100)
puede ser considerados como outliers y deberían ser eliminados del análisis.
Figura 6.6 Gráfico de los residuos estudentizados
3
Limite superior
Residuos estudentizados
2
1
0
-1
-2
Limite inferior
11 14
-3
100
7
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
Observaciones
Paso 5. Interpretación de los resultados
Una vez estimado el modelo y llevados a cabo los diagnósticos que confirman la
validez de los resultados, podemos escribir nuestra recta de regresión como sigue
(ver cuadro 3):
Y = –6,514 + 3,376·X3 + 7,623·X5 + 1,400·X6
22
Análisis de regresión
Joaquín Aldás Manzano
Con esta ecuación, puede predecirse el nivel de uso de los productos de HATCO
que hará un determinado cliente, si conocemos sus percepciones de esta empresa.
A título ilustrativo, de un cliente que hubiese valorado los tres atributos (X3, X5 y
X6) con un 4, podríamos esperar un nivel de utilización de:
Nivel de uso predicho = – 6,514 + 3,376·4 + 7,623·4 + 1,400·4 = 43,089
es decir, que cabe esperar que comprase el 43% de su maquinaria a HATCO.
Pero, además de predecir el nivel de uso de los productos, los coeficientes de regresión nos permiten también establecer la importancia relativa de las variables
individuales para predecir la variable dependiente. Como en este caso todas las
variables están medidas en la misma escala, las comparaciones pueden efectuarse
directamente sobre los coeficientes. Pero en la mayoría de las ocasiones, los coeficientes vienen afectados por las diferentes escalas de las variables a las que van
asociados, por lo que para efectuar el análisis se ha de recurrir a los coeficientes
estandarizados que, en el cuadro 3, venían bajo el título de “Coeficientes estandarizados, beta”. En este caso es evidente que la variable X5 (Servicio) es la más
importante (0,608) seguida de cerca por X3 flexibilidad de precios (0.521) y
mucho más distanciada X6 imagen de los vendedores (0,120).
Debe tenerse alguna cautela, sin embargo, al analizar los coeficientes estandarizados. En primer lugar, deben utilizarse solamente en situaciones de baja colinealidad, como analizaremos inmediatamente. En segundo lugar, los valores beta, solo
pueden interpretarse en el contexto de las otras variables de la ecuación, así el
valor beta de la variable X5 es importante sólo respecto a X3 y X6, pero no en
términos absolutos. Si se hubiera introducido otra variable en la ecuación, el valor
beta de X5 hubiera cambiado con casi toda seguridad.
En cualquier interpretación de los resultados de un análisis de regresión, el investigador debe prestar especial atención a analizar el efecto de la multicolinealidad,
esto es, la posible correlación entre las variables independientes. Aunque este es un
problema de los datos, no de la especificación del modelo, puede tener importantes
consecuencias: limita el valor del coeficiente de determinación, hace difícil determinar la contribución de cada variable individualmente, dado que sus efectos se
enmascaran en las correlaciones de unas con otras, pudiendo ocasionar que los
coeficientes de cada variable sean incorrectamente estimados y tengan signos
equivocados. Veámoslo con un ejemplo, cuyos datos se recogen en el cuadro 6.
23
Análisis de regresión
Joaquín Aldás Manzano
Cuadro 6. Ejemplo de multicolinealidad
Caso
1
2
3
4
5
6
7
8
Variables en el análisis de regresión
Dependiente
Independientes
D
A
B
5
6
13
3
8
13
9
8
11
9
10
11
13
10
9
11
12
9
17
12
7
15
14
7
Si estimamos las rectas de regresión, estimando por separado A y B como variables independientes, llegaríamos a la siguiente solución:
D = -5 + 1,5 ·A
D = 30 - 2,0 ·B
donde es evidente que la relación entre A y D es positiva, y entre B y D negativa.
Cuando estimamos la recta de regresión introduciendo simultáneamente A y B, el
resultado es el siguiente:
D = 50 -1,0·A - 3,0·B
donde parece ahora que la relación entre A y D es negativa cuando, de hecho,
sabemos que no es así. Luego vemos que los efectos de la multicolinealidad pueden
ser importantes. Veremos a continuación los mecanismos para detectar la existencia de multicolinealidad y para determinar en qué medida está afectando a los
coeficientes. De ser esta influencia importante, veremos distintos mecanismos de
corrección.
Dos de las medidas más habituales para establecer la existencia de multicolinealidad, son los llamados valor de tolerancia y su inversa, el factor de inflación de
varianza (FIV). Estos factores nos indican en qué medida una variable independiente está explicada por otras variables independientes, en términos más sencillos,
cada variable independiente es considerada como dependiente y regresada contra
el resto de independientes. La tolerancia es la cantidad de variación de la variable
independiente seleccionadas que no es explicada por el resto de variables indepen-
24
Análisis de regresión
Joaquín Aldás Manzano
dientes. Por lo tanto, valores muy pequeños de tolerancia (y por lo tanto grandes
de FIV) denotan una alta colinealidad. Un punto de corte bastante común es
0,10, que corresponde a valores de FIV superiores a 10. Este valor se da cuando el
coeficiente de determinación de la regresión señalada es de 0,95.
En el caso en que la multicolinealidad sea muy elevada, se proponen normalmente
las siguientes soluciones:
1. Eliminar una o más de las variables que estén altamente correladas e
identificar otras posibles variables independientes para ayudar en la
predicción.
2. Utilizar el modelo con todas las variables sólo con fines predictivos y no
intentar en ningún momento interpretar los coeficientes de regresión.
3. Utilizar los coeficientes de correlación simples entre la variable dependiente y las independientes para entender la relación entre ambas variables.
4. Recurrir a procedimientos más sofisticados de análisis de regresión, como
la bayesiana o la regresión en componentes principales que, evidentemente, se alejan del objetivo de este curso.
En el cuadro 3 aparecen, para nuestra base de datos de ejemplo, los estadísticos
de tolerancia y FIV de la regresión realizada. Puede comprobarse que los niveles
de tolerancia son muy altos (0,937 para X5, 0,993 para X3 y 0,940 para X6) y, en
todo caso, superiores al nivel de corte clásico de 0,1. Por ello, la interpretación que
hemos realizado de los coeficientes de la regresión, no se ve afectada por la multicolinealidad.
Paso 6. Validación de los resultados
Una vez estimado y analizado un modelo, el paso siguiente es establecer su generalizabilidad, esto es, que represente realmente al conjunto de la población y no sólo
a la muestra que lo ha generado. La mejor forma de hacerlo sería ver en qué
medida los resultados se compadecen con modelos teóricos previos o trabajos ya
validados sobre el mismo tema. Sin embargo, en muchos casos estos resultados o
teoría previos no existen y es necesario recurrir a otros procedimientos empíricos
de validación.
El procedimiento más indicado para la validación empírica de los resultados de
una regresión, pasa por volver a estimar el modelo en una nueva muestra extraída
25
Análisis de regresión
Joaquín Aldás Manzano
de la población. Una nueva muestra asegurará la representatividad de los resultados y puede emplearse de diversas maneras. El modelo estimado sobre la muestra
anterior puede predecir valores de la nueva muestra y, de esta manera, establecer
alguna medida de los aciertos. Otra alternativa es estimar un nuevo modelo sobre
la nueva muestra y luego comparar las dos ecuaciones sobre características tales
como: variables incluidas, signo, importancia relativa de las variables y poder
predictivo.
La mayoría de las veces, sin embargo, la posibilidad de recoger nuevos datos está
limitada por factores como el coste, limitaciones de tiempo o disponibilidad de los
encuestados. En este caso, el investigador puede dividir su muestra en dos partes:
una submuestra para estimar el modelo y una submuestra de validación usada
para evaluar la ecuación. Existen muchos procedimientos para dividir la muestra,
ya sean sistemáticos o aleatorios y cada programa estadístico tiene los suyos. En
SPSS 7.5, programa que estamos manejando, el procedimiento es el siguiente:
DATOS à SELECCIONAR CASOS à MUESTRA ALEATORIA DE CASOS
à APROXIMADAMENTE 50% DE TODOS LOS CASOS
que da lugar a la siguiente sintaxis:
USE ALL.
COMPUTE filter_$=(uniform(1)<=.50).
VARIABLE LABEL filter_$ 'Aproximadamente 50 % de casos (MUESTRA)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
donde se crea una variable filtro (filter_$) que toma valores 0 y 1. Se llevará a
cabo la regresión lineal primero para los que toman valor 1 y se repetirá para los
que toman valor 0. El cuadro 7 nos da los principales resultados de ambas
regresiones
26
Análisis de regresión
Joaquín Aldás Manzano
Cuadro 7. Resultados de las regresiones sobre las muestras divididas
Variables independientes
X3
Coeficiente regresión
Coeficiente beta
Valor t (p asociado)
X5
Coeficiente regresión
Coeficiente beta
Valor t (p asociado)
X6
Coeficiente regresión
Coeficiente beta
Valor t (p asociado)
Ajuste del modelo
R2
R2 ajustado
Error típico estimación
Muestra total
(N = 100)
Muestra 1
(N = 54)
Muestra 2
(N = 46)
3,376
0,521
10,5 (0,000)
2,977
0,437
5,75 (0,000)
3,585
0,599
9,158 (0,000)
7,623
0,637
12,54 (0,000)
8,322
0,650
8,548 (0,000)
6,848
0,642
8,966 (0,000)
1,400
0,120
2,36 (0,02)
0,768
0,761
4,395
NO ENTRA
0,715
0,704
4,873
1,283
0,176
2,441 (0,019)
0,824
0,811
3,761
Comparando los resultados de la dos regresiones efectuadas sobre la muestra
dividida, con la muestra total, se observa que el ajuste de los modelos es muy
similar, ya se mida por la R 2 como por la R 2 ajustada que corrige por el tamaño de
la muestra. La única diferencia relevante, es que en la primera regresión con la
muestra dividida, la variable X6 no entra en la ecuación, lo que confirma la impresión que ya obtuvimos de que era un regresor poco influyente, como pudimos
comprobar al analizar su coeficiente beta (0,120) muy inferior al de las otras dos
variables. Los coeficientes de las otras dos variables en la muestra 1 o de las tres
variables en la muestra 2, no varían radicalmente manteniéndose, además, la
importancia relativa entre ellos. Este hecho nos lleva a admitir la generalizabilidad
de los resultados obtenidos.
27
Análisis de regresión
Joaquín Aldás Manzano
Referencias bibliográficas
HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate Data
Analysis. 4ª Edición. Englewood Cliffs: Prentice Hall.
COHEN, J. Y COHEN, P. (1983): Apllied Multple Regression / Correlation Analysis
for the Behavioral Sciences. 2ª Edición. Hillsdale, NJ: Lawrence Erlbaum.
Descargar