El análisis de regresión Joaquín Aldás Manzano1 Universitat de València Dpto. de Dirección de Empresas “Juan José Renau Piqueras” 1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de seleccionar, ordenar y, en algunos casos traducir los textos originales. 2 Análisis de regresión Joaquín Aldás Manzano El análisis de regresión 1. ¿Qué es el análisis de regresión? (Hair, Anderson, Tatham y Black, 1995) El análisis de regresión es, con mucho la técnica multivariable más utilizada y versátil, aplicable en muchísimos campos de la toma de decisiones en marketing. El análisis de regresión es una técnica estadística utilizada para analizar la relación entre una sola variable dependiente y varias independientes, siendo su formulación básica la siguiente: Y1 = X1 + X2 + ... + Xn (métrica) (métricas) El objetivo de esta técnia es usar las variables independientes, cuyos valores se conocen, para predecir el de la variabla dependiente. Cada variable independiente está ponderada por unos coeficientes que indican la contribución relativa de cada una de las variables para explicar la dependiente. 2 Un ejemplo de aplicación del análisis de regresión Tal como hemos venido haciendo en temas anteriores, seguiremos los seis pasos imprescindibles para especificar correctamente un modelo multivariable, ilustrando cada uno de ellos con el mismo ejemplo que hemos venido utilizando: el de la empresa HATCO. Paso 1. Establecimiento de los objetivos (Hair, Anderson, Tatham y Black, 1995) Como hemos señalado con anterioridad, el análisis de regresión es una técnica tremendamente flexible y adaptable para analizar cualquier relación de dependencia. Para aplicarla correctamente, el investigador debe considerar tres factores: 1. Su adecuación al problema que se pretende resolver 2. El establecimiento de una relación estadística 3. La selección de las variables dependientes e independientes 3 Análisis de regresión Joaquín Aldás Manzano Veámoslos detenidamente. Respecto a la adecuación al problema que se pretende resolver, la regresión lineal puede aplicarse básicamente a dos tipos de estudios: los de carácter predictivo y los de carácter explicativo. Ambos campos no son necesariamente excluyentes y un análisis de regresión lineal puede ser aplicados a problemas que pretendan los dos tipos de objetivos. En cuanto al establecimiento de una relación, el análisis de regresión sirve para relaciones estadísticas y no funcionales. Por ejemplo, en una empresa siempre se cumple que: Costes totales = Coste variables + Costes fijos Si mi empresa tiene unos costes unitarios de 2 u.m. y produce 100 unidades, con unos costes fijos de 500 u.m., los costes totales necesariamente son de 700 u.m. y cualquier desviación de esta cantidad impicará que no hemos sido capaces de medir adecuadamente los costes unitarios o los fijos, porque la relación entre ambos es la señalada y se cumple siempre. Esta es una relación funcional. Sin embargo, si pretendemos relacionar el número de tarjetas de crédito que tiene una familia, con el tamaño de la misma y los ingresos, la relación que establezcamos a través de la regresión lineal será aproximada, no una predicción exacta. Esto se debe a que es una relación estadística, dado que siempre habrá un componente aleatorio en la relacion que no podremos controlar. La variable dependiente es una variable aleatoria, del que sólo podremos estimar un valor promedio. El tercer aspecto importante que hemos señalado, es la selección de las variables dependientes e independientes. Dado que la regresión es una técnica de dependiencia, hay que especificar qué variables son de un tipo y cuáles son de otro, y esta es una decisión que debe adoptar el investigador fundamentándose en un análisis conceptual del problema que está abordando. Es importante destacar que no es baladí la selección de las variables independientes. Puede pensarse que, dado que el modelo nos dirá cuál es la importancia relativa de todas ellas, mediante sus coeficientes, si estas no son importantes, tendrán coeficientes cercanos a cero y no afectarán al modelo. Esto no es así, la inclusión de variables independientes irrelevantes, puede provocar que se enmascare el efecto de las variables relevantes. Pero también es muy crítico excluir variables independientes que sean relevantes, dado que no sólo se reducirá la capacidad predictiva del modelo, sino que si estas variables 4 Análisis de regresión Joaquín Aldás Manzano excluidas guardan correlación con las que se mantienen, se estará introduciendo un fuerte sesgo en los resultados. Por lo tanto, y en conclusión, el investigador debe ser muy cuidadoso en el proceso de selección de las variables y, en todo caso, siempre es peor excluir variables relevantes que incluir variables irrelevantes. Volviendo a nuestro ejemplo de HATCO, el director de esta empresa está muy interesado en ser capaz de determinar si el grado de relación de los clientes con su empresa (medido mediante X9 que, recordemos, era el porcentaje que suponían para cada cliente las compras a HATCO sobre el total de las compras que realizan) tiene o no que ver con la percepción que estos tienen de HATCO, medida esta percepción mediante las variables: X1 X2 X3 X4 X5 X6 X7 Rapidez de servicio Nivel de precios Flexibilidad de precios Imagen del fabricante Calidad del servicio Imagen de los vendedores Calidad del producto considerando el director que parece lógico en base a su experiencia suponer que el grado de relación de los clientes puede estar influenciado por esas variables (establece así cuáles son las dependientes y la independiente) y encontrádonos ante una relación estadística, dado que se incluyen percepciones de los clientes que, evidentemente, están sujetas a error. Paso 2. Desarrollo del plan de análisis En el diseño de un plan de análisis basado en la regresión lineal, el investigador debe tener en cuenta un tema fundamental: el tamaño de la muestra. El tamaño de la muestra es, en la regresión lineal, el factor más importante para la fiabilidad de los resultados que puede controlar el investigador. Con muestras pequeñas (menos de 20 observaciones) el análisis de regresión sólo será adecuado cuando exista una única variable independiente y, aún así, solo las relaciones muy fuertes podrán detectarse con cierta certeza. Por el contrario, con tamaños muestrales superiores a los 1000, los test de significatividad se vuelven muy sensibles haciendo que casi todas las relaciones sean estadísticamente significativa. El poder de una regresión lineal hace referencia 5 Análisis de regresión Joaquín Aldás Manzano a la probabilidad de que un R2 sea significativo, dado un nivel de signficatividad, un tamaño muestral y un número de variables independientes predeterminados. El cuadro 1 resume estas relaciones y debe tenerse en cuenta. Cuadro 1. Valor mínimo del R2 que puede ser considerado estadísticamente significativo con una probabilidad del 80% para diversos tamaños muestrales, número de variables independientes y diversos niveles de significación Tamaño Muestral 20 50 100 250 500 1.000 Nivel de significación = 0.01 Nivel de significación = 0.05 Número de variables independientes Número de variables independientes 2 45 23 13 5 3 1 5 10 20 2 56 71 -39 29 36 49 19 16 20 26 10 7 8 11 4 3 4 6 3 2 2 3 1 Fuente: Cohen y Cohen (1983) 5 48 23 12 5 4 1 10 64 29 15 6 5 2 20 -42 21 8 9 2 Tabla que debe ser leída de la siguiente forma. Tomando el primer valor por la izquierda (45), querrá decir que una regresión con 20 observaciones y dos variables independientes, requiere de un R2 de por lo menos 0.45 para que la relación pueda considerarse estadísticamente significativa con una probabilidad del 80% si el nivel de significación se ha establecido en 0.01. En esta tabla se aprecia la fuerte influencia que ejerce el tamaño muestral sobre el poder de la regresión. Si, en el mismo ejemplo anterior, se pasa de una muestra de 20 individuos a 100, bastará que el R2 sea superior a 0.05 para que la relación devenga significativa. El tamaño de la muestra también afecta a la generalizabilidad de los resultados que se obtengan a través del ratio entre observaciones y variables independientes. Una regla general es que este ratio nunca debe caer por debajo de cinco, es decir que para que los resultados sean generalizables nunca deben existir menos de cinco observaciones por cada variable independiente. Aunque este es el valor mínimo, el valor deseable oscila entre 15-20 observaciones por variable consiguiendo que si la muestra es representativa, los resultados sean generalizables. En el caso de que se utilice un procedimiento de regresión “paso a paso” (que veremos con posterioridad), el nivel recomendado pasa a ser de 50 a 1. En la encuesta de la empresa HATCO, se obtuvieron 100 respuestas válidas de sus clientes. Este tamaño muestral, de acuerdo con el cuadro 1, hace que pueda 6 Análisis de regresión Joaquín Aldás Manzano considerarse que existen relaciones significativas cuando se alcancen R2 superiores a 0.2 a un nivel de significación de 0.01 y superiores a 0.15 si el nivel de significación se relaja a 0.05. Asimismo, dado que se dispone de 7 variables independientes este tamaño muestral se mueve en el entorno del ratio 15 a 1 recomendado. Paso 3. Condiciones de aplicabilidad del análisis de regresión Las condiciones de aplicabilidad del análisis de regresión, deben considerarse en dos etapas. Antes de estimar el modelo, sólo pueden comprobarse en las variables independientes y la dependiente de manera individual. Después de estimar el modelo, podrá evaluarse si se cumplen las condiciones de manera conjunta y, por ello, los resultados son fiables. Recordemos que las tres condiciones que debían cumplir las variables dependientes e independientes eran las de linealidad, homogeneidad de varianzas y normalidad. En el tema 1 de este curso, ya indicamos como comprobar estas condiciones respecto a todas las variables dependientes e independientes que van a ser utilizadas. Dejamos como ejercicio, el verificar que: 1. Los gráficos de dispersión no parecer indicar la existencia de relaciones no lineales entre la variable dependiente y las independientes. 2. Solamente la variable X2 viola la hipótesis de homoscedasticidad. 3. X2, X4 y X6 violan las hipótesis de normalidad. Puede demostrarse que el análisis de regresión no se ve muy afectado por la heteroscedasticidad. La ausencia de normalidad puede corregirse, como se indicó, transformando las variables originales mediante logaritmos neperianos. El investigador debería estimar el modelo considerando las variables transformadas y sin transformar, para después, cuando se compruebe si, de manera global, se violan las hipótesis señaladas, mantener las variables de la manera que menos distorsion provoquen respecto al cumplimiento de estas hipótesis. Paso 4. Estimación del modelo y establecimiento del ajuste del mismo. Habiendo sido especificados los objetivos del análisis, seleccionado las variables dependientes e independientes y comprobadas las condiciones de aplicabilidad 7 Análisis de regresión Joaquín Aldás Manzano del modelo, el investigador está preparado para estimar el modelo y establecer la bondad del mismo (su ajuste). Esta tarea se desdobla en tres decisiones: 1. Seleccionar un método para estimar el modelo. 2. Establecer la significatividad global del modelo estimado y de los coeficientes de cada una de las variables independientes. 3. Determinar si hay observaciones que ejercen una influencia no deseable sobre los resultados. En esta primera decisión, el investigador debe optar entre dos alternativas: decidir aquellas variables independientes que, según su conocimiento del tema pueden ejercer algún tipo de influencia sobre la dependiente, e incluirlas, o bien recurrir a procedimientos secuenciales, en los cuales es el propio programa quien va introduciendo y eliminando del análisis aquellas variables que aseguren la mejor especificación del modelo. En el primer tipo de aproximación, el investigador debe estar muy seguro de que no está dejando fuera variables relevantes, ni introduciendo variables irrelevantes. En el segundo enfoque, el proceso iterativo asegura que se acaban considerando las variables que mejor pueden explicar el comportamiento de la dependiente, por este motivo desarrollaremos en este tema este último enfoque. Los métodos secuenciales estiman la ecuación de regresión añadiendo o eliminando (según los dos enfoques que veremos) aquellas variables que cumplen determinados criterios. Esta aproximación ofrece un procedimiento objetivo para seleccionar las variables, que maximiza la capacidad predictiva del modelo con el menor número posible de variables independientes. Aunque este enfoque parece ideal, hay que tener en cuenta que es muy sensible al efecto de la multicolinealidad y, por ello, su determinación y corrección es crítica en estos modelos. Los métodos secuenciales pueden ser de dos tipos: Eliminación hacia atrás. Es básicamente un procedimiento de prueba y error. Comienza estimando una recta de regresión con todas las variables independientes posibles y luego va eliminando aquellas que no contribuyen significativamente. Los pasos son los siguientes: 1. Cálculo de una recta de regresión con todas las variables independientes posibles. 8 Análisis de regresión Joaquín Aldás Manzano 2. Cálculo de un estadístico F parcial para cada variable que computa la varianza que explicaría el modelo si se eliminasen todas las variables menos esa. 3. Se eliminan las variables con F parciales que indican que no realizan una contribución estadísticamente significativa. 4. Después de eliminar esas variables se vuelve a estimar la recta de regresión con las que quedan. 5. Se vuelve al paso 2 hasta que sólo quedan las variables significativas. Estimación paso a paso. Es el procedimiento secuencial más utilizado dado que permite analizar la contribución de cada variable independiente por separado al modelo de regresión. Se diferencia del anterior en que no incluye todas las variables y luego las va eliminando, sino que las evalúa una a una antes de incorporarlas al modelo y, además, puede eliminar una variable después de haberla introducido en una etapa anterior. Los pasos que sigue son los siguientes: 1. Comienza con el modelo de regresión más simple, que es el formado por la constante y aquella variable que está más correlacionada con la variable dependiente. 2. Examina los coeficientes de correlación parcial para encontrar la variable independiente la mayor proporción del error que se comete con la recta de regresión anterior. 3. Vuelve a calcular la ecuación de regresión utilizando ahora las dos variables independientes seleccionadas y analiza el valor de la F parcial de la primera variable para ver si todavía lleva a cabo una contribución significativa dado que hemos incluido una variable adicional. Si no lo hace la elimina y en caso contrario la mantiene. 4. El proceso continúa examinando todas las variables independientes para ver cual debe ser introducida en la ecuación. Cuando se incluye una nueva se examinan las ya introducidas para determinar cuál debe permanecer y así hasta que ninguna variable cumple el criterio de entrada. Estimemos el modelo, mediante este procedimiento, para nuestro ejemplo de la empresa HATCO. El cuadro 2 muestra las correlaciones entre las siete variables independientes y la variable dependiente X9 (nivel de uso), mostrando que la variable X5 (calidad del servicio), es la más correlacionada con ella (0.701). Como hemos indicado, el primer paso en el procedimiento de estimación que estamos empleando, pasará por estimar un modelo formado por la variable X5 y una constante. La salida correspondiente a este primer paso (y a los dos 9 Análisis de regresión Joaquín Aldás Manzano siguientes que realiza el programa), se recoge en el cuadro 4 y debemos familiarizarnos con los términos que en él figuran. Coeficiente R Se le conoce también como R múltiple y es el coeficiente de correlación (en el primer paso 0.701, según el cuadro 3) entre la variable dependiente y las que se incorporan al modelo (como sólo se incorpora X5, coincide con la correlación que vimos antes). 2 Coeficiente R Es el coeficiente de correlación anterior al cuadrado, conocido también como coeficiente de determinación. Este valor indica el porcentaje de la variación de la variable dependiente que explican las independientes (en este caso sólo X5). La suma total de los cuadrados (3927.309 + 4071.691 = 7999.000), es el error cuadrático que se produciría si utilizáramos sólo la media de la variable dependiente X9 para predecir su valor real. Vemos que utilizar a X5 para esta predicción, en lugar de a la media de X9, reduce el error en un 49.1% (3927.309/7999.000). Variables incluidas en el paso 1 Como hemos señalado, en el primer paso sólo se introduce la variable X5. En general, para cada variable que se incluya, el programa calcula una serie de indicadores que debemos comprender: el coeficiente de la variable, su error típico y el valor asociado al mismo. Veámoslos. Ÿ Coeficiente de la variable. Aparece como B en el cuadro 3. Para la variable X5, toma el valor 8.384. Es el valor que necesitamos para predecir la variable dependiente. En este caso, dado que la constante toma el valor 21.653, nuestra recta de regresión sería X9 = Y = 21.653 + 8.384·X5. El programa nos muestra también el valor estandarizado del coeficiente (Beta), que en este caso es 0.701. Dado que el coeficiente viene afectado por las unidades en que estén medidas las variables, si el valor está estandarizado nos permitirá comparar más fácilmente los coeficientes de unas variables con los de otras para determinar cuál tiene una influencia mayor en explicar la variable dependiente. 10 Análisis de regresión Joaquín Aldás Manzano Cuadro 2. Matriz de correlaciones Correlaciones Rapidez de servicio Nivel de uso Correlación de Pearson Nivel de uso Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Covarianza Calidad del producto Nivel de uso Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Sig. (unilateral) Servicio Imagen de los vendedores Calidad del producto Nivel de uso Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto nivel de precios Imagen del fabricante flexibilidad de precios Imagen de los vendedores Servicio Calidad del producto 1,000 ,676 ,082 ,559 ,224 ,701 ,255 -,192 ,676 1,000 -,349 ,509 ,050 ,612 ,077 -,483 ,082 -,349 1,000 -,487 ,272 ,513 ,185 ,470 ,559 ,509 -,487 1,000 -,116 ,067 -,035 -,448 ,224 ,050 ,272 -,116 1,000 ,299 ,788 ,200 ,701 ,612 ,513 ,067 ,299 1,000 ,240 -,055 ,255 ,077 ,185 -,035 ,788 ,240 1,000 ,177 -,192 -,483 ,470 -,448 ,200 -,055 ,177 1,000 80,798 8,031 ,880 6,967 2,280 4,732 1,767 -2,743 8,031 1,744 -,551 ,933 7,533E-02 ,607 7,881E-02 -1,010 ,880 -,551 1,430 -,808 ,368 ,461 ,171 ,890 6,967 ,933 -,808 1,922 -,182 6,939E-02 -3,718E-02 -,985 2,280 7,533E-02 ,368 -,182 1,280 ,254 ,687 ,359 4,732 ,607 ,461 6,939E-02 ,254 ,564 ,139 -6,57E-02 1,767 7,881E-02 ,171 -3,718E-02 ,687 ,139 ,594 ,216 -2,743 -1,010 ,890 -,985 ,359 -6,57E-02 ,216 2,513 , ,000 ,209 ,000 ,012 ,000 ,005 ,028 ,000 , ,000 ,000 ,309 ,000 ,222 ,000 ,209 ,000 , ,000 ,003 ,000 ,032 ,000 ,000 ,000 ,000 , ,125 ,255 ,366 ,000 ,012 ,309 ,003 ,125 , ,001 ,000 ,023 ,000 ,000 ,000 ,255 ,001 , ,008 ,293 ,005 ,222 ,032 ,366 ,000 ,008 , ,039 ,028 ,000 ,000 ,000 ,023 ,293 ,039 , 11 Análisis de regresión Joaquín Aldás Manzano Cuadro 3. Salida del procedimiento “paso a paso” Resumen del modelod Cambiar los estadísticos Modelo 1 2 3 R R cuadrado ,701 a ,491 ,869 b ,755 ,876 c ,768 R cuadrado corregida ,486 ,750 ,761 Error típ. de la estimación 6,446 4,498 4,395 Cambio en R cuadrado ,491 ,264 ,014 Cambio en F 94,525 104,252 5,607 gl1 gl2 1 1 1 98 97 96 Sig. del cambio en F ,000 ,000 ,020 Criterio de selección Criterio de Criterio de predicción predicción de de Amemiya Mallows ,530 111,980 ,261 6,243 ,251 2,711 Criterio de información de Akaike 374,664 303,680 300,003 a. Variables predictoras: (Constante), Servicio b. Variables predictoras: (Constante), Servicio, flexibilidad de precios c. Variables predictoras: (Constante), Servicio, flexibilidad de precios, Imagen de los vendedores d. Variable dependiente: Nivel de uso ANOVAd Modelo 1 2 Regresión gl 1 Media cuadrática 3927,309 F 94,525 Sig. ,000a Residual Total 4071,691 7999,000 98 99 41,548 Regresión 6036,513 1962,487 2 97 3018,256 20,232 149,184 ,000 7999,000 6144,812 99 3 2048,271 106,049 ,000c 1854,188 96 19,314 7999,000 99 Residual Total 3 Suma de cuadrados 3927,309 Regresión Residual Total a. Variables predictoras: (Constante), Servicio b. Variables predictoras: (Constante), Servicio, flexibilidad de precios c. Variables predictoras: (Constante), Servicio, flexibilidad de precios, Imagen de los vendedores d. Variable dependiente: Nivel de uso b Criterio bayesiano de Schwarz 379,875 311,495 310,424 Durbin-Watson 1,910 12 Análisis de regresión Joaquín Aldás Manzano Coeficientesa Coeficientes no estandarizados Modelo 1 2 3 (Constante) Servicio (Constante) Servicio flexibilidad de precios (Constante) Servicio flexibilidad de precios Imagen de los vendedores B 21,653 8,384 -3,489 7,974 Error típ. 2,596 ,862 3,057 ,603 3,336 Coeficientes estandarizados ,701 ,072 ,666 ,050 t 8,341 9,722 -1,141 13,221 ,327 ,515 ,050 10,210 ,000 2,688 -6,514 7,623 3,248 ,608 ,637 ,051 -2,005 12,548 ,048 ,000 3,376 ,320 ,521 ,049 10,560 1,400 ,591 ,120 ,051 2,368 a. Variable dependiente: Nivel de uso Beta Error típ. Sig. ,000 ,000 ,257 ,000 Intervalo de confianza para B al 95% Límite Límite inferior superior 16,502 26,804 6,673 10,095 -9,556 2,578 6,777 9,171 Estadísticos de colinealidad Correlaciones Orden cero Parcial Semiparcial Tolerancia FIV ,701 ,701 ,701 1,000 1,000 ,701 ,802 ,665 ,996 1,004 3,985 ,559 ,720 ,514 ,996 1,004 -12,962 6,417 -,065 8,829 ,701 ,788 ,617 ,937 1,068 ,000 2,742 4,011 ,559 ,733 ,519 ,993 1,007 ,020 ,226 2,574 ,255 ,235 ,116 ,940 1,064 13 Ÿ Análisis de regresión Joaquín Aldás Manzano Valor t de las variables que están en la ecuación. El valor t de las variables que están en la ecuación, permite contrastar la hipótesis nula de que el coeficiente de esa variable es cero con lo que no tendría ninguna capacidad esa variable de explicar la dependiente. Pero intentar contrastar o rechazar esa hipótesis nula mediante el valor t obligaría a que conociésemos todos sus valores críticos a distintos niveles de significación y grados de libertad (en concreto a un nivel de 0.01 y para 98 grados de libertad, el nivel crítico es de 1.658 y como el valor de t para el coeficiente de X5 es 9.722, podríamos rechazar la hipótesis nula de que el coeficiente es cero y afirmar que la variable X5 tiene capacidad explicativa de la variable dependiente). Para evitar tener que conocer esos valores críticos, el programa (cuadro 3) ofrece su nivel de significación (p=Sig.=0.000) que es mucho más fácil de analizar. Si es inferior a 0.01 (0.05 según el criterio del investigador), puede rechazarse la hipótesis nula y concluir la significatividad del parámetro. Variables no incluidas en la ecuación en el paso 1 Aunque X5 ha sido incluida en la regresión, disponemos de otras 6 variables que potencialmente podrían incluirse y mejorar la capacidad predictiva del modelo significativamente (cuadro 4). Pues bien, para estas variables, existen dos medidas para establecer cuál puede ser su contribución y determinar si las incluimos o no: la correlación parcial y sus valores t. Ÿ Ÿ Correlación parcial. Es una medida de la variación de la variable dependiente Y (X9) que no está explicada por las variables que sí se han incluido en la regresión (en este primer paso, solamente X5) y que puede explicarse por cada una de las variables restantes. Hay que ser muy cuidadoso al interpretar este indicador. Por ejemplo el de la variable X3 (flexibilidad de precios) toma el valor 0.720. Esto no significa que X3 explique el 72% de la varianza total, sino que el 51.8% (72.02 = coeficiente de determinación parcial) de la varianza que no estaba explicada ya por X5 (no de la total) puede ser explicada por X3. Como X5 ya explicaba el 49.1% (.7012 ), X3 explicará el 26.4% de la varianza total si la incluimos [(1-49.1%)·51.8% = 26.4]. Valores t de las variables que no están en la ecuación. Miden la significación de las correlaciones parciales de las variables que no están en la ecuación. Si el nivel de significación p asociado no supera el nivel crítico (0.01 ó 0.05, según el criterio del investigador) estas variables serán candidatas a entrar en la ecuación en el paso siguiente. En la salida puede observarse que cuatro variables: X1 rapidez del servicio (p=0.000), X2 nivel de precios (p=0.000), X3 flexi- 14 Análisis de regresión Joaquín Aldás Manzano bilidad de precios (p=0.000) y X7 calidad de servicio (p=0.032), pueden entrar en la ecuación en la próxima iteración. Pues bien, es el momento de decidir cuál de las cuatro variables que pueden entrar en la recta de regresión para mejorar significativamente la capacidad predictiva del modelo, va a hacerlo. Podíamos pensar que la variable que entrará será aquella que, inicialmente, tenía una mayor correlación con la variable dependiente (véase cuadro 4), en cuyo caso debería ser X1 dado que su coeficiente de correlación es el mayor (0.676) después de la variable que entró inicialmente X5 (0.701). Pero el criterio de entrada no es este, sino qué variable tiene mayor coeficiente de correlación parcial con la variable dependiente después de haber incluido a X5 que, como puede comprobarse en el cuadro 4, no es X1 (0.439) sino X3 (0.720). Luego en el siguiente paso estimaremos el modelo con X5, X3 y el término constante. Vemos, en el cuadro 3 que al añadir la variable X3, el coeficiente de determinación R2 se incrementa en torno al 26.4% (pasa de 0.491 a 0.755). Puede comprobarse que el coeficiente de la variable X5 apenas cambia (pasa de 8.384 a 7.974) y el de X3 es 3.336, siendo ambos significativos como puede apreciarse en sus respectivos valores de p<0.01. A continuación volvemos a repetir el proceso para ver si hay más variables candidatas a entrar en la recta de regresión. Viendo el cuadro 4, observamos que el mayor coeficiente de correlacion parcial lo ostenta X6 imagen de los vendedores (0.235), variable que explica por si sola el 5.6% de la varianza todavía no explicada (0.2352 ) que es sólo el 1.37% de la varianza total [(1-0.755)·0.56 = 0.0137], siendo además la única con un valor t significativo (p = 0.02 < 0.05). Por ello, en este segundo paso entraría en el modelo. Finalmente, se observa en el cuadro 4 que, tras introducir en el modelo X5, X3 y X6, no existe ninguna variable más que sea candidata a formar parte de la recta de regresión. 15 Análisis de regresión Joaquín Aldás Manzano Cuadro 4. Variables excluidas en cada paso Variables excluidasd Modelo 1 2 3 Beta dentro Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Imagen de los vendedores Calidad del producto Rapidez de servicio nivel de precios Imagen del fabricante Imagen de los vendedores Calidad del producto Rapidez de servicio nivel de precios Imagen del fabricante Calidad del producto ,396 -,377 ,515 t a a a Sig. Correlación parcial Estadísticos de colinealidad Tolerancia Tolerancia FIV mínima 4,812 ,000 ,439 ,626 1,599 ,626 -5,007 ,000 -,453 ,737 1,357 ,737 10,210 ,000 ,720 ,996 1,004 ,996 ,216 ,830 ,022 ,911 1,098 ,911 1,242 ,217 ,125 ,942 1,061 ,942 -2,178 ,032 -,216 ,997 1,003 ,997 ,205 ,838 ,021 ,405 2,469 ,405 -,267 ,790 -,027 ,464 2,156 ,464 1,808 ,074 ,181 ,892 1,121 ,892 2,368 ,020 ,235 ,940 1,064 ,937 1,683 ,096 ,169 ,799 1,252 ,797 ,386 ,701 ,040 ,403 2,482 ,403 -,401 ,690 -,041 ,462 2,162 ,462 -,009 ,993 -,001 ,357 2,804 ,357 1,277 ,205 ,130 ,769 1,301 ,769 a ,016 ,092 -,154 a a b ,016 -,020 ,095 ,120 ,094 ,030 -,029 -,001 ,071 b b b b c c c c a. Variables predictoras en el modelo: (Constante), Servicio b. Variables predictoras en el modelo: (Constante), Servicio, flexibilidad de precios c. Variables predictoras en el modelo: (Constante), Servicio, flexibilidad de precios, Imagen de los vendedores d. Variable dependiente: Nivel de uso En este momento, debe verificarse si el modelo estimado viola o no las hipótesis de normalidad, homoscedasticidad y linealidad, considerando conjuntamente las variables dependientes e independientes que se han incorporado. La primera condición que deben cumplir las variables dependientes e independientes, es la linealidad de su relación, es decir, en qué medida el coeficiente asociado a una variable independiente es constante para todos los valores de esta variable, es decir, en qué medida la ratio entre la variable dependiente e independiente es 16 Análisis de regresión Joaquín Aldás Manzano constante. Esta condición se comprueba fácilmente a través de los gráficos de residuos (diferencias entre el valor real de la variable dependiente y el predicho). Si no existe linealidad, el gráfico de los residuos estudentizados frente a la variable dependiente debería adoptar una forma curvilínea como la de la figura 1. Residuos estudentizados Figura 1 Aspecto de gráfico de residuos en caso de no linealidad . .. . . . . .. . . . . .. .. . .. .. V. dependiente si se cumple la linealidad, estos residuos no deberán mostrar un patrón marcado alguno. En nuestro ejemplo, el gráfico de residuos es el que recoge la figura 5.2 que, como se puede observar no muestra el aspecto del gráfico de la figura 5.1, más bien al contrario los residuos están dispersos sin forma definida. Figura 2 Gráfico de residuos ejemplo de HATCO Gráfico de dispersión Variable dependiente: Nivel de uso 10 Regresión Residuo 0 -10 -20 20 30 40 50 60 70 Regresión Valor pronosticado El segundo supuesto que deben cumplir los datos es el de homoscedasticidad (igualdad de las varianzas). La heteroscedasticidad se detecta también mediante 17 Análisis de regresión Joaquín Aldás Manzano los gráficos de residuos estudentizados que, para constatar la existencia de varianzas distintas, debería adoptar la forma de triángulo od diamante que se muestra la figura 3. Residuos estudentizados ... . . .. .. . .. .... .. . ..... ........ . . .. ... .... ...... .... .. . . . . ... .. . . . ..... ... ........ . . . . . . . . .. . ... . ..... .. ..... .... .... . .. ........................ Residuos estudentizados Figura 3. Patrones típicos de heteroscedasticidad V. dependiente V. dependiente que, comparados con la figura 2 que resume los resultados para nuestra base de ejemplo, permiten constatar el cumplimiento de la hipótesis de homoscedasticidad. La siguiente hipotésis que deben cumplir los datos para permitir la aplicación del análisis de regresión, es la independiencia de los términos de error. En una regresión asumimos que cada valor predicho es independiente, es decir que no afecta a otra predicción. Esta hipótesis se constata mediante el estadístico de Durbin Watson, que mide el grado de autocorrelación entre el residuo correspondiente a cada observación y la anterior. Si su valor está próximo a 2, los residuos estarán 18 Análisis de regresión Joaquín Aldás Manzano incorrelados, si se aproxima a 4 esterán negativamente autocorrelados y si se aproxima a 0 estarán positivamente autocorrelados. En nuestro caso, la salida de SPSS proporciona el valor de 1.910 del estadístico de Durbin-Watson, como recoge el cuadro 3, luego podemos considerar que los datos cumplen la hipótesis de independencia de los residuos. La última condición de aplicabilidad que debe considerarse, es el de normalidad multivariable del término de error. Como indicamos en el primer tema, el mejor procedimiento para detectar la ausencia de normalidad es recurrir a los llamados gráficos q-q donde, si el comportamiento no es normal, los puntos adoptarían patrones sistemáticos por encima o debajo de la línea recta lo que, como puede comprobarse en la figura 6.4, no es el caso en nuestros datos de ejemplo. Figura 4. Prueba de normalidad de los residuos. Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: Nivel de uso 1,00 Prob acum esperada ,75 ,50 ,25 0,00 0,00 ,25 ,50 ,75 1,00 Prob acum observada Luego después de comprobar la posible violación de todas las hipótesis, comprobamos que sólo la violación de la hipótesis de normalidad por parte de las variables X2, X4 y X6 puede ejercer algún tipo de influencia sobre los resultados. Tal como indicamos en el tema 1, procede transformarlas mediante logaritmos y comprobar si los resultados difieren sustancialmente de los que ya hemos obtenido. El cuadro 5 ofrece la solución con las variables transformadas. Puede comprobarse que la capacidad explicativa del modelo apenas mejora (R2 = 0.771 frente a 0.768 en el caso anterior) y entran las mismas variables en la ecuación luego, en este caso, las 19 Análisis de regresión Joaquín Aldás Manzano consecuencias de la violación de una de las hipótesis que deben cumplir los datos, apenas ejerce influencia alguna. En resumen, como se ha podido comprobar, los análisis de los residuos proporcionan una buena herramienta para determinar si se están violando las condiciones de aplicabilidad de la técnica de regresión. Con frecuencia este análisis no se lleva a cabo pudiendo provocarse sesgos y errores como la falta de fiabilidad de los test que detectan la significatividad de los coeficientes de la regresión. La última cuestión que debía analizarse en este paso de la regresión lineal, es si existen valores anómalos de alguna de las variables que intervienen que puedan tener una influencia importante sobre los resultados de la regresión. En la figura 6.5 se ilustran la naturaleza de estas posibles influencias, que pueden ser poco graves, como en el caso a) o tremendamente influyentes, como en el b). Figura 5. Posible influencia de las observaciones anómalas a) b) ¡ ¡ ¡ ¡ l l ¡ ¡ ¡ ¡ ¡ ¡ l l Observación anómala ¡ Observación normal l 20 Análisis de regresión Joaquín Aldás Manzano Cuadro 5. Modelo con las variables X2, X4 y X6 transformadas Resumen del modelod Cambiar los estadísticos R Error típ. Cambio R cuadrado de la en R Cambio Modelo R cuadrado corregida estimación cuadrado en F 1 ,701a ,491 ,486 6,446 ,491 94,525 2 ,869b ,755 ,750 4,498 ,264 104,252 3 ,878c ,771 ,764 4,370 ,016 6,785 a. Variables predictoras: (Constante), Servicio b. Variables predictoras: (Constante), Servicio, flexibilidad de precios c. Variables predictoras: (Constante), Servicio, flexibilidad de precios, LNX6 d. Variable dependiente: Nivel de uso gl1 gl2 1 1 1 98 97 96 Sig. del cambio en F ,000 ,000 ,011 Criterio de selección Criterio de Criterio de Criterio de predicción predicción información de de de Akaike Amemiya Mallows 374,664 ,530 115,736 303,680 ,261 8,053 298,851 ,248 3,317 Criterio bayesiano de Schwarz 379,875 311,495 309,271 Durbin-Watson 1,918 21 Análisis de regresión Joaquín Aldás Manzano La mejor herramienta para identificar a los outliers (observaciones anómalas, o no bien predichas por la recta de regresión) es mediante el análisis de los residuos. Si no están bien predichas esas observaciones por la recta de regresión, sus residuos deben ser grandes. Se trabaja normalmente con los residuos estudentizados, que es un procedimiento de estandarización bastante común, consistente en transformar todos los residuos de tal forma que tengan media 0 y desviación típica 1, sólo que la desviación típica necesaria para estandarizar se calcula omitiendo el caso para el que se está calculando el residuo en ese momento. El trabajar con residuos estudentizados tiene la ventaja de que puede fácilmente considerarse anómala cualquier observación cuyo residuo supere el valor de 1.96 para un nivel de significación de 0.05. La figura 6.6 muestra que cuatro observaciones (7, 11, 14 y 100) puede ser considerados como outliers y deberían ser eliminados del análisis. Figura 6.6 Gráfico de los residuos estudentizados 3 Limite superior Residuos estudentizados 2 1 0 -1 -2 Limite inferior 11 14 -3 100 7 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 Observaciones Paso 5. Interpretación de los resultados Una vez estimado el modelo y llevados a cabo los diagnósticos que confirman la validez de los resultados, podemos escribir nuestra recta de regresión como sigue (ver cuadro 3): Y = –6,514 + 3,376·X3 + 7,623·X5 + 1,400·X6 22 Análisis de regresión Joaquín Aldás Manzano Con esta ecuación, puede predecirse el nivel de uso de los productos de HATCO que hará un determinado cliente, si conocemos sus percepciones de esta empresa. A título ilustrativo, de un cliente que hubiese valorado los tres atributos (X3, X5 y X6) con un 4, podríamos esperar un nivel de utilización de: Nivel de uso predicho = – 6,514 + 3,376·4 + 7,623·4 + 1,400·4 = 43,089 es decir, que cabe esperar que comprase el 43% de su maquinaria a HATCO. Pero, además de predecir el nivel de uso de los productos, los coeficientes de regresión nos permiten también establecer la importancia relativa de las variables individuales para predecir la variable dependiente. Como en este caso todas las variables están medidas en la misma escala, las comparaciones pueden efectuarse directamente sobre los coeficientes. Pero en la mayoría de las ocasiones, los coeficientes vienen afectados por las diferentes escalas de las variables a las que van asociados, por lo que para efectuar el análisis se ha de recurrir a los coeficientes estandarizados que, en el cuadro 3, venían bajo el título de “Coeficientes estandarizados, beta”. En este caso es evidente que la variable X5 (Servicio) es la más importante (0,608) seguida de cerca por X3 flexibilidad de precios (0.521) y mucho más distanciada X6 imagen de los vendedores (0,120). Debe tenerse alguna cautela, sin embargo, al analizar los coeficientes estandarizados. En primer lugar, deben utilizarse solamente en situaciones de baja colinealidad, como analizaremos inmediatamente. En segundo lugar, los valores beta, solo pueden interpretarse en el contexto de las otras variables de la ecuación, así el valor beta de la variable X5 es importante sólo respecto a X3 y X6, pero no en términos absolutos. Si se hubiera introducido otra variable en la ecuación, el valor beta de X5 hubiera cambiado con casi toda seguridad. En cualquier interpretación de los resultados de un análisis de regresión, el investigador debe prestar especial atención a analizar el efecto de la multicolinealidad, esto es, la posible correlación entre las variables independientes. Aunque este es un problema de los datos, no de la especificación del modelo, puede tener importantes consecuencias: limita el valor del coeficiente de determinación, hace difícil determinar la contribución de cada variable individualmente, dado que sus efectos se enmascaran en las correlaciones de unas con otras, pudiendo ocasionar que los coeficientes de cada variable sean incorrectamente estimados y tengan signos equivocados. Veámoslo con un ejemplo, cuyos datos se recogen en el cuadro 6. 23 Análisis de regresión Joaquín Aldás Manzano Cuadro 6. Ejemplo de multicolinealidad Caso 1 2 3 4 5 6 7 8 Variables en el análisis de regresión Dependiente Independientes D A B 5 6 13 3 8 13 9 8 11 9 10 11 13 10 9 11 12 9 17 12 7 15 14 7 Si estimamos las rectas de regresión, estimando por separado A y B como variables independientes, llegaríamos a la siguiente solución: D = -5 + 1,5 ·A D = 30 - 2,0 ·B donde es evidente que la relación entre A y D es positiva, y entre B y D negativa. Cuando estimamos la recta de regresión introduciendo simultáneamente A y B, el resultado es el siguiente: D = 50 -1,0·A - 3,0·B donde parece ahora que la relación entre A y D es negativa cuando, de hecho, sabemos que no es así. Luego vemos que los efectos de la multicolinealidad pueden ser importantes. Veremos a continuación los mecanismos para detectar la existencia de multicolinealidad y para determinar en qué medida está afectando a los coeficientes. De ser esta influencia importante, veremos distintos mecanismos de corrección. Dos de las medidas más habituales para establecer la existencia de multicolinealidad, son los llamados valor de tolerancia y su inversa, el factor de inflación de varianza (FIV). Estos factores nos indican en qué medida una variable independiente está explicada por otras variables independientes, en términos más sencillos, cada variable independiente es considerada como dependiente y regresada contra el resto de independientes. La tolerancia es la cantidad de variación de la variable independiente seleccionadas que no es explicada por el resto de variables indepen- 24 Análisis de regresión Joaquín Aldás Manzano dientes. Por lo tanto, valores muy pequeños de tolerancia (y por lo tanto grandes de FIV) denotan una alta colinealidad. Un punto de corte bastante común es 0,10, que corresponde a valores de FIV superiores a 10. Este valor se da cuando el coeficiente de determinación de la regresión señalada es de 0,95. En el caso en que la multicolinealidad sea muy elevada, se proponen normalmente las siguientes soluciones: 1. Eliminar una o más de las variables que estén altamente correladas e identificar otras posibles variables independientes para ayudar en la predicción. 2. Utilizar el modelo con todas las variables sólo con fines predictivos y no intentar en ningún momento interpretar los coeficientes de regresión. 3. Utilizar los coeficientes de correlación simples entre la variable dependiente y las independientes para entender la relación entre ambas variables. 4. Recurrir a procedimientos más sofisticados de análisis de regresión, como la bayesiana o la regresión en componentes principales que, evidentemente, se alejan del objetivo de este curso. En el cuadro 3 aparecen, para nuestra base de datos de ejemplo, los estadísticos de tolerancia y FIV de la regresión realizada. Puede comprobarse que los niveles de tolerancia son muy altos (0,937 para X5, 0,993 para X3 y 0,940 para X6) y, en todo caso, superiores al nivel de corte clásico de 0,1. Por ello, la interpretación que hemos realizado de los coeficientes de la regresión, no se ve afectada por la multicolinealidad. Paso 6. Validación de los resultados Una vez estimado y analizado un modelo, el paso siguiente es establecer su generalizabilidad, esto es, que represente realmente al conjunto de la población y no sólo a la muestra que lo ha generado. La mejor forma de hacerlo sería ver en qué medida los resultados se compadecen con modelos teóricos previos o trabajos ya validados sobre el mismo tema. Sin embargo, en muchos casos estos resultados o teoría previos no existen y es necesario recurrir a otros procedimientos empíricos de validación. El procedimiento más indicado para la validación empírica de los resultados de una regresión, pasa por volver a estimar el modelo en una nueva muestra extraída 25 Análisis de regresión Joaquín Aldás Manzano de la población. Una nueva muestra asegurará la representatividad de los resultados y puede emplearse de diversas maneras. El modelo estimado sobre la muestra anterior puede predecir valores de la nueva muestra y, de esta manera, establecer alguna medida de los aciertos. Otra alternativa es estimar un nuevo modelo sobre la nueva muestra y luego comparar las dos ecuaciones sobre características tales como: variables incluidas, signo, importancia relativa de las variables y poder predictivo. La mayoría de las veces, sin embargo, la posibilidad de recoger nuevos datos está limitada por factores como el coste, limitaciones de tiempo o disponibilidad de los encuestados. En este caso, el investigador puede dividir su muestra en dos partes: una submuestra para estimar el modelo y una submuestra de validación usada para evaluar la ecuación. Existen muchos procedimientos para dividir la muestra, ya sean sistemáticos o aleatorios y cada programa estadístico tiene los suyos. En SPSS 7.5, programa que estamos manejando, el procedimiento es el siguiente: DATOS à SELECCIONAR CASOS à MUESTRA ALEATORIA DE CASOS à APROXIMADAMENTE 50% DE TODOS LOS CASOS que da lugar a la siguiente sintaxis: USE ALL. COMPUTE filter_$=(uniform(1)<=.50). VARIABLE LABEL filter_$ 'Aproximadamente 50 % de casos (MUESTRA)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . donde se crea una variable filtro (filter_$) que toma valores 0 y 1. Se llevará a cabo la regresión lineal primero para los que toman valor 1 y se repetirá para los que toman valor 0. El cuadro 7 nos da los principales resultados de ambas regresiones 26 Análisis de regresión Joaquín Aldás Manzano Cuadro 7. Resultados de las regresiones sobre las muestras divididas Variables independientes X3 Coeficiente regresión Coeficiente beta Valor t (p asociado) X5 Coeficiente regresión Coeficiente beta Valor t (p asociado) X6 Coeficiente regresión Coeficiente beta Valor t (p asociado) Ajuste del modelo R2 R2 ajustado Error típico estimación Muestra total (N = 100) Muestra 1 (N = 54) Muestra 2 (N = 46) 3,376 0,521 10,5 (0,000) 2,977 0,437 5,75 (0,000) 3,585 0,599 9,158 (0,000) 7,623 0,637 12,54 (0,000) 8,322 0,650 8,548 (0,000) 6,848 0,642 8,966 (0,000) 1,400 0,120 2,36 (0,02) 0,768 0,761 4,395 NO ENTRA 0,715 0,704 4,873 1,283 0,176 2,441 (0,019) 0,824 0,811 3,761 Comparando los resultados de la dos regresiones efectuadas sobre la muestra dividida, con la muestra total, se observa que el ajuste de los modelos es muy similar, ya se mida por la R 2 como por la R 2 ajustada que corrige por el tamaño de la muestra. La única diferencia relevante, es que en la primera regresión con la muestra dividida, la variable X6 no entra en la ecuación, lo que confirma la impresión que ya obtuvimos de que era un regresor poco influyente, como pudimos comprobar al analizar su coeficiente beta (0,120) muy inferior al de las otras dos variables. Los coeficientes de las otras dos variables en la muestra 1 o de las tres variables en la muestra 2, no varían radicalmente manteniéndose, además, la importancia relativa entre ellos. Este hecho nos lleva a admitir la generalizabilidad de los resultados obtenidos. 27 Análisis de regresión Joaquín Aldás Manzano Referencias bibliográficas HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate Data Analysis. 4ª Edición. Englewood Cliffs: Prentice Hall. COHEN, J. Y COHEN, P. (1983): Apllied Multple Regression / Correlation Analysis for the Behavioral Sciences. 2ª Edición. Hillsdale, NJ: Lawrence Erlbaum.