El análisis multivariable: conceptos básicos Joaquín Aldás Manzano1 Universitat de València Dpto. de Dirección de Empresas “Juan José Renau Piqueras” 1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de seleccionar, ordenar y, en algunos casos traducir los textos originales. 2 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano El análisis multivariable: conceptos básicos 1. ¿Qué es el análisis multivariable? (Hair, Anderson, Tatham y Black, 1995) El análisis multivariable no es fácil de definir. En general, se refiere a aquellos métodos estadísticos que analizan simultáneamente diversas variables en cada individuo u objeto sobre el cual se investiga. Cualquier análisis simultáneo de más de dos variables, puede considerarse análisis multivariable. De hecho, muchas técnicas multivariable son la simple extensión de análisis univariados o bivariados. Así, por ejemplo, la regresión simple (con una sola variable independiente), es una técnica multivariable cuando se extiende a varios regresores. Otras técnicas, sin embargo, como el análisis factorial o el análisis discriminante, están específicamente diseñadas para trabajar únicamente con estructuras multivariables. 2. Conceptos básicos Escalas de medida (Manzano, 1995; Uriel, 1995) El análisis de datos, implica la identificación y medida de la variación en un conjunto de variables, bien entre ellas mismas o entre una variable dependiente y una o más independientes. La palabra clave es medida, puesto que el investigador no puede identificar la variación hasta que ésta sea medida. En cualquier técnica de análisis multivariable, juega un papel muy importante el tipo de escala en que las variables estén medidas de hecho, como veremos, un criterio determinante para decidir qué técnica multivariable es la adecuada para resolver un problema determinado, será el tipo de escala en que estén medidas las variables dependientes e independientes. Podemos distinguir entre: Ÿ Escalas nominales. En este caso, los números se comportan como etiquetas, con tanta validez como una letra del alfabeto. Su misión es distinguir entre diferentes valores; por ejemplo: sexo (hombre, mujer). En el proceso de codificación se puede asignar 1 al valor hombre y 2 al valor mujer. Esto no significa que la mujer sea mayor que el hombre (2>1) ni el doble (2=1x2), ni que existan personas de sexo intermedio (1,5). 3 Ÿ Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Escalas ordinales. No sólo consigue distinguir entre valores, como la anterior, sino que además establece un orden entre ellos. El dato representado por un 3 es superior al representado por un 2; por ejemplo tamaño relativo (enorme, grande, normal, pequeño, diminuto). Si codificamos estos valores de la siguiente forma: 1 à diminuto; 2 à pequeño; 3 à normal; 4 à grande; 5 à enorme Ÿ entonces es cierta la relación de orden, puesto que 1<2<3<4<5, pero no es cierto que entre grande y enorme exista la misma diferencia que entre pequeño y normal (5-4 = 1 = 3-2), como tampoco que pequeño sea el doble que diminuto (2=1x2). Escalas de intervalo. Además de distinción y orden, la distancia o diferencia entre dos valores consecutivos cualesquiera es siempre la misma. En este caso, entre el valor representado por un 3 y el representado por un 2, existe la misma diferencia que entre 5 y 4. Por ejemplo, la temperatura medida en grados centígrados. En este caso, no sólo 100º es diferente a 80º, sino que es mayor (100º>80º); inclusive la diferencia de temperatura entre ambos es la misma que entre 80º y 60º (100-80 = 80-60). Pero no existe un cero absoluto, ya que la temperatura de 0º no significa ausencia de temperatura. De esta forma 100º no es el doble de 50º. Veámoslo con un ejemplo. Creemos una nueva escala de temperatura que llamaremos en “arcias”, donde 1 arcia = 1 grado centígrado. Pero esta escala no tiene el cero cuando el agua se congela (0ºC) sino cuando entre en ebullición (100ºC). Como se observa en la figura 1, si decimos que 40 arcias es el doble de 20 arcias, es tanto como afirmar que 140º es el doble de 120º. Figura 1. Ejemplo de escalas de intervalo Arcias 80 60 40 20 0 -20 Ÿ Centígrados 180 160 140 120 100 80 Escalas de razón. Además de la distinción, orden e intervalo, se añade un origen absoluto, de forma que no sólo cabe hallar diferencias (ya se podía 4 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano hacer en la escala de intervalo), sino también múltiplos exactos. En este caso el valor representado por 4 tiene doble cantidad medida que el representado por 2. Éste es el caso, por ejemplo, de la edad expresada en años. Así, 40 y 20 años son edades distintas, 40 años es una edad superior a 20 años, entre 20 y 40 años hay la misma diferencia de edad que entre 30 y 50 y, además, el 0 tiene sentido. Una persona con 0 años realmente no tiene edad, todavía no ha nacido. De esta forma, 40 es exactamente el doble de 20. En estos apuntes, en diferentes ocasiones, utilizaremos las expresiones escalas métricas, escalas no métricas. No es una clasificación alternativa, sino que la literatura agrupa a las escalas nominales y ordinales bajo el nombre de no métricas y a las de intervalo y razón bajo el de escalas métricas. La inferencia estadística (Manzano, 1995) Todas las técnicas multivariables, excepto el análisis cluster y el escalamiento multidimensional, están basados en inferir los valores reales que toma una variable en una población, a partir de los valores que toma esa variable en una muestra aleatoria de la misma. Por ello es importante que nos acostumbremos a manejar con propiedad algunos términos que aparecerán con frecuencia a lo largo de nuestra relación con las técnicas multivariables. Cuando se juzga a una persona, puede declarársele inocente o culpable. Independientemente del resultado del juicio, la persona será inocente o culpable de verdad. De esta forma, tenemos las cuatro posibilidades que recoge el cuadro 1. Cuadro 1. Tipos de error en la inferencia estadística Realidad Resultado del juicio Inocente Culpable Acierto Error tipo II Inocente Error tipo I Acierto Culpable Si hemos inferido que el individuo era inocente y en la realidad lo es, o lo hemos declarado culpable siéndolo, estamos ante situaciones de acierto. Sin embargo las otras dos situaciones son errores. Nos planteamos entonces qué es más grave, si declarar culpable a un inocente (error tipo I) o declarar inocente a un culpable (error tipo II). En las sociedades democráticas, se toma como menos grave la última situación, por lo que se parte del supuesto de inocencia. 5 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano En la inferencia estadística el razonamiento es análogo. Imaginemos que estamos estudiando si existe relación entre el sexo y el absentismo laboral. Si partiéramos de que hay que evitar a toda costa el error tipo II, daríamos por supuesto que sí que existe relación y veríamos si hay evidencia de lo contrario. Pueden no encontrarse observaciones contundentes que rechacen de manera clara el supuesto de relación. De esta forma se concluiría que sí existe relación y, a partir de ese momento se llevarían a cabo un abanico de decisiones basadas en ese conocimiento “científico”. Una posible consecuencia podría ser la segregación en los puestos de trabajo con motivo del sexo del aspirante. Por ese motivo, en ciencia, partimos de que no existe relación y la labor del científico consiste en encontrar las evidencias de que sí existe esa relación. Si hemos partido de que no existe relación, podemos llamar a ese enunciado hipótesis nula. El análisis estadístico va a consistir básicamente en buscar un criterio que me lleve a rechazar la hipótesis nula sólo cuando la probabilidad de que me equivoque sea muy pequeña. El término pequeño, sin embargo es algo relativo. En Ciencias Sociales se suele considerar que esa probabilidad es pequeña cuando sea inferior al 1% en unos casos o al 5% en otros. A estos valores se los conoce como niveles de significación y se les denota con la letra griega α. Cuando a esos niveles de significación podamos rechazar la hipótesis nula, diremos que la relación entre las variables analizadas es estadísticamente significativas. Hoy en día, con los programas informáticos, el contraste de hipótesis puede contemplarse desde otra perspectiva mucho más racional. Así, los programas estadísticos suelen ofrecer el llamado nivel de significación crítico α’ que suele aparecer bajo la etiqueta de p-value o significatividad. Determinado α’, se rechaza toda hipótesis nula a un nivel de significación α siempre que α’< α. El nivel de significación crítico es, pues, un indicador del nivel de admisibilidad de la hipótesis nula: cuanto mayor sea el nivel de significación crítico, mayor confianza podemos depositar en la hipótesis nula. La utilización del nivel de significación crítico, implica dar la vuelta al problema del contraste de hipótesis. Así, en lugar de fijar a priori un nivel de significación, se calcula un valor de α’ que permite determinar a posteriori para qué niveles de significación se puede rechazar la hipótesis nula. 6 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano 3 Tipos de técnicas multivariables (Hair, Anderson, Tatham y Black, 1995) Una de las decisiones más importantes, sino la más relevante, a la hora de llevar a cabo un análisis multivariado de los datos, pasa por determinar cuál es la técnica más adecuada entre las muchas posibles. Para llevar a cabo esta selección, cabe responder a tres preguntas básicas: 1. ¿Estamos tratando de establecer una relación de dependencia independencia entre unas variables y otras. 2. Si lo estamos haciendo, ¿cuántas variables independientes se están considerando en el análisis? 3. ¿Qué tipo de escala se está utilizando para medir a las variables? De la respuesta que se de a estas tres preguntas, dependerá que una u otra técnica multivariable sea la más adecuada para nuestra investigación. Veámoslas, por tanto, con más detalle. Siguiendo la figura 2 se observa que e primer criterio para seleccionar un tipo u otro de técnica, pasa por determinar si nuestro propósito es establecer o no relaciones de dependencia e independencia entre las distintas variables. De será sí, un grupo de ellas, las dependientes serán explicadas por otras, las independientes, como ocurre por ejemplo con la regresión lineal. La alternativa a esta decisión está en las técnicas de interdependencia, donde no existe un grupo de variables que sean definidas como dependientes o independientes, sino que la técnica que se aplique analizará todas las variables simultáneamente. Un ejemplo de este tipo de técnicas es el análisis factorial. 7 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Figura 2a. Clasificación de las técnicas multivariables Tipo de relación que se analiza A DEPENDENCIA: Predicción de variables dependientes por otras independientes Cuántas relaciones se miden Múltiples relaciones entre varias dependientes y las independientes Una relación entre varias dependientes y las independientes Una relación entre una dependiente y las independientes Sistemas de Ecuaciones Estructurales Escala de medida de las dependientes Escala de medida de las dependientes B Métrica No Métrica Escala de medida de las independientes Correlación canónica con v. ficticias Métrica No Métrica Métrica Regresión Múltiple Análisis Conjunto C Correlación canónica Análisis multivariable de varianza Fuente: Hair, Anderson, Tatham y Black (1995) 8 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Figura 2b. Clasificación de las técnicas multivariables A INTERDEPENDENCIA: Identificar la estructura de interrelaciones La estructura de relaciones en entre: Variables Casos/ Respuestas Objetos Análisis factorial Análisis cluster Cómo se miden los atributos B C Métrica No Métrica Escalamiento multidimensional Análisis de correspondencias No Métrica Análisis discriminante Regresión múltiple de variable dependiente limitada LEYENDA Punto de decisión Decisión tomada Técnica seleccionada Fuente: Hair, Anderson, Tatham y Black (1995) 9 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Los distintos métodos que conforman el análisis de dependencia, pueden distinguirse atendiendo a dos variables (1) el número de variables dependientes y (2) el tipo de escalas de medida utilizada con las variables. El cuadro 2 facilita al lector la elección de la técnica de dependencia más adecuada. Cuadro 2 Los métodos multivariables de dependencia Correlación canónica Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm (métricas, no métricas) (métricas, no métricas) Análisis multivariable de la varianza Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm (métricas) (no métricas) Análisis de varianza Y1 =X1 +X2 +X3 +...+Xm (métrica) (no métricas) Análisis de regresión múltiple Y1 =X1 +X2 +X3 +...+Xm (métrica) (métricas, no métricas) Análisis conjunto Y1 =X1 +X2 +X3 +...+Xm (métrica, no métrica) (no métricas) Sistemas de ecuaciones estructurales Y1 =X11 +X12 +X13 +...+X1m Y2 =X21 +X22 +X23 +...+X2m Yn =Xn1 +Xn2 +Xn3 +...+Xnm (métrica, no métrica) (no métricas) Fuente: Hair, Anderson, Tatham y Black (1995) En las técnicas de interdependencia que aparecen en la figura 2b, se observa que las variables no se clasifican en dependientes o independientes, dado que todas ellas son analizadas simultáneamente para encontrar si existe una estructura subyacente bajo el conjunto de las mismas. Cuando la relación que se busca es entre las variables, el análisis factorial es la técnica más adecuada, si 10 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano son los casos los que se agrupan para encontrar la relación subyacente se recurre al análisis conjunto. Finalmente si el interés está en la estructura de los objetos, debería aplicarse el escalamiento multidimensional. En general, el análisis factorial y el cluster se consideran que son técnicas de interdependencia métrica, aunque los datos no métricos pueden ser transformados en variables ficticias y ser utilizados. También existen las aproximaciones métricas y no métricas al análisis de escalamiento multidimensional. En el caso de que se recurra a variables no métricas, el análisis de correspondencias puede ser una alternativa al escalamiento multidimensional. 4 La construcción de un modelo multivariable (Hair, Anderson, Tatham y Black, 1995) Las técnicas multivariables son, en general, herramientas muy poderosas que permiten al investigador extraer muchísima información de los datos disponibles. Estas técnicas son, en sí mismas, relativamente complejas y requieren para su utilización un conocimiento profundo de sus fundamentos y condiciones de aplicabilidad. El desarrollo de programas informáticos de manejo sencillo, como el SPSS, están provocando su uso indiscriminado y, muchas veces, no se utilizan adecuadamente. El objeto de este epígrafe es proporcional al lector una guía que le permita la aplicación correcta de las técnicas multivariables y le facilite el llegar a conclusiones razonables. Ÿ Paso 1. Defina el problema que está investigado, sus objetivos y decida la técnica multivariable que piensa utilizar. No se puede pretender utilizar una técnica multivariable sin una adecuada aproximación teórica al problema que se está abordando. El investigador debe analizar conceptualmente su objeto de investigación, definir los conceptos e identificar las relaciones fundamentales que se pretenden investigar. Primero hay que centrarse en el tema que se investiga, y no en las técnicas que se van a emplear, lo que evitará que dejemos fuera del análisis conceptos importantes. Una vez, y sólo una vez realizado esto, el lector puede seguir los esquemas del epígrafe anterior para seleccionar la técnica más adecuada. 11 Ÿ Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Paso 2. Desarrollo del plan de análisis. Una vez establecido el modelo conceptual, el énfasis se centra en aplicar adecuadamente la técnica elegida, lo que hace referencia fundamentalmente a los tamaños muestrales mínimos que permiten su aplicación, y a asegurarse de que el procedimiento de recogida de datos (v.g. los cuestionarios) miden las variables con las escalas oportunas (métricas vs. no métricas). Ÿ Paso 3. Tenga cuidado con las condiciones de aplicabilidad de la técnica elegida. Una vez recogidos los datos, es necesario conocer cuáles son las hipótesis en que se basan las técnicas multivariables y, que si no se cumplen, hace que carezca de sentido aplicarlas. En las técnicas de dependencia, por ejemplo, suele ser necesario que los tados cumplan las hipótesis de normalidad, linealidad, independencia del término de error y homoscedasticidad. Ÿ Paso 4. Estime el modelo multivariable y establezca el ajuste global del mismo. Aplique la técnica multivariable elegida. Pero fíjese si el nivel de bondad del ajuste es adecuado. Si no es así, deberá reespecificarse el modelo, incorporando o eliminando variables. Ÿ Paso 5. Interprete los resultados. Una vez logre un nivel de ajuste aceptable, interprete el modelo. Fíjese en los efectos de las variables individuales examinando sus coeficientes, cargas factoriales, utilidades... La interpretación puede conducirle a nuevas reespecificaciones del modelo. Ÿ Paso 6. Valide el modelo. Antes de aceptar los resultados a los que haya llegado, debe aplicar una serie de técnicas de diagnóstico que asegure que estos resultados son generalizables al conjunto de la población. En la explicación de las técnicas multivariables que haremos en temas posteriores, seguiremos cada uno de estos pasos, lo que permitirá al lector comprender mejor la utilidad de aplicar este procedimiento. 12 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano 1.5 Comprobación de las condiciones de aplicabilidad del análisis multivariable. (Hair, Anderson, Tatham y Black, 1995) Como se ha indicado en el paso 3 del procedimiento antes expuesto, no basta con que las variables estén medidas en la escala adecuada para que podamos utilizar o no una técnica multivariable determinada. Es necesario asegurarse de que los datos cumplen las hipótesis que se les exige a las técnicas multivariables para poder ser aplicadas. Si no es así, las distorsiones y sesgos introducidos no nos permitirán llegar a conclusiones adecuadas. Este epígrafe lo estructuraremos en dos fases. En la primera de ellas, describiremos las técnicas de que disponemos para comprobar las principales hipótesis que deben verificar los datos. A continuación las aplicaremos a la base de datos que nos va a servir de referencia para explicar todas las técnicas multivariables de este curso, lo que facilitará su comprensión. Para ello se hace necesario detallar el contenido de la mencionada base de datos. Descripción de la base de datos. HATCO es una empresa fabricante de maquinaria industrial que ha pasado una encuesta a los jefes de compras de las empresas que adquieren sus productos, los cuales han valorado su satisfacción con HATCO respecto a siete atributos determinantes de su servicio y, además, han ofrecido información acerca de sus empresas, como su tamaño, tipo de empresa, porcentaje de sus compras de maquinaria que efectúan a HATCO y una valoración global de sus satisfacción con esta empresa. De forma más detallada, las siete variables que miden la percepción que tienen de HATCO sus clientes, son las siguientes: 1. X1: Rapidez del servicio. Tiempo que tarda en servirse el pedido una vez que éste ha sido confirmado. 2. X2: Nivel de precios. Valoración sobre el precio que se carga respecto a otros suministradores. 3. X3: Flexibilidad de precios. Voluntad de los vendedores de HATCO de negociar el precio en todo tipo de compras. 4. X4: Imagen del fabricante. Imagen global de HATCO. 5. X5: Servicio. Valoración respecto a si la calidad actual del servicio es suficiente para mantener la relación entre el comprador y HATCO. 13 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano 6. X6: Imagen de los vendedores. Imagen global de la fuerza de ventas de HATCO. 7. X7: Calidad del producto. Nivel de calidad percibida de los productos de HATCO. Todas estas variables se han medido mediante una escala gráfica constituida por una línea de diez centímetros donde en los extremos aparecen las palabras “muy mala” y “excelente”: Muy mala Excelente Los entrevistados indican su percepción marcando con una raya en cualquier lugar de la línea, que luego es medida y codificada entre cero y diez. Por su parte, las características de las empresas que compran a HATCO, se han medido mediante escalas métricas y no métricas y son las siguientes: 1. X8: Tamaño de la empresa. Tamaño relativo de la empresa respecto a otras del mercado. Se han creado dos categorías que son 1 = grande y 0 = pequeña. 2. X9: Nivel de utilización de los servicios de HATCO. Es el porcentaje del total de las compras de la empresa que se realizan a HATCO. Se mide en una escala de cien puntos, según sea el porcentaje. 3. X10: Nivel de satisfacción con HATCO. Mide cuán satisfecha está la empresa con HATCO en la misma escala que las variables X1 a X7. 4. X11: Procedimiento de compra. Establece si la empresa evalúa cada compra por separado (codificado como 1) o, por el contrario, tiene establecidas unas especificaciones de producto que se aplican a todas las compras (codificado como 0). 5. X12: Estructura de decisión. Determina si dentro de la empresa el proceso de toma de decisiones de compra está centralizado (codificado como 1) o descentralizado (codificado como 0). 6. X13: Tipo de industria. Responde a una tipología interna de HATCO que las clasifica como industria tipo A (codificado como 1) u “otros tipos” (codificado como 0). 7. X14: Tipo de situación de compra. Hace referencia a si es la primera compra a HATCO (codificado como 1), si es una recompra pero de 14 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano otros productos (código 2) o es una recompra de los mismos productos que en la última ocasión (código 3). Cuadro 3 Variables que contiene la base de datos. Dependiente vs. Descripción Escala Independiente Variable X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 Rapidez de servicio Nivel de precios Flexibilidad precios Imagen fabricante Calidad servicio Imagen vendedores Calidad producto Tamaño empresa Nivel uso servicio Nivel satisfacción Procedimiento compra Estructura decisión Tipo industria Situación compra Independiente Independiente Independiente Independiente Independiente Independiente Independiente Depend o Independ Dependiente Dependiente Depend o Independ Depend o Independ Depend o Independ Depend o Independ Métrica Métrica Métrica Métrica Métrica Métrica Métrica No métrica Métrica Métrica No métrica No métrica No métrica No métrica Establecidas las características de la base de datos, pasaremos a detallar los mecanismos de comprobación de las hipótesis que garantizan la aplicabilidad del análisis multivariante. Normalidad Es una de las hipótesis más importantes. Hace referencia al perfil que debe mostrar la distribución de frecuencias de cada variable métrica individualmente. Si este perfil se desvía de la distribución normal, cualquier prueba estadística que llevemos a cabo no sería válida. La mayoría de las técnicas multivariables exigen, además, que las variables sean multivariablemente normales, esto es, no sólo que individualmente tengan una distribución normal, sino que las combinaciones de las mismas también posean esta forma. Si las variables son multivariablemente normales, lo serán individualmente, pero lo contrario no es cierto. Comprobar la normalidad individual es relativamente sencillo, y a ello nos dedicaremos en este tema. Las pruebas de normali- 15 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano dad multivariables son más complejas y suelen ser específicas de las técnicas donde esta hipótesis es más necesaria. Serán analizadas al desarrollar esas técnicas en concreto. Los procedimientos para detectar la violación de las hipótesis de normalidad pueden agruparse en dos tipos: gráficos y estadísticos. Entre los primeros el más útil es el llamado gráfico q-q o gráfico de probabilidad normal, donde se representan los valores observados de los residuos y los esperados en el caso de que siguieran una distribución normal. La distribución normal aparece representada por una línea recta. Si las variables no están normalmente distribuidas, se alejarán de la recta como se ejemplifica en el gráfico 3. 16 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Gráfico 3 Gráficos q-q y sus correspondientes distribuciones univariadas Variable 1 Variable 2 Variable 3 Variable 4 Gráficos q-q Distribuciones univariadas En este gráfico, la variable 1 sigue una distribución normal, de manera que su gráfico q-q es una recta. La variable 2 muestra un elevado apuntamiento en su distribución, que se traduce en un gráfico q-q en forma de s. Las variables 3 y 4 están sesgadas respectivamente a la derecha e izquierda, lo que provoca que sus gráficos q-q queden por debajo de la recta en el primer caso y por encima en el segundo. 17 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano El segundo tipo de pruebas para determinar si las variables siguen o no distribuciones normales, son las llamadas pruebas estadísticas. Cada paquete informático proporciona las suyas, en el caso de SPSS que es el que vamos a utilizar, la prueba es la llamada de Kolmogorov-Smirnov-Lilliefors (KSL). Veamos la aplicación de ambas pruebas a nuestra base de datos. Como hemos indicado, sólo procede evaluar la normalidad de las variables métricas, por ello, lo haremos sobre X1 a X7 y X9 y X10. La sintaxis a aplicar con SPSS es la siguiente: EXAMINE VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10 /PLOT BOXPLOT NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. que nos proporciona la siguiente información más relevante. Como gráficos q-q mostramos dos ejemplos correspondientes a las variables X1 (rapidez del servicio) y X6 (imagen de la fuerza de ventas) Gráfico 4. Los gráficos q-q en SPSS Gráfico Q-Q normal de Rapidez de servicio 3 2 1 Normal esperado 0 -1 -2 -3 -1 0 1 Valor observado 2 3 4 5 6 7 18 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Gráfico Q-Q normal de Imagen de los vendedores 3 2 1 Normal esperado 0 -1 -2 -3 0 1 2 3 4 5 Valor observado Por su parte, la salida del test de Kolmogorov-Smirnov-Lilliefors es la siguiente: Cuadro 4 El test KSL en SPSS Pruebas de normalidad Kolmogorov-Smirnova Estadístico gl Sig. Rapidez de servicio ,063 100 ,200* nivel de precios ,095 ,095 100 100 ,028 ,027 ,107 100 ,007 ,085 100 ,069 ,122 100 ,001 flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto ,091 100 ,041 Nivel de uso ,079 100 ,131 nivel de satisfacción ,078 100 ,142 *. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors El test KSL plantea la hipótesis nula de que la variable se distribuye según una normal, por lo que hay que comprobar si para alguna variable existe un valor p inferior al nivel de significación que, como dijimos, podía ser 0,01 o 0,05. Si es así, podremos rechazar para esa variable la hipótesis nula y, consecuentemente, afirmar que esa variable no se distribuye según una normal. Puede observarse en el cuadro 4 que las variables X4 “imagen del fabricante” (p=0,007) y X6 “imagen de los vendedores” (p=0,001) tienen valores de p inferiores a 0,01, por lo que podremos concluir que no siguen una distribución normal. A la misma conclusión podríamos haber llegado analizando el gráfico 1.4. En él se comprueba como en la gráfica correspondiente a la variable X1 “rapidez del 19 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano servicio” los valores se agrupan en torno a la recta, mientras que en la variable X6 “imagen de los vendedores”, el perfil es más parecido al que mostrábamos en la variable 2 de gráfico 3, que correspondía a una distribución no normal. Si hubiésemos elegido 0.05 como nivel de significación, las variables X2 “nivel de precios” y X3 “flexibilidad de precios” tampoco tendrían un comportamiento normal. ¿Qué hacer con variables que no muestran un comportamiento normal? Lo habitual es recurrir a transformaciones del tipo: ìï x p p ¹ 0 T (x ) = ïí ïï ln x î es decir, a tomar logaritmos neperianos de la variable o tomar diversas raíces (p = ½ serían cuadradas) o elevar al cuadrado (p = 2), al cubo (p = 3), etc. Para determinar la más adecuada, basta con transformar y volver a aplicar el test de KSL descrito. Homoscedasticidad La segunda asunción que se hace sobre los datos, para poder aplicar las técnicas multivariables, hace referencia a la igualdad de varianza entre las variables independientes, ya sean éstas métricas o no métricas, respecto a la variable o variables dependientes. SPSS proporciona un test específico para analizar esta hipótesis, el test de Levene, cuya hipótesis nula es la homoscedasticidad, es decir, que las varianzas son iguales. En nuestro ejemplo, habría que realizar esta prueba de homoscedasticidad para el conjunto de variables independientes (X1, X2, X3, X4, X5, X6, X7, X9 y X10), con respecto a las posibles variables dependientes que, como se señaló en el cuadro 3, pueden ser las variables (X8, X11, X12, X13 y X14). La sintaxis par obtener este test en SPSS, sería la siguiente: 20 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano EXAMINE VARIABLES= x1 x2 x3 x4 x5 x6 x9 x10 x7 BY x8 x11 x12 x13 x14 /PLOT SPREADLEVEL /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. A modo de ejemplo, ofrecemos en el cuadro 5 la salida correspondiente a analizar la homoscedaticidad de las variables independientes respecto a la variable X8 o “tamaño de la empresa”. Puede comprobarse que, tomando como nivel de significación 0,05, los valores p correspondientes a X4 “imagen del fabricante” (p=0,012), X5 “servicio” (p=0,006), X6 “imagen de los vendedores” (p=0.024) y X7 “Calidad del producto” (p=0,004) permiten rechazar la hipótesis nula de homoscedasticidad y, por ello, será necesario realizar transformaciones análogas a las que llevábamos a cabo para conseguir la normalidad, con el fin de poder aplicar muchas de las técnicas multivariables que analizaremos. 21 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Cuadro 5. Salida de SPSS para el análisis de homoscedasticidad Prueba de homogeneidad de la varianza Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Nivel de uso nivel de satisfacción Calidad del producto Estadístico de Levene ,934 1 98 Sig. ,336 Basándose en la mediana. ,993 1 98 ,321 Basándose en la mediana y con gl corregido ,993 1 92,885 ,322 Basándose en la media recortada ,934 1 98 ,336 Basándose en la media 1,582 1 98 ,211 Basándose en la mediana. 1,668 1 98 ,200 Basándose en la mediana y con gl corregido 1,668 1 97,938 ,200 Basándose en la media recortada 1,685 Basándose en la media Basándose en la media gl1 gl2 1 98 ,197 1,194 1 98 ,277 Basándose en la mediana. ,749 1 98 ,389 Basándose en la mediana y con gl corregido ,749 1 85,351 ,389 Basándose en la media recortada ,817 1 98 ,368 Basándose en la media 6,549 1 98 ,012 Basándose en la mediana. 3,960 1 98 ,049 Basándose en la mediana y con gl corregido 3,960 1 79,356 ,050 Basándose en la media recortada 6,353 1 98 ,013 Basándose en la media 7,819 1 98 ,006 Basándose en la mediana. 6,741 1 98 ,011 Basándose en la mediana y con gl corregido 6,741 1 83,075 ,011 Basándose en la media recortada 7,932 1 98 ,006 Basándose en la media 5,241 1 98 ,024 Basándose en la mediana. 4,604 1 98 ,034 Basándose en la mediana y con gl corregido 4,604 1 93,255 ,034 Basándose en la media recortada 4,977 1 98 ,028 Basándose en la media 1,377 1 98 ,243 Basándose en la mediana. 1,305 1 98 ,256 Basándose en la mediana y con gl corregido 1,305 1 97,893 ,256 Basándose en la media recortada 1,325 1 98 ,252 Basándose en la media ,323 1 98 ,571 Basándose en la mediana. ,194 1 98 ,660 Basándose en la mediana y con gl corregido ,194 1 97,681 ,660 Basándose en la media recortada ,303 1 98 ,584 Basándose en la media 8,748 1 98 ,004 Basándose en la mediana. 9,178 1 98 ,003 Basándose en la mediana y con gl corregido 9,178 1 97,298 ,003 Basándose en la media recortada 8,811 1 98 ,004 Linealidad La última hipótesis que es necesario analizar es la linealidad, sobre todo en aquellas técnicas multivariables basadas en medidas de asociación como las correlaciones, incluyendo la regresión múltiple, la logística, el análisis factorial, el análisis conjunto y los sistemas de ecuaciones estructurales. Dado que la correlación representa asociaciones lineales entre variables, la ausencia de linealidad provoca que el coeficiente de correlación no mida adecuadamente la relación entre los pares de variables. 22 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano Disponemos, de nuevo, de dos procedimientos para analizar este supuesto. El primero consiste en recurrir a representaciones gráficas bivariables para visualizar si la relación que podemos aventurar es o no lineal. Por otro lado, los coeficientes de correlación suelen ofrecer un indicador del grado de significación del mismo. La hipótesis nula es que el coeficiente de correlación no es significativo y el valor de p nos permitirá aceptarla o rechazarla. La siguiente sintaxis de SPSS nos permite llevar a cabo ambos procedimientos: GRAPH /SCATTERPLOT(MATRIX)=x1 x4 x6 /MISSING=LISTWISE . CORRELATIONS /VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. donde sólo se pide, a modo de ejemplo, que se realicen los gráficos de dispersión entre las variables X1 “rapidez del servicio”, X4 “imagen del fabricante” y X6 “imagen de los vendedores”. A simple vista se observa que no parece que exista una relación lineal entre la rapidez del servicio y la imagen de los fabricantes, pero sí y bastante marcada, entre la imagen de los fabricantes y la de los vendedores. Gráfico 5. Gráficos de dispersión entre variables Rapidez de servicio Imagen del fabricant Imagen de los vended El cuadro 6 nos confirma esta apreciación visual. Así, se comprueba que el coeficiente de correlación de Pearson entre la variable “rapidez del servicio” y la “imagen de la empresa”, que toma un valor de 0,05 no aparece marcado con *, que diría que es significativo para un nivel del 5% ni con ** que indicaría que lo es al 1%. Esta misma información nos la proporcionan las p, que toma 23 Análisis multivariable: conceptos básicos Joaquín Aldás Manzano un valor de 0.618 que al ser claramente superior a 0.01 y 0.05 no permiten rechazar la hipótesis nula de no significatividad del coeficiente de correlación. Sin embargo, el coeficiente de correlación de Pearson entre la imagen de la empresa y la imagen de los vendedores, que es de 0,788 aparece marcado como ** y su p es de 0,000 que al ser inferior a 0,01 y 0,05 confirma de nuevo la apreciación visual que hicimos al analizar el gráfico 5. Cuadro 6. Coeficientes de correlación de Pearson Correlaciones Rapidez de servicio Rapidez de servicio nivel de precios flexibilidad de precios N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Servicio Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Calidad del producto Nivel de uso nivel de satisfacción flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto Nivel de uso nivel de satisfacción Correlación de Pearson Sig. (bilateral) Imagen del fabricante Imagen de los vendedores nivel de precios Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N -,349** ,000 100 ,509** -,487 ** ,000 100 ,050 ,618 ,000 100 ,272 ** ,006 -,116 ,250 100 ,612** ,000 100 ,513 ** ,000 100 ,067 ,510 ,299** ,003 100 ,077 ,444 100 100 ,185 ,065 100 100 -,035 ,731 100 100 ,788** ,000 100 ,470 ** ,000 100 -,448** ,000 100 ,200* ,046 100 -,483** ,000 100 ,240* ,016 100 -,055 ,586 100 ,177 ,079 100 ,676** ,000 100 ,651** ,082 ,418 100 ,028 ,559** ,000 100 ,525** ,224* ,025 100 ,476** ,701** ,000 100 ,631** ,255* ,010 100 ,341** ,000 100 ,779 100 ,000 100 ,000 100 ,000 100 ,001 100 -,192 ,055 100 -,283 ** ,004 100 ,711** ,000 100 **. La correlación es significativa al nivel 0,01 (bilateral). *. La correlación es significante al nivel 0,05 (bilateral). Referencias bibliográficas HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate Data Analysis. 4ª edición. Englewood Cliffs: Prentice Hall. MANZANO ,V. (1995): Inferencia estadística: aplicaciones con SPSS/PC+. Madrid: RA-MA. URIEL , E. (1995): Análisis de datos. Series temporales y análisis multivariante. Madrid: Editorial AC.