El análisis multivariable: conceptos básicos

Anuncio
El análisis multivariable:
conceptos básicos
Joaquín Aldás Manzano1
Universitat de València
Dpto. de Dirección de Empresas “Juan José Renau Piqueras”
1
Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de seleccionar, ordenar y, en algunos casos traducir los textos originales.
2
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
El análisis multivariable: conceptos básicos
1. ¿Qué es el análisis multivariable?
(Hair, Anderson, Tatham y Black, 1995)
El análisis multivariable no es fácil de definir. En general, se refiere a aquellos
métodos estadísticos que analizan simultáneamente diversas variables en cada
individuo u objeto sobre el cual se investiga. Cualquier análisis simultáneo de
más de dos variables, puede considerarse análisis multivariable. De hecho,
muchas técnicas multivariable son la simple extensión de análisis univariados o
bivariados. Así, por ejemplo, la regresión simple (con una sola variable independiente), es una técnica multivariable cuando se extiende a varios regresores.
Otras técnicas, sin embargo, como el análisis factorial o el análisis
discriminante, están específicamente diseñadas para trabajar únicamente con
estructuras multivariables.
2. Conceptos básicos
Escalas de medida
(Manzano, 1995; Uriel, 1995)
El análisis de datos, implica la identificación y medida de la variación en un
conjunto de variables, bien entre ellas mismas o entre una variable dependiente
y una o más independientes. La palabra clave es medida, puesto que el investigador no puede identificar la variación hasta que ésta sea medida. En cualquier
técnica de análisis multivariable, juega un papel muy importante el tipo de
escala en que las variables estén medidas de hecho, como veremos, un criterio
determinante para decidir qué técnica multivariable es la adecuada para resolver un problema determinado, será el tipo de escala en que estén medidas las
variables dependientes e independientes. Podemos distinguir entre:
Ÿ
Escalas nominales. En este caso, los números se comportan como etiquetas,
con tanta validez como una letra del alfabeto. Su misión es distinguir entre
diferentes valores; por ejemplo: sexo (hombre, mujer). En el proceso de
codificación se puede asignar 1 al valor hombre y 2 al valor mujer. Esto no
significa que la mujer sea mayor que el hombre (2>1) ni el doble (2=1x2),
ni que existan personas de sexo intermedio (1,5).
3
Ÿ
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Escalas ordinales. No sólo consigue distinguir entre valores, como la
anterior, sino que además establece un orden entre ellos. El dato representado por un 3 es superior al representado por un 2; por ejemplo tamaño
relativo (enorme, grande, normal, pequeño, diminuto). Si codificamos estos
valores de la siguiente forma:
1 à diminuto; 2 à pequeño; 3 à normal; 4 à grande; 5 à enorme
Ÿ
entonces es cierta la relación de orden, puesto que 1<2<3<4<5, pero no es
cierto que entre grande y enorme exista la misma diferencia que entre
pequeño y normal (5-4 = 1 = 3-2), como tampoco que pequeño sea el doble
que diminuto (2=1x2).
Escalas de intervalo. Además de distinción y orden, la distancia o diferencia
entre dos valores consecutivos cualesquiera es siempre la misma. En este
caso, entre el valor representado por un 3 y el representado por un 2, existe
la misma diferencia que entre 5 y 4. Por ejemplo, la temperatura medida en
grados centígrados. En este caso, no sólo 100º es diferente a 80º, sino que es
mayor (100º>80º); inclusive la diferencia de temperatura entre ambos es la
misma que entre 80º y 60º (100-80 = 80-60). Pero no existe un cero absoluto, ya que la temperatura de 0º no significa ausencia de temperatura. De
esta forma 100º no es el doble de 50º. Veámoslo con un ejemplo. Creemos
una nueva escala de temperatura que llamaremos en “arcias”, donde 1 arcia
= 1 grado centígrado. Pero esta escala no tiene el cero cuando el agua se
congela (0ºC) sino cuando entre en ebullición (100ºC). Como se observa en
la figura 1, si decimos que 40 arcias es el doble de 20 arcias, es tanto como
afirmar que 140º es el doble de 120º.
Figura 1. Ejemplo de escalas de intervalo
Arcias
80
60
40
20
0
-20
Ÿ
Centígrados
180
160
140
120
100
80
Escalas de razón. Además de la distinción, orden e intervalo, se añade un
origen absoluto, de forma que no sólo cabe hallar diferencias (ya se podía
4
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
hacer en la escala de intervalo), sino también múltiplos exactos. En este
caso el valor representado por 4 tiene doble cantidad medida que el representado por 2. Éste es el caso, por ejemplo, de la edad expresada en años.
Así, 40 y 20 años son edades distintas, 40 años es una edad superior a 20
años, entre 20 y 40 años hay la misma diferencia de edad que entre 30 y 50
y, además, el 0 tiene sentido. Una persona con 0 años realmente no tiene
edad, todavía no ha nacido. De esta forma, 40 es exactamente el doble de
20.
En estos apuntes, en diferentes ocasiones, utilizaremos las expresiones escalas
métricas, escalas no métricas. No es una clasificación alternativa, sino que la
literatura agrupa a las escalas nominales y ordinales bajo el nombre de no
métricas y a las de intervalo y razón bajo el de escalas métricas.
La inferencia estadística
(Manzano, 1995)
Todas las técnicas multivariables, excepto el análisis cluster y el escalamiento
multidimensional, están basados en inferir los valores reales que toma una
variable en una población, a partir de los valores que toma esa variable en una
muestra aleatoria de la misma. Por ello es importante que nos acostumbremos
a manejar con propiedad algunos términos que aparecerán con frecuencia a lo
largo de nuestra relación con las técnicas multivariables.
Cuando se juzga a una persona, puede declarársele inocente o culpable.
Independientemente del resultado del juicio, la persona será inocente o culpable de verdad. De esta forma, tenemos las cuatro posibilidades que recoge el
cuadro 1.
Cuadro 1. Tipos de error en la inferencia estadística
Realidad
Resultado del juicio
Inocente
Culpable
Acierto
Error tipo II
Inocente
Error tipo I
Acierto
Culpable
Si hemos inferido que el individuo era inocente y en la realidad lo es, o lo
hemos declarado culpable siéndolo, estamos ante situaciones de acierto. Sin
embargo las otras dos situaciones son errores. Nos planteamos entonces qué es
más grave, si declarar culpable a un inocente (error tipo I) o declarar inocente
a un culpable (error tipo II). En las sociedades democráticas, se toma como
menos grave la última situación, por lo que se parte del supuesto de inocencia.
5
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
En la inferencia estadística el razonamiento es análogo. Imaginemos que
estamos estudiando si existe relación entre el sexo y el absentismo laboral. Si
partiéramos de que hay que evitar a toda costa el error tipo II, daríamos por
supuesto que sí que existe relación y veríamos si hay evidencia de lo contrario.
Pueden no encontrarse observaciones contundentes que rechacen de manera
clara el supuesto de relación. De esta forma se concluiría que sí existe relación
y, a partir de ese momento se llevarían a cabo un abanico de decisiones
basadas en ese conocimiento “científico”. Una posible consecuencia podría ser
la segregación en los puestos de trabajo con motivo del sexo del aspirante. Por
ese motivo, en ciencia, partimos de que no existe relación y la labor del científico consiste en encontrar las evidencias de que sí existe esa relación.
Si hemos partido de que no existe relación, podemos llamar a ese enunciado hipótesis nula. El análisis estadístico va a consistir básicamente en buscar
un criterio que me lleve a rechazar la hipótesis nula sólo cuando la probabilidad de que me equivoque sea muy pequeña. El término pequeño, sin embargo
es algo relativo. En Ciencias Sociales se suele considerar que esa probabilidad
es pequeña cuando sea inferior al 1% en unos casos o al 5% en otros. A estos
valores se los conoce como niveles de significación y se les denota con la letra
griega α. Cuando a esos niveles de significación podamos rechazar la hipótesis
nula, diremos que la relación entre las variables analizadas es estadísticamente
significativas.
Hoy en día, con los programas informáticos, el contraste de hipótesis puede
contemplarse desde otra perspectiva mucho más racional. Así, los programas
estadísticos suelen ofrecer el llamado nivel de significación crítico α’ que suele
aparecer bajo la etiqueta de p-value o significatividad. Determinado α’, se
rechaza toda hipótesis nula a un nivel de significación α siempre que α’< α. El
nivel de significación crítico es, pues, un indicador del nivel de admisibilidad de
la hipótesis nula: cuanto mayor sea el nivel de significación crítico, mayor
confianza podemos depositar en la hipótesis nula. La utilización del nivel de
significación crítico, implica dar la vuelta al problema del contraste de
hipótesis. Así, en lugar de fijar a priori un nivel de significación, se calcula un
valor de α’ que permite determinar a posteriori para qué niveles de significación se puede rechazar la hipótesis nula.
6
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
3 Tipos de técnicas multivariables
(Hair, Anderson, Tatham y Black, 1995)
Una de las decisiones más importantes, sino la más relevante, a la hora de
llevar a cabo un análisis multivariado de los datos, pasa por determinar cuál es
la técnica más adecuada entre las muchas posibles.
Para llevar a cabo esta selección, cabe responder a tres preguntas básicas:
1. ¿Estamos tratando de establecer una relación de dependencia independencia entre unas variables y otras.
2. Si lo estamos haciendo, ¿cuántas variables independientes se están
considerando en el análisis?
3. ¿Qué tipo de escala se está utilizando para medir a las variables?
De la respuesta que se de a estas tres preguntas, dependerá que una u otra
técnica multivariable sea la más adecuada para nuestra investigación. Veámoslas, por tanto, con más detalle.
Siguiendo la figura 2 se observa que e primer criterio para seleccionar un tipo u
otro de técnica, pasa por determinar si nuestro propósito es establecer o no
relaciones de dependencia e independencia entre las distintas variables. De será
sí, un grupo de ellas, las dependientes serán explicadas por otras, las independientes, como ocurre por ejemplo con la regresión lineal. La alternativa a esta
decisión está en las técnicas de interdependencia, donde no existe un grupo de
variables que sean definidas como dependientes o independientes, sino que la
técnica que se aplique analizará todas las variables simultáneamente. Un
ejemplo de este tipo de técnicas es el análisis factorial.
7
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Figura 2a. Clasificación de las técnicas multivariables
Tipo de relación que
se analiza
A
DEPENDENCIA:
Predicción de
variables dependientes
por otras
independientes
Cuántas relaciones
se miden
Múltiples relaciones
entre varias
dependientes y las
independientes
Una relación entre
varias dependientes y
las independientes
Una relación entre una
dependiente y las
independientes
Sistemas de
Ecuaciones
Estructurales
Escala de medida de las
dependientes
Escala de medida de las
dependientes
B
Métrica
No Métrica
Escala de medida de las
independientes
Correlación
canónica con v.
ficticias
Métrica
No Métrica
Métrica
Regresión Múltiple
Análisis Conjunto
C
Correlación
canónica
Análisis
multivariable de
varianza
Fuente: Hair, Anderson, Tatham y Black (1995)
8
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Figura 2b. Clasificación de las técnicas multivariables
A
INTERDEPENDENCIA:
Identificar la
estructura de
interrelaciones
La estructura de
relaciones en entre:
Variables
Casos/
Respuestas
Objetos
Análisis factorial
Análisis cluster
Cómo se miden los
atributos
B
C
Métrica
No Métrica
Escalamiento
multidimensional
Análisis de
correspondencias
No Métrica
Análisis
discriminante
Regresión múltiple
de variable
dependiente
limitada
LEYENDA
Punto de decisión
Decisión tomada
Técnica seleccionada
Fuente: Hair, Anderson, Tatham y Black (1995)
9
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Los distintos métodos que conforman el análisis de dependencia, pueden distinguirse atendiendo a dos variables (1) el número de variables dependientes y (2)
el tipo de escalas de medida utilizada con las variables. El cuadro 2 facilita al
lector la elección de la técnica de dependencia más adecuada.
Cuadro 2 Los métodos multivariables de dependencia
Correlación canónica
Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm
(métricas, no métricas)
(métricas, no métricas)
Análisis multivariable de la varianza
Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm
(métricas)
(no métricas)
Análisis de varianza
Y1 =X1 +X2 +X3 +...+Xm
(métrica)
(no métricas)
Análisis de regresión múltiple
Y1 =X1 +X2 +X3 +...+Xm
(métrica) (métricas, no métricas)
Análisis conjunto
Y1 =X1 +X2 +X3 +...+Xm
(métrica, no métrica) (no métricas)
Sistemas de ecuaciones estructurales
Y1 =X11 +X12 +X13 +...+X1m
Y2 =X21 +X22 +X23 +...+X2m
Yn =Xn1 +Xn2 +Xn3 +...+Xnm
(métrica, no métrica)
(no métricas)
Fuente: Hair, Anderson, Tatham y Black (1995)
En las técnicas de interdependencia que aparecen en la figura 2b, se observa
que las variables no se clasifican en dependientes o independientes, dado que
todas ellas son analizadas simultáneamente para encontrar si existe una estructura subyacente bajo el conjunto de las mismas. Cuando la relación que se
busca es entre las variables, el análisis factorial es la técnica más adecuada, si
10
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
son los casos los que se agrupan para encontrar la relación subyacente se
recurre al análisis conjunto. Finalmente si el interés está en la estructura de los
objetos, debería aplicarse el escalamiento multidimensional.
En general, el análisis factorial y el cluster se consideran que son técnicas de
interdependencia métrica, aunque los datos no métricos pueden ser transformados en variables ficticias y ser utilizados. También existen las aproximaciones
métricas y no métricas al análisis de escalamiento multidimensional. En el caso
de que se recurra a variables no métricas, el análisis de correspondencias puede
ser una alternativa al escalamiento multidimensional.
4 La construcción de un modelo multivariable
(Hair, Anderson, Tatham y Black, 1995)
Las técnicas multivariables son, en general, herramientas muy poderosas que
permiten al investigador extraer muchísima información de los datos disponibles. Estas técnicas son, en sí mismas, relativamente complejas y requieren para
su utilización un conocimiento profundo de sus fundamentos y condiciones de
aplicabilidad. El desarrollo de programas informáticos de manejo sencillo, como
el SPSS, están provocando su uso indiscriminado y, muchas veces, no se utilizan adecuadamente.
El objeto de este epígrafe es proporcional al lector una guía que le permita la
aplicación correcta de las técnicas multivariables y le facilite el llegar a conclusiones razonables.
Ÿ
Paso 1. Defina el problema que está investigado, sus objetivos
y decida la técnica multivariable que piensa utilizar.
No se puede pretender utilizar una técnica multivariable sin una adecuada
aproximación teórica al problema que se está abordando. El investigador
debe analizar conceptualmente su objeto de investigación, definir los
conceptos e identificar las relaciones fundamentales que se pretenden investigar. Primero hay que centrarse en el tema que se investiga, y no en las
técnicas que se van a emplear, lo que evitará que dejemos fuera del análisis
conceptos importantes. Una vez, y sólo una vez realizado esto, el lector
puede seguir los esquemas del epígrafe anterior para seleccionar la técnica
más adecuada.
11
Ÿ
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Paso 2. Desarrollo del plan de análisis.
Una vez establecido el modelo conceptual, el énfasis se centra en aplicar
adecuadamente la técnica elegida, lo que hace referencia fundamentalmente
a los tamaños muestrales mínimos que permiten su aplicación, y a asegurarse de que el procedimiento de recogida de datos (v.g. los cuestionarios)
miden las variables con las escalas oportunas (métricas vs. no métricas).
Ÿ
Paso 3. Tenga cuidado con las condiciones de aplicabilidad de
la técnica elegida.
Una vez recogidos los datos, es necesario conocer cuáles son las hipótesis en
que se basan las técnicas multivariables y, que si no se cumplen, hace que
carezca de sentido aplicarlas. En las técnicas de dependencia, por ejemplo,
suele ser necesario que los tados cumplan las hipótesis de normalidad, linealidad, independencia del término de error y homoscedasticidad.
Ÿ
Paso 4. Estime el modelo multivariable y establezca el ajuste
global del mismo.
Aplique la técnica multivariable elegida. Pero fíjese si el nivel de bondad del
ajuste es adecuado. Si no es así, deberá reespecificarse el modelo, incorporando o eliminando variables.
Ÿ
Paso 5. Interprete los resultados.
Una vez logre un nivel de ajuste aceptable, interprete el modelo. Fíjese en
los efectos de las variables individuales examinando sus coeficientes, cargas
factoriales, utilidades... La interpretación puede conducirle a nuevas reespecificaciones del modelo.
Ÿ
Paso 6. Valide el modelo.
Antes de aceptar los resultados a los que haya llegado, debe aplicar una
serie de técnicas de diagnóstico que asegure que estos resultados son generalizables al conjunto de la población.
En la explicación de las técnicas multivariables que haremos en temas posteriores, seguiremos cada uno de estos pasos, lo que permitirá al lector comprender
mejor la utilidad de aplicar este procedimiento.
12
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
1.5 Comprobación de las condiciones de aplicabilidad del análisis
multivariable.
(Hair, Anderson, Tatham y Black, 1995)
Como se ha indicado en el paso 3 del procedimiento antes expuesto, no basta
con que las variables estén medidas en la escala adecuada para que podamos
utilizar o no una técnica multivariable determinada. Es necesario asegurarse de
que los datos cumplen las hipótesis que se les exige a las técnicas multivariables
para poder ser aplicadas. Si no es así, las distorsiones y sesgos introducidos no
nos permitirán llegar a conclusiones adecuadas.
Este epígrafe lo estructuraremos en dos fases. En la primera de ellas, describiremos las técnicas de que disponemos para comprobar las principales hipótesis
que deben verificar los datos. A continuación las aplicaremos a la base de datos
que nos va a servir de referencia para explicar todas las técnicas multivariables
de este curso, lo que facilitará su comprensión. Para ello se hace necesario
detallar el contenido de la mencionada base de datos.
Descripción de la base de datos.
HATCO es una empresa fabricante de maquinaria industrial que ha pasado
una encuesta a los jefes de compras de las empresas que adquieren sus productos, los cuales han valorado su satisfacción con HATCO respecto a siete atributos determinantes de su servicio y, además, han ofrecido información acerca de
sus empresas, como su tamaño, tipo de empresa, porcentaje de sus compras de
maquinaria que efectúan a HATCO y una valoración global de sus satisfacción
con esta empresa.
De forma más detallada, las siete variables que miden la percepción que tienen
de HATCO sus clientes, son las siguientes:
1. X1: Rapidez del servicio. Tiempo que tarda en servirse el pedido una
vez que éste ha sido confirmado.
2. X2: Nivel de precios. Valoración sobre el precio que se carga respecto
a otros suministradores.
3. X3: Flexibilidad de precios. Voluntad de los vendedores de HATCO
de negociar el precio en todo tipo de compras.
4. X4: Imagen del fabricante. Imagen global de HATCO.
5. X5: Servicio. Valoración respecto a si la calidad actual del servicio es
suficiente para mantener la relación entre el comprador y HATCO.
13
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
6. X6: Imagen de los vendedores. Imagen global de la fuerza de ventas
de HATCO.
7. X7: Calidad del producto. Nivel de calidad percibida de los productos
de HATCO.
Todas estas variables se han medido mediante una escala gráfica constituida
por una línea de diez centímetros donde en los extremos aparecen las palabras
“muy mala” y “excelente”:
Muy mala
Excelente
Los entrevistados indican su percepción marcando con una raya en cualquier
lugar de la línea, que luego es medida y codificada entre cero y diez.
Por su parte, las características de las empresas que compran a HATCO, se
han medido mediante escalas métricas y no métricas y son las siguientes:
1. X8: Tamaño de la empresa. Tamaño relativo de la empresa respecto
a otras del mercado. Se han creado dos categorías que son 1 =
grande y 0 = pequeña.
2. X9: Nivel de utilización de los servicios de HATCO. Es el porcentaje
del total de las compras de la empresa que se realizan a HATCO. Se
mide en una escala de cien puntos, según sea el porcentaje.
3. X10: Nivel de satisfacción con HATCO. Mide cuán satisfecha está la
empresa con HATCO en la misma escala que las variables X1 a X7.
4. X11: Procedimiento de compra. Establece si la empresa evalúa cada
compra por separado (codificado como 1) o, por el contrario, tiene
establecidas unas especificaciones de producto que se aplican a todas
las compras (codificado como 0).
5. X12: Estructura de decisión. Determina si dentro de la empresa el
proceso de toma de decisiones de compra está centralizado (codificado como 1) o descentralizado (codificado como 0).
6. X13: Tipo de industria. Responde a una tipología interna de
HATCO que las clasifica como industria tipo A (codificado como 1) u
“otros tipos” (codificado como 0).
7. X14: Tipo de situación de compra. Hace referencia a si es la primera
compra a HATCO (codificado como 1), si es una recompra pero de
14
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
otros productos (código 2) o es una recompra de los mismos productos que en la última ocasión (código 3).
Cuadro 3 Variables que contiene la base de datos.
Dependiente vs.
Descripción
Escala
Independiente
Variable
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
Rapidez de servicio
Nivel de precios
Flexibilidad precios
Imagen fabricante
Calidad servicio
Imagen vendedores
Calidad producto
Tamaño empresa
Nivel uso servicio
Nivel satisfacción
Procedimiento compra
Estructura decisión
Tipo industria
Situación compra
Independiente
Independiente
Independiente
Independiente
Independiente
Independiente
Independiente
Depend o Independ
Dependiente
Dependiente
Depend o Independ
Depend o Independ
Depend o Independ
Depend o Independ
Métrica
Métrica
Métrica
Métrica
Métrica
Métrica
Métrica
No métrica
Métrica
Métrica
No métrica
No métrica
No métrica
No métrica
Establecidas las características de la base de datos, pasaremos a detallar los
mecanismos de comprobación de las hipótesis que garantizan la aplicabilidad
del análisis multivariante.
Normalidad
Es una de las hipótesis más importantes. Hace referencia al perfil que debe
mostrar la distribución de frecuencias de cada variable métrica
individualmente. Si este perfil se desvía de la distribución normal, cualquier
prueba estadística que llevemos a cabo no sería válida. La mayoría de las técnicas multivariables exigen, además, que las variables sean multivariablemente
normales, esto es, no sólo que individualmente tengan una distribución normal,
sino que las combinaciones de las mismas también posean esta forma.
Si las variables son multivariablemente normales, lo serán individualmente,
pero lo contrario no es cierto. Comprobar la normalidad individual es relativamente sencillo, y a ello nos dedicaremos en este tema. Las pruebas de normali-
15
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
dad multivariables son más complejas y suelen ser específicas de las técnicas
donde esta hipótesis es más necesaria. Serán analizadas al desarrollar esas
técnicas en concreto.
Los procedimientos para detectar la violación de las hipótesis de normalidad
pueden agruparse en dos tipos: gráficos y estadísticos. Entre los primeros el
más útil es el llamado gráfico q-q o gráfico de probabilidad normal, donde se
representan los valores observados de los residuos y los esperados en el caso de
que siguieran una distribución normal. La distribución normal aparece representada por una línea recta. Si las variables no están normalmente distribuidas,
se alejarán de la recta como se ejemplifica en el gráfico 3.
16
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Gráfico 3 Gráficos q-q y sus correspondientes distribuciones univariadas
Variable 1
Variable 2
Variable 3
Variable 4
Gráficos q-q
Distribuciones
univariadas
En este gráfico, la variable 1 sigue una distribución normal, de manera que su
gráfico q-q es una recta. La variable 2 muestra un elevado apuntamiento en su
distribución, que se traduce en un gráfico q-q en forma de s. Las variables 3 y 4
están sesgadas respectivamente a la derecha e izquierda, lo que provoca que sus
gráficos q-q queden por debajo de la recta en el primer caso y por encima en el
segundo.
17
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
El segundo tipo de pruebas para determinar si las variables siguen o no distribuciones normales, son las llamadas pruebas estadísticas. Cada paquete informático proporciona las suyas, en el caso de SPSS que es el que vamos a
utilizar, la prueba es la llamada de Kolmogorov-Smirnov-Lilliefors (KSL).
Veamos la aplicación de ambas pruebas a nuestra base de datos. Como hemos
indicado, sólo procede evaluar la normalidad de las variables métricas, por ello,
lo haremos sobre X1 a X7 y X9 y X10. La sintaxis a aplicar con SPSS es la
siguiente:
EXAMINE
VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10
/PLOT BOXPLOT NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
que nos proporciona la siguiente información más relevante. Como gráficos q-q
mostramos dos ejemplos correspondientes a las variables X1 (rapidez del servicio) y X6 (imagen de la fuerza de ventas)
Gráfico 4. Los gráficos q-q en SPSS
Gráfico Q-Q normal de Rapidez de servicio
3
2
1
Normal esperado
0
-1
-2
-3
-1
0
1
Valor observado
2
3
4
5
6
7
18
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Gráfico Q-Q normal de Imagen de los vendedores
3
2
1
Normal esperado
0
-1
-2
-3
0
1
2
3
4
5
Valor observado
Por su parte, la salida del test de Kolmogorov-Smirnov-Lilliefors es la siguiente:
Cuadro 4 El test KSL en SPSS
Pruebas de normalidad
Kolmogorov-Smirnova
Estadístico
gl
Sig.
Rapidez de servicio
,063
100
,200*
nivel de precios
,095
,095
100
100
,028
,027
,107
100
,007
,085
100
,069
,122
100
,001
flexibilidad de precios
Imagen del fabricante
Servicio
Imagen de los
vendedores
Calidad del producto
,091
100
,041
Nivel de uso
,079
100
,131
nivel de satisfacción
,078
100
,142
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
El test KSL plantea la hipótesis nula de que la variable se distribuye según una
normal, por lo que hay que comprobar si para alguna variable existe un valor p
inferior al nivel de significación que, como dijimos, podía ser 0,01 o 0,05. Si es
así, podremos rechazar para esa variable la hipótesis nula y, consecuentemente,
afirmar que esa variable no se distribuye según una normal. Puede observarse
en el cuadro 4 que las variables X4 “imagen del fabricante” (p=0,007) y X6
“imagen de los vendedores” (p=0,001) tienen valores de p inferiores a 0,01, por
lo que podremos concluir que no siguen una distribución normal. A la misma
conclusión podríamos haber llegado analizando el gráfico 1.4. En él se
comprueba como en la gráfica correspondiente a la variable X1 “rapidez del
19
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
servicio” los valores se agrupan en torno a la recta, mientras que en la variable
X6 “imagen de los vendedores”, el perfil es más parecido al que mostrábamos
en la variable 2 de gráfico 3, que correspondía a una distribución no normal.
Si hubiésemos elegido 0.05 como nivel de significación, las variables X2 “nivel
de precios” y X3 “flexibilidad de precios” tampoco tendrían un comportamiento normal.
¿Qué hacer con variables que no muestran un comportamiento normal? Lo
habitual es recurrir a transformaciones del tipo:
ìï x p p ¹ 0
T (x ) = ïí
ïï ln x
î
es decir, a tomar logaritmos neperianos de la variable o tomar diversas raíces (p
= ½ serían cuadradas) o elevar al cuadrado (p = 2), al cubo (p = 3), etc. Para
determinar la más adecuada, basta con transformar y volver a aplicar el test de
KSL descrito.
Homoscedasticidad
La segunda asunción que se hace sobre los datos, para poder aplicar las técnicas multivariables, hace referencia a la igualdad de varianza entre las variables
independientes, ya sean éstas métricas o no métricas, respecto a la variable o
variables dependientes. SPSS proporciona un test específico para analizar esta
hipótesis, el test de Levene, cuya hipótesis nula es la homoscedasticidad, es
decir, que las varianzas son iguales. En nuestro ejemplo, habría que realizar
esta prueba de homoscedasticidad para el conjunto de variables independientes
(X1, X2, X3, X4, X5, X6, X7, X9 y X10), con respecto a las posibles variables
dependientes que, como se señaló en el cuadro 3, pueden ser las variables (X8,
X11, X12, X13 y X14). La sintaxis par obtener este test en SPSS, sería la
siguiente:
20
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
EXAMINE
VARIABLES= x1 x2 x3 x4 x5 x6 x9 x10 x7 BY x8
x11 x12 x13 x14
/PLOT
SPREADLEVEL
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
A modo de ejemplo, ofrecemos en el cuadro 5 la salida correspondiente a analizar la homoscedaticidad de las variables independientes respecto a la variable
X8 o “tamaño de la empresa”.
Puede comprobarse que, tomando como nivel de significación 0,05, los valores
p correspondientes a X4 “imagen del fabricante” (p=0,012), X5 “servicio”
(p=0,006), X6 “imagen de los vendedores” (p=0.024) y X7 “Calidad del
producto” (p=0,004) permiten rechazar la hipótesis nula de homoscedasticidad
y, por ello, será necesario realizar transformaciones análogas a las que llevábamos a cabo para conseguir la normalidad, con el fin de poder aplicar muchas
de las técnicas multivariables que analizaremos.
21
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Cuadro 5. Salida de SPSS para el análisis de homoscedasticidad
Prueba de homogeneidad de la varianza
Rapidez de servicio
nivel de precios
flexibilidad de precios
Imagen del fabricante
Servicio
Imagen de los
vendedores
Nivel de uso
nivel de satisfacción
Calidad del producto
Estadístico
de Levene
,934
1
98
Sig.
,336
Basándose en la
mediana.
,993
1
98
,321
Basándose en la
mediana y con gl
corregido
,993
1
92,885
,322
Basándose en la media
recortada
,934
1
98
,336
Basándose en la media
1,582
1
98
,211
Basándose en la
mediana.
1,668
1
98
,200
Basándose en la
mediana y con gl
corregido
1,668
1
97,938
,200
Basándose en la media
recortada
1,685
Basándose en la media
Basándose en la media
gl1
gl2
1
98
,197
1,194
1
98
,277
Basándose en la
mediana.
,749
1
98
,389
Basándose en la
mediana y con gl
corregido
,749
1
85,351
,389
Basándose en la media
recortada
,817
1
98
,368
Basándose en la media
6,549
1
98
,012
Basándose en la
mediana.
3,960
1
98
,049
Basándose en la
mediana y con gl
corregido
3,960
1
79,356
,050
Basándose en la media
recortada
6,353
1
98
,013
Basándose en la media
7,819
1
98
,006
Basándose en la
mediana.
6,741
1
98
,011
Basándose en la
mediana y con gl
corregido
6,741
1
83,075
,011
Basándose en la media
recortada
7,932
1
98
,006
Basándose en la media
5,241
1
98
,024
Basándose en la
mediana.
4,604
1
98
,034
Basándose en la
mediana y con gl
corregido
4,604
1
93,255
,034
Basándose en la media
recortada
4,977
1
98
,028
Basándose en la media
1,377
1
98
,243
Basándose en la
mediana.
1,305
1
98
,256
Basándose en la
mediana y con gl
corregido
1,305
1
97,893
,256
Basándose en la media
recortada
1,325
1
98
,252
Basándose en la media
,323
1
98
,571
Basándose en la
mediana.
,194
1
98
,660
Basándose en la
mediana y con gl
corregido
,194
1
97,681
,660
Basándose en la media
recortada
,303
1
98
,584
Basándose en la media
8,748
1
98
,004
Basándose en la
mediana.
9,178
1
98
,003
Basándose en la
mediana y con gl
corregido
9,178
1
97,298
,003
Basándose en la media
recortada
8,811
1
98
,004
Linealidad
La última hipótesis que es necesario analizar es la linealidad, sobre todo en
aquellas técnicas multivariables basadas en medidas de asociación como las
correlaciones, incluyendo la regresión múltiple, la logística, el análisis factorial,
el análisis conjunto y los sistemas de ecuaciones estructurales. Dado que la
correlación representa asociaciones lineales entre variables, la ausencia de linealidad provoca que el coeficiente de correlación no mida adecuadamente la
relación entre los pares de variables.
22
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
Disponemos, de nuevo, de dos procedimientos para analizar este supuesto. El
primero consiste en recurrir a representaciones gráficas bivariables para visualizar si la relación que podemos aventurar es o no lineal. Por otro lado, los coeficientes de correlación suelen ofrecer un indicador del grado de significación del
mismo. La hipótesis nula es que el coeficiente de correlación no es significativo
y el valor de p nos permitirá aceptarla o rechazarla.
La siguiente sintaxis de SPSS nos permite llevar a cabo ambos procedimientos:
GRAPH
/SCATTERPLOT(MATRIX)=x1 x4 x6
/MISSING=LISTWISE .
CORRELATIONS
/VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
donde sólo se pide, a modo de ejemplo, que se realicen los gráficos de dispersión
entre las variables X1 “rapidez del servicio”, X4 “imagen del fabricante” y X6
“imagen de los vendedores”. A simple vista se observa que no parece que exista
una relación lineal entre la rapidez del servicio y la imagen de los fabricantes,
pero sí y bastante marcada, entre la imagen de los fabricantes y la de los
vendedores.
Gráfico 5. Gráficos de dispersión entre variables
Rapidez de servicio
Imagen del fabricant
Imagen de los vended
El cuadro 6 nos confirma esta apreciación visual. Así, se comprueba que el
coeficiente de correlación de Pearson entre la variable “rapidez del servicio” y
la “imagen de la empresa”, que toma un valor de 0,05 no aparece marcado con
*, que diría que es significativo para un nivel del 5% ni con ** que indicaría
que lo es al 1%. Esta misma información nos la proporcionan las p, que toma
23
Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano
un valor de 0.618 que al ser claramente superior a 0.01 y 0.05 no permiten
rechazar la hipótesis nula de no significatividad del coeficiente de correlación.
Sin embargo, el coeficiente de correlación de Pearson entre la imagen de la
empresa y la imagen de los vendedores, que es de 0,788 aparece marcado como
** y su p es de 0,000 que al ser inferior a 0,01 y 0,05 confirma de nuevo la
apreciación visual que hicimos al analizar el gráfico 5.
Cuadro 6. Coeficientes de correlación de Pearson
Correlaciones
Rapidez de
servicio
Rapidez de servicio
nivel de precios
flexibilidad de precios
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Servicio
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Calidad del producto
Nivel de uso
nivel de satisfacción
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad
del
producto
Nivel de
uso
nivel de
satisfacción
Correlación de Pearson
Sig. (bilateral)
Imagen del fabricante
Imagen de los
vendedores
nivel de
precios
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
-,349**
,000
100
,509**
-,487 **
,000
100
,050
,618
,000
100
,272 **
,006
-,116
,250
100
,612**
,000
100
,513 **
,000
100
,067
,510
,299**
,003
100
,077
,444
100
100
,185
,065
100
100
-,035
,731
100
100
,788**
,000
100
,470 **
,000
100
-,448**
,000
100
,200*
,046
100
-,483**
,000
100
,240*
,016
100
-,055
,586
100
,177
,079
100
,676**
,000
100
,651**
,082
,418
100
,028
,559**
,000
100
,525**
,224*
,025
100
,476**
,701**
,000
100
,631**
,255*
,010
100
,341**
,000
100
,779
100
,000
100
,000
100
,000
100
,001
100
-,192
,055
100
-,283 **
,004
100
,711**
,000
100
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
Referencias bibliográficas
HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate
Data Analysis. 4ª edición. Englewood Cliffs: Prentice Hall.
MANZANO ,V. (1995): Inferencia estadística: aplicaciones con SPSS/PC+.
Madrid: RA-MA.
URIEL , E. (1995): Análisis de datos. Series temporales y análisis multivariante.
Madrid: Editorial AC.
Descargar