Análisis Multivariante en la Investigación Comercial Asignatura: Investigación de Mercados II

Anuncio
Análisis Multivariante en la Investigación Comercial
Asignatura: Investigación de Mercados II
Centro: Universidad Autónoma de Madrid
TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL
Estructura de la clase:
• Introducción.
• Definición del AM.
• Diseños y conceptos básicos del AM.
• Tratamientos previos de los datos.
• Supuestos del AM.
• Clasificación de los métodos del AM.
• Programas informáticos.
• Introducción.
En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces
no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables
que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no
solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM.
Debemos reflexionar que sería mejor emplear: análisis univariante, análisis bivariante o análisis multivariante.
Si queremos analizar por separado variables utilizaremos el anáilisis univariante y bivariante. En el caso de
necesitar un análisis en conjunto, emplearemos técnicas multivariantes. Con esta técnica determinaremos si
las variables están influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las
relaciones múltiples. Si queremos utilizar /analizar múltiples variables simultáneamente, tenemos que utilizar
técnicas multivariantes.
• Definición del AM.
El AM se puede definir como:
Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar
simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado.
Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables
cuando sus efectos no tienen sentido si se interpretan por separado.
Valor teórico: Es el elemento esencial del AM. Combinación de todas las variables. Debemos sintetizar
todas las variables en un solo valor teórico. (Muchas veces hay que ponderar múltiples variables de
modo empírico).
• Diseños y conceptos básicos del AM.
(Diseño de una investigación de mercados−−−flujo del AM)
Los pasos a seguir al realizar una investigación se pueden resumir como sigue:
1
• Definir el objetivo a través de un estudio previo.
• Establecer las hipótesis.
• Seleccionar variables y escalas.
• Establecer la metodología (instrumentos, muestreo, etc.)
• Seleccionar la técnica multivariante más apropiada.
• Determinar el nivel de significación (alpha).
• Coleccionar datos.
• Evaluar los supuestos básicos de la técnica multivariante.
• Estimación del modelo multivariante y valoración del ajuste del modelo.
• Interpretar el valor teórico (rechazar o no las hipótesis).
• Validación e interpretación de los resultados.
1) Definir el objetivo a través de un estudio previo
Primeramente, tenemos que determinar el objetivo del estudio. A continuación, investigaremos la literatura
existente para establecer el estado del arte.
Definir para qué queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados
anteriormente sobre el tema. Determinamos así qué queremos realizar en el trabajo, es decir, justificar la
pretensión del trabajo.
Hay dos cosas importantes Conocimiento y creatividad. Hay que establecer un objetivo pero justificarlo a
través de la revisión bibliográfica.
2) Establecer las hipótesis
Establecemos las hipótesis que queremos validar o rechazar mediante el estudio.
3) Seleccionar variables y escalas
Después, tenemos que determinar el tipo de variables y escalas a emplear. La palabra variable se refiere a una
magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos básicos de datos, no
métricos (cualitativos) o métricos (cuantitativos). Según el tipo de datos, tendremos que determinar el tipo de
escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas.
Escalas
Características
Nominal
• Identifica por categorías mutuamente excluyentes
• Los números no tienen valor matemático
Ordinal
• Ordenación de las categorías.
• Los números no dan información de la distancia entre categorías.
Intervalo
• Identifica una distancia constante entre categorías.
• Tiene un origen arbitrario.
Razón
• Se puede realizar comparación proporcional entre categorías.
• Tiene un origen absoluto.
A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada
técnica multivariante requiere un determinado tipo de variables (métricas y no métricas). Respecto al primer
2
trabajo, es aconsejable incluir entre 15−20 "atributos" que se puedan medir en una escala de intervalo que
tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. También, os conviene incluir variables
que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables
métricas con una escala de razón, tales como gastos mensuales (de una determinada marca, etc.), ingresos,
tiempo, etc., podremos utilizar algunas técnicas de dependencia, por ejemplo, regresión múltiple y análisis
discriminante, para el segundo trabajo.
Para convertir valores no métricos en métricos:
Desacuerdo 1 2 3 4 Acuerdo Ordenamos las opiniones
Escala de Linkert: Con 5 grados, también lo hay con 7 grados. Siempre es mejor tener más grados.
Completamente en desacuerdo −2
Más o menos en desacuerdo −1
No sabe, no contesta 0
Más o menos de acuerdo + 1
Completamente de acuerdo −2
4) Establecer la metodología (instrumentos, muestreo, etc.)
Tras seleccionar variables y escalas, ahora tendremos que establecer la metodología.
5) Seleccionar la técnica multivariante más apropiada.
Después, seleccionaremos la técnica multivariante más adecuada, y a continuación, determinaremos el nivel
de significación.
6) Determinar el nivel de significación (alpha).
El nivel de significación está fuertemente relacionado con el llamado error de medida. Debemos aumentar el
nivel de significación para aumentar el valor del estudio y para ello hay que disminuir el error de medida.
Cuanto mayor nivel de significación mejor.
El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos.
(Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando
calculamos correlaciones o medias, normalmente el efecto verdadero está parcialmente camuflado por este
error de medida, causando la perdida de precisión. Es decir, la presencia del error de medida produce
distorsiones en las relaciones observadas y debilita el poder de las técnicas multivariantes.
Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y
la validez. (conceptos que hay que incluir en trabajo)
• La fiabilidad es el grado en que la variable observada mide el valor verdadero y está libre de error. Si
la misma medida se realiza muchas veces, las medidas fiables llegarán a los mismos resultados. La
fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que
no es necesariamente idéntico en todas las mediciones. Ejemplos de este tipo de error son errores de
codificación, sesgos de entrevistadores, caracteres de los entrevistados, etc.
3
• La validez se define como el grado en que la medida representa con precisión lo que se supone que
representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por
los gastos totales de las economías domésticas. La validez puede verse perjudicada tanto por el error
aleatorio como por el error sistemático. El error sistemático es el sesgo permanente en todas las
mediciones. Por ejemplo, errores en los ítems de la escala, ausencia de claridad en el cuestionario, etc.
Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la
validez del instrumento de investigación.
Todas las técnicas multivariantes, excepto el análisis cluster y el análisis multidimensional, se basan en la
inferencia estadística de los valores de una población o la relación entre variables de una muestra. Si estamos
realizando un censo de toda la población, entonces no tenemos que preocuparnos de la inferencia estadística
por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la población total, y
por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadístico
Para interpretar las inferencias estadísticas, tenemos que determinar el nivel aceptable de error estadístico. Se
tienen que establecer hipótesis nula Ho. Se suelen comparar las medias determinando que una o dos medias
sean iguales o distintas.
El modo de aproximación más común es determinar el nivel de error de Tipo I, que también se llama alfa. El
error de Tipo I es la probabilidad de rechazar la hipótesis nula cuando es cierta. O dicho de otra manera, la
probabilidad de que la prueba estadística muestre significación estadística cuando en realidad no está presente.
Al determinar el nivel de error de Tipo I, tenemos que fijar también el segundo tipo de error, que es el error de
Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hipótesis nula cuando es realmente
falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo
II, y maximizar el nivel de confianza (1−alfa) y la potencia (1−beta).
Realidad
Decisión
Cierta
Falsa
Error Tipo I
Nivel de Confianza
No rechazar H0
Potencia
1−
Error Tipo II
Aceptar H0
1−
Rechazar H0
Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa
Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho
cuando es falsa.
Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza
y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor.
Establecer el nivel de significación es importante y por ello, tenemos que seguir determinados pasos para
poder determinarlo:
• Establecer la Ho (Hipótesis nula) y la H1 (Hipótesis alternativa)
• Elegir la prueba estadística
• Fijar el nivel de significación (alfa)
• Calcular estadístico.
• Se compara el estadístico calculado con el teórico. Si es mayor se rechaza H0. Si es menor no se rechaza
Ho.
4
7) Recopilar datos
8) Evaluar los supuestos básicos de la técnica multivariante.
9) Estimación del modelo multivariante y valoración del ajuste del modelo.
10) Interpretar el valor teórico (rechazar o no las hipótesis).
11) Validación e interpretación de los resultados: (en el trabajo esta última parte debe tener implicaciones
para el mundo real. Ej: ¿ para qué sirven los resultados para la empresa, para la vida real −−−−lo valorará
mucho en el trabajo)
• Tratamientos previos de los datos.
Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos.
Existen dos razones que explican la importancia de realizar un buen análisis de los datos:
• Cuanto más cuidado tengamos en analizar los datos, mejor será la predicción y podremos determinar
más fácilmente las relaciones entre las variables.
• Las técnicas multivariantes requieren muchos más datos y supuestos más complejos que las técnicas
univariante o bivariantes. Hay que ver si cumplen una serie de supuestos. Muchas veces los efectos
del incumplimiento de los supuestos no se representan directamente en los resultados, sino que tienen
un efecto importante sobre la naturaleza e interpretación de los datos.
Es fundamental observar las variables individualmente, pero también hay que ver las relaciones entre las
variables conjuntamente. Para ello. Hacemos los siguientes tratamientos:
• Examinar gráficamente los datos para saber la forma de la distribución, analizar las relaciones entre
variables, y analizar las diferencias entre grupos.
• Tratar datos ausentes mediante métodos de imputación
• Detectar casos atípicos y eliminarlos si no son aleatorios.
Examinar gráficamente: Hay que examinar la forma de la distribución y para ello podemos utilizar:
Histograma: Representación gráfica de los datos que muestra la frecuencia de los datos en categorías. Es una
forma muy útil de averiguar si existe una distribución normal, si los datos siguen una distribución normal.
Es el primer método de examen gráfico.
Gráfico de dispersión: Se analizan las relaciones bivariantes. Es un conjunto o representación gráfica de los
puntos de datos basados en dos variables. Se investiga si la relación entre las dos variables es
aproximadamente lineal.
Gráfico de cajas y bigotes: Se analiza las diferencias entre grupos, es el análisis para detectar casos atípicos.
Se transforma la distribución normal en cajas y bigotes.
La línea de la caja representa el valor de la mediana
La línea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias
entre grupos.
Es una forma útil de identificar casos atípicos porque, al transformar la distribución, los datos que queden
5
fuera de un cuartil serán los casos atípicos. Se representan con asteriscos o círculos.
Datos ausentes: Hay que determinar si existen datos ausentes, ya que son una molestia para nosotros.
Tenemos dos opciones:
• Eliminar casos para evitar el sesgo. Por lo que eliminamos y no utilizamos esos datos. Hay que
averiguar si los datos son decisorios o no.
A veces, el eliminar datos no es bueno porque tendríamos menos datos, y no conseguimos un nivel de
significación aceptable.
• No eliminar casos y sustituir datos ausentes. Tres métodos:
• Sustitución por la media: la media es el valor más representativo de una población, por ello
sustituimos los datos por la media.
• Sustitución por valor constante: hay que buscar algún valor que creamos que representa esta
población, igual es necesario buscar estudio semejante.
• Imputación por regresión: para predecir el valor más representativo
Casos atípicos: Hay que decidir si emplearlos o eliminarlos. Hay que eliminarlos si no son aleatorios.
Podemos emplear:
♦ Procedimientos univariantes: el concepto de la distribución normal para ello tenemos que
tipificar o estandarizar los datos. Si podemos aplicar el proceso de estandarización de datos:
media igual a cero, desviación estándar igual a 1
Si el tamaño de la muestra n< 80, podemos eliminar los datos fuera de 2.5
Si el tamaño n>80: > 4
♦ Procedimientos bivariantes: diagramas cajas y bigotes.
♦ Procedimientos multivariantes: D2 Mahalanovis. Es una forma de medir la distancia con la
media estandarizada.
Si tenemos un conjunto de datos, en primer lugar hay que determinar el punto o centroide de todas las
variables (x) y luego medir la distancia para cada variable con una media estandarizada. Por ello,
cuando existe un caso atípico podemos medir su distancia y podemos decir en comparación con otras
distancias si es o no atípico.
• Supuestos del AM.
Para evitar los sesgos más importantes, por qué debemos saber si los datos cumplen los supuestos.
Hay dos razones principales:
• Las relaciones entre una gran cantidad de variables son muy complejas, hablamos de muchos datos, y
para estudiar estas relaciones utilizamos las técnicas multivariantes. Y cuando no cumplen los
supuestos, los sesgos serán más potentes, al igual que las distorsiones.
• Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadísticos
aún cuando no cumplen los supuestos. Podemos estar analizando cosas que no tienen que ver con la
realidad.
Las técnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los
supuestos como variables aisladas, y tienen que cumplir los supuestos de las variables multivariantes.
Entonces, para poder aplicar las técnicas multivariantes, se suponen las siguientes condiciones o
6
supuestos:
⋅ Normalidad: cumplirlo es importante porque muchas técnicas multivariantes
tiene que utilizar las estadísticas de la prueba T y la F, y para emplearlas es
necesario que la distribución sea normal.
⋅ Homocedasticidad: consiste en suponer que las variables dependientes
tengan los mismos niveles de dispersión desde el punto de vista de la variable
independiente. Es importante para muchas técnicas multivariantes que
utilizan las métricas de varianza ya que es necesario que existan iguales
niveles de dispersión ( como ejemplo análisis discriminante )
⋅ Linealidad: Es importante porque muchas técnicas multivariantes tienen que
utilizar el concepto de correlación. Es necesario que exista una relación lineal
entre las dos variables. En las técnicas multivariantes hay que calcular las
correlaciones, para lo cual se debe cumplir el supuesto de linealidad.
⋅ Ausencia de errores correlacionados: consiste en suponer que cualquiera
de los errores de predicción es independiente del resto. Son errores que no
están correlaciones, que son independientes.
• Clasificación de los métodos del AM.
TÉCNICAS DE DEPENDENCIA
TÉCNICAS DE INDEPENDENCIA
Para realizar una investigación comercial multivariante hay que realizar los siguientes preguntas:
¿ podemos dividir las variables en dependientes o independientes?
¿ cuántas de estas variables son tratadas como dependientes?
¿ cómo son las variables medidas ( el tipo de escala ) ?
• Programas Informáticos.
Vamos a utilizar dos programas : SPSS y Dyane
• Ejercicio 1
• Define el análisis multivariante con sus propias palabras.
• ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de
datos multivariante?
• Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo
I y error de Tipo II.
• ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis
multivariante? ¿Por qué son necesarios e importantes?
• Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario
que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de
errores correlacionados.
• Define el análisis multivariante con sus propias palabras.
Son aquellas técnicas estadísticas que nos van a ayudar a analizar al mismo tiempo un conjunto de
variables. El efecto de cada una de estas variables independiente de las otras no tiene sentido, pero
analizadas simultáneamente su efecto tiene interpretación.
7
• ¿Por qué es importante el conocimiento de las escalas de medida para planificar una
investigación de datos multivariante?
Existen dos tipos de escalas: métricas y no métricas. Si los datos son no métricos, no dan valores
matemáticos, sin embargo, si son métricos si que dan valores matemáticos. Por tanto, es crucial
conocer que escala para determinar que técnica multivariante es más apropiada en función de la
escala.
• Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de
Tipo I y error de Tipo II.
Nivel de significación: me indica en que medida el valor observado es representativo de la muestra.
Error tipo I: se define como la probabilidad de que se rechace la hipótesis de un posible valor
cuándo este es cierto.
Error tipo II: se define como la probabilidad de que se acepte la hipótesis de un posible valor
cuándo este es falso.
• ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis
multivariante? ¿Por qué son necesarios e importantes?
Existen tres métodos:
♦ Primero hay que saber la forma de la distribución, para ello hacemos un histograma que
nos va a indicar la frecuencia de los datos, esto nos indicará si existe una distribución
normal.
♦ El segundo método es el gráfico de dispersión, este nos va a servir para indicar si la
relación entre dos variables es lineal.
♦ El tercer método son los gráficos de cajas y bigotes. Este gráfico está dividido en cuartiles y
nos sirve para detectar casos atípicos.
• Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es
necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y
ausencia de errores correlacionados.
Las técnicas multivariantes nos sirven para estudiar la relación simultánea entre el
comportamiento de más de dos variables. La afirmación es falsa ya que esta relación debe cumplir
todos los supuestos:
♦ el supuesto de normalidad nos servirá para poder usarse los estadísticos de la t− Student y
de la f− Snedecor.
♦ Linealidad: nos indica la relación existente entre las variables y nos permitirá hallar
correlaciones.
♦ Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersión de la
varianza en todas las variables independientes.
♦ El último supuesto que debe cumplir es que cualquier error de predicción sea
independiente del resto.
TEMA 2: EL ANALISIS FACTORIAL
Estructura de la clase:
• Definición y objetivo del AF.
8
• Conceptos básicos del AF.
• Distinción entre el AFC y ACP.
• Supuestos del ACP.
• Diseño del ACP.
♦ Estimación del número de factores a ser extraídos.
♦ Métodos de rotación de los factores.
♦ Criterios para determinar el nivel de significación de las cargas factoriales.
• Caso práctico.
• Tratamiento de los datos con DYANE y SPSS.
• Definición y objetivo del AF.
El análisis factorial (AF) se puede definir como la técnica estadística multivariante (de
interdependencia) cuyo objetivo principal es resumir las variables y extraer información (los factores
más importantes) de grandes bases de datos, procurando una mejor comprensión de la estructura de
los mismos.
El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente,
y que permite extraer un número reducido de los factores (es decir, los valores teóricos) con los cuales
se intenta explicar al máximo todo el conjunto de variables originales. Dichas variables deben ser
métricas.
−−>[Author:RGM]
El AF tiene dos objetivos:
⋅ La reducción y sintetización de los datos para identificar sus estructuras
básicas (de las grandes BBDD).
⋅ La creación de una nueva serie de variables (los llamados factores) que
pueden ser utilizados posteriormente en otros análisis multivariantes (por
ejemplo la regresión múltiple o el análisis cluster).
El AF se utiliza principalmente para los siguientes tipos de investigación:
Imagen de marca, imagen del establecimiento, imagen de los consumidores sobre una bebida, etc. En
definitiva, se enmarca dentro de la segmentación, factores principales y diferenciación de nuestro
producto, estudio de aptitudes, etc
Para el AF buscaremos los índices de correlación entre variables, e identificaremos las correlaciones
altas.
Lo que haremos es juntar aquellas que tengan una correlación alta entre ellas y formar un factor con
ellas.
−−>[Author:RGM]
• Conceptos básicos.
Conceptos
Factor
Definición
Es el valor teórico que se extrae con el AF. Es una combinación lineal
(Y=X1+ X2+...+ nXn)de las variables originales. Los factores
representan las dimensiones subyacentes (extracción del Factor1) que
resumen la serie original de variables.
9
El factor es una relación lineal. Calcularemos , , ..., n para hallar el
factor (Y=X1+ X2+...+ nXn). Los factores no son directamente
observables. Por ello usamos la técnica del AF.
Es la correlación entre las variables originales (el peso de cada variable en el
factor) y los factores, y la clave para entender la naturaleza de un factor
específico. Las cargas de los factores al cuadrado indican qué porcentaje de
la varianza en una variable original se atribuye a un determinado factor.
Cargas
Dicho de un modo mejor, Las cargas son el peso de cada variable en el
Factor.
Las (Cargas)2 es la proporción de varianza de la variable que contribuye a
las correlaciones con otras variables. Las (Cargas)2 = Comunalidad
Es una varianza compartida con otras variables. Es la proporción de varianza
Comunalidad−−>[Author:RGM]
de la variable que contribuye a su vez con correlaciones con otras variables.
Es una medida de la cantidad de varianza contenida en la matriz de
correlación de tal forma que la suma de los autovalores debe ser igual al
Autovalor
número de variables.
(eigenvalue)
Otra definición− Es la cantidad de información explicada por el modelo AF
y su varianza asociada con cada factor.
Reglas de extracción
1.− Factores con cargas > 50%
2.− Factores tipo autovalor > 1
• Distinción entre AF y ACP.
En investigación comercial se suelen utilizar métodos o modelos básicos para obtener soluciones
factoriales: análisis factorial común (AFC) y análisis de componentes principales (ACP). La
diferencia entre estos dos métodos consiste en el tipo de varianza que analizan. En el AFC los factores
se basan solamente en la varianza común. En el ACP los factores se basan en la varianza total (que
incluye la varianza común y la varianza específica y error).
Nota: En Investigación de Mercados (IM), cuando se menciona AF, se está refiriendo en realidad al
ACP.
AFC
Varianza común
ACP
Varianza total
Varianza específica y error Distorsionan los procesos de
extracción
La Varianza Total se divide en:
1.− Varianza Común: es aquella varianza donde una variable se comparte con todas las demás
variables.
2.− Varianza Específica: es aquella varianza asociada únicamente con una variable específica.
3.− Varianza del Error: es aquella varianza debida al error de medición.
10
En este curso, nos centramos sólo en el ACP.
En AFC no se usa la Varianza Específica y la Varianza de Error porque se supone que distorsiona.
Pero se supone que tiene varios inconvenientes:
♦ Puede proporcionar múltiples soluciones en lugar de una, como sucede en el ACP.
♦ Es muy difícil estimar sólo la varianza común.
Por ello, los investigadores prefieren usar el ACP, ya que presenta menos inconvenientes. Este será
el que nosotros usemos.
• Supuestos del ACP. (Son específicos del ACP)
♦ Supuestos generales: Normalidad, Linealidad y Homocedasticidad. −−>[Author:RGM]
♦ Supuesto específico: Se asume que existe un nivel suficientemente elevado de correlación
entre las variables (En caso contrario, no podemos extraer factores). Este nivel de correlación
se puede examinar de tres maneras:
! Examen visual de la matriz de correlaciones:
Seleccionamos las correlaciones altas. Para considerar una correlación alta, esta tiene que ser >
0,30.
! Contraste de esfericidad de Bartlett: −−>[Author:RGM]
Esta prueba es más objetiva y eficaz. Es una prueba estadística para examinar la existencia de
correlaciones significativas. El resultado a esta prueba sería Significativo o No significativo.
La prueba de Bartlett sólo prueba la presencia de relaciones significativas, pero no indica el nivel de
correlación. Esto se consigue con el tercer análisis: Índice KMO
! Índice K−M−O (la adecuación muestral de Kaiser−Meyer−Olkin): −−>[Author:RGM]
Es una prueba más completa aún que la anterior.
Se trata de cuantificar, mediante un índice estadístico, el grado de intercorrelación entre variables, y
la conveniencia del Análisis de Componentes Principales (ACP). Examina la presencia de
correlaciones significativas indicando solamente si existen, no cuales son.
Los índices obtenidos pueden ser:
♦ Si KMO es mayor que 0,80: Sobresaliente
♦ Si KMO está entre 0,70 y 0,80: Regular
♦ Si KMO está entre 0,60 y 0,70: Mediocre
♦ Si KMO está entre 0,50 y 0,60: Despreciable, y
♦ Si KMO es menor que 0,50: Inaceptable
Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP.
• Diseño del ACP. (Procedimientos)
♦ Selección de variables
Seleccionamos variables métricas. En caso contrario, necesitamos realizar una transformación de no
métricas a métricas.
♦ Tamaño muestral
El criterio a seguir para determinar el tamaño muestral óptimo a utilizar con ACP, la muestra no
11
debe ser inferior a 50 observaciones. Lo aconsejable es que sea >= 100.
♦ Examen de los supuestos generales (y específicos)
Concepto: Consistencia Interna. Está relacionado con la fiabilidad y se utiliza para asegurar la
fiabilidad de la escala que estamos utilizando. Asegura que los items de las escalas o las preguntas
de la escala están midiendo las mismas contrucciones y éstas están altamente intercorrelacionadas
entre sí. Por ej: En el comportamiento de compra hacia una marca determinada, examinamos la
actitud hacia el producto, precio, establecimiento, etc. Para ello creamos una serie de preguntas para
cada dimensión. Estas preguntas deben estar altamente correlacionadas entre sí. La consistencia
interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0,60.
Este test aparece en DYANE.
♦ Matriz de correlaciones
Como ya se ha comentado, se considera que existen correlaciones altas cuando éstas son > 0,30.
♦ Test de Bartlett
Aplicamos el test de Bartlett y el índice KMO.
♦ Estimación del número de factores a ser extraídos
Ver página siguiente.
♦ Rotación de factores
Ver gráfico.
♦ Interpretación de los factores
Proceso de etiquetación de factores. Atribuir un significado a cada factor, es decir: poner un patrón
de cargas a cada factor.
♦ Validación
Un método para efectuar una validación a nuestro ACP es dividir la muestra en dos partes
independientes y aplicar a cada una de ellas el ACP. Si obtenemos los mismos factores/dimensiones,
es decir: si coinciden ambas la muestra sería representativa y por tanto, el ACP sería válido.
♦ Usos adicionales de los factores
Regresión múltiple o Cluster.
◊ Estimación del número de factores a ser extraídos
Con el fin de decidir cuántos factores se deben extraer, el investigador empieza generalmente con
alguno de los siguientes criterios predeterminados.
Criterio de raíz latente
!DYANE
Sólo se consideran los factores que tienen autovalores mayores que
1, ya que cualquier factor individual debería explicar por lo menos
una variable.
AUTOVALOR
Criterio a priori
Criterio de porcentaje de la
varianza
Ya se sabe de antemano cuántos factores hay que extraer sobre la
base de un estudio previo. Resultado del Pre−Test.
Se obtienen los factores que representan un porcentaje acumulado
especificado de la varianza total extraída (aproximadamente un 60%
de la varianza total en las ciencias sociales). Se suelen utilizar cargas
y estas deben ser >50% del factor.
Criterio de contraste de caída
12
Se identifica el número óptimo de factores que contienen una
proporción de la varianza común sustancialmente alta.
CRITERIO DE CONTRATE DE CAIDA (Gráfico realizado con SPSS)
◊ Métodos de rotación de los factores.
Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrón de factores más
simple y más significativo.
♦ Rotación ortogonal: Es una rotación ortogonal ya que se realiza en un ángulo de 90º
(tipos)
♦ QUARTIMAX
♦ VARIMAX!DYANE (utilizada en el curso)
♦ EQUIMAX
13
♦ Rotación oblicua: Cuando nos es una rotación con un ángulo de referencia de 90º
♦ Criterios para determinar el nivel de significación de las cargas factoriales.
(Interpretación de los factores)
Al interpretar los factores, se debe determinar qué cargas factoriales merece la pena considerar. Para
ello hay dos criterios importantes.
a) Asegurar la significación práctica.
Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55
14
Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75
b) Valorar la significación estadística.
Utilizar un nivel de significación de 0,5 y potencia de 0,8.
• Caso practico.
El caso TeleSake
X1 : Velocidad de entrega
X2 : Nivel de precios
X3 : Presentación de la comida
X4 : Imagen del logotipo
X5 : Eficacia del servicio
X6 : Atención al cliente
X7 : Calidad de la comida
El punto 6, Caso práctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7 quedará
cubierto. El punto 7 lo trataremos primero, pero sólo con el Dyane y simplemente para ver los
criterios a utilizar y la interpretación y el análisis de los datos.
Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicación del AFC:
(1) módulo de tablas de frecuencias,
(2) módulo de tablas de medios, y
(3) módulo de tablas específicas (DYANE, pp.318−337).
Si vuestros cuestionarios se basan en variables categóricas, normalmente es recomendable utilizar el
primer módulo (es decir, las variables tanto filas como columnas son categóricas). Sin embargo, si
los cuestionarios usan variables numéricas con escalas de Likert, podríamos elegir el segundo
módulo (es decir, las variables filas son numéricas mientras que las variables columnas son
categóricas). Si tenéis alguna duda o pregunta, mandad un mensaje al foro o pasad por mi despacho
con vuestros datos.
Haremos otra práctica con la BD de Telesake:
• Con Dyane.
−−>[Author:RGM]
ANÁLISISDECOMPONENTESPRINCIPALES
=====================================================================
15
IDENTIFICACIÓN DE LAS VARIABLES
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
VARIABLE 1 : X1 − X1
VARIABLE 2 : X2 − X2
VARIABLE 3 : X3 − X3
VARIABLE 4 : X4 − X4
VARIABLE 5 : X5 − X5
VARIABLE 6 : X6 − X6
VARIABLE 7 : X7 − X7
Matriz de coeficientes de correlación simple
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
X1 X2 X3 X4 X5 X6 X7
−−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−
X1 1,0000 −0,3492 0,5093 0,0504 0,6119 0,0771 −0,4826
X2 −0,3492 1,0000 −0,4872 0,2722 0,5130 0,1862 0,4697
X3 0,5093 −0,4872 1,0000 −0,1161 0,0666 −0,0343 −0,4481
X4 0,0504 0,2722 −0,1161 1,0000 0,2987 0,7882 0,2000
X5 0,6119 0,5130 0,0666 0,2987 1,0000 0,2408 −0,0552
X6 0,0771 0,1862 −0,0343 0,7882 0,2408 1,0000 0,1773
X7 −0,4826 0,4697 −0,4481 0,2000 −0,0552 0,1773 1,0000
Test de Bartlett
−−−−−−−−−−−−−−−−
Determinante de la matriz de correlación = 0,002679
Ji cuadrado con 21 grados de libertad = 567,5407 (p = 0,0000)
Según el test de Bartlett me sale significativo
FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7
16
−−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−
VALOR PROPIO: 2,5258 2,1204 1,1811 0,5412 0,4180 0,2044 0,0092
% DE VARIANZA: 36,08% 30,29% 16,87% 7,73% 5,97% 2,92% 0,13%
% VAR.ACUMUL.: 36,08% 66,37% 83,25% 90,98% 96,95% 99,87% 100,00%
CARGAS DE
LOS FACTORES: COMUNALIDAD
−−−−−−−−−−−
X1 −0,5280 0,7515 −0,2024 −0,0312 −0,3340 −0,0047 0,0541 1,0000
X2 0,7924 0,0931 −0,5081 −0,0055 0,3195 −0,0255 0,0508 1,0000
X3 −0,6920 0,3745 0,1727 −0,4761 0,3512 0,0320 0,0010 1,0000
X4 0,5640 0,6020 0,4524 0,1014 0,0243 0,3225 0,0025 1,0000
X5 0,1858 0,7789 −0,5949 −0,0283 −0,0197 −0,0075 −0,0604 1,0000
X6 0,4921 0,6040 0,5418 0,0248 0,0238 −0,3135 −0,0009 1,0000
X7 0,7386 −0,2698 0,0054 −0,5494 −0,2820 0,0185 −0,0009 1,0000
También tenemos 7 factores con valores propios. En esta matriz consideramos todos los factores, por
lo que tenemos la Comunalidad igual a 1
COEFICIENTES DE
PUNTUACIÓN DE
LOS FACTORES:
X1 −0,2090 0,3544 −0,1714 −0,0576 −0,7991 −0,0231 5,9081
X2 0,3137 0,0439 −0,4302 −0,0101 0,7643 −0,1246 5,5418
X3 −0,2740 0,1766 0,1462 −0,8798 0,8401 0,1566 0,1133
X4 0,2233 0,2839 0,3830 0,1873 0,0582 1,5778 0,2730
X5 0,0736 0,3673 −0,5037 −0,0522 −0,0470 −0,0368 −6,5904
X6 0,1948 0,2848 0,4587 0,0459 0,0569 −1,5340 −0,0946
X7 0,2924 −0,1272 0,0046 −1,0151 −0,6746 0,0905 −0,1034
Esta matriz, de momento, no tiene importancia
17
Cargas de los factores retenidos:
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD
−−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−−−−
X1 −0,5280 0,7515 −0,2024 0,8845
X2 0,7924 0,0931 −0,5081 0,8947
X3 −0,6920 0,3745 0,1727 0,6490
X4 0,5640 0,6020 0,4524 0,8851
X5 0,1858 0,7789 −0,5949 0,9951
X6 0,4921 0,6040 0,5418 0,9005
X7 0,7386 −0,2698 0,0054 0,6183
VARIANZA: 2,5258 2,1204 1,1811
% DE VARIANZA: 36,08% 30,29% 16,87%
% VAR.ACUMUL.: 36,08% 66,37% 83,25%
Hemos obtenido 3 factores más importantes. Ahora la Comunalidad es menor que 1, pero bastante
alta. Pero con esta matriz es difícil distinguir que variable es más importante que las otras.
Lo que podremos saber es cuanto varianza está explicada con el análisis de componentes principales.
Podemos ver que es muy elevada, y se pueden explicar casi todos los factores.
ROTACIÓN VARIMAX:
−−−−−−−−−−−−−−−−−
Cargas de los factores retenidos (después de la rotación):
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD
−−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−−−−
X1 −0,7524* 0,0711 0,5598 0,8845
X2 0,7539* 0,1081 0,5609 0,8947
X3 −0,8055* 0,0063 0,0095 0,6490
18
X4 0,1167 0,9210* 0,1525 0,8851
X5 −0,0620 0,1763 0,9799* 0,9951
X6 0,0341 0,9452* 0,0766 0,9005
X7 0,7596* 0,1930 −0,0644 0,6183
VARIANZA: 2,3788 1,8269 1,6215
% DE VARIANZA: 33,98% 26,10% 23,16%
% VAR.ACUMUL.: 33,98% 60,08% 83,25%
La interpretación es mucho más fácil y significativa. −−>[Author:RGM]
La varianza explicada no ha cambiado. Se mantiene.
COEFICIENTES DE
PUNTUACIÓN DE
LOS FACTORES:
X1 −0,3037 0,0039 0,3262
X2 0,3452 −0,0997 0,3953
X3 −0,3487 0,0694 −0,0349
X4 −0,0189 0,5227 −0,0598
X5 0,0073 −0,0665 0,6242
X6 −0,0604 0,5582 −0,1194
X7 0,3094 0,0657 −0,0407
Ahora tendremos que interpretar los factores. Tendremos que poner nombre o etiqueta a cada factor.
Esto dependerá. Hay una regla general para atribuir significado a cada factor:
Siempre hay que considerar las variables con mayores cargas.
−−>[Author:RGM]
Al final tenemos la interpretación gráfica.
REPRESENTACIÓN GRÁFICA DE LOS FACTORES
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
VARIABLES:
19
Código Significado
−−−−−− −−−−−−−−−−−−−−−−
A X1
B X2
C X3
D X4
E X5
F X6
G X7
FACTORES 1 y 2:
FACTOR 2
|
1,0 + + |
| |F |
0,9 + + D |
|||
0,8 + + |
|||
0,7 + + |
|||
0,6 + + |
|||
0,5 + + |
|||
0,4 + + |
|||
20
0,3 + + |
|||
0,2 + E + G |
|||
0,1 + + B |
|A||
0,0
+−−−−+−−−C−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−
1
|||
−0,1 + + |
|||
−0,2 + + |
|||
−0,3 + + |
|||
−0,4 + + |
|||
−0,5 + + |
|||
−0,6 + + |
|||
−0,7 + + |
|||
−0,8 + + |
|||
−0,9 + + |
21
|||
−1,0 + + |
|+++++++++++++++++++
−1,0 −0,8 −0,6 −0,4 −0,2 0,0 0,2 0,4 0,6 0,8 1,0
• Con SPSS.
Ahora veremos las opciones en el SPSS. Usaremos los mismos datos que antes, para el análisis con el
SPSS.
Seleccionamos el elemento de menú Analizar/Reducción de datos/Análisis Factorial
22
Y nos aparecerá una ventana como la siguiente:
23
−−>[Author:RGM]
Ahora pulsamos Descriptivos
Matriz de correlaciones dependerá de lo que queramos, pero chequearemos KMO y prueba de
esfericidad de Bartlett para asegurarnos un grado de significación de variables
Pulsamos ahora Extracción:
24
−−>[Author:RGM]
Autovalores mayores que: podemos cambiarlo a 0,8 por ejemplo. −−>[Author:RGM]
También podemos cambiar el criterio a Número de factores, porque sepamos el número de factores
que queremos extraer. −−>[Author:RGM]
Nosotros usaremos el primer criterio
Nos interesa seleccionar también el Gráfico de sedimentación, y la Solución factorial sin rotar.
Seleccionamos ahora Rotación:
Seleccionamos ahora Puntuaciones:
Guardar las puntuaciones factoriales para análisis posteriores. −−>[Author:RGM]
25
En botón opciones:
Para ACP podemos seleccionar varios métodos para sustituir o tratar los valores ausentes. Nosotros
usaremos Reemplazar por la media ya que es el valor teóricamente mas representativo.
En formato de utilización, usaremos ordenados por tamaño, para ayudar en la visualización
Suprimir valores absolutos menores que: Opción muy importante a seleccionar. −−>[Author:RGM]
Pulsaremos Continuar y Aceptar, para pasar al análisis de los resultados
6.2.1 Análisis de los datos con SPSS.
A. factorial
Notas
Resultados creados
Comentarios
05−MAR−2004 17:48:02
C:\Documents and
Settings\ecolab\Escritorio\Rafa\TeleSake.sav
Filtro
Peso
Segmentar archivo
Núm. de filas del archivo de trabajo
Entrada Manipulación Definición de los perdidos
de los valores
perdidos
Datos
<ninguna>
<ninguna>
<ninguna>
100
MISSING=EXCLUDE:
Los valores definidos
como perdidos por el
26
usuario son
considerados como
perdidos.
MEAN
SUBSTITUTION: Para
cada variable utilizada,
los valores perdidos
son sustituidos por la
media de las variables.
Casos utilizados.
Sintaxis
FACTOR /VARIABLES x1 x2 x3 x4 x5 x6
x7 /MISSING MEANSUB /ANALYSIS x1
x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO
EXTRACTION ROTATION /FORMAT
SORT BLANK(.50) /PLOT EIGEN
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC /CRITERIA
ITERATE(25) /ROTATION VARIMAX
/METHOD=CORRELATION .
Tiempo
0:00:00,16
Recursos transcurrido
Memoria máxima necesaria
7204 (7,035K) bytes
KMO y prueba de Bartlett
Medida de adecuación muestral de
Káiser−Meyer−Olkin.
Chi−cuadrado
Prueba de
aproximado
esfericidad de
Bartlett
,446
567,541
gl
Sig.
21
,000
Vemos que es inaceptable: según KMO sale 0,446. Según nuestro criterio, si KMO < 0,5 es
inaceptable.
Sin embargo la segunda prueba, Test de Bartlett, sale significativo. −−>[Author:RGM]
−−>[Author:RGM]
Para un estudio exploratorio, podemos aceptar este test, puesto que ha salido significativo para el
test de Bartlett.
Comunalidades
Velocidad de entrega
Nivel de precios
Presentación de la
comida
Imagen del logotipo
Inicial
1,000
1,000
Extracción
,884
,895
1,000
,649
1,000
,885
27
Eficacia del servicio
Atención al cliente
Calidad de la comida
1,000
1,000
1,000
,995
,901
,618
Método de extracción: Análisis de Componentes principales.
Este cuadro muestra cuanta varianza esta explicada con este modelo. Inicialmente está a 1, porque
tiene todos los factores. Después de la extracción, baja; pero podemos ver que estamos con niveles
muy altos.
Varianza total explicada
Componente Autovalores iniciales
Sumas de las saturaciones al Suma de las saturaciones al
cuadrado de la extracción
cuadrado de la rotación
28
Descargar