Subido por Brenda Morales Penilla

Análisis de factores

Anuncio
Modelos lineales y estadística multivariante
Máster EMOS
Brenda Morales Penilla
Análisis de factores
Realiza un análisis factorial utilizando Ejes principales y Máxima verosimilitud como
métodos de extracción. Realiza una primera interpretación de los factores y utiliza al
menos 2 técnicas de rotación para mejorar la interpretación. Mediante el cálculo de las
puntuaciones factoriales realiza un análisis de cuestionarios outliers si los hubiera.
El análisis factorial nos permite encontrar grupos homogéneos de variables dentro de una
muestra a partir de un gran conjunto de estas mismas variables.
La idea es que las variables que formen los grupos estén altamente correlacionadas pero
que los grupos no lo estén y sean independientes.
La meta del análisis factorial es reducir la dimensionalidad manteniendo una explicación
de la información alta.
Cada variable tiene su propia varianza, aunque ésta puede ser compartida con otras
variables. La finalidad del análisis es analizar la varianza común de todas las variables a
partir de la matriz de correlaciones. En la tabla de estadísticos descriptivos podemos ver
que la columna de medias se puede dividir en tres grupos, al igual que las desviaciones
típicas; aunque aquí se ve mayor variabilidad en las primeras cuatro variables respecto al
resto, una variabilidad inferior a la del resto en las variables p5-p9 y finalmente una
variabilidad intermedia en el grupo de las cuatro últimas variables (p10-p14).
En la matriz de correlaciones podemos ver los mismos tres grupos que se distinguen en
los estadísticos descriptivos. Observamos que hay altas correlaciones entre tres grupos de
variables y un determinante bajo que nos indica que podemos continuar con el análisis de
factores.
La prueba KMO tiene un valor alto lo que puede indicar que la muestra es adecuada y el
test de esfericidad de Bartlett es significativo al 0.001, así que rechazamos la hipótesis
nula de que el determinante de la matriz de correlaciones sea unitario.
Podemos ver que todas las variables tienen una comunalidad alta, por lo que en principio
ninguna variable es susceptible de ser eliminada.
Si nos fijamos en la varianza explicada, esta nos indica que con tres factores será
suficiente para tener un porcentaje de variabilidad explicado alto, siendo este el 89.02%.
Ambas tablas han sido extraídas de la matriz de correlaciones mediante el método de
factorización del eje principal. Este método consiste en extraer las componentes
principales e iterarlas hasta que la estimación no sufra apenas variación.
Mediante la observación de la matriz de correlaciones y los descriptivos, ya teníamos idea
de que se podrían extraer tres factores. El gráfico de sedimentación nos muestras que hay
3 autovalores superiores a la unidad y la varianza explicada nos recomendaba 3.
En la matriz factorial podemos ver que no hay ninguna variable que sature en el factor
tres a pesar de que este es necesario para la explicación de la varianza; podemos concluir
que las cuatro primeras variables son explicadas positivamente por el factor dos y que las
variables p11-p14 son explicadas negativamente por este mismo factor, mientras que p5p10 se explican por el factor 1. Para que la interpretación sea más sencilla recurriremos a
la rotación de la matriz por el método de Varimax para simplificar el resultado. Este
método minimiza el número de variables con carga en un factor, de manera que ayuda a
que las variables saturen en un solo factor. Cuando observamos que se normaliza por el
método del kaiser lo que se está haciendo es dividir la carga factorial al cuadrado por la
comunalidad de la variable para evitar que aquellas variables con mayor comunalidad
tengan más peso en la solución.
Al obtener la matriz de factor rotado obtenemos tres factores que explican las variables
P1-P4, P5-P9 y P10-P14 de forma directa y todas ellas saturadas en un solo factor.
Finalmente, observamos en la tabla de factor rotado que el factor 1 explica las variables
relacionadas con las actividades culturales, el factor 2 las variables relacionadas con los
servicios prestados por la universidad y el tercer factor explica las variables relacionadas
con la docencia impartida. Estos tres factores son los que utilizaremos para explicar la
satisfacción.
En el gráfico de factores rotados vemos que los factores 2 y 3 son los que mejor explican
la totalidad de sus variables, mientras que el primer factor, aunque explicando bien sus
variables, se acerca más a los otros.
A continuación, se repetirá el análisis, pero recorriendo al método de extracción de
máxima verosimilitud. Los estadísticos descriptivos serán los mismos, al igual que la
matriz de correlaciones y, por tanto, su determinante y pruebas KMO y Bartlett, por lo
que las conclusiones extraídas de estas técnicas no varían. La ventaja de este método es
que tiene propiedades muy interesantes al tratar datos no estandarizados, en este caso que
trabajamos con variables medidas en una misma escala, las conclusiones del análisis serán
muy parecidas.
Nuevamente, observamos que la tabla de comunalidades explica mucha variabilidad de
las variables y que la varianza total explicada vuelve a ser alta, aunque esta vez la
distribución de la explicación es mayor entre los factores.
Los descriptivos nos indicaban que habría tres factores y este método también nos lleva
a sacar esa conclusión sugiriendo que se deben extraer tres factores para obtener una
buena explicación de la varianza.
Al igual que nos pasó en el análisis por ejes principales, las variables solo saturan en dos
factores de forma clara (verde y azul), esta saturación es directa. Aunque en el área
señalada en rojo se podría ver una saturación inversa que nos hace pensar que las
actividades culturales tienen un peso negativo en la explicación de la satisfacción, cuando
ahora sabemos que en realidad esto es lo que más peso tiene en esta variable. Para aclarar
las conclusiones obtenidas, procederemos a la rotación de la matriz de factores.
En este caso, la rotación la haremos por el método de quartimax; como objetivo tenemos
que las variables tengan correlaciones altas con el menor número de factores, para
conseguirlo, en este método se maximiza la varianza de la carga factorial al cuadrado para
cada variable; de esta manera, cada variable satura en un solo factor.
En la matriz de factor rotado observamos que la saturación en los factores es alta al igual
que por el método de varimax, pero que la carga factorial en el resto de factores es aún
menor. La menor saturación en el resto de factores que proporciona el método de
quartimax, se aclara si nos fijamos en el gráfico de cargas, y vemos que las variables se
acercan más a la unidad del factor en el que
saturan.
La bondad del ajuste es significativa, por lo que no rechazamos la hipótesis nula porque
los residuos no son lo suficientemente grandes como para que el modelo factorial no se
ajuste a los datos.
En el gráfico de dispersión matricial observamos que los factores no tienen correlación
entre sí y que las observaciones se distribuyen como nubes de puntos sin tendencia.
Por último, se realizará un cálculo de las puntuaciones factoriales para hacer un análisis
de outliers, para ello recurrimos al gráfico de cajas y vemos que nos proporciona tres
observaciones que se salen de lo normal; estas tres observaciones solo son outliers en un
factor casa uno. Las analizaremos exhaustivamente yendo a las observaciones 6, 38 y 58.
La observación 6 podría ser outliers porque su percepción de las actividades culturales es
muy inferior a la media en todos los casos. Los mismo pasa con las observaciones 38 y
58, que consideran la docencia peor que el promedio de las observaciones de una forma
negativa.
Descargar