Modelos lineales y estadística multivariante Máster EMOS Brenda Morales Penilla Análisis de factores Realiza un análisis factorial utilizando Ejes principales y Máxima verosimilitud como métodos de extracción. Realiza una primera interpretación de los factores y utiliza al menos 2 técnicas de rotación para mejorar la interpretación. Mediante el cálculo de las puntuaciones factoriales realiza un análisis de cuestionarios outliers si los hubiera. El análisis factorial nos permite encontrar grupos homogéneos de variables dentro de una muestra a partir de un gran conjunto de estas mismas variables. La idea es que las variables que formen los grupos estén altamente correlacionadas pero que los grupos no lo estén y sean independientes. La meta del análisis factorial es reducir la dimensionalidad manteniendo una explicación de la información alta. Cada variable tiene su propia varianza, aunque ésta puede ser compartida con otras variables. La finalidad del análisis es analizar la varianza común de todas las variables a partir de la matriz de correlaciones. En la tabla de estadísticos descriptivos podemos ver que la columna de medias se puede dividir en tres grupos, al igual que las desviaciones típicas; aunque aquí se ve mayor variabilidad en las primeras cuatro variables respecto al resto, una variabilidad inferior a la del resto en las variables p5-p9 y finalmente una variabilidad intermedia en el grupo de las cuatro últimas variables (p10-p14). En la matriz de correlaciones podemos ver los mismos tres grupos que se distinguen en los estadísticos descriptivos. Observamos que hay altas correlaciones entre tres grupos de variables y un determinante bajo que nos indica que podemos continuar con el análisis de factores. La prueba KMO tiene un valor alto lo que puede indicar que la muestra es adecuada y el test de esfericidad de Bartlett es significativo al 0.001, así que rechazamos la hipótesis nula de que el determinante de la matriz de correlaciones sea unitario. Podemos ver que todas las variables tienen una comunalidad alta, por lo que en principio ninguna variable es susceptible de ser eliminada. Si nos fijamos en la varianza explicada, esta nos indica que con tres factores será suficiente para tener un porcentaje de variabilidad explicado alto, siendo este el 89.02%. Ambas tablas han sido extraídas de la matriz de correlaciones mediante el método de factorización del eje principal. Este método consiste en extraer las componentes principales e iterarlas hasta que la estimación no sufra apenas variación. Mediante la observación de la matriz de correlaciones y los descriptivos, ya teníamos idea de que se podrían extraer tres factores. El gráfico de sedimentación nos muestras que hay 3 autovalores superiores a la unidad y la varianza explicada nos recomendaba 3. En la matriz factorial podemos ver que no hay ninguna variable que sature en el factor tres a pesar de que este es necesario para la explicación de la varianza; podemos concluir que las cuatro primeras variables son explicadas positivamente por el factor dos y que las variables p11-p14 son explicadas negativamente por este mismo factor, mientras que p5p10 se explican por el factor 1. Para que la interpretación sea más sencilla recurriremos a la rotación de la matriz por el método de Varimax para simplificar el resultado. Este método minimiza el número de variables con carga en un factor, de manera que ayuda a que las variables saturen en un solo factor. Cuando observamos que se normaliza por el método del kaiser lo que se está haciendo es dividir la carga factorial al cuadrado por la comunalidad de la variable para evitar que aquellas variables con mayor comunalidad tengan más peso en la solución. Al obtener la matriz de factor rotado obtenemos tres factores que explican las variables P1-P4, P5-P9 y P10-P14 de forma directa y todas ellas saturadas en un solo factor. Finalmente, observamos en la tabla de factor rotado que el factor 1 explica las variables relacionadas con las actividades culturales, el factor 2 las variables relacionadas con los servicios prestados por la universidad y el tercer factor explica las variables relacionadas con la docencia impartida. Estos tres factores son los que utilizaremos para explicar la satisfacción. En el gráfico de factores rotados vemos que los factores 2 y 3 son los que mejor explican la totalidad de sus variables, mientras que el primer factor, aunque explicando bien sus variables, se acerca más a los otros. A continuación, se repetirá el análisis, pero recorriendo al método de extracción de máxima verosimilitud. Los estadísticos descriptivos serán los mismos, al igual que la matriz de correlaciones y, por tanto, su determinante y pruebas KMO y Bartlett, por lo que las conclusiones extraídas de estas técnicas no varían. La ventaja de este método es que tiene propiedades muy interesantes al tratar datos no estandarizados, en este caso que trabajamos con variables medidas en una misma escala, las conclusiones del análisis serán muy parecidas. Nuevamente, observamos que la tabla de comunalidades explica mucha variabilidad de las variables y que la varianza total explicada vuelve a ser alta, aunque esta vez la distribución de la explicación es mayor entre los factores. Los descriptivos nos indicaban que habría tres factores y este método también nos lleva a sacar esa conclusión sugiriendo que se deben extraer tres factores para obtener una buena explicación de la varianza. Al igual que nos pasó en el análisis por ejes principales, las variables solo saturan en dos factores de forma clara (verde y azul), esta saturación es directa. Aunque en el área señalada en rojo se podría ver una saturación inversa que nos hace pensar que las actividades culturales tienen un peso negativo en la explicación de la satisfacción, cuando ahora sabemos que en realidad esto es lo que más peso tiene en esta variable. Para aclarar las conclusiones obtenidas, procederemos a la rotación de la matriz de factores. En este caso, la rotación la haremos por el método de quartimax; como objetivo tenemos que las variables tengan correlaciones altas con el menor número de factores, para conseguirlo, en este método se maximiza la varianza de la carga factorial al cuadrado para cada variable; de esta manera, cada variable satura en un solo factor. En la matriz de factor rotado observamos que la saturación en los factores es alta al igual que por el método de varimax, pero que la carga factorial en el resto de factores es aún menor. La menor saturación en el resto de factores que proporciona el método de quartimax, se aclara si nos fijamos en el gráfico de cargas, y vemos que las variables se acercan más a la unidad del factor en el que saturan. La bondad del ajuste es significativa, por lo que no rechazamos la hipótesis nula porque los residuos no son lo suficientemente grandes como para que el modelo factorial no se ajuste a los datos. En el gráfico de dispersión matricial observamos que los factores no tienen correlación entre sí y que las observaciones se distribuyen como nubes de puntos sin tendencia. Por último, se realizará un cálculo de las puntuaciones factoriales para hacer un análisis de outliers, para ello recurrimos al gráfico de cajas y vemos que nos proporciona tres observaciones que se salen de lo normal; estas tres observaciones solo son outliers en un factor casa uno. Las analizaremos exhaustivamente yendo a las observaciones 6, 38 y 58. La observación 6 podría ser outliers porque su percepción de las actividades culturales es muy inferior a la media en todos los casos. Los mismo pasa con las observaciones 38 y 58, que consideran la docencia peor que el promedio de las observaciones de una forma negativa.