Análisis Factorial: Análisis de componentes principales Abel Lucena Ferran Carrascosa Universitat Pompeu Fabra 22 de febrero de 2013 ¿En qué consiste el análisis factorial? El análisis factorial agrupa una serie de procedimientos de análisis multivariable que analizan la relación mutua entre variables. En este sentido, el análisis factorial permite estudiar la interdependencia entre un conjunto de variables. En comparación con el análisis de regresión, la finalidad principal del análisis factorial no es el estudio de relaciones causales, sino la agrupación de variables en función de la variabilidad que cada variable comparte con otras variables. La idea fundamental en el análisis factorial es: Analizar la correlación existente entre una serie de variables, con el propósito de descubrir alguna estructura latente (no directamente observable). Se busca la reducción de la información proporcionada por “p” variables observadas, con la menor pérdida posible de información, en un número inferior de “k” variables no observadas. ¿En qué consiste el análisis factorial? La reducción o agrupación de variables en factores o componentes principales se caracteriza por: Aglutinar bajo cada factor o componente variables que estén muy correlacionadas entre ellas. Garantizar que variables de agrupadas en distintos factores o componentes este poco correlacionadas. De hecho, entre factores o componentes, la correlación será igual a cero. Esta característica nos indica que cada factor o componente mide o representa una dimensión distinta en los datos Tipos de modelos factoriales • Análisis de componentes principales-análisis de factor común Componentes principales (ACP): se caracteriza por analizar la varianza total del conjunto de variables observadas. Se trata de descubrir las componentes principales que definen al conjunto de variables observadas Factor común (AFC): estudia las interrelaciones entre variables tomando en cuenta la varianza común. Su objetivo es determinar el conjunto reducido de factores que expresen lo que es común al conjunto de variables observadas. Análisis factorial exploratorio-análisis factorial confirmatorio En este caso, el análisis depende de la finalidad y del conocimiento previo que se tenga de la realidad que se investiga. Notación Considérese que los datos de “p” variables sobre “n” objetos u observaciones, se agrupa en la siguiente matriz: X 11 X 21 X n1 X 12 X 22 X n2 ... X 1 p ... X 2 p ... X np Podemos calcular la matriz de varianzas y covarianzas asociada a nuestra matriz de datos: s11 s12 ... s1 p s s ... s 2p 21 22 sn1 sn2 ... snp Notación II Objetivo del análisis de componentes principales: dadas las “p” variables de nuestra matriz de datos, queremos construir “p” nuevas variables que denominaremos componentes principales. Las nuevas variables deben contener la misma información que las originales Las nuevas variables deben estar no correlacionadas y deben tener varianza igual a “1”. Las nuevas variables deben estar ordenadas de mayor a menor importancia Las variables originales pueden ser expresadas como una media ponderada de los componentes principales, tal que los componentes más importantes tengan mayor peso: X j w1 j Z1 w2 j Z 2 ... wpj Z p j 1,2, ... p Notación III Podemos ordenar todos los pesos en una matriz: w11 w21 wn1 w12 w22 wn2 ... w1 p ... w2 p ... wnp De esta matriz, tenemos dos importantes resultados: Variancia Xi: Suma de cuadrados de las filas 2 2 wi1 wi2 ... wip2 si2 Variancia Zj: Suma de cuadrados de las columnas w12j w22 j ... w2pj j Ejemplo: Datos del fichero Països Supongamos que la matriz de datos originales esta conformada por cuatro variables: Esperanza de vida, % de alfabetización, el PIB per capita y calorías diarias por habitante. La idea es buscar los “componentes principales” y la matriz de pesos. De esta manera, podremos usar las componentes principales para definir los datos originales. Por los momentos, la idea de este ejercicio es interpretar los resultados reportados por el SPSS, y entender la relación entre los datos originales y las componentes principales. Más adelante, la idea será emplear los componentes principales para reducir y agrupar variables. Inspeccionemos los datos empleando para ello el análisis de correlación y los gráficos de dispersión. Resultados Comunalidades Esperança de v ida (1992) % de d'alf abetització (1992) Calories diàries / habitant LnPIB Inicial 1,000 Extracción 1,000 1,000 1,000 1,000 1,000 1,000 1,000 Método de extracción: Análisis de Componentes principales. Varianzas de las variables originales. La suma de los elementos de esta columna coinciden con la varianza total Porción de las varianzas explicadas por los componentes Resultados II Estos valores se corresponden con cada λ (varianza explicada por la componente “j”) Varianza total explicada Componente 1 2 3 4 Autov alores iniciales % de la Total v arianza % acumulado 3,257 81,437 81,437 ,408 10,188 91,625 ,206 5,160 96,785 ,129 3,215 100,000 Sumas de las saturaciones al cuadrado de la extracción % de la Total v arianza % acumulado 3,257 81,437 81,437 ,408 10,188 91,625 ,206 5,160 96,785 ,129 3,215 100,000 Método de extracción: Análisis de Componentes principales. La suma de cada λ debe ser igual a la varianza total. En este caso, igual a 4 Resultados III Matri z de componentesa Esperança de v ida (1992) % de d'alf abetització (1992) Calories diàries / habitant LnPIB 1 ,944 Component e 2 3 -,143 -,069 4 -,290 ,879 -,409 ,194 ,148 ,859 ,925 ,455 ,112 ,234 -,331 ,005 ,151 Método de extracción: Análisis de componentes principales. a. 4 componentes extraídos Matriz de pesos. Contiene los elementos que permiten expresar las variables originales como una combinación lineal de los componentes principales Resultado IV: Puntuaciones factoriales Podemos calcular la matriz de puntuaciones factoriales. Esta matriz contiene los coeficientes que nos permiten expresar los valores de cada componente principal en función de las variables originales: Z j c j1 X 1 c j2 X 2 ... c jp X p j 1,2, ... p Matri z de coefi cientes para el cál culo de las puntuaci ones en las componentes Esperança de v ida (1992) % de d'alf abetització (1992) Calories diàries / habitant LnPIB 1 ,290 Component e 2 3 -,351 -,336 4 -2,254 ,270 -1,004 ,940 1,149 ,264 ,284 1,117 ,275 1,132 -1,602 ,037 1,173 Método de extracción: Análisis de componentes principales. Puntuaciones de componentes.