Análisis de componentes principales

Anuncio
Análisis Factorial:
Análisis de componentes
principales
Abel Lucena
Ferran Carrascosa
Universitat Pompeu Fabra
22 de febrero de 2013
¿En qué consiste el análisis factorial?

El análisis factorial agrupa una serie de procedimientos de análisis
multivariable que analizan la relación mutua entre variables. En este
sentido, el análisis factorial permite estudiar la interdependencia entre un
conjunto de variables.

En comparación con el análisis de regresión, la finalidad principal del
análisis factorial no es el estudio de relaciones causales, sino la agrupación
de variables en función de la variabilidad que cada variable comparte con
otras variables.

La idea fundamental en el análisis factorial es:
Analizar la correlación existente entre una serie de variables, con el
propósito de descubrir alguna estructura latente (no directamente
observable). Se busca la reducción de la información proporcionada por
“p” variables observadas, con la menor pérdida posible de información, en un número inferior de “k” variables no observadas.
¿En qué consiste el análisis factorial?
 La reducción o agrupación de variables en factores o componentes
principales se caracteriza por:
 Aglutinar bajo cada factor o componente variables que estén muy
correlacionadas entre ellas.
 Garantizar que variables de agrupadas en distintos factores o
componentes este poco correlacionadas.
 De hecho, entre factores o componentes, la correlación será igual a
cero. Esta característica nos indica que cada factor o componente
mide o representa una dimensión distinta en los datos
Tipos de modelos factoriales
• Análisis de componentes principales-análisis de factor común
 Componentes principales (ACP): se caracteriza por analizar la
varianza total del conjunto de variables observadas. Se trata de
descubrir las componentes principales que definen al conjunto de
variables observadas
 Factor común (AFC): estudia las interrelaciones entre variables
tomando en cuenta la varianza común. Su objetivo es determinar el
conjunto reducido de factores que expresen lo que es común al
conjunto de variables observadas.
 Análisis factorial exploratorio-análisis factorial confirmatorio
 En este caso, el análisis depende de la finalidad y del conocimiento
previo que se tenga de la realidad que se investiga.
Notación

Considérese que los datos de “p” variables sobre “n” objetos u observaciones, se agrupa en la siguiente matriz:
 X 11

 X 21


 X n1

X 12
X 22
X n2
... X 1 p 

... X 2 p 


... X np 
Podemos calcular la matriz de varianzas y covarianzas asociada a nuestra
matriz de datos:
 s11 s12 ... s1 p 


s
s
...
s
2p 
 21 22




 sn1 sn2 ... snp 
Notación II

Objetivo del análisis de componentes principales: dadas las “p” variables de nuestra matriz de datos, queremos construir “p” nuevas variables que denominaremos componentes principales.
 Las nuevas variables deben contener la misma información que las originales
 Las nuevas variables deben estar no correlacionadas y deben tener varianza
igual a “1”.
 Las nuevas variables deben estar ordenadas de mayor a menor importancia

Las variables originales pueden ser expresadas como una media
ponderada de los componentes principales, tal que los componentes más
importantes tengan mayor peso:
X j  w1 j Z1  w2 j Z 2  ... wpj Z p
j  1,2, ... p
Notación III

Podemos ordenar todos los pesos en una matriz:
 w11

 w21


 wn1

w12
w22
wn2
... w1 p 

... w2 p 


... wnp 
De esta matriz, tenemos dos importantes resultados:
 Variancia Xi: Suma de cuadrados de las filas
2
2
wi1
 wi2
 ... wip2  si2
 Variancia Zj: Suma de cuadrados de las columnas
w12j  w22 j  ... w2pj   j
Ejemplo: Datos del fichero Països

Supongamos que la matriz de datos originales esta conformada por cuatro
variables: Esperanza de vida, % de alfabetización, el PIB per capita y
calorías diarias por habitante.

La idea es buscar los “componentes principales” y la matriz de pesos. De esta manera, podremos usar las componentes principales para definir los
datos originales.

Por los momentos, la idea de este ejercicio es interpretar los resultados
reportados por el SPSS, y entender la relación entre los datos originales y
las componentes principales. Más adelante, la idea será emplear los
componentes principales para reducir y agrupar variables.

Inspeccionemos los datos empleando para ello el análisis de correlación y
los gráficos de dispersión.
Resultados
Comunalidades
Esperança de v ida (1992)
% de d'alf abetització
(1992)
Calories diàries / habitant
LnPIB
Inicial
1,000
Extracción
1,000
1,000
1,000
1,000
1,000
1,000
1,000
Método de extracción: Análisis de Componentes principales.
Varianzas de
las
variables
originales.
La suma de los elementos de
esta columna
coinciden con la varianza total
Porción de las
varianzas
explicadas por
los
componentes
Resultados II
Estos valores se corresponden con cada λ (varianza explicada por la componente “j”)
Varianza total explicada
Componente
1
2
3
4
Autov alores iniciales
% de la
Total
v arianza
% acumulado
3,257
81,437
81,437
,408
10,188
91,625
,206
5,160
96,785
,129
3,215
100,000
Sumas de las saturaciones al cuadrado
de la extracción
% de la
Total
v arianza
% acumulado
3,257
81,437
81,437
,408
10,188
91,625
,206
5,160
96,785
,129
3,215
100,000
Método de extracción: Análisis de Componentes principales.
La suma de cada λ debe ser igual a la varianza total. En
este caso, igual a 4
Resultados III
Matri z de componentesa
Esperança de v ida (1992)
% de d'alf abetització
(1992)
Calories diàries / habitant
LnPIB
1
,944
Component e
2
3
-,143
-,069
4
-,290
,879
-,409
,194
,148
,859
,925
,455
,112
,234
-,331
,005
,151
Método de extracción: Análisis de componentes principales.
a. 4 componentes extraídos
Matriz de pesos. Contiene los elementos
que permiten expresar las variables
originales como una combinación lineal de
los componentes principales
Resultado IV: Puntuaciones factoriales

Podemos calcular la matriz de puntuaciones factoriales. Esta matriz contiene los
coeficientes que nos permiten expresar los valores de cada componente principal en
función de las variables originales:
Z j  c j1 X 1  c j2 X 2  ... c jp X p
j  1,2, ... p
Matri z de coefi cientes para el cál culo de las puntuaci ones en las
componentes
Esperança de v ida (1992)
% de d'alf abetització
(1992)
Calories diàries / habitant
LnPIB
1
,290
Component e
2
3
-,351
-,336
4
-2,254
,270
-1,004
,940
1,149
,264
,284
1,117
,275
1,132
-1,602
,037
1,173
Método de extracción: Análisis de componentes principales.
Puntuaciones de componentes.
Descargar