Análisis en Componentes Principales

Anuncio
Análisis en Componentes Principales
CIMPA-UCR
Análisis en Componentes
Principales
ACP
Análisis en Componentes Principales
CIMPA-UCR
ACP: resumen
Situación: se tiene una tabla de datos cuantitativos
Objetivo:
•obtener una representación en pocas dimensiones de los
objetos, perdiendo el mínimo de información
•obtener (pocas) variables sintéticas, basadas en las variables
originales y no correlacionadas entre ellas
•son objetivos equivalentes
Solución matemática: calcular los valores y vectores propios de
la matriz de correlaciones
Variables sintéticas → componentes principales
Análisis en Componentes Principales
CIMPA-UCR
ACP: Ilustración
Plano principal:
Análisis en Componentes Principales
ACP: Los Datos
CIMPA-UCR
p variables cuantitativas
n individuos
( )
X = xij
X n× p
n× p
Fila i representa al individuo i-ésimo: xi
i
(
x i = xi1 , xi2 ,..., x
p
) =∑x e
p T
i
j
i
j =1
j
Análisis en Componentes Principales
ACP: Los Datos
CIMPA-UCR
j
Columna j representa a la variable j-ésima: x j
j
(
x = x1j , x2j ,..., x
n
) =∑x
j T
n
i
i =1
Las variables son cuantitativas.
j
fi
Análisis en Componentes Principales
ACP: Objetivos
CIMPA-UCR
1. Buscar la recta de mejor ajuste de la nube η
H
η
2. Buscar el plano de mejor ajuste en la nube η
H
η
4. Buscar el espacio de mejor ajuste de la nube η
ETC.
Análisis en Componentes Principales
CIMPA-UCR
Ajuste en ACP
MEJOR AJUSTE: que se respeten lo mejor posible las distancias
entre los individuos.



2
1 
2
Max ∑∑ d H i, i  ⇔ Max ∑ d H i, 0 
(H )
(H )
 i i´

 i

( )
( )
TEOREMA: El plano de mejor ajuste contiene a la recta de
mejor ajuste.
El espacio de mejor ajuste contiene al plano de
mejor ajuste.
Análisis en Componentes Principales
ACP: Objetivo dual
CIMPA-UCR
1
2
q
Encontrar q variables sintéticas c , c ,..., c :
• combinación lineal de las x
j
k
k´


• no correlacionadas entre sí: ρ  c , c  = 0


• que contengan el máximo de información:
k

varianza máximo: MaxVar c 
 
Criterio:
“máxima información”
Varianza máxima
Inercia proyectada máxima
Error mínimo
Análisis en Componentes Principales
ACP: Principios Geométricos
CIMPA-UCR
FILAS
n puntos en RP
i
i´
RP
p
(
2
DISTANCIA: d (i, i´) = ∑ xij − xi´ j
)
2
j =1
COLUMNAS
j j´
p puntos en Rn
Rn
DISTANCIA: d
2
n
( j, j´) = ∑ (xi
i =1
j
)
− xi ´
j
2
Análisis en Componentes Principales
Inercia: concepto intuitivo
CIMPA-UCR
Nube de puntos: x1 , x 2 ,..., x n ∈ R p
j
p variables centradas: x = 0
I (N ) =
( )
n
1
n
(→ g = 0)
2
d
∑ xi , 0 → Dispersión de la nube
i =1
x3
x2
g
x1
xn
Análisis en Componentes Principales
Inercia
CIMPA-UCR
Proximidad de la nube N a un punto a: I a = ∑ xi − a
2
i
Teorema de Huyghens: I a = I g + a
2
Sea M = I
∴ Mínimo de la Ia cuando a =g
Si M es identidad: Ig =traza V
2
I g = ∑ xi
2
=∑
i
∑x
i
j
= ∑ ∑ xi f j
j
fj
i
j
i
2
( )
= ∑∑ xi
j
i
j 2
j
( ) = ∑∑ (x ) =∑ var(x ) = trazaV
= ∑ ∑ xi
i
j
Ig = IH + IH⊥
j 2
j 2
j
i
j
i
j
fj
2
Análisis en Componentes Principales
CIMPA-UCR
Inercia proyectada
Inercia proyectada:
~
I N =
n
( ) ∑d
1
n
2
(~xi ,0)
i =1
Dispersión multidimensional
Análisis en Componentes Principales
Inercia proyectada
CIMPA-UCR
H
αi
xi
xi = α i + β i
αi ⊥ βi
Por Teorema de Pitágoras
H
βi
⊥
Sumando:
xi
2
= αi + βi
∑ pi xi = ∑ pi α i + ∑ pi βi
2
2
i
2
i
⇒ I g (N ) = IH ⊥ (N ) + IH (N )
Proximidad entre N y el subespacio H:
n
I H ( N ) = ∑ pi xi − α i = ∑ pi β i
i =1
2
i
2
2
2
= αi + βi
2
Análisis en Componentes Principales
CIMPA-UCR
Teorema de inclusión
Sea Ek −1 óptimo dim(Ek −1 ) = k − 1
⇒ Ek −1 ≤ Ek
con Ek : óptimo, dim(Ek ) = k
Sea Fk ≤ E , dim(Fk ) = k
Sea H = Fk + Ek⊥−1
Fk I Ek⊥−1 ≠ {0} pues dim(F ) = k
k
(
)
dim Ek⊥−1 = p − (k − 1) = p − k + 1
⇒ ∃υ ≠ 0,υ ∈ Fk I Ek⊥−1. Sea ∆υ : eje gen. υ
Sea G: suplementario M-ortogonal de ∆υ : en Fk:
Fk = G ⊕ ∆υ
Análisis en Componentes Principales
Teorema de inclusión
CIMPA-UCR
Sea Ek = Ek −1 ⊕ ∆υ
Entonces:
I Fk (N ) = I G (N ) + I ∆υ (N )
I Ek ( N ) = I Ek −1 ( N ) + I ∆υ ( N )
mín
I Ek −1 (N ) ≤ I G (N ) ⇒ I Ek (N ) ≤ I Fk ( N )
Por construcción, Ek −1 ≤ E k
Análisis en Componentes Principales
CIMPA-UCR
Cálculo de los ejes principales
Sea Ek-1 óptimo de dimensión k-1
Para cualquier Fk de dim k que contiene a Ek-1:
∃υ / Fk = Ek −1 ⊕ ∆υ
con ∆υ ⊥ M Ek −1
⇒ I Fk ( N ) = I Ek −1 ( N ) + I ∆υ ( N )
I Fk ( N ) se minimiza si I
es mínima
∆υ N
Procedimiento:
1. Buscar eje E1 = ∆υ1 / I ∆υ1 ( N ) sea mínima
( )
2. Buscar eje ∆υ 2 ,υ 2 ⊥ M υ1 / I ∆υ2 ( N )
sea mínima
k. Buscar eje ∆υ k ,υ k ⊥ M Ek −1 / I ∆υ k ( N ) sea mínima
Análisis en Componentes Principales
CIMPA-UCR
Táctica del ACP
1. Buscar la recta ∆u1 : I ∆u1 sea mínima, u1 = 1
2. Buscar la recta ∆u2 : I ∆u 2 sea mínima, u 2 = 1, u1 ⊥ u 2
3. Buscar la recta ∆u3 : I ∆u 3 sea mínima, u3 = 1, u3 ⊥ u1 , u3 ⊥ u 2
ETC.
I g = I ∆u + I ∆u ⊥
∴ I ∆u es Mínimo ⇔ I ⊥ es Máximo
∆u
I ∆u ⊥ = u t MVMu
Ι
∆u ⊥
u1 M = 1
Sea αi proyección de xi sobre u: αri = ci ur c = xr , ur = xT Mu
i
i
i
r 2
r2
= • π i α i M = • π i χ i υ M = • π i χ i2 = υ T ΜΞ T ∆ΞΜυ = υ T ΜςΜυ
Análisis en Componentes Principales
CIMPA-UCR
ACP: Primer Eje
Recta ∆u ↔ Vector u, u = 1 :
I∆u sea mínima
⇔ I∆u⊥ sea máxima
PROBLEMA: Max{F (u ) = u MVMu} RESTRICCIÓN:
T
,
(
SOLUCIÓN: L u λ  = u T MVMu − λ u T Mu −
1)
POR MULTIPLICADORES DE LAGRANGE:
∂L
= 2VMu − 2λu = 0 ⇒ VMu = λu
∂u
⇒ u es vector propio de VM
u
2
=1
Análisis en Componentes Principales
CIMPA-UCR
ACP: Primer Eje
F (u ) = u T MVMu = u T M (λu ) = λu T Mu = λ1 = λ
∴ F es máximo si λ es máximo
PRIMER EJE: ∆u1
Con u1 unitario, vector propio asociado a λ1 el mayor valor
propio de la matriz VM
Análisis en Componentes Principales
CIMPA-UCR
ACP: Segundo Eje
Recta ∆u ↔ Vector u, u = 1,
PROBLEMA:
Max{F (u ) = u T MVMu}
u1 ⊥ u
, Max
{ ⊥}
I
∆u
RESTRICCIONES:
2
u = 1, u ⊥ u1
SOLUCIÓN:
(
) (
L(u , λ , β ) = u T MVMu − λ u T Mu − 1 − β u T Mu1
POR MULTIPLICADORES DE LAGRANGE:
∂L
= 2VMu − 2λMu − βMu1 = 0
∂u
T
T
T
T
 2u1 VMu  2 u1 Mu   u1 Mu1  0  2u1 VMu  0 
⇒β =0
)
 
0
Análisis en Componentes Principales
ACP: Segundo Eje
CIMPA-UCR
∴ 2VMu − 2λMu = 0 ⇒ VMu = λMu
∴ es vector propio de V y F(u) =λ
∴ u está asociado a λ2, el segundo valor propio de VM
PLANO PRINCIPAL: Generado a u1 y u2, vect. Propios
de V asociados a λ1 y λ2 los dos primeros valores propis de V
∆u2
EJES PRINCIPALES u , u ,..., u
1
2
k
∆u1
λ1 ≥ λ2 ≥ ... ≥ λk
Vectores propios de VM, asociados a los primeros k
valores propios de VM.
Análisis en Componentes Principales
ACP Normado
CIMPA-UCR
Para eliminar el efecto de escala en las variables:
P. ej: PESO
j
j
xi ↔
xi − x
Gramos, Onzas, Kilogramos, etc.
j
σj: desv. Estándar de variable xj
σj
Matriz a diagonalizar: R = D VD
1
1
σ
σ
Ejes Principales: Vectores propios de R
( )
∴ d (x , x ) = var(x ) + var(x ) − 2corr (x , x )
= 2(1 − corr (x , x ))
var x j = 1, ∀j
2
j
k
j
j
k
k
j
k
Análisis en Componentes Principales
CIMPA-UCR
ACP: notas escolares
MATE
CIEN.
ESPA
HIS.
GIM
LUCIA
7.0
6.5
9.2
8.6
8.0
PEDRO
7.5
9.4
7.3
7.0
7.0
INES
7.6
9.2
8.0
8.0
7.5
LUIS
5.0
6.5
6.5
7.0
9.0
ANDRES
6.0
6.0
7.8
8.9
7.3
ANA
7.8
9.6
7.7
8.0
6.5
CARLOS
6.3
6.4
8.2
9.0
7.2
JOSE
7.9
9.7
7.5
8.0
6.0
SONIA
6.0
6.0
6.5
5.5
8.7
MARÍA
6.8
7.2
8.7
9.0
7.0
6.79
7.65
7.74
7.9
7.42
PROM
Análisis en Componentes Principales
Correlaciones
CIMPA-UCR
MATE
CIEN
ESPA HISTO
MATE
1
0.85
0.38
0.21
-0.79
CIEN
0.85
1
-0.02
-0.02
-0.69
ESPA
0.38
-0.02
1
0.82
-0.37
HISTO
0.21
-0.02
0.82
1
-0.51
GIM
-0.79
-069
-0.37
-0.51
1
¿Cómo resumir esta información?
¿Cómo “proyectar” en pocas dimensiones?
¿Cómo obtener variables sintéticas?
GIM
Análisis en Componentes Principales
Valores propios
CIMPA-UCR
VALORES PROPIO VARIANZA
ACUMULADA
1
2.89
57.9%
57.9%
2
1.63
32.6%
90.4%
3
0.35
6.9%
97.4%
4
0.12
2.4%
99.8%
5
0.01
0.2%
100.0%
Análisis en Componentes Principales
CIMPA-UCR
Grafico de valores propios
Notas escolares
3.5
57.86%
3.0
2.5
2.0
32.57%
1.5
Valor propios
1.0
0.5
6.93%
2.45%
.18%
0.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Numero del valor propio
4.0
4.5
5.0
5.5
6.0
Análisis en Componentes Principales
CIMPA-UCR
Correlaciones Principales
MATEM CIEN
ESPA
HISTO
GIM
COMP.1
-0.90
-0.72
-0.61
-0.60
0.91
COMP.2
0.35
0.65
-0.72
-0.75
-0.2
A n álisis
C
o
m
p
o
n
e
n
t
e
s
P
r
i
n
c
i
p
a
l
e
s
Círculo de Correlaciones
Notas Escolares: Circulo de Correlaciones
1.0
Ciencias
0.5
Matematica
Factor 2 : 32.57%
CIMPA-UCR
en
0.0
Ed.Fisica
-0.5
Espanol
Historia
-1.0
-1.0
-0.5
0.0
Factor 1 : 57.86%
0.5
1.0
Active
Análisis en Componentes Principales
Plano Principal
CIMPA-UCR
Notas escolares: Plano principal 1-2
2.5
2.0
Pedro
1.5
Jose
Ana
Factor 2: 32.57%
1.0
Sonia
Ines
0.5
Luis
0.0
-0.5
-1.0
Andres
Maria Carlos
-1.5
Lucia
-2.0
-2.5
-3.0
-4
-3
-2
-1
0
1
Factor 1: 57.86%
2
3
4
5
Active
Análisis en Componentes Principales
Tabla de notas francesas
CIMPA-UCR
MATE FISC. FRAN LATN
JEAN
6
6
5
5.5
ALAIN
8
8
8
8
ANNE
6
7
11
9.5
DIDIER
14
14
12
12.5
ANDRE
11
10
5.5
7
MONIQUE 14.5
14.5
15.5
15
PIERRE
5.5
7
14
11.5
BRIGITTE
13
12.5
8.5
9.5
EVELYNE
9
9.5
12.5
12
Análisis en Componentes Principales
CIMPA-UCR
Matriz de correlaciones
MATE FISC
MATE
FISC
FRAN
LATN
1
FRAN LATN
0.983
0.227
0.508
1
0.397
0.652
1
0.951
1
Análisis en Componentes Principales
Valores propios
CIMPA-UCR
NÚMERO VALOR
%
%
PROPIO TRAZA ACUMULADO
1
2.88
71.892
71.892
2
1.12
27.992
99.884
3
0.00
0.089
99.974
4
0.00
0.026
100.000
Análisis en Componentes Principales
Calidad de la representación
CIMPA-UCR
EJE 1 EJE 2 EJE 3 COS 1 COS 2 COS 3 CALID. 3
JEAN
2.74
-0.43
0.02
97.616
2.370
0.007
99.993
ALAIN
1.24
-0.15
0.00
98.474
1.493
0.001
99.968
ANNE
1.03
1.05
-0.06
49.039
50.804
0.157
99.999
DIDIER
-2.05
-0.63
-0.02
91.353
8.556
0.013
99.922
ANDRE
0.97
-1.50
0.03
29.573
70.348
0.021
99.943
MONIQUE
-3.14
0.19
0.01
99.627
0.349
0.001
99.977
PIERRE
0.33
1.94
-0.06
2.896
97.023
0.079
99.998
BRIGITTE
-0.62
-1.29
-0.07
18.711
81.068
0.213
99.993
EVELYNE
-0.51
0.82
0.14
27.140
70.782
2.022
99.944
Análisis en Componentes Principales
ACP: Solución
CIMPA-UCR
•Diagonalizar la matriz de varianzas-covarianzas VM
r
r
λ valor propio de VM
: VMv = λv
r vector propio de VM
v
•Caso estandarizado: diagonalizar R (matriz de correlaciones)
• λi > 0
(
•P vectores propios: ortogonales de norma 1 u1 ,..., u p
Componentes Principales j
C = XM u j
Propiedades:
( )
j
⋅ var C = λ j
rj
⋅C = 0
(
j
k
)
⋅ ρ C ,C = 0
(ortogonales)
)
Análisis en Componentes Principales
Signo del valor propio
CIMPA-UCR
Tx = λx
El signo es arbitrario
x
Vx = λx
− λx
V (− x ) = −Vx = −(λx ) = λ (− x )
Análisis en Componentes Principales
Diagonalizar la matriz de
correlaciones
CIMPA-UCR
(
R = (rjk )p× p , rjk = ρ x j , x k
Existen
)
λ1 , λ2 , λ3 ,..., λ p ≥ 0
tales que: Ru j = λ j u j
y existen vectores u1 , u 2 ,..., u p ∈ R
R
Ru j = λ j u j
uj
Au j
Signo:
( )
( )
R − u j = − Ru j = −λ j u j = λ j − u j
Análisis en Componentes Principales
CIMPA-UCR
Consecuencia del Teorema de
Pitágoras
~
x2
x
2
~
x
cos 2 θ =
~
x
x
~
x1
2
Por T. Pitágoras: x = ~
x1 + ~
x2
cos 2 θ =
2
2
= ~
x1 + ~
x2
2
~
x1 + ~
x2
x
2
= cos 2 θ1 + cos 2 θ 2
2
=
~
x1
x
2
2
2
2
+
~
x2
x
2
2
Análisis en Componentes Principales
Representación de los individuos
CIMPA-UCR
Reconstruir las posiciones originales de los individuos en el
plano principal: ∆u1 ⊕ ∆u2
Se proyecta xi en ∆u1 y en ∆u2
En ∆u1 : α i = ci u i , ci = X iT Mu
En ∆u2 β: i = d i u 2 , d i = X iT Mu2
∆u2
βi
i
~
x
~
xi :proyección de x i
αi
Calidad de la Representación:
cos 2 θ =
~
xi
xi
2
M
2
M
Análisis en Componentes Principales
CIMPA-UCR
Representación de las variables
Examinar las correlaciones
principales
ρ 2 (x j , C k ) ≥ 0.5
Análisis en Componentes Principales
Calidad de la representación
CIMPA-UCR
u i un eje principal: I ∆uk⊥ = λk
I ∆u ⊥ = λukT MVMuk = ukT M (λk uk ) = λk ukT Muk = λk
Sea
(
k
)
λk es la inercia explicada por el eje ∆uk
Inercia total: I ( N ) = traza (VM ) = λ1 + λ2 + ... + λ p
λ1 + ... + λ p
% de Inercia explicada por el eje
principal
λ1 + λ2
λ1 + ... + λ p
% de Inercia explicada por el plano
principal
λ1
Análisis en Componentes Principales
CIMPA-UCR
Calidad de la representación
λ1 + ... + λk
λ1 + ... + λ p
% de Inercia explicada por los k
primeros ejes principales
Valores Propios
λ2
% in.
VAP
λ1
% in
λ1
2
λ3
% Inercia
% Acumulado
40%
40%
2 0 %
60%
15%
75%
Análisis en Componentes Principales
Número de ejes
CIMPA-UCR
1. Inercia explicada mínima:
1
2
c , c ,..., c
k
tq λ1 + λ2 + ... + λq ≥ mín% I (N )
2. Criterio del codo:
1 2 3 4
5
6
7
3. Interpretabilidad:
Individuos: cos ( xi , xˆi ) ≥ 0.5
2
k
j

Variables: ρ  c , x  ≥ 0.7


Análisis en Componentes Principales
CIMPA-UCR
Número de ejes (cont.)
j

4. Si M = D1σ variables estandarizadas ⇒ var x  = 1
 
k
k


Tomar solo c tq λk ≥ 1 λk = var c  
 

5. Información independiente: número equivalente
Análisis en Componentes Principales
Variables suplementarias
CIMPA-UCR
Variable cuantitativa
Z: centrada
Análisis Z
Variable cualitativa
Variable Nominal
con m modalidades
Análisis
m
Análisis en Componentes Principales
Interpretación de resultados
CIMPA-UCR
Interpretar es dar sentido
a) Situación de un punto respecto al conjunto de filas y
columnas → la tabla.
b) Elementos suplementarios: referencia.
c) Experiencia del analista
• Inercia de los factores
– valores propios
– % inercia
–# factores
Análisis en Componentes Principales
Interpretación de resultados
CIMPA-UCR
• Interpretación de los factores
– contribución de individuos
– variables activas: *eje x, *planos
– variables suplementarias: ampliar el contexto
– coordenadas de los individuos: aspecto general, prototipos,
tipologías
– individuos suplementarios
Casos particulares:
• factor ~ elemento aberrante
• factor de oposición
• factor ~ grupo
• factor ~ participación
• factor de escala
• efecto talla
Análisis en Componentes Principales
Datos de prediagnóstico
CIMPA-UCR
1.
2.
3.
4.
5.
6.
Calinda
Las Juntas
Cartagena
San Pablo
El Esfuerzo
Palo Verde
220 x 3
240 x 3
235 x 3
240 x 3
240 x 3
239 x 3
Análisis en Componentes Principales
CIMPA-UCR
Variables
• Circunferencia de la madre (cm)
CircMadr
• Altura del Hijo (cm)
AltHijo
• Número de manos
#Manos
Análisis en Componentes Principales
CIMPA-UCR
Individuos
• 3 sitios por finca:
– Bueno (B)
– Medio (M)
– Pobre (P)
• 20 casos para cada sitio
• 4 repeticiones c/u
• Total: 240 casos (en teoría) por finca
Análisis en Componentes Principales
Correlaciones
CIMPA-UCR
CircMadre CircMadre
AltHijo
#Manos
AltHijo
#Manos
Calinda
0.617
0.870
0.658
Cartagena
0.689
0.881
0.670
El Esfuerzo
0.734
0.816
0.617
Las Juntas
0.717
0.756
0.645
Palo Verde
0.682
0.685
0.597
San Pablo
0.730
0.851
0.731
Análisis en Componentes Principales
CIMPA-UCR
Calinda: ACP completo
Bueno
Medio
Pobre
Análisis en Componentes Principales
CIMPA-UCR
Calinda: ACP completo
Bueno
Pobre
Análisis en Componentes Principales
CIMPA-UCR
Calinda: ACP sin sitio medio
Bueno
Pobre
Análisis en Componentes Principales
CIMPA-UCR
Calinda: ACP sin sitio medio
Análisis en Componentes Principales
CIMPA-UCR
Las Juntas: ACP sin medio
Bueno
Pobre
Análisis en
CIMPA-UCR
C
o
m
p
o
n
e
n
t
e
s
Principales
Las Juntas: ACP sin medio
Análisis en Componentes Principales
CIMPA-UCR
Cartagena: ACP completo
Bueno
Pobre
Medio
Análisis en Componentes Principales
C
I
M
P
A
-UCR
Cartagena: ACP completo
Análisis en Componentes Principales
CIMPA-UCR
Cartagena: ACP sin medio
Pobre
B
u e n o
Análisis en Componentes Principales
CIMPA-UCR
C
a
r t a
g
e
n
a
:
A
C
P
s
i n
medio
Análisis en Componentes Principales
CIMPA-UCR
San Pablo: ACP sin medio
Bueno
Pobre
Análisis en Componentes Principales
CIMPA-UCR
San Pablo: ACP sin medio
Análisis en Componentes Principales
CIMPA-UCR
El Esfuerzo: ACP sin medio
Pobre
Bueno
Análisis en Componentes Principales
CIMPA-UCR
El Esfuerzo: ACP sin medio
Análisis en Componentes Principales
CIMPA-UCR
Palo Verde: ACP sin medio
Pobre
Bueno
Análisis en Componentes Principales
CIMPA-UCR
Palo Verde: ACP sin medio
Análisis en Componentes Principales
CIMPA-UCR
Análisis de los horizontes
4o horizonte
3er horizonte
2o horizonte
1er horizonte
Análisis en Componentes Principales
Círculo de correlaciones
Profundidad
CIMPA-UCR
Superficie
Descargar