Análisis en Componentes Principales CIMPA-UCR Análisis en Componentes Principales ACP Análisis en Componentes Principales CIMPA-UCR ACP: resumen Situación: se tiene una tabla de datos cuantitativos Objetivo: •obtener una representación en pocas dimensiones de los objetos, perdiendo el mínimo de información •obtener (pocas) variables sintéticas, basadas en las variables originales y no correlacionadas entre ellas •son objetivos equivalentes Solución matemática: calcular los valores y vectores propios de la matriz de correlaciones Variables sintéticas → componentes principales Análisis en Componentes Principales CIMPA-UCR ACP: Ilustración Plano principal: Análisis en Componentes Principales ACP: Los Datos CIMPA-UCR p variables cuantitativas n individuos ( ) X = xij X n× p n× p Fila i representa al individuo i-ésimo: xi i ( x i = xi1 , xi2 ,..., x p ) =∑x e p T i j i j =1 j Análisis en Componentes Principales ACP: Los Datos CIMPA-UCR j Columna j representa a la variable j-ésima: x j j ( x = x1j , x2j ,..., x n ) =∑x j T n i i =1 Las variables son cuantitativas. j fi Análisis en Componentes Principales ACP: Objetivos CIMPA-UCR 1. Buscar la recta de mejor ajuste de la nube η H η 2. Buscar el plano de mejor ajuste en la nube η H η 4. Buscar el espacio de mejor ajuste de la nube η ETC. Análisis en Componentes Principales CIMPA-UCR Ajuste en ACP MEJOR AJUSTE: que se respeten lo mejor posible las distancias entre los individuos. 2 1 2 Max ∑∑ d H i, i ⇔ Max ∑ d H i, 0 (H ) (H ) i i´ i ( ) ( ) TEOREMA: El plano de mejor ajuste contiene a la recta de mejor ajuste. El espacio de mejor ajuste contiene al plano de mejor ajuste. Análisis en Componentes Principales ACP: Objetivo dual CIMPA-UCR 1 2 q Encontrar q variables sintéticas c , c ,..., c : • combinación lineal de las x j k k´ • no correlacionadas entre sí: ρ c , c = 0 • que contengan el máximo de información: k varianza máximo: MaxVar c Criterio: “máxima información” Varianza máxima Inercia proyectada máxima Error mínimo Análisis en Componentes Principales ACP: Principios Geométricos CIMPA-UCR FILAS n puntos en RP i i´ RP p ( 2 DISTANCIA: d (i, i´) = ∑ xij − xi´ j ) 2 j =1 COLUMNAS j j´ p puntos en Rn Rn DISTANCIA: d 2 n ( j, j´) = ∑ (xi i =1 j ) − xi ´ j 2 Análisis en Componentes Principales Inercia: concepto intuitivo CIMPA-UCR Nube de puntos: x1 , x 2 ,..., x n ∈ R p j p variables centradas: x = 0 I (N ) = ( ) n 1 n (→ g = 0) 2 d ∑ xi , 0 → Dispersión de la nube i =1 x3 x2 g x1 xn Análisis en Componentes Principales Inercia CIMPA-UCR Proximidad de la nube N a un punto a: I a = ∑ xi − a 2 i Teorema de Huyghens: I a = I g + a 2 Sea M = I ∴ Mínimo de la Ia cuando a =g Si M es identidad: Ig =traza V 2 I g = ∑ xi 2 =∑ i ∑x i j = ∑ ∑ xi f j j fj i j i 2 ( ) = ∑∑ xi j i j 2 j ( ) = ∑∑ (x ) =∑ var(x ) = trazaV = ∑ ∑ xi i j Ig = IH + IH⊥ j 2 j 2 j i j i j fj 2 Análisis en Componentes Principales CIMPA-UCR Inercia proyectada Inercia proyectada: ~ I N = n ( ) ∑d 1 n 2 (~xi ,0) i =1 Dispersión multidimensional Análisis en Componentes Principales Inercia proyectada CIMPA-UCR H αi xi xi = α i + β i αi ⊥ βi Por Teorema de Pitágoras H βi ⊥ Sumando: xi 2 = αi + βi ∑ pi xi = ∑ pi α i + ∑ pi βi 2 2 i 2 i ⇒ I g (N ) = IH ⊥ (N ) + IH (N ) Proximidad entre N y el subespacio H: n I H ( N ) = ∑ pi xi − α i = ∑ pi β i i =1 2 i 2 2 2 = αi + βi 2 Análisis en Componentes Principales CIMPA-UCR Teorema de inclusión Sea Ek −1 óptimo dim(Ek −1 ) = k − 1 ⇒ Ek −1 ≤ Ek con Ek : óptimo, dim(Ek ) = k Sea Fk ≤ E , dim(Fk ) = k Sea H = Fk + Ek⊥−1 Fk I Ek⊥−1 ≠ {0} pues dim(F ) = k k ( ) dim Ek⊥−1 = p − (k − 1) = p − k + 1 ⇒ ∃υ ≠ 0,υ ∈ Fk I Ek⊥−1. Sea ∆υ : eje gen. υ Sea G: suplementario M-ortogonal de ∆υ : en Fk: Fk = G ⊕ ∆υ Análisis en Componentes Principales Teorema de inclusión CIMPA-UCR Sea Ek = Ek −1 ⊕ ∆υ Entonces: I Fk (N ) = I G (N ) + I ∆υ (N ) I Ek ( N ) = I Ek −1 ( N ) + I ∆υ ( N ) mín I Ek −1 (N ) ≤ I G (N ) ⇒ I Ek (N ) ≤ I Fk ( N ) Por construcción, Ek −1 ≤ E k Análisis en Componentes Principales CIMPA-UCR Cálculo de los ejes principales Sea Ek-1 óptimo de dimensión k-1 Para cualquier Fk de dim k que contiene a Ek-1: ∃υ / Fk = Ek −1 ⊕ ∆υ con ∆υ ⊥ M Ek −1 ⇒ I Fk ( N ) = I Ek −1 ( N ) + I ∆υ ( N ) I Fk ( N ) se minimiza si I es mínima ∆υ N Procedimiento: 1. Buscar eje E1 = ∆υ1 / I ∆υ1 ( N ) sea mínima ( ) 2. Buscar eje ∆υ 2 ,υ 2 ⊥ M υ1 / I ∆υ2 ( N ) sea mínima k. Buscar eje ∆υ k ,υ k ⊥ M Ek −1 / I ∆υ k ( N ) sea mínima Análisis en Componentes Principales CIMPA-UCR Táctica del ACP 1. Buscar la recta ∆u1 : I ∆u1 sea mínima, u1 = 1 2. Buscar la recta ∆u2 : I ∆u 2 sea mínima, u 2 = 1, u1 ⊥ u 2 3. Buscar la recta ∆u3 : I ∆u 3 sea mínima, u3 = 1, u3 ⊥ u1 , u3 ⊥ u 2 ETC. I g = I ∆u + I ∆u ⊥ ∴ I ∆u es Mínimo ⇔ I ⊥ es Máximo ∆u I ∆u ⊥ = u t MVMu Ι ∆u ⊥ u1 M = 1 Sea αi proyección de xi sobre u: αri = ci ur c = xr , ur = xT Mu i i i r 2 r2 = • π i α i M = • π i χ i υ M = • π i χ i2 = υ T ΜΞ T ∆ΞΜυ = υ T ΜςΜυ Análisis en Componentes Principales CIMPA-UCR ACP: Primer Eje Recta ∆u ↔ Vector u, u = 1 : I∆u sea mínima ⇔ I∆u⊥ sea máxima PROBLEMA: Max{F (u ) = u MVMu} RESTRICCIÓN: T , ( SOLUCIÓN: L u λ = u T MVMu − λ u T Mu − 1) POR MULTIPLICADORES DE LAGRANGE: ∂L = 2VMu − 2λu = 0 ⇒ VMu = λu ∂u ⇒ u es vector propio de VM u 2 =1 Análisis en Componentes Principales CIMPA-UCR ACP: Primer Eje F (u ) = u T MVMu = u T M (λu ) = λu T Mu = λ1 = λ ∴ F es máximo si λ es máximo PRIMER EJE: ∆u1 Con u1 unitario, vector propio asociado a λ1 el mayor valor propio de la matriz VM Análisis en Componentes Principales CIMPA-UCR ACP: Segundo Eje Recta ∆u ↔ Vector u, u = 1, PROBLEMA: Max{F (u ) = u T MVMu} u1 ⊥ u , Max { ⊥} I ∆u RESTRICCIONES: 2 u = 1, u ⊥ u1 SOLUCIÓN: ( ) ( L(u , λ , β ) = u T MVMu − λ u T Mu − 1 − β u T Mu1 POR MULTIPLICADORES DE LAGRANGE: ∂L = 2VMu − 2λMu − βMu1 = 0 ∂u T T T T 2u1 VMu 2 u1 Mu u1 Mu1 0 2u1 VMu 0 ⇒β =0 ) 0 Análisis en Componentes Principales ACP: Segundo Eje CIMPA-UCR ∴ 2VMu − 2λMu = 0 ⇒ VMu = λMu ∴ es vector propio de V y F(u) =λ ∴ u está asociado a λ2, el segundo valor propio de VM PLANO PRINCIPAL: Generado a u1 y u2, vect. Propios de V asociados a λ1 y λ2 los dos primeros valores propis de V ∆u2 EJES PRINCIPALES u , u ,..., u 1 2 k ∆u1 λ1 ≥ λ2 ≥ ... ≥ λk Vectores propios de VM, asociados a los primeros k valores propios de VM. Análisis en Componentes Principales ACP Normado CIMPA-UCR Para eliminar el efecto de escala en las variables: P. ej: PESO j j xi ↔ xi − x Gramos, Onzas, Kilogramos, etc. j σj: desv. Estándar de variable xj σj Matriz a diagonalizar: R = D VD 1 1 σ σ Ejes Principales: Vectores propios de R ( ) ∴ d (x , x ) = var(x ) + var(x ) − 2corr (x , x ) = 2(1 − corr (x , x )) var x j = 1, ∀j 2 j k j j k k j k Análisis en Componentes Principales CIMPA-UCR ACP: notas escolares MATE CIEN. ESPA HIS. GIM LUCIA 7.0 6.5 9.2 8.6 8.0 PEDRO 7.5 9.4 7.3 7.0 7.0 INES 7.6 9.2 8.0 8.0 7.5 LUIS 5.0 6.5 6.5 7.0 9.0 ANDRES 6.0 6.0 7.8 8.9 7.3 ANA 7.8 9.6 7.7 8.0 6.5 CARLOS 6.3 6.4 8.2 9.0 7.2 JOSE 7.9 9.7 7.5 8.0 6.0 SONIA 6.0 6.0 6.5 5.5 8.7 MARÍA 6.8 7.2 8.7 9.0 7.0 6.79 7.65 7.74 7.9 7.42 PROM Análisis en Componentes Principales Correlaciones CIMPA-UCR MATE CIEN ESPA HISTO MATE 1 0.85 0.38 0.21 -0.79 CIEN 0.85 1 -0.02 -0.02 -0.69 ESPA 0.38 -0.02 1 0.82 -0.37 HISTO 0.21 -0.02 0.82 1 -0.51 GIM -0.79 -069 -0.37 -0.51 1 ¿Cómo resumir esta información? ¿Cómo “proyectar” en pocas dimensiones? ¿Cómo obtener variables sintéticas? GIM Análisis en Componentes Principales Valores propios CIMPA-UCR VALORES PROPIO VARIANZA ACUMULADA 1 2.89 57.9% 57.9% 2 1.63 32.6% 90.4% 3 0.35 6.9% 97.4% 4 0.12 2.4% 99.8% 5 0.01 0.2% 100.0% Análisis en Componentes Principales CIMPA-UCR Grafico de valores propios Notas escolares 3.5 57.86% 3.0 2.5 2.0 32.57% 1.5 Valor propios 1.0 0.5 6.93% 2.45% .18% 0.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Numero del valor propio 4.0 4.5 5.0 5.5 6.0 Análisis en Componentes Principales CIMPA-UCR Correlaciones Principales MATEM CIEN ESPA HISTO GIM COMP.1 -0.90 -0.72 -0.61 -0.60 0.91 COMP.2 0.35 0.65 -0.72 -0.75 -0.2 A n álisis C o m p o n e n t e s P r i n c i p a l e s Círculo de Correlaciones Notas Escolares: Circulo de Correlaciones 1.0 Ciencias 0.5 Matematica Factor 2 : 32.57% CIMPA-UCR en 0.0 Ed.Fisica -0.5 Espanol Historia -1.0 -1.0 -0.5 0.0 Factor 1 : 57.86% 0.5 1.0 Active Análisis en Componentes Principales Plano Principal CIMPA-UCR Notas escolares: Plano principal 1-2 2.5 2.0 Pedro 1.5 Jose Ana Factor 2: 32.57% 1.0 Sonia Ines 0.5 Luis 0.0 -0.5 -1.0 Andres Maria Carlos -1.5 Lucia -2.0 -2.5 -3.0 -4 -3 -2 -1 0 1 Factor 1: 57.86% 2 3 4 5 Active Análisis en Componentes Principales Tabla de notas francesas CIMPA-UCR MATE FISC. FRAN LATN JEAN 6 6 5 5.5 ALAIN 8 8 8 8 ANNE 6 7 11 9.5 DIDIER 14 14 12 12.5 ANDRE 11 10 5.5 7 MONIQUE 14.5 14.5 15.5 15 PIERRE 5.5 7 14 11.5 BRIGITTE 13 12.5 8.5 9.5 EVELYNE 9 9.5 12.5 12 Análisis en Componentes Principales CIMPA-UCR Matriz de correlaciones MATE FISC MATE FISC FRAN LATN 1 FRAN LATN 0.983 0.227 0.508 1 0.397 0.652 1 0.951 1 Análisis en Componentes Principales Valores propios CIMPA-UCR NÚMERO VALOR % % PROPIO TRAZA ACUMULADO 1 2.88 71.892 71.892 2 1.12 27.992 99.884 3 0.00 0.089 99.974 4 0.00 0.026 100.000 Análisis en Componentes Principales Calidad de la representación CIMPA-UCR EJE 1 EJE 2 EJE 3 COS 1 COS 2 COS 3 CALID. 3 JEAN 2.74 -0.43 0.02 97.616 2.370 0.007 99.993 ALAIN 1.24 -0.15 0.00 98.474 1.493 0.001 99.968 ANNE 1.03 1.05 -0.06 49.039 50.804 0.157 99.999 DIDIER -2.05 -0.63 -0.02 91.353 8.556 0.013 99.922 ANDRE 0.97 -1.50 0.03 29.573 70.348 0.021 99.943 MONIQUE -3.14 0.19 0.01 99.627 0.349 0.001 99.977 PIERRE 0.33 1.94 -0.06 2.896 97.023 0.079 99.998 BRIGITTE -0.62 -1.29 -0.07 18.711 81.068 0.213 99.993 EVELYNE -0.51 0.82 0.14 27.140 70.782 2.022 99.944 Análisis en Componentes Principales ACP: Solución CIMPA-UCR •Diagonalizar la matriz de varianzas-covarianzas VM r r λ valor propio de VM : VMv = λv r vector propio de VM v •Caso estandarizado: diagonalizar R (matriz de correlaciones) • λi > 0 ( •P vectores propios: ortogonales de norma 1 u1 ,..., u p Componentes Principales j C = XM u j Propiedades: ( ) j ⋅ var C = λ j rj ⋅C = 0 ( j k ) ⋅ ρ C ,C = 0 (ortogonales) ) Análisis en Componentes Principales Signo del valor propio CIMPA-UCR Tx = λx El signo es arbitrario x Vx = λx − λx V (− x ) = −Vx = −(λx ) = λ (− x ) Análisis en Componentes Principales Diagonalizar la matriz de correlaciones CIMPA-UCR ( R = (rjk )p× p , rjk = ρ x j , x k Existen ) λ1 , λ2 , λ3 ,..., λ p ≥ 0 tales que: Ru j = λ j u j y existen vectores u1 , u 2 ,..., u p ∈ R R Ru j = λ j u j uj Au j Signo: ( ) ( ) R − u j = − Ru j = −λ j u j = λ j − u j Análisis en Componentes Principales CIMPA-UCR Consecuencia del Teorema de Pitágoras ~ x2 x 2 ~ x cos 2 θ = ~ x x ~ x1 2 Por T. Pitágoras: x = ~ x1 + ~ x2 cos 2 θ = 2 2 = ~ x1 + ~ x2 2 ~ x1 + ~ x2 x 2 = cos 2 θ1 + cos 2 θ 2 2 = ~ x1 x 2 2 2 2 + ~ x2 x 2 2 Análisis en Componentes Principales Representación de los individuos CIMPA-UCR Reconstruir las posiciones originales de los individuos en el plano principal: ∆u1 ⊕ ∆u2 Se proyecta xi en ∆u1 y en ∆u2 En ∆u1 : α i = ci u i , ci = X iT Mu En ∆u2 β: i = d i u 2 , d i = X iT Mu2 ∆u2 βi i ~ x ~ xi :proyección de x i αi Calidad de la Representación: cos 2 θ = ~ xi xi 2 M 2 M Análisis en Componentes Principales CIMPA-UCR Representación de las variables Examinar las correlaciones principales ρ 2 (x j , C k ) ≥ 0.5 Análisis en Componentes Principales Calidad de la representación CIMPA-UCR u i un eje principal: I ∆uk⊥ = λk I ∆u ⊥ = λukT MVMuk = ukT M (λk uk ) = λk ukT Muk = λk Sea ( k ) λk es la inercia explicada por el eje ∆uk Inercia total: I ( N ) = traza (VM ) = λ1 + λ2 + ... + λ p λ1 + ... + λ p % de Inercia explicada por el eje principal λ1 + λ2 λ1 + ... + λ p % de Inercia explicada por el plano principal λ1 Análisis en Componentes Principales CIMPA-UCR Calidad de la representación λ1 + ... + λk λ1 + ... + λ p % de Inercia explicada por los k primeros ejes principales Valores Propios λ2 % in. VAP λ1 % in λ1 2 λ3 % Inercia % Acumulado 40% 40% 2 0 % 60% 15% 75% Análisis en Componentes Principales Número de ejes CIMPA-UCR 1. Inercia explicada mínima: 1 2 c , c ,..., c k tq λ1 + λ2 + ... + λq ≥ mín% I (N ) 2. Criterio del codo: 1 2 3 4 5 6 7 3. Interpretabilidad: Individuos: cos ( xi , xˆi ) ≥ 0.5 2 k j Variables: ρ c , x ≥ 0.7 Análisis en Componentes Principales CIMPA-UCR Número de ejes (cont.) j 4. Si M = D1σ variables estandarizadas ⇒ var x = 1 k k Tomar solo c tq λk ≥ 1 λk = var c 5. Información independiente: número equivalente Análisis en Componentes Principales Variables suplementarias CIMPA-UCR Variable cuantitativa Z: centrada Análisis Z Variable cualitativa Variable Nominal con m modalidades Análisis m Análisis en Componentes Principales Interpretación de resultados CIMPA-UCR Interpretar es dar sentido a) Situación de un punto respecto al conjunto de filas y columnas → la tabla. b) Elementos suplementarios: referencia. c) Experiencia del analista • Inercia de los factores – valores propios – % inercia –# factores Análisis en Componentes Principales Interpretación de resultados CIMPA-UCR • Interpretación de los factores – contribución de individuos – variables activas: *eje x, *planos – variables suplementarias: ampliar el contexto – coordenadas de los individuos: aspecto general, prototipos, tipologías – individuos suplementarios Casos particulares: • factor ~ elemento aberrante • factor de oposición • factor ~ grupo • factor ~ participación • factor de escala • efecto talla Análisis en Componentes Principales Datos de prediagnóstico CIMPA-UCR 1. 2. 3. 4. 5. 6. Calinda Las Juntas Cartagena San Pablo El Esfuerzo Palo Verde 220 x 3 240 x 3 235 x 3 240 x 3 240 x 3 239 x 3 Análisis en Componentes Principales CIMPA-UCR Variables • Circunferencia de la madre (cm) CircMadr • Altura del Hijo (cm) AltHijo • Número de manos #Manos Análisis en Componentes Principales CIMPA-UCR Individuos • 3 sitios por finca: – Bueno (B) – Medio (M) – Pobre (P) • 20 casos para cada sitio • 4 repeticiones c/u • Total: 240 casos (en teoría) por finca Análisis en Componentes Principales Correlaciones CIMPA-UCR CircMadre CircMadre AltHijo #Manos AltHijo #Manos Calinda 0.617 0.870 0.658 Cartagena 0.689 0.881 0.670 El Esfuerzo 0.734 0.816 0.617 Las Juntas 0.717 0.756 0.645 Palo Verde 0.682 0.685 0.597 San Pablo 0.730 0.851 0.731 Análisis en Componentes Principales CIMPA-UCR Calinda: ACP completo Bueno Medio Pobre Análisis en Componentes Principales CIMPA-UCR Calinda: ACP completo Bueno Pobre Análisis en Componentes Principales CIMPA-UCR Calinda: ACP sin sitio medio Bueno Pobre Análisis en Componentes Principales CIMPA-UCR Calinda: ACP sin sitio medio Análisis en Componentes Principales CIMPA-UCR Las Juntas: ACP sin medio Bueno Pobre Análisis en CIMPA-UCR C o m p o n e n t e s Principales Las Juntas: ACP sin medio Análisis en Componentes Principales CIMPA-UCR Cartagena: ACP completo Bueno Pobre Medio Análisis en Componentes Principales C I M P A -UCR Cartagena: ACP completo Análisis en Componentes Principales CIMPA-UCR Cartagena: ACP sin medio Pobre B u e n o Análisis en Componentes Principales CIMPA-UCR C a r t a g e n a : A C P s i n medio Análisis en Componentes Principales CIMPA-UCR San Pablo: ACP sin medio Bueno Pobre Análisis en Componentes Principales CIMPA-UCR San Pablo: ACP sin medio Análisis en Componentes Principales CIMPA-UCR El Esfuerzo: ACP sin medio Pobre Bueno Análisis en Componentes Principales CIMPA-UCR El Esfuerzo: ACP sin medio Análisis en Componentes Principales CIMPA-UCR Palo Verde: ACP sin medio Pobre Bueno Análisis en Componentes Principales CIMPA-UCR Palo Verde: ACP sin medio Análisis en Componentes Principales CIMPA-UCR Análisis de los horizontes 4o horizonte 3er horizonte 2o horizonte 1er horizonte Análisis en Componentes Principales Círculo de correlaciones Profundidad CIMPA-UCR Superficie