1 X2 F2 F1 e2 v2 v1 e1 X1 ANALISIS DE COMPONENTES PRINCIPALES José Luis Vicente Villardón Departamento de Estadística 2 1.- EJEMPLO INICIAL..............................................................................................................................3 2.- DEFINICIONES BASICAS ................................................................................................................13 3.- OBTENCION DE LA COMPONENTES PRINCIPALES..............................................................15 3.1.3.2.3.2.1.3.2.2.3.3.- OBTENCIÓN DE LAS CP MEDIANTE LA MAXIMIZACIÓN DE LA VARIABILIDAD. .....................15 OBTENCIÓN A PARTIR DEL SUBESPACIO DE MEJOR AJUSTE ...................................................20 Ajuste por un subespacio vectorial en Rp. ......................................................................21 Cálculo del máximo. .......................................................................................................23 COORDENADAS PRINCIPALES.....................................................................................25 4.- MEDIDAS DE LA BONDAD DEL AJUSTE ....................................................................................26 5.- PROPIEDADES ...................................................................................................................................27 6.- NÚMERO DE EJES A RETENER ....................................................................................................27 7.- ESCALAS DE MEDIDA .....................................................................................................................28 8.- INTERPRETACIÓN DE RESULTADOS.........................................................................................28 9.- CORRELACIONES DE LAS COMPONENTES Y LAS VARIABLES........................................29 10.- EJEMPLO...........................................................................................................................................30 10.1.10.2.10.3.- DATOS................................................................................................................................30 REPRESENTACIÓN DE LOS INDIVIDUOS SOBRE EL PRIMER PLANO PRINCIPAL ........................31 SALIDA TIPICA DE ORDENADOR ................................................................................32 3 1.- EJEMPLO INICIAL Supongamos que deseamos conocer cuales son los factores relacionados con el riesgo de enfermedad coronaria. Del conoocimiento previo sabemos que el riesgo la presión arterial, la edad, la obesidad, el tiempo que se ha sido hipertenso, el pulso, y el stress. Para la investigación seleccionamos al azar 20 pacientes hipertensos en los que medimos las siguientes variables: X1: Presión arterial media (mm Hg) X2: Edad (años) X4: Superficie corporal (m2) X3: Peso (Kg). X5: Duración de la Hipertensión (años) X6: Pulso (pussaciones/minuto) X7: Medida del stress. Tratamos de estudiar la situación del grupo de pecientes en relación a los factores de riesgo y las posibles interrelacions entre las distintas variables. Iniicialmente queremos describir el conjunto de pacientes utilizando simultáneamente todas las variables Los datos obtenidos se muestran en la tabla siguiente: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X1 X2 X3 X4 X5 X6 X7 105 115 116 117 112 121 121 110 110 114 114 115 114 106 125 114 106 113 110 122 47 49 49 50 51 48 49 47 49 48 47 49 50 45 52 46 46 46 48 56 85,4 94,2 95,3 94,7 89,4 99,5 99,8 90,9 89,2 92,7 94,4 94,1 91,6 87,1 101,3 94,5 87,0 94,5 90,5 95,7 1,75 2,10 1,98 2,01 1,89 2,25 2,25 1,90 1,83 2,07 2,07 1,98 2,05 1,92 2,19 1,98 1,87 1,90 1,88 2,09 5,1 3,8 8,2 5,8 7,0 9,3 2,5 6,2 7,1 5,6 5,3 5,6 10,2 5,6 10,0 7,4 3,6 4,3 9,0 7,0 63 70 72 73 72 71 69 66 69 64 74 71 68 67 76 69 62 70 71 75 33 14 10 99 95 10 42 8 62 35 90 21 47 80 98 95 18 12 99 99 La dimensión inicial es 7, pero ¿Será posible describir el conjunto de datos utilizando un número menor de dimnsiones, aprovechando las interrelaciones 4 entre las variables? ¿Es posible definir un índice general que cuantifique la situación de riesgo? Si consideramos solamente dos variables, los resultados se pueden presentar mediante un diagrama de dispersión como el que aparece en la figura siguiente. Sobre el diagrama se han incluidos los números de orden de cada uno de los pacientes. edad By presion 57,5 20 55,0 52,5 15 edad 5 13 50,0 9 47,5 1 10 8 11 7 6 18 16 14 45,0 42,5 100 23 12 19 17 4 105 110 115 presion 120 125 130 Sobre la figura es posible interpretar la posible relación entre las variables, pero también las similitudes entre los individuos. Dos individuos próximos en el gráfico tendrán características similares, mientras que dos individuos alejados tendrán características diferentes. Se pueden buscar también grupos de puntos cercanos con características similares. 5 Si consideramos las tres primras variables, aun es posible representarlas en tres dimensiones sobre el papel como se muestra en la figura siguiente. Las representaciones tridimensionales sobre el papel son difíciles de interpretar ya que no se tiene una referencia visual clara. La interpretación puede realizarse mediante un programa de ordenador que permita el movimiento de la figura para ver las posiciones relativas de los puntos. Components X presion Y edad y 20 Z peso 5 9 1 17 14 19 8 13 15 4 23 12 10 11 z 18 16 x 7 6 Representación tridimensional de las variables presión, edad y peso. Si movemos la figura resultante, observaremos que los puntos están prácticamente sobre un plano. Esto se pone de manifiesto en la figura siguiente en la que se ha conseguido un punto de vista desde el que los puntos parecen estar sobre una línea recta. Este hecho pone de manifiesto que no son necesarias tres dimensiones para describir el conjunto de datos, sino solamente dos. 6 y 20 5 13 15 94 z 2 12 1 19 3 10 8 717 11 6 14 x 18 16 Rotación de la representación tridimensional que muestra que los puntos se encuentran aproximadamente en un plano. Tenemos entonces que buscar un sistema de referencia para el plano (subespacio) más cercano a la nube de puntos de forma que, al proyectarlos todos sobre dicho plano, la pérdida de información sea mínima. La pérdida de información puede entenderse en términos de variabilidad del conjunto de puntos o en términos de la similitud entre las interdistancias entre los puntos, calculadas en el espacio original y las calculadas en la proyección del subespacio. El subespacio quedará definido mediante un sistema de referencia para el mismo, es decir, mediante dos vectores perpendiculares dentro del subespacio. El primero lo situaremos en la dirección en la que más varían los datos, el 7 segundo, perpendicular al primero recogiendo la mayor parte de la variabilidad restante y así sucesivamente. Los vectores del sistema de referencia definen nuevas variables, que son combinaciones lineales de las variables de partida y se denominan componentes principales. De esta forma, podemos reducir la dimensión seleccionando solamente las primeras componentes. La reducción de la dimensión se deriva del hecho de que las variables están relacionadas entre si y, por tanto, tienen información común, de alguna manera, la información común a todas ellas se extrae en las componentes principales. La representación de las dos primeras componentes, para los datos anteriores y con sólo tres variables aparece en la figura siguiente. Las dos primeras componentes absorben el 99% de la variabilidad de los datos. 2,5 20 2,0 5 1,5 Prin Comp 2 1,0 9 1 13 0,5 19 4 17 12 2 0,0 8 14 10 15 3 -0,5 11 -1,0 7 18 16 -1,5 -2,0 6 -1,5 -1,0 -0,5 0,0 0,5 Prin Comp 1 1,0 1,5 2,0 2,5 Espacio de las componentes con las tres primeras variables Sobre el diagrama de dispersión es posible interpretar las distancias entre los puntos en términos de similitud, buscar conjuntos de individuos similares, etc, con la garantía de que la pérdida de información es mínima y de que hemos recogido las fuentes de variabilidad más importantes en el conjunto de datos. 8 Cuando el número de variables es mayor, ya no es posible la representación directa de las variables en más de tres dimensiones, pero aun sigue siendo posible la reducción de la dimensión, teniendo en cuenta las iterrelaciones entre las variables. La figura siguiente muestra las dos primeras componentes principales para el conjunto de las 7 variables. Las componentes se denotan con x e y. Se han superpuesto sobre el gráfico vectores que representan a las variables originales y que interpretaremos más tarde. También se han suprimido las escalas ya que, en este contexto son menos importantes. y 19 stress 5 duracio 9 14 16 1 13 17 edad pulso 4 11 z 3 8 20 12 x presion peso superfi 1810 2 6 7 Espacio de las componentes con todas las variables. En este caso, las dos primeras componentes recogen aproximadamente el 77% de la variabilidad, más aun recogen las fuentes de variabilidad más importantes de los datos. 9 Si prescindimos, por el momento, de los vectores que representan a las variables, podemos interpretar las distancias entre puntos y buscar grupos, tal y como hacíamos en el diagrama de dispersión inicial. Como las componentes son variables compuestas calculadas a partir de las originales, solamente queda por determinar cual es la información que han recogido las componentes, es decir, que variables explican la similitud de los individuos en el subespacio de representación final. La interpretación se hace a partir de las correlaciones entre las variables observadas y las componentes. Dichas correlaciones se muestran en la tabla siguiente. (las componentes se denominan factores en la tabla). Unrotated Factors Factor 1 Factor 2 presion ,965 -,230 edad ,723 ,304 peso ,884 -,403 supcorp ,804 -,473 Durac. ,434 ,525 pulso ,844 ,284 stress ,355 ,764 Correlaciones entre las componentes principales y las variables observadas Observamos como la primera componente está altamente correlacionada con todas las variables salvo Duración y Stress, es decir, la primera componente muestra, fundamentalmente aspectos relacionados con el aumento de la presión arterial y de las variables determinantes del riesgo de enfermedad coronaria, por tanto la primera componente sería un índice del riesgo de enfermedad de forma que, los individuos que se sitúen a la derecha en la proyección sobre el eje del gráfico serán los que tienen riesgo más alto de enfermedad y los que se sitúan a la izquierda, riesgo más bajo. La segunda componente está más correlacionada con el stress y algo menos con la duración, por lo que mostrará las diferencias en el índice de stress. Sobre el gráfico habíamos superpuesto también vectores que representaban a cada una de las variables originales. Los vectores representan la dirección de mejor ajuste para cada una de las variables, en el sentido de que, si proyectamos los puntos que representan a los individuos sobre uno de los vectores, las puntuaciones obtenidas estarían más correlacionadas con la variable original 10 que las proyecciones en cualquier otra dirección. El coseno del ángulo que forma cada vector con el eje, mide aproximadamente la correlación con el mismo y los cosenos de los ángulos entre dos vectores aproximan la correlación entre las variables a las que representan, es decir, a menor ángulo menor correlación. La representación con las variables añadidas se denomina representación biplot. A las correlaciones al cuadrado entre la variable y el eje se le denomina tambien contribución relativa del factor al elemento, y mide la parte de la variabilidad de la variable que explica cada uno de los ejes. Las variables con contribuciones altas en uno de los ejes y bajas en los demás son las que han de interpretarse para cada eje ya que son características exclusivas del mismo. Como las componentes son incorreladas, tienen información independiente por lo que la suma de las correlaciones al cuadrado es 1. La parte explicada por un plano, se calcula simplemente sumando la parte explicada (contribución) por los ejes que lo componen, a esta cantidad se la denomina también “calidad de la representación”. La calidad de representación puede interpretarse tambien como la correlación al cuadrado entre los valores de la variable original y las proyecciones de los puntos sobre la dirección que representa a la variable. De la misma manera que hemos hecho para las variables es posible definir calidades de representación para los individuos. Veamos una interpretación diferente de la misma más adecuada para el estudio de los individuos. La figura siguiente muestra la proyección de uno de los puntos de la nube en un espacio bidimensional. Supongamos que se trata de la proyección de uno de los vectores que representa a una variable. 11 Vector real en el espacio tridimensional Vector proyección en el espacio bidimensional Si observamos el espacio tridimensional que aparece en la figura, la variable representada y el eje horizontal forman un ángulo de casi 90° por lo que pueden considerarse independientes; sin embargo en la proyección sobre el espacio bidimensional, el ángulo es muy pequeño, hecho que se podría traducir en una fuerte relación. Esto es debido a que la calidad de la representación del vector sobre el plano es baja. La figura siguiente muestra la situación esquematizada. El coseno al cuadrado del ángulo se puede tomar como medida de la relación entre la variable y el eje. i ángulo C proy(i, 1) eje 1 cos 2 (θ) = || C , proy(i, 1) || / ||C, i|| A esta medida la denominaremos CALIDAD DE LA REPRESENTACION del punto i sobre el eje factorial. (CLRil ). Esta cantidad puede calcularse tambien a partir del producto escalar entre el 12 vector i y un vector cualquiera en la dirección del eje. La calidad de la representación es una medida relativa, ya que la suma de las calidades de la representación de cada elemento sobre todos los ejes factoriales es 1. El gráfico siguiente muestra una representación sobre tres ejes factoriales, donde se especifican los cosenos de los ángulos con los tres ejes que, como es sabido, su suma de cuadrados es la unidad. eje 3 θ3 θ2 eje 2 θ1 θ eje 1 cos2 θ + cos2θ + cos2 θ = 1 1 2 3 cos2θ = cos2 θ + cos2 θ 1 2 La calidad de la representación con respecto a un plano se mide de la misma manera, es decir, como el coseno al cuadrado del ángulo que forman el vector y el plano. Este coseno al cuadrado es la suma de los cosenos al cuadrado de los ángulos con los ejes que forman el plano. cos2 (θlk) = cos2 (θl) + cos2 (θk) Por tanto, la calidad de la representación del elemento es una medida aditiva que puede calcularse para la proyección en cualquier plano factorial, sin más que sumar las calidades de representación con respecto a los ejes factoriales que lo forman. 13 2.- DEFINICIONES BASICAS DATOS Disponemos de una matriz Xnxp que contiene las medidas de p variables tomadas sobre n individuos. Para simplificar el resto de la exposición supondremos, sin pérdida de generalidad, que las columnas de X tienen media cero, es decir que se le ha restado la media. Todas las variables tienen el mismo papel, es decir, el conjunto no se divide en variables dependientes e independientes como en el caso de la regresión. DEFINICION El Análisis de Componentes principales consiste en encontrar transformaciones ortogonales de las variables originales para conseguir un nuevo conjunto de variables incorreladas, denominadas Componentes Principales, que se obtienen en orden decreciente de importancia. Las componentes son combinaciones lineales de las variables originales y se espera que, solo unas pocas (las primeras) recojan la mayor parte de la variabilidad de los datos, obteniéndose una reducción de la dimensión en los mismos. Luego el propósito fundamental de la técnica consiste en la reducción de la dimensión de los datos con el fin de simplificar el problema en estudio. Se trata de una técnica orientada a las variables, suponemos que las p columnas de X generan un espacio p dimensional, de forma que los n individuos pueden representarse en dicho espacio en lo que llamaremos una hipernube. La transformación es, de hecho, una rotación en el espacio p-dimensional. El espacio generado por las primeras q componentes es entonces, un subespacio vectorial q-dimensional del espacio p-dimensonal original. 14 Cuando el valor de q es pequeño, por ejemplo 2, es posible una representación gráfica directa de los individuos que nos ayudará ainterpretar las similitudes entre los mismos. El ACP puede entenderse también como la búsqueda del subespacio de mejor ajuste. Una de las diferencias fundamentales con el Análisis Factorial es que el ACP explica variabilidad en lugar de correlaciones, aunque para obtener una reducción efectiva de la dimensión es necesario que las variables estén correlacionadas. En otras palabras, si las variables están altamente correlacionadas, tienen información común y la dimensión real de los datos es menor que p. En muchas ocasiones es difícil encontrar el significado de las componentes, como variables compuestas, por lo que el uso principal de la técnica es la reducción de la dimensión como paso previo a la aplicación de otros análisis posteriores, por ejemplo, un diagrama de dispersión de las primeras componentes con el objeto de encontrar “clusters” en los datos o con el objeto de contrastar similitudes o diferencias entre los individuos. El ACP es una técnica que no necesita que se especifique un modelos concreto para explicar el “error”, en particular, no se hace ninguna suposición sobre la distribución de probabilidad de las variables originales, aunque si se supone que es normal multivariante es posible obtener algunos resultados inferenciales adicionales. En algunos textos se hacen diferencias entre las CP poblacionales y muestrales, aquí entenderemos la técnica como un método descriptivo, libre de distribución, y trabajaremos directamente con los datos muestrales. 15 3.- OBTENCION DE LA COMPONENTES PRINCIPALES La obtención de las CP puede realizarse por varios métodos alternativos: 1.- Buscando aquella combinación lineal de las variables que maximiza la variabilidad. (Hottelling). 2.- Buscando el subespacio de mejor ajuste por el método de los mínimos cuadrados. (Minimizando la suma de cuadrados de las distancias de cada punto al subespacio). (Pearson). 3.- Minimizando la discrepancia entre las distancias euclídeas entre los puntos calculadas en el espacio original y en el subespacio de baja dimensión. (Coordenadas principales, Gower). 4.- Mediante regresiones alternadas (métodos Biplot) 3.1.- OBTENCIÓN DE LAS CP MEDIANTE LA MAXIMIZACIÓN DE LA VARIABILIDAD. Denotaremos con X1, … , Xp las variables originales y con Y1, … , Yp las componentes. En principio, podemos obtener tantas componentes como variables originales. X denotará el vector de variables originales e Y el de componentes. X es la matriz de datos originales, que supondremos centrada por columnas, y S es la matriz de covarianzas entre las variables. S= 1 X′ X n−1 16 Buscamos combinaciones lineales de las variables observadas que sean incorreladas y con varianzas progresivamente decrecientes Yj = v1j X1 + K + v pj X p Yj = Xv j y j = Xv j Y = XV Donde Y es la matriz que contiene las puntuaciones de cada uno de los individuos sobre las componentes y V es la matriz que contiene los coeficientes de las combinaciones lineales en columnas. Y1 será aquella componente que explique la mayor parte de la variabilidad, Y2 será ortogonal a Y1 y explicará la mayor parte de la variabilidad restante y así sucesivamente. En las ecuaciones tenemos un factor de escala arbitraria por lo que imponemos la restricción P ∑ vkj2 = 1 k =1 v ′j v j = 1 V ′V = I Buscamos Y1 que haga máxima la varianza Var(Y1 ) = Var(Xv 1 ) = v ′1Sv 1 Utilizando el método de los multiplicadores de Lagrange para tener en cuenta la restricción, podemos escribir L(v1 ) = v′1Sv 1 − λ( v ′1v 1 − 1) Derivando e igualando a cero L(v1 ) = 2Sv 1 − 2λv 1 ∂v 1 17 es decir Sv 1 = λv 1 lo que quiere decir que v1 debe ser un vector propio de S de valor propio λ, pero S tiene p valores propios λ1, … λp que supondremos distintos y ordenados en orden decreciente λ1 ≥ … ≥ λp ≥ 0. Teniendo en cuenta que Var(Xv1 ) = v′1Sv 1 = v′1 λ v1 = λ λ debe ser λ1 el primer valor propio y v1 el vector propio asociado. La segunda componente principal Y2= Xv2, se obtiene con un procedimiento análogo pero añadiendo la restricción adicional de que Y1 e Y2 son incorreladas. cov(Y1 , Y2 ) = v ′2 Sv1 = 0 o una condición equivalente más simple v ′2 v 1 = 0 ya que Sv 1 = λv 1 Utilizando de nuevo el método de los multiplicadores de Lagrange, podemos escribir L(v 2 ) = v ′2Sv 2 − λ( v ′2 v 2 − 1) − δv ′2 v 1 Derivando e igualando a cero se obtiene L(v 2 ) = 2Sv 2 − 2λv 2 − δv 1 = 0 ∂v 2 premultiplicando por v’1, 18 2 v 1′ Sv2 − 2λv′1 v2 − δv ′1v 1 = 0 2 v1′Sv 2 − δ = 0 como v ′1Sv2 = 0 , entonces δ = 0 en el punto estacionario, de forma que , Sv 2 = λv 2 con lo que λ es el segundo valor propio λ2 y v2 es el segundo vector propio. Siguiendo con el mismo argumento, podemos obtener las sucesivas componentes principales a partir de los correspondientes valores y vectores propios. Entonces, si Λ = diag(λ1 ,K, λ p ) S = V′ΛV V ′V = I es la descomposición espectral de la matriz de covarianzas S, los coeficientes de las combinaciones lineales que definen las componentes principales son las columnas de V, es decir los vectores propios de la matriz de covarianzas. Seleccionando q componentes, las puntuaciones de los individuos en las componentes están dadas por Yq = XVq donde Vq está formada por las q primeras columnas de V, y suponiendo X centrada. Ahora p p j=1 j=1 ∑ Var(Yj ) = ∑ λ j = traza(Λ) y 19 traza( Λ) = traza(V ′SV) = traza(SV ′V) = p traza(S) = ∑ Var(X j ) j=1 Este resultado nos permite calcular la proporción de varianza absorbida por cada componente como λj p ∑ λi i=1 o acumulada para un subespacio de dimensión q q ∑λ j j=1 p ∑ λi i=1 - Nota: las componentes principales pueden calcularse también a partir de X'X con X centrada ya que S= 1 X ′X n−1 se obtienen los mismos vectores propios aunque los correspondientes valores propios aparecieran multiplicados por n-1, lo cual no influye en la variabilidad absorbida. 20 Obtención a partir del subespacio de mejor ajuste Una aproximación diferente que produce los mismos resultados es la que trata de minimizar la suma de cuadrados de las distancias de cada punto a la componente, entendiendo que buscamos el subespacio, en dimensión reducida, que mejor se ajusta a la nube de puntos. El procedimiento de ajuste se basa en el método de los mínimos cuadrados. Sea X una matriz rectangular de datos con n filas y p columnas y con término general xij. Abordaremos el siguiente problema: ¿es posible reconstruir los np valores xij, y por tanto las interdistancias entre individuos, a partir de un número mas pequeño de valores numéricos? Trataremos ahora la solución relacionada con los métodos factoriales. Supongamos que existe un vector columna y de n componentes y un vector 1 t 1 columna v1 de p componentes de modo que X = y v . 1 Se habrán reconstruido los np valores de X con n + p valores únicamente (en este caso la matriz es de rango 1). En general no es posible obtener una descomposición tan simple. Buscaremos una aproximación de rango q para X, es decir t 1 t 2 X = y v + y v + ............ + y v 1 2 q t +E q E es una matriz residual con términos muy pequeños para que la reconstrucción sea satisfactoria. Reconstruimos X entonces, con q(n+p) valores t i de los vectores u v . i Resolveremos el problema mediante representaciones geométricas vinculadas a los métodos factoriales. X dará lugar a dos representaciones; las n filas pueden p considerarse como n puntos en un espacio de p dimensiones R ; y las p columnas pueden representar las coordenadas de p puntos en un espacio de n n dimensiones R 21 p Ajuste por un subespacio vectorial en R . Si la nube de n puntos que representan a las filas de la matriz X está contenida en un subespacio de dimensión q < p será posible reconstruir las posiciones de los n puntos a partir de las coordenadas de q nuevos ejes y de las componentes de estos nuevos ejes. Por lo tanto vamos a intentar ajustar la nube de n puntos por un subespacio p vectorial de R dotado de la distancia euclídea ordinaria. Buscaremos la recta Fl que pasa por el origen y se ajusta lo mejor posible a nube. Sea v un vector t unitario de esa recta, es decir, v v = 1 Como cada fila de X representa un punto p de R ,las n filas de vector Xv son las n longitudes de las proyecciones de los puntos de la nube sobre F1. Para cada punto, el cuadrado de la distancia a origen se descompone en el cuadrado de su proyección sobre F1 y el cuadrado de su distancia a F1. Como las distancias al origen están fijadas, minimizar la suma de cuadrados de las distancias a F1 es equivalente a maximizar la suma de cuadrados de las proyecciones. P d d1 F1 p d2 = p2 + d2 1 22 X2 F2 F1 e2 v2 v1 e1 X1 Buscamos v que haga máxima la cantidad t t t (Xv) Xv = v X X v t con la restricción v v = 1. El subespacio resultante se designará por v . 1 El subespacio vectorial de dos dimensiones que mejor se ajusta a la nube de puntos contendrá a v . Se hallará buscando el vector unitario v ortogonal 1 2 respecto a v que haga máxima la forma cuadrática 1 t t t t v2 X X v2 con las restricciones v2 v1 = 0; v2 v2 = 1. Así sucesivamente buscamos el subespacio engendrado por q vectores v2, ... , vq (ortogonales dos a dos) que mejor se ajustan a la nube de puntos. v1, 23 Cálculo del máximo. Sea λ un multiplicador de Lagrange. t t t Derivamos la cantidad v X X v - λ (v v - 1) con respecto a las componentes de v y obtenemos t 2X Xv-2λv =0 es decir, t X Xv=λv t de valor propio λ. Entonces, vl es un vector propio de la matiz X X Concretamente el mayor valor propio. t Puede verse que, v1, v2, ... , vq son vectores propios de X X asociados a valores propios λ1, λ2, ... , λq respectivamente y que λ1 ≥ λ2 ≥ ... ≥ λq. t La matriz X X es semidefinida positiva por lo que todos los valores propios son mayores que cero Es posible otra interpretación en términos de la variablidad. Como es bien t sabido, si los datos están centrados, la matriz X X es, salvo un factor de escala dependiente del tamaño muestral, coincide con la matriz de varianzascovarianzas entre las variables. t S = (1/n) X X p Dado un vector v en R , la varianza de las proyecciones sobre Xv dicho vector, t es v S v. Si buscamos el vector v unitario en aquella dirección con máxima varianza se t t trata de hacer máxima la cantidad v S v con la restricción v v = 1. El subespacio resultante se designará por v . 1 Sea µ un multiplicador de Lagrange. 24 t t Derivamos la cantidad v S v - µ (v v - 1) con respecto a las componentes de u y obtenemos 2Sv-2µv =0 es decir, Sv=µv t Entonces, vl es un vector propio de la matiz X X de valor propio µ = λ /n. Luego la dirección buscada es la que maximiza la varianza y es, por tanto, la dirección en la que pueden examinarse las diferencias entre los individuo con pérdida de información mínima. Los vectores directores de los q nuevos ejes se obtienen a partir de la t descomposición en valores y vectores propios de S (o X X) en la forma t S=VDV y se corresponden con las q primeras columnas de la matriz de vectores propios V. Las coordenadas de los individuos en el espacio generado por las q primeras componentes principales, es decir, las proyecciones de los puntos en el espacio original sobre el subespacio de las componentes principales, son Y = X V(q) donde el subíndice (q) significa "las q primeras columnas". Las componentes principales son nuevas variables, combinación lineal de las variables originales, con varianza progresivamente decreciente. 25 3.2.- COORDENADAS PRINCIPALES El tercer procedimiento de obtención se basa en hacer minima la discrepancia entre las distancias observadas en el espacio original y las distancias estimadas en el espacio de la aproximación. Pj δij Pi ˆ δij P'j L P'i Min∑ij (δ ij − δˆij ) 2 δ ij = δˆij = p 2 ∑ (xik − x jk ) k=1 q 2 ∑ (yik − y jk ) k=1 (Coordenadas principales) 26 4.- MEDIDAS DE LA BONDAD DEL AJUSTE Como se trata de una aproximación en dimensión reducida es necesario decidir si la aproximación es satisfactoria. - Las coordenadas de las proyecciones sobre el subespacio de las componentes en el sistema de referencia original son t t X* = Y V (q) = X V(q) V (q) La discrepancia con los valores originales en X con los valores esperados en el subespacio se puede medir como la suma de cuadrados de (X - X*), es decir, como t traza[(X - X*) (X - X*)] o en forma relativa t t traza[(X - X*) (X - X*)] / traza[X X] luego, una medida de la bondad del ajuste puede ser t t (1 - (traza[(X - X*) (X - X*)] / traza[X X])) x 100 que puede interpretarse como el porcentaje de la variabilidad de los datos explicado por las componentes principales. Teniendo en cuenta las propiedades de la traza, la bondad del ajuste puede escribirse también como q ∑ λi i=1 q ∑ λi i=1 x100 27 5.- PROPIEDADES p - La matriz de vectores propios V define un cambio de base del espacio R en el que se ha representado la matriz de datos originales. p - Las q primeras columnas de V definen la proyección de los puntos en R sobre el subespacio q-dimensional de mejor ajuste. - Los elementos de V son los cosenos de los ángulos que forman las variables originales y las componentes principales. - Las coordenadas de los individuos en el nuevo sistema de referencia son de la forma Y = X V. - Las coordenadas las primeras componentes principales permiten interpretar las similaridades entre individuos con pérdida de información mínima. - El ACP utiliza la información redundante, a través de las correlaciones entre las variables, para reducir la dimensión. - La matriz de covarianzas entre las componentes es D (Λ). - Las componentes principales son variables incorreladas y, por tanto con información independiente. - La varianza de las componentes principales es λi. - Si se trabaja con datos brutos, la primera componente principal suele mostrar la traslación de la nube de puntos con respecto al origen. - Si las variables están centradas, las componentes se calculan a partir de la matriz de covarianzas y las componentes estarán dominadas por las variables con escala de medida mayores. - Si se trabaja con datos estandarizados, las componentes principales se obtienen de la diagonalización de la matriz de correlaciones. Se utilizarán datos estandarizados cuando las escalas de medida de las variables sean muy diferentes. 6.- NÚMERO DE EJES A RETENER - Prueba de Anderson: Si los datos son normales, es posible realizar un test para contrastar si las últimas (p-q) raíces son iguales a cero. 28 p ∑ λi p I=q+1 2 χ = −(n − 1) ∑ ln(λ i ) + (n − 1)(p − q)ln p−q I=q+1 sigue una ji-cuadrado con (1/2) (p-q) (p-q+1) - 1 grados de libertad. -Scree Plot: Gráfico de los valores propios. Se seleccionan ejes hasta que se vea un decrecimiento brusco en la magnitud de los valores propios. - Seleccionar las componentes necesarias para explicar un determinado porcentaje de la varianza. 7.- ESCALAS DE MEDIDA Si las escalas de medida de las variables son muy diferentes, la variabilidad estaría dominada por las variables con magnitudes mayores de forma que las primeras componentes pueden mostrar simplemente las diferencias en la escala. En este caso conviene tomar la matriz x estandarizada por columnas y centrando y dividiendo por la desviación típica. En este caso las componentes estarían colocadas sobre la matriz de correlaciones. 8.- INTERPRETACIÓN DE RESULTADOS - Diagramas de dispersión que representan los valores de los individuos en las primeras componentes principales. - Interpretación de distancias en términos de similitud. - Búsqueda de clusters (grupos) y patrones. - Interpretación de las componentes utilizando las correlaciones con las variables originales. Las posiciones de los individuos se interpretan después en relación a la interpretación dada a las componentes. 29 9.- CORRELACIONES DE LAS COMPONENTES Y LAS VARIABLES A los vectores escalados de la forma: v *j = λ1/2 j vj C = VΛ1/2 se les denomina factores de carga (C) Cuando las componentes principales se calculan usando la matriz de correlaciones, la matriz C contiene las correlaciones entre las variables originales y las componentes. Para las componentes calculadas a partir de la matriz de covarianzas, los factores de carga dependen de la escala de medida de las variables por lo que son difíciles de interpretar. Los factores de carga suelen representarse en un gráfico que permite la interpretación visual de las relaciones. En cualquiera de los casos podemos calcular también la correlación al cuadrado entre las componentes y las variables y las componentes. A dichas correlaciones al cuadrado se las denomina contribuciones relativas del factor al elemento y miden la proporción de la variabilidad de las variables explicadas por cada componente. Esta cantidad puede utilizarse para interpretar las componentes. 30 10.- EJEMPLO 10.1.- DATOS La tabla de datos siguiente muestra los porcentajes de personas empleadas en 9 sectores distintos para 26 países europeos (antes de los últimos cambios políticos). En este caso, el Análisis Multivariante puede ser útil para aislar grupos de países con distribuciones de empleo similares y en general para intentar comprender mejor las relaciones existentes entre los países y las variables. SECTORES: AGR: Agricultura, CON: Construcción, MIN: Minería, MAN: Manufacturas, SER: Industrias de servicios, ENER: Energía, FIN: finanzas, SSP: Servicios sociales y personales, TC: Transportes y comunicaciones. PAISES BÉLGICA DINAMARCA FRANCIA RFA IRLANDA ITALIA LUXEMBURGO HOLANDA U.K. AUSTRIA FINLANDIA GRECIA NORUEGA PORTUGAL ESPAÑA SUECIA SUIZA TURQUÍA BULGARIA CHECOSLOVAQUIA RDA HUNGRÍA POLONIA RUMANIA URSS YUGOSLAVIA AGR 3.3 9.2 10.8 6.7 23.2 15.9 7.7 6.3 2.7 12.7 13.0 41.4 9.0 27.8 22.9 6.1 7.7 66.8 23.6 16.5 4.2 21.7 31.1 34.7 23.7 48.7 MIN 0.9 0.1 0.8 1.3 1.0 0.6 3.1 0.1 1.4 1.1 0.4 0.6 0.5 0.3 0.8 0.4 0.2 0.7 1.9 2.9 2.9 3.1 2.5 2.1 1.4 1.5 MAN 27.6 21.8 27.5 35.8 20.7 27.6 30.8 22.5 30.2 30.2 25.9 17.6 22.4 24.5 28.5 25.9 37.8 7.9 32.3 35.5 41.2 29.6 25.7 30.1 25.8 16.8 ENER 0.9 0.6 0.9 0.9 1.3 0.5 0.8 1.0 1.4 1.4 1.3 0.6 0.8 0.6 0.7 0.8 0.8 0.1 0.6 1.2 1.3 1.9 0.9 0.6 0.6 1.1 CON 8.2 8.3 8.9 7.3 7.5 10.0 9.2 9.9 6.9 9.0 7.4 8.1 8.6 8.4 11.5 7.2 9.5 2.8 7.9 8.7 7.6 8.2 8.4 8.7 9.2 4.9 SER 19.1 14.6 16.8 14.4 16.8 18.1 18.5 18.0 16.9 16.8 14.7 11.5 16.9 13.3 9.7 14.4 17.5 5.2 8.0 9.2 11.2 9.4 7.5 5.9 6.1 6.4 FIN 6.2 6.5 6.0 5.0 2.8 1.6 4.6 6.8 5.7 4.9 5.5 2.4 4.7 2.7 8.5 6.0 5.3 1.1 0.7 0.9 1.2 0.9 0.9 1.3 0.5 11.3 SSP 26.6 32.2 22.6 22.3 20.8 20.1 19.2 28.5 28.3 16.8 24.3 11.0 27.6 16.7 11.8 32.4 15.4 11.9 18.2 17.9 22.1 17.2 16.1 11.7 23.6 5.3 TC 7.2 7.1 5.7 6.1 6.1 5.7 6.2 6.8 6.4 7.0 7.6 6.7 9.4 5.7 5.5 6.8 5.7 3.2 6.7 7.0 8.4 8.0 6.9 5.0 9.3 4.0 31 10.2.- REPRESENTACIÓN DE LOS INDIVIDUOS SOBRE EL PRIMER PLANO PRINCIPAL HUN 2 RDA CHE POL RUM 1 BUL URS LUX AUS 0 GRE YUG IRL ITA POR TUR ESP FRA -1 RFA UK SUI FIN NOR BEL SUE HOL DIN -2 -4 -3 -2 1.0 -1 0 MINERIA MANUF 0.5 ENERG TRANSP AGRIC 0.0 CONSTR SERVSOC -0.5 SERVICIO FINANZAS -1.0 -1.0 -0.5 0.0 0.5 1.0 Representación gráfica de los factores de carga. 1 32 10.3.- SALIDA TIPICA DE ORDENADOR LATENT ROOTS (EIGENVALUES) 1 3.487 2 2.130 3 1.099 4 0.994 6 0.383 7 0.226 8 0.137 9 0.000 1 -0.978 -0.002 0.649 0.478 0.607 0.708 0.139 0.723 0.685 2 0.078 0.902 0.518 0.381 0.075 -0.511 -0.662 -0.323 0.296 5 0.543 COMPONENT LOADINGS AGRIC MINERIA MANUF ENERG CONSTR SERVICIO FINANZAS SERVSOC TRANSP VARIANCE EXPLAINED BY COMPONENTS 1 3.487 2 2.130 PERCENT OF TOTAL VARIANCE EXPLAINED 1 2 38.746 23.669 FACTOR SCREE PLOT EIGENVALUES -+-----------+-----------+-----------+-----------+-----------+4 + + | | | A | | | 3 + + | | | | | A | 2 + + | | | | | A | 1 + A + | A | | A | | A A A | 0 + + -+-----------+-----------+-----------+-----------+-----------+0 2 4 6 8 10