ANÁLISIS DE COMPONENTES PRINCIPALES INTRODUCCIÓN El objetivo principal de la mayorı́a de las técnicas numéricas de análisis multivariado, es reducir la dimensión de nuestros datos. Por supuesto, si esta reducción se puede hacer a 2 ó 3 dimensiones, se tiene la posibilidad de una visión gráfica de los mismos. Obvio, siempre es posible hacer la reducción a este número de dimensiones, pero es importante juzgar si éstas son suficientes para resumir la información contenida en todas las variables. Una de las técnicas de reducción de dimensión más populares es la que reduce las variables originales a variables derivadas conocidas como Componentes Principales. Objetivos • Reducir la dimensión de los datos (q << p) • Generar nuevas variables: Componentes principales Para qué • Explorar datos multivariados • Encontrar agrupaciones • Como auxiliar para combatir la multicolinealidad en los modelos de regresión ¿Qué hace? Forma nuevas variables llamadas Componentes Principales (c.p.) con las siguientes caracterı́sticas: 1) No están correlacionadas (bajo el supuesto de distribución normal, son independientes) 2) La primera c.p. explica la mayor cantidad de varianza de los datos, que sea posible 3) Cada componente subsecuente explica la mayor cantidad de la variabilidad restante de 1 los datos, que sea posible. Las componentes son de la forma: ′ Zi = ai X = a1i X1 + a2i X2 + · · · + api Xp i = 1, 2, ..., p o ′ Zi = ai (X − µ) (centradas) Es decir, son combinaciones lineales de las p variables. ′ Entonces, debe elegirse a1 un vector de norma uno, ka1 k = a1 a1 = 1, de tal manera que: ′ V ar(Z1 ) = V ar(a1 ′ X) = a1 V ar(X)a1 = a′1 Σa1 sea máxima Bajo un argumento de álgebra lineal, se puede demostrar que el valor de a1 que hace máxima la varianza de la primer componente, Z1 , es el eigenvector, a1 , asociado al primer eigenvalor de la matriz Σ, λ1 . Para el segundo componente Z2 es el eigenvector, a2 , asociado al segundo eigenvalor λ2 , con λ1 > λ2 y ası́ sucesivamente. Además se tiene que V ar(Z1 ) = λ1 , V ar(Z2 ) = λ2 , etc. y por construcción se tiene también que cov(Z1 , Z2 ) = 0. En genearal cov(Zi , Zj ) = 0 para toda i 6= j i, j = 1, 2, ..., p Como Σ es definida positiva, tenemos que: p P i=1 λi = p P V ar(Xi ) = p P V ar(Zi ) i=1 i=1 Por esta razón se dice que el i-ésimo componente principal explica una proporción de varianza igual a: λi , p P λi y los primeros q de ellos i=1 q P i=1 p P i=1 2 λi λi q≤p Como sabemos Σ es desconocida, pero la podemos estimar con S la matriz de varianzacovarianza muestral, lo que proporciona los estimadores λ̂i y âi ¿Matriz de varianza-covarianza o de correlación? ¿Cuándo una, cuándo otra? Varianza-covarianza • Variables medidas en las mismas unidades o, por lo menos, en unidades comparables • Varianzas de tamaño semejante. Si las variables no están medidas en las mismas unidades, entonces cualquier cambio en la escala de medición en una o más variables tendrá un efecto sobre las c.p. Por ejemplo, supongamos que una variable que se midió originalmente en pies, se cambió a pulgadas. Esto significa que la varianza de la variable se incrementará en 122 = 144. Ya que c.p. se basa en la varianza, esta variable tendrı́a una mayor influencia sobre los c.p. cuando se mide en pulgadas que en pies. Si una variable tiene una varianza mucho mayor que las demás, dominará el primer componente principal, sin importar la estructura de covarianza de las variables. Si no se tienen las condiciones para realizar un análisis de c.p. con la matriz de varianzacovarianza, se recomienda hacerlo con la matriz de correlación. Aplicar análisis de c.p. a la matriz de correlación, es equivalente a aplicarlo a datos estandarizados (“puntajes z”), en lugar de los datos crudos. Realizar el análisis de c.p. con la matriz de correlación, implica intrı́nsecamente asumir que todas las variables tienen igual importancia dentro del análisis, supuesto que no siempre puede ser cierto. Pueden presentarse situaciones en donde las variables no estén en unidades comparables y en las que el investigador considere que tienen una importancia distinta. Algunos paquetes estadı́sticos permiten asignar pesos a las variables. Entonces se procederı́a a estandarizar las variables y posteriormente asignar pesos mayores a aquéllas que el investigador considere más importantes. 3 Análisis de c.p. con la matriz de correlación Estandarizar los datos, hacer análisis de c.p. utilizando la matriz de correlación en lugar de la de varianza-covarianza. Importante: El análisis de c.p. transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas. Si las variables originales no están correlacionadas o están muy poco correlacionadas esta técnica no tiene ninguna utilidad y la dimensión real de los datos es la misma que el número de variables medidas. ¿Cómo decidir cuántas componentes es apropiado considerar? • Porcentaje de varianza explicada requerido (Matriz de varianza-covarianza) • Porcentaje requerido γ ∗ 100% de la variabilidad total. Encontrar el número de componentes que cubra este requerimiento. Este criterio depende de la población bajo estudio y del investigador. Gráfica de codo (SCREE). Cuando los puntos en la gráfica tienden a nivelarse (horizontalmente), los eigenvalores están lo suficientemente cercanos a cero y pueden ignorarse. Entonces, elegir el número de componentes igual al número de eigenvalores antes de que la gráfica se nivele. Desafortunadamente, mientras más componentes se requiere, menos útiles resultan cada una. 4 0.5 1.0 eigenvalores 1.5 Gráfica de codo 1 2 3 4 5 6 7 Indice Matriz de correlación. • Los criterios mostrados para la matriz de varianza-covarianza. • Uno más. Considerar el número de componentes cuyo eigenvalor sea mayor que uno. Interpretación de las cargas factoriales Las covarianza entre el vector de variables originales X y la i-ésima componente principal Zi , es: ′ ′ ′ ′ Cov(X, Zi ) = Cov X, ai X = ai Cov(X, X) = ai Σ = ai λi ′ ya que ai es solución del sistema: 5 i = 1, 2, ..., p (Σ − λi I) ai = 0 Entonces, la covarianza entre la i-ésima componente y la j-ésima variable es: Cov(Xj , Zi ) = λi aij De donde tenemos: λi aij Cor(Xj , Zi ) = q = 2 λi σjj √ λi aij σjj El peso que tiene la variable i en la componente j, está dado por aij . El tamaño relativo de las aij ′ s reflejan la contribución relativa de cada variable en la componente. Para interpretar, en el contexto de los datos, una componente, debemos analizar el patrón de las aij de cada componente. Si utilizamos la matriz de correlación para realizar el análisis de c.p. entonces a∗ij = p λj aij se interpreta como el coeficiente de correlación entre la variable j y el componente i. Esta es una de las interpretaciones particularmente más usuales. Análisis de la matriz de componentes principales Denotemos por Z a la matriz de componentes principales, entonces Z = XA con A = (a1 , a2 , ..., ap ) = 6 a11 a21 · · · ap1 a12 a22 · · · ap2 .. . .. . . . .. . . a1p a2p · · · app Propiedades de A. • En la matriz A, cada columna es un vector propio de Σ. ′ ′ ′ • A A = AA = Ip ⇒ A = A−1 ⇒ A es ortogonal • ΣA = AΛ con Λ = diag (λ1 , ..., λp ) , λ1 ≥ λ2 ≥ · · · λp (resultado análogo a Σai = λi ai ) Estructura de correlación ′ ′ • V ar(Z) = V ar(XA) = A ΣA = A AΛ = Λ. Entonces Cov(Zi , Zj ) = 0, si i 6= j y V ar(Zi ) = λi ≥ V ar(Zj ) = λj si i ≤ j Además ′ ′ ′ traza(Σ) = traza(ΣAA ) = traza(A ΛA) = traza(AA )Λ = traza(Λ) = p X λj . j=1 Ya que traza(Σ) = p X 2 σjj . Entonces j=1 p X λj es una medida de la variación total de los datos (variación total de X) j=1 Entonces, la proporción de esta varianza que explica una sola componente es λi (% varianza explicada por Zi ), p P λj j=1 k P j=1 p P λi λj (% varianza explicada por las primeras k componente principales, k ≤ p) j=1 Notas importantes • Habı́amos escrito la correlación entre la j-ésima variable y la i-ésima componente como 7 λi aij = Cor(Xj , Zi ) = q 2 λi σjj √ λi aij = r Xj Z i σjj Estas correlaciones pueden utilizarse para evaluar las relaciones entre las componentes Zi y las variables originlaes Xj , como sigue p X 2 = rX j Zi i=1 p P λi a2ij i=1 = σij2 σij2 =1 σij2 ya que p X ′ ′ λi a2ij = ai Λai es el i-ésimo elemento de la matriz AΣA . Por lo tanto i=1 2 rX puede verse como la proporción de varianza de Xj explicada por Zi j Zi • Puntajes de los individuos ′ Zi = A Xi proporciona las coordenadas de la observación Xi en el nuevo sistema de ejes generado por las c.p. ′ zij = aj Xi = p X ajk xik k=1 es el valor de la j-ésima componente para el i-ésimo individuo. Entonces, podemos representar un individuo en el plano, mediante la pareja (zi1 , zi2 ). Ya que uno de los usos comunes de esta técnica es identificar individuos similares, es importante tener en cuenta que las c.p. preservan la distancia entre las observaciones, como mostraremos en seguida. Denotemos por Zi : Vector de c.p. del individuo Xi y por Zj : Vector de c.p. del individuo Xj . Entonces, se trata de mostrar que la distancia entre estas componentes es igual a la distancia 8 entre los vectores originales de los sujetos. ′ kZi − Zj k2 = (Zi − Zj ) (Zi − Zj ) ′ ′ ′ ′ ′ = A Xi − A Xj A Xi − A Xj ′ ′ = A (Xi − Xj ) A (Xi − Xj ) ′ ′ ′ = (Xi − Xj ) AA (Xi − Xj ) ′ = (Xi − Xj ) AA−1 (Xi − Xj ) (A es ortogonal) ′ = (Xi − Xj ) Ip (Xi − Xj ) ′ = (Xi − Xj ) (Xi − Xj ) = kXi − Xj k2 Observación. Esta distancia se conserva en el espacio original de los vectrores, que es de diminsión p. Si sólo tomamos pocas componentes (2 ó 3) para representar las observaciones, entonces 2 kXi − Xj k2 ≈ Z∗i − Z∗j con Z∗ un vector de dimensión 2 ó 3, únicamente. Esta aproximación será adecuada si estas pocas dimensiones explican un alto porcentaje de la varianza total de los datos. Aplicación de c.p. con variables medidas en diversas escalas El análisis de c.p. se realiza, generalmente, utilizando variables continuas; no obstante, existen aplicaciones donde se presentan diversas escalas de medición en las variables. Una manera generaliza de abordar esta situación, es realizar el análisis ignorando la escala de medición, i.e., suponiendo que todas provienen de una escala de intervalo. En este caso, la correlación entre cualquier par de variables, es la de Pearson. El hecho de no respetar la escala de cada variable, propicia que las correlaciones sean más pequeñas de lo debido, lo que, para una técnica basada en la asociación entre las variables, resulta poco deseable. Otra alternativa es construir variables dummy’s con las variables medidas en escalas nominal y ordinal. Este 9 procedimiento tiene la desventaja de incrementar el número de variables dentro del análisis (hay que recordar que si una variable nominal u ordinal tiene k categorı́as, entonces genera un número igual de variables dummy’s). Este incremento de dimensión repercutirá en el hecho de que tendremos menos posibilidades de poder representar nuestros datos en pocas dimensiones, i.e., tendremos poca varianza explicada por unas cuantas dimensiones. Una forma alternativa de enfrentar este problema, es utilizando la matriz de correlaciones policóricas. En esta matriz se utiliza un tipo de correlación de acuerdo a la escala de medición de las dos variables en cuestión. La siguiente tabla muestra las correlaciones que se sugiere calcular. Escala de medición Continua Ordinal Dicotómica Continua Pearson Policórica Punto biserial Ordinal Policórica Policórica Dicotómica Tetracórica Una vez calculada esta matriz, el análisis de c.p. se lleva a cabo utilizándola para realizar todos los procesos de cálculo. 10