Tema 4: Componentes Principales En el estudio de las limas teniamos 7 variables pero estas cuatro parecen Tener suficiente información. Podemos Reducirlo aun más? Objetivo: Describir p variables con r variables(posiblemente Diferentes) con r<p con la menor perdida de información posible. Guión 1. Definición y Cálculo de las componentes 2.¿Número de componentes? 3. Componentes normadas 4. Propiedades de las componentes (Variabilidad explicada) 5. Interpretación de las componentes Técnica: Considerar combinaciones lineales de las p variables Originales y elegir Las mas informativas (MAYOR VARIANZA) Que no compartan Información (INCORRELADAS) Componentes principales: Estas nuevas variables (Combinaciones lineales de las originales) se denominan Las componentes principales (C.P) se ordenan de mayor a menor varianza VENTAJAS DIMENSIÓN REDUCIDA: Cuantas menos variables, el analisis exploratorio, la clasificación, encontrar los conglomerados es mas sencillo INCORRELACIÓN: Simplifica el análisis INTERPRETACIÓN: A menudo las C.P nos informan de índices De interes que nos ayudan a entender mejor el fenómeno considerado INCONVENIENTE: A Veces no es posible darle ningún sentido a las C.P! CALCULO DE LAS COMPONENTES PRINCIPALES 1. IDEA La primera componente (Z1) es la combinacion lineal con mayor varianza La segunda componente (Z2) es la combinacion lineal con mayor varianza incorrelada con Z1 La Tercera componente Z3 es la combinacion lineal con mayor varianza incorrelada con Z1 y Z2 NOTA IMPORTANTE: Hay p C.P pero en la práctica con pocas explicamos un alto porcentaje de variabilidad 2. Interpretación geométrica Geometricamente ls C.P puden interpretarse como los ejes del Elipsoide definidos por los datos Máxima dispersión NOTA: Incorreladas= Perpendiculares Caso extremo 2. Interpretación Analítica Analíticamente las C.P se representan por los vectores propios de La matriz de varianzas covarianzas Sai i ai Vector Propio (Autovector) (Eigenvector) Valor Propio (Autovalor) (Eigenvalue) 1 2 i p Z i ai , x a i 1 pero SPSS nos da a i i Ejemplo de los Rectangulos Diagrama de dispersión y componentes (geométrico) Componentes analíticamente Componentes SPSS PROPIEDADADES DE LAS COMPONENTES PRINCIPALES p 1. s i 2 zi s 2. i 1 2 zi p i i 1 3 La proporción de varianza explicada por la C.P z h es s p 2 zh s i 1 2 zi h p i 1 i 4 La covarianza entre z h y la variable original x i szh , xi h (ah )i h (bh )i 4 La correlació n entre z h y la variable original x i rzh , xi h (ah )i si COMPONENTES PRINCIPALES NORMADAS (CPN) Las componentes principales normadas CPN se obtienen trabajando con las variables estandarizadas. Es decir trabajamos con la matriz de correlaciones R y hallamos Sus valores propios etc ACPN: Unidades distintas o variables que tienen menor magnitud de manera intrinseca Ejemplo Longitud de huesos del cuerpo. El fémur y el martillo varían de manera distinta pero Son igualmente importantes ACP: Si estudiamos índices económicos y uno fluctua mucho y otro es casi constante, Al estandarizar obviamos este hecho. La componente principal lo reflejara Duda: Realicemos ambos analisis y seleccionemos el que nos conduzca a conclusiones mas informativas PROPIEDADADES DE LAS COMPONENTES PRINCIPALES NORMADAS 1. s 2 ziR p R i s 2. i 1 2 ziR p i 1 R i p 3 La proporción de varianza explicada por la C.P z h es s 2 zhR p s i 1 2 ziR R h p i 1 R i R h p 4 La covarianza entre z h y la variable original x i sz R , y ( a ) h R h i R h i 4 La correlació n entre z h y la variable original x i rz R , y ( a ) (b ) h i R h R h i R h i ¿CUANTAS COMPONENTES PRINCIPALES? Cocodrilos Gráfico de Codo INTERPRETACIÓN DE LAS C.P Ejemplo Escleorosis