ANÁLISIS DE COMPONENTES PRINCIPALES ÁREA DE ESTADÍSTICA DEPARTAMENTO DE CIENCIAS EXACTAS – ESPE Asignatura: ESTADÍSTICA APLICADA AL MERCADO Docente: Vanessa Mena Contenido Título Análisis multivariante de interdependencia Duración 8 horas Información general Análisis de Componentes Principales Objetivo Realizar un análisis de componentes principales en una base de datos Análisis de componentes principales ACP El método de componentes principales tiene por objeto transformar un conjunto de variables a las que denominaremos variables originales, en un nuevo conjunto de variables denominadas componentes principales (dimensiones). Estas últimas se caracterizan por estar incorrelacionadas entre sí y ordenadas en función de la información que llevan incorporadas, medida a través de la varianza Como medida de la cantidad de información incorporada en una nueva componente se utiliza su varianza. Es decir, cuanto mayor sea su varianza mayor es la información que lleva incorporada dicha componente. Por esta razón se selecciona como primera componente aquella que tenga mayor varianza mientras que, por el contrario, la última es la menor varianza. En general, la extracción de componentes principales se efectúa sobre variables tipificadas para evitar problemas derivados de escala. Cuando las variables originales están muy correlacionadas entre sí, la mayor parte de su variabilidad se puede explicar con muy pocas componentes. Es importante destacar que los componentes principales se expresan como una combinación lineal de las variables originales. El método de componentes principales es considerado como un método de reducción, es decir, un método que permite reducir la dimensión del número de variables que inicialmente se han considerado en el análisis. El análisis de componentes principales trata de reducir la dimensión de un número elevado de variables. Si la correlación muestral es nula entre el conjunto de variables, entonces las componentes principales coincidirán exactamente con las variables originales, de manera que para aplicar este análisis hay que partir del supuesto de que las variables están correlacionadas entre sí Los coeficientes de correlación de las variables originales deben ser por lo menos mayores a 0.5 En el análisis de componentes principales es importante conocer la correlación de cada variable con las componentes. Su obtención es muy sencilla. Así, el coeficiente de correlación rhj entre la componente h-ésima y la variable j-ésima viene dada por: 𝑟ℎ𝑗 = 𝑈ℎ𝑗 √ℎ A estos coeficientes de correlación se les denomina cargas factoriales. A la matriz formada por estas cargas factoriales se les suele denominar matriz factorial. En las salidas del programa SPSS, se le denomina matriz de componentes. Para tipificar las componentes hay que dividir cada valor de un componente por su correspondiente desviación típica, es decir, por la raíz cuadrada de la raíz característica a que está asociada. A la matriz formada por estos coeficientes se le denomina en las salidas del paquete SPSS matriz de coeficientes para el cálculo de puntuaciones de los factores, utilizando esa matriz de ponderaciones se obtiene las puntuaciones tipificadas de las componentes. En función de lo que se ha mencionado se presenta un resumen de los resultados más importantes que se van a obtener. 1. Los componentes principales son combinaciones lineales de las variables originales. 2. Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos asociados a la matriz de covarianzas de las variables originales. 3. La primera componente principal está asociada a la mayor raíz característica de la matriz de covarianzas de las variables originales. 4. La varianza de cada componente es igual a la raíz característica a que va asociada. 5. En el caso de que las variables estén tipificadas, la proporción de la variabilidad total de las variables originales captada por una componente es igual a la raíz característica correspondiente dividida por el número de variables originales. 6. La correlación entre una componente y una variable original se determina con la raíz característica de la componente y el correspondiente elemento del vector característico asociado en el caso de que las variables originales estén tipificadas. Número de componentes a retener El objetivo de la aplicación de las componentes principales es reducir las dimensiones de las variables originales, pasando de p variables originales a m<p componentes principales. Los criterios analíticos que examinaremos para determinar el número de componentes son los siguientes: criterio de la media aritmética y el contraste de raíces características no relevantes. También se examinará un criterio basado en el gráfico de sedimentación. - Criterio de media aritmética - Contraste sobre las raíces características no retenidas - El gráfico de sedimentación Número óptimo de componentes principales Por lo general, dada una matriz de datos de dimensiones m x p, el número de componentes principales que se pueden calcular es como máximo de m-1 o p (el menor de los dos valores es el limitante). Sin embargo, siendo el objetivo del PCA reducir la dimensionalidad, suelen ser de interés utilizar el número mínimo de componentes que resultan suficientes para explicar los datos. No existe una respuesta o método único que permita identificar cual es el número óptimo de componentes principales a utilizar. Una forma de proceder muy extendida consiste en evaluar la proporción de varianza explicada acumulada y seleccionar el número de componentes mínimo a partir del cual el incremento deja de ser sustancial. Análisis de componentes principales Restricciones: - Se trabaja con variables cuantitativas - Se recomienda trabajar con 2 dimensiones hasta 4 dimensiones (dimensión =componente) - Los casos tienen que ser mayores que las variables Varianza explicada = Inercia Interpretación: Plano principal Interpretación de la ordenación (plano principal): Con este gráfico se evalúan las formaciones de clúster. Las zonas donde los datos están agrupados están correlacionadas positivamente, si aparecen en zonas opuestas están correlacionadas negativamente, si aparecen en ángulo recto no tienen relación entre ellas y si aparecen lejanas al origen es porque tienen más peso en esa componente, este análisis es válido si los datos están relacionados linealmente Círculo de correlación Círculo de correlaciones: Con un ángulo pequeño cercano a 0° existe una correlación fuerte positiva, entonces las variables están correlacionadas, ángulos grandes cercanos a 90° no hay correlación no hay dependencia, ángulo de 180° correlación fuete inversa Las variables están mejor representadas cuando más alejadas estén del origen, en el gráfico serán entonces mejores en cuanto más próximos estén al círculo de correlación Tabla de comunalidades Permite explicar el % de cada variable que es explicada en el modelo, es el % de varianza que reproduce el modelo factorial Varianza total explicada Permite señalar que % se logra explicar con el número de componentes principales o la primera componente logra explicar tal % de la varianza Gráfico de sedimentación Los autovalores son medidas de variabilidad que explica la cantidad de información que puede explicar un factor Ejercicio resuelto: Base de datos “Ventas” 1. Utilice la base de datos “ventas. Sav”, y realice un ACP Análisis de componentes principales con las variables: ventas, reventa, precio, tamaño del motor, caballos, base de neumáticos, anchura, capacidad de combustible y consumo (Considere autovalores >1) 1.1 Indique el coeficiente y cuál es el par de variables altamente correlacionadas Tamaño del motor y caballos=0.973 1.2 Presente e interprete la tabla de comunalidades 1.3 Cuantos componentes principales se recomienda y presente la gráfica de sedimentación 2 Componentes principales 1.4 Si se eligiera 3 componentes principales cuál es el porcentaje de varianza que se logra explicar 86.58% Ejercicio propuesto: Se ha examinado a 25 alumnos, aspirantes a ingresar en la Facultad de Matemáticas, (Base de datos: Ingreso_FMatematicas) de 5 materias diferentes: Geometría Diferencial (cuyo resultado se almacena en la variable geodif), Análisis Complejo (ancompl), Álgebra (alg), Análisis Real (anreal) y Estadística (estad). Las puntuaciones obtenidas figuran en la tabla siguiente: El objetivo de este estudio es realizar un ACP de alumnos para la entrada en la Facultad de Matemáticas de las calificaciones en las cinco materias examinadas. (Utilice autovalores =0.3)