Anexos N03 Actividad cuyo propósito es proponer a los participantes un trabajo grupal en torno a un tópico específico, crea un entorno muy propicio para compartir sus conocimientos con los demás compañeros de taller y fomentar el aprendizaje. Taller Práctico sobre Estudio de Tablas Continuas con el Análisis de Componentes Principales – Relaciones Lineales Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP INDICE ABEXO 1 ACP a. Análisis de componentes principales con Xlstat I. Análisis De Componentes Principales (ACP): Gastos publicidad a Europa II. Preparación del cartografiado III. Interpretación IV. Adición de observaciones ilustrativas y variables suplementarias b. Análisis de componentes principales con SPAD I. Análisis De Componentes Principales (ACP): datos Contaminación II. Visualizar los resultados del análisis factorial en SPAD III. Representación gráfica de planos factoriales en SPAD 2 20 14 16 17 19 20 26 28 IV. Descripción De Factores (DEFAC) 36 c. Análisis de componentes principales con DTM 38 I. Importación de Datos: datos en "formato CSV - Excel" II. Análisis De Componentes Principales (ACP): Estructura social del municipio de Alcobendas III. Visualización de los resultados IV. Validación Bootstrap 39 50 58 62 d. Análisis de componentes principales con R - FactoMineR 64 e. Análsis de Componentes Principales con SPSS 68 Césari – 2018 Página 1 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP ANEXO 1 ACP a. Análisis de componentes principales con Xlstat XLSTAT es una completa solución de estadística y análisis de datos para Microsoft Excel. Tomando como interfaz de entrada y salida las hojas de cálculo Excel, XLSTAT integra una completa librería de funciones estadísticas y matemáticas para el análisis de datos, tanto financieros como científicos. Además, añade utilidades para Excel con el fin de facilitar la manipulación de los datos bajo Excel. Todas las herramientas son accesibles a partir de un mismo menú, que es añadido a la barra de menús de Excel. I. ACP - Gastos de publicidad a Europa En la siguiente tabla se muestra la repartición (en porcentajes) de los gastos publicitarios según el medio de comunicación de 16 países de Europa. Los datos corresponden al año 1990 y se extrajeron de la revista Press Landscape update & Eur. Direct Marketing NTC, 1991. Los datos se encuentran en el archivo PublicidadEuropa.xls Abrir la planilla de MS Excel con los datos. Tras activar XLSTAT, seleccione el comando XLSTAT / Análisis de datos / Análisis de componentes principales, o haga clic en el botón correspondiente de la barra "Análisis de datos" (ver a continuación). Césari – 2018 Página 2 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Aparece el cuadro de diálogo del análisis de componentes principales. Seleccione los datos en la hoja de Excel. Hay varias manera de seleccionar los datos en los cuadros de diálogo XLSTAT (ver tutorial on-line). Donde dice “Tabla observaciones/variables” debemos ingresar las “variables Continuas activas”, es decir los datos activos. Presionamos el botón a la derecha o directamente nos vamos a la hoja de Excel. Por defecto (a la derecha) hemos indicado tildando en “Etiquetas de las Variables” que parte de esta selección incluye una fila (la primera) con las etiquetas que identifican a las variables. Césari – 2018 Página 3 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP En el ejemplo estudiado, los datos aparecen desde la primer fila/columna de la hoja. Siempre que debajo de la tabla no existan datos, podemos seleccionar las variables directamente sobre el identificador alfabético de columna de la hoja de Excel, o seleccionar a mano con el Mouse los datos incluyendo la primer fila con etiquetas variable, pero sin incluir el identificador de ciudades (observaciones). A continuación podemos ver en líneas punteadas la selección. o Seleccionamos las etiquetas para identificar las ciudades a la derecha del cuadro de diálogo, luego de tildar a opción “Etiquetas de las Observaciones”. Césari – 2018 Página 4 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP El tipo de ACP será la matriz de correlaciones de Pearson, que corresponde a los coeficientes de correlación clásicos. Las matrices de covarianza asignan mayor peso a las variables con varianzas más altas. Las correlaciones de Spearman pueden resultar más adecuadas cuando se ejecuta un ACP sobre variables con distribuciones diferentes. Las correlaciones policóricas son adecuadas para variables ordinales. Por defecto el tipo de ACP es Pearson (n), que es el algoritmo que hemos visto en la teoría y los resultados se visualizará en una nueva hoja que se crea a la derecha de la hoja con los datos. En la pestaña “Opciones” podemos especificar algunas opciones de análisis. Podríamos realizar un análisis normalizado o no normalizado para que el espacio factorial sea ortonormal o bien ortogonal, respectivamente. En la mayoría de casos se utiliza la primera opción para igualar las escalas en que están medidas las variables. También podemos indicar cuantos ejes factoriales se desean conservar (como máximo tantos como variables continuas activas), y cuantos queremos editar en los resultados de salida. Las opciones por defecto son en la mayoría de casos suficientes La pestaña “Resultados” nos permite elegir los resultados que deseamos que genere y el nivel de significación para las pruebas de esfericidad del ACP. Césari – 2018 Página 5 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP En la pestaña Resultados, elegimos activar la opción de mostrar las correlaciones significativas en negrita (Significación de la prueba). Los cosenos cuadrados permitirán asignar el tamaño a los puntos para representar el nivel de significación en la representación en el plano. Las coordenadas permitirán rehacer los planos a través de las funciones de visualización “scatterplot”, sin tener que volver a aplicar el algoritmo. La pestaña “Gráficos” permite configurar qué y cómo vamos a visualizar el Biplot. Césari – 2018 Página 6 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP En la pestaña Gráficos, con el fin de mostrar las etiquetas de todos los gráficos, y para mostrar todas las observaciones (gráficos y biplots de las observaciones), la opción de filtrado queda sin marcar. Si hay una gran cantidad de datos, la presentación de etiquetas podría enlentecer la presentación global de los resultados. El ver todas las observaciones podría hacer que los resultados ilegibles. En estos casos, se recomienda filtrar las observaciones a mostrar. Una vez parametrizado, seleccionamos OK para ejecutar el algoritmo. Tras hacer clic en el botón, comienzan los cálculos. Se le pedirá que confirme el número de filas y columnas. Nota: Este mensaje puede ser pasado por algo dejando sin seleccionar la opción “Pedir confirmación de selecciones” en el panel de opciones de XLSTAT. A continuación debe confirmar los ejes en los que desea mostrar los gráficos. La primer ventana (informativa) que surge presenta las opciones para la visualización de los planos, este cuadro de diálogo visualiza a través de un gráfico de barra la información sobre los valores propios. Observamos que los dos primeros ejes factoriales conservan un 70,70% de la inercia. Presionamos “Terminar” una vez seleccionado el plano conformado por los dos primeros factores. Podemos ver todos los resultados en la hoja etiquetada “ACP”. El primer resultado interesante a analizar es la matriz de las correlaciones. Para analizar la colinealidad existente entre las variables que se introducirán al modelo, y tener un panorama general sobre el estado de la multicolinealidad, podemos observar la matriz de correlación. Césari – 2018 Página 7 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP El valor del coeficiente de correlación varía entre -1.00 y +1.00. Ambos extremos representan relaciones perfectas, y 0.00 representa la ausencia de asociación. Cuanto más cercano sea a cero el coeficiente de correlación, más débil será la asociación. Independiente si hay o no relación lineal, en negrita se marca el nivel de significación estadística con un error del 5%. Con la intención de hacer una adecuada interpretación de los índices correlación, se hará uso de la clasificación que aparece en figura: Categorías del coeficiente de correlación Para el diagnóstico de la multicolinealidad de las variables que ingresaremos a los modelos, además de interpretar el determinante de la matriz de correlaciones, trabajaremos con el test de esfericidad de Bartlett y la prueba de Kaiser-Meyer-Olkin (KMO). Para comprobar que las correlaciones entre las variables son distintas de cero de modo significativo, se utiliza la prueba de esfericidad de Bartlett. Si las variables están correlacionadas hay muchos valores altos en valor absoluto fuera de la diagonal principal de la matriz de correlaciones, además, el determinante es menor que 1 (el máximo valor del determinante es 1 si las variables están incorrelacionadas). Lo que nos interesa para efectos de buscar multicolinealidad, por lo tanto, es rechazar la hipótesis nula, y aceptar la hipótesis alternativa de que la matriz es distinta a una matriz de identidad, y por ende hay un nivel suficiente de multicolinealidad entre las variables. Este procedimiento es particularmente útil cuando el tamaño muestral es pequeño, como en el ejemplo. El índice KMO compara la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de correlación parcial. Este estadístico varía entre 0 y 1, cuanto más cerca de 1 tenga el valor obtenido del test KMO, implica que la relación entre las variables es alta; y, en consecuencia, menos apropiado es realizar un Análisis Factorial. Kaiser‐Meyer‐Olkin para realizar un Análisis Factorial, proponen: KMO ≥ 0,75 ⇒ Bien, KMO ≥ 0, 5 ⇒ Aceptable y KMO < 0, 5 ⇒ Inaceptable. Si KMO es menor a 0.5, hay que entrar a considerar cambiar de variables o de técnica, ya que es muy poco probable que funciones los modelos sin el cumplimiento de esta prueba. Césari – 2018 Página 8 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP La experiencia práctica aconseja que es precipitado tomar el índice KMO como única medida de adecuación de la muestra a las hipótesis del modelo de Análisis Factorial, sobre todo si hay un número pequeño de variables consideradas. Nuestro ejemplo es una muestra de menos de 50 observaciones y la utilizamos como ejemplo para introducir el uso de la herramienta Xlstat, es por esto que no tendremos en cuenta los valores tan bajos obtenidos. La siguiente tabla y su gráfico correspondiente se relacionan con un objeto matemático, los valores propios (eigenvalues), es decir, la varianza asociada a cada eje; que reflejan la calidad de la proyección desde la tabla inicial de N dimensiones (N = en este ejemplo) a un menor número de dimensiones. Se observa cómo estos valores que corresponden a cada factor o componente están ordenados de forma decreciente. La suma de todos los valores propios es igual a 6, el número de variables, este total es el resultado de sumar la variabilidad acumulada por la importancia decreciente de cada factor Histograma de valores propios Los valores que se obtienen dan la importancia relativa y decreciente de los factores o componentes En nuestro caso, observamos que el primer valor propio vale 2,7 representa 45% de la variabilidad. Eso significa que si representamos los datos en un sólo eje, tendremos entonces siempre 45% de la variabilidad total que será preservada. Cada valor propio corresponde a un factor, y cada factor a una dimensión. Un factor es una combinación lineal de las variables iniciales, y todos los factores son no-correlacionados (r = 0). Los valores propios y los factores correspondientes están ordenados (en orden descendente) en función de la cantidad de la variabilidad inicial que representan (convertidos a %). Césari – 2018 Página 9 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Para determinar el número de componentes a retener: 1. Considerar todos aquellos factores que tienen un valor propio superior a 1, supone considerar un factor que mejora la varianza proporcionada en un inicio para cada variable sola. 2. Considerar el número de ejes que acumulan en torno al 70% de la varianza total, cantidad que se considera equilibrada entre la pérdida de información (del 30%) y la ganancia en significación (el 70% retiene los principales factores de variabilidad). 3. Representar gráficamente los distintos factores y los valores propios asociados y observar el comportamiento de la curva resultante (gráfico de sedimentación). El número de ejes a retener viene determinado por el cambio de pendiente de la curva, donde está presente el cambio de continuidad de la curva El primer mapa se denomina círculo de correlaciones (ver más abajo, el mapa de los ejes F1 y F2). Muestra una proyección de las variables iniciales en el espacio factorial. El primer gráfico que se muestra el Biplot de correlación (PLANO vectorial de las VARIABLES). Corresponde a una proyección de las variables iniciales sobre un plano de dos dimensiones constituido por los dos primeros factores. Este grafico podemos editarlo con las herramientas de MS Excel y de Xlstat, eliminado los datos no relevantes del mismo, cambiando color, fuente, y tamaño según coseno cuadrando. Césari – 2018 Página 10 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Las flechas deben interpretarse como direcciones de crecimiento de las variables en el espacio factorial. Observamos pues que los países que utilizan mucha publicidad en Televisión también utilizan la Radio y muy poco el Cine. Por el otro lado los países que utilizan Revistas como medio, suelen también utilizar más recursos en publicidad Exterior. El ángulo entre variables nos indica la correlación entre las mismas. Las variables más correlacionas entre sí mostrarán un ángulo pequeño y las menores un ángulo cercano a los noventa grados. Las variables correlacionadas negativamente tendrán direcciones opuestas en el plano. Dos variables están relacionadas positivamente si su ángulo es de casi 0º (paralelas), dos variables están relacionadas de manera negativa si su ángulo es de casi 180º (opuestas) y dos variables no están asociadas si su ángulo es cercano a 90º (perpendicular). El centro representa la media de todas las variables, a partir de este los vectores crecen en un sentido y decrecen en el sentido opuesto. El círculo de correlaciones es útil para interpretar el significado de los ejes. Las variables bien representadas en el plano se aproximan al círculo de radio 1. Para una variable bien representada en el plano un ángulo pequeño con el eje indica una buena representación con él. Considerando que en el plano principal se encuentran las proyecciones de los vectores, cuanto más “variable” sea una variable mayor será la magnitud de su variación (suma de cuadrados) y más largo será el vector representativo de la misma. Se identifica, así, la variación de las variables con la longitud de los vectores proyectados. Cuando dos variables están lejos del centro, tenemos varias posibilidades: si están próximas una a la otra, están positivamente correlacionadas (i.e., r está próximo a 1); si son ortogonales, no están correlacionadas (i.e., r está próximo a 0); si están en lados opuestos con respecto al centro están negativamente correlacionadas (i.e., r está próximo a -1). Cuando las variables están próximas al centro, alguna información es transportada a otros ejes, y cualquier interpretación podría resultar peligrosa. Esto se puede confirmar ya sea observando la matriz de correlaciones, o examinando el círculo de correlación en los ejes F1 y F3. Para el caso de dos ejes factoriales, la comunalidad se interpreta como la longitud del vector-variable en el espacio de las componentes. Una comunalidad alta implica un alejamiento del centro de coordenadas, una comunalidad baja significa una ubicación cercana al centro. Mientras más cerca del centro (vector pequeño) la variable no es relevante y si la eliminamos y volvemos a realizar el ACP, el plano no cambia. Cuando las variables están relativamente cercas del centro del gráfico, entonces cualquiera interpretación es arriesgada, y es necesario referirse a la matriz de correlaciones o a otros planos factoriales para interpretar los resultados. En nuestro ejemplo, podemos deducir del gráfico que las variables Revista y Exterior están relacionadas positivamente, cuando una crece la otra tiende a crecer, TV y Radio también están relacionadas positivamente, pero Cine y Diarios no están relacionados, Cine está relacionado de manera opuesta con Radio, cuando una crece la otra tiende a decrecer. El círculo de las correlaciones es también útil para interpretar la significación de los ejes. En nuestro caso, el eje F1 es claramente vinculado al Cine, el eje F2 es esencialmente vinculado a los Diarios. Césari – 2018 Página 11 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Para confirmar el hecho que una variable es fuertemente vinculada a un factor, debe consultar la tabla de los cosenos: mientras más elevado es el coseno (en valor absoluto), más vinculada está la variable al factor. Mientras más cerca está el coseno de cero, menos vinculada está la variable al eje. En nuestro caso, vemos que en lo que se refiere a la Radio, será mejor interpretada en los ejes F1/F3. En las siguientes tablas, aparecen los números que permiten construir el primer plano factorial de las variables: las correlaciones entre los factores y las variables (TV y Revistas son las más correlacionadas con el primer eje) y los vectores propios (lectura vertical de los antiguos ejes unitarios) que dan las direcciones de los nuevos ejes sobre el sistema de representación original de la nube de individuos. Los antiguos ejes unitarios (vectores propios) leídos de forma horizontal permiten ubicar los ejes de las variables en el plano de los individuos. Representan la varianza incorporada en cada eje o varianza explicada por el factor o componente. Los factores de carga son los coeficientes de correlación entre las variables originales y los factores. Cuanto más elevado es el coeficiente más relevante es la variable para configurar el factor y también mayor será su proyección sobre el eje. Los coeficientes son también las coordenadas de las variables originales en el espacio de las variables factoriales. Obtendremos así los gráficos factoriales que son una ayuda muy útil y visual para la interpretación del contenido de los factores obtenidos en el análisis. Contribución, Correlaciones con los ejes y Vectores propios de variables Césari – 2018 Página 12 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Los valores de comunalidad de cada variable, son la parte de cada variable explicada por el conjunto de los factores. En este sentido se interpreta que los factores de carga son los coeficientes resultantes de una ecuación de regresión múltiple, donde la variable original sería la variable dependiente y los factores las variable independientes. Como estos factores están incorrelacionados, los coeficientes no dependerán el uno del otro y representarán las contribuciones únicas de cada factor o la correlación entre ambos, factor y variable. De esta forma podemos calcular la proporción de varianza de cada variable explicada por el modelo de m factores. Las comunalidades y su distribución entre los factores son interesantes desde el punto de vista de la interpretación, pues es la parte de la contribución de cada variable a estructurar el sistema de 2 factores. En consecuencia, comunalidades altas tienen importancia en la "creación" de los dos factores. Variables con comunalidad baja contribuyen poco a forma o estructurar el espacio, contribuyen poco a dispersar la nube de puntos El siguiente gráfico nos permite examinar las observaciones en un mapa bidimensional, así como identificar tendencias. El gráfico a continuación corresponde a Bilplot de distancias (PLANO escalar de las OBSERVACIONES). Podemos observar qué países están bien representados en los ejes, a partir de las contribuciones y los cosenos cuadrados. Las observaciones cercanas son casos que presentan distribuciones parecidas en la mayoría de las variables (normal). Los países cercanos son países que presentan distribuciones parecidas en el reparto de los gastos publicitarios. Observamos que podes pueden diferenciar claramente los países latinos de los países anglosajones Césari – 2018 Página 13 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP II. Preparación del cartografiado Estas técnicas “biplot” permiten la representación de los casos y las variables, de forma conjunta, en el subespacio factorial de dimensión reducida. Muy a menudo se suelen interpretar estos gráficos diferenciando en los cuatro cuadrantes. Los países más alejados del origen de coordenadas son los países que presentan un perfil más alejado del perfil medio. Desde las opciones de gráfico de Excel, eliminamos la visualización e las escalas. Las proyecciones sobre los ejes y sobre los planos factoriales serán muy ‘buenas’ para algunos puntos pero también pueden ser de ‘mala’ calidad para otros puntos. Se requiere entonces de un índice que ponga en evidencia este hecho, que se denomina coseno cuadrado o contribución relativa. Césari – 2018 Página 14 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP En este gráfico podríamos concluir lo siguiente: Portugal , Grecia, Italia y España tienden a dedicar más recursos publicitarios en televisión y radio y muy poco en el cine. Francia y Bélgica dedican más recursos en revistas y outdoor. Por el otro lado, países nórdicos como Suiza, Noruega, Suecia, Dinamarca, Finlandia y Irlanda destinan más recursos a los diarios. Suiza, Holanda y Alemania en concreto dedican más recursos al cine Por lo tanto puede resultar interesante ponderar los puntos a partir de la contribución de cada país en el espacio factorial creado. Para ello debemos ejecutar las opciones de Visualización que nos permite realizar esta opción y muchas otras, como “zoon” del gráfico, tamaño de símbolos. A partir de la suma del coseno cuadrado de los dos primeros factores podemos representar con el tamaño la importancia del punto y de la variable en su representación en este plano, es decir nivel de significación. De esta manera podemos corregir errores de proyección. Para esto selecciono la serie de puntos de las observciones e ingreso en el menú XLSTAT/Visualiación/EasyPoint”. En el cuadro de diálogo le indicamos la columna con la suma de los cosenos cuadrados. Hacemos lo mismo para las variables. Césari – 2018 Página 15 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Para cambiar las escalas recortando los mínimos y máximos podemos hacer un “zoon” y visualizar mejor la nube de individuos. Seleccionamos el grafico e ingresamos en “Visualización/AxesZoomer”. Aparece un cuadro de diálogo donde podemos probar la escalas, cuando esté conforme precione “Terminar”. III. Interpretación Muy a menudo se suelen interpretar estos gráficos diferenciando en los cuatro cuadrantes. Los lugares más alejados del origen de coordenadas son los casos que presentan un perfil más alejado del perfil medio. Los criterios de interpretación de la representación se ajustan a las normas siguientes: - - - Los vectores representativos de las variables identifican con su medida la dispersión de las mismas, estando por ello situados sus extremos sobre la hiperesfera de radio unidad en el caso de un ACP estandarizado. Este último modelo es especialmente interesante, ya que el producto escalar de dos vectores “variables” se corresponde con su coeficiente de correlación o coseno del ángulo que forman y, la proyección de cada vector “variable” sobre un eje, mide la correlación existente entre dicha variable y la correspondiente componente principal. En el Análisis de Componentes Principales (y técnicas Biplots derivadas), la interpretación correspondiente a variables (relaciones entre ellas y con las componentes principales) es distinta de la obtenida para individuos (comportamientos similares en función de la distancia existente entre ellos). De forma general la relación entre variables se determinará mediante ángulos y la existente entre casos mediante distancias. Si proyectamos todos los puntos de cada observación sobre una de las variables tenemos los individuos ordenados de mayor a menos en función de la misma. Césari – 2018 Página 16 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP - - El coseno cuadrado es una medida de la calidad de representación de un punto en un subespacios factorial dado (un eje, generalmente). Para un eje α, es el coseno del ´ángulo que forma la distancia al cuadrado de un individuo al centro de gravedad y la proyección al cuadrado del individuo sobre ese eje (o distancia de la proyección sobre el eje α al mismo centro) La contribución de un individuo a la formación de un eje es la parte de la varianza del mismo debida a ese individuo. La contribución de un punto variable (extremo máximo del vector) a la formación de un eje es la parte de la varianza del mismo debida a esa variable. IV. Adición de observaciones ilustrativas y variables suplementarias al ACP Es posible proyectar elementos suplementarios o ilustrativos (individuos, variables continuas y variables nominales) sobre los planos construidos en el ACP. Los elementos suplementarios permiten explorar asociaciones con los elementos activos o enriquecer los análisis. Los elementos que participan en el análisis se denominan activos, en el caso del ACP son variables continuas activas e individuos activos. Individuos suplementarios. Un individuo que tiene los valores para todas las variables activas pero que no participó en el ACP se puede proyectar sobre los ejes obtenidos de la misma forma que los individuos activos. Mediante este procedimiento se puede posicionar un nuevo individuo con respecto a todos los individuos activos para responder a objetivos preestablecidos, por ejemplo explorar su posible discriminación entre grupos. Es posible añadir variables suplementarias al ACP tras haber realizado los cálculos, lo que puede ayudar a aumentar la calidad de la interpretación. En XLSTAT, se pueden seleccionar estas variables en la pestaña Datos suplementarios del cuadro de diálogo del ACP. Las variables suplementarias pueden dividirse en dos tipos: - Variables suplementarias cualitativas (nominales): permiten colorear las observaciones del mapa según la categoría a la que pertenecen. Como una variable nominal representa un partición (división en clases) de los individuos lo que se proyecta son los centros de gravedad de cada subconjunto asociado a una modalidad. Césari – 2018 Página 17 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP - Variables suplementarias cuantitativas: en le ACP normado la proyección de una variable continua ilustrativa equivale a su correlación con el eje, lo que da la clave para su interpretación. Estas variables se pueden añadir para ver cómo se correlacionan con el grupo de variables utilizadas para construir el ACP. En el caso en que el ACP se lleva a cabo antes de una regresión, se pueden utilizar las variables explicativas para construir el ACP, en tanto que la variable dependiente se puede añadir como variable suplementaria. Esto puede ayudar a detectar más o menos cuáles de las variables explicativas podrían tener los efectos más fuertes sobre la variable dependiente. Césari – 2018 Página 18 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP b. Análisis de componentes principales con SPAD Para ilustrar el uso del software SPAD (Sisteme Protable pur 1`Analyses des Données) trataremos un ejemplo utilizando los datos relativos al estudio de contaminación. La matriz de datos Contaminacion.sba contiene los datos. Se trata de un total de 60 observaciones, a partir de 20 Variables. Las variables se presentan a continuación con el nombre, así como los valores de la media y de la desviación típica. Los principales resultados de tablas y gráficos que se obtienen del ACP con el software Spad (Sisteme Protable pur 1`Analyses des Données) se presentan a continuación y se exponen las características fundamentales del procedimiento para realizar el análisis a través de los cuadros de diálogo del menú. El programa incluye utilidades propias de un sistema de software general tales como: selección de variables y casos, recodificación de datos, utilización de ficheras de trabajo y auxiliares, uso de etiquetas para la identificación de las variables, tabulación y representaciones gráficas de los resultados. Pero sin lugar a dudas lo más interesante son una serie de análisis exploratorios multidimensionales basados en las técnicas desarrolladas a partir de los trabajos de Benzecri (1980, 19821). Las dos características más destacables de este Software son la potencia y especificidad de métodos en el tratamiento de información textual junto con la concordancia de los métodos multidimensionales reproducidos con trabajos de importante base teórica. 1 J. P. BENZECRI ET Co^tr. ( 1980). "Linguistique et Lexicvlogie, Pratique de 1'Analyse des Donnés" Tome III Dunod - París. J. P. BENZECRI (1982). "Construction d'une Classification Ascendante Hiérarchique par la Recherche en Chaine des Voisins Réciproques" - Cahiers de 1'Analyse des Données, Vol. VII, No. 2, pp. 209-218 Césari – 2018 Página 19 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP El empleo de varios tipos de técnicas combinadas (factorización y clasificación) de forma muy fácil es lo que da al paquete unas grandes posibilidades de análisis. I. Análisis De Componentes Principales (ACP) sobre datos de Contaminación El análisis de componentes principales se utiliza cuando la matriz de datos está compuesta por un conjunto de variables continuas (activas). Igualmente puede ser de nuestro interés utilizar variables ilustrativas (continuas o categóricas) que no participen en la creación de los ejes pero que estemos interesados en proyectarlas en el espacio factorial creado. Los datos se encuentran en el archivo Contaminación.sba. Para realizar un análisis de componentes principales debemos crear una filière, indicar el archivo de datos y encadenar el método COPRI. Procedemos arrastrar el icono hasta el icono vacío. Esta acción definirá un método dentro de la filière con este aspecto: Para parametrizar el método basta con realizar un doble clic sobre el icono COPRI. Se nos abrirá una ventana de parametrización donde debemos indicarle las variables continuas activas y suplementarias, y categóricas ilustrativas que queremos analizar. Césari – 2018 Página 20 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Césari – 2018 Página 21 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Podemos seleccionar las variables una por una o bien todas a la vez. Césari – 2018 Página 22 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP En las otras subventanas podríamos definir con que subgrupo de individuos desearíamos realizara los análisis (Individus), establecer una variable de ponderación (Pondération), o segmentar el archivo de datos según variables categóricas (Tris édités par modalités). Césari – 2018 Página 23 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Podemos calcular la ponderación de la Variable cualitativa, de manera de equilibrar los dos conjuntos Alta y Baja. En la subventana Paramètres podemos especificar algunas opciones de análisis. Podríamos realizar un análisis normée o non normée para que el espacio factorial sea ortonormal o bien ortogonal, respectivamente. En la mayoría de casos se utiliza la primera opción para igualar las escalas en que están medidas las variables. También podemos indicar cuantos ejes factoriales se desean conservar (como máximo tantos como variables continuas activas), y cuantos queremos editar en los resultados de salida. Las opciones por defecto son en la mayoría de casos suficientes. Césari – 2018 Página 24 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Por tanto, cliqueraremos sobre el botón OK. De esta forma, la filière ya estará parametrizada y, por tanto, lista para ejecutar. Antes de ejecutar la filière debemos guardarla sobre un archivo .fil. Para ello, debemos seleccionar la opción Sauvegarder Filière del menú Filière. Opcionalmente, podemos dar a la filière una etiqueta larga. Una vez guardada, ya podemos ejecutar la filière, seleccionando la opción Exécuter filière del menú Filière. Césari – 2018 Página 25 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Después de la ejecución nos aparecerán los iconos de resultados, a la derecha de los métodos. Nuestra filière tendrá el aspecto siguiente Podemos realizar un doble click sobre cada uno de los iconos. II. Visualizar los resultados del análisis factorial en SPAD En el primer icono , encontraremos los resultados del análisis factorial. Los resultados más relevantes son: Matriz de Correlación lineal y validación a través del VTest. Césari – 2018 Página 26 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Valores propios del ACP. En nuestro ejemplo observamos que los dos primeros ejes factoriales conservan un 85.56% de la inercia. Coordenadas de las variables en el espacio factorial. Nos puede ayudar a interpretar el ACP y sus ejes. Césari – 2018 Página 27 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Coordenadas de los individuos en el espacio factorial. Podemos observar los puntos que están bien representados en los ejes, a partir de las contribuciones y los cosenos cuadrados. III. Representación gráfica de planos factoriales en SPAD En el segundo icono , podemos editar los gráficos factoriales. Realizando un doble clic nos aparece una pantalla donde se editarán los gráficos. Este programa permite estudiar gráficamente los planos factoriales del tipo ACP Para iniciar la visualización 1. O bien abriendo un gráfico que ya hemos creado y salvado con anterioridad, o bien si estamos ejecutando un determinado método, seleccionando el icono gráfico en forma de ejes que aparece a la derecha del método. 2. Aparece la ventana preselections pour un nouveau graphique. En ella seleccionamos las variables y frecuencias activas e ilustrativas, etc., así como las particiones si las hubiera. La selección concreta de lo que podemos representar dependerá del análisis efectuado. 3. Si el fichero contiene muchos individuos, lo mejor es no representarlos. En cambio, si el fichero es pequeño, no hay ningún inconveniente en representar todos los individuos. 4. Apretamos OK. Césari – 2018 Página 28 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Comando Graphique Podemos abrir, cerrar, salvar, salvar como (por ejemplo podemos salvar el gráfico como un fichero bmp), imprimir, etc. Si deseamos cambiar los ejes factoriales representados, elegimos los factores deseados (F1, F2, F3, F4, etc..) (Changer les axes o bien el botón ejes que aparece en la barra de herramientas). Nos indica la cantidad de información que posee cada factor. Comando Edition Permite copiar el gráfico o la selección en el portapapeles. Para borrar del gráfico los puntos seleccionados Effacer Comando Selection Este menú nos permite efectuar la selección de los puntos de interés en base a los siguientes criterios (también se pueden utilizar los botones de la barra de herramientas) - - - - Des categories. Seleccionamos las categorías que deseemos (individuos activos e ilustrativos, variables activas e ilustrativas). - Des variables per liste. Seleccionamos una a una las variables que nos interesa representar.. Si son variables nominales, incluso podemos escoger qué modalidades seleccionamos. - Des individus per liste y Des individus per filtre logique. Seleccionamos los individuos que deseamos que aparezcan uno a uno o bien mediante filtros lógicos Point par point, Par cadrage, Par segments. Si sólo queremos seleccionar de punto en punto, apretamos el botón punto-flecha de la barra de herramientas y señalamos el punto en el gráfico. Si queremos seleccionar una región de puntos, repetimos el paso anterior con el botón puntos-rectángulo. Si deseamos seleccionar segmentos, igual al anterior pero con el botón recta-flecha. Tous les points y Tous les segments. Seleccionamos todo el gráfico (incluido trayectorias) Filtrage statistique de la selection. Nos permite seleccionar los puntos más significativos en función de criterios estadísticos. Se da un valor máximo por ejemplo 80 (80%) ya sea de contribución (AFC o ACM) o bien coseno (ACP) y se seleccionan todos los puntos que tengan una contribución igual o superior al 80%. Deselection totale. Anulamos las selecciones anteriores. Podemos realizar esta tarea con el botón punto-flecha-punto Césari – 2018 Página 29 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Comando Habillage Permite trabajar con los puntos seleccionados anteriormente - Ecrire y Effacer les Ribelles. Si deseamos ver las etiquetas de los puntos o categorías seleccionadas, apretamos el botón abc. En el gráfico estas etiquetas se pueden mover. Si deseamos que desaparezcan, pues presionamos el botón abc con cruz Information su point. Si queremos estudiar detenidamente un individuo en concreto, pinchamos el botón tabla con punto y luego el punto en concreto. Aparecen sus coordenadas factoriales, así como sus valores en las distintas variables activas. Des individus par groups. Se pueden representar los individuos por grupos en función de 1. las modalidades de una determinada variable nominal; o bien 2. si el gráfico factorial ha sido obtenido mediante el Méthode Parti/Decla, podemos representar los individuos en función de la clase. Seleccionamos partitons y el corte del árbol deseado. Seleccionamos las distintas formas de representar los distintos grupos (colores o números) Para anular la selección apretamos rotour a l´habillage par defaut. Comando Dessin - - Trajectories. Si deseamos visualizar las trayectorias entre las diferentes modalidades de una variable nominal, apretamos Trayectoires. Una vez seleccionada la variable, aparecen las modalidades. Si queremos desplazar una modalidad, la seleccionamos apretando una vez el ratón, y con el puntero señalamos el lugar donde la queremos poner apretando otra vez el ratón. El criterio para determinar el orden de las modalidades es que las contiguas se parezcan lo más posible entre sí. Si apretamos OK se dibuja la trayectoria deseada. Lo podemos hacer con el botón flecha-flecha-flecha Legend. Si nos molesta el recuadro de leyenda de la segmentación de los individuos por grupos, acudimos a este comando para que aparezca o desaparezca Césari – 2018 Página 30 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP En el ejemplo, debemos ejecutar la opción Nouveau del menú Graphique. Se nos abrirá una nueva pantalla donde indicaremos el tipo de gráfico a realizar. Básicamente hay tres gráficos factoriales interesantes. Gráfico de las proyecciones de las VARIABLES sobre los ejes factoriales X1 porcentaje humedad relativa anual X3 viento en millas/hora X5 temperatura en Fº (enero) X7 porcenaje de poblacion >= 65 años X9 años de escolaridad media > de 25 años X11 poblacion area urbanizada X13 cantidad de familias pobres X15 polucion NO2 X17 polucion NO X19 Porcentaje de mortalidad X2 radiacion solar media X4 precipitacion anual media X6 temperatura en Fº (julio) X8 habitante por vivienda X10 porcentaje de albergues Legales con todos los servicios X12 cantidad de empleos legales X14 Polucion hidrocarburos HC X16 polucion CO X18 partículas en suspensión Las flechas deben interpretarse como direcciones de crecimiento de las variables en el espacio factorial. Para editar las etiquetas basta con realizar un doble clic sobre las flechas. SPAD permite arrastar las etiquetas. Para editar todas las etiquetas de una sola vez, podemos seleccionar la opción De tous les points en el menú Selection y luego la opción Écrire les libellées en Habillage. Para deseleccionar los puntos, basta con ejecutar la opción Désélection totale en Sélection Césari – 2018 Página 31 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP A veces puede resultar interesante ponderar los puntos a partir de la contribución o coseno2 en espacio factorial creado. Para ello debemos ejecutar la opción Styles pour les categories en Preferences, que nos permite realizar esta opción y muchas otras, como el color de los símbolos, tamaño de las etiquetas, símbolos. Gráfico de las proyecciones de los individuos Césari – 2018 Página 32 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Hacemos un zoon para poder mirar la nube activa con más detalle Caracterizar los distintos grupos o modalidades Si queremos ver rápidamente la distribución de los individuos más representativos que pertenecen a un grupo o a una modalidad en concreto, realizamos los siguientes pasos: 1. Elegimos en el menú Affichage el modo mode de representation: modalités ou classes au brycentre des points individus. 2. Seleccionamos con el botón punto-flecha la modalidad o el grupo que queremos identificar. 3. Accedemos al menú Habillage: Parangon: Calcul et affichage. Trabajamos con los valores que nos presentan por defecto. 4. Aparece en el gráfico el círculo donde más o menos están todos los individuos con esa modalidad o en esa clase (recordad que estamos trabajando en un espacio de diez dimensiones y que sólo vemos dos, el plano). Aparecen unidos los individuos más representativos de esa modalidad o clase. Césari – 2018 Página 33 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP 5. Si queremos seleccionar estos individuos, o bien con el botón punto flecha los seleccionamos uno a uno o bien seleccionamos con el botón punto-flecha la modalidad o el grupo correspondiente y vamos al menú Habillage: Parangon: Selection 6. Si queremos deshacer estos dibujitos Habillage: Parangon: Effecement Cambiamos de color las observaciones según la variable de opinión del experto. Selecciono y cambio el color de los centros de clases de las modalidades: Baja y Alta. Césari – 2018 Página 34 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Gráfico de las proyecciones de las variables y individuos utilizando los ejes unitarios Si editamos las etiquetas obtendremos el gráfico siguiente Césari – 2018 Página 35 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP IV. Descripción De Factores (DEFAC) Nos ayuda a interpretar los factores obtenidos a partir de un análisis factorial. Cada factor se describe por los elementos más significativos (pueden ser individuos, modalidades, variables continuas) ya sean activos o ilustrativos empleados en el análisis anterior. Por defecto, sólo interpreta los tres primeros factores, pero podemos evidentemente caracterizar los factores que deseemos. Si deseamos seleccionar más elemento definitorios de los ejes, en parámetros porcentajes seleccionamos 30, 40 ó 50 (por defecto viene el 20% de todas las posibilidades). Césari – 2018 Página 36 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Césari – 2018 Página 37 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP c. Análisis de componentes principales con DTM Estructura social del municipio de Alcobendas [López-Roldán & Fachelli, 2016] Para ilustrar el uso del software trataremos un primer ejemplo utilizando los datos relativos a un estudio realizado en el municipio de Alcobendas sobre su estructura social . La matriz de datos Alcobendas contiene los datos del estudio que fueron publicados en el anexo de la publicación referenciada. Se trata de un total de 36 secciones censales del ayuntamiento madrileño caracterizadas a partir de 15 variables, si bien la matriz original contenía un total de 27. Para hacer el análisis de componentes principales se utilizan, según el estudio, estas 15 variables de las que presentamos a continuación con el nombre y la identificación que le hemos asignado así como los valores de la media y de la desviación típica. Césari – 2018 Página 38 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Los principales resultados de tablas y gráficos que se obtienen del ACP con el software DTM, se presentan a continuación y se exponen las características fundamentales del procedimiento para realizar el análisis a través de los cuadros de diálogo del menú. A partir de un archivo de tipo Excel, se importa dos archivos en formato Dtm-Vic I. Importación de Datos: datos en "formato CSV - Excel". Transformando un archivo de Excel, formato XLS (CSV) en diccionario y ficheros de datos de DTM. Para empezar, le daremos un vistazo (fuera de DTM) al archivo original a ser importado. Este archivo está bajo el formato de la planilla de cálculo Microsoft Excel2. Seleccione el archivo: “Alcobendas.xls" (la tabla de datos) para verlo a través de una hoja de cálculo de Excel. La primera fila contiene las etiquetas que identifican las variables. La primera columna contiene los identificadores de individuos, Las celdas (a partir de la segunda fila y columna) son los valores de las 15 variables. El archivo está formado por 36 líneas 2 El lector que no es provisto de ese software debería saltarse las siguientes instrucciones Césari – 2018 Página 39 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP NOTA: Asegurarse que después de la tabla con los datos, tanto las filas como las columnas del resto de la planilla estén vacías y sin formato. Se recomienda que la primer columna sea destinada para etiquetas que identifiquen a los individuos, si la tabla no tiene identificador de observaciones agregar una primer columna con un “id” que identifique a cada fila Los nombres de variables deben tener menos de 20 caracteres, Estos nombres no deberían tener espacios en blanco (en todo caso, reemplácelos por líneas subrayadas). Estos nombres estarán truncados hasta 10 caracteres para construir luego los identificadores de las modalidades. Debemos guardar este archivo como un fichero de “texto delimitado por coma” con la extensión ".csv". (En “Archivo”, ingresar a "Guardar como…") obtenemos un archivo de formato libre con las columnas separadas por punto y coma. Recordatorio: Dtm-Vic produce numerosos archivos de los resultados intermediarios vinculados a la aplicación (todos en formato .txt). Por consiguiente, se recomienda especialmente crear un directorio por aplicación. Al principio, tal directorio debe contener los archivos de datos necesarios para el análisis al formato Dtm-Vic Importante: Si hay puntos y comas en el fichero de datos, deberán ser reemplazados por otro símbolo antes de realizar la transformación al formato CSV. También antes de guardar el archivo, el formato de las celdas debe ser "normal", para evitar algunos espacios en blanco adicionales. Si su versión de Excel no tiene previsto la opción "guardar como un archivo de csv", usted puede guardar el archivo usando "tabulaciones" como separadores, y luego, puede cambiar las "tabulaciones" en "puntos y comas" (paso básico: ingrese a “Data capture, data importation”, luego: presione “specific preprocessing”, luego: el botón “replacing tabs with semicolons”). Una vez creado el archivo con la extensión CSV, lo abrimos con el Bloc de Notas u otro editor de texto para eliminar, al final del mismo, líneas en blancos. Chequeamos que todo está bien. Césari – 2018 Página 40 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Abrimos el programa con DTM La secuencia de operaciones: a) Clic sobre “DataCapture, Data importation, Preprocessing” (importación / captura / preprocesamiento de datos). Césari – 2018 Página 41 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP b) Seleccione: “Importing Dictionary ,Data and Texts” (Importar Diccionario, Datos y Textos)". Se muestra una nueva ventana para la importación. c) Presione el primer botón habilitado a la izquierda: “Excel ® Files” (archivos de Excel). Se muestra la ventana “Importing from an Excel (r) file”. Si el archivo Excel ha sido guardado con tabulaciones como separadores de columnas, se presiona el botón: “Change tabs into semi-colons” (cambiar tabulaciones a puntos y comas). Césari – 2018 Página 42 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Ingrese a Start the importation process (comenzar el proceso de importación) Ingrese a 1-Select Imput Data. (cargar fichero csv). Seleccione el archivo creado previamente "Alcobendas..csv". Un cuadro de dialogo confirma la selección. Césari – 2018 Página 43 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Debería aparecer la lista de variables. Ingrese a 2-Select Type. (Analizar los valores) y luego ⟹ (Muestra Los Resultados). Seleccionar uno o varios identificadores de variable, en la lista, y escoger, para cada atributo (cada variable), una palabra clave entre las tres siguientes: - “char” significa que nos ocupamos de una variable categórica (nominal). Tal variable podría ser codificada con, a lo sumo, 6 caracteres. Por ejemplo, “masc” y “feme” para codificar el sexo (o "0" y "1", o "10" y "20"). - “text” significa que los registros (hasta 30 caracteres), no serán tomados en cuenta en un fichero de datos3. El identificador de individuos se coloca de este tipo (1º columna). - “num” significa que nos ocupamos de una variable numérica (continua). 3 Es recomendable, siempre manteniendo el mismo identificador de individuos, colocar los textos en un archivo aparte con el formato tipo 1 o tipo 2, según vimos en la tabla 3 y 4 Césari – 2018 Página 44 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Una vez completado el que el ingreso del tipo de variable, dé un clic sobre “update and continue” (actualización) para modificar el fichero. El programa crea un nuevo archivo, en donde se agrego una fila después de los identificadores de variables, con el tipo de dato. Este archivo es " New_typevar_Alcobendas.csv ". Césari – 2018 Página 45 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Clic en “Create Dictionary and Data” (crear el diccionario y los datos DTM). El proceso de importación consiste en construir un diccionario DTM y un fichero de datos DTM a partir del fichero de datos creado en el paso anterior “1”. - los nombres de las variables se extraen de la primera fila del archivo “.csv”. - el número de categorías para cada variable y los nombres de estas modalidades se obtienen al realizar un análisis del fichero Para cada variable, son detectadas todas las diferentes secuencias de caracteres de importancia. Las modalidades son ordenadas alfabéticamente por sus identificadores. - el fichero de datos DTM comienza con el mismo identificador entre comillas simples, las modalidades de las variables categóricas serán enteros consecutivos comenzando con el valor "1", en lugar de un símbolo alfanumérico. Los valores numéricos serán idénticos al del fichero de datos original, excepto los valores perdidos reemplazados, en esta versión de DTM, por el valor estándar "999". Clic en “Name for the new dictionary” (nombre para el diccionario nuevo) para escoger un nombre para el diccionario en formato de DTM, siempre en el mismo directorio. (se recomienda la extensión ".DIC"). Por ejemplo “AlcobendasDIC” Césari – 2018 Página 46 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Clic en “Name for the new data file” (nombre para el archivo de datos nuevo) para escoger un nombre del fichero de datos en formato del DTM, siempre en el mismo directorio. (se recomienda la extensión ".DAT"). Por ejemplo “AlcobendasDAT” Clic en “Create new dictionary” (crear diccionario nuevo). Analiza las modalidades para las variables nominales. Es creado un diccionario en formato interno de DTM, el cuál se visualiza en las notas a la derecha. Césari – 2018 Página 47 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Clic en “Create new data file” (crear fichero de datos nuevo). Al cabo de un rato, un cuadro de mensajes muestra el número de individuos. Clic sobre ese botón “Create a DTM parameter file”. (Crear un archivo de parámetros DTM). Se muestra la ventana “Creating a starting parameter file”. Clic en “Create a first parameter file” (crea un primer archivo de parámetro). Se muestra un archivo de comandos DTM en la ventana inferior. Los demás operaciones y comentarios son idénticos a la de la introducción. El archivo de comandos es automáticamente creado bajo el nombre: "Param start.txt". Césari – 2018 Página 48 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Haga Clic en "Execute" (Responda No a la pregunta acerca de un formato posible XML para el archivo de salida). Lea los resultados haciendo clic en “Main basic numerical results” (principales resultados numéricos básicos) del menú. Estos resultados son guardados bajo el nombre "imp.txt" en el mismo directorio de trabajo. Césari – 2018 Página 49 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP II. Análisis de Componentes Principales (ACP): Estructura social del municipio de Alcobendas El archivo diccionario: AlcobendasDIC Contiene los identificadores de las 15 variables continuas. El identificador de una variable nominal es precedido por el número N de sus categorías, Convencionalmente, una variable numérica tiene cero categoría. Los espacios vacíos están prohibidos en los identificadores. Extractos del archivo de dato AlcobendasDAT Este archivo de datos comprende 36 filas y 16 valores. Para una fila i, el primer valor (entre comillas) corresponde al identificador del individuo i, es decir aquí el grupo i de respuestas y los 15 otros valores corresponden a las respuestas de las 15 variables separadas por espacios blancos. Implementación del análisis (PCA) El archivo de los parámetros se crea en 5 etapas: Etapa 1: selección del análisis Césari – 2018 Página 50 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Etapa 2: Selección de los archivos diccionario y datas En el directorio de trabajo abrir el archivo AlcobendasDIC. Se muestra en una primera ventana. Césari – 2018 Página 51 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP En el directorio de trabajo abrir el archivo AlcobendasDAT que se exhibe en la tercera ventana. Etapa 3: Selección de las variables activas e ilustrativas (o suplementarias) Dentro de la ventana "Selection of active y Supplementary elements" se exhiben otras tres ventanas: "Variables to be selected" donde figura el conjunto de las variables "Active Variables" que recibe las variables activas seleccionadas "Supplementary Variables" que recibe las variables ilustrativas (o suplementarias) seleccionadas. Césari – 2018 Página 52 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Para el ACP, las variables activas deben ser continuas (numerical). Las variables ilustrativas pueden ser continuas o nominales. Aparece una ventana "Selecting observations". Etapa 4: Selección de las observaciones (individuos) Tres escenarios son posibles: 1. Guardar todas las observaciones 2. Seleccionar las observaciones sobre una lista 3. Seleccionar las observaciones por un filtro Césari – 2018 Página 53 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Tomamos en consideración aquí el conjunto de las observaciones. Aparece una ventana "Create a starting parameter file" Etapa 5: creación del archivo de comando (archivo de parámetros) A esta etapa, es posible seleccionar, como opción, los procedimientos de bootstrap y/o de clasificación. En efecto, en Dtm-Vic, los análisis factoriales pueden completarse por: - Un procedimiento de bootstrap que permite validar la posición de las variables sobre el plano factorial - Y/o una clasificación con una descripción automática de las clases. a. Selección de una opción Aparece una ventana "Options: Bootstrap and/or Clustering of observations". Césari – 2018 Página 54 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Haga Clic sobre: "yes" para el procedimiento "bootstrap"; indicar el número de replicaciones (por defecto 25) luego enter. Es el bootstrap parcial que se aplica por defecto. Si el bootstrap no es adoptado, haga Clic sobre: "no". Nota técnica: los diferentes tipos de bootstrap para variables no textuales en Dtm-Vic son: a Bootstrap parcial para las variables activas Con este tipo de bootstrap, el plano inicial sirve de espacio de referencia para recibir las replicaciones, que son proyectadas como variables ilustrativas. El bootstrap parcial no tiene por objeto validar la estabilidad del espacio de salida que no está en discusión. Da una idea de la variabilidad imputable a las replicaciones para cada punto de modalidad tomado aisladamente. b Bootstrap parcial para las variables ilustrativas. Para las variables ilustrativas, el bootstrap puede sólo ser parcial. Se trata de una validación externa, y por lo tanto una prueba estadística perfectamente legítima, no habiendo estas variables participado en la construcción del subespacio de referencia. c Bootstrap total para las variables activas. Recordemos que en este caso, cada replicación da lugar a un análisis en componentes principales específicos. Existen tres implementaciones del bootstrap total en Dtm-Vic. - El bootstrap de tipo 1 (correcciones simples del signo de los ejes para los análisis de las replicaciones). - El bootstrap de tipo 2 (correcciones de las inversiones de ejes) es más elaborado. - El bootstrap de tipo 3 (“Rotaciones procrusteanas” de los ejes replicados de forma de traerlos en correspondencia con los ejes iniciales). Reunimos tan a menudo los resultados del bootstrap parcial. Las opciones de bootstrap total pueden ser puestas de ejecución por los usuarios avanzados, pero no son utilizadas en este manual. Reaparece la ventana : “create a starting parameter file”. b. Creación del archivo de parámetros Césari – 2018 Página 55 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Se crea un archivo de parámetros bajo el nombre param_PCA.txt en la carpeta Para conservarlo con vistas a análisis posteriores, será prudente de renombrarlo, después de haber dejado a Dtm-Vic c. Ejecución La secuencia de los procedimientos se exhibe en bloque después de la ejecución: Comentarios: Ardat, (Almacenamiento de los datos), Selec (Selección de los elementos activos e ilustrativos), Stats (estadísticas básicas), Prico (Analiza en Componentes Principales), Recip (Clasificación mixta que utiliza la clasificación ascendiente jerárquica - método de los vecinos recíprocos), Parti (Corte del dendrogramme y la optimización de la partición por el método de los centros móviles [k-means]), Decla (Descripción automática de las clases de la partición). Los usuarios experimentados pueden modificar parámetros directamente bajo el editor interno o fuera de Dtm-Vic con un editor de texto (ver “Help about parameters” disponible a partir del editor). Archivo de los resultados Los resultados pueden ser consultados a partir de la sección: Césari – 2018 Página 56 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP El archivo resultado denominado imp.txt es contenido en el directorio También se guarda bajo el nombre "imp" seguido por la fecha y la hora del análisis Este archivo de copia de seguridad conserva los resultados numéricos principales, mientras que el archivo imp.txt se sobrescribe para cada nuevo análisis realizado en el mismo directorio. Después de haber consultado los resultados numéricos, vuelva al menú principal. Estos resultados serán visualizados entonces en la etapa VIC de Dtm-Vic que facilita considerablemente la interpretación (el histograma de los valores propios, el de los índices de nivel y el dendograma, sin embargo deben ser consultados en uno de los archivos imp.txt o imp.html). Césari – 2018 Página 57 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP III. Visualización de los resultados Esta segunda fase fundamental de Dtm-Vic proporciona los instrumentos de visualización necesarios para la interpretación y la validación de los resultados. Ejes factoriales Esta herramienta proporciona y clasifica las coordenadas sobre los ejes factoriales de las variables activas y ilustrativas, o de las observaciones. Aparece una ventana que propone visualizar las coordenadas de las variables activas, ilustrativas y de las observaciones sobre los primeros ejes (estos resultados son también los de la etapa DEFAC del archivo resultado). En el marco del análisis en componentes principales, tres elementos pueden ser examinados, las variables continuas activas e ilustrativas, las variables nominales e ilustrativas y las observaciones. Césari – 2018 Página 58 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Planos factoriales Esta herramienta proporciona los planos factoriales separados o superpuestos de las variables activas, ilustrativas o de las observaciones. Una ventana propone diferentes visualizaciones de planos factoriales. Seleccione la sección "Actives columns (variables or categories)". Aparece una ventana para seleccionar el plano factorial siguiente y la dupla de ejes deseada. Césari – 2018 Página 59 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Aparece la ventana del plano factorial. Césari – 2018 Página 60 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Nota: Para cada gráfico, la banda superior contiene opciones: - "Save" guarda el gráfico en formato bmp; - "Font" ofrece la posibilidad de cambiar la fuente y el color de los caracteres; - "More graph" permite cambiar de plano factorial; - "Sign of axes" permite cambiar la orientación de los ejes; - "Rank", es útil solamente en el caso de pantallas muy complejas, (lo que no es el caso aquí): este botón convierte las dos coordenadas de la pantalla actual en rangos. Por ejemplo, los n valores de la abscisa son convertidos en números enteros de 1 a n, teniendo el mismo orden que los valores originales. Así las dos distribuciones son uniformes, y los identificadores se revelan ser mucho más legibles (al precio de una distorsión sustancial de la forma de la nube de puntos). Otros gráficos: La sección: "PLANEVIEW with moveable tags" permite desplazar las etiquetas de los puntos del gráfico. Césari – 2018 Página 61 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP IV. Validación Bootstrap Esta herramienta permite validar la posición de las variables sobre el plano factorial. Aparece una ventana "DtmVic - Bootstrap - Validation - Stability - Inférence". Abrir en el directorio el archivo de las replicaciones según el bootstrap elegido. Seleccione el archivo ngus_var_boot.txt para un bootstrap parcial. Responder OK a la ventana "Set of principal coordinates loaded" que se exhibe. Se muestra una ventana “Bootstrap confidence areas”. Seleccione en la sección “Click to Select” las variables cuyas elipses se quieren visualizar. Trasladarlas con Select, a la ventana "selected list”. Césari – 2018 Página 62 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Obtiene una pantalla con el gráfico de las variables activas (si el archivo ngus_var_boot.txt fue cargado), o de las categorías ilustrativas (si el archivo ngus_sup_cat_boot.txt fue cargado). Se exhibe una ventana de zonas de confianza bootstrap. Las elipses son reemplazadas por las envolventes convexas de las replicaciones bootstrap para cada punto. Las envolventes convexas toman en consideración los puntos periféricos, mientras que las elipses son dibujadas utilizando la densidad de las nubes de las replicaciones. Las dos informaciones son complementarias. Césari – 2018 Página 63 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP d. Análisis de componentes principales con FactoMineR Instalando a FactoMineR y su Interfaz Gráfica del Usuario Tiene la posibilidad de instalar FactoMineR4, para realizar análisis multivariado igual que cualquier otro paquete de R o instalar su Interfaz Gráfica de Usuario . Desde la CONSOLA del Entorno R (ver apuntes 01 y 02) 1. Descargar el software R desde el enlace: http://lib.stat.cmu.edu/R/CRAN/. 2. Descargar el paquete FactoMineR5: puede descargar el paquete desde el repositorio de descargas del entorno R CRAN o desde el sitio (FactoMineR: Linux6, Windows7). 3. Cargar FactoMineR en la sesión de R escribiendo la siguiente línea de código: library(FactoMineR) Utilizamos un ejemplo de los datos de Decathlon (Husson y Pag `es 2005). Los datos se refieren al rendimiento de los atletas durante las dos reuniones de atletismo. El conjunto de datos es de 41 filas y 13 columnas: las diez primeras columnas se corresponde con el rendimiento de los atletas para los 10 eventos del decatlón. Las columnas 11 y 12 corresponden respectivamente a la categoría y los puntos obtenidos. En la última columna es una variable categórica que corresponde a la reunión de atletismo (2004 Juegos Olímpicos o Decastar 2004). El código para realizar el PCA desde consola es: R> datos ("decathlon") R> res.pca <- PCA (decatlón, quanti.sup = 11:12, quali.sup = 13) 4 http://factominer.free.fr/ http://dirichlet.mat.puc.cl/web/packages/FactoMineR/index.html 6 http://factominer.free.fr/FactoMineR_1.14.tar.gz 7 http://factominer.free.fr/FactoMineR_1.14.zip 5 Césari – 2018 Página 64 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP De manera predeterminada, la función de PCA proporciona dos gráficas, una de las variables y otra para la los individuos. La Figura 1 muestra el gráfico de variables: variables activas (las variables utilizadas para realizar el PCA) son de color negro, y las variables cuantitativas y complementarias son de color azul. Los individuos pueden colorearse de acuerdo a una variable categórica en el gráfico individual. Para ello, el código se utiliza la siguiente: R> plot (res.pca, Habillage = 13) El Habillage = 13 indica que los individuos son de color de acuerdo a la variable 13. Por lo tanto, los atletas están coloreados de acuerdo a la reunión de atletismo (Figura 2). Los atletas que participaron en el Juego Olímpicos son de color rojo y los atletas que participaron en la Decastar son de color negro. El porcentaje de variabilidad explicada por cada dimensión se da: 32,72% para el primer eje y 17,37% para el segundo. Se puede dibujar un gráfico de barras con los valores propios (Figura 3) con el siguiente código: R> barplot (res.pca $ eig, [1], la principal = "Valores propios", + Names.arg = pasta ("Dim", 1: nRow (res.pca $ eig), sep = "")) Este gráfico permite detectar el número de dimensiones interesantes para la interpretación. La tercera y cuarta dimensión puede ser interesante, por lo que podemos trazar la gráfica de estas dos dimensiones. Para las variables (Figura 4), nosotros utilizará el código: R> plot (res.pca, choix = "Var", axes = c (3, 4), lim.cos2.var = 0) El parámetro choix = "var" indica que se traza la gráfica de las variables, los ejes de parámetros = c (3,4) indica que la gráfica se hace de la dimensión 3 y 4, y el parámetro lim.cos2.var = 0 indica que todas las variables que se extraen (más precisamente, todas las variables que tienen una calidad de proyección superior a 0, esta opción es interesante para mantener sólo las variables y proyecciones). Figura 1: gráfico de las variables (datos de Decathlon): variables complementarias son de color azul Césari – 2018 Figura 2: gráfico de las personas (datos de Decathlon): los individuos son de color de la reunión de atletismo Página 65 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Figura 3: Barplot de los valores propios Figura 4: Gráfico de las variables (datos de Decathlon) para las dimensiones 3 y 4 Los resultados se presentan en una lista con varios objetos con la función de impresión. Los resultados se dan para los individuos, las variables activas, las variables cuantitativas y categóricas complementarias. R> print (res.pca) **Results for the Principal Component Analysis (PCA))** The analysis was done on 41 individuals, described by 13 variables *The results are available in the following objects: nom description 1 "$eig" "eigenvalues" 2 "$var" "results for the variables" 3 "$var$coord" "coordinates of the variables" 4 "$var$cor" "correlations variables - dimensions" 5 "$var$cos2" "cos2 for the variables" Césari – 2018 Página 66 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP 6 "$var$contrib" "contributions of the variables" 7 "$ind" "results for the individuals" 8 "$ind$coord" "coord. for the individuals" 9 "$ind$cos2" "cos2 for the individuals" 10 "$ind$contrib" "contributions of the individuals" 11 "$quanti.sup" "results for the supplementary quantitative variables" 12 "$quanti.sup$coord" "coord. of the supplementary quantitative variables" 13 "$quanti.sup$cor" "correlations supp. quantitative variables - dimensions" 14 "$quali.sup" "results for the supplementary qualitative variables" 15 "$quali.sup$coord" "coord. of the supplementary categories" 16 "$quali.sup$vtest" "v-test of the supplementary categories" 17 "$call" "summary statistics" 18 "$call$centre" "mean for the variables" 19 "$call$ecart.type" "standard error for the variables" 20 "$call$row.w" "weights for the individuals" 21 "$call$col.w" "weights for the variables" Como se mencionó anteriormente, podemos describir cada uno de los componentes principales con la función dimdesc: R> dimdesc (res.pca, proba = 0.2) $Dim.1 $Dim.1$quanti Dim.1 Points 0.9561543 Long.jump 0.7418997 Shot.put 0.6225026 High.jump 0.5719453 Discus 0.5524665 Rank -0.6705104 X400m -0.6796099 X110m.hurdle -0.7462453 X100m -0.7747198 $Dim.1$quali Dim.1 OlympicG 1.429753 Decastar -1.429753 Esta salida contiene la descripción de la primera dimensión de la PCA realizado en los datos de Decathlon. Las variables se mantienen si el valor p es menor que 0,20 (proba = 0,2). La variable que describen mejor que la primera dimensión es la variable de puntos (se trataba de una variable suplementaria), y luego, es la variable X100M que se correlaciona negativamente con la dimensión (las personas que tienen una gran coordinación en el primer eje tiene una X100M tiempo de baja). La primera dimensión es descrita por la competencia variable categórica. La categoría Juegos Olímpicos tiene una coordinación mucho mayor que 0 que muestran que los atletas de esta competencia tienen una mayor coordina a 0 en el primer eje. Desde entonces, la variable apunta está altamente correlacionada con este eje (la correlación es positiva), los atletas de esta competencia hizo un mejor rendimiento. Césari – 2018 Página 67 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP e. Análsis de Componentes Principales con SPSS Estructura social del municipio de Alcobendas. Para ilustrar el uso del software trataremos un primer ejemplo utilizando los datos relativos a un estudio realizado en el municipio de Alcobendas sobre su estructura social8. La matriz de datos Alcobendas.sav9 contiene los datos del estudio que fueron publicados en el anexo de la publicación referenciada. Se trata de un total de 36 secciones censales del ayuntamiento madrileño caracterizadas a partir de 15 variables, si bien la matriz original contenía un total de 27. Para hacer el análisis de componentes principales se utilizan, según el estudio, estas 15 variables de las que presentamos a continuación con el nombre y la identificación que le hemos asignado así como los valores de la media y de la desviación típica. 8 Ayuntamiento de Alcobendas (1992). Vivir en Alcobendas. Estructura social y conflicto. Alcobendas: Ayuntamiento de Alcobendas 9 López-Roldán, P.; Fachelli, S. (2016). Análisis factorial. En P. López-Roldán y S. Fachelli, Metodología de la Investigación Social Cuantitativa. Bellaterra (Cerdanyola del Vallès): Dipòsit Digital de Documents, Universitat Autònoma de Barcelona. Capítulo III.11. 1ª edición. Versión 3 (octubre de 2016). Edición digital: http://ddd.uab.cat/record/142928 Césari – 2018 Página 68 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Los principales resultados de tablas y gráficos que se obtienen del ACP con el software SPSS se presentan a continuación y se exponen las características fundamentales del procedimiento para realizar el análisis a través de los cuadros de diálogo del menú. El procedimiento de análisis factorial corresponde al comando FACTOR y a través del menú se accede por: Analizar / Reducción de dimensiones / Factor. Césari – 2018 Página 69 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP En este caso ya se han pasado las variables que se utilizarán para hacer el análisis (todas menos la Sección Censal que identifica los casos) en el cuadro de Variables. Disponemos inicialmente también de la opción de realizar una selección de casos según el valor de un número entero. A continuación se trata de especificar las diversas opciones de instrucciones de este procedimiento a través de los 5 botones que se presentan: Descriptivos, Extracción, Rotación, Puntuaciones y Opciones. En primer lugar, pediremos las especificaciones de Descriptivos Césari – 2018 Página 70 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Con Descriptivos univariados se obtienen la media, la desviación típica y el número de casos válidos para cada variable. La solución inicial muestra las comunalidades iniciales, los autovalores y el porcentaje de varianza explicada. Las opciones Coeficientes, Niveles de significación y Determinante corresponden a la matriz de correlaciones de las variables. Las opciones de la medida de adecuación muestral de Kaiser-Meyer-Olkin y la prueba de esfericidad de Bartlett nos permiten evaluar las variables del ACP. El KMO evalúa si las correlaciones parciales entre las variables son pequeñas, mientras que el test contrasta si la matriz de correlaciones es la matriz identidad (una diagonal de unos y el resto de ceros) que indicaría que el modelo factorial es inadecuado. Se puede pedir también la inversa de la matriz de correlaciones y la matriz de correlaciones reproducida a partir de las variables factoriales retenidas, donde se muestran igualmente las correlaciones de los residuos (la diferencia entre la correlación observada y la estimada). Finalmente se especifica la matriz de correlaciones (y covarianzas) anti-imagen que contiene los negativos de los coeficientes de correlación (covarianza) parcial. La mayoría de los elementos no diagonales deben ser pequeños, y la información más relevante está en la diagonal donde se muestra la medida de adecuación muestral de cada variable cuyos valores son la contribución individual de cada una al valor global del KMO, por tanto, de forma equivalente al KMO se deben considerar valores suficientemente altos y, en todo caso, superiores a 0,5. Si una variable no cumple con este criterio mínimo deberá reconsiderarse y eliminarse del análisis. A continuación detallaremos el procedimiento de extracción de los factores. En nuestro caso se trata de hacer un análisis factorial de componentes principales, que es el método por defecto ya seleccionado, si bien en el desplegable se puede optar por otros procedimientos de análisis factorial: Césari – 2018 Página 71 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Junto al análisis de componentes principales se encuentran: - Método de mínimos cuadrados no ponderados. Método de extracción de factores que minimiza la suma de los cuadrados de las diferencias entre las matrices de correlación observada y reproducida, ignorando las diagonales. - Método de Mínimos cuadrados generalizados. Método de extracción de factores que minimiza la suma de los cuadrados de las diferencias entre las matrices de correlación observada y reproducida. Las correlaciones se ponderan por el inverso de su exclusividad, de manera que las variables que tengan un valor alto de exclusividad reciban una ponderación menor que aquéllas que tengan un valor bajo de exclusividad. - Método de máxima verosimilitud. Método de extracción factorial que proporciona las estimaciones de los parámetros que con mayor probabilidad ha producido la matriz de correlaciones observada, si la muestra procede de una distribución normal multivariada. Las correlaciones se ponderan por el inverso de la exclusividad de las variables, y se emplea un algoritmo iterativo. - Factorización de ejes principales. Método para la extracción de factores que parte de la matriz de correlaciones original con los cuadrados de los coeficientes de correlación múltiple insertados en la diagonal principal como estimaciones iniciales de las comunalidades. Las cargas factoriales resultantes se utilizan para estimar de nuevo las comunalidades que reemplazan a las estimaciones previas de comunalidad en la diagonal. Las iteraciones continúan hasta que el cambio en las comunalidades, de una iteración a la siguiente, satisfaga el criterio de convergencia para la extracción. - Alfa. Método de extracción factorial que considera a las variables incluidas en el análisis como una muestra del universo de las variables posibles. Este método maximiza el Alfa de Cronbach para los factores. - Factorización imagen. Método para la extracción de factores, desarrollado por Guttman y basado en la teoría de las imágenes. La parte común de una variable, llamada la imagen parcial, se define como su regresión lineal sobre las restantes variables, en lugar de ser una función de los factores hipotéticos. El análisis de componentes principales lo efectuaremos a partir de la matriz de correlaciones, más fácil de interpretar. No obstante esta opción se recomienda especialmente cuando las variables tengan escalas distintas, mientras que la matriz de varianzas y covarianzas se puede emplear para varios grupos con varianza distintas para cada variable. Solicitaremos que genere la representación gráfica de los valores propios o autovalores, es decir, la varianza asociada a cada factor, el llamado Gráfico de Sedimentación, como ayuda visual en la decisión del número de factores a partir de localizar el cambio de pendiente de la curva decreciente que dibuja. Indicaremos también que nos presente los resultados de la solución factorial no rotada (la matriz de componentes o de saturaciones sin rotar, las comunalidades y los autovalores de la solución factorial). El criterio por defecto es que se extraigan los factores o componentes con un valor propio o autovalor mayor de 1 (criterio de Kaiser) como se especifica en Basado en autovalor. Si posteriormente se observa en el análisis que este criterio no se corresponde con una decisión basada en la interpretación de los datos se puede volver a ejecutar precisando el número de factores decidido en la opción Número fijo de factores a extraer. Finalmente se permite especificar el número máximo de pasos que el algoritmo puede seguir para estimar la solución, este valor por defecto no es necesario cambiarlo. El siguiente paso será pedir una rotación de la solución factorial con el objetivo de mejorar la interpretación de los resultados. Césari – 2018 Página 72 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP No es un paso obligado, podemos comparar los resultados con y sin rotación y optar por la que consideremos más adecuada para la interpretación de los resultados. Los métodos disponibles son los siguientes: - Método Varimax. Rotación ortogonal que minimiza el número de variables que tienen saturaciones altas en cada factor. Simplifica la interpretación de los factores. - Criterio Oblimin directo. Rotación oblicua (no ortogonal). Si delta es igual a cero, el valor prdetermnado, las soluciones son las más oblicuas. A medida que delta se va haciendo más negativo, los factores son menos oblicuos. Se puede introducir un número menor o igual que 0,8. - Método Quartimax. Rotación que minimiza el número de factores necesarios para explicar cada variable. Simplifica la interpretación de las variables observadas. - Método Equamax. Método de rotación que es combinación del método varimax, que simplifica los factores, y el método quartimax, que simplifica las variables. Se minimiza tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable. - Rotación Promax. Rotación oblicua que permite que los factores estén correlacionados. Esta rotación se puede calcular más rápidamente que una rotación oblimin directa, por lo que es útil para conjuntos de datos grandes. De los diferentes métodos de rotación escogeremos el procedimiento Varimax. Asimismo indicaremos que nos muestre los datos correspondientes a la solución rotada. Para rotaciones ortogonales esta opción extrae la matriz de configuración rotada y matriz de transformación de factor. Para rotaciones oblicuas, las matrices de correlaciones de factor, estructura y patrón. Solicitaremos los Gráficos de saturaciones, la representación gráfica factorial, expresión gráfica de la matriz de componentes o de saturaciones, que se presenta en dos o tres dimensiones, dependiendo de si hay dos o más de dos componentes retenidos, de las variables originales en el espacio de los factores o componentes a partir de la solución rotada. Césari – 2018 Página 73 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Como hemos pedido la solución rotada y los gráficos de saturaciones nos proporcionan los resultados rotados. En el caso de querer ver representada en primer término la solución no rotada, hay que tener marcada la opción del método Ninguno y pedir los Gráficos de saturaciones. Si optamos por comparar los resultados sin y con rotación veremos que buena parte de los resultados que proporciona el software serán comunes, como todos los relacionados con la matriz de correlaciones, pero otros cambiarán y habrá que analizar cómo lo hacen. En particular, habrá que observar la tabla de varianza explicada, la matriz de saturaciones o de componentes y las representaciones gráficas. Como resultado de un análisis de componentes principales disponemos de tantas variables como factores o componentes hemos retenido el análisis. Si queremos utilizar posteriormente para realizar otros análisis es necesario guardarlas como nuevas variables en la matriz de datos. Esto es lo que hacemos cuando lo especificamos a través de Puntuaciones marcando la opción Guardar como variables. Por defecto elegimos el método de la Regresión; en este caso las puntuaciones tienen media 0 y una varianza igual al cuadrado de la correlación múltiple entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos. Las puntuaciones puede correlacionarse incluso si los factores son ortogonales. Con la opción de puntuaciones de Bartlett éstas tienen media 0 y se minimiza la suma de cuadrados de los factores únicos sobre el rango de las variables. La alternativa del método de Anderson-Rubin es una modificación del método de Bartlett, que asegura la ortogonalidad de los factores estimados, teniendo las puntuaciones resultantes una media 0, una desviación típica de 1 y no correlacionan entre sí. Las variables se guardarán con el nombre que asigna por defecto el SPSS de FAC1_1, FAC2_1,… y así sucesivamente hasta el número total de componentes retenidos en relación al número de análisis realizado, al inicio el 1 . Finalmente dentro de Opciones consideraremos la exclusión de los valores perdidos (missing values) según lista, alternativamente si optamos por excluir según pareja excluye los perdidos de las parejas de variables que no puede calcular las correlaciones, y si optamos por reemplazar sustituye el valor perdido por la media. Césari – 2018 Página 74 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Especificaremos que los coeficientes se presenten por orden de tamaño lo que nos facilitará la lectura de los factores de carga de la matriz de saturaciones o de componentes. Y no contemplaremos que se supriman los coeficientes cuyos valores absolutos sean menores que un valor especificado. La mayor parte de las posibilidades que permite este procedimiento se pueden realizar a través del menú como hemos visto. Pero la utilización del lenguaje de comandos nos permitiría además otras posibilidades no proporcionadas en el cuadro de diálogo y solamente ejecutables en la ventana de sintaxis como: especificar gráficos factoriales individuales, especificar el nombre de las variables factoriales que se quieren guardar, especificar el número de puntuaciones factoriales que se van a guardar, especificar valores diagonales, especificar los criterios de convergencia para la iteración durante la extracción, guardar matrices de correlación o matrices de carga factorial para su análisis posterior y leer y analizar matrices de correlación o matrices de carga factorial.. En particular resulta una necesidad ejecutar la sintaxis para obtener gráficos bidimensionales si la solución factorial comporta 3 o más factores, pues los gráficos en tres dimensiones son más difíciles de leer. En este caso después de preparar la ejecución por el menú se puede optar por Pegar la sintaxis y añadir a la línea de la instrucción del comando FACTOR donde se especifica el gráfico: /PLOT EIGEN ROTATION las parejas de dimensiones. Por ejemplo, en el caso de 3 factores, las parejas (1,2) (1,3), de la siguiente forma: /PLOT EIGEN ROTATION (1,2) (1,3) Los resultados de las distintas especificaciones que hemos detallado se presentan seguidamente. De la información derivada de la matriz de correlaciones se concluye que reunimos las condiciones para una adecuada aplicación de la técnica y para la interpretación de los resultados. El KMO es, en la terminología de Kaiser, meritorio, de 0,8 redondeando a un decimal. Y todas las medidas de adecuación muestral de las variables originales que se observan en la diagonal de la matriz de correlaciones anti-imagen son aceptables. Césari – 2018 Página 75 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Césari – 2018 Página 76 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP La tabla de comunalidades nos presenta la información de qué parte de cada variable se conserva después de la extracción de los factores y de retener, como veremos, 2 factores. Esto nos indica qué variables están mejor representadas en la información retenidas y el grado en que serán más o menos protagonistas en la configuración del contenido de los factores. Así, por ejemplo, la variable sinest (% sin estudios) con un valor de 0,938 marcará de forma notable el carácter de los factores, mientras que el papel de la variable tactm (la tasa de actividad femenina) con un 0,642 será menos importante. En el análisis se toma la decisión de retener dos factores pues se cumplen simultáneamente diversos criterios: con los dos factores se alcanza el 70% de la varianza explicada (llegando al 81,596%), corresponden a valores propios o autovalores por encima de 1 y, según el gráfico de sedimentación que se presenta seguidamente, se corresponde con el cambio de pendiente de la curva (donde está el codo de la curva). No obstante, el primer factor es el principal y acumula la mayor parte de la varianza, casi llegando al 70% él solo, por ello se puede concluir que las diferencias entre las secciones censales del municipio madrileño se expresan fundamentalmente con la primera dimensión, introduciendo la segunda un matiz de menor relevancia. Césari – 2018 Página 77 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Las tablas siguientes con la matriz de saturaciones o de componentes, antes y después de la rotación varimax, nos permite dar contenido e interpretar los factores de diferenciación social del municipio a partir de las variables originales consideradas. Césari – 2018 Página 78 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Esta información se representa y se interpreta igualmente a través del gráfico de dispersión entre los factores y las variables originales (gráficos factoriales o gráficos de componentes). Se presenta un gráfico antes de la rotación y otro después de rotar. Césari – 2018 Página 79 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Como resultado de la rotación, la varianza total explicada, que permanece constante (81,596%), se redistribuye dando mayor peso al segundo factor o componente, pasando de un 13,5% a un 24,7%. En la matriz de componente y gráficamente se observa como las variables ppobjo y tactm, que al inicio están mayormente proyectadas sobre el primer eje, ahora, tras la rotación, se acercan el segundo eje y se convierten en características más marcadas para dar cuenta de la segunda dimensión. No obstante el contenido de ambos factores no se altera en lo fundamental. La primera componente o factor, el que corresponde al eje horizontal, con un 57% de varianza explicada, opone niveles ocupacionales, educativos y de actividad para diferenciar las secciones, a las derecha del gráfico (el polo positivo de la dimensión) que se caracterizan por un perfil de predominio de ocupaciones bajas, eventualidad contractual, desempleo, bajos niveles educativos y un alto porcentaje de población inmigrante. En el otro extremo de la dimensión. A la izquierda, se ubica el perfil contrario, la carencia de los rasgos que acabamos de citar, y donde aparecen como perfil de este polo el alto porcentaje de trabajadores que son directores o técnicos, con altos niveles educativos y donde es mayor la tasa de actividad femenina. Se trata, por tanto, de un factor de desigualdad socioprofesional y educativa que divide socialmente al territorio, un división que podemos etiquetar igualmente de estratificación social al diferenciar los perfiles de clase trabajadores frente a los de clase media. El segundo factor, el que corresponde al eje vertical, con un 25% de varianza explicada, introduce una segunda dimensión de diferenciación, independiente de la anterior, donde se contraponen dos rasgos de la actividad femenina: la proporción de mujeres ocupadas en el trabajo doméstico (zona superior) frente a la proporción de mujeres ocupadas como administrativas (zona inferior). Se trata de una diferenciación afecta tanto a la derecha como a la izquierda de la primera dimensión, por tanto, es una división presente tanto en las secciones censales de niveles socioprofesionales altos y bajos que los dividen internamente. Para acabar de ver el sentido de esta división será importante analizar la distribución de las unidades en este espacio social construido. En el próximo capítulo de clasificación retomaremos esta cuestión. Pero una primera visualización de lo que encontraremos se puede presentar a partir del análisis factorial de componentes principales. Al ejecutar el ACP hemos guardado la variables factoriales. Si con las dos variables factoriales realizamos un gráfico de dispersión obtenemos, tanto en el caso sin rotar como rotado, la distribución de las 36 secciones censales de Alcobendas. Observamos primero como cuatro secciones de Alcobendas (de la 33 a la 36) se identifican con el perfil socioprofesional alto que hemos descrito frente al resto del municipio, especialmente en el primer gráfico. Como resultado de la rotación, las secciones censales del lado derecho más próximas a este grupo social más acomodado se ven proyectadas más claramente hacia la izquierda de la primera dimensión mientras las secciones 35 y 36 lo hacen sobre la zona superior de la segunda dimensión. Esto es, la primera dimensión deja de mostrar una realidad tan polarizada, y marca ahora un mayor continuum de estratificación social el perfil de clase trabajadora y de clase media definido por los extremos. Por su parte, la segunda dimensión diferencia más claramente las secciones entre las que se da una mayor proporción de mujeres ocupadas en servicio doméstico y las que lo tienen de ocupadas como administrativas, rasgo que afecta sobre todo a las secciones de perfil más acomodado, especialmente las secciones 35 y 36 por un lado, y las secciones 23, 24, 26, 27, 30 y 31 por otro. Césari – 2018 Página 80 Anexo 1 N03 Taller Práctico sobre Análisis de Tablas Continuas con ACP Césari – 2018 Página 81