Subido por Matilde Cesari

ACP

Anuncio
Anexos N03
Actividad cuyo propósito es proponer a los participantes un trabajo grupal en
torno a un tópico específico, crea un entorno muy propicio para compartir sus
conocimientos con los demás compañeros de taller y fomentar el aprendizaje.
Taller Práctico sobre Estudio de
Tablas Continuas con el Análisis de
Componentes Principales –
Relaciones Lineales
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
INDICE
ABEXO 1 ACP
a. Análisis de componentes principales con Xlstat
I. Análisis De Componentes Principales (ACP): Gastos publicidad a Europa
II. Preparación del cartografiado
III. Interpretación
IV. Adición de observaciones ilustrativas y variables suplementarias
b. Análisis de componentes principales con SPAD
I. Análisis De Componentes Principales (ACP): datos Contaminación
II. Visualizar los resultados del análisis factorial en SPAD
III. Representación gráfica de planos factoriales en SPAD
2
20
14
16
17
19
20
26
28
IV. Descripción De Factores (DEFAC)
36
c. Análisis de componentes principales con DTM
38
I. Importación de Datos: datos en "formato CSV - Excel"
II. Análisis De Componentes Principales (ACP): Estructura social del
municipio de Alcobendas
III. Visualización de los resultados
IV. Validación Bootstrap
39
50
58
62
d. Análisis de componentes principales con R - FactoMineR
64
e. Análsis de Componentes Principales con SPSS
68
Césari – 2018
Página 1
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
ANEXO 1 ACP
a. Análisis de componentes principales con Xlstat
XLSTAT es una completa solución de estadística y análisis de datos para Microsoft Excel.
Tomando como interfaz de entrada y salida las hojas de cálculo Excel, XLSTAT integra una
completa librería de funciones estadísticas y matemáticas para el análisis de datos, tanto
financieros como científicos. Además, añade utilidades para Excel con el fin de facilitar la
manipulación de los datos bajo Excel. Todas las herramientas son accesibles a partir de un
mismo menú, que es añadido a la barra de menús de Excel.
I. ACP - Gastos de publicidad a Europa
En la siguiente tabla se muestra la repartición (en porcentajes) de los gastos publicitarios
según el medio de comunicación de 16 países de Europa. Los datos corresponden al año
1990 y se extrajeron de la revista Press Landscape update & Eur. Direct Marketing NTC,
1991.
Los datos se encuentran
en el archivo
PublicidadEuropa.xls
Abrir la planilla de MS
Excel con los datos.
Tras activar XLSTAT, seleccione el comando XLSTAT / Análisis de datos / Análisis de
componentes principales, o haga clic en el botón correspondiente de la barra "Análisis de
datos" (ver a continuación).
Césari – 2018
Página 2
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Aparece el cuadro de diálogo del análisis de componentes principales.
Seleccione los datos en la hoja de Excel. Hay varias manera de seleccionar los datos en los
cuadros de diálogo XLSTAT (ver tutorial on-line).
Donde dice “Tabla observaciones/variables” debemos ingresar las “variables Continuas
activas”, es decir los datos activos.
Presionamos el botón a la derecha o directamente nos vamos a la hoja de Excel.
Por defecto (a la derecha) hemos indicado tildando en “Etiquetas de las Variables” que
parte de esta selección incluye una fila (la primera) con las etiquetas que identifican a las
variables.
Césari – 2018
Página 3
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
En el ejemplo estudiado, los datos aparecen desde la primer fila/columna de la hoja.
Siempre que debajo de la tabla no existan datos, podemos seleccionar las variables
directamente sobre el identificador alfabético de columna de la hoja de Excel, o seleccionar
a mano con el Mouse los datos incluyendo la primer fila con etiquetas variable, pero sin
incluir el identificador de ciudades (observaciones). A continuación podemos ver en líneas
punteadas la selección.
o
Seleccionamos las etiquetas para identificar las ciudades a la derecha del cuadro de diálogo,
luego de tildar a opción “Etiquetas de las Observaciones”.
Césari – 2018
Página 4
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
El tipo de ACP será la matriz de correlaciones de Pearson, que corresponde a los
coeficientes de correlación clásicos. Las matrices de covarianza asignan mayor peso a las
variables con varianzas más altas. Las correlaciones de Spearman pueden resultar más
adecuadas cuando se ejecuta un ACP sobre variables con distribuciones diferentes. Las
correlaciones policóricas son adecuadas para variables ordinales.
Por defecto el tipo de ACP es Pearson (n), que es el algoritmo que hemos visto en la teoría y
los resultados se visualizará en una nueva hoja que se crea a la derecha de la hoja con los
datos.
En la pestaña “Opciones” podemos especificar algunas opciones de análisis. Podríamos
realizar un análisis normalizado o no normalizado para que el espacio factorial sea
ortonormal o bien ortogonal, respectivamente. En la mayoría de casos se utiliza la
primera opción para igualar las escalas en que están medidas las variables. También
podemos indicar cuantos ejes factoriales se desean conservar (como máximo tantos como
variables continuas activas), y cuantos queremos editar en los resultados de salida. Las
opciones por defecto son en la mayoría de casos suficientes
La pestaña “Resultados” nos permite elegir los resultados que deseamos que genere y el
nivel de significación para las pruebas de esfericidad del ACP.
Césari – 2018
Página 5
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
En la pestaña Resultados, elegimos activar la opción de mostrar las correlaciones
significativas en negrita (Significación de la prueba). Los cosenos cuadrados permitirán
asignar el tamaño a los puntos para representar el nivel de significación en la
representación en el plano. Las coordenadas permitirán rehacer los planos a través de las
funciones de visualización “scatterplot”, sin tener que volver a aplicar el algoritmo.
La pestaña “Gráficos” permite configurar qué y cómo vamos a visualizar el Biplot.
Césari – 2018
Página 6
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
En la pestaña Gráficos, con el fin de mostrar las etiquetas de todos los gráficos, y para
mostrar todas las observaciones (gráficos y biplots de las observaciones), la opción de
filtrado queda sin marcar. Si hay una gran cantidad de datos, la presentación de etiquetas
podría enlentecer la presentación global de los resultados. El ver todas las observaciones
podría hacer que los resultados ilegibles. En estos casos, se recomienda filtrar las
observaciones a mostrar.
Una vez parametrizado, seleccionamos OK para ejecutar el algoritmo. Tras hacer clic en el
botón, comienzan los cálculos. Se le pedirá que confirme el número de filas y columnas.
Nota: Este mensaje puede ser pasado por algo dejando sin seleccionar la opción “Pedir
confirmación de selecciones” en el panel de opciones de XLSTAT.
A continuación debe confirmar los ejes en los que desea mostrar los gráficos.
La primer ventana (informativa) que surge
presenta las opciones para la visualización de
los planos, este cuadro de diálogo visualiza a
través de un gráfico de barra la información
sobre los valores propios.
Observamos que los dos primeros ejes
factoriales conservan un 70,70% de la inercia.
Presionamos “Terminar” una vez seleccionado el plano conformado por los dos primeros
factores. Podemos ver todos los resultados en la hoja etiquetada “ACP”.
El primer resultado interesante a analizar es la matriz de las correlaciones.
Para analizar la colinealidad existente entre las variables que se introducirán al modelo, y
tener un panorama general sobre el estado de la multicolinealidad, podemos observar la
matriz de correlación.
Césari – 2018
Página 7
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
El valor del coeficiente de correlación varía entre -1.00 y +1.00. Ambos extremos
representan relaciones perfectas, y 0.00 representa la ausencia de asociación. Cuanto más
cercano sea a cero el coeficiente de correlación, más débil será la asociación.
Independiente si hay o no relación lineal, en negrita se marca el nivel de significación
estadística con un error del 5%.
Con la intención de hacer una adecuada interpretación de los índices correlación, se hará
uso de la clasificación que aparece en figura:
Categorías del coeficiente de correlación
Para el diagnóstico de la multicolinealidad de las variables que ingresaremos a los modelos,
además de interpretar el determinante de la matriz de correlaciones, trabajaremos con el
test de esfericidad de Bartlett y la prueba de Kaiser-Meyer-Olkin (KMO).
Para comprobar que las correlaciones entre las variables son distintas de cero de modo
significativo, se utiliza la prueba de esfericidad de Bartlett. Si las variables están
correlacionadas hay muchos valores altos en valor absoluto fuera de la diagonal principal
de la matriz de correlaciones, además, el determinante es menor que 1 (el máximo valor
del determinante es 1 si las variables están incorrelacionadas). Lo que nos interesa para
efectos de buscar multicolinealidad, por lo tanto, es rechazar la hipótesis nula, y aceptar la
hipótesis alternativa de que la matriz es distinta a una matriz de identidad, y por ende hay
un nivel suficiente de multicolinealidad entre las variables. Este procedimiento es
particularmente útil cuando el tamaño muestral es pequeño, como en el ejemplo.
El índice KMO compara la magnitud de los coeficientes de correlación observados con la
magnitud de los coeficientes de correlación parcial. Este estadístico varía entre 0 y 1,
cuanto más cerca de 1 tenga el valor obtenido del test KMO, implica que la relación entre
las variables es alta; y, en consecuencia, menos apropiado es realizar un Análisis Factorial.
Kaiser‐Meyer‐Olkin para realizar un Análisis Factorial, proponen: KMO ≥ 0,75 ⇒ Bien,
KMO ≥ 0, 5 ⇒ Aceptable y KMO < 0, 5 ⇒ Inaceptable.
Si KMO es menor a 0.5, hay que entrar a considerar cambiar de variables o de técnica, ya
que es muy poco probable que funciones los modelos sin el cumplimiento de esta prueba.
Césari – 2018
Página 8
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
La experiencia práctica aconseja que es precipitado tomar el índice KMO como única
medida de adecuación de la muestra a las hipótesis del modelo de Análisis Factorial, sobre
todo si hay un número pequeño de variables consideradas.
Nuestro ejemplo es una muestra de menos de 50 observaciones y la utilizamos como
ejemplo para introducir el uso de la herramienta Xlstat, es por esto que no tendremos en
cuenta los valores tan bajos obtenidos.
La siguiente tabla y su gráfico correspondiente se relacionan con un objeto matemático, los
valores propios (eigenvalues), es decir, la varianza asociada a cada eje; que reflejan la
calidad de la proyección desde la tabla inicial de N dimensiones (N = en este ejemplo) a
un menor número de dimensiones.
Se observa cómo estos valores que corresponden a cada factor o componente están
ordenados de forma decreciente. La suma de todos los valores propios es igual a 6, el
número de variables, este total es el resultado de sumar la variabilidad acumulada por la
importancia decreciente de cada factor
Histograma de valores propios
Los valores que se
obtienen dan la
importancia relativa y
decreciente de los
factores o
componentes
En nuestro caso,
observamos que el
primer valor propio
vale 2,7 representa
45% de la variabilidad.
Eso significa que si
representamos los
datos en un sólo eje,
tendremos entonces
siempre 45% de la
variabilidad total que
será preservada.
Cada valor propio corresponde a un factor, y cada factor a una dimensión. Un factor es una
combinación lineal de las variables iniciales, y todos los factores son no-correlacionados (r =
0). Los valores propios y los factores correspondientes están ordenados (en orden
descendente) en función de la cantidad de la variabilidad inicial que representan (convertidos
a %).
Césari – 2018
Página 9
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Para determinar el número de componentes a retener:
1. Considerar todos aquellos factores que tienen un valor propio superior a 1, supone
considerar un factor que mejora la varianza proporcionada en un inicio para cada variable
sola.
2. Considerar el número de ejes que acumulan en torno al 70% de la varianza total,
cantidad que se considera equilibrada entre la pérdida de información (del 30%) y la
ganancia en significación (el 70% retiene los principales factores de variabilidad).
3. Representar gráficamente los distintos factores y los valores propios asociados y
observar el comportamiento de la curva resultante (gráfico de sedimentación). El número
de ejes a retener viene determinado por el cambio de pendiente de la curva, donde está
presente el cambio de continuidad de la curva
El primer mapa se denomina círculo de correlaciones (ver más abajo, el mapa de los ejes F1
y F2). Muestra una proyección de las variables iniciales en el espacio factorial.
El primer gráfico que se muestra el Biplot de correlación (PLANO vectorial de las
VARIABLES). Corresponde a una proyección de las variables iniciales sobre un plano de dos
dimensiones constituido por los dos primeros factores.
Este grafico podemos editarlo con las herramientas
de MS Excel y de Xlstat, eliminado los datos no
relevantes del mismo, cambiando color, fuente, y
tamaño según coseno cuadrando.
Césari – 2018
Página 10
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Las flechas deben interpretarse como direcciones de crecimiento de las variables en el
espacio factorial. Observamos pues que los países que utilizan mucha publicidad en
Televisión también utilizan la Radio y muy poco el Cine. Por el otro lado los países que
utilizan Revistas como medio, suelen también utilizar más recursos en publicidad Exterior.
El ángulo entre variables nos indica la correlación entre las mismas. Las variables más
correlacionas entre sí mostrarán un ángulo pequeño y las menores un ángulo cercano a los
noventa grados. Las variables correlacionadas negativamente tendrán direcciones opuestas
en el plano. Dos variables están relacionadas positivamente si su ángulo es de casi 0º
(paralelas), dos variables están relacionadas de manera negativa si su ángulo es de casi
180º (opuestas) y dos variables no están asociadas si su ángulo es cercano a 90º
(perpendicular).
El centro representa la media de todas las variables, a partir de este los vectores crecen en
un sentido y decrecen en el sentido opuesto.
El círculo de correlaciones es útil para interpretar el significado de los ejes. Las variables
bien representadas en el plano se aproximan al círculo de radio 1. Para una variable bien
representada en el plano un ángulo pequeño con el eje indica una buena representación
con él.
Considerando que en el plano principal se encuentran las proyecciones de los vectores,
cuanto más “variable” sea una variable mayor será la magnitud de su variación (suma de
cuadrados) y más largo será el vector representativo de la misma. Se identifica, así, la
variación de las variables con la longitud de los vectores proyectados. Cuando dos variables
están lejos del centro, tenemos varias posibilidades: si están próximas una a la otra, están
positivamente correlacionadas (i.e., r está próximo a 1); si son ortogonales, no están
correlacionadas (i.e., r está próximo a 0); si están en lados opuestos con respecto al centro
están negativamente correlacionadas (i.e., r está próximo a -1).
Cuando las variables están próximas al centro, alguna información es transportada a otros
ejes, y cualquier interpretación podría resultar peligrosa. Esto se puede confirmar ya sea
observando la matriz de correlaciones, o examinando el círculo de correlación en los ejes
F1 y F3.
Para el caso de dos ejes factoriales, la comunalidad se interpreta como la longitud del
vector-variable en el espacio de las componentes. Una comunalidad alta implica un
alejamiento del centro de coordenadas, una comunalidad baja significa una ubicación
cercana al centro. Mientras más cerca del centro (vector pequeño) la variable no es
relevante y si la eliminamos y volvemos a realizar el ACP, el plano no cambia. Cuando las
variables están relativamente cercas del centro del gráfico, entonces cualquiera
interpretación es arriesgada, y es necesario referirse a la matriz de correlaciones o a otros
planos factoriales para interpretar los resultados.
En nuestro ejemplo, podemos deducir del gráfico que las variables Revista y Exterior están
relacionadas positivamente, cuando una crece la otra tiende a crecer, TV y Radio también
están relacionadas positivamente, pero Cine y Diarios no están relacionados, Cine está
relacionado de manera opuesta con Radio, cuando una crece la otra tiende a decrecer.
El círculo de las correlaciones es también útil para interpretar la significación de los ejes. En
nuestro caso, el eje F1 es claramente vinculado al Cine, el eje F2 es esencialmente vinculado
a los Diarios.
Césari – 2018
Página 11
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Para confirmar el hecho que una variable es fuertemente vinculada a un factor, debe
consultar la tabla de los cosenos: mientras más elevado es el coseno (en valor absoluto),
más vinculada está la variable al factor. Mientras más cerca está el coseno de cero, menos
vinculada está la variable al eje.
En nuestro caso, vemos que
en lo que se refiere a la
Radio, será mejor
interpretada en los ejes
F1/F3.
En las siguientes tablas, aparecen los números que permiten construir el primer plano
factorial de las variables: las correlaciones entre los factores y las variables (TV y Revistas
son las más correlacionadas con el primer eje) y los vectores propios (lectura vertical de
los antiguos ejes unitarios) que dan las direcciones de los nuevos ejes sobre el sistema de
representación original de la nube de individuos.
Los antiguos ejes unitarios (vectores propios) leídos de forma horizontal permiten ubicar
los ejes de las variables en el plano de los individuos. Representan la varianza incorporada
en cada eje o varianza explicada por el factor o componente.
Los factores de carga son los coeficientes de correlación entre las variables originales y los
factores. Cuanto más elevado es el coeficiente más relevante es la variable para configurar
el factor y también mayor será su proyección sobre el eje. Los coeficientes son también las
coordenadas de las variables originales en el espacio de las variables factoriales.
Obtendremos así los gráficos factoriales que son una ayuda muy útil y visual para la
interpretación del contenido de los factores obtenidos en el análisis.
Contribución, Correlaciones con los ejes y Vectores propios de variables
Césari – 2018
Página 12
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Los valores de comunalidad de cada variable, son la parte de cada variable explicada por el
conjunto de los factores. En este sentido se interpreta que los factores de carga son los
coeficientes resultantes de una ecuación de regresión múltiple, donde la variable original
sería la variable dependiente y los factores las variable independientes. Como estos
factores están incorrelacionados, los coeficientes no dependerán el uno del otro y
representarán las contribuciones únicas de cada factor o la correlación entre ambos, factor
y variable. De esta forma podemos calcular la proporción de varianza de cada variable
explicada por el modelo de m factores. Las comunalidades y su distribución entre los
factores son interesantes desde el punto de vista de la interpretación, pues es la parte de la
contribución de cada variable a estructurar el sistema de 2 factores. En consecuencia,
comunalidades altas tienen importancia en la "creación" de los dos factores. Variables con
comunalidad baja contribuyen poco a forma o estructurar el espacio, contribuyen poco a
dispersar la nube de puntos
El siguiente gráfico nos permite examinar las observaciones en un mapa bidimensional, así
como identificar tendencias. El gráfico a continuación corresponde a Bilplot de distancias
(PLANO escalar de las OBSERVACIONES). Podemos observar qué países están bien
representados en los ejes, a partir de las contribuciones y los cosenos cuadrados.
Las observaciones cercanas son
casos que presentan distribuciones
parecidas en la mayoría de las
variables (normal).
Los países cercanos son países que
presentan distribuciones parecidas
en el reparto de los gastos
publicitarios. Observamos que podes
pueden diferenciar claramente los
países latinos de los países
anglosajones
Césari – 2018
Página 13
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
II. Preparación del cartografiado
Estas técnicas “biplot” permiten la representación de los casos y las variables, de forma
conjunta, en el subespacio factorial de dimensión reducida. Muy a menudo se suelen
interpretar estos gráficos diferenciando en los cuatro cuadrantes. Los países más alejados
del origen de coordenadas son los países que presentan un perfil más alejado del
perfil medio.
Desde las opciones de gráfico de Excel, eliminamos la visualización e las escalas.
Las proyecciones sobre los ejes y sobre los planos factoriales serán muy ‘buenas’
para algunos puntos pero también pueden ser de ‘mala’ calidad para otros puntos. Se
requiere entonces de un índice que ponga en evidencia este hecho, que se denomina
coseno cuadrado o contribución relativa.
Césari – 2018
Página 14
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
En este gráfico podríamos concluir lo
siguiente: Portugal , Grecia, Italia y
España tienden a dedicar más
recursos publicitarios en televisión y
radio y muy poco en el cine. Francia y
Bélgica dedican más recursos en
revistas y outdoor. Por el otro lado,
países nórdicos como Suiza,
Noruega, Suecia, Dinamarca,
Finlandia y Irlanda destinan más
recursos a los diarios. Suiza, Holanda
y Alemania en concreto dedican más
recursos al cine
Por lo tanto puede resultar interesante ponderar los puntos a partir de la
contribución de cada país en el espacio factorial creado. Para ello debemos ejecutar las
opciones de Visualización que nos permite realizar esta opción y muchas otras, como
“zoon” del gráfico, tamaño de símbolos.
A partir de la suma del coseno cuadrado de los dos primeros factores podemos representar
con el tamaño la importancia del punto y de la variable en su representación en este plano,
es decir nivel de significación. De esta manera podemos corregir errores de proyección.
Para esto selecciono la serie de puntos de las observciones e ingreso en el menú
XLSTAT/Visualiación/EasyPoint”. En el cuadro de diálogo le indicamos la columna con la
suma de los cosenos cuadrados. Hacemos lo mismo para las variables.
Césari – 2018
Página 15
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Para cambiar las escalas recortando los mínimos y máximos podemos hacer un “zoon” y
visualizar mejor la nube de individuos. Seleccionamos el grafico e ingresamos en
“Visualización/AxesZoomer”.
Aparece un cuadro de diálogo donde podemos probar la escalas, cuando esté conforme
precione “Terminar”.
III. Interpretación
Muy a menudo se suelen interpretar estos gráficos diferenciando en los cuatro cuadrantes.
Los lugares más alejados del origen de coordenadas son los casos que presentan un
perfil más alejado del perfil medio.
Los criterios de interpretación de la representación se ajustan a las normas siguientes:
-
-
-
Los vectores representativos de las variables identifican con su medida la dispersión de las
mismas, estando por ello situados sus extremos sobre la hiperesfera de radio unidad en el caso
de un ACP estandarizado. Este último modelo es especialmente interesante, ya que el producto
escalar de dos vectores “variables” se corresponde con su coeficiente de correlación o coseno del
ángulo que forman y, la proyección de cada vector “variable” sobre un eje, mide la correlación
existente entre dicha variable y la correspondiente componente principal.
En el Análisis de Componentes Principales (y técnicas Biplots derivadas), la interpretación
correspondiente a variables (relaciones entre ellas y con las componentes principales) es distinta
de la obtenida para individuos (comportamientos similares en función de la distancia existente
entre ellos). De forma general la relación entre variables se determinará mediante ángulos y la
existente entre casos mediante distancias.
Si proyectamos todos los puntos de cada observación sobre una de las variables tenemos los
individuos ordenados de mayor a menos en función de la misma.
Césari – 2018
Página 16
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
-
-
El coseno cuadrado es una medida de la calidad de representación de un punto en un
subespacios factorial dado (un eje, generalmente). Para un eje α, es el coseno del ´ángulo que
forma la distancia al cuadrado de un individuo al centro de gravedad y la proyección al cuadrado
del individuo sobre ese eje (o distancia de la proyección sobre el eje α al mismo centro)
La contribución de un individuo a la formación de un eje es la parte de la varianza del mismo
debida a ese individuo.
La contribución de un punto variable (extremo máximo del vector) a la formación de un eje es la
parte de la varianza del mismo debida a esa variable.
IV. Adición de observaciones ilustrativas y variables suplementarias al ACP
Es posible proyectar elementos suplementarios o ilustrativos (individuos, variables
continuas y variables nominales) sobre los planos construidos en el ACP. Los elementos
suplementarios permiten explorar asociaciones con los elementos activos o enriquecer los
análisis. Los elementos que participan en el análisis se denominan activos, en el caso del
ACP son variables continuas activas e individuos activos.
Individuos suplementarios. Un individuo que tiene los valores para todas las variables
activas pero que no participó en el ACP se puede proyectar sobre los ejes obtenidos de la
misma forma que los individuos activos. Mediante este procedimiento se puede posicionar
un nuevo individuo con respecto a todos los individuos activos para responder a objetivos
preestablecidos, por ejemplo explorar su posible discriminación entre grupos.
Es posible añadir variables suplementarias al ACP tras haber realizado los cálculos, lo
que puede ayudar a aumentar la calidad de la interpretación. En XLSTAT, se pueden
seleccionar estas variables en la pestaña Datos suplementarios del cuadro de diálogo del
ACP.
Las variables suplementarias pueden dividirse en dos tipos:
- Variables suplementarias cualitativas (nominales): permiten colorear las observaciones
del mapa según la categoría a la que pertenecen. Como una variable nominal representa
un partición (división en clases) de los individuos lo que se proyecta son los centros de
gravedad de cada subconjunto asociado a una modalidad.
Césari – 2018
Página 17
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
- Variables suplementarias cuantitativas: en le ACP normado la proyección de una variable
continua ilustrativa equivale a su correlación con el eje, lo que da la clave para su
interpretación. Estas variables se pueden añadir para ver cómo se correlacionan con el
grupo de variables utilizadas para construir el ACP. En el caso en que el ACP se lleva a
cabo antes de una regresión, se pueden utilizar las variables explicativas para construir el
ACP, en tanto que la variable dependiente se puede añadir como variable suplementaria.
Esto puede ayudar a detectar más o menos cuáles de las variables explicativas podrían
tener los efectos más fuertes sobre la variable dependiente.
Césari – 2018
Página 18
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
b. Análisis de componentes principales con SPAD
Para ilustrar el uso del software SPAD (Sisteme Protable pur 1`Analyses des Données)
trataremos un ejemplo utilizando los datos relativos al estudio de contaminación.
La matriz de datos Contaminacion.sba contiene los datos. Se trata de un total de 60
observaciones, a partir de 20 Variables. Las variables se presentan a continuación con el
nombre, así como los valores de la media y de la desviación típica.
Los principales resultados de tablas y gráficos que se obtienen del ACP con el software
Spad (Sisteme Protable pur 1`Analyses des Données) se presentan a continuación y se
exponen las características fundamentales del procedimiento para realizar el análisis a
través de los cuadros de diálogo del menú.
El programa incluye utilidades propias de un sistema de software general tales como:
selección de variables y casos, recodificación de datos, utilización de ficheras de trabajo y
auxiliares, uso de etiquetas para la identificación de las variables, tabulación y
representaciones gráficas de los resultados. Pero sin lugar a dudas lo más interesante son
una serie de análisis exploratorios multidimensionales basados en las técnicas desarrolladas
a partir de los trabajos de Benzecri (1980, 19821). Las dos características más destacables
de este Software son la potencia y especificidad de métodos en el tratamiento de
información textual junto con la concordancia de los métodos multidimensionales
reproducidos con trabajos de importante base teórica.
1
J. P. BENZECRI ET Co^tr. ( 1980). "Linguistique et Lexicvlogie, Pratique de 1'Analyse des Donnés" Tome III Dunod - París.
J. P. BENZECRI (1982). "Construction d'une Classification Ascendante Hiérarchique par la Recherche en Chaine
des Voisins Réciproques" - Cahiers de 1'Analyse des Données, Vol. VII, No. 2, pp. 209-218
Césari – 2018
Página 19
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
El empleo de varios tipos de técnicas combinadas (factorización y clasificación) de forma
muy fácil es lo que da al paquete unas grandes posibilidades de análisis.
I. Análisis De Componentes Principales (ACP) sobre datos de Contaminación
El análisis de componentes principales se utiliza cuando la matriz de datos está compuesta
por un conjunto de variables continuas (activas). Igualmente puede ser de nuestro interés
utilizar variables ilustrativas (continuas o categóricas) que no participen en la creación de
los ejes pero que estemos interesados en proyectarlas en el espacio factorial creado.
Los datos se encuentran en el archivo Contaminación.sba. Para realizar un análisis de
componentes principales debemos crear una filière, indicar el archivo de datos y encadenar
el método COPRI.
Procedemos arrastrar
el icono hasta el icono
vacío.
Esta acción definirá un método dentro de la
filière con este aspecto:
Para parametrizar el método basta con realizar un doble clic sobre el icono COPRI.
Se nos abrirá una ventana de parametrización donde debemos indicarle las variables
continuas activas y suplementarias, y categóricas ilustrativas que queremos analizar.
Césari – 2018
Página 20
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Césari – 2018
Página 21
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Podemos seleccionar las variables una por una o bien todas a la vez.
Césari – 2018
Página 22
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
En las otras subventanas podríamos definir con que subgrupo de individuos desearíamos
realizara los análisis (Individus), establecer una variable de ponderación (Pondération), o
segmentar el archivo de datos según variables categóricas (Tris édités par modalités).
Césari – 2018
Página 23
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Podemos calcular la ponderación de la Variable cualitativa, de manera de equilibrar los dos
conjuntos Alta y Baja.
En la subventana Paramètres podemos especificar algunas opciones de análisis. Podríamos
realizar un análisis normée o non normée para que el espacio factorial sea ortonormal o
bien ortogonal, respectivamente. En la mayoría de casos se utiliza la primera opción para
igualar las escalas en que están medidas las variables. También podemos indicar cuantos
ejes factoriales se desean conservar (como máximo tantos como variables continuas
activas), y cuantos queremos editar en los resultados de salida. Las opciones por defecto
son en la mayoría de casos suficientes.
Césari – 2018
Página 24
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Por tanto, cliqueraremos sobre el botón OK. De esta forma, la filière ya estará
parametrizada y, por tanto, lista para ejecutar.
Antes de ejecutar la filière debemos guardarla sobre un archivo .fil. Para ello, debemos
seleccionar la opción Sauvegarder Filière del menú Filière. Opcionalmente, podemos dar a
la filière una etiqueta larga.
Una vez guardada, ya podemos ejecutar la filière, seleccionando la opción Exécuter filière
del menú Filière.
Césari – 2018
Página 25
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Después de la ejecución nos aparecerán los iconos de resultados, a la derecha de los
métodos. Nuestra filière tendrá el aspecto siguiente
Podemos realizar un doble click sobre cada uno de los iconos.
II. Visualizar los resultados del análisis factorial en SPAD
En el primer icono
, encontraremos los resultados del análisis factorial.
Los resultados más relevantes son:
 Matriz de Correlación lineal y validación a través del VTest.
Césari – 2018
Página 26
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP

Valores propios del ACP. En nuestro ejemplo observamos que los dos primeros ejes
factoriales conservan un 85.56% de la inercia.

Coordenadas de las variables en el espacio factorial. Nos puede ayudar a interpretar
el ACP y sus ejes.
Césari – 2018
Página 27
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP

Coordenadas de los individuos en el espacio factorial. Podemos observar los puntos
que están bien representados en los ejes, a partir de las contribuciones y los cosenos
cuadrados.
III. Representación gráfica de planos factoriales en SPAD
En el segundo icono
, podemos editar los gráficos factoriales. Realizando un doble clic
nos aparece una pantalla donde se editarán los gráficos.
Este programa permite estudiar gráficamente los planos factoriales del tipo ACP
Para iniciar la visualización
1. O bien abriendo un gráfico que ya hemos creado y salvado con anterioridad, o
bien si estamos ejecutando un determinado método, seleccionando el icono gráfico en
forma de ejes que aparece a la derecha del método.
2. Aparece la ventana preselections pour un nouveau graphique. En ella seleccionamos las
variables y frecuencias activas e ilustrativas, etc., así como las particiones si las
hubiera. La selección concreta de lo que podemos representar dependerá del análisis
efectuado.
3. Si el fichero contiene muchos individuos, lo mejor es no representarlos. En cambio, si el
fichero es pequeño, no hay ningún inconveniente en representar todos los individuos.
4. Apretamos OK.
Césari – 2018
Página 28
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Comando Graphique
Podemos abrir, cerrar, salvar, salvar como (por
ejemplo podemos salvar el gráfico como un fichero
bmp), imprimir, etc.
Si deseamos cambiar los ejes factoriales
representados, elegimos los factores deseados (F1,
F2, F3, F4, etc..) (Changer les axes o bien el botón
ejes que aparece en la barra de herramientas). Nos
indica la cantidad de información que posee cada
factor.
Comando Edition
Permite copiar el gráfico o la selección en el portapapeles.
Para borrar del gráfico los puntos seleccionados Effacer
Comando Selection
Este menú nos permite efectuar la selección de
los puntos de interés en base a los siguientes
criterios (también se pueden utilizar los botones de
la barra de herramientas)
-
-
-
-
Des categories. Seleccionamos las categorías que
deseemos (individuos activos e ilustrativos,
variables activas e ilustrativas).
- Des variables per liste. Seleccionamos una a una
las variables que nos interesa representar.. Si son
variables nominales, incluso podemos escoger qué
modalidades seleccionamos.
- Des individus per liste y Des individus per filtre
logique. Seleccionamos los individuos que
deseamos que aparezcan uno a uno o bien mediante
filtros lógicos
Point par point, Par cadrage, Par segments. Si sólo queremos seleccionar de punto en
punto, apretamos el botón punto-flecha de la barra de herramientas y señalamos el punto en el
gráfico. Si queremos seleccionar una región de puntos, repetimos el paso anterior con el
botón puntos-rectángulo. Si deseamos seleccionar segmentos, igual al anterior pero con el
botón recta-flecha.
Tous les points y Tous les segments. Seleccionamos todo el gráfico (incluido trayectorias)
Filtrage statistique de la selection. Nos permite seleccionar los puntos más significativos
en función de criterios estadísticos. Se da un valor máximo por ejemplo 80 (80%) ya
sea de contribución (AFC o ACM) o bien coseno (ACP) y se seleccionan todos los puntos que
tengan una contribución igual o superior al 80%.
Deselection totale. Anulamos las selecciones anteriores. Podemos realizar esta tarea con el
botón punto-flecha-punto
Césari – 2018
Página 29
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Comando Habillage
Permite trabajar con los puntos seleccionados anteriormente
-
Ecrire y Effacer les Ribelles. Si deseamos ver las etiquetas de los puntos o
categorías seleccionadas, apretamos el botón abc. En el gráfico estas etiquetas se pueden
mover. Si deseamos que desaparezcan, pues presionamos el botón abc con cruz
Information su point. Si queremos estudiar detenidamente un individuo en concreto,
pinchamos el botón tabla con punto y luego el punto en concreto. Aparecen sus coordenadas
factoriales, así como sus valores en las distintas variables activas.
Des individus par groups. Se pueden representar los individuos por grupos en función de
1. las modalidades de una determinada variable nominal; o bien
2. si el gráfico factorial ha sido obtenido mediante el Méthode Parti/Decla, podemos
representar los individuos en función de la clase. Seleccionamos partitons y el corte del
árbol deseado.
Seleccionamos las distintas formas de representar los distintos grupos (colores o números)
Para anular la selección apretamos rotour a l´habillage par defaut.
Comando Dessin
-
-
Trajectories. Si deseamos visualizar las trayectorias
entre las diferentes modalidades de una variable
nominal, apretamos Trayectoires.
Una vez seleccionada la variable, aparecen las
modalidades. Si queremos desplazar una modalidad,
la seleccionamos apretando una vez el ratón, y con el
puntero señalamos el lugar donde la queremos poner
apretando otra vez el ratón.
El criterio para determinar el orden de las modalidades es
que las contiguas se parezcan lo más posible entre sí. Si
apretamos OK se dibuja la trayectoria deseada. Lo
podemos hacer con el botón flecha-flecha-flecha
Legend. Si nos molesta el recuadro de leyenda de la
segmentación de los individuos por grupos, acudimos a
este comando para que aparezca o desaparezca
Césari – 2018
Página 30
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
En el ejemplo, debemos ejecutar la opción Nouveau del menú Graphique.
Se nos abrirá una nueva pantalla donde indicaremos el tipo de gráfico a realizar.
Básicamente hay tres gráficos factoriales interesantes.
 Gráfico de las proyecciones de las VARIABLES sobre los ejes factoriales
X1 porcentaje humedad relativa anual
X3 viento en millas/hora
X5 temperatura en Fº (enero)
X7 porcenaje de poblacion >= 65 años
X9 años de escolaridad media > de 25 años
X11 poblacion area urbanizada
X13 cantidad de familias pobres
X15 polucion NO2
X17 polucion NO
X19 Porcentaje de mortalidad
X2 radiacion solar media
X4 precipitacion anual media
X6 temperatura en Fº (julio)
X8 habitante por vivienda
X10 porcentaje de albergues Legales con todos los servicios
X12 cantidad de empleos legales
X14 Polucion hidrocarburos HC
X16 polucion CO
X18 partículas en suspensión
Las flechas deben interpretarse como direcciones de crecimiento de las variables en el
espacio factorial.
Para editar las etiquetas basta con realizar un doble clic sobre las flechas. SPAD permite
arrastar las etiquetas. Para editar todas las etiquetas de una sola vez, podemos seleccionar
la opción De tous les points en el menú Selection y luego la opción Écrire les libellées en
Habillage. Para deseleccionar los puntos, basta con ejecutar la opción Désélection totale en
Sélection
Césari – 2018
Página 31
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
A veces puede resultar interesante
ponderar los puntos a partir de la
contribución o coseno2 en espacio
factorial creado. Para ello debemos
ejecutar la opción Styles pour les
categories en Preferences, que nos
permite realizar esta opción y
muchas otras, como el color de los
símbolos, tamaño de las etiquetas,
símbolos.

Gráfico de las proyecciones de los individuos
Césari – 2018
Página 32
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Hacemos un zoon para poder mirar la nube activa con más detalle
Caracterizar los distintos grupos o modalidades
Si queremos ver rápidamente la distribución de los individuos más representativos que
pertenecen a un grupo o a una modalidad en concreto, realizamos los siguientes pasos:
1. Elegimos en el menú Affichage el modo mode de representation: modalités ou classes au
brycentre des points individus.
2. Seleccionamos con el botón punto-flecha la modalidad o el grupo que queremos identificar.
3. Accedemos al menú Habillage: Parangon: Calcul et affichage. Trabajamos con los valores que
nos presentan por defecto.
4. Aparece en el gráfico el círculo donde más o menos están todos los individuos con esa
modalidad o en esa clase (recordad que estamos trabajando en un espacio de diez
dimensiones y que sólo vemos dos, el plano). Aparecen unidos los individuos más
representativos de esa modalidad o clase.
Césari – 2018
Página 33
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
5. Si queremos seleccionar estos individuos, o bien con el botón punto flecha los seleccionamos
uno a uno o bien seleccionamos con el botón punto-flecha la modalidad o el
grupo correspondiente y vamos al menú Habillage: Parangon: Selection
6. Si queremos deshacer estos dibujitos Habillage: Parangon: Effecement
Cambiamos de color las observaciones según la variable de opinión del experto.
Selecciono y cambio el color de los centros de clases de las modalidades: Baja y Alta.
Césari – 2018
Página 34
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP

Gráfico de las proyecciones de las variables y individuos utilizando los ejes unitarios
Si editamos las etiquetas obtendremos el gráfico siguiente
Césari – 2018
Página 35
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
IV. Descripción De Factores (DEFAC)
Nos ayuda a interpretar los factores obtenidos a partir de un análisis factorial. Cada factor
se describe por los elementos más significativos (pueden ser individuos, modalidades,
variables continuas) ya sean activos o ilustrativos empleados en el análisis anterior.
Por defecto, sólo interpreta los tres primeros factores, pero podemos evidentemente
caracterizar los factores que deseemos.
Si deseamos seleccionar más elemento definitorios de los ejes, en
parámetros porcentajes seleccionamos 30, 40 ó 50 (por defecto viene el 20% de todas las
posibilidades).
Césari – 2018
Página 36
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Césari – 2018
Página 37
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
c. Análisis de componentes principales con DTM
Estructura social del municipio de Alcobendas [López-Roldán & Fachelli, 2016]
Para ilustrar el uso del software trataremos un primer ejemplo utilizando los datos
relativos a un estudio realizado en el municipio de Alcobendas sobre su estructura social .
La matriz de datos Alcobendas contiene los datos del estudio que fueron publicados en el
anexo de la publicación referenciada.
Se trata de un total de 36 secciones censales del ayuntamiento madrileño caracterizadas a
partir de 15 variables, si bien la matriz original contenía un total de 27. Para hacer el
análisis de componentes principales se utilizan, según el estudio, estas 15 variables de las
que presentamos a continuación con el nombre y la identificación que le hemos asignado
así como los valores de la media y de la desviación típica.
Césari – 2018
Página 38
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Los principales resultados de tablas y gráficos que se obtienen del ACP con el software
DTM, se presentan a continuación y se exponen las características fundamentales del
procedimiento para realizar el análisis a través de los cuadros de diálogo del menú. A partir
de un archivo de tipo Excel, se importa dos archivos en formato Dtm-Vic
I. Importación de Datos: datos en "formato CSV - Excel".
Transformando un archivo de Excel, formato XLS (CSV) en diccionario y ficheros de datos
de DTM.
Para empezar, le daremos un vistazo (fuera de DTM) al archivo original a ser importado.
Este archivo está bajo el formato de la planilla de cálculo Microsoft Excel2.
Seleccione el archivo: “Alcobendas.xls" (la tabla de datos) para verlo a través de una hoja
de cálculo de Excel.
La primera fila contiene las
etiquetas que identifican las
variables.
La primera columna
contiene los identificadores
de individuos,
Las celdas (a partir de la
segunda fila y columna) son
los valores de las 15
variables.
El archivo está formado
por 36 líneas
2
El lector que no es provisto de ese software debería saltarse las siguientes instrucciones
Césari – 2018
Página 39
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
NOTA:
Asegurarse que después de la tabla con los datos, tanto las filas como las columnas del
resto de la planilla estén vacías y sin formato. Se recomienda que la primer columna sea
destinada para etiquetas que identifiquen a los individuos, si la tabla no tiene identificador
de observaciones agregar una primer columna con un “id” que identifique a cada fila
Los nombres de variables deben tener menos de 20 caracteres,
Estos nombres no deberían tener espacios en blanco (en todo caso, reemplácelos por líneas
subrayadas). Estos nombres estarán truncados hasta 10 caracteres para construir luego los
identificadores de las modalidades.
Debemos guardar este archivo como un fichero de “texto delimitado por coma” con la
extensión ".csv". (En “Archivo”, ingresar a "Guardar como…") obtenemos un archivo de
formato libre con las columnas separadas por punto y coma.
Recordatorio: Dtm-Vic produce numerosos archivos de los resultados intermediarios
vinculados a la aplicación (todos en formato .txt). Por consiguiente, se recomienda
especialmente crear un directorio por aplicación. Al principio, tal directorio debe
contener los archivos de datos necesarios para el análisis al formato Dtm-Vic
Importante: Si hay puntos y comas en el fichero de datos, deberán ser reemplazados por
otro símbolo antes de realizar la transformación al formato CSV. También antes de guardar
el archivo, el formato de las celdas debe ser "normal", para evitar algunos espacios en
blanco adicionales.
Si su versión de Excel no tiene previsto la opción "guardar como un archivo de csv", usted
puede guardar el archivo usando "tabulaciones" como separadores, y luego, puede cambiar
las "tabulaciones" en "puntos y comas" (paso básico: ingrese a “Data capture, data
importation”, luego: presione “specific preprocessing”, luego: el botón “replacing tabs with
semicolons”).
Una vez creado el archivo con la extensión CSV, lo abrimos con el Bloc de Notas u otro
editor de texto para eliminar, al final del mismo, líneas en blancos. Chequeamos que todo
está bien.
Césari – 2018
Página 40
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Abrimos el programa con DTM
La secuencia de operaciones:
a) Clic sobre “DataCapture, Data importation, Preprocessing” (importación / captura /
preprocesamiento de datos).
Césari – 2018
Página 41
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
b)
Seleccione: “Importing Dictionary ,Data and Texts” (Importar Diccionario, Datos y
Textos)". Se muestra una nueva ventana para la importación.
c)
Presione el primer botón habilitado a la izquierda: “Excel ® Files” (archivos de Excel).
Se muestra la ventana “Importing from an Excel (r) file”. Si el archivo Excel ha sido
guardado con tabulaciones como separadores de columnas, se presiona el botón:
“Change tabs into semi-colons” (cambiar tabulaciones a puntos y comas).
Césari – 2018
Página 42
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Ingrese a Start the importation process (comenzar el proceso de importación)
Ingrese a 1-Select Imput Data. (cargar fichero csv). Seleccione el archivo creado
previamente "Alcobendas..csv".
Un cuadro de dialogo confirma la selección.
Césari – 2018
Página 43
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Debería aparecer la lista de variables.
Ingrese a 2-Select Type. (Analizar los valores) y luego ⟹ (Muestra Los Resultados).
Seleccionar uno o varios identificadores de variable, en la lista, y escoger, para cada
atributo (cada variable), una palabra clave entre las tres siguientes:
- “char” significa que nos ocupamos de una variable categórica (nominal). Tal variable podría
ser codificada con, a lo sumo, 6 caracteres. Por ejemplo, “masc” y “feme” para codificar el sexo
(o "0" y "1", o "10" y "20").
- “text” significa que los registros (hasta 30 caracteres), no serán tomados en cuenta en un
fichero de datos3. El identificador de individuos se coloca de este tipo (1º columna).
- “num” significa que nos ocupamos de una variable numérica (continua).
3
Es recomendable, siempre manteniendo el mismo identificador de individuos, colocar los textos en un
archivo aparte con el formato tipo 1 o tipo 2, según vimos en la tabla 3 y 4
Césari – 2018
Página 44
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Una vez completado el que el ingreso del tipo de variable, dé un clic sobre “update and
continue” (actualización) para modificar el fichero.
El programa crea un nuevo archivo, en donde se agrego una fila después de los
identificadores de variables, con el tipo de dato. Este archivo es "
New_typevar_Alcobendas.csv ".
Césari – 2018
Página 45
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Clic en “Create Dictionary and Data” (crear el diccionario y los datos DTM).
El proceso de importación consiste en construir un diccionario DTM y un fichero de datos
DTM a partir del fichero de datos creado en el paso anterior “1”.
- los nombres de las variables se extraen de la primera fila del archivo “.csv”.
- el número de categorías para cada variable y los nombres de estas modalidades se
obtienen al realizar un análisis del fichero Para cada variable, son detectadas todas las
diferentes secuencias de caracteres de importancia. Las modalidades son ordenadas
alfabéticamente por sus identificadores.
- el fichero de datos DTM comienza con el mismo identificador entre comillas simples, las
modalidades de las variables categóricas serán enteros consecutivos comenzando con el
valor "1", en lugar de un símbolo alfanumérico. Los valores numéricos serán idénticos
al del fichero de datos original, excepto los valores perdidos reemplazados, en esta
versión de DTM, por el valor estándar "999".
Clic en “Name for the new dictionary” (nombre para el diccionario nuevo) para escoger un
nombre para el diccionario en formato de DTM, siempre en el mismo directorio. (se
recomienda la extensión ".DIC").
Por ejemplo “AlcobendasDIC”
Césari – 2018
Página 46
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Clic en “Name for the new data file” (nombre para el archivo de datos nuevo) para escoger
un nombre del fichero de datos en formato del DTM, siempre en el mismo directorio. (se
recomienda la extensión ".DAT").
Por ejemplo “AlcobendasDAT”
Clic en “Create new dictionary” (crear diccionario nuevo). Analiza las modalidades para
las variables nominales. Es creado un diccionario en formato interno de DTM, el cuál se
visualiza en las notas a la derecha.
Césari – 2018
Página 47
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Clic en “Create new data file” (crear fichero de datos nuevo). Al cabo de un rato, un cuadro
de mensajes muestra el número de individuos.
Clic sobre ese botón “Create a DTM parameter file”. (Crear un archivo de parámetros
DTM). Se muestra la ventana “Creating a starting parameter file”.
Clic en “Create a first parameter file” (crea un primer archivo de parámetro). Se muestra
un archivo de comandos DTM en la ventana inferior. Los demás operaciones y comentarios
son idénticos a la de la introducción. El archivo de comandos es automáticamente creado
bajo el nombre: "Param start.txt".
Césari – 2018
Página 48
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Haga Clic en "Execute" (Responda No a la pregunta acerca de un formato posible XML para
el archivo de salida). Lea los resultados haciendo clic en “Main basic numerical results”
(principales resultados numéricos básicos) del menú. Estos resultados son guardados bajo
el nombre "imp.txt" en el mismo directorio de trabajo.
Césari – 2018
Página 49
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
II. Análisis de Componentes Principales (ACP): Estructura social del municipio de
Alcobendas
El archivo diccionario: AlcobendasDIC
Contiene los identificadores de las 15 variables
continuas. El identificador de una variable
nominal es precedido por el número N de sus
categorías, Convencionalmente, una variable
numérica tiene cero categoría. Los espacios
vacíos están prohibidos en los identificadores.
Extractos del archivo de dato AlcobendasDAT
Este archivo de datos comprende 36
filas y 16 valores. Para una fila i, el
primer
valor
(entre
comillas)
corresponde al identificador del
individuo i, es decir aquí el grupo i de
respuestas y los 15 otros valores
corresponden a las respuestas de las
15 variables separadas por espacios
blancos.
Implementación del análisis (PCA)
El archivo de los parámetros se crea en 5 etapas:
Etapa 1: selección del análisis
Césari – 2018
Página 50
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Etapa 2: Selección de los archivos diccionario y datas
En el directorio de trabajo abrir el archivo AlcobendasDIC. Se muestra en una primera
ventana.
Césari – 2018
Página 51
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
En el directorio de trabajo abrir el archivo AlcobendasDAT que se exhibe en la tercera
ventana.
Etapa 3: Selección de las variables activas e ilustrativas (o suplementarias)
Dentro de la ventana "Selection of active y Supplementary elements" se exhiben otras
tres ventanas:
 "Variables to be selected" donde figura el conjunto de las variables
 "Active Variables" que recibe las variables activas seleccionadas
 "Supplementary Variables" que recibe las variables ilustrativas (o suplementarias)
seleccionadas.
Césari – 2018
Página 52
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Para el ACP, las variables activas deben ser continuas (numerical). Las variables ilustrativas
pueden ser continuas o nominales.
Aparece una ventana "Selecting observations".
Etapa 4: Selección de las observaciones (individuos)
Tres escenarios son posibles:
1. Guardar todas las observaciones
2. Seleccionar las observaciones sobre una lista
3. Seleccionar las observaciones por un filtro
Césari – 2018
Página 53
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Tomamos en consideración aquí el conjunto de las observaciones.
Aparece una ventana "Create a starting parameter file"
Etapa 5: creación del archivo de comando (archivo de parámetros)
A esta etapa, es posible seleccionar, como opción, los procedimientos de bootstrap y/o de
clasificación. En efecto, en Dtm-Vic, los análisis factoriales pueden completarse por:
- Un procedimiento de bootstrap que permite validar la posición de las variables sobre el
plano factorial
- Y/o una clasificación con una descripción automática de las clases.
a. Selección de una opción
Aparece una ventana "Options: Bootstrap and/or Clustering of observations".
Césari – 2018
Página 54
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Haga Clic sobre: "yes" para el procedimiento "bootstrap"; indicar el número de
replicaciones (por defecto 25) luego enter. Es el bootstrap parcial que se aplica por
defecto. Si el bootstrap no es adoptado, haga Clic sobre: "no".
Nota técnica: los diferentes tipos de bootstrap para variables no textuales en Dtm-Vic son:
a Bootstrap parcial para las variables activas Con este tipo de bootstrap, el plano inicial sirve de
espacio de referencia para recibir las replicaciones, que son proyectadas como variables
ilustrativas. El bootstrap parcial no tiene por objeto validar la estabilidad del espacio de salida
que no está en discusión. Da una idea de la variabilidad imputable a las replicaciones para cada
punto de modalidad tomado aisladamente.
b Bootstrap parcial para las variables ilustrativas. Para las variables ilustrativas, el bootstrap puede
sólo ser parcial. Se trata de una validación externa, y por lo tanto una prueba estadística
perfectamente legítima, no habiendo estas variables participado en la construcción del
subespacio de referencia.
c Bootstrap total para las variables activas. Recordemos que en este caso, cada replicación da lugar
a un análisis en componentes principales específicos. Existen tres implementaciones del
bootstrap total en Dtm-Vic.
- El bootstrap de tipo 1 (correcciones simples del signo de los ejes para los análisis de las
replicaciones).
- El bootstrap de tipo 2 (correcciones de las inversiones de ejes) es más elaborado.
- El bootstrap de tipo 3 (“Rotaciones procrusteanas” de los ejes replicados de forma de traerlos
en correspondencia con los ejes iniciales). Reunimos tan a menudo los resultados del bootstrap
parcial. Las opciones de bootstrap total pueden ser puestas de ejecución por los usuarios
avanzados, pero no son utilizadas en este manual.
Reaparece la ventana : “create a starting parameter file”.
b. Creación del archivo de parámetros
Césari – 2018
Página 55
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Se crea un archivo de parámetros bajo el nombre param_PCA.txt en la carpeta
Para conservarlo con vistas a análisis posteriores, será prudente de renombrarlo, después
de haber dejado a Dtm-Vic
c. Ejecución
La secuencia de los procedimientos se exhibe en bloque después de la ejecución:
Comentarios:
Ardat, (Almacenamiento de los datos), Selec (Selección de los elementos activos e
ilustrativos), Stats (estadísticas básicas), Prico (Analiza en Componentes Principales),
Recip (Clasificación mixta que utiliza la clasificación ascendiente jerárquica - método de los
vecinos recíprocos), Parti (Corte del dendrogramme y la optimización de la partición por el
método de los centros móviles [k-means]), Decla (Descripción automática de las clases de
la partición).
Los usuarios experimentados pueden modificar parámetros directamente bajo el editor
interno o fuera de Dtm-Vic con un editor de texto (ver “Help about parameters” disponible a
partir del editor).
Archivo de los resultados
Los resultados pueden ser consultados a partir de la sección:
Césari – 2018
Página 56
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
El archivo resultado denominado imp.txt es contenido en el directorio
También se guarda bajo el nombre "imp" seguido por la fecha y la hora del análisis
Este archivo de copia de seguridad conserva los resultados numéricos principales,
mientras que el archivo imp.txt se sobrescribe para cada nuevo análisis realizado en el
mismo directorio.
Después de haber consultado los resultados numéricos, vuelva al menú principal. Estos
resultados serán visualizados entonces en la etapa VIC de Dtm-Vic que facilita
considerablemente la interpretación (el histograma de los valores propios, el de los índices
de nivel y el dendograma, sin embargo deben ser consultados en uno de los archivos
imp.txt o imp.html).
Césari – 2018
Página 57
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
III. Visualización de los resultados
Esta segunda fase fundamental de Dtm-Vic proporciona los instrumentos de visualización
necesarios para la interpretación y la validación de los resultados.
Ejes factoriales
Esta herramienta proporciona y clasifica las coordenadas sobre los ejes factoriales de las
variables activas y ilustrativas, o de las observaciones.
Aparece una ventana que propone visualizar las coordenadas de las variables activas,
ilustrativas y de las observaciones sobre los primeros ejes (estos resultados son también
los de la etapa DEFAC del archivo resultado).
En el marco del análisis en componentes principales, tres elementos pueden ser
examinados, las variables continuas activas e ilustrativas, las variables nominales e
ilustrativas y las observaciones.
Césari – 2018
Página 58
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Planos factoriales
Esta herramienta proporciona los planos factoriales separados o superpuestos de las
variables activas, ilustrativas o de las observaciones.
Una ventana propone diferentes visualizaciones de planos factoriales.
Seleccione la sección "Actives columns (variables or categories)".
Aparece una ventana para seleccionar el plano factorial siguiente y la dupla de ejes
deseada.
Césari – 2018
Página 59
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Aparece la ventana del plano factorial.
Césari – 2018
Página 60
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Nota: Para cada gráfico, la banda superior contiene opciones:
- "Save" guarda el gráfico en formato bmp;
- "Font" ofrece la posibilidad de cambiar la fuente y el color de los caracteres;
- "More graph" permite cambiar de plano factorial;
- "Sign of axes" permite cambiar la orientación de los ejes;
- "Rank", es útil solamente en el caso de pantallas muy complejas, (lo que no es el caso
aquí): este botón convierte las dos coordenadas de la pantalla actual en rangos. Por
ejemplo, los n valores de la abscisa son convertidos en números enteros de 1 a n,
teniendo el mismo orden que los valores originales. Así las dos distribuciones son
uniformes, y los identificadores se revelan ser mucho más legibles (al precio de una
distorsión sustancial de la forma de la nube de puntos).
Otros gráficos:
La sección: "PLANEVIEW with moveable tags" permite desplazar las etiquetas de los
puntos del gráfico.
Césari – 2018
Página 61
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
IV. Validación Bootstrap
Esta herramienta permite validar la posición de las variables sobre el plano factorial.
Aparece una ventana "DtmVic - Bootstrap - Validation - Stability - Inférence".
Abrir en el directorio el archivo de las replicaciones según el bootstrap elegido. Seleccione
el archivo ngus_var_boot.txt para un bootstrap parcial.
Responder OK a la ventana "Set of principal coordinates loaded" que se exhibe.
Se muestra una ventana “Bootstrap confidence areas”.
Seleccione en la sección “Click to Select” las variables cuyas elipses se quieren visualizar.
Trasladarlas con Select, a la ventana "selected list”.
Césari – 2018
Página 62
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Obtiene una pantalla con el gráfico de las variables activas (si el archivo ngus_var_boot.txt
fue cargado), o de las categorías ilustrativas (si el archivo ngus_sup_cat_boot.txt fue
cargado).
Se exhibe una ventana de zonas de confianza bootstrap.
Las elipses son reemplazadas por las envolventes convexas de las replicaciones bootstrap
para cada punto. Las envolventes convexas toman en consideración los puntos periféricos,
mientras que las elipses son dibujadas utilizando la densidad de las nubes de las
replicaciones. Las dos informaciones son complementarias.
Césari – 2018
Página 63
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
d. Análisis de componentes principales con FactoMineR
Instalando a FactoMineR y su Interfaz Gráfica del Usuario
Tiene la posibilidad de instalar FactoMineR4, para realizar análisis multivariado igual que
cualquier otro paquete de R o instalar su Interfaz Gráfica de Usuario .
Desde la CONSOLA del Entorno R (ver apuntes 01 y 02)
1. Descargar el software R desde el enlace: http://lib.stat.cmu.edu/R/CRAN/.
2. Descargar el paquete FactoMineR5: puede descargar el paquete desde el repositorio
de descargas del entorno R CRAN o desde el sitio (FactoMineR: Linux6, Windows7).
3. Cargar FactoMineR en la sesión de R escribiendo la siguiente línea de código:
library(FactoMineR)
Utilizamos un ejemplo de los datos de Decathlon (Husson y Pag `es 2005). Los datos se
refieren al rendimiento de los atletas durante las dos reuniones de atletismo. El conjunto
de datos es de 41 filas y 13 columnas: las diez primeras columnas se corresponde con el
rendimiento de los atletas para los 10 eventos del decatlón. Las columnas 11 y 12
corresponden respectivamente a la categoría y los puntos obtenidos. En la última columna
es una variable categórica que corresponde a la reunión de atletismo (2004 Juegos
Olímpicos o Decastar 2004).
El código para realizar el PCA desde consola es:
R> datos ("decathlon")
R> res.pca <- PCA (decatlón, quanti.sup = 11:12, quali.sup = 13)
4
http://factominer.free.fr/
http://dirichlet.mat.puc.cl/web/packages/FactoMineR/index.html
6
http://factominer.free.fr/FactoMineR_1.14.tar.gz
7
http://factominer.free.fr/FactoMineR_1.14.zip
5
Césari – 2018
Página 64
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
De manera predeterminada, la función de PCA proporciona dos gráficas, una de las
variables y otra para la los individuos. La Figura 1 muestra el gráfico de variables: variables
activas (las variables utilizadas para realizar el PCA) son de color negro, y las variables
cuantitativas y complementarias son de color azul. Los individuos pueden colorearse de
acuerdo a una variable categórica en el gráfico individual. Para ello, el código se utiliza la
siguiente:
R> plot (res.pca, Habillage = 13)
El Habillage = 13 indica que los individuos son de color de acuerdo a la variable 13. Por lo
tanto, los atletas están coloreados de acuerdo a la reunión de atletismo (Figura 2). Los
atletas que participaron en el Juego Olímpicos son de color rojo y los atletas que
participaron en la Decastar son de color negro.
El porcentaje de variabilidad explicada por cada dimensión se da: 32,72% para el primer
eje y 17,37% para el segundo. Se puede dibujar un gráfico de barras con los valores propios
(Figura 3) con el siguiente código:
R> barplot (res.pca $ eig, [1], la principal = "Valores propios",
+ Names.arg = pasta ("Dim", 1: nRow (res.pca $ eig), sep = ""))
Este gráfico permite detectar el número de dimensiones interesantes para la
interpretación. La tercera y cuarta dimensión puede ser interesante, por lo que podemos
trazar la gráfica de estas dos dimensiones. Para las variables (Figura 4), nosotros utilizará
el código:
R> plot (res.pca, choix = "Var", axes = c (3, 4), lim.cos2.var = 0)
El parámetro choix = "var" indica que se traza la gráfica de las variables, los ejes de
parámetros = c (3,4) indica que la gráfica se hace de la dimensión 3 y 4, y el parámetro
lim.cos2.var = 0 indica que todas las variables que se extraen (más precisamente, todas las
variables que tienen una calidad de proyección superior a 0, esta opción es interesante
para mantener sólo las variables y proyecciones).
Figura 1: gráfico de las variables (datos de
Decathlon): variables complementarias son de
color azul
Césari – 2018
Figura 2: gráfico de las personas (datos de
Decathlon): los individuos son de color de la
reunión de atletismo
Página 65
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Figura 3: Barplot de los valores propios
Figura 4: Gráfico de las variables (datos de Decathlon) para las dimensiones 3 y 4
Los resultados se presentan en una lista con varios objetos con la función de impresión. Los
resultados se dan para los individuos, las variables activas, las variables cuantitativas y
categóricas complementarias.
R> print (res.pca)
**Results for the Principal Component Analysis (PCA))**
The analysis was done on 41 individuals, described by 13 variables
*The results are available in the following objects:
nom description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coordinates of the variables"
4 "$var$cor" "correlations variables - dimensions"
5 "$var$cos2" "cos2 for the variables"
Césari – 2018
Página 66
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
6 "$var$contrib" "contributions of the variables"
7 "$ind" "results for the individuals"
8 "$ind$coord" "coord. for the individuals"
9 "$ind$cos2" "cos2 for the individuals"
10 "$ind$contrib" "contributions of the individuals"
11 "$quanti.sup" "results for the supplementary quantitative variables"
12 "$quanti.sup$coord" "coord. of the supplementary quantitative variables"
13 "$quanti.sup$cor" "correlations supp. quantitative variables - dimensions"
14 "$quali.sup" "results for the supplementary qualitative variables"
15 "$quali.sup$coord" "coord. of the supplementary categories"
16 "$quali.sup$vtest" "v-test of the supplementary categories"
17 "$call" "summary statistics"
18 "$call$centre" "mean for the variables"
19 "$call$ecart.type" "standard error for the variables"
20 "$call$row.w" "weights for the individuals"
21 "$call$col.w" "weights for the variables"
Como se mencionó anteriormente, podemos describir cada uno de los componentes
principales con la función dimdesc:
R> dimdesc (res.pca, proba = 0.2)
$Dim.1
$Dim.1$quanti
Dim.1
Points 0.9561543
Long.jump 0.7418997
Shot.put 0.6225026
High.jump 0.5719453
Discus 0.5524665
Rank -0.6705104
X400m -0.6796099
X110m.hurdle -0.7462453
X100m -0.7747198
$Dim.1$quali
Dim.1
OlympicG 1.429753
Decastar -1.429753
Esta salida contiene la descripción de la
primera dimensión de la PCA realizado en los
datos de Decathlon. Las variables se
mantienen si el valor p es menor que 0,20
(proba = 0,2).
La variable que describen mejor que la
primera dimensión es la variable de puntos
(se trataba de una variable suplementaria), y
luego, es la variable X100M que se
correlaciona negativamente con la dimensión
(las personas que tienen una gran
coordinación en el primer eje tiene una
X100M tiempo de baja).
La primera dimensión es descrita por la
competencia variable categórica.
La categoría Juegos Olímpicos tiene una coordinación mucho mayor que 0 que muestran
que los atletas de esta competencia tienen una mayor coordina a 0 en el primer eje. Desde
entonces, la variable apunta está altamente correlacionada con este eje (la correlación es
positiva), los atletas de esta competencia hizo un mejor rendimiento.
Césari – 2018
Página 67
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
e. Análsis de Componentes Principales con SPSS
Estructura social del municipio de Alcobendas. Para ilustrar el uso del software trataremos
un primer ejemplo utilizando los datos relativos a un estudio realizado en el municipio de
Alcobendas sobre su estructura social8. La matriz de datos Alcobendas.sav9 contiene los
datos del estudio que fueron publicados en el anexo de la publicación referenciada. Se trata
de un total de 36 secciones censales del ayuntamiento madrileño caracterizadas a partir de
15 variables, si bien la matriz original contenía un total de 27. Para hacer el análisis de
componentes principales se utilizan, según el estudio, estas 15 variables de las que
presentamos a continuación con el nombre y la identificación que le hemos asignado así
como los valores de la media y de la desviación típica.
8
Ayuntamiento de Alcobendas (1992). Vivir en Alcobendas. Estructura social y conflicto. Alcobendas:
Ayuntamiento de Alcobendas
9 López-Roldán, P.; Fachelli, S. (2016). Análisis factorial. En P. López-Roldán y S. Fachelli, Metodología de la
Investigación Social Cuantitativa. Bellaterra (Cerdanyola del Vallès): Dipòsit Digital de Documents, Universitat
Autònoma de Barcelona. Capítulo III.11. 1ª edición. Versión 3 (octubre de 2016). Edición digital:
http://ddd.uab.cat/record/142928
Césari – 2018
Página 68
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Los principales resultados de tablas y gráficos que se obtienen del ACP con el software
SPSS se presentan a continuación y se exponen las características fundamentales del
procedimiento para realizar el análisis a través de los cuadros de diálogo del menú.
El procedimiento de análisis factorial corresponde al comando FACTOR y a través del
menú se accede por: Analizar / Reducción de dimensiones / Factor.
Césari – 2018
Página 69
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
En este caso ya se han pasado las variables que se utilizarán para hacer el análisis (todas
menos la Sección Censal que identifica los casos) en el cuadro de Variables.
Disponemos inicialmente también de la opción de realizar una selección de casos según el
valor de un número entero.
A continuación se trata de especificar las diversas opciones de instrucciones de este
procedimiento a través de los 5 botones que se presentan: Descriptivos, Extracción,
Rotación, Puntuaciones y Opciones.
En primer lugar, pediremos las especificaciones de Descriptivos
Césari – 2018
Página 70
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Con Descriptivos univariados se obtienen la media, la desviación típica y el número de casos
válidos para cada variable. La solución inicial muestra las comunalidades iniciales, los
autovalores y el porcentaje de varianza explicada.
Las opciones Coeficientes, Niveles de significación y Determinante corresponden a la matriz
de correlaciones de las variables.
Las opciones de la medida de adecuación muestral de Kaiser-Meyer-Olkin y la prueba de
esfericidad de Bartlett nos permiten evaluar las variables del ACP. El KMO evalúa si las
correlaciones parciales entre las variables son pequeñas, mientras que el test contrasta si la
matriz de correlaciones es la matriz identidad (una diagonal de unos y el resto de ceros)
que indicaría que el modelo factorial es inadecuado. Se puede pedir también la inversa de
la matriz de correlaciones y la matriz de correlaciones reproducida a partir de las variables
factoriales retenidas, donde se muestran igualmente las correlaciones de los residuos (la
diferencia entre la correlación observada y la estimada). Finalmente se especifica la matriz
de correlaciones (y covarianzas) anti-imagen que contiene los negativos de los coeficientes
de correlación (covarianza) parcial. La mayoría de los elementos no diagonales deben ser
pequeños, y la información más relevante está en la diagonal donde se muestra la medida
de adecuación muestral de cada variable cuyos valores son la contribución individual de
cada una al valor global del KMO, por tanto, de forma equivalente al KMO se deben
considerar valores suficientemente altos y, en todo caso, superiores a 0,5. Si una variable
no cumple con este criterio mínimo deberá reconsiderarse y eliminarse del análisis.
A continuación detallaremos el procedimiento de extracción de los factores.
En nuestro caso se trata de hacer un análisis factorial de
componentes principales, que es el método por defecto ya
seleccionado, si bien en el desplegable se puede optar
por otros procedimientos de análisis factorial:
Césari – 2018
Página 71
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Junto al análisis de componentes principales se encuentran:
- Método de mínimos cuadrados no ponderados. Método de extracción de factores que minimiza la
suma de los cuadrados de las diferencias entre las matrices de correlación observada y
reproducida, ignorando las diagonales.
- Método de Mínimos cuadrados generalizados. Método de extracción de factores que minimiza la
suma de los cuadrados de las diferencias entre las matrices de correlación observada y
reproducida. Las correlaciones se ponderan por el inverso de su exclusividad, de manera que
las variables que tengan un valor alto de exclusividad reciban una ponderación menor que
aquéllas que tengan un valor bajo de exclusividad.
- Método de máxima verosimilitud. Método de extracción factorial que proporciona las
estimaciones de los parámetros que con mayor probabilidad ha producido la matriz de
correlaciones observada, si la muestra procede de una distribución normal multivariada. Las
correlaciones se ponderan por el inverso de la exclusividad de las variables, y se emplea un
algoritmo iterativo.
- Factorización de ejes principales. Método para la extracción de factores que parte de la matriz
de correlaciones original con los cuadrados de los coeficientes de correlación múltiple
insertados en la diagonal principal como estimaciones iniciales de las comunalidades. Las
cargas factoriales resultantes se utilizan para estimar de nuevo las comunalidades que
reemplazan a las estimaciones previas de comunalidad en la diagonal. Las iteraciones
continúan hasta que el cambio en las comunalidades, de una iteración a la siguiente, satisfaga el
criterio de convergencia para la extracción.
- Alfa. Método de extracción factorial que considera a las variables incluidas en el análisis como
una muestra del universo de las variables posibles. Este método maximiza el Alfa de Cronbach
para los factores.
- Factorización imagen. Método para la extracción de factores, desarrollado por Guttman y
basado en la teoría de las imágenes. La parte común de una variable, llamada la imagen parcial,
se define como su regresión lineal sobre las restantes variables, en lugar de ser una función de
los factores hipotéticos.
El análisis de componentes principales lo efectuaremos a partir de la matriz de
correlaciones, más fácil de interpretar. No obstante esta opción se recomienda
especialmente cuando las variables tengan escalas distintas, mientras que la matriz de
varianzas y covarianzas se puede emplear para varios grupos con varianza distintas para
cada variable.
Solicitaremos que genere la representación gráfica de los valores propios o autovalores, es
decir, la varianza asociada a cada factor, el llamado Gráfico de Sedimentación, como ayuda
visual en la decisión del número de factores a partir de localizar el cambio de pendiente de
la curva decreciente que dibuja. Indicaremos también que nos presente los resultados de la
solución factorial no rotada (la matriz de componentes o de saturaciones sin rotar, las
comunalidades y los autovalores de la solución factorial).
El criterio por defecto es que se extraigan los factores o componentes con un valor propio o
autovalor mayor de 1 (criterio de Kaiser) como se especifica en Basado en autovalor. Si
posteriormente se observa en el análisis que este criterio no se corresponde con una
decisión basada en la interpretación de los datos se puede volver a ejecutar precisando el
número de factores decidido en la opción Número fijo de factores a extraer.
Finalmente se permite especificar el número máximo de pasos que el algoritmo puede
seguir para estimar la solución, este valor por defecto no es necesario cambiarlo.
El siguiente paso será pedir una rotación de la solución factorial con el objetivo de mejorar
la interpretación de los resultados.
Césari – 2018
Página 72
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
No es un paso obligado, podemos comparar los resultados con y sin rotación y optar por la
que consideremos más adecuada para la interpretación de los resultados.
Los métodos disponibles son los siguientes:
- Método Varimax. Rotación ortogonal que minimiza el número de variables que tienen
saturaciones altas en cada factor. Simplifica la interpretación de los factores.
- Criterio Oblimin directo. Rotación oblicua (no ortogonal). Si delta es igual a cero, el valor
prdetermnado, las soluciones son las más oblicuas. A medida que delta se va haciendo más
negativo, los factores son menos oblicuos. Se puede introducir un número menor o igual que
0,8.
- Método Quartimax. Rotación que minimiza el número de factores necesarios para explicar cada
variable. Simplifica la interpretación de las variables observadas.
- Método Equamax. Método de rotación que es combinación del método varimax, que simplifica
los factores, y el método quartimax, que simplifica las variables. Se minimiza tanto el número
de variables que saturan alto en un factor como el número de factores necesarios para explicar
una variable.
- Rotación Promax. Rotación oblicua que permite que los factores estén correlacionados. Esta
rotación se puede calcular más rápidamente que una rotación oblimin directa, por lo que es útil
para conjuntos de datos grandes.
De los diferentes métodos de rotación escogeremos el procedimiento Varimax.
Asimismo indicaremos que nos muestre los datos correspondientes a la solución rotada.
Para rotaciones ortogonales esta opción extrae la matriz de configuración rotada y matriz
de transformación de factor. Para rotaciones oblicuas, las matrices de correlaciones de
factor, estructura y patrón.
Solicitaremos los Gráficos de saturaciones, la representación gráfica factorial, expresión
gráfica de la matriz de componentes o de saturaciones, que se presenta en dos o tres
dimensiones, dependiendo de si hay dos o más de dos componentes retenidos, de las
variables originales en el espacio de los factores o componentes a partir de la solución
rotada.
Césari – 2018
Página 73
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Como hemos pedido la solución rotada y los gráficos de saturaciones nos proporcionan los
resultados rotados. En el caso de querer ver representada en primer término la solución no
rotada, hay que tener marcada la opción del método Ninguno y pedir los Gráficos de
saturaciones. Si optamos por comparar los resultados sin y con rotación veremos que
buena parte de los resultados que proporciona el software serán comunes, como todos los
relacionados con la matriz de correlaciones, pero otros cambiarán y habrá que analizar
cómo lo hacen. En particular, habrá que observar la tabla de varianza explicada, la matriz
de saturaciones o de componentes y las representaciones gráficas.
Como resultado de un análisis de componentes principales disponemos de tantas variables
como factores o componentes hemos retenido el análisis. Si queremos utilizar
posteriormente para realizar otros análisis es necesario guardarlas como nuevas variables
en la matriz de datos. Esto es lo que hacemos cuando lo especificamos a través de
Puntuaciones marcando la opción Guardar como variables.
Por defecto elegimos el método de la
Regresión; en este caso las puntuaciones
tienen media 0 y una varianza igual al
cuadrado de la correlación múltiple
entre las puntuaciones factoriales
estimadas y los valores factoriales
verdaderos. Las puntuaciones puede
correlacionarse incluso si los factores
son ortogonales.
Con la opción de puntuaciones de Bartlett éstas tienen media 0 y se minimiza la suma de
cuadrados de los factores únicos sobre el rango de las variables. La alternativa del método
de Anderson-Rubin es una modificación del método de Bartlett, que asegura la
ortogonalidad de los factores estimados, teniendo las puntuaciones resultantes una media
0, una desviación típica de 1 y no correlacionan entre sí.
Las variables se guardarán con el nombre que asigna por defecto el SPSS de FAC1_1,
FAC2_1,… y así sucesivamente hasta el número total de componentes retenidos en relación
al número de análisis realizado, al inicio el 1 .
Finalmente dentro de Opciones consideraremos
la exclusión de los valores perdidos (missing
values) según lista, alternativamente si optamos
por excluir según pareja excluye los perdidos de
las parejas de variables que no puede calcular
las correlaciones, y si optamos por reemplazar
sustituye el valor perdido por la media.
Césari – 2018
Página 74
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Especificaremos que los coeficientes se presenten por orden de tamaño lo que nos facilitará
la lectura de los factores de carga de la matriz de saturaciones o de componentes. Y no
contemplaremos que se supriman los coeficientes cuyos valores absolutos sean menores
que un valor especificado.
La mayor parte de las posibilidades que permite este procedimiento se pueden realizar a
través del menú como hemos visto. Pero la utilización del lenguaje de comandos nos
permitiría además otras posibilidades no proporcionadas en el cuadro de diálogo y
solamente ejecutables en la ventana de sintaxis como: especificar gráficos factoriales
individuales, especificar el nombre de las variables factoriales que se quieren guardar,
especificar el número de puntuaciones factoriales que se van a guardar, especificar valores
diagonales, especificar los criterios de convergencia para la iteración durante la extracción,
guardar matrices de correlación o matrices de carga factorial para su análisis posterior y
leer y analizar matrices de correlación o matrices de carga factorial..
En particular resulta una necesidad ejecutar la sintaxis para obtener gráficos
bidimensionales si la solución factorial comporta 3 o más factores, pues los gráficos en tres
dimensiones son más difíciles de leer. En este caso después de preparar la ejecución por el
menú se puede optar por Pegar la sintaxis y añadir a la línea de la instrucción del comando
FACTOR donde se especifica el gráfico:
/PLOT EIGEN ROTATION
las parejas de dimensiones. Por ejemplo, en el caso de 3 factores, las parejas (1,2) (1,3), de
la siguiente forma:
/PLOT EIGEN ROTATION (1,2) (1,3)
Los resultados de las distintas especificaciones que hemos detallado se presentan
seguidamente.
De la información derivada de la matriz de correlaciones se concluye que reunimos las
condiciones para una adecuada aplicación de la técnica y para la interpretación de los
resultados. El KMO es, en la terminología de Kaiser, meritorio, de 0,8 redondeando a un
decimal. Y todas las medidas de adecuación muestral de las variables originales que se
observan en la diagonal de la matriz de correlaciones anti-imagen son aceptables.
Césari – 2018
Página 75
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Césari – 2018
Página 76
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
La tabla de comunalidades nos
presenta la información de qué parte
de cada variable se conserva después
de la extracción de los factores y de
retener, como veremos, 2 factores.
Esto nos indica qué variables están
mejor representadas en la
información retenidas y el grado en
que serán más o menos
protagonistas en la configuración del
contenido de los factores. Así, por
ejemplo, la variable sinest (% sin
estudios) con un valor de 0,938
marcará de forma notable el carácter
de los factores, mientras que el papel
de la variable tactm (la tasa de
actividad femenina) con un 0,642
será menos importante.
En el análisis se toma la decisión de retener dos factores pues se cumplen simultáneamente
diversos criterios: con los dos factores se alcanza el 70% de la varianza explicada (llegando
al 81,596%), corresponden a valores propios o autovalores por encima de 1 y, según el
gráfico de sedimentación que se presenta seguidamente, se corresponde con el cambio de
pendiente de la curva (donde está el codo de la curva).
No obstante, el primer factor es el principal y acumula la mayor parte de la varianza, casi
llegando al 70% él solo, por ello se puede concluir que las diferencias entre las secciones
censales del municipio madrileño se expresan fundamentalmente con la primera
dimensión, introduciendo la segunda un matiz de menor relevancia.
Césari – 2018
Página 77
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Las tablas siguientes con la matriz de saturaciones o de componentes, antes y después de la
rotación varimax, nos permite dar contenido e interpretar los factores de diferenciación
social del municipio a partir de las variables originales consideradas.
Césari – 2018
Página 78
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Esta información se representa y se interpreta igualmente a través del gráfico de
dispersión entre los factores y las variables originales (gráficos factoriales o gráficos de
componentes). Se presenta un gráfico antes de la rotación y otro después de rotar.
Césari – 2018
Página 79
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Como resultado de la rotación, la varianza total explicada, que permanece constante
(81,596%), se redistribuye dando mayor peso al segundo factor o componente, pasando de
un 13,5% a un 24,7%. En la matriz de componente y gráficamente se observa como las
variables ppobjo y tactm, que al inicio están mayormente proyectadas sobre el primer eje,
ahora, tras la rotación, se acercan el segundo eje y se convierten en características más
marcadas para dar cuenta de la segunda dimensión. No obstante el contenido de ambos
factores no se altera en lo fundamental.
La primera componente o factor, el que corresponde al eje horizontal, con un 57% de
varianza explicada, opone niveles ocupacionales, educativos y de actividad para diferenciar
las secciones, a las derecha del gráfico (el polo positivo de la dimensión) que se
caracterizan por un perfil de predominio de ocupaciones bajas, eventualidad contractual,
desempleo, bajos niveles educativos y un alto porcentaje de población inmigrante. En el
otro extremo de la dimensión. A la izquierda, se ubica el perfil contrario, la carencia de los
rasgos que acabamos de citar, y donde aparecen como perfil de este polo el alto porcentaje
de trabajadores que son directores o técnicos, con altos niveles educativos y donde es
mayor la tasa de actividad femenina. Se trata, por tanto, de un factor de desigualdad
socioprofesional y educativa que divide socialmente al territorio, un división que podemos
etiquetar igualmente de estratificación social al diferenciar los perfiles de clase
trabajadores frente a los de clase media.
El segundo factor, el que corresponde al eje vertical, con un 25% de varianza explicada,
introduce una segunda dimensión de diferenciación, independiente de la anterior, donde se
contraponen dos rasgos de la actividad femenina: la proporción de mujeres ocupadas en el
trabajo doméstico (zona superior) frente a la proporción de mujeres ocupadas como
administrativas (zona inferior). Se trata de una diferenciación afecta tanto a la derecha
como a la izquierda de la primera dimensión, por tanto, es una división presente tanto en
las secciones censales de niveles socioprofesionales altos y bajos que los dividen
internamente.
Para acabar de ver el sentido de esta división será importante analizar la distribución de
las unidades en este espacio social construido. En el próximo capítulo de clasificación
retomaremos esta cuestión. Pero una primera visualización de lo que encontraremos se
puede presentar a partir del análisis factorial de componentes principales. Al ejecutar el
ACP hemos guardado la variables factoriales. Si con las dos variables factoriales realizamos
un gráfico de dispersión obtenemos, tanto en el caso sin rotar como rotado, la distribución
de las 36 secciones censales de Alcobendas. Observamos primero como cuatro secciones de
Alcobendas (de la 33 a la 36) se identifican con el perfil socioprofesional alto que hemos
descrito frente al resto del municipio, especialmente en el primer gráfico. Como resultado
de la rotación, las secciones censales del lado derecho más próximas a este grupo social
más acomodado se ven proyectadas más claramente hacia la izquierda de la primera
dimensión mientras las secciones 35 y 36 lo hacen sobre la zona superior de la segunda
dimensión. Esto es, la primera dimensión deja de mostrar una realidad tan polarizada, y
marca ahora un mayor continuum de estratificación social el perfil de clase trabajadora y
de clase media definido por los extremos. Por su parte, la segunda dimensión diferencia
más claramente las secciones entre las que se da una mayor proporción de mujeres
ocupadas en servicio doméstico y las que lo tienen de ocupadas como administrativas,
rasgo que afecta sobre todo a las secciones de perfil más acomodado, especialmente las
secciones 35 y 36 por un lado, y las secciones 23, 24, 26, 27, 30 y 31 por otro.
Césari – 2018
Página 80
Anexo 1 N03
Taller Práctico sobre Análisis de
Tablas Continuas con ACP
Césari – 2018
Página 81
Descargar