4. ESTRATEGIA DE ANÁLISIS DE TABLAS TC(J, K) DE GRANDES DIMENSIONES En las ciencias sociales se emplea muy raramente Tablas de Contingencia de grandes dimensiones (algunas centenas de líneas y/o de columnas). En la investigación social, ese tipo de tablas se emplea generalmente para analizar un fenómeno esencialmente espacial, con un nivel de desagregación muy bajo. Por ejemplo: estudio de la distribución de diferentes tipos de escuelas primarias por districto; estudio de la distribución de la población activa (según clases etarias y sexo) por municipio; etc. Para comprender la estructura de la información de una tabla TC(J, K) de grandes dimensiones a menudo es necesario combinar el Análisis de Correspondencias Simples con las técnicas de clasificación. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°106 4.1. ¿Por qué se debe combinar el AFCS con las técnicas de clasificación...? El AFCS de una Tabla de Contingencia TC(J,K) de grandes dimensiones es necesario... pero, a menudo, es insuficiente. a) El análisis factorial es necesario F Permite determinar el número de dimensiones pertinentes que deben ser consideradas para comprender la estructura de la información de la tabla observada. F F Permite observar la organización espacial de las clases facilitando, eventualmente, la observación de tendencias en la definición de las mismas. La capacidad descriptiva de los ejes factoriales es irremplazable. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°107 b) El análisis factorial es insuficiente... Por las tres razones siguientes : 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones ✜ Dificultad de interpretar las proximidades entre los puntos-perfiles de la tabla en planos de orden superior al segundo plano principal. ✜ La visualización de proximidades entre los J (o K) objetos se limita a los 2 o 3 primeros ejes factoriales, pero el número de dimensiones «interesantes» puede ser muy superior. ✜ Reducción excesiva del espacio, lo cual puede producir deformaciones y superposiciones ficticias entre los objetos. F La clasificación hecha sobre todas las dimensiones «interesantes», produce una partición que toma en cuenta la dimensión real de la nube de puntos-perfiles, corrigiendo las deformaciones producidas por las operaciones de proyección. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°108 2. Carencia de robustez ✜ F Un perfil «extremo» tiene una marcada influencia sobre el primer factor y -en consecuencia- sobre todas las dimensiones siguientes, ligadas a la primera por la exigencia de ortogonalidad. La mayoría de los métodos de clasificación son robustos. Los primeros nodos de un dendrograma (formados por los perfiles más similares) son independientes de la presencia de perfiles aislados. 3. Representaciones gráficas intrincadas ✜ F La visualización de centenas de puntos-perfiles puede hacer incomprensibles los gráficos factoriales, impidiendo el reagrupamiento de los perfiles en clases homogéneas. Los métodos de clasificación pueden ayudar a la interpretación de los planos factoriales, identificando «zonas» correspondientes a clases de perfiles bien descriptas. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°109 4.2. ¿Cómo combinar el AFCS con las técnicas de clasificación...? El análisis de la información de una Tabla de Contingencia TC(J, K) de grandes dimensiones se realiza en cinco etapas. 10 Etapa : Análisis de Correspondencias Simples de la tabla TC(J, K) Esta etapa es indispensable... ✔ ✔ ✔ En razón de la capacidad descriptiva del método. Para observar la disposición espacial de las clases de perfiles. Para operar un «filtro» sobre las dimensiones importantes de la estructura de la información de la tabla TC(J, K). Objetivos de la etapa : ✧ Verificar la clasificabilidad de los J (o K) perfiles de la tabla. ✧ Determinar el número q de dimensiones (q < K, o bien q < J) del subespacio factorial que permite representar lo esencial de la estructura de la información de la tabla TC(J, K), filtrando las fluctuaciones aleatorias o las variaciones no sistemáticas de la misma («alisado»). Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°110 20 Etapa : Clasificación Jerárquica Ascendente a partir de la «tabla de factores» Fα(J, q) Esta etapa es necesaria... ✔ Porque los resultados producidos por un procedimiento de agregación en torno a «centros móviles» varían según el número de clases elegido. ✔ Las distancias iniciales entre los J (o K) perfiles se calculan en el espacio de los q primeros ejes factoriales que fueron seleccionados. Se emplea para ello la distancia euclidiana clásica calculada con las coordenadas factoriales, lo cual es equivalente a la distancia del Chi2 en el espacio original. F Como la tabla de coordenadas factoriales Fα(J, q) es una tabla de variables cuantitativas, es conveniente emplear el método de Ward para realizar la Clasificación Jerárquica Ascendente de los J perfiles. Objetivo de esta etapa : ✧ Determinar, a partir del dendrograma de la C.J.A., el número s de clases correspondiente a una «buena» partición de los J (o K) perfiles de la tabla TC (J, K). Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°111 30 Etapa : Partición de las J líneas de TC(J, K) a partir de la «tabla de factores» Fα(J, q) Objetivo de la etapa: ✧ Mediante un procedimiento de agregación en torno a «centros móviles» se construye la partición Ps de los J (o K) perfiles de TC(J, K) en s clases. 40 Etapa : Descripción automática de las clases ✔ Para el conjunto de las frecuencias activas y/o ilustrativas de la tabla TC(J, K) se calculan los indicadores de desvíos entre los valores de los subgrupos de individuos que componen cada clase y los valores del conjunto de los individuos. ✔ Los valores-test permiten ordenar esos desvíos por orden de interés. Objetivo de esta etapa : ✧ Caracterizar las clases de la partición Ps de los J perfiles en línea, mediante los K atributos de la variable en columna de la tabla TC(J, K) y los atributos ilustrativos asociados al análisis. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°112 50 Etapa :Ubicación de las clases en los planos factoriales ✔ Proyección de los Centros de Gravedad de las clases de la partición Ps en el primer plano principal de la representación conjunta de los puntos-perfiles activos. Objetivo de esta etapa : ✧ Poner en evidencia ciertas «trayectorias» ignoradas por el proceso discontinuo de construcción de la partición Ps. Nota : Si el número de perfiles de la tabla TC(J, K) es realmente muy elevado, es conveniente optar por un procedimiento mixto de agregación en lugar de las etapas 2 y 3 presentadas anteriormente. Sobre los procedimientos mixtos de agregación vea la sección §II parte. 7. Métodos mixtos de clasificación. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°113