CUANTIFICANDO LA CLASE MEDIA EN MÉXICO: UN EJERCICIO EXPLORATORIO Nota Técnica 2 Introducción El análisis de agrupamiento o clustering es una herramienta estadística que tiene como objetivo identificar estructuras o subclases en los datos que tengan algún sentido para el investigador. Por ejemplo, el investigador que está recogiendo datos por medio de un cuestionario podría encontrarse con un gran número de observaciones que no tienen un significado a menos que se encuentren dentro de grupos manejables. Estos grupos (clusters) son desconocidos a priori sin embargo, los mismos datos y los algoritmos de agrupamiento pueden dar la sugerencia de su conformación. Esencialmente se trata de resolver el siguiente problema: dado un conjunto de n elementos caracterizados por la información de p variables, es decir se tiene un conjunto de datos multivariados (individuos x variables), se plantea el reto de agrupar los elementos de forma tal que los que pertenecen a un grupo sean tan similares entre sí y los distintos grupos tan disimilares como sea posible. La clasificación se considerará razonable si los objetos de un mismo grupo tienen valores parecidos en las variables observadas, y por el contrario, entre individuos pertenecientes a clases distintas pueden apreciarse características diferentes. Una clasificación sobre los tipos de algoritmos: Algoritmos basados en particionamientos. Se construyen varias particiones de los datos y se evalúan siguiendo algún criterio, generalmente este criterio consiste en que en cada paso se unen dos grupos si el incremento de la suma de cuadrados es mínima. Algoritmos jerárquicos. Crean una jerarquía que descompone el conjunto de datos usando algún criterio. Este empieza con tantos grupos como observaciones haya y el número de clusters va decreciendo de uno en uno en cada paso. Dos grupos son unidos en cada etapa de acuerdo a un criterio de optimización, comúnmente el criterio es la más pequeña disimilaridad (singlelinkage); disimilaridad promedio (average) o la máxima disimilaridad (complete). Basados en densidad. Localizan zonas de alta densidad separadas por regiones de baja densidad. Comienza seleccionando un punto t arbitrario, si t 1 es un punto central, se empieza a construir un cluster alrededor de él, tratando de descubrir componentes denso-conectadas; si no, se visita otro objeto del conjunto de datos. Uno de los primero algoritmos que utilizó este enfoque: DBSCAN (Density Based Spatial Clustering of Aplications with Noise) [Ester, et al., 96]. Basados en modelos. Se supone (hipótesis) una distribución para cada grupo y se trata de encontrar la distribución conjunta que mejor se adapte a los datos de estudio. Asume que los datos son producidos por una mezcla de distribuciones, significa que es visto como si los datos provinieran de un número finito de poblaciones mezcladas en varias proporciones, es decir que cada población representa un cluster con características específicas. Algo imprescindible cuando se realizan procedimientos de agrupamiento es el contar con un criterio o un índice que valide la calidad de las agrupaciones y la determinación del número de clusters. La mayoría se basan en estimar cuán compactos y separados están los grupos midiendo la distancia euclideana de los puntos a los centroides de los grupos (criterio usado en algoritmos basados en particiones y jerárquicos). Sin embargo, esta forma de medir no toma en cuenta la forma de los grupos ni el grado de solapamiento que puedan tener, dando a veces resultados no realistas. En la búsqueda de mejores técnicas y debido a su amplia gama de aplicaciones se han desarrollado otros algoritmos encaminados a identificar patrones ocultos en los datos, grupos solapados, presencia de ruido, (aquellos datos que no se ajustan al patrón de la muestra) además identifica grupos con diferentes aspectos geométricos: lineales, esféricas, irregulares, incluso huecas como grupos no convexos, entre otros. En general, los resultados de agrupamiento dependerán del algoritmo, del índice de validación de la calidad de agrupación, de los valores de los parámetros, e incluso está en función de la finalidad u objetivo de la investigación. El caso del método basado en modelos tiene la virtud identificar grupos de distintas figuras geométricas y es suficientemente general para abarcar otros algoritmos de agrupamiento, por ejemplo los que se basan en el criterio de suma de cuadrados. Más detalles McLachlan y Peel (2000) o Fraley and Raftery (2002). Este método es una gran opción por su generalidad, por su disponibilidad de software y por las distribuciones admitidas que no necesariamente son gaussianas. 2 Para más información sobre distintos métodos y criterios de validación y calidad de agrupación (ver [2]). Un método reciente por ejemplo, es el análisis de clúster no jerárquico, el cual está relacionado con la identificación de outliers y es llamado Fixed Point Cluster Analysis FPCA. El objetivo es encontrar grupos de puntos generados por un modelo estocástico sin asumir un modelo global para todo el conjunto de datos (ver C. Hennig 1997). Método basado en modelos Para fines ilustrativos, en la figura 1 se representa un conjunto de datos bidimensionales en los que se forman varios grupos de manera natural, el método de agrupamiento basado en modelos se distingue en tener varios supuestos: Existen G grupos, el k-ésimo grupo es representado por Los datos provienen de una mezcla de distribuciones. Cada distribución representa un grupo (cluster). La suma de estas funciones es una distribución conjunta, es decir una mezcla de las distribuciones. Cada observación surge de uno de los G grupos posibles. Figura. 1 Representación de agrupación en un espacio de dimensión dos, cada grupo es representado por un color y una función de distribución que pueden o no ser distintas. 3 La representación de la mezcla de distribuciones matemáticamente es expresado por: (1) Los valores πk son probabilidades a priori de cada grupo y son tal que La función ) representa la k-ésima distribución de probabilidad o la función que caracteriza el k-ésimo grupo. Es posible tener distintas distribuciones en la misma mezcla. es el conjunto de parámetros que definen cada distribución. Por ejemplo, si se supone que esas distribuciones son debidas a una mezcla de gaussianas, entonces cada grupo tiene distintos parámetros entre sí (media y varianza) y la expresión (1) se re-escribiría: Sin embargo el parámetro es desconocido, así que se recurre a la estimación bajo inferencia bayesiana en la que se calcula la distribución a posteriori de , dada la muestra. En palabras, la expresión anterior se lee: “la distribución posterior parámetro dado los datos, es proporcional a la información a priori de veces la información de los datos”. del La distribución a priori describe la incertidumbre de . es la función de verosimilitud, es decir, se busca que hace máxima la probabilidad de aparición de los valores muestrales observados. En otras palabras, dados los valores en la muestra se buscan los valores de los parámetros de la población que más posibilidades tengan de representar a la población que generó a la muestra. El objetivo general es estimar los parámetros de las distribuciones de la mezcla y clasificar después las observaciones por sus probabilidades de pertenencia a las distintas poblaciones según la distribución conjunta (1). Una de las elecciones más usuales para obtener estimaciones de máxima verosimilitud para los parámetros de la mezcla es el algoritmo EM cuyas iniciales provienen de ExpectationMaximization (Dempster et al., 1977) (ver McLachlan y Krishnan, 1977). Una de las grandes ventajas de este tipo de algoritmos es que pueden identificar grupos con distintas formas, orientación y volumen, para lograr esto se plantea 4 que la matriz de covarianza de cada distribución (grupo) puede re-parametrizarse por su descomposición espectral en la forma: (2) Dk sirve para determinar la orientación de los elipsoides (grupos), matriz ortogonal de eigenvectores. Ak sirve para identificar la forma de la distribución, es una matriz diagonal compuesta por los eigenvalores de . λk es un escalar e identifica el volumen. Dicho lo anterior, cada componente de la matriz de covarianza representa cierta característica (orientación, volumen y forma), éstos pueden ser forzados a ser iguales en cada grupo o bien distintos para todos los grupos. Estas caracterizaciones las llamaremos plantillas. Por ejemplo, si se supone que todas las matrices de covarianza son iguales en todos los grupos, en otras palabras no existe correlación entre las variables de los datos, la matriz de covarianza para cada grupo sería expresada así . ( es la matriz identidad). Esta restricción es la misma que supone los algoritmos que usan el criterio de suma de cuadrados. El caso contrario a este ejemplo, la caracterización menos parsimoniosa donde se da la libertad a los parámetros de la matriz de covarianzas que varíen y se permite que sean desiguales en todos los grupos. Entre estos dos ejemplos, existirán modelos intermedios resultado de la combinación de la variación de las componentes. El cuadro 1 muestra diez representaciones de distintas estructuras de matriz de covarianza. La representación EVI indicaría un modelo donde todos los grupos tienen el mismo volumen (E, equal); la forma de los grupos puede variar (V, varing) y la orientación es I idéntica (I, Identity) que corresponde a una distribución diagonal En total tendremos 10 formas o 10 distintos modelos posibles de agrupar los datos. 5 Cuadro 1 Identifier Parametrización de la matriz de covarianza y su relación con la forma geométrica Model Distribution Volume Shape Orientation EII Spherical Equal Equal NA VII Spherical Variable Equal NA EEI Diagonal Equal Equal Coordinate axes VEI Diagonal Variable Equal Coordinate axes EVI Diagonal Equal VVI Diagonal Variable Variable Coordinate axes EEE Ellipsoidal Equal Equal Equal EEV Ellipsoidal Equal Equal Variable VEV Ellipsoidal Variable Equal Variable VVV Ellipsoidal Variable Variable Variable Variable Coordinate axes La decisión sobre cuál plantilla o modelo es el que más se ajusta a la población de estudio lo sugiere el criterio BIC por sus siglas en inglés Bayesian Information Criteria (Schwarz 1978) y es usado en un amplio número de aplicaciones (e.g. Dasgupta and Raftery 1998; Fraley and Raftery 1998, 2002). Proporciona la posibilidad de seleccionar distintos modelos del mismo modo que cuando realizamos contrastes de hipótesis. Este criterio trata de seleccionar el modelo correcto con máxima probabilidad a posteriori y puede demostrarse que es un criterio consistente de manera que la probabilidad de seleccionar el modelo correcto tiende a 1 si crece el tamaño muestral. La formulación añade una penalización a la función de verosimilitud basada sobre el número de parámetros. (3) Donde: es el valor máximo de la log verosimilitud de los datos usando algún modelo de los 10 disponibles. El valor es el número de parámetros independientes que son estimados en el modelo y el número de observaciones. Se tendrá el valor del criterio BIC para cada plantilla y para diferentes números de grupos. Se sugiere el modelo o plantilla que en combinación con el número de grupos maximice1 el criterio BIC, esto puede apreciarse mejor en un gráfica como en la figura 2. 1 Algunos autores definen el BIC con signo contrario a la expresión (3). En estos casos, el valor más pequeño (más negativo) es el que se toma como referencia para la elección del mejor modelo. 6 El software MCLUST implementa el agrupamiento basado en modelos, disponible en http://www.stat.washington.edu/mclust y diseñado para interfaz S-plus y/o R. La estimación bayesina requiere una compleja integración de elementos en la búsqueda de la mejor estimación sobre todo problemas computacionales de indeterminaciones. Afortunadamente el mismo paquete resuelve situaciones de no-convergencia o de soluciones no factibles que se pueden presentar en el algoritmo EM (ver [6]). Recientemente mucho se ha trabajado, ya en las estimaciones bayesianas usando MCMC (Markov Chain Monte Carlo) (ver más detalles en [7]). Fig. 2 Valores BIC para distintos modelos y distintos número de grupos, se elige la combinación que maximice el criterio. Como resumen podemos decir que sin duda, el alto crecimiento de aplicaciones en distintas áreas en materia de agrupamiento forza a los investigadores estadísticos a implementar nuevos algoritmos que mejoren los procedimiento y que se adapten a las aplicaciones reales. El método basado en modelos es una buena opción para realizar agrupaciones que no necesariamente son restringidos a ser iguales en forma y orientación, casos que se obtienen en situaciones reales con datos multidimencionales. Por la naturaleza del método podemos conocer las incertidumbres de los elementos clasificados en algún grupo, es decir, podemos saber qué probabilidad tiene el elemento de ser asignado a cualquier cluster y estimar el error de medición. Además, el problema de determinar el número de grupos se resuelve simultáneamente eligiendo también el mejor modelo o plantilla que se adapte a los datos según el criterio BIC. Otra ventaja es que el método 7 también tiene la capacidad de identificar la presencia de ruido y outliers suponiendo que es un grupo distinto a los demás modelado con una distribución Poisson. Para más detalles consultar las referencias mostradas. Referencias: [1] Banfield JD, Raftery AE (1993). “Model-based Gaussian and NonGaussian Clustering.” Biometrics, 49, 803–821. [2] Damaris Pascual (2010). “Algoritmos de agrupación basados en densidad y validación de clusters”. Tesis doctoral, Castellón, Marzo 2010. [3] Fraley C., Raftery AE (1998). “How Many Clusters? Which Clustering Method? – Answers via Model-based Cluster Analysis.” Computer Journal, 41, 578–588. [4] Fraley C., Raftery AE (1999). “MCLUST: Software for Model-based Cluster Analysis.” Journal of Classification, 16, 297–306. [5] Fraley C., Raftery AE (2002). “Model-based Clustering, Discriminant Analysis and Density Estimation.” Journal of the American Statistical Association, 97, 611–631. [6] Fraley C., Raftery AE (2007). “Bayesian Regularization for Normal Mixture Estimation and Model-Based Clustering”. Journal of Classification, 24, 155-181. [7] Jasra A, Holmes C.C y Stephens D.A (2005). “Markov Chain Monte Carlo Methods and the Label Switching Problem in Bayesian Mixture Modelling”. Statistical Science 20,50-67. [8] Peña, D. (2004). “Análisis de datos multivariantes”. McGraw-Hill Interamericana. 8