Módulo para jóvenes

Anuncio
CUANTIFICANDO LA CLASE MEDIA EN MÉXICO: UN EJERCICIO
EXPLORATORIO
Nota Técnica 2
Introducción
El análisis de agrupamiento o clustering es una herramienta estadística que tiene
como objetivo identificar estructuras o subclases en los datos que tengan algún
sentido para el investigador. Por ejemplo, el investigador que está recogiendo
datos por medio de un cuestionario podría encontrarse con un gran número de
observaciones que no tienen un significado a menos que se encuentren dentro de
grupos manejables. Estos grupos (clusters) son desconocidos a priori sin embargo,
los mismos datos y los algoritmos de agrupamiento pueden dar la sugerencia de
su conformación.
Esencialmente se trata de resolver el siguiente problema: dado un conjunto de n
elementos caracterizados por la información de p variables, es decir se tiene un
conjunto de datos multivariados (individuos x variables), se plantea el reto de
agrupar los elementos de forma tal que los que pertenecen a un grupo sean tan
similares entre sí y los distintos grupos tan disimilares como sea posible. La
clasificación se considerará razonable si los objetos de un mismo grupo tienen
valores parecidos en las variables observadas, y por el contrario, entre individuos
pertenecientes a clases distintas pueden apreciarse características diferentes.
Una clasificación sobre los tipos de algoritmos:

Algoritmos basados en particionamientos. Se construyen varias
particiones de los datos y se evalúan siguiendo algún criterio, generalmente
este criterio consiste en que en cada paso se unen dos grupos si el
incremento de la suma de cuadrados es mínima.

Algoritmos jerárquicos. Crean una jerarquía que descompone el conjunto
de datos usando algún criterio. Este empieza con tantos grupos como
observaciones haya y el número de clusters va decreciendo de uno en uno en
cada paso. Dos grupos son unidos en cada etapa de acuerdo a un criterio de
optimización, comúnmente el criterio es la más pequeña disimilaridad (singlelinkage); disimilaridad promedio (average) o la máxima disimilaridad (complete).

Basados en densidad. Localizan zonas de alta densidad separadas por
regiones de baja densidad. Comienza seleccionando un punto t arbitrario, si t
1
es un punto central, se empieza a construir un cluster alrededor de él,
tratando de descubrir componentes denso-conectadas; si no, se visita otro
objeto del conjunto de datos. Uno de los primero algoritmos que utilizó este
enfoque: DBSCAN (Density Based Spatial Clustering of Aplications with
Noise) [Ester, et al., 96].

Basados en modelos. Se supone (hipótesis) una distribución para cada
grupo y se trata de encontrar la distribución conjunta que mejor se adapte a
los datos de estudio. Asume que los datos son producidos por una mezcla de
distribuciones, significa que es visto como si los datos provinieran de un
número finito de poblaciones mezcladas en varias proporciones, es decir que
cada población representa un cluster con características específicas.
Algo imprescindible cuando se realizan procedimientos de agrupamiento es el
contar con un criterio o un índice que valide la calidad de las agrupaciones y la
determinación del número de clusters. La mayoría se basan en estimar cuán
compactos y separados están los grupos midiendo la distancia euclideana de los
puntos a los centroides de los grupos (criterio usado en algoritmos basados en
particiones y jerárquicos). Sin embargo, esta forma de medir no toma en cuenta la
forma de los grupos ni el grado de solapamiento que puedan tener, dando a veces
resultados no realistas.
En la búsqueda de mejores técnicas y debido a su amplia gama de aplicaciones
se han desarrollado otros algoritmos encaminados a identificar patrones ocultos en
los datos, grupos solapados, presencia de ruido, (aquellos datos que no se ajustan
al patrón de la muestra) además identifica grupos con diferentes aspectos
geométricos: lineales, esféricas, irregulares, incluso huecas como grupos no
convexos, entre otros.
En general, los resultados de agrupamiento dependerán del algoritmo, del índice
de validación de la calidad de agrupación, de los valores de los parámetros, e
incluso está en función de la finalidad u objetivo de la investigación.
El caso del método basado en modelos tiene la virtud identificar grupos de
distintas figuras geométricas y es suficientemente general para abarcar otros
algoritmos de agrupamiento, por ejemplo los que se basan en el criterio de suma
de cuadrados. Más detalles McLachlan y Peel (2000) o Fraley and Raftery (2002).
Este método es una gran opción por su generalidad, por su disponibilidad de
software y por las distribuciones admitidas que no necesariamente son
gaussianas.
2
Para más información sobre distintos métodos y criterios de validación y calidad
de agrupación (ver [2]). Un método reciente por ejemplo, es el análisis de clúster
no jerárquico, el cual está relacionado con la identificación de outliers y es llamado
Fixed Point Cluster Analysis FPCA. El objetivo es encontrar grupos de puntos
generados por un modelo estocástico sin asumir un modelo global para todo el
conjunto de datos (ver C. Hennig 1997).
Método basado en modelos
Para fines ilustrativos, en la figura 1 se representa un conjunto de datos
bidimensionales en los que se forman varios grupos de manera natural, el método
de agrupamiento basado en modelos se distingue en tener varios supuestos:





Existen G grupos, el k-ésimo grupo es representado por
Los datos provienen de una mezcla de distribuciones.
Cada distribución representa un grupo (cluster).
La suma de estas funciones es una distribución conjunta, es decir una
mezcla de las distribuciones.
Cada observación surge de uno de los G grupos posibles.
Figura. 1 Representación de agrupación en un espacio de dimensión dos,
cada grupo es representado por un color y una función de
distribución que pueden o no ser distintas.
3
La representación de la mezcla de distribuciones matemáticamente es expresado
por:
(1)
Los valores πk son probabilidades a priori de cada grupo y son tal que
La función
) representa la k-ésima distribución de probabilidad o la función
que caracteriza el k-ésimo grupo. Es posible tener distintas distribuciones en la
misma mezcla. es el conjunto de parámetros que definen cada distribución. Por
ejemplo, si se supone que esas distribuciones son debidas a una mezcla de
gaussianas, entonces cada grupo tiene distintos parámetros entre sí (media y
varianza) y la expresión (1) se re-escribiría:
Sin embargo el parámetro es desconocido, así que se recurre a la estimación
bajo inferencia bayesiana en la que se calcula la distribución a posteriori de ,
dada la muestra.
En palabras, la expresión anterior se lee: “la distribución posterior
parámetro dado los datos, es proporcional a la información a priori de
veces la información de los datos”.
del
La distribución a priori
describe la incertidumbre de .
es la función de
verosimilitud, es decir, se busca que hace máxima la probabilidad de aparición
de los valores muestrales observados. En otras palabras, dados los valores en la
muestra se buscan los valores de los parámetros de la población que más
posibilidades tengan de representar a la población que generó a la muestra.
El objetivo general es estimar los parámetros de las distribuciones de la mezcla y
clasificar después las observaciones por sus probabilidades de pertenencia a las
distintas poblaciones según la distribución conjunta (1). Una de las elecciones más
usuales para obtener estimaciones de máxima verosimilitud para los parámetros
de la mezcla es el algoritmo EM cuyas iniciales provienen de ExpectationMaximization (Dempster et al., 1977) (ver McLachlan y Krishnan, 1977).
Una de las grandes ventajas de este tipo de algoritmos es que pueden identificar
grupos con distintas formas, orientación y volumen, para lograr esto se plantea
4
que la matriz de covarianza de cada distribución (grupo) puede re-parametrizarse
por su descomposición espectral en la forma:
(2)
Dk sirve para determinar la orientación de los elipsoides
(grupos), matriz ortogonal de eigenvectores.
Ak sirve para identificar la forma de la distribución, es una
matriz diagonal compuesta por los eigenvalores de .
λk es un escalar e identifica el volumen.
Dicho lo anterior, cada componente de la matriz de covarianza representa cierta
característica (orientación, volumen y forma), éstos pueden ser forzados a ser
iguales en cada grupo o bien distintos para todos los grupos. Estas
caracterizaciones las llamaremos plantillas.
Por ejemplo, si se supone que todas las matrices de covarianza son iguales en
todos los grupos, en otras palabras no existe correlación entre las variables de los
datos, la matriz de covarianza para cada grupo sería expresada así
. ( es
la matriz identidad). Esta restricción es la misma que supone los algoritmos que
usan el criterio de suma de cuadrados. El caso contrario a este ejemplo, la
caracterización menos parsimoniosa donde se da la libertad a los parámetros de la
matriz de covarianzas que varíen y se permite que sean desiguales en todos los
grupos. Entre estos dos ejemplos, existirán modelos intermedios resultado de la
combinación de la variación de las componentes.
El cuadro 1 muestra diez representaciones de distintas estructuras de matriz de
covarianza. La representación EVI indicaría un modelo donde todos los grupos
tienen el mismo volumen (E, equal); la forma de los grupos puede variar (V, varing)
y la orientación es I idéntica (I, Identity) que corresponde a una distribución
diagonal En total tendremos 10 formas o 10 distintos modelos posibles de agrupar
los datos.
5
Cuadro 1
Identifier
Parametrización de la matriz de covarianza y su relación con la forma
geométrica
Model
Distribution
Volume
Shape
Orientation
EII
Spherical
Equal
Equal
NA
VII
Spherical
Variable Equal
NA
EEI
Diagonal
Equal
Equal
Coordinate axes
VEI
Diagonal
Variable Equal
Coordinate axes
EVI
Diagonal
Equal
VVI
Diagonal
Variable Variable Coordinate axes
EEE
Ellipsoidal
Equal
Equal
Equal
EEV
Ellipsoidal
Equal
Equal
Variable
VEV
Ellipsoidal
Variable Equal
Variable
VVV
Ellipsoidal
Variable Variable Variable
Variable Coordinate axes
La decisión sobre cuál plantilla o modelo es el que más se ajusta a la población de
estudio lo sugiere el criterio BIC por sus siglas en inglés Bayesian Information
Criteria (Schwarz 1978) y es usado en un amplio número de aplicaciones (e.g.
Dasgupta and Raftery 1998; Fraley and Raftery 1998, 2002). Proporciona la
posibilidad de seleccionar distintos modelos del mismo modo que cuando
realizamos contrastes de hipótesis. Este criterio trata de seleccionar el modelo
correcto con máxima probabilidad a posteriori y puede demostrarse que es un
criterio consistente de manera que la probabilidad de seleccionar el modelo
correcto tiende a 1 si crece el tamaño muestral. La formulación añade una
penalización a la función de verosimilitud basada sobre el número de parámetros.
(3)
Donde:
es el valor máximo de la log verosimilitud de los datos usando
algún modelo de los 10 disponibles. El valor
es el número de parámetros
independientes que son estimados en el modelo y el número de observaciones.
Se tendrá el valor del criterio BIC para cada plantilla y para diferentes números de
grupos. Se sugiere el modelo o plantilla que en combinación con el número de
grupos maximice1 el criterio BIC, esto puede apreciarse mejor en un gráfica como
en la figura 2.
1
Algunos autores definen el BIC con signo contrario a la expresión (3). En estos casos, el valor más
pequeño (más negativo) es el que se toma como referencia para la elección del mejor modelo.
6
El software MCLUST implementa el agrupamiento basado en modelos, disponible
en http://www.stat.washington.edu/mclust y diseñado para interfaz
S-plus y/o
R.
La estimación bayesina requiere una compleja integración de elementos en la
búsqueda de la mejor estimación sobre todo problemas computacionales de
indeterminaciones. Afortunadamente el mismo paquete resuelve situaciones de
no-convergencia o de soluciones no factibles que se pueden presentar en el
algoritmo EM (ver [6]). Recientemente mucho se ha trabajado, ya en las
estimaciones bayesianas usando MCMC (Markov Chain Monte Carlo) (ver más
detalles en [7]).
Fig. 2
Valores BIC para distintos modelos y distintos número de
grupos, se elige la combinación que maximice el criterio.
Como resumen podemos decir que sin duda, el alto crecimiento de aplicaciones
en distintas áreas en materia de agrupamiento forza a los investigadores
estadísticos a implementar nuevos algoritmos que mejoren los procedimiento y
que se adapten a las aplicaciones reales. El método basado en modelos es una
buena opción para realizar agrupaciones que no necesariamente son restringidos
a ser iguales en forma y orientación, casos que se obtienen en situaciones reales
con datos multidimencionales. Por la naturaleza del método podemos conocer las
incertidumbres de los elementos clasificados en algún grupo, es decir, podemos
saber qué probabilidad tiene el elemento de ser asignado a cualquier cluster y
estimar el error de medición. Además, el problema de determinar el número de
grupos se resuelve simultáneamente eligiendo también el mejor modelo o plantilla
que se adapte a los datos según el criterio BIC. Otra ventaja es que el método
7
también tiene la capacidad de identificar la presencia de ruido y outliers
suponiendo que es un grupo distinto a los demás modelado con una distribución
Poisson. Para más detalles consultar las referencias mostradas.
Referencias:
[1] Banfield JD, Raftery AE (1993). “Model-based Gaussian and NonGaussian Clustering.” Biometrics, 49, 803–821.
[2] Damaris Pascual (2010). “Algoritmos de agrupación basados en densidad
y validación de clusters”. Tesis doctoral, Castellón, Marzo 2010.
[3] Fraley C., Raftery AE (1998). “How Many Clusters? Which Clustering
Method? – Answers via Model-based Cluster Analysis.” Computer Journal,
41, 578–588.
[4] Fraley C., Raftery AE (1999). “MCLUST: Software for Model-based Cluster
Analysis.” Journal of Classification, 16, 297–306.
[5] Fraley C., Raftery AE (2002). “Model-based Clustering, Discriminant
Analysis and Density Estimation.” Journal of the American Statistical
Association, 97, 611–631.
[6] Fraley C., Raftery AE (2007). “Bayesian Regularization for Normal Mixture
Estimation and Model-Based Clustering”. Journal of Classification, 24,
155-181.
[7] Jasra A, Holmes C.C y Stephens D.A (2005). “Markov Chain Monte Carlo
Methods and the Label Switching Problem in Bayesian Mixture Modelling”.
Statistical Science 20,50-67.
[8] Peña, D. (2004). “Análisis de datos multivariantes”. McGraw-Hill Interamericana.
8
Descargar