Cómo enfrentarse a datos complejos. Introducción al análisis

Anuncio
INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE:
TÉCNICAS BÁSICAS DE ORDENACIÓN Y
CLASIFICACIÓN EN R.
> JULIA VEGA ÁLVAREZ
> JENNIFER MORALES BARBERO
CONTENIDO
1. PRIMEROS PASOS
2. TÉCNICAS DE ORDENACIÓN
2.1 ANÁLISIS INDIRECTOS DE GRADIENTE (PCA, PCoA, NMDS y CA)
2.2 ANÁLISIS DIRECTOS DE GRADIENTE (CCA y RDA)
3. MÉTODOS DE CLASIFICACIÓN CLUSTER
4. EDICIÓN DE GRÁFICOS DE ORDENACIÓN EN R
PRIMEROS PASOS
¿Qué tengo?
¿Qué hago con lo que tengo?
 ¿SON BUENOS MIS DATOS?
 ¿He recogido muestras representativas de la población en estudio?
 ¿Existe algún sesgo en los datos recogidos?
 ¿ESTÁN CORRECTAMENTE EXPRESADOS?
 Revisar las matrices de datos en busca de errores de codificación
 ¿QUÉ TIPO DE VARIABLES TENGO?
 CUANTITATIVAS (DISCRETA o CONTINUA)
 CUALITATIVAS (NOMINAL u ORDINAL)
 ¿CÓMO PUEDO TRANSFORMAR MIS DATOS PARA AJUSTARLOS A LOS ANÁLISIS QUE
VOY A REALIZAR?




ELIMINAR DATOS ATÍPICOS o OUTLIERS que introduzcan ruido en los análisis.
DIVIDIR EL ARCHIVO de los datos en varias partes para facilitar su interpretación.
ELIMINAR/AGRUPAR VARIABLES con el fin de mejorar la interpretabilidad de los datos.
TRANSFORMAR matemáticamente las variables para que se puedan aplicar las técnicas
estadísticas elegidas.
“Conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico
de los datos y de las relaciones existentes entre las variables analizadas”.
¿ME FALTA INFORMACIÓN?
• Tratamiento y evaluación de DATOS AUSENTES (MISSING)
¿HAY CASOS RAROS?
• Identificación de CASOS ATÍPICOS (OUTLIERS)
¿CUMPLEN MIS DATOS CON LOS SUPUESTOS TEÓRICOS NECESARIOS PARA APLICAR LAS
TÉCNICAS ESTADÍSTICAS QUE QUIERO UTILIZAR?
• Comprobación de los SUPUESTOS de las técnicas MULTIVARIANTES (normalidad, linealidad,
homocedasticidad)

¿QUÉ ESTRUCTURA Y CARACTERÍSTICAS BÁSICAS TIENEN MIS DATOS?
 MEDIDAS DE POSICIÓN: CUARTILES, DECILES Y PERCENTILES
 MEDIDAS DE TENDENCIA CENTRAL: MEDIA, MEDIANA Y MODA.
 COEFICIENTES DE ASIMETRÍA (SKEWNESS)
 GRADO DE APUNTAMIENTO O CURTOSIS
 CORRELACIÓN ENTRE VARIABLES
Tipo de variable Representación gráfica
Medida de tendencia central
Medida de dispersión
NOMINAL
Diagrama de barras, líneas,
sectores
Moda
ORDINAL
Boxplot
Mediana
Rango intercuartílico
NUMÉRICA
Histograma
Polígono de frecuencias
Media
Desviación típica
TÉCNICAS DE
ORDENACIÓN
“Conjunto de técnicas que permiten estudiar las relaciones existentes entre la
composición de las comunidades naturales y las características ambientales de las
mismas”
 PREMISAS
 Se asume una estructura latente en los datos de composición, que viene determinada por unas
variables ambientales conocidas o desconocidas.
 OBJETIVOS
 REDUCIR LA COMPLEJIDAD DE LOS DATOS, mediante su representación en un diagrama de
ordenación de pocas dimensiones.
 CONSERVAR la máxima cantidad de INFORMACIÓN posible, mediante la generación de unos
factores latentes que se ordenan según la varianza o inercia explicada.
 DESCRIBIR GRÁFICAMENTE los patrones de composición y las relaciones entre individuos y
variables.
 FACILITAR LA INTERPRETACIÓN de la distribución de los individuos en relación a GRADIENTES
determinados por variables ambientales conocidas (directos) o desconocidas (indirectos).
Muestras
X Muestras x Individuos
Muestras
• Unidades de muestreo
• Puntos geográficos
• Entidades privadas
• Comunidades ecológicas
• Países
• Sectores económicos
Individuos
• Especies
• Pacientes
• Consumidores
• Trabajadores
• Empresas
• Industrias
• Genes
• Productos
• Grupos de población
• Elementos químicos
Medidas
• Abundancia
• Nº Individuos
• Densidad
• Cobertura
• Producción
• Rendimiento
• Pres/Aus
Variables
X Muestras x Variables
Muestras
Individuos
Variables
cuantitativas
continuas
•
•
•
•
•
•
•
•
Altura
Peso
Edad
Diversidad
Indicadores
económicos
Factores
ambientales
Distancia
geográfica
Tiempo
 MUESTRAS = VARIABLES CATEGÓRICAS
 INDIVIDUOS = VARIABLES CUANTITATIVAS
ANÁLISIS INDIRECTO DE GRADIENTE
(Sin información ambiental)
Muestras
Individuos
X Muestras x
Individuos
X Muestras x
Individuos
Variables
Muestras
ANÁLISIS DIRECTO DE GRADIENTE
(Ejes constreñidos por información ambiental)
Muestras
Individuos
X Muestras x
Variables
 DETECCIÓN INDIRECTA DE GRADIENTES DE VARIACIÓN DE COMPOSICIÓN ENTRE MUESTRAS.
 CREAR UN CONJUNTO DE DIMENSIONES LATENTES, NO CONSTREÑIDAS POR FACTORES
EXTERNOS, QUE MEJOR RESUMAN LA VARIABILIDAD DEL CONJUNTO DE DATOS
 LOS EJES DE ORDENACIÓN INFIEREN GRADIENTES
ANÁLISIS INDIRECTO
DE GRADIENTE
Muestras
X Muestras x Individuos
MEDIDA DE
DISTANCIA
Individuos
EUCLÍDEA
RELACIÓN
LINEAL
PCA
CA
χ2
CUALQUIERA
RELACIÓN
NO LINEAL
PCoA/
MDS
NMDS
¿QUÉ TIPO DE DISTANCIA QUIERO PRESERVAR EN EL PLANO DE
ORDENACIÓN?
¿QUÉ TIPO DE RELACIÓN EXISTE ENTRE INDIVIDUOS Y MUESTRAS?
MATRIZ DE PARTIDA
MATRIZ ORIGINAL
DE DATOS
• COMPOSICIÓN
(PCA, CA)
• DISTANCIA
(MDS, NMDS)
ESCALADO DE
DATOS
• CORRELACIÓN/
COVARIANZAS
(PCA, CA)
• DISTANCIAS
(MDS, NMDS)
• CENTRADO
• ESTANDARIZADO
DISTANCIAS
Muestras
1
0,4
0
0,2
0,1
0
0,3
0,8
0,1
0
0,6
0,6
0,7
0,5
0
Individuos
Muestras
Eje 2
• MÁXIMA VARIABILIDAD:
EIGENVALUES
(PCA, CA, MDS)
• DISTANCIAS ORIGINALES
(NMDS)
CORR/COV
Individuos
0
ORDENACIÓN FINAL
SELECCIÓN DE EJES
0,4
1
0,2
0,1
1
0,3
0,8
0,1
1
0,6
0,6
0,7
0,5
1
MDS, NMDS
Eje 1
ROTACIÓN DE EJES
• VARIMAX
• QUARTIMAX
• ROTACIÓN DE DIMENSIONES
CON VARIABLE EXTERNA
PCA,
CA,
ORDENACIÓN
INICIAL
A. PREMISAS
•
•
•
•
VARIABLES CUANTITATIVAS, CORRELACIONADAS ENTRE SÍ
SENSIBLE AL TIPO DE ESCALADO DE LAS VARIABLES ORIGINALES, 0.
SUPUESTOS DE NORMALIDAD, LINEALIDAD, CORRELACIÓN Y NO MULTICOLINEALIDAD
DISTRIBUCIÓN DE LAS VARIABLES Y RELACIÓN ENTRE VARIABLES LINEAL
B. FUNDAMENTO
EJES= COMPONENTES PRINCIPALES = COMBINACIÓN LINEAL
ORIGINALES.
• Preserva DISTANCIA EUCLÍDEA entre variables
•
Busca el espacio que recoge la MÁXIMA VARIABILIDAD ORIGINAL
•
DE
LAS
VARIABLES
C. OBJETIVO
•
Resumir el CONJUNTO DE DATOS y estudiar las RELACIONES ENTRE VARIABLES.
PCA en R
library(vegan)
data(dune)
pca.dune <- rda(dune, scale = F)
summary(pca.dune)
screeplot(pca.dune)
pca <- biplot(pca.dune, choices = c(1,2), scaling = 3, type = c("text", "points"))
goodness(pca.dune, choices = c(1,2), statistic = c("explained"), summarize = TRUE)
Componente
principal 2
INTERPRETACIÓN GRÁFICA
1. ABUNDANCIA DE INDIVIDUOS EN LAS
MUESTRAS
 Proyecciones ortogonales de los puntos
sobre los vectores
2. VARIABILIDAD DE LOS INDIVIDUOS
 Longitud de los vectores
3. CORRELACIÓN/COVARIANZA ENTRE
INDIVIDUOS
 Ángulos entre vectores
• ANÁLISIS DE ITEMS EN VALIDACIÓN DE TESTS
2
Componente
principal 1
1
3
MUESTRAS
INDIVIDUOS
XMuestras x Individuos
Matriz PCA
Supone relaciones LINEALES
Preserva distancia EUCLÍDEA
 PUNTUACIONES FACTORIALES (scores)
Coordenadas en el plano de ordenación
 CARGAS FACTORIALES (loadings)
Contribución relativa de las variables en los componentes
A. PREMISAS
•
•
•
VARIABLES CUANTITATIVAS/CUALITATIVAS/MIXTAS
SENSIBLE AL TIPO DE MEDIDA USADO. Si Euclídea MDS=PCA
RELACIÓN INDIVIDUOS/MUESTRAS LINEAL
B. FUNDAMENTO
• EJES= COORDENADAS PRINCIPALES = Distancia euclídea entre coordenadas ≈ distancias
originales. Representación euclídea de un conjunto de objetos cuyas relaciones son medidas
por cualquier medida de distancia elegida por el usuario.
•
Preserva CUALQUIER DISTANCIA entre muestras: Bray-Curtis, Jaccard, Manhattan...
•
Busca el espacio que REPRODUCE APROXIMADAMENTE LAS DISTANCIAS ORIGINALES y recoge
la MÁXIMA VARIABILIDAD de la matriz de distancias
C. OBJETIVO
•
RESUMIR LAS DISIMILARIDADES ENTRE MUESTRAS y ENCONTRAR GRUPOS HOMOGÉNEOS DE
MUESTRAS.
MDS en R
library(vegan)
data (varespec)
> braydist <- vegdist(varespec, method = "bray")
> mds.vares <- cmdscale(braydist, k = 2, eig = F, wascores = T)
> plot.mds <- ordiplot(mds.vares, type = "t")
> abline(h=0, v=0)
PCo 2
INTERPRETACIÓN GRÁFICA
1. SIMILARIDAD en términos de medida de
distancia ENTRE MUESTRAS
 Distancia entre puntos.
2. DETECCIÓN DE GRUPOS HOMOGÉNEOS DE
MUESTRAS
 Proximidad entre grupos de puntos
2
Pco 1
• ESTUDIOS DE ESTRUCTURA GENÉTICA
• MAPAS PERCEPTUALES
1
MUESTRAS
INDIVIDUOS
XMuestras x Individuos
Matriz PCoA/MDS
Supone relaciones LINEALES
Preserva CUALQUIER distancia
 Sites scores = POSICIÓN de las muestras en el
plano de ordenación
A. PREMISAS
•
•
•
VARIABLES CUANTITATIVAS/CUALITATIVAS/MIXTAS
SENSIBLE AL TIPO DE MEDIDA USADO
RELACIÓN INDIVIDUOS/MUESTRAS NO LINEAL
B. FUNDAMENTO
•
•
•
EJES = DIMENSIONES = Recoge SIMILARIDAD ENTRE PARES DE MUESTRAS
Preserva CUALQUIER DISTANCIA entre muestras: : Bray-Curtis, Jaccard, Manhattan...
Busca el espacio que MEJOR REPRESENTE LAS DISTANCIAS ORIGINALES en términos de
rangos de orden (Algoritmo iterativo < STRESS)
C. OBJETIVO
•
RESUMIR LAS DISIMILARIDADES ENTRE MUESTRAS y ENCONTRAR GRUPOS HOMOGÉNEOS DE
MUESTRAS.
NMDS en R
library(vegan)
library(MASS)
data (varespec)
> braydist <- vegdist(varespec)
> nmds.vares <- metaMDS(varespec, distance ="bray", wascores = T, autotransform = F)
> plot(nmds.vares, display = "sites", type = 't', xlim = c(-1, 1.5), ylim = c(-1, 1))
> stressplot(nmds.vares)
> goodness(nmds.vares, display = c("sites"), choices = c(1,2), statistic = c("distance"))
NMDS 2
INTERPRETACIÓN GRÁFICA
1. PROBABILIDAD DE SIMILARIDAD ENTRE
MUESTRAS en términos de rangos de orden
 Distancia entre puntos.
2. DETECCIÓN DE GRUPOS HOMOGÉNEOS DE
MUESTRAS
 Proximidad entre grupos definidos de puntos
2
Se superponen las coordenadas para especies como
medias ponderadas
MAPAS PERCEPTUALES: Estudiar las preferencias o
percepciones de Personas/Clientes/Consumidores
sobre Políticas/Productos/Servicios...
• MARKETING
• CIENCIAS SOCIALES
MUESTRAS
VARIABLES
XMuestras x Variables
Matriz NMDS
Supone relaciones NO LINEALES
CUALQUIER DISTANCIA
NMDS 1
1
 MEDIDA DE BONDAD DE AJUSTE = STRESS < 0.1
A. PREMISAS
•
•
VARIABLES NOMINALES, datos de frecuencia, presencia/ausencia...
SENSIBLE A DATOS RELATIVIZADOS, OUTLIERS,
DISTRIBUCIÓN DE LAS VARIABLES UNIMODAL
B. FUNDAMENTO
•
•
•
•
CATEGORÍAS
•
CATEGORÍAS
Frecuencias
Tabla de
EJES = FACTORES = MÁXIMA ABSORCIÓN INERCIA
TRABAJA CON PERFILES: coordenadas ponderadas por frecuencia relativa contingencia
Preserva DISTANCIA χ2 entre perfiles fila o columna.
Busca el subespacio que MEJOR REPRESENTE LA CORRESPONDENCIA ENTRE MUESTRAS e
INDIVIDUOS (< χ2 entre perfiles)
C. OBJETIVO
•
REPRESENTAR LOS PERFILES FILA O COLUMNA con precisión y estudiar las RELACIONES ENTRE
ELLOS.
CA en R
library(vegan)
data (varespec)
> ca.vares <- cca(varespec)
> plot(ca.vares, scaling = 3)
> screeplot(ca.vares)
> summary(ca.vares)
> goodness(ca.vares, display = c("sites"), choices = c(1,2), statistic = c("explained"),
summarize = TRUE)
1. SIMILARIDAD DE COMPOSICIÓN ENTRE
MUESTRAS
 Distancia entre puntos
2. PROBABILIDAD DE QUE UN INDIVIDUO SEA
FRECUENTE EN UNA MUESTRA/PROBABILIDAD
DE ASOCIACIÓN ENTRE CATEGORÍAS
 Distancia entre puntos individuos y puntos
muestras.
Factor 2
INTERPRETACIÓN GRÁFICA BIPLOT
1
Centroide
Factor 1
 Peor representación hacia el origen ≈ perfil
promedio
 No representa las distancias originales
• ESTUDIOS ECOLÓGICOS DE GRADIENTE LARGO
• ESTUDIOS PSICOLÓGICOS
Valor óptimo
2
INDIVIDUOS
MUESTRAS
Supone relaciones UNIMODALES
XMuestras x Individuos
Matriz CA
Distancia χ2
 PUNTOS= PERFILES = CENTROIDES
 INERCIA= VARIABILIDAD EXPLICADA
 DETECCIÓN DIRECTA DE GRADIENTES DE VARIACIÓN DE COMPOSICIÓN ENTRE MUESTRAS EN
FUNCIÓN DE UNAS VARIABLES DETERMINADAS A PRIORI
 CREAR UN CONJUNTO DE DIMENSIONES LATENTES DENOMINADAS FACTORES CONSTREÑIDOS POR
VARIABLES EXTERNAS
 LOS EJES DE ORDENACIÓN REPRESENTAN GRADIENTES
Individuos
Variables
X Muestras x Variables
Muestras
Muestras
X Muestras x Individuos
MEDIDA DE
DISTANCIA
ANÁLISIS DIRECTO
DE GRADIENTE
EUCLÍDEA
χ2
RELACIÓN
LINEAL
RELACIÓN
NO LINEAL
RDA
CCA
¿QUÉ TIPO DE DISTANCIA QUIERO PRESERVAR EN
EL PLANO DE ORDENACIÓN?
¿QUÉ TIPO DE RELACIÓN EXISTE ENTRE INDIVIDUOS
Y MUESTRAS?
MATRIZ ORIGINAL
DE DATOS
ESCALADO DE
DATOS
• COMPOSICIÓN/
VARIABLES
DEPENDIENTES
(RDA, CCA)
• CENTRADO
• ESTANDARIZADO
MATRIZ DE PARTIDA
• CORRELACIÓN/
COVARIANZAS
(RDA, CCA)
CORR/COV
Individuos
SELECCIÓN DE EJES
• COMBINACIÓN LINEAL DE
VAR. AMBIENTALES (RDA,
CCA)
Eje 2
ORDENACIÓN FINAL
Eje 1
Individuos
1
0,4
1
0,2
0,1
1
0,3
0,8
0,1
1
0,6
0,6
0,7
0,5
RDA,
CCA
1
VARIABLES DEPENDIENTES
• Distribución lineal: RDA
• Distribución unimodal: CCA
A. PREMISAS
•
VARIABLES RESPUESTA (y): CUANTITATIVAS, distribución LINEAL
•
VARIABLES EXPLICATIVAS (x): CUANTITATIVAS, relación LINEAL con VARIABLES RESPUESTA.
•
VARIABLES EXPLICATIVAS < Nº DE MUESTRAS
B. FUNDAMENTO
EJES CANÓNICOS = COMBINACIÓN LINEAL DE LAS VARIABLES AMBIENTALES.
Busca el subespacio RESTRINGIDO POR LAS VARIABLES AMBIENTALES que recoge la
MÁXIMA VARIABILIDAD ORIGINAL
• VARIANZA TOTAL= VARIANZA CONSTREÑIDA + VARIANZA NO CONSTREÑIDA. (V.C > V.N.C)
•
•
C. OBJETIVO
•
RESUMIR LA VARIACIÓN DE COMPOSICIÓN DE LAS MUESTRAS QUE PUEDE SER EXPLICADA
POR VARIABLES AMBIENTALES.
RDA en R
library(vegan)
data(dune)
data(dune.env)
> rda.dune <- rda(dune ~ Manure, dune.env, scale= F)
> plot(rda.dune, scaling = 3)
> screeplot(rda.dune)
> summary(rda.dune)
> goodness(rda.dune, display = c("species"), choices = c(1,2), statistic = c("explained"),
summarize = TRUE)
> anova(rda.dune)
4. VALOR DE LAS VARIABLES EN LAS MUESTRAS
 Proyecciones ortogonales de los puntos
sobre los vectores
5. CORRELACIÓN/COVARIANZA ENTRE
INDIVIDUOS Y VARIABLES AMBIENTALES
 Ángulos entre vectores
6. CORRELACIÓN/COVARIANZA ENTRE
VARIABLES AMBIENTALES
Eje 2
INTERPRETACIÓN GRÁFICA TRIPLOT
6
Eje 1
4
5
• ESTUDIOS ECOLÓGICOS DE GRADIENTE CORTO
XMuestras x Individuos
VARIABLES
MUESTRAS
MUESTRAS
INDIVIDUOS
XMuestras x Variables
Relacion LINEAL
 PUNTOS = MUESTRAS = UNIDADES DE MUESTREO
Distancia EUCLÍDEA  VECTORES = INDIVIDUOS = OBJETO DE ESTUDIO
 VECTORES RAYADOS = VARIABLES = VAR. AMBIENTALES
A. PREMISAS
•
•
•
VARIABLES RESPUESTA (y): NOMINALES, distribución UNIMODAL
VARIABLES EXPLICATIVAS (x): CUANTITATIVAS, relación LINEAL con VARIABLES RESPUESTA.
VARIABLES EXPLICATIVAS < Nº DE MUESTRAS
B. FUNDAMENTO
EJES CANÓNICOS = COMBINACIÓN LINEAL DE LAS VARIABLES AMBIENTALES
Busca el subespacio restringido por las VARIABLES AMBIENTALES que MEJOR REPRESENTE LA
CORRESPONDENCIA ENTRE MUESTRAS e INDIVIDUOS (< χ2 entre perfiles)
• INERCIA TOTAL= INERCIA CONSTREÑIDA + INERCIA NO CONSTREÑIDA. (I.C > I.N.C)
•
•
C. OBJETIVO
•
RESUMIR LAS POSICIONES DE LOS PERFILES FILA O COLUMNA con precisión EN RELACIÓN A
UN GRADIENTE AMBIENTAL DEFINIDO y estudiar las RELACIONES ENTRE ELLOS.
CCA en R
library(vegan)
data (varespec)
data(varechem)
> cca.vares <- cca(varespec, varechem)
> plot(cca.vares, scaling = 3)
> screeplot(cca.vares)
> summary(cca.vares)
> goodness(cca.vares, display = c("sites"), choices = c(1,2), statistic = c("explained"), summarize = TRUE)
> anova(cca.vares)
> vif.cca(cca.vares)
4. VALOR DE LA VARIABLE EN LA MUESTRA/
ÓPTIMO DEL INDIVIDUO EN LA VARIABLE
Eje 2
INTERPRETACIÓN GRÁFICA TRIPLOT
5
 Proyecciones ortogonales de los puntos
sobre los vectores
5. CORRELACIÓN/COVARIANZA ENTRE
VARIABLES AMBIENTALES
 Ángulos entre vectores
4
APLICACIONES
• ESTUDIOS ECOLÓGICOS DE GRADIENTE LARGO
• ANÁLISIS TEXTUAL (TEXT MINING)
INDIVIDUOS
VARIABLES
XMuestras x Individuos
MUESTRAS
MUESTRAS
Relación UNIMODAL
XMuestras x Variables
Distancia χ2
 PUNTOS = PERFILES = CENTROIDES
 VECTORES = VARIABLES AMBIENTALES
Eje 1
VARIABLES que constriñen los ejes
 Precio medio del menu
 Rapidez del servicio
 Calidad nutricional
 Prestigio culinario
XMuestras x Individuos
VARIABLES
MUESTRAS
MUESTRAS
INDIVIDUOS
XMuestras x Variables
Eje 2
MUESTRAS = TIPOS DE RESTAURANTES
 PIZZERÍAS
 HAMBURGUESERÍAS
 ITALIANO
 COCINA DE AUTOR
 ORIENTAL
INDIVIDUOS= % Clientes por sexo y edad
 MUJER < 25
 MUJER 25-40
 MUJER > 40
 HOMBRE < 25
 HOMBRE 25-40
 HOMBRE > 40
Prestigio
Calidad
MUJER > 40
HOMBRE > 40
Precio
Eje 1
Rapidez
MUJER 25-40
HOMBRE 25-40
MUJER < 25
HOMBRE < 25
 PUNTOS = MUESTRAS = UNIDADES DE MUESTREO
 VECTORES AZUL = INDIVIDUOS = VARIABLES RESPUESTA
 VECTORES ROSA = VARIABLES AMBIENTALES = VARIABLES
EXPLICATIVAS
MÉTODOS DE
CLASIFICACIÓN
“Conjunto de técnicas multivariantes que tienen por objetivo la clasificación de las
muestras en grupos homogéneos o cluster”
1. ELECCIÓN DE DATOS
 Estandarización
2. MEDIDA DE DISTANCIA/SIMILITUD
 Euclídea, Manhattan, Mahalanobis...
3. CRITERIO DE AGRUPACIÓN
 JERÁRQUICO
o AGLOMERATIVO
o DIVISIVO
 NO JERÁRQUICO
4. ELECCIÓN DEL NÚMERO DE GRUPOS
CLUSTER en R
library(vegan)
## JERÁRQUICO ##
##GENERAR MATRIZ DE DISTANCIAS##
> bray <-vegdist(dune, method = "bray", binary = "FALSE")
##GENERAR DENDROGRAMA##
> cluster <- hclust(bray, method = "complete", members = NULL)
> plot(cluster)
 TIPOS
A. MÉTODOS JERÁRQUICOS
 Dendrograma o árbol de clasificación
 Las muestras se asignan a los cluster por un criterio de DISTANCIA
 AGLOMERATIVOS
 Nearest Neighbour o Single linkage (distancia mínima)
 Furthest Neighbour o Complete linkage (Distancia máxima)
 Distancia entre centroides (centroid)
 Distancia promedio (UPGMA o average linkage)
 Distancia mediana (Median)
 Ward
 DIVISIVOS
 Cálculo iterativo de centros
 Monothetic
 Polythetic
B. MÉTODOS NO JERÁRQUICOS
 Nº de cluster definido a priori
 Las muestras se intercambian entre los cluster, sin establecer relaciones entre ellos, según un
criterio de optimización
K-means
EDICIÓN DE GRÁFICOS EN R
3.0
2.5
2.0
1.5
1.0
0.5
Ordination Distance
2
Non-metric fit, R 0.99
2
Linear fit, R 0.943
0.2
0.4
0.6
Observed Dissimilarity
0.8
orditkplot()
Descargar