Medidas de Distancia

Anuncio
Medidas de Distancia
Miguel Cárdenas-Montes
La aplicación de métricas de distancia diferentes de la distancia euclidea
puede suponer una importante mejora en el rendimiento de algoritmos
evolutivos y en algoritmos de minería de datos.
Objetivos:
Conocer algunas medidas de distancia especialmente aquellas diferentes de la distancia euclídea.
Este documento puede contener imprecisiones o errores. Por favor no lo utilice
para citarlo como una fuente fiable.
1
Definición Formal de Distancia
Una definición formal de distancia D ( ~
X1 , ~
X2 )
No negativo:
D(~
X1 , ~
X2 ) ≥ 0 ∀ ~
X1 , ~
X2 ∈ X
Simetría:
D(~
X1 , ~
X2 ) = D ( ~
X2 , ~
X1 ) ∀ ~
X1 , ~
X2 ∈ X
Desigualdad triangular:
D(~
X1 , ~
X2 ) ≤ D ( ~
X1 , ~
X3 ) + D ( ~
X3 , ~
X2 ) ∀ ~
X1 , ~
X2 , ~
X3 ∈ X
Muchas medidas de distancia no son medidas porque no cumplen los requisitos. Por ejemplo, las pseudométricas no
cumplen las condiciones: distancias no
negativas ni la identidad de indiscernibles. Las quasimétricas no cumplen la
condición de simetría, y por último las
semimétricas no cumplen la desigualdad triangular.
Axioma de coincidencia o identidad de indiscernibles:
D(~
X1 , ~
X2 ) = 0, si y solo si ~
X1 = ~
X2
2
Distancia Euclídea
La distancia euclídea entre dos punto se define en la ecuación 1.
D(~
X1 , ~
X2 ) =
s
n
∑ (x1i − x2i )2
(1)
i =1
Además hay que tener cuidado si tiene atributos con rangos muy
grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y
otros con rangos pequeños (por ejemplo atributo edad de la persona
que pide la hipoteca), ya que unos enmascarará a los otros. La solución
es normalizar adecuadamente todos los atributos (ecuación 2).
v′ =
v − vmin
vmax − vmin
(2)
2
m
m
3 Distancia Manhattan
En esta métrica, la distancia entre dos puntos es la suma de las
diferencias absolutas entre sus coordenadas (ecuación 3).
D(~
X1 , ~
X2 ) = || X1 − X2 || =
n
∑ |X1i − X2i |
(3)
i =1
4 Distancia Chebyshev
Figura 1: Distancia Manhattan contra
distancia Euclideana: Las líneas roja,
azul y amarilla tienen la misma longitud
(12) en las geometrías Euclideana y taxicab. En la geometría Euclideana,
la línea
√
verde tiene longitud 6 2 ≈ 8,48, y es el
único camino más corto. En la geometría
taxicab, la línea verde tiene longitud 12,
por lo que no es más corta que los otros
caminos.
Wikipedia: Geometría del taxista
También se denomina métrica máxima o métrica L∞ . La distancia
de Chebyshev entre dos vectores es la mayor diferencia en cualquiera
de las coordenadas del espacio (ecuación 4).
D(~
X1 , ~
X2 ) = max (| X1i − X2i |)
(4)
5 Distancia del Coseno
La distancia del coseno no es propiamente una distancia sino una
medida de similaridad entre dos vectores en un espacio que tiene definido un producto interior. En el espacio euclídeo este producto interior
es el producto escalar, ecuación 5. La similaridad coseno no debe ser
considerada como una métrica debido a que no cumple la desigualdad
triangular.
En el ajedrez, la distancia entre cuadrados en el tablero para las torres se mide
en distancia Manhattan; reyes y reinas
usan la distancia Chebyshev, y los alfiles
usan la distancia Manhattan (entre cuadrados del mismo color) en el tablero rotado en 45 grados, es decir, con sus diagonales como ejes coordenados. Para ir
de un cuadrado a otro, solo los reyes requieren tantos movimientos como el valor de la distancia; torres, reinas y alfiles
requieren uno o dos movimientos (en un
tablero vacío, y asumiendo que el movimiento es posible en el caso del alfil).
Wikipedia: Geometría del taxista
~X1 · ~X2 = || X1 || || X2 || cos(θ )
similaridad = cos(θ ) =
~X1 · ~X2
|| X1 || || X2 ||
(5)
(6)
Para que la medida de similaridad esté en el rango (0,1), se puede
arccos(similaridad)
.
calcular a través de la fórmular 1 −
π
En minería de datos se suele emplear como un indicador de cohesión de clusteres de textos.
6 Distancia Hamming
Si los atributos son categóricos, entonces la distancia Hamming propone una distancia entre dos cadenas: la distancia es 1 por cada elemento diferente y 0 por cada elemento idéntico en la cadena.
La distancia de toned a roses es 3.
La distancia de 1011101 a 1001001 es 2.
m
e
d
i
d
a
s
d
e
d
i
s
t
a
n
i
a
3
La distancia de 2173896 a 2233796 es 3.
Dicho de otra forma, define el mínimo número de sustituciones para
convertir una cadena en otra. Solo es válida si ambas sequencias tienen
la misma longitud.
7
Distancia Levenshtein
La distancia de Levenshtein es también llamada distancia de edición o distancia entre palabras. Esta distancia mide el número mínimo
de operaciones para transformar una cadena de caracteres en otra cadena de caracteres. Las operaciones válidas para esta medida son la
inserción, la eliminación y la sustitución de un carácter.
La distancia de Levenshtein es una generalización de la distancia de
Hamming. En la distancia de Hamming ambas cadenas tienen que tener la misma longitud, y por lo tanto, solo admite la operación de sustitución. Existen otras generalizaciones de la distancia de Hamming,
por ejemplo la distancia de Damerau-Levenshtein.
8
Distancia Damerau-Levenshtein
A diferencia de la distancia de Levenshtein, la distancia de DamerauLevenshtein incluye transposición de dos caracteres. Por lo tanto, además de las operaciones de inserción, eliminación y sustitución de un
carácter, incorpora la transposición de dos caracteres.
9
Distancia Mahalanobis
La distancia de Mahalanobis mide la distancia de un conjunto de
puntos a un punto común. Es un valor sin unidades. Fue introducida
por Mahalanobis en 1936. Esta distancia difiere de la distancia euclídea, Manhattan y otras en que tiene en cuenta las correlaciones del
conjunto de datos. La distancia de Mahalanobis es invariante de escala.
D(~
X1 , ~
X2 ) =
s
( x11 − x12 )
σ1
D(~
X1 , ~
X2 ) =
q
2
+
( x21 − x22 )
σ2
(~x1 − ~x2 )S−1 (~x1 − ~x2 )
2
(7)
(8)
donde S es una matriz diagonal cuyos elementos en la diagonal sij = σi
Se puede imaginar un caso en el cual las dos variables de las ecuaciones anteriores no sean independientes. Es decir, que cuando una
variable aumenta, es más probable que la otra variable se comporte
La invariancia de escala es una propiedad de objetos o leyes en los que no hay
cambios si la escala de tamaño (o la escala de energía) son multiplicadas por un
factor común.
Wikipedia: Invariancia de escala
4
m
m
de igual manera, o de forma opuesta (disminuye), pero correlacionadas. Para incorporar la dependencia entre las dos variables, se puede
sustituir la matriz diagonal S por la matriz de covarianza Σ:
D(~
X1 , ~
X2 ) =
q
(~x1 − ~x2 )Σ−1 (~x1 − ~x2 )
(9)
Si se sustituye la matriz de covarianza Σ, por la matriz identidad,
entonces la distancia de mahalanobis se transforma en la distancia euclidea.
Descargar