Medidas de Distancia Miguel Cárdenas-Montes La aplicación de métricas de distancia diferentes de la distancia euclidea puede suponer una importante mejora en el rendimiento de algoritmos evolutivos y en algoritmos de minería de datos. Objetivos: Conocer algunas medidas de distancia especialmente aquellas diferentes de la distancia euclídea. Este documento puede contener imprecisiones o errores. Por favor no lo utilice para citarlo como una fuente fiable. 1 Definición Formal de Distancia Una definición formal de distancia D ( ~ X1 , ~ X2 ) No negativo: D(~ X1 , ~ X2 ) ≥ 0 ∀ ~ X1 , ~ X2 ∈ X Simetría: D(~ X1 , ~ X2 ) = D ( ~ X2 , ~ X1 ) ∀ ~ X1 , ~ X2 ∈ X Desigualdad triangular: D(~ X1 , ~ X2 ) ≤ D ( ~ X1 , ~ X3 ) + D ( ~ X3 , ~ X2 ) ∀ ~ X1 , ~ X2 , ~ X3 ∈ X Muchas medidas de distancia no son medidas porque no cumplen los requisitos. Por ejemplo, las pseudométricas no cumplen las condiciones: distancias no negativas ni la identidad de indiscernibles. Las quasimétricas no cumplen la condición de simetría, y por último las semimétricas no cumplen la desigualdad triangular. Axioma de coincidencia o identidad de indiscernibles: D(~ X1 , ~ X2 ) = 0, si y solo si ~ X1 = ~ X2 2 Distancia Euclídea La distancia euclídea entre dos punto se define en la ecuación 1. D(~ X1 , ~ X2 ) = s n ∑ (x1i − x2i )2 (1) i =1 Además hay que tener cuidado si tiene atributos con rangos muy grandes (por ejemplo, ingresos de la persona que pide la hipoteca) y otros con rangos pequeños (por ejemplo atributo edad de la persona que pide la hipoteca), ya que unos enmascarará a los otros. La solución es normalizar adecuadamente todos los atributos (ecuación 2). v′ = v − vmin vmax − vmin (2) 2 m m 3 Distancia Manhattan En esta métrica, la distancia entre dos puntos es la suma de las diferencias absolutas entre sus coordenadas (ecuación 3). D(~ X1 , ~ X2 ) = || X1 − X2 || = n ∑ |X1i − X2i | (3) i =1 4 Distancia Chebyshev Figura 1: Distancia Manhattan contra distancia Euclideana: Las líneas roja, azul y amarilla tienen la misma longitud (12) en las geometrías Euclideana y taxicab. En la geometría Euclideana, la línea √ verde tiene longitud 6 2 ≈ 8,48, y es el único camino más corto. En la geometría taxicab, la línea verde tiene longitud 12, por lo que no es más corta que los otros caminos. Wikipedia: Geometría del taxista También se denomina métrica máxima o métrica L∞ . La distancia de Chebyshev entre dos vectores es la mayor diferencia en cualquiera de las coordenadas del espacio (ecuación 4). D(~ X1 , ~ X2 ) = max (| X1i − X2i |) (4) 5 Distancia del Coseno La distancia del coseno no es propiamente una distancia sino una medida de similaridad entre dos vectores en un espacio que tiene definido un producto interior. En el espacio euclídeo este producto interior es el producto escalar, ecuación 5. La similaridad coseno no debe ser considerada como una métrica debido a que no cumple la desigualdad triangular. En el ajedrez, la distancia entre cuadrados en el tablero para las torres se mide en distancia Manhattan; reyes y reinas usan la distancia Chebyshev, y los alfiles usan la distancia Manhattan (entre cuadrados del mismo color) en el tablero rotado en 45 grados, es decir, con sus diagonales como ejes coordenados. Para ir de un cuadrado a otro, solo los reyes requieren tantos movimientos como el valor de la distancia; torres, reinas y alfiles requieren uno o dos movimientos (en un tablero vacío, y asumiendo que el movimiento es posible en el caso del alfil). Wikipedia: Geometría del taxista ~X1 · ~X2 = || X1 || || X2 || cos(θ ) similaridad = cos(θ ) = ~X1 · ~X2 || X1 || || X2 || (5) (6) Para que la medida de similaridad esté en el rango (0,1), se puede arccos(similaridad) . calcular a través de la fórmular 1 − π En minería de datos se suele emplear como un indicador de cohesión de clusteres de textos. 6 Distancia Hamming Si los atributos son categóricos, entonces la distancia Hamming propone una distancia entre dos cadenas: la distancia es 1 por cada elemento diferente y 0 por cada elemento idéntico en la cadena. La distancia de toned a roses es 3. La distancia de 1011101 a 1001001 es 2. m e d i d a s d e d i s t a n i a 3 La distancia de 2173896 a 2233796 es 3. Dicho de otra forma, define el mínimo número de sustituciones para convertir una cadena en otra. Solo es válida si ambas sequencias tienen la misma longitud. 7 Distancia Levenshtein La distancia de Levenshtein es también llamada distancia de edición o distancia entre palabras. Esta distancia mide el número mínimo de operaciones para transformar una cadena de caracteres en otra cadena de caracteres. Las operaciones válidas para esta medida son la inserción, la eliminación y la sustitución de un carácter. La distancia de Levenshtein es una generalización de la distancia de Hamming. En la distancia de Hamming ambas cadenas tienen que tener la misma longitud, y por lo tanto, solo admite la operación de sustitución. Existen otras generalizaciones de la distancia de Hamming, por ejemplo la distancia de Damerau-Levenshtein. 8 Distancia Damerau-Levenshtein A diferencia de la distancia de Levenshtein, la distancia de DamerauLevenshtein incluye transposición de dos caracteres. Por lo tanto, además de las operaciones de inserción, eliminación y sustitución de un carácter, incorpora la transposición de dos caracteres. 9 Distancia Mahalanobis La distancia de Mahalanobis mide la distancia de un conjunto de puntos a un punto común. Es un valor sin unidades. Fue introducida por Mahalanobis en 1936. Esta distancia difiere de la distancia euclídea, Manhattan y otras en que tiene en cuenta las correlaciones del conjunto de datos. La distancia de Mahalanobis es invariante de escala. D(~ X1 , ~ X2 ) = s ( x11 − x12 ) σ1 D(~ X1 , ~ X2 ) = q 2 + ( x21 − x22 ) σ2 (~x1 − ~x2 )S−1 (~x1 − ~x2 ) 2 (7) (8) donde S es una matriz diagonal cuyos elementos en la diagonal sij = σi Se puede imaginar un caso en el cual las dos variables de las ecuaciones anteriores no sean independientes. Es decir, que cuando una variable aumenta, es más probable que la otra variable se comporte La invariancia de escala es una propiedad de objetos o leyes en los que no hay cambios si la escala de tamaño (o la escala de energía) son multiplicadas por un factor común. Wikipedia: Invariancia de escala 4 m m de igual manera, o de forma opuesta (disminuye), pero correlacionadas. Para incorporar la dependencia entre las dos variables, se puede sustituir la matriz diagonal S por la matriz de covarianza Σ: D(~ X1 , ~ X2 ) = q (~x1 − ~x2 )Σ−1 (~x1 − ~x2 ) (9) Si se sustituye la matriz de covarianza Σ, por la matriz identidad, entonces la distancia de mahalanobis se transforma en la distancia euclidea.