Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip ISSN 1405-2172 BÚSQUEDA DE PATRONES EN BASES DE DATOS DE ELECTROCARDIOGRAMAS: UN ANÁLISIS COMPARATIVO Lara Dévora Sandra Luz, Vega López Inés Fernando Universidad Autónoma de Sinaloa Facultad de Informática Culiacán Josefa Ortíz de Domínguez s/n Ciudad Universitaria, Culiacán, Sinaloa Tel.: (667) 716-1361 y Tel.: 715-6481 sandra.lara@info.uas.edu.mx, ifvega@uas.uasnet.mx RESUMEN La gran capacidad de almacenamiento y poder de procesamiento en los sistemas de cómputo actuales permiten almacenar grandes cantidades de nuevos tipos de datos, cuyo análisis resulta crítico en una amplia variedad de aplicaciones científicas y de ingeniería. De particular interés, resultan las bases de datos que se generan a partir de señales digitales de electrocardiografía. Esta situación nos presenta con el reto de desarrollar modelos de cómputo que permitan su estructuración, almacenamiento y organización para que operaciones de búsqueda puedan realizarse de manera eficiente. En este trabajo presentamos una evaluación experimental de las técnicas que pueden dar un soporte eficiente a la búsqueda de patrones de interés en bases de datos de electrocardiogramas. Nuestros resultados muestran que técnicas basadas en la segmentación temporal de la señal permiten un almacenamiento estructurado de los datos mientras que, al mismo tiempo, observan altos indicadores de eficiencia en la búsqueda de patrones. expertos del dominio en el proceso de extracción de conocimiento de los datos, es decir, en la detección de patrones de comportamiento en las señales biomédicas que permitan explicar los fenómenos bajo estudio. Desarrollar modelos computacionales que den soporte al análisis eficiente de señales biomédicas es un problema complejo no solo por el gran tamaño de las bases de datos involucradas sino porque el orden y la validez temporal de cada registro deben ser tomados en cuenta. El análisis de este tipo de datos tiene implicaciones tecnológicas y sociales de suma importancia. Por ejemplo, la Organización Mundial de la Salud reconoce que las enfermedades cardiovasculares son la principal causa de muerte a nivel mundial [1]. Las señales biomédicas son series de tiempo donde se mide periódicamente una variable de interés sobre el comportamiento fisiológico de un paciente. Por ejemplo, la actividad eléctrica del corazón (electrocardiogramas). Una serie de tiempo es una secuencia de números reales que representan la medición de un evento a lo largo del tiempo. Para estructurar bases de datos de series de tiempo, los esfuerzos de investigación se han enfocado a desarrollar técnicas para reducir el tamaño de la representación de una serie de tiempo y, al mismo tiempo, tratar de preservar la mayoría de las características distintivas del objeto original. A este proceso se le conoce como caracterización o extracción del vector característico. Este proceso de extracción puede verse también como un proceso de compresión donde existe pérdida de información. Las técnicas de caracterización de series de tiempo más destacadas y que constituyen el estado del arte pueden ser clasificadas como: a) transformaciones del espacio tiempo/frecuencia (DFT y DWT), b) técnicas basadas en segmentación (PAA [2] y APCA [3]) y c) técnicas basadas en la cuantificación (Clipped [4]) o técnicas híbridas (SAX [5]). 1. INTRODUCCION La gran capacidad de almacenamiento y poder de procesamiento en los sistemas de cómputo actuales nos permiten considerar almacenar grandes cantidades de nuevos tipos de datos, cuyo análisis resulta crítico en una amplia variedad de aplicaciones científicas y de ingeniería. En particular, la gran acumulación de datos clínicos en bases de datos médicas nos presenta con el reto de desarrollar modelos de cómputo que permitan su estructuración, almacenamiento y organización para que operaciones de búsqueda puedan realizarse de manera eficiente.1Estas operaciones se vuelven el eje central en el desarrollo de técnicas de minería de datos que asistan a los El presente trabajo fue financiado en parte por la Universidad Autónoma de Sinaloa a través de su Programa de Fomento y Apoyo a Proyectos de Investigación, proyecto 2008/181, por la Secretaría de Economía a través del proyecto PROSOFT 2007/1253 y por el Consejo Nacional de Ciencia y Tecnología, proyecto 106098. 1 Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip ISSN 1405-2172 Es necesario hacer notar que el impacto que las técnicas de caracterización tienen en la efectividad de la búsqueda de patrones en bases de datos de series de tiempo es altamente dependiente de las características particulares del conjunto de datos a analizar [6]. Esta situación motiva nuestro trabajo, cuyo objetivo y principal contribución es comparar de manera exhaustiva las técnicas de caracterización de series de tiempo y determinar cual o cuales de ellas pueden dar un soporte eficiente a la búsqueda de patrones de interés en bases de datos de electrocardiogramas. vectores característicos de dos patrones, pueda estimar su distancia Euclidea. Para todas las técnicas de caracterización utilizadas en este trabajo es posible definir una función que sub estime la distancia Euclidea de dos patrones a partir de sus vectores característicos. Es decir, dados dos patrones, X1 y X2, y sus vectores característicos x1 y x2, es posible definir DLB(x1, x2), tal que DLB(x1, x2) ≤ DE(X1, X2), donde DE(X1, X2) es la distancia Euclidea entre los patrones X1 y X2. Gracias a esta característica, el algoritmo de búsqueda puede detectar patrones semejantes utilizando solamente sus vectores característicos. Sin embargo, al subestimar la distancia real, el uso de vectores característicos puede incluir falsos positivos en el proceso de búsqueda, mismos que deberán ser filtrados en una etapa posterior. 2. METODOLOGIA En la comparación de las técnicas de caracterización de series de tiempo aplicadas a electrocardiogramas para la búsqueda eficiente de patrones en bases de datos, establecimos el siguiente diseño experimental. La eficiencia del algoritmo de búsqueda depende entonces de la cantidad de falsos positivos que deban ser filtrados. Idealmente, una técnica de caracterización que proporcione una función de distancia tal que la diferencia entre DLB(x1, x2) y DE(X1, X2) tienda a cero, produciría cero falsos positivos y tendría una eficiencia óptima. En primera instancia, una señal biomédica, en este caso un electrocardiograma, es tratada como una serie de tiempo. Definimos el término patrón de interés como el primer motif en una serie de tiempo. El primer motif es aquella subsecuencia del electrocardiograma cuya semejanza con su vecino más cercano es mayor a la semejanza que observa cualquier otra subsecuencia en el mismo electrocardiograma con su vecino más cercano [7]. En la literatura se ha reportado que la técnica de los vecinos más cercanos es difícil de mejorar en problemas de clasificación de series de tiempo [8]. Para evaluar la efectividad de las diversas técnicas de caracterización aplicadas a la búsqueda de patrones en bases de datos de electrocardiogramas, hemos seleccionado el índice TLB (Tightness of Lower Bounds, por sus siglas en inglés), propuesto por Trajcevski el at. [9]. El índice TLB se calcula como el cociente de la distancia aproximada entre patrones calculada a partir de sus vectores característicos y la distancia Euclidea real, de acuerdo a la siguiente expresión. Para establecer la cercanía o semejanza entre patrones, en este trabajo se utiliza la distancia Euclidea, de manera que dos patrones son semejantes en la medida que la distancia Euclidea entre ellos se reduce. Sean A y B dos patrones (subsecuencias) de electrocardiograma, ambos de longitud N, la distancia Euclidea entre ellos se define de acuerdo con la siguiente expresión. DE(A,B) = N 2 ∑ (A − B ) i i i =1 , TLB = D L B ( x1 , x 2 ) , DE ( X 1, X 2 ) (2) donde, X1 y X2, son dos patrones en la base de datos y x1 y x2, son sus vectores característicos, respectivamente. (1) Así, se espera que una técnica de caracterización permita búsquedas eficientes cuando su valor TLB tienda a 1. Lo cual significa que la distancia Euclidea real y la distancia aproximada son casi iguales y, por lo tanto, se produciría un número reducido de falsos positivos en el proceso de búsqueda, haciéndolo más eficiente. Por otro lado, una mala técnica de caracterización tendrá valores TLB cercanos a 0, significando que la diferencia entre la distancia Euclidea real y la aproximada es máxima y que por lo tanto se generará un alto número de falsos positivos en el proceso de búsqueda, con el consecuente aumento en el tiempo dedicado al proceso de filtrado. donde Ai es el i-esimo elemento del patrón A. El algoritmo de búsqueda de patrones utilizado en este trabajo recibe como entrada una versión caracterizada de los electrocardiogramas que constituyen el conjunto de datos de prueba. El utilizar la versión caracterizada proporciona estructura a la base de datos y reduce significativamente la cantidad de datos que el algoritmo de búsqueda debe leer, incrementando así su eficiencia. Esta es una técnica probada en bases de datos de series de tiempo [6] y que por lo tanto resulta directamente aplicable a bases de datos de electrocardiogramas. En nuestros experimentos, la variable a evaluar es el índice TLB de cada técnica de caracterización como una medida Para medir la semejanza entre patrones en este escenario se debe utilizar una función de distancia que, a partir de los 2 Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip ISSN 1405-2172 de su eficiencia en la búsqueda de patrones en bases de datos de electrocardiogramas. Como se mencionó en la sección anterior, caracterizar una serie de tiempo es un tipo de compresión con pérdida. Para evaluar cómo la pérdida de información influye en la eficiencia con la que se puede realizar la búsqueda de patrones, decidimos utilizar vectores característicos de diversos tamaños (a mayor tamaño, menor la pérdida de información). En los experimentos se incluyen comparaciones con vectores característicos de de 8, 16 y 32 dimensiones. Para el caso de las técnicas basadas en cuantificación, donde no necesariamente existe variación en la dimensionalidad de los vectores, lo que hacemos es Búsqueda de Patrones de Longitud 256 en la Base de Datos de Pruebas de Compresión. Búsqueda de Patrones de Longitud 128 en la Base de Datos de Arritmias. Búsqueda de Patrones de Longitud 256 en la Base de Datos QT. Búsqueda de Patrones de Longitud 512 en la Base de Datos de Frecuencia Cardiaca. Fig. 1. Índice TLB para la Búsqueda de motifs de diferentes longitudes en Bases de Datos de Electrocardiogramas a partir de Vectores Característicos. Sobre el eje X, se muestran resultados para Vectores Característicos de 8, 16 y 32 dimensiones. generar una representación cuyo espacio de almacenamiento sea equivalente al espacio requerido por vectores con las dimensiones definidas anteriormente. En el caso de Clipped, el tamaño de la representación es siempre (n ÷ 8) bytes, donde n es la longitud del patrón de búsqueda. Para el caso de SAX, decidimos utilizar siempre 256 símbolos y modificar solamente el número de segmentos de la representación. debemos tener en cuenta que la búsqueda de motifs puede generar coincidencias triviales si el proceso incluye pares de sub-secuencias con una separación temporal mínima [7]. Por esta razón, en nuestros experimentos, el algoritmo de búsqueda de motifs considera solamente pares de patrones con una separación de al menos 32 posiciones en el tiempo, respectivamente. En este trabajo se utilizarón registros de electrocardiogramas obtenidos de una de las principales fuentes de señales electrocardiográficas a nivel mundial del Instituto Tecnológico de Massachusetts (MIT) y disponible a través de Internet Además de controlar el tamaño del vector característico, en nuestros experimentos modificamos el tamaño de patrón a buscar, utilizando patrones de longitudes de 128, 256 y 512 valores. Finalmente 3 Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip ISSN 1405-2172 QT (c), y frecuencia cardiaca (d). Las barras en cada gráfica ilustran el promedio del índice TLB obtenido al buscar el primer motif en cada registro del conjunto de datos utilizando vectores característicos de 8, 16 y 32 dimensiones para cada una de las técnicas en evaluación. Además de modificar el tamaño de los vectores característicos, se realizaron experimentos con diferentes longitudes de patrones (128, 256 y 512 valores). En estas gráficas podemos observar que las técnicas APCA (basada en segmentación) y DFT (transformación del espacio de frecuencias) tienen índices TLB más altos, lo que significa búsquedas más eficientes. En nueve de los 12 experimentos aquí presentados APCA resulta más eficiente (de acuerdo a su índice TLB), mientras que en las 3 restantes la mejor técnica es DFT. Curiosamente DFT es más eficiente cuando la dimensionalidad del vector característico es menor. APCA, por su parte resulta más sensible a la dimensionalidad de su vector característico, observándose una correlación positiva entre eficiencia (índice TLB) y dimensionalidad. La técnica CLIPPED no se muestra en la grafica por arrojar valores por debajo de 0 en todos los casos. en el sitio http://www.physionet.org. Esta base de datos está diseñada especialmente para la evaluación de algoritmos para el análisis automatizado de la señales de electrocardiograma. Base de datos de Pruebas de Compresión. Esta base de datos contiene 168 electrocardiogramas muestreados a 250 Hz, cada registro cuenta con 2 señales y una resolución de 12 bits, requiriendo con un espacio de almacenamiento de 15 K. La base de datos tiene un tamaño total de 2.5 MB. Base de datos de Arritmia. Esta base de datos contiene 48 registros de electrocardiogramas muestreados a 360 Hz, cada registro cuenta con 2 señales y una resolución de 11 bits, requiriendo de un espacio de almacenamiento de 1.95 MB. La base de datos tiene un tamaño total de 89.5 MB de espacio de almacenamiento. Base de datos QT. Esta base de datos contiene 105 registros de electrocardiogramas muestreados a 250 Hz. Cada registro cuenta con 2 señales y una resolución de 12 bits, requiriendo de un espacio de almacenamiento de 0.66 MB. La base de datos tiene un tamaño total de 69.2 MB de espacio de almacenamiento. Base de datos Frecuencia Cardiaca. Esta base de datos contiene 7 registros de electrocardiogramas muestreados a 128 Hz. Cada registro cuenta con 2 señales y una resolución de 12 bits, requiriendo de un espacio de almacenamiento que varía desde 2.1 MB hasta 5.2 MB. La base de datos tiene un tamaño total de 23.3 MB de espacio de almacenamiento. 4. CONCLUSIÓN En este trabajo presentamos una evaluación experimental de las técnicas de caracterización que constituyen el estado del arte para el almacenamiento estructurado y búsqueda de patrones sobre series de tiempo. Medimos el desempeño de estas técnicas sobre diversas bases de datos de electrocardiogramas tomando como indicador de su eficiencia el índice TLB. En los experimentos, se modificaron tanto la longitud de los patrones de búsqueda como la dimensionalidad de los vectores característicos, cubriendo así un amplio rango de escenarios. En nuestros experimentos, observamos que una técnica basada en segmentación adaptativa (APCA) promete buenos resultados, aunque hay evidencia de una correlación positiva entre eficiencia y tamaño del vector característico. Esto amerita la realización de futuros experimentos que evalúen la relación costo beneficio entre la dimensionalidad del vector característico y la ganancia/pérdida de eficiencia en la búsqueda de patrones en bases de datos de electrocardiogramas. Resulta interesante también que en tres de los cuatro conjuntos de datos utilizados en los experimentos, los índices de TLB son relativamente bajos (menos de 0.5). En trabajos futuros abordaremos este punto para determinar si el valor nominal del índice TLB tiene o no un impacto significativo en el tiempo de ejecución del algoritmo de búsqueda. 3. RESULTADOS En los experimentos, se evaluaron exhaustivamente las diferentes técnicas de caracterización midiendo la eficiencia de las búsquedas de patrones de interés en ECG. En los datos experimentales además de tomar patrones de diferente longitud, también se tomaron base de datos con diferente frecuencia de muestreo en donde se observaron cambios en los resultados de TLB dependiendo de la longitud del patrón. Las Bases de Datos utilizadas cuentan con 2 señales cada una, de las cuales solo se utilizó la primera señal ya que se realizaron algunos experimentos con la segunda señal mostrando resultados coincidentes con la primera señal. En la Figura 1 se muestran los resultados de los experimentos de búsqueda de patrones sobre las base de datos de pruebas de compresión (a), Arritmia (b), 4 Congr. int. ing. electrón. mem. Electro 2011, vol.33, pp. 1-5 Chihuahua, Chih. Mexico http://depi.itchihuahua.edu.mx/display/memorias_electro/MemoriaElectro2011.zip ISSN 1405-2172 5. RECONOCIMIENTOS Los autores desean agradecer a Gerardo Beltrán, Daniel López y Armando Beltrán, por su apoyo en la fase experimental del trabajo aquí presentado. 6. BIBLIOGRAFÍA [1] Rodríguez, L. A. Análisis Comparativo de Diferentes Algoritmos de Compresión de Electrocardiogramas Mediante la Calidad en la Medición de sus Intervalos Característicos. Tesis de Maestría, Universidad Autónoma de Sinaloa, Culiacán, Sin., México, 2008. [2] Keogh, E., Chakrabarti, K., Pazzani, M. & Mehrotra, Dimensionality reduction for fast similarity search in large time series databases, VLDB Journal of Knowledge and Information Systems, 2000. Volume 3, Issue 3, pp 263-286. [3] Keogh, Eamonn, Kaushik Chakrabarti, Sharad Mehrotra, and Michael Pazzani, The Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases. In Proceedings of the ACMSIGMOD Conference, pages 151—162, Santa Barbara, CA, May 2001. [4] Bagnall, A. J., Ratanamahata, C., Keogh, E., Lonardi, S. and Janacek, G.J., A Bit level representation for time series data mining with shape based similarity, Data Mining and Knowledge Discovery, (DMKD) Journal, Springer Netherlands, Volume 13, Number 1, Jul. 2006, pp. 11-40. [5] Lin, J., Keogh, E., Wei, L. and Lonardi, S. Experiencing SAX: a novel symbolic representation of time series. Data Mining Knowledge Discovery. 15(2): 107-144, 2007. [6] Vega, Inés F. Summarizing Time-Evolving Data. PhD thesis, University of Arizona, Tucson, May 2004. [7] Mueen, A.; Keogh, E.; Zhu, Q.; Cash, S. & Westover, B., Exact Discovery of Time Series Motifs, in Proceedings of SIAM International Conference on Data Mining 2009, pp. 473-484. [8] Ye, L. and E. Keogh. Time Series Shapelets: A New Primitive for Data Mining. In Proceedings of the ACM SIGKDD International Conference. Pages 947– 955. Paris, France. 2009. [9] H. Ding, G. Trajcevski, P. Scheuermann, X. Wang and E. Keogh, Querying and Mining of Time Series Data: Experimental Comparison of Representations and Distance Measures, PVLDB 1(2): 1542-1552 (2008). 5