Estructurado vs. No Estructurado Factores que afectan la Documentación de Reacciones Adversas a Medicamentos en un Repositorio de FCE Skentzos S, Shubina M, Plutzky J, Turchin A. AMIA Annu Symp Proc. 2011;2011:1270-1279. Clinical Informatics Research & Development Agenda § ¿Como nos ayuda el NLP para evaluar efectos adversos de medicamentos? § ¿Qué hace TextMiner? § ¿Cómo lo hace de manera rápida y certera? § Limitaciones del software § Información Estructurada y factores asociados § Intervenciones para ayudar a clínicos a ingresar datos en formato estructurado. § Presente y futuro de TextMiner 2 Clinical Informatics Research & Development Respecto a Ensayos Clínicos § Pequeños tamaños muéstrales § Menos comorbilidades entre los pacientes en estudio § Inteacciones Droga-Droga son raras pero peligrosas 3 Clinical Informatics Research & Development ¿Cómo nos ayuda el NLP? § Análisis a nivel empresarial de información no estructurada tiene mucha mayor velocidad, menor costo y eficacia comparable. § La información debe llegar en formato estructurado para ayudar en farmacovigilancia, soporte a la decisión clínica, estudios epidemiológicos y minimizar errores de medicación. 4 Clinical Informatics Research & Development TextMiner en acción § Analiza notas clínicas en texto-libre buscando documentación de efectos adversos. § Aplica un modelo de lenguaje personalizado a un conjunto de notas al: § Dividir los archivos de notas en notas § Dividir notas individuales en unidades analizables similares a oraciones § Analizar las unidades de acuerdo al modelo § Devolver resultados a nivel de notas y oraciones § Realizar un mapeo a MedDRA/UMLS (opcional) 5 Clinical Informatics Research & Development Características de Diseño § Capacidad Multifibra § Toma ventaja de capacidad de procesamiento paralelo. § Mecanismo de escaneo Jerárquico § Elimina el procesamiento de notas y oraciones irrelevantes § Modelo de Lenguaje “a la medida” § Entrenado con 3175 notas para máxima sensibilidad y valor predictivo positivo (VPP) 6 Clinical Informatics Research & Development Flujo de Trabajo de TextMiner Diagram A: TextMiner Main Program Flow Output files Output data queue Legend: -­‐ Data flow Configuration data Main program thread Analyzer thread 1 Analyzer thread 2 … Analyzer thread n (See diagram B.) 7 Clinical Informatics Research & Development -­‐ Create thread(s) Note packager thread Note package queue Modelo de Lenguaje (nombres de medicamentos) • • • • • • • • • • • • • • • • • • 8 atorvo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g? adc?vicor lii?pp?i?ti?or caduet fluvo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g? lescol lovo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g? mevacor altocor altoprev pravo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g? prav[aeiou]?chol r[aeiou]suvo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g? crestor simvo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g? zox?c?or?t? vytorin (sta?i?s?t?in|tiatin|satitn)g?s? Clinical Informatics Research & Development Modelo de Lenguaje (nombres de clases) • • • • • • • • • 9 >AGENTPATIENT - he, she, patient, pt, we, you, i >DOSE - doses?, generics?, \d+(mg|ml|u), mg, u, ml, qd, qhs, bid, prn, once, twice, po, half, x, prescribed?s? >DIRECTED – directed >MORBIDITY - cholesterol, chol, (hyper-?)?(lipid|cholesterol| triglycerida?)emias?, ldls?, hdls?, diseases?, tgs? >MODAL - will, would, shall, must, might, need >ABATEVERB - resolve?d?s?(ing)?, improve?s?d?(ing)?, normalize?d?s?(ing)? >DENYVERB - deny(ing)?, denie[sd] >CONDITION - bronchospasms?, symptomatolog(y|ies), anosmia, dnt, se, ma?yaa?l?a?gia?s?, myopias?, paralysis, aches?, aching, pai?ns?, myositi?s, … >CONDITIONTYPE - acid, feelings, symptoms?, syndromes?, failures?, swellings?, spasms?, stiffness, tightness, … Clinical Informatics Research & Development Gramática Formal § Gramática Generativa: § Algún símbolo inicial {S} § Un conjunto de símbolos no terminales {A,B,C…} § Un conjunto de símbolos terminales {a,b,c…} § Estos corresponden a palabras individuales en el sistema usado. § Un conjuntos de reglas de producción § Las que pueden ser independientes de contexto: § S à aSb § B à BA § O dependientes del contexto § aS à ab § bAb à bCb 10 Clinical Informatics Research & Development Modelo de Lenguaje (gramática) § TextMiner puede manejar cualquier gramática dependiente del contexto que el usuario implemente usando reglas de estructura. § Como la gramática independiente del contexto es un subconjunto de la gramática dependiente del contexto y son mucho más fáciles de entender e implementar, se implementó un atajo para estas reglas CFG 11 Clinical Informatics Research & Development CDG Modelo de Leguaje (estructuras de oraciones) • <NEGSIDEEFFECT = >NO, <SIDEEFFECTPHRASE • <NEGSIDEEFFECT = >NOT, <SIDEEFFECTPHRASE • <NEGSIDEEFFECT = <WITHOUT, <SIDEEFFECTPHRASE • <MEDICATION = >MEDICATION • <MEDICATION = <MULTIPLE-MED • <MEDICATION = <ADDITIONALADJECTIVE, <MEDICATION • <BODYPART = <BODYPART, >CONJUNCTION, <BODYPART • <BODYPART = >BODYPART, >CONJUNCTION, >BODYPART • <BODYPART = <ADDITIONALADJECTIVE, <BODYPART 12 Clinical Informatics Research & Development Ejemplo con nota de prueba 1234567*|#*|#1*|#*|# Steve has myalagias on lipiitor. Blah, bla, blah… 1234568 *|#*|#1*|#*|# Problems: myalgias - lipitor. Yada, yadda, yddah… 1234569 *|#*|#1*|#*|# The statins are not causing her ■ joint pain. You aren’t tolerating ■ XYZ due to elevated CKs and ■ abnormal L.F.T.’s. 13 Clinical Informatics Research & Development Árboles de Análisis Sintáctico § Texto: “Problemas: mialgias - lipitor” § Éxito al analizar los efectos adversos a estatinas 14 Clinical Informatics Research & Development Árboles de Análisis Sintáctico § Texto: “Las estatinas no están causando su dolor articular.” § Rechazo de esta oración: negación explícita 15 Clinical Informatics Research & Development Generación de Subtexto § Texto: “Las estatinas están causando su dolor articular” § Subtexto generado: <SPECIFIC, <SIDEEFFECT <STATINSIDEEFFECT <SIDEEFFECTPHRASE <ETIOLOGY <SPECIFICPHRASE <SIDEEFFECT <BODYPART <SPECIFICPHRASE <BODYPART <SPECIFIC 16 <SIDEEFFECT >ARTICLE >SPECIFIC >COPULAR >ETIOLOGY >POSSPRONOUN >BODYPART >CONDITION The statins are causing her joint pain Clinical Informatics Research & Development Velocidad • Hardware • Servidor Dell T610 • Windows Server© Standard Edition (SP 2) • Dos procesadores Intel® Xeon® quad-core (2.27GHz) • 32 GB de RAM 17 Clinical Informatics Research & Development Velocidad § Conjunto de notas: 4.706.545 notas totales § Corre usando 12 fibras en paralelo § Velocidad § 39,78 notas/segundo (con mapeo) § Velocidad previa ~0,5-1 notas/segundo § Numero de notas con documentación de un efecto adverso a una estatina en el texto (encontrados por Software) § 166.612 (3,54%) 18 Clinical Informatics Research & Development Limitaciones del Software § Aún requiere revisión manual de las notas para entrenar el software § Requiere de desarrollo humano del modelo de lenguaje § Posibilidad de distribución dispar de errores que podría producir un sesgo en el análisis. 19 Clinical Informatics Research & Development Estudio (antecedentes) § Soporte a las decisiones es uno de los mayores beneficios de los RCE § Los RCE pueden identificar medicamentos que posiblemente van a generar una reacción adversa a ciertos pacientes, basado en los medicamentos que han causado una reacción adversa en ese paciente en el pasado § 13% de RAM son producto de administración de medicamentos que el paciente conocia ser intolerante § Hasta 50% de estos errores pueden ser prevenidos con Soporte a la decision clínica. 20 Clinical Informatics Research & Development Antecedentes (cont.) § Para sacar ventaja de esta funcionalidad, las reacciones adversas a los medicamentos deben ser registradas en un formato estructurado o codificado § No sabemos que fracción de reacciones adversas a medicamentos son registradas en un formato codificado, en vez de ser incluido como notas de texto libre. 21 Clinical Informatics Research & Development Material y Métodos § Se estudiaron 31.531 pacientes, basados en los siguientes criterios de selección: § Tuvo un efecto adverso a una estatina documentada in una nota de algún clínico entre 2000 y 2009 (39.053) § Tuvieron toda su información demográfica disponible (31.531) § 7.522 pacientes fueron excluidos por: § Sin fecha de nacimiento para el proveedor que escribió la primera nota del paciente § Sin código de área para el paciente § Sin mediana de ingreso para el código de área del paciente 22 Clinical Informatics Research & Development Material y Métodos § La unidad de análisis fue el paciente individual § Variable principal de resultado: § Si el paciente alguna vez tuvo o no una reacción adversa registrada en formato estructurado/codificado a una estatina codificada o una estatina en texto libre 23 Clinical Informatics Research & Development ¿Por qué es necesario NLP? § Se demostró que solo el 29% de los pacientes de BWH/ MGH quienes experimentaron al menos una reacción adversa a al menos una estatina (documentada como notas narrativas de evolución) tuvieron un registro en el Repositorio Centralizado de Alergias de Partners Healthcare (PEAR) 24 Clinical Informatics Research & Development Resultados § Factores asociados a ingresar RAM a estatinas: 1. Registro de la razón para descontinuar tratamiento (Odds 48.6) 2. Reacción de una alergica REAL a estatinas (Odds 1.8) 3. Alto número de efectos adversos a estatinas 4. Alto número de notas describiendo efectos adversos 5. Experiencia del Proveedor usando PEAR 6. Descontinuar una estatina por cualquier motivo 7. Demográficos Edad del paciente y tipo de aseguramiento 25 Clinical Informatics Research & Development Discusión § Esta es una sobreestimación de la fracción de reacciones adversas que se registran en formato estructurado. § Algunos pacientes tienen múltiples reacciones a un medicamento y otros tienen reacciones adversas a múltiples medicamentos. § No se investigó quantitativamente ya que información especifica de cada estatina individual no estaba siempre disponible en las notas o en PEAR § Parte de la información en PEAR estaba estructurada pero no codificada, (registros en texto libre). 26 Clinical Informatics Research & Development Vías de ingreso de información estructurada 27 Clinical Informatics Research & Development Discusión (cont.) § La integración de los componentes del RCE pueden ayudar a registrar la reacción adversa de forma estructurada. § Los proveedores tienen significativamente más posibilidades de registrar una alergia en PEAR si el evento adverso experimentado fue una reacción alérgica verdadera 28 Clinical Informatics Research & Development Agradecimientos § § § § § § § § 29 Stephen Skentzos Maria Shubina Alex Turchin Dayton Yuen Ana Delgado Elizabeth Haftel Perry Mar Jorge Plutzky Clinical Informatics Research & Development Fibras del Analizador Legend: Diagram B: Analyzer Thread (Overview ) Next note? Note package queue N Note package (array of notes) Y -­‐ Data flow Dequeue next note package Note-­‐level scan N Enqueue data output package Scan passed? Y Process note (See diagram C.) Goal state reached? N 30 Clinical Informatics Research & Development Y Append to data output package Procesar una Nota Legend: Diagram C: Process Note -­‐ overview -­‐ Data flow Note Format abbreviations Split note text into sentence tokens Next token? 31 Clinical Informatics Research & Development Scan flag results for output criteria Y Perform token-­‐level scan Criterion met? Y Append output texts to output data package Mapping? N Scan passed? Y Token array N Remove clitics Strip away punctuation Parse token (See diagram D.) Y Map subtexts to CUIs and append to output data Análisis por unidades Diagram D: Parse the token, using PS rules Split token into word array Assign word class(es) to words Multiple WCs? N Y Resolve WCs with multiple resolver Construct phrase node array Clinical Informatics Research & Development -­‐ Data flow Phrase node array (parse tree) Phrase structure parsing rule sets Next set of PSs? Apply PS rules to parse tree Y Set of phrase structure rules Any change made? N Fire triggers (set criteria flags) Y Goal state reached? N 32 Legend: Y Generate subtexts