Estructurado vs. No Estructurado Factores que afectan la

Anuncio
Estructurado vs. No Estructurado
Factores que afectan la Documentación de
Reacciones Adversas a Medicamentos en un
Repositorio de FCE
Skentzos S, Shubina M, Plutzky J, Turchin A.
AMIA Annu Symp Proc. 2011;2011:1270-1279.
Clinical Informatics Research & Development
Agenda
§  ¿Como nos ayuda el NLP para evaluar efectos adversos
de medicamentos?
§  ¿Qué hace TextMiner?
§  ¿Cómo lo hace de manera rápida y certera?
§  Limitaciones del software
§  Información Estructurada y factores asociados
§  Intervenciones para ayudar a clínicos a ingresar datos
en formato estructurado.
§  Presente y futuro de TextMiner
2
Clinical Informatics Research & Development
Respecto a Ensayos Clínicos
§  Pequeños tamaños muéstrales
§  Menos comorbilidades entre los pacientes en estudio
§  Inteacciones Droga-Droga son raras pero peligrosas
3
Clinical Informatics Research & Development
¿Cómo nos ayuda el NLP?
§  Análisis a nivel empresarial de información no
estructurada tiene mucha mayor velocidad, menor costo
y eficacia comparable.
§  La información debe llegar en formato estructurado para
ayudar en farmacovigilancia, soporte a la decisión
clínica, estudios epidemiológicos y minimizar errores de
medicación.
4
Clinical Informatics Research & Development
TextMiner en acción
§  Analiza notas clínicas en texto-libre buscando
documentación de efectos adversos.
§  Aplica un modelo de lenguaje personalizado a un
conjunto de notas al:
§  Dividir los archivos de notas en notas
§  Dividir notas individuales en unidades analizables similares a
oraciones
§  Analizar las unidades de acuerdo al modelo
§  Devolver resultados a nivel de notas y oraciones
§  Realizar un mapeo a MedDRA/UMLS (opcional)
5
Clinical Informatics Research & Development
Características de Diseño
§  Capacidad Multifibra
§  Toma ventaja de capacidad de procesamiento paralelo.
§  Mecanismo de escaneo Jerárquico
§  Elimina el procesamiento de notas y oraciones irrelevantes
§  Modelo de Lenguaje “a la medida”
§  Entrenado con 3175 notas para máxima sensibilidad y valor
predictivo positivo (VPP)
6
Clinical Informatics Research & Development
Flujo de Trabajo de TextMiner
Diagram A:
TextMiner Main
Program Flow Output
files
Output data queue
Legend:
-­‐ Data flow
Configuration data
Main program thread
Analyzer
thread 1
Analyzer
thread 2
…
Analyzer thread n
(See diagram B.)
7
Clinical Informatics Research & Development
-­‐ Create thread(s)
Note packager thread
Note package queue
Modelo de Lenguaje (nombres de medicamentos)
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
8
atorvo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g?
adc?vicor
lii?pp?i?ti?or
caduet
fluvo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g?
lescol
lovo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g?
mevacor
altocor
altoprev
pravo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g?
prav[aeiou]?chol
r[aeiou]suvo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g?
crestor
simvo?a?i?e?(sta?i?s?t?in|tiatin|satitn)?g?
zox?c?or?t?
vytorin
(sta?i?s?t?in|tiatin|satitn)g?s?
Clinical Informatics Research & Development
Modelo de Lenguaje (nombres de clases)
• 
• 
• 
• 
• 
• 
• 
• 
• 
9
>AGENTPATIENT - he, she, patient, pt, we, you, i
>DOSE - doses?, generics?, \d+(mg|ml|u), mg, u, ml, qd, qhs, bid,
prn, once, twice, po, half, x, prescribed?s?
>DIRECTED – directed
>MORBIDITY - cholesterol, chol, (hyper-?)?(lipid|cholesterol|
triglycerida?)emias?, ldls?, hdls?, diseases?, tgs?
>MODAL - will, would, shall, must, might, need
>ABATEVERB - resolve?d?s?(ing)?, improve?s?d?(ing)?,
normalize?d?s?(ing)?
>DENYVERB - deny(ing)?, denie[sd]
>CONDITION - bronchospasms?, symptomatolog(y|ies), anosmia,
dnt, se, ma?yaa?l?a?gia?s?, myopias?, paralysis, aches?, aching,
pai?ns?, myositi?s, …
>CONDITIONTYPE - acid, feelings, symptoms?, syndromes?,
failures?, swellings?, spasms?, stiffness, tightness, …
Clinical Informatics Research & Development
Gramática Formal
§  Gramática Generativa:
§  Algún símbolo inicial {S}
§  Un conjunto de símbolos no terminales {A,B,C…}
§  Un conjunto de símbolos terminales {a,b,c…}
§  Estos corresponden a palabras individuales en el
sistema usado.
§  Un conjuntos de reglas de producción
§  Las que pueden ser independientes de contexto:
§  S à aSb
§  B à BA
§  O dependientes del contexto
§  aS à ab
§  bAb à bCb
10
Clinical Informatics Research & Development
Modelo de Lenguaje (gramática)
§  TextMiner puede manejar cualquier gramática
dependiente del contexto que el usuario implemente
usando reglas de estructura.
§  Como la gramática independiente del contexto es un
subconjunto de la gramática dependiente del contexto y
son mucho más fáciles de entender e implementar, se
implementó un atajo para estas reglas
CFG
11
Clinical Informatics Research & Development
CDG
Modelo de Leguaje (estructuras de oraciones)
•  <NEGSIDEEFFECT = >NO, <SIDEEFFECTPHRASE
•  <NEGSIDEEFFECT = >NOT, <SIDEEFFECTPHRASE
•  <NEGSIDEEFFECT = <WITHOUT, <SIDEEFFECTPHRASE
•  <MEDICATION = >MEDICATION
•  <MEDICATION = <MULTIPLE-MED
•  <MEDICATION = <ADDITIONALADJECTIVE, <MEDICATION
•  <BODYPART = <BODYPART, >CONJUNCTION, <BODYPART
•  <BODYPART = >BODYPART, >CONJUNCTION, >BODYPART
•  <BODYPART = <ADDITIONALADJECTIVE, <BODYPART
12
Clinical Informatics Research & Development
Ejemplo con nota de prueba
1234567*|#*|#1*|#*|#
Steve has myalagias on lipiitor. Blah, bla, blah…
1234568 *|#*|#1*|#*|#
Problems: myalgias - lipitor. Yada, yadda, yddah…
1234569 *|#*|#1*|#*|#
The statins are not causing her ■
joint pain. You aren’t tolerating ■
XYZ due to elevated CKs and ■
abnormal L.F.T.’s.
13
Clinical Informatics Research & Development
Árboles de Análisis Sintáctico
§  Texto: “Problemas: mialgias - lipitor”
§  Éxito al analizar los efectos adversos a estatinas
14
Clinical Informatics Research & Development
Árboles de Análisis Sintáctico
§  Texto: “Las estatinas no están causando su dolor
articular.”
§  Rechazo de esta oración: negación explícita
15
Clinical Informatics Research & Development
Generación de Subtexto
§  Texto: “Las estatinas están causando su dolor articular”
§  Subtexto generado: <SPECIFIC, <SIDEEFFECT
<STATINSIDEEFFECT
<SIDEEFFECTPHRASE
<ETIOLOGY
<SPECIFICPHRASE
<SIDEEFFECT
<BODYPART
<SPECIFICPHRASE
<BODYPART
<SPECIFIC
16
<SIDEEFFECT
>ARTICLE
>SPECIFIC
>COPULAR
>ETIOLOGY
>POSSPRONOUN
>BODYPART
>CONDITION
The
statins
are
causing
her
joint
pain
Clinical Informatics Research & Development
Velocidad
•  Hardware
•  Servidor Dell T610
•  Windows Server© Standard Edition (SP 2)
•  Dos procesadores Intel® Xeon® quad-core
(2.27GHz)
•  32 GB de RAM
17
Clinical Informatics Research & Development
Velocidad
§  Conjunto de notas: 4.706.545 notas totales
§  Corre usando 12 fibras en paralelo
§  Velocidad
§  39,78 notas/segundo (con mapeo)
§  Velocidad previa ~0,5-1 notas/segundo
§  Numero de notas con documentación de un efecto
adverso a una estatina en el texto (encontrados por
Software)
§  166.612 (3,54%)
18
Clinical Informatics Research & Development
Limitaciones del Software
§  Aún requiere revisión manual de las notas para entrenar
el software
§  Requiere de desarrollo humano del modelo de lenguaje
§  Posibilidad de distribución dispar de errores que podría
producir un sesgo en el análisis.
19
Clinical Informatics Research & Development
Estudio (antecedentes)
§  Soporte a las decisiones es uno de los mayores
beneficios de los RCE
§  Los RCE pueden identificar medicamentos que
posiblemente van a generar una reacción adversa a
ciertos pacientes, basado en los medicamentos que han
causado una reacción adversa en ese paciente en el
pasado
§  13% de RAM son producto de administración de
medicamentos que el paciente conocia ser intolerante
§  Hasta 50% de estos errores pueden ser prevenidos con
Soporte a la decision clínica.
20
Clinical Informatics Research & Development
Antecedentes (cont.)
§  Para sacar ventaja de esta funcionalidad, las reacciones
adversas a los medicamentos deben ser registradas en
un formato estructurado o codificado
§  No sabemos que fracción de reacciones adversas a
medicamentos son registradas en un formato codificado,
en vez de ser incluido como notas de texto libre.
21
Clinical Informatics Research & Development
Material y Métodos
§  Se estudiaron 31.531 pacientes, basados en los
siguientes criterios de selección:
§  Tuvo un efecto adverso a una estatina documentada in una nota
de algún clínico entre 2000 y 2009 (39.053)
§  Tuvieron toda su información demográfica disponible (31.531)
§  7.522 pacientes fueron excluidos por:
§  Sin fecha de nacimiento para el proveedor que escribió la primera nota
del paciente
§  Sin código de área para el paciente
§  Sin mediana de ingreso para el código de área del paciente
22
Clinical Informatics Research & Development
Material y Métodos
§  La unidad de análisis fue el paciente individual
§  Variable principal de resultado:
§  Si el paciente alguna vez tuvo o no una reacción adversa
registrada en formato estructurado/codificado a una estatina
codificada o una estatina en texto libre
23
Clinical Informatics Research & Development
¿Por qué es necesario NLP?
§  Se demostró que solo el 29% de los pacientes de BWH/
MGH quienes experimentaron al menos una reacción
adversa a al menos una estatina (documentada como
notas narrativas de evolución) tuvieron un registro en el
Repositorio Centralizado de Alergias de Partners
Healthcare (PEAR)
24
Clinical Informatics Research & Development
Resultados
§  Factores asociados a ingresar RAM a estatinas:
1.  Registro de la razón para descontinuar tratamiento (Odds 48.6)
2.  Reacción de una alergica REAL a estatinas (Odds 1.8)
3.  Alto número de efectos adversos a estatinas
4.  Alto número de notas describiendo efectos adversos
5.  Experiencia del Proveedor usando PEAR
6.  Descontinuar una estatina por cualquier motivo
7.  Demográficos Edad del paciente y tipo de aseguramiento
25
Clinical Informatics Research & Development
Discusión
§  Esta es una sobreestimación de la fracción de
reacciones adversas que se registran en formato
estructurado.
§  Algunos pacientes tienen múltiples reacciones a un
medicamento y otros tienen reacciones adversas a múltiples
medicamentos.
§  No se investigó quantitativamente ya que información especifica
de cada estatina individual no estaba siempre disponible en las
notas o en PEAR
§  Parte de la información en PEAR estaba estructurada
pero no codificada, (registros en texto libre).
26
Clinical Informatics Research & Development
Vías de ingreso de información estructurada
27
Clinical Informatics Research & Development
Discusión (cont.)
§  La integración de los componentes del RCE pueden
ayudar a registrar la reacción adversa de forma
estructurada.
§  Los proveedores tienen significativamente más
posibilidades de registrar una alergia en PEAR si el
evento adverso experimentado fue una reacción alérgica
verdadera
28
Clinical Informatics Research & Development
Agradecimientos
§ 
§ 
§ 
§ 
§ 
§ 
§ 
§ 
29
Stephen Skentzos
Maria Shubina
Alex Turchin
Dayton Yuen
Ana Delgado
Elizabeth Haftel
Perry Mar
Jorge Plutzky
Clinical Informatics Research & Development
Fibras del Analizador
Legend:
Diagram B:
Analyzer Thread (Overview )
Next note?
Note package queue
N
Note package (array of notes) Y
-­‐ Data flow
Dequeue next
note package
Note-­‐level scan
N
Enqueue data output package
Scan passed?
Y
Process note
(See diagram C.)
Goal state reached?
N
30
Clinical Informatics Research & Development
Y
Append to data output package
Procesar una Nota
Legend:
Diagram C: Process Note -­‐
overview
-­‐ Data flow
Note
Format abbreviations
Split note text into sentence tokens
Next token?
31
Clinical Informatics Research & Development
Scan flag results for output criteria
Y
Perform token-­‐level scan Criterion met?
Y
Append output texts to output data package
Mapping?
N
Scan passed?
Y
Token array
N
Remove clitics
Strip away punctuation
Parse token (See diagram D.)
Y
Map subtexts to CUIs and append to output data
Análisis por unidades
Diagram D: Parse the token, using PS rules
Split token into word array
Assign word class(es) to words
Multiple WCs? N
Y
Resolve WCs with multiple resolver
Construct phrase node array
Clinical Informatics Research & Development
-­‐ Data flow
Phrase node array (parse tree)
Phrase structure parsing rule sets
Next set of PSs?
Apply PS rules to parse tree
Y
Set of phrase structure rules
Any change made?
N
Fire triggers (set criteria flags)
Y
Goal state reached?
N
32
Legend:
Y
Generate subtexts
Descargar