D. Jordi Naval HEALTH-MINER "Knowledge Discovery in Clinical Databases"

Anuncio
Clinical Research
INFOCIENCIA
Knowledge Discovery
in Clinical Databases
Clinical Research
INFOCIENCIA
Definición KDD
“extracción automática de información
oculta y no obvia del interior de
grandes volúmenes de datos”
“Proceso no trivial de identificar
patrones válidos, novedosos,
potencialmente útiles, y en última
instancia, comprensibles”
“Por definición, cuando se investiga lo
desconocido, no se sabe lo que se va
a encontrar”
4.000.000
3.500.000
EL GAP ENTRE DATOS
DISPONIBLES
Y DATOS ANALIZADOS
CRECE EXPONENCIALMENTE
3.000.000
2.500.000
2.000.000
1.500.000
Clinical Research
INFOCIENCIA
1.000.000
Capacidad de
almacenamiento en disco
TeraBytes desde 2000
Número de
analistas
500.000
0
2000
2001
2002
2003
Adaptación de : R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
2004
Clinical Research
INFOCIENCIA
¿Para qué usar KDD en Investigación Clínica?
Estadística para
ensayo clínico y
epidemiología clásica
Objetivos
Entender por qué,
saber si tenemos
razón
Empieza por … Una pregunta
definida (hipótesis
nula)
Técnicas
Priorizan que el
modelo se pueda
explicar
Knowledge
discovery
Encontrar “algo”,
“conocimiento”
Buscar qué hay
Priorizan que el
modelo pueda
predecir (técnicas
más complejas)
LA POTENCIA DE UN SEPARADOR NO LINEAL
oo –– vive
vive
XX –– muere
muere
Experimento 1: datos separables linealmente
edad
· · ·· ·
· ·· · · ·
·· · ·
· ·
edad
edad
x x
x
x x x
o o
x x
o
o
x
o o
o
x x
x
x x x
o o
x x
o
o
xx
o o
o
x
peso
x
peso
peso
Experimento 2: datos no separables linealmente
Clinical Research
INFOCIENCIA
PAS
· · · ···
··· ·· · ·
··
·
·
·
· ··
Colesterol
PAS
x
x
o
o
x
o xx x x o o
oo x
x o
x
o
o o
Colesterol
PAS
x
x
o
o
x
o xx x x o o
oo x
x o
x
o
o o
Colesterol
Clinical Research
INFOCIENCIA
Distintos algoritmos, distintas posibilidades
Perceptrón
(Discriminador lineal)
Redes neuronales
multicapa
Árbol de decisión
C4.5/ID3/CART
Partición
Bayesiana
Radial Basis
Funcions
Vecinos más
cercanos
Clinical Research
INFOCIENCIA
Un Ejemplo real de vecinos más cercanos
¿Qué métodos utilizar?
NO HAY UNA ÚNICA SOLUCIÓN!
Separador cuadrático
K vecinos más cercanos
LA MEJOR SOLUCIÓN
DEPENDE DEL OBJETIVO
Cada
Cadamétodo
métododa
daun
un%%de
deerror.
error.El
Elmejor
mejor
método
es:
método es:
CONCLUSIÓN:
CONCLUSIÓN:
Clinical Research
INFOCIENCIA
- -El
Elque
quetiene
tienemenos
menoserror
error
- -El
que
es
capaz
de
generalizar
El que es capaz de generalizarmejor
mejor
- -El
que
es
más
sencillo
de
ser
explicado
El que es más sencillo de ser explicado
- -El
Elque
quees
esmenos
menossensible
sensibleaalas
las
incoherencias
de
nuestros
datos:
incoherencias de nuestros datos:valores
valores
ausentes,
infinitos,
…
ausentes, infinitos, …
Cualquier
Cualquiermodelo
modeloque
quecumpla
cumplanuestras
nuestras
expectativas
es
bueno.
expectativas es bueno.
Redes neuronales multicapa
Radial Basis Fuction Network
Clinical Research
INFOCIENCIA
-Esto puede
entenderlo hasta
un niño de 6 años.
-¡Rápido! ¡Que
me traigan a un
niño de 6 años!
Groucho Marx
Clinical Research
INFOCIENCIA
HEALTH-MINER
Knowledge Discovery in
Clinical Databases
Esquema de un proceso analítico del Health-Miner
sobre el proyecto PROFILE. Un ejemplo + sencillo…
Clinical Research
INFOCIENCIA
PROFILE
PRECOG
Esquema de un proceso analítico del Health-Miner
sobre el proyecto PROFILE. Un ejemplo + sencillo…
Sexo
Peso
x
x
Edad
HTA
var 1
x
Edad
HTA
…
var n
x
Atributos
disponibles
Atributos
seleccionados
Clinical Research
INFOCIENCIA
Modelo
matemático
Informe de
Inteligencia
Artificial
Esquema de un proceso analítico del Health-Miner
sobre el proyecto PROFILE
… de las más de cien
variables del PROFILE
Atributos
disponibles
Atributos
seleccionados
Clinical Research
INFOCIENCIA
ÁRBOL
J48
|
|
|
|
|
|
|
|
|
|
|
|
|
|
CGI <= 1.224875
| NIVEL_ESTUDIOS <= -1.53917
| | APOYO_FAM <= -1.674003
| | | SEXO <= -1.3304: ENTRE_9_Y_12_MESES
| | | SEXO > -1.3304: MAS_DE_12_MESES
| | APOYO_FAM > -1.674003
| | | ESTRESORES <= -1.341641: ANTES_DE_3_MESES
| | | ESTRESORES > -1.341641
| | | | CGI <= -0.778638: ANTES_DE_3_MESES
| | | | CGI > -0.778638: MAS_DE_12_MESES
| NIVEL_ESTUDIOS > -1.53917
| | NUM_TRAT <= -1.346051
| | | NIVEL_ESTUDIOS <= 1.329311
| | | | APOYO_FAM <= -0.717785
¿
?
Modelo
matemático
Informe de
Inteligencia
Artificial
Detalle del procedimiento experimental
EXPERIMENTAL PROCEDURE 1
Regresión con selección de
atributos mediante Principal
Components Analysis (PCA)
EXPERIMENTAL PROCEDURE 2
EXPERIMENTAL PROCEDURE 3
Regresión con selección
Clasificación con filtrado y
de atributos mediante
posterior selección de
Genetic Algorithms
atributos mediante
Mediante k-Nearest Neighbor
Forward Selection
Clasificación con selección
de atributos mediante
Principal Components
Analysis (PCA)
Lectura de datos
Lectura de datos
Lectura de datos
Adaptar datos
Adaptar datos
Adaptar datos
Adaptar datos
Adaptar datos
StandardDeviationWeithing
Selección y generación de atributos
Pesado atributos
GainRatioAttributeEval
GainRatioAttributeEval
IBk
AttributeWeigthApplier
AttributeWeigthApplier
AttributeWeigthApplier
Selección de atributos
ANALYTICAL METHODS
LibSVMLearner
resultados
SVM-Logistica
LibSVMLearner
modelo
resultados
PCA+Blanqueado estadístico
GainRatioAttributeEval
GeneticAlgorithm
SVM-Radial
Pesado atributos
Yagga
AttributeWeigthApplier
Clinical Research
Clasificación con filtrado y
posterior selección de
atributos mediante
Genetic Algorithms
utilizando Naive Bayes
Lectura de datos
PrincipalComponentsGenerator
INFOCIENCIA
EXPERIMENTAL PROCEDURE 5
Lectura de datos
PCA+Blanqueado estadístico
modelo
EXPERIMENTAL PROCEDURE 4
ADABOOST
AdaBoostM1
NaiveBayesSimple
modelo
resultados
Árbol decisión
J48
modelo
StandardDeviationWeithing
FeatureSelection
NaiveBayesSimple
NaiveBayesSimple
PerfFeaturesGA
PerfFeaturesGA
K-NN
RBF
IBk
resultados modelo
modelo
AttributeWeigthApplier
MLP 1 CAPA
RBFNetwork
resultados
PrincipalComponentsGenerator
Selección de atributos
resultados
MLP 2 CAPAS
MultilayerPerceptron
MultilayerPerceptron
modelo
modelo
resultados
resultados
Sistemas de validación de los modelos
VALIDACIÓN SIMPLE
K-FOLD CROSS VALIDATION
Et1
Total de muestras
Et2
Muestras de
aprendizaje
Et3
Clinical Research
INFOCIENCIA
Et4
Consiste en reservar
un % de muestras de
un modo aleatorio
para realizar el
proceso de validación
(en naranja).
Etk
Clinical Research
INFOCIENCIA
Aplicaciones prácticas:
¾predecir una variable Æ ¿cuál sería el resultado
de hacer una biopsia o una analítica cara a este
paciente en base a datos más sencillos? –
POSIBLE AHORRO
¾predecir un valor futuro Æ ¿cómo estará este
paciente la próxima visita? ¿cuánto valdrá esta
Clinical Research
INFOCIENCIA
variable la próxima visita? – PREDICCIÓN DE
RESULTADOS o EVENTOS
¾predecir casos raros Æ Acontecimientos
adversos
Aplicaciones prácticas:
¾clasificar al paciente Æ ¿será un
paciente cumplidor? ¿se recuperará?
¿Cómo respondera? - CUSTOMIZAR
¾Inferir sobre pacientes Æ ¿cómo
Clinical Research
INFOCIENCIA
evolucionaría este paciente si hubiera
sido cumplidor?
¾La explotación mediante knowledge
discovery de las ingentes bases de datos
clínicas existentes, puede permitir en el
futuro:
¾ Predecir y evitar resultados adversos
Clinical Research
INFOCIENCIA
¾ Personalizar la medicina
(eventos, recaídas, acontecimientos adversos)
¾ Ahorrar pruebas caras
¿Dónde están estas bases de datos?
ƒ Historias clínicas hospitales y centros de
investigación
ƒ Bases de datos genómicas
ƒ Bases de datos de farmacovigilancia
ƒ Laboratorios farmacéuticos:
Clinical Research
INFOCIENCIA
ƒ Bases de datos de desarrollo clínico
ƒ Estudios epidemiológicos, post-autorización, …
ƒ Int J Med Inform. 2006, 75:257-67. Databases
for knowledge discovery. Examples from
biomedicine and health care.
ƒ Br J Clin Pharmacol. 2004, 57:127-34.
pharmacovigilance.
Clinical Research
INFOCIENCIA
Application of data mining techniques in
HEALTH-MINER
Knowledge Discovery in Clinical Databases
Clinical Research
INFOCIENCIA
MUCHAS GRACIAS!!!
Documentos relacionados
Descargar