Clinical Research INFOCIENCIA Knowledge Discovery in Clinical Databases Clinical Research INFOCIENCIA Definición KDD “extracción automática de información oculta y no obvia del interior de grandes volúmenes de datos” “Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles, y en última instancia, comprensibles” “Por definición, cuando se investiga lo desconocido, no se sabe lo que se va a encontrar” 4.000.000 3.500.000 EL GAP ENTRE DATOS DISPONIBLES Y DATOS ANALIZADOS CRECE EXPONENCIALMENTE 3.000.000 2.500.000 2.000.000 1.500.000 Clinical Research INFOCIENCIA 1.000.000 Capacidad de almacenamiento en disco TeraBytes desde 2000 Número de analistas 500.000 0 2000 2001 2002 2003 Adaptación de : R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” 2004 Clinical Research INFOCIENCIA ¿Para qué usar KDD en Investigación Clínica? Estadística para ensayo clínico y epidemiología clásica Objetivos Entender por qué, saber si tenemos razón Empieza por … Una pregunta definida (hipótesis nula) Técnicas Priorizan que el modelo se pueda explicar Knowledge discovery Encontrar “algo”, “conocimiento” Buscar qué hay Priorizan que el modelo pueda predecir (técnicas más complejas) LA POTENCIA DE UN SEPARADOR NO LINEAL oo –– vive vive XX –– muere muere Experimento 1: datos separables linealmente edad · · ·· · · ·· · · · ·· · · · · edad edad x x x x x x o o x x o o x o o o x x x x x x o o x x o o xx o o o x peso x peso peso Experimento 2: datos no separables linealmente Clinical Research INFOCIENCIA PAS · · · ··· ··· ·· · · ·· · · · · ·· Colesterol PAS x x o o x o xx x x o o oo x x o x o o o Colesterol PAS x x o o x o xx x x o o oo x x o x o o o Colesterol Clinical Research INFOCIENCIA Distintos algoritmos, distintas posibilidades Perceptrón (Discriminador lineal) Redes neuronales multicapa Árbol de decisión C4.5/ID3/CART Partición Bayesiana Radial Basis Funcions Vecinos más cercanos Clinical Research INFOCIENCIA Un Ejemplo real de vecinos más cercanos ¿Qué métodos utilizar? NO HAY UNA ÚNICA SOLUCIÓN! Separador cuadrático K vecinos más cercanos LA MEJOR SOLUCIÓN DEPENDE DEL OBJETIVO Cada Cadamétodo métododa daun un%%de deerror. error.El Elmejor mejor método es: método es: CONCLUSIÓN: CONCLUSIÓN: Clinical Research INFOCIENCIA - -El Elque quetiene tienemenos menoserror error - -El que es capaz de generalizar El que es capaz de generalizarmejor mejor - -El que es más sencillo de ser explicado El que es más sencillo de ser explicado - -El Elque quees esmenos menossensible sensibleaalas las incoherencias de nuestros datos: incoherencias de nuestros datos:valores valores ausentes, infinitos, … ausentes, infinitos, … Cualquier Cualquiermodelo modeloque quecumpla cumplanuestras nuestras expectativas es bueno. expectativas es bueno. Redes neuronales multicapa Radial Basis Fuction Network Clinical Research INFOCIENCIA -Esto puede entenderlo hasta un niño de 6 años. -¡Rápido! ¡Que me traigan a un niño de 6 años! Groucho Marx Clinical Research INFOCIENCIA HEALTH-MINER Knowledge Discovery in Clinical Databases Esquema de un proceso analítico del Health-Miner sobre el proyecto PROFILE. Un ejemplo + sencillo… Clinical Research INFOCIENCIA PROFILE PRECOG Esquema de un proceso analítico del Health-Miner sobre el proyecto PROFILE. Un ejemplo + sencillo… Sexo Peso x x Edad HTA var 1 x Edad HTA … var n x Atributos disponibles Atributos seleccionados Clinical Research INFOCIENCIA Modelo matemático Informe de Inteligencia Artificial Esquema de un proceso analítico del Health-Miner sobre el proyecto PROFILE … de las más de cien variables del PROFILE Atributos disponibles Atributos seleccionados Clinical Research INFOCIENCIA ÁRBOL J48 | | | | | | | | | | | | | | CGI <= 1.224875 | NIVEL_ESTUDIOS <= -1.53917 | | APOYO_FAM <= -1.674003 | | | SEXO <= -1.3304: ENTRE_9_Y_12_MESES | | | SEXO > -1.3304: MAS_DE_12_MESES | | APOYO_FAM > -1.674003 | | | ESTRESORES <= -1.341641: ANTES_DE_3_MESES | | | ESTRESORES > -1.341641 | | | | CGI <= -0.778638: ANTES_DE_3_MESES | | | | CGI > -0.778638: MAS_DE_12_MESES | NIVEL_ESTUDIOS > -1.53917 | | NUM_TRAT <= -1.346051 | | | NIVEL_ESTUDIOS <= 1.329311 | | | | APOYO_FAM <= -0.717785 ¿ ? Modelo matemático Informe de Inteligencia Artificial Detalle del procedimiento experimental EXPERIMENTAL PROCEDURE 1 Regresión con selección de atributos mediante Principal Components Analysis (PCA) EXPERIMENTAL PROCEDURE 2 EXPERIMENTAL PROCEDURE 3 Regresión con selección Clasificación con filtrado y de atributos mediante posterior selección de Genetic Algorithms atributos mediante Mediante k-Nearest Neighbor Forward Selection Clasificación con selección de atributos mediante Principal Components Analysis (PCA) Lectura de datos Lectura de datos Lectura de datos Adaptar datos Adaptar datos Adaptar datos Adaptar datos Adaptar datos StandardDeviationWeithing Selección y generación de atributos Pesado atributos GainRatioAttributeEval GainRatioAttributeEval IBk AttributeWeigthApplier AttributeWeigthApplier AttributeWeigthApplier Selección de atributos ANALYTICAL METHODS LibSVMLearner resultados SVM-Logistica LibSVMLearner modelo resultados PCA+Blanqueado estadístico GainRatioAttributeEval GeneticAlgorithm SVM-Radial Pesado atributos Yagga AttributeWeigthApplier Clinical Research Clasificación con filtrado y posterior selección de atributos mediante Genetic Algorithms utilizando Naive Bayes Lectura de datos PrincipalComponentsGenerator INFOCIENCIA EXPERIMENTAL PROCEDURE 5 Lectura de datos PCA+Blanqueado estadístico modelo EXPERIMENTAL PROCEDURE 4 ADABOOST AdaBoostM1 NaiveBayesSimple modelo resultados Árbol decisión J48 modelo StandardDeviationWeithing FeatureSelection NaiveBayesSimple NaiveBayesSimple PerfFeaturesGA PerfFeaturesGA K-NN RBF IBk resultados modelo modelo AttributeWeigthApplier MLP 1 CAPA RBFNetwork resultados PrincipalComponentsGenerator Selección de atributos resultados MLP 2 CAPAS MultilayerPerceptron MultilayerPerceptron modelo modelo resultados resultados Sistemas de validación de los modelos VALIDACIÓN SIMPLE K-FOLD CROSS VALIDATION Et1 Total de muestras Et2 Muestras de aprendizaje Et3 Clinical Research INFOCIENCIA Et4 Consiste en reservar un % de muestras de un modo aleatorio para realizar el proceso de validación (en naranja). Etk Clinical Research INFOCIENCIA Aplicaciones prácticas: ¾predecir una variable Æ ¿cuál sería el resultado de hacer una biopsia o una analítica cara a este paciente en base a datos más sencillos? – POSIBLE AHORRO ¾predecir un valor futuro Æ ¿cómo estará este paciente la próxima visita? ¿cuánto valdrá esta Clinical Research INFOCIENCIA variable la próxima visita? – PREDICCIÓN DE RESULTADOS o EVENTOS ¾predecir casos raros Æ Acontecimientos adversos Aplicaciones prácticas: ¾clasificar al paciente Æ ¿será un paciente cumplidor? ¿se recuperará? ¿Cómo respondera? - CUSTOMIZAR ¾Inferir sobre pacientes Æ ¿cómo Clinical Research INFOCIENCIA evolucionaría este paciente si hubiera sido cumplidor? ¾La explotación mediante knowledge discovery de las ingentes bases de datos clínicas existentes, puede permitir en el futuro: ¾ Predecir y evitar resultados adversos Clinical Research INFOCIENCIA ¾ Personalizar la medicina (eventos, recaídas, acontecimientos adversos) ¾ Ahorrar pruebas caras ¿Dónde están estas bases de datos? Historias clínicas hospitales y centros de investigación Bases de datos genómicas Bases de datos de farmacovigilancia Laboratorios farmacéuticos: Clinical Research INFOCIENCIA Bases de datos de desarrollo clínico Estudios epidemiológicos, post-autorización, … Int J Med Inform. 2006, 75:257-67. Databases for knowledge discovery. Examples from biomedicine and health care. Br J Clin Pharmacol. 2004, 57:127-34. pharmacovigilance. Clinical Research INFOCIENCIA Application of data mining techniques in HEALTH-MINER Knowledge Discovery in Clinical Databases Clinical Research INFOCIENCIA MUCHAS GRACIAS!!!