Diagnóstico y detección de factores de riesgo de la HTA usando técnicas estadísticas Autores: Lic. Santiago Cuadrado1 Dra. Gladys Casas Cardoso2 1 Licenciado en Ciencia de la Computación. Doctora en Ciencias Técnicas. Prof. Auxiliar Fac. Mat.-Física y Computación. UCLV Dr. CT. Emilio F. González Rodríguez*, Lic. Ma. Elena Mellado Pérez*, Dra. CS. Osana Molerio Pérez*, Dra. Alina Pérez de Armas**, Dra. Haydee Curbelo Hernández**, Dra. Otmara Guirado Blanco**, Dra. CM Manuela Herrera**, Dra. Yakelín Luna Carvajal***, Dr CM. Carlos Martinéz***, Dr. MSc. Gerardo Alvarez Alvarez***, Dr. Rafael Cruz Abascal***, Dr. Luis Monteagudo***, Dra. Ana María Correa***, Dr. Juan Gutierrez Ronquillo*** *Universidad Central de Las Villas.** Instituto Superior de Ciencias Médicas de Villa Clara. *** Sectorial de Salud de Villa Clara. 2 Introducción La probabilidad y el riesgo de que una persona pueda desarrollar o sufrir un proceso específico, puede determinarse a partir del análisis de la experiencia colectiva de grandes números de individuos representativos, que posean las características consideradas. A fin de establecer comparaciones, a veces es necesario examinar también la experiencia de la población en general o del resto de ella. En la práctica el riesgo indica la probabilidad media de contraer una enfermedad para cada individuo del grupo. Los factores de riesgo son el conjunto de fenómenos de los cuales depende esta probabilidad. La determinación de los factores de riesgo es de especial interés en salud pública, ya que con su posible modificación se puede interrumpir el desarrollo de la enfermedad. En el presente trabajo se analizan los resultados obtenidos al aplicar técnicas univariadas y multivariadas para el diagnóstico de la Hipertensión Arterial (HTA) y la determinación de sus factores de riesgos. El uso integrado de estas técnicas en el campo de la salud resulta novedosa en nuestro país. Lo más interesante resulta que la técnica de CHAID (Chi-squared Automatic Interaction Detector) proporciona criterios y datos suficientes para organizar Sistemas Expertos para Diagnóstico, en particular Sistemas Expertos basados en redes neuronales bayesianas. Hipertensión Arterial (HTA) La hipertensión arterial es un factor de riesgo para las enfermedades del corazón, cerebro y riñon, sin embargo, ella por si misma representa una enfermedad. La Organización Mundial de Salud la ha denominado epidemia silenciosa pues por lo regular se presenta de forma asintomática, ocasionando daños como: trombosis, hemorragias cerebrales, infarto del miocardio, muerte súbita, insuficiencia renal, entre otras. Varios estudios realizados consideran esta enfermedad como la primera causa de muerte en el mundo. En Cuba y en particular en nuestro municipio está vinculada a la segunda causa de muerte. Lo más interesante y preocupante de esta enfermedad es la gran cantidad de personas que desconocen su padecimiento, debido al hecho de ser asintomática. Según “La I Encuesta Nacional de Factores de Riesgo y Actividades Preventivas de Cuba”, del total de hipertensos detectados sólo el 60.8% conocían de su enfermedad y de ellos el 75% tenían tratamiento. De estos últimos un 12.3% cumplía tratamiento no farmacológico, un 20.9 % lo hacía con medicamentos y el 42% usaban ambos. Los factores de riesgo de esta enfermedad son tan disímiles que pueden ir desde factores económicos y sociales, hasta ambientales y étnicos, por lo que su diagnóstico no debe limitarse simplemente a la toma de la presión arterial sistólica y diastólica, sino analizar cada uno de estos factores. Sin lugar a dudas, el estudio de todos los factores requiere de una gran cantidad de recursos materiales y humanos de los que no siempre es posible disponer. El proyecto de investigación de la Universidad Central de Las Villas “Proyección del Centro de Desarrollo Electrónico hacia la Comunidad” (PROCDEC) tiene como objetivo principal el desarrollo de un estudio de personas supuestamente normotensas primero en la ciudad de Santa Clara y luego en toda la nación. En el desarrollo de este proyecto participa un grupo multidisciplinario formado por un psicólogo, un cardiólogo, un nefrólogo, un genetista, 3 fisiólogos, dos clínicos, un médico de laboratorio, dos ingenieros y dos cibernéticos. Participan además especialistas en Medicina Integral General de los centros hospitalarios José Ramón León, Chiqui Gómez,Ramón Pando Ferrer, Santa Clara y XX Aniversario. Estos especialistas realizan el estudio del paciente, mientras el grupo multidisciplinario es quien valida el diagnóstico. A continuación se muestran los resultados obtenidos al aplicar técnicas estadísticas univariadas y multivariadas para determinar factores de riesgo, a partir de una muestra de 863 pacientes. Características fundamentales de los datos La base de datos relativa a este estudio está formada por un conjunto de 38 atributos predictivos que se obtienen de estudios y entrevistas realizadas a los pacientes y un atributo objetivo (diagnóstico) cuyo valor (hipertenso o normotenso) se infiere a partir del valor de los atributos predictivos. Determinación de los factores de riesgo La forma más elemental de evaluar la magnitud de un factor de riesgo para atributos discretos es a través de tablas de contingencia en los conocidos estudios epidemiológicos de casos controles o estudios de cohortes. En dichas tablas de contingencias, la variable de entrada (fila) representa el factor y la variable de salida (columna) la presencia o no de la enfermedad. Por ejemplo: Diagnóstico de expertos Sexo Total Total Hipertenso Normotenso Masculino 194 213 407 Femenino 130 326 456 324 539 863 En dicha tabla, tienen particular interés los porcentajes por filas. De esta forma: % de Masculinos-Hipertensos=194/407=0,47 es una. estimación de la probabilidad de la salida Hipertenso condicionada a la entrada Masculino y se interpreta como el riesgo de Hipertensión en caso de ser hombre. % de Femeninos-Hipertensos=130/456=0,28 es una estimación de la probabilidad de la salida Hipertenso condicionada a la entrada Femenino y se interpreta como el riesgo de Hipertensión en caso de ser mujer. La relación entre estos dos riesgos: RR=%Masculinos-Hipertensos/%Femeninos-Hipertensos=1,67 se denomina riesgo relativo y es una estimación de la relación entre las probabilidades de salida Hipertenso cuando la entrada es Masculino respecto a la entrada Femenino. En este caso se interpretaría que ser Hipertenso es 1,71 veces más riesgoso entre los hombres que entre las mujeres. En general, si RR >> 1, la variable de entrada se considera un factor de riesgo. Si RR << 1, la variable de entrada es un riesgo negativo, es decir, un factor protector. Si RR 1, la variable de entrada no es ni un factor de riesgo ni un factor protector. Para llegar a conclusiones estadísticas se formula una dócima de hipótesis para: H0: RR = 1 H1: RR 1 o lo que es equivalente, se formula un intervalo de confianza para RR. Si a partir de los datos de una muestra ese intervalo queda a la derecha de 1, se habla de riesgo; si queda a la izquierda se habla de protector y si abarca a 1 no se considera el factor asociado a la enfermedad. Este análisis se realizó con todas las variables discretas dicotómicas y se determinó que constituyen factores de riesgo para la hipertensión cualquiera de los siguientes: ser hombre, estar en la etapa de climaterio, ser de raza negra o mestiza, ingerir bebidas alcohólicas, fumar, haber tenido un infarto de miocardio, padecer de enfermedades renales, ser diabético, padecer de dislipidemia, haber tenido gestaciones con HTA e ingerir medicamentos. Análisis multivariado de riesgos mediante el análisis discriminante y regresión logística. El estudio anterior permite analizar la dependencia estadística de cada atributo predictivo discreto respecto al atributo objetivo, sin embargo no permite considerar las interacciones que pudieran existir entre dichos atributos, ni permite considerar atributos continuos. Por esta razón se propone el uso de técnicas de análisis multivariado tales como el análisis de discriminante y la regresión logística que permiten construir funciones integrales de riesgo,, ordenar estos factores y facilitar el estudio de sus interacciones. El análisis de discriminante brinda esencialmente tres informaciones: Hasta qué punto el conjunto de variables X1, X2, …, Xn (digamos factores de riesgos o interacciones de estos) son capaces de distinguir dos grupos (por ejemplo, enfermos y sanos, en un estudio de casos controles). Determinar el orden de importancia de estos factores en la distinción de los grupos (y la eliminación de algunos si es necesario). Construir una función discriminante (interpretada como una función integral de riesgo en este caso), de la forma: F = 0 + 1 X1 + 2 X2 + … + n Xn. de manera que F 0 sobre la mayoría de enfermos y F < 0 sobre la mayoría de sanos. En particular el orden de importancia “absoluta” de las variables se determina por el coeficiente de correlación de cada una con la función F, con independencia de si dicha variable aparece o no en la expresión de F. A continuación se presentan los algunos resultados de realizar un análisis discriminante. Para el uso de esta técnica incorporamos un nuevo grupo de interés para los especialistas formado por 268 pacientes clasificados como hiperreactivos. Ahora la nueva muestra quedó formada por tres grupos: normotensos, hiperreactivos e hipertensos. El uso de esta técnica dio como resultado que las variables más importantes para distinguir entre estos grupos son: Presión arterial media (PAM), TA Sistólica basal, Índice de masa corporal (IMC), TA Diastólica basal, Colesterol HDL, Climaterio, Antecedentes Patológicos Familiares, Edad, TA Diastólica y Sistólica basal al 1er minuto, Glicemia, Dislipidemia, Sexo y TA Sistólica basal al 2do minuto, Acido Úrico. Los resultados de clasificación fueron los siguientes: Classification Results(a) Diagnóstico de expertos Predicted Group Membership Hipertenso Hiperreactivo Normotenso vascular Hipertenso 284 40 0 324 Hiperreactivo vascular 12 250 6 268 477 539 0 62 Normotenso 89,4% of original grouped cases correctly classified. Total Como puede apreciarse las variables mencionadas anteriormente permiten diferenciar claramente los pacientes hipertensos de los normotensos. Por esta razón realizamos una regresión multinomial logística tomando como categoría de referencia ¨hiperrectivo¨. Por tal razón se decide aplicar una regresión logística la cual es más recomendable cuando predominan las variables discretas como en este caso. En este tipo de regresión se construye también una “función discriminante”, pero de la forma: f 1 n 1 Exp( 0 i xi ) i 1 y se interpreta como la probabilidad condicional de que se produzca la enfermedad (E = Si) dado que un sujeto exhiba el perfil (X1, X2, …, Xn). La determinación de los coeficientes se hace no exactamente por regresión sino por aproximaciones sucesivas que procuran maximizar la verosimilitud de la muestra y ello se puede lograr también por técnicas paso a paso, entre las cuales es particularmente recomendable la maximización de la razón de verosimilitud Chi-cuadrado si se quiere obtener resultados concordantes con los que lograremos después a través de la técnica CHAID que se propondrá. El uso de esta técnica muestra que las variables que son estadísticamente significativas para diferenciar los hiperreactivos de los hipertensos son: Sexo, Raza, Enfermedad renal, Ingiere medicamentos actualmente, Antecedentes Patologicos Familiares, TA Sistólica basal, TA Diastólica basal, TA Sistólica (al 1er minuto), TA Sistólica (al 2do minuto), TA Diastólica (al 2do minuto), Presión arterial media (PAM), Indice de masa corporal (IMC), Acido Urico y Colesterol HDL 2 Por otra parte las que son estadísticamente significativas para diferenciar los hiperreactivos de los normotensos son: Sexo, Fuma, TA Sistólica (al 1er minuto), TA Diastólica (al 1er minuto), TA Sistólica (al 2do minuto). TA Diastólica (al 2do minuto) y Presión arterial media (PAM). Los resultados de la clasificación fueron: Classification Observed Predicted Hipertenso Hiperreactivo vascular Normotenso Percent Correct Hipertenso 310 14 0 95,7% Hiperreactivo vascular 12 246 10 91,8% Normotenso 0 9 530 98,3% Overall Percentage 28,5% 23,8% 47,7% 96,0% Como puede apreciarse el uso de una regresión logística multinomial ofrece mejores resultados para realizar una clasificación. Análisis multivariado de riegos usando Técnicas de Segmentación El orden de importancia sucesiva de las variables puede sugerir, tanto en el análisis discriminante como en la regresión logística algunas interacciones a considerar, pero esto no es totalmente claro. Por otra parte la inclusión o no de una variable nominal, depende en gran medida de la forma de que esta es codificada y los resultados de cualquiera de las dos técnicas pueden verse afectadas por esto. La técnica que se presenta a continuación resuelve estas dificultades. El análisis de CHAID surge como una técnica de segmentación y es particularmente útil en todos aquellos problemas en que se quiera subdividir una población a partir de una variable dependiente y posibles variables predictoras que cambien esencialmente los valores de la variable dependiente en cada una de las subpoblaciones o segmentos. Más que segmentar la población en este caso la técnica de CHAID se usa para: Para conocer cuáles, entre decenas de variables (posibles factores de riesgo) pueden ser eliminadas. Para comprender el orden de importancia de los factores de riesgo en la caracterización de la enfermedad y en particular ayudar a detectar posibles factores confusores o modificadores de riesgo Para entender cómo ciertos factores de riesgo interactúan con otros. Para conocer que efectos interactivos incluir en un análisis discriminante o de regresión logística de casoscontroles respecto a factores de riesgo. Para buscar entre cientos de tablas de contingencia y seleccionar aquellas que son más significativas estadísticamente. Simplificar las crostabulaciones combinando categorías de variables predictoras que no difieren significativamente. Los principales resultados de aplicar esta técnica a nuestro problema se presentan en la Fig 1. Los resultados de la clasificación usando la estructura jerárquica obtenida son: Classification Observed Predicted Hipertenso Hiperreactivo vascular Normotenso Percent Correct Hiperreactivo vascular Normotenso 282 30 0 40 232 52 2 6 487 87,0% 86,6% 90,4% Overall Percentage 27,6% 28,6% 43,8% 88,5% Hipertenso Growing Method: CHAID Aunque estos resultados de clasificación no resultan mejores que los de la regresión logística multinomial, la reducción del conjunto de rasgos a considerar es significativa y la estructura jerárquica en la que se organizan los casos permite un manejo eficiente de los mismos mediante el uso de otras técnicas. Por ejemplo, una técnica elemental la constituye dado un nuevo individuo recorrer el árbol en profundidad analizando sólo el atributo de interés en cada nivel hasta ubicarlo en uno de los nodos terminales. Con la información que brinda el nodo terminal se puede determinar la probabilidad de que ese individuo pertenezca a uno de los grupos. Si las probabilidades sean valores muy bajos puede darse una vuelta atrás al nodo precedente y así sucesivamente hasta lograr dar una diagnóstico con una probabilidad aceptable. Para caracterizar los grupos de riesgo se decide quitar del análisis las variables que miden la presión arterial, pues como vimos anteriormente, ellas por si solas prácticamente caracterizan a dichos grupos. Grupos de riesgo considerando a los hiperreactivos En este caso constituyen grupos de riesgo para la hipertensión aquellas personas que tiene un IMC (índice de masa corporal) por encima de 30, 8 y las personas que tienen un IMC entre 24,8 y 30,8 pero tienen elevados niveles de colesterol HDL. Los resultados se muestran en la Fig 2. Grupos de riesgo sin considerar los hiperreactivos En este caso constituyen grupo de riesgo aquellas personas que tiene un IMC por encima de 31,65 o que tiene un IMC entre 24,72 y 31,65 y que tienen más de 42 años ó la hemoglobina alta. Los resultados se muestran en la Fig 3. Conclusiones En el presente trabajo se realiza un estudio de los factores de riesgo de la HTA usando como muestra a un grupo de pacientes supuestamente normotensos de la ciudad de Santa Clara. Los estudios realizados mediante el uso integrado de la técnica de análisis discriminante, regresión logística y la técnica de CHAID permiten simplificar de manera significativa el estudio de factores que nada aportan a la detección y prevención de la HTA. Por otra parte la representación de los casos en una estructura jerárquica permite un manejo eficiente de los mismos mediante el uso de otras técnicas como las que se aplican en Inteligencia Artificial para trabajar con árboles de decisión y redes bayesianas. Bibliografía Mas JR., Galván VG. El origen de la hipertensión arterial. Genética de la hipertensión arterial. Hipertensión 2002, 23 (05):136-143. Corry DB., TUC ML. Obesity, hipertensión and sympathetic nervous system activity. Curr Hypertens Rep 1999, 1:119-126. Nigro D., Vergottini JC., Kuschnir E. y cols. Epidemiología de la Hipertensión Arterial en la Ciudad de Córdoba, Argentina.. Rev Fed Arg Cardiol 1999; 28: 69 –75. Willett P. Recent trenes in hierarchic document clustering: A critical review. Information processing and management , 1988 24 (5), 577-597 Law MR. Am J. Epidemiologic evidence on salt and blood pressure. Hypertension 1997, 10: 42S – 45S. Lauritzen S.L., Wermuth N. Graphical models for associations between variables, some of which are qualitative and some quantitative. Annals of Statistics 1989, 17:31-57. Quinlan J. Induction of decisión trees. Machina Learning 1986, 1:81-106. Figuras Fig 1. Estructura jerárquica de organización de los casos considerando todas las variables Fig 2. Estructura jerárquica de organización de los casos sin considerar las variables que miden PA. Fig 3. Estructura jerárquica de organización de los casos sin considerar las variables que miden PA ni los hiperreactivos