DocuWeb FABIS Dot. Núm 0702007 Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado Aguayo Canela, Mariano Hospital Universitario Virgen Macarena. Sevilla Resumen Cuando se evalúa la relación entre una variable independiente (o exposición) y una variable dependiente (o respuesta), hay dos tipos de variables o factores que pueden enmascarar el efecto objeto de estudio. Se trata de variables predictoras que –en conjunto- se llaman “de control”, pero que juegan un papel muy diferente. Es muy importante distinguir entre confusión e interacción, y tener en cuenta de que ambos fenómenos pueden estar presentes. El análisis estratificado puede servir para detectar una interacción por una tercera variable (variable modificadora de efecto) en la relación de dos variables (una exposición y otra resultado). 0. Introducción. Cuando se evalúa la relación entre una variable independiente (o exposición) y una variable dependiente (o respuesta), hay dos tipos de variables o factores que pueden enmascarar el efecto objeto de estudio. Se trata de variables predictoras que –en conjunto- se llaman “de control”, pero que juegan un papel muy diferente: a) Los llamados factores o variables de confusión (o confundentes, o confundidoras), que son variables externas a la relación que se evalúa, cronológicamente anteriores a la exposición y relacionadas tanto con la exposición como con la respuesta. Su presencia produce sesgos en la relación de la variable dependiente e independiente, que se deben eliminar (o controlar) a través de ajustes estadísticos realizados con análisis estratificado o con técnicas de análisis multivariante. b) Las variables de interacción o modificadoras de efecto, cuyos valores cambian la intensidad o el sentido de la relación entre el factor de estudio (exposición) y la variable dependiente (respuesta). Descubrirlas es un objetivo del estudio. Es muy importante distinguir entre confusión e interacción, y tener en cuenta de que ambos fenómenos pueden estar presentes. 1. El fenómeno de la confusión. Correspondencia: marianoaguayo@telefonica.net 1 de 8 Aguayo Canela, Mariano DocuWeb fabis.org 1.1. El ejemplo de la relación espuria entre el consumo de café y desarrollar infarto de miocardio (Hulley y Cummings, 1993). La siguiente tabla 2×2 muestra los datos hipotéticos de un estudio de cohortes para evaluar la relación entre consumo de café y desarrollo de infarto de miocardio (IAM): Tomaban café SI NO Totales Infarto de miocardio SI NO 40 460 10 490 50 950 Totales 500 500 1.000 Las medidas de riesgo que pueden calcularse con estos datos son: OR = (40 × 490) / (460 × 10) = 4,3 RR = (40 / 500) / (10 / 500) = 0,08 / 0,02 = 4,0 RA = (40 / 500) - (10 / 500) = 0,08 – 0,02 = 0,06 (6%) La OR (Odds Ratio) y el RR (Riesgo Relativo)1 expresan cuántas veces más se da el resultado (tener IAM) en los expuestos (los que tomaban café) que en los no expuestos, bajo una óptica multiplicativa. Puede decirse también que representa cuántas veces más riesgo tienen los expuestos en relación con los no expuestos. El RA (Riesgo Atribuible o diferencia de riesgos) indica la cantidad adicional de incidencia de IAM (o exceso de riesgo) que tienen los expuestos respecto a los no expuestos, bajo una óptica aditiva. Es una medida útil en salud pública, ya que permite evaluar cuánta cantidad de IAM se debe a la exposición y, secundariamente, cuánta incidencia se podría reducir a través de programas educativos o intervenciones sanitarias. En el mismo estudio se registró el consumo de tabaco, como una variable reconocida de riesgo para padecer infarto de miocardio. Para evaluar si dicha variable en este estudio pudiera estar comportándose como una variable confundente en la relación principal evaluada (café → IAM) se realizó un análisis estratificado de la relación principal en los grupos o estratos de la variable presumiblemente confundidora, con los siguientes resultados: Estrato 1 Tomaban café SI NO Totales Estrato 2 Tomaban café SI NO Totales NO FUMADORES Infarto de miocardio Totales SI NO 120 2 118 480 8 472 10 590 600 FUMADORES Infarto de miocardio Totales SI NO 380 38 342 20 2 18 40 360 400 La OR en el estrato de NO-FUMADORES es: ORESTRATO 1 = 2 × 472 / 118 × 8 = 1 La OR en el estrato de FUMADORES es: ORESTRATO 2 = 38 × 18 / 342 × 2 = 1 Si en vez del modelo multiplicativo hubiésemos empleado el modelo aditivo, el RA o diferencia de riesgos también sería similar en cada estrato, y muy diferente del 1 En este caso se puede calcular el RR puesto que hemos dicho que es un estudio de cohortes. (prospectivo) y, por tanto, tiene sentido obtener la incidencia de IAM en expuestos y en no-expuestos. DocuWeb fabis.org 2 de 8 Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado fabis.org, 2007 RA “bruto”: RAESTRATO 1 = (2 / 120) – (8 / 480) = 0,0167 – 0,0167 = 0 RAESTRATO 2 = (38 / 380) – (2 / 20) = 0,1 – 0,1 = 0 Al mirar los datos marginales puede observarse como entre los 500 sujetos que tomaban café (expuestos) hay muchos más fumadores (380 versus 120), mientras que entre los que no tomaban café (no-expuestos) hay muchos más no fumadores (480 versus 20). Por otra parte, en el grupo de fumadores hay más incidencia de infarto de miocardio (40/400, un 10%) que el estrato de no fumadores (10/600, un 1,7%). Es por este desajuste en la distribución de los sujetos por la variable de confusión por lo que se encuentra en este estudio de cohortes una relación espuria o sesgada entre el tomar café y el infarto de miocardio, con una OR = 4,3. De hecho hemos visto que al controlar o ajustar el efecto del tabaquismo (estratificando por la variable hábito de fumar), dentro de cada estrato desaparece la relación (OR = 1, RA = 0) entre consumo de café e IAM. 1.2. Detección de confusión en el análisis estratificado. El análisis estratificado consiste en calcular las medidas de asociación entre las dos variables principales (dependiente e independiente) para cada uno de los estratos de la variable confundente.2 Esto puede llevarse a cabo en el programa SPSS (Analizar > Estadística descriptiva > Tablas de contingencia) si tenemos todos los casos o individuos en una única base de datos; o en el programa EPIINFO (calculadora estadística STATCAL) si conocemos los recuentos de valores (frecuencias absolutas) para cada variable que se va a introducir en el análisis. Tras obtener la medida de asociación “bruta” (relación entre la dependiente y la independiente, sin tener en cuenta la variable presumiblemente confundente), se procede a obtener la misma medida (OR, RR ó RA) en cada estrato o capa definido por la variable confundente, y una medida final ajustada (en ocasiones llamada OR global o ponderada de Mantel-Haenszel). Se dice que existe confusión cuando: a) Los valores de las medidas de asociación en cada estrato son similares entre sí, y diferentes de las medidas de asociación “brutas”. Pueden darse varias combinaciones: a. Relación espuria: La OR global detecta asociación (valor > 1), mientras que la OR en cada estrato no lo detectan, arrojando valores próximos al valor nulo (OR = 1). b. Confusión enmascarando el efecto: la OR global es 1 (no hay asociación), mientras que las OR en cada estrato ponen de manifiesto una asociación (valores > 1). c. Confusión invirtiendo el efecto (Paradoja de Simpson): Las OR en cada estrato muestran asociación (valores > 1), mientras que la OR global muestra una relación o asociación invertida (valor < 1). 2 El análisis estratificado requiere que la variable por la que se estratifica o ajusta sea de tipo categórico y que el tamaño muestral sea suficientemente grande como para que no existan celdas con pocos representantes. Por ello hoy en día ha sido casi sustituido por las técnicas de análisis multivariante, mucho más eficientes (estimaciones más precisas con menos tamaños muestrales) y que permiten evaluar varios factores de confusión simultáneamente. Sin embargo siguen siendo muy útiles para comprender las relaciones entre las variables analizadas. DocuWeb fabis.org 3 de 8 Aguayo Canela, Mariano DocuWeb fabis.org b) Los valores de las medidas de asociación “ajustadas” difieren en más de un 10% de los de las medidas “brutas”. c) Por supuesto deben cumplirse los criterios generales3 de una variable de confusión. Vamos a hacer un análisis estratificado en EPIINFO con los datos del ejemplo del estudio de cohortes anterior (consumo de café e IAM). Abrimos el programa EPIINFO 6.0 y optamos en Programas por STATCAL Calculadora Estadística, y sucesivamente Tablas (2 × 2, 2 × n). En el cuadro introducimos los datos (pulsando <Enter> cada vez para saltar de casilla) y marcamos <F4> (calcular). Debemos obtener esta pantalla: Vemos que la OR en este primer estrato (NO FUMADORES) vale 1, como ya sabemos por el cálculo manual. Ahora debemos indicar al programa que estamos haciendo un análisis estratificado, oprimiendo la tecla <F2> (Estratos). Volvemos a rellenar los datos de las cuadro celdillas, esta vez con los correspondientes a FUMADORES. Obtendremos, tras calcular, la siguiente salida: 3 Son tres: la variable de confusión debe ser un factor de riesgo (o protector) de la variable dependiente, debe estar relacionada con la variable independiente y no ser un mero paso intermedio en la relación principal evaluada (cronológicamente anterior a la exposición). DocuWeb fabis.org 4 de 8 Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado fabis.org, 2007 Igualmente comprobamos que en este estrato (FUMADORES) la OR también vale 1. Ahora, para finalizar, indicamos al programa que no hay más estratos, oprimiendo la tecla <Enter>. Obtendremos la siguiente pantalla: Vemos el resumen del Análisis Estratificado (en este caso resumen de dos tablas o estratos): la OR cruda (o “bruta”) para la tabla global es 4,26 mientras que la OR “ajustada” (o ponderada de Mantel-Haenszel) es de 1,00. Si no hubiésemos realizado este ajuste habríamos dado una medida de asociación sesgada, llegando a la falsa conclusión de que el hecho de beber café incrementa el riesgo de IAM, multiplicándolo por cuatro veces, cuando en realidad no están ni siquiera asociados. La medida de asociación que debe darse cuando hay confusión es el valor ajustado o ponderado, ya que el valor “bruto” está sesgado (o confundido). 2. El fenómeno de la interacción (modificación de efecto). 2.1. El ejemplo de la relación -modificada por la edad- entre el hábito de fumar y desarrollar infarto de miocardio. La siguiente tabla 2×2 muestra los datos hipotéticos de un estudio de cohortes para evaluar la relación entre consumo de cigarrillos y el desarrollo de infarto agudo de miocardio: Fumaban SI NO Totales Infarto de miocardio SI NO 34 466 9 491 43 957 Totales 500 500 1.000 Las medidas de riesgo que pueden calcularse con estos datos son: OR = (34 × 491) / (466 × 9) = 3,98 RR = (34 / 500) / (9 / 500) = 0,068 / 0,018 = 3,78 RA = (34 / 500) - (9 / 500) = 0,068 – 0,018 = 0,05 (5%) DocuWeb fabis.org 5 de 8 Aguayo Canela, Mariano DocuWeb fabis.org Con este primer análisis se detecta que el consumo de cigarrillos está asociado con el desarrollo de infarto de miocardio, multiplicando el riesgo por cuatro. Sin embargo, si se hubiese realizado el mismo análisis en dos grupos de edad (definidos por un punto de corte de 45 años), los resultados hubiesen sido los siguientes: Estrato 1 < 45 años Fumaban SI NO Totales Infarto de miocardio Totales SI NO 300 6 294 300 4 296 10 590 600 Estrato 2 ≥ 45 años Fumaban SI NO Totales Infarto de miocardio Totales SI NO 200 28 172 200 5 195 33 367 400 La OR en el estrato de edad < 45 años es: ORESTR 1 = 6 × 296 / 294 × 4 = 1,51 La OR en el estrato de edad ≥ 45 años es: ORESTR 2 = 28 × 195 / 172 × 5 = 6,35 Si en vez del modelo multiplicativo hubiésemos empleado el modelo aditivo, el RA o diferencia de riesgos también sería muy diferente en cada estrato, y también diferente del RA “bruto”: RAESTRATO 1 = (6 / 300) – (4 / 300) = 0,02 – 0,0133 = 0,0067 (0,67%) RAESTRATO 2 = (28 / 200) – (5 / 200) = 0,14 – 0,025 = 0,115 (11,5%) Estos “sorprendentes” resultados se explican por el fenómeno de interacción: en realidad lo que está ocurriendo es que la relación entre el tabaco y el IAM, que sabemos que existe, se ve modificada en su intensidad por una tercera variable, la edad, cambiando significativamente las medidas de asociación, tanto en el modelo multiplicativo (OR, RR) como en el modelo aditivo (RA). En efecto, según la edad de los sujetos evaluados, la relación entre el consumo de tabaco y el IAM cambia, siendo débil en el grupo de menos edad (OR = 1,51; RA = 0,67%) y fuerte en el grupo de más edad (OR = 6,35; RA = 11,5%). La interacción, al contrario de la confusión, no produce ningún sesgo en la evaluación de la relación analizada. De hecho, la OR o el RA encontrados cuando se analiza la totalidad de los sujetos son valores promedio (para el conjunto de edades) del hábito de fumar sobre el infarto de miocardio. Pero estos valores promedio tienen en verdad poco interés práctico, ya que no informan de manera precisa sobre la relación objeto de estudio. Cuando existe interacción o modificación de efecto, el investigador debe detectarlo y describirlo, siendo un objetivo más del estudio descubrir estas interacciones. 2.2. Detección de interacción en el análisis estratificado. El análisis estratificado puede servir para detectar una interacción por una tercera variable (variable modificadora de efecto) en la relación de dos variables (una exposición y otra resultado). Así, el cálculo de medidas de asociación con la totalidad de los datos y, posteriormente, en los diferentes estratos establecidos por la variable modificadora de efecto, arrojará valores diferentes: la OR o el RA obtenido en cada estrato serán distintos, y las medidas de asociación calculadas con el global de los sujetos representarán un promedio de los valores de las medidas obtenidas en los estratos. Por ello, cuando sólo existe interacción pura, no deben emplearse estas medidas “brutas” para describir la relación principal entre la variable DocuWeb fabis.org 6 de 8 Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado fabis.org, 2007 dependiente y la independiente, ni deben calcularse medidas ajustadas o ponderadas, como en el caso de la confusión. Debe expresarse el valor de la medida en cada estrato de la variable modificadora de efecto. Por otra parte, el análisis estratificado puede servir para identificar la presencia de confusión e interacción al mismo tiempo. En esta situación, la OR en los estratos definidos por los valores de la variable modificadora de efecto (y confundente) serán diferentes, pero la OR global o “cruda”, con la totalidad de los individuos, no será un valor promedio.4 En estos casos el análisis multivariante será de gran ayuda, como veremos en otro documento. 3. Confusión versus interacción (modificación de efecto). Es muy importante comprender estos dos fenómenos y saber diferenciarlos. A manera de resumen se muestran los principales conceptos en la siguiente tabla. Características CONFUSIÓN INTERACCIÓN Significado Es un sesgo, una distorsión entre la verdadera relación entre una exposición (variable independiente) y un efecto (variable resultado o dependiente), debido a la presencia de un factor externo que se llama variable confundente. No tiene significado biológico. Proviene de una relación específica entre variables en la base de datos que se analiza, y que no necesariamente existe en la población de la que se extrajo la muestra. Dicho de otra manera, la confusión depende de cómo se distribuye el factor de confusión entre los grupos de análisis, de forma que una característica o variable puede ser un factor confundente en un estudio y no serlo en otro. Puede corresponder a un fenómeno biológico (sobre todo cuando existe una modificación en las medidas de efecto bajo un modelo aditivo). Corresponde al cambio del verdadero valor de la asociación entre una exposición y un desenlace introducido por una tercera variable, que se conoce como modificadora de efecto. Consecuencia de su presencia Introduce un sesgo o error sistemático en la estimación de la medida de asociación. Enriquece la información que se puede dar de la medida de asociación. En el análisis estratificado, la OR cruda difiere de las OR calculadas en los estratos, establecidos por los valores de la variable confusora, mientras que en éstos son similares. La OR cruda está sesgada y no es válida. En el análisis estratificado por los valores de la variable modificadora de efecto, las OR obtenidas son muy diferentes. La OR global, sin estratificar, representa un valor promedio entre las OR de los estratos, que no tiene trascendencia práctica. En el análisis multivariante la interacción debe analizarse introduciendo un término multiplicativo, que contiene la variable independiente y la variable modificadora de efecto. Cuando hay interacción, éste término es estadísticamente significativo, y tanto él como las variables que lo componen deben permanecer en el modelo. Identificación Actuación del investigador En el análisis multivariante, al introducir el factor de confusión, se modifica el coeficiente de regresión (y la OR si estamos en una Regresión Logística) de la variable independiente, al calcularse una estimación ajustada (o controlada) de la relación entre la exposición y el efecto. Si no se ha podido eliminar en la fase de diseño (hay tres estrategias para ello: la restricción, el emparejamiento y la randomización o asignación aleatoria), hay que eliminarlo en la fase de análisis, ajustando o controlando la relación principal evaluada por cada factor de confusión Debe describirse en detalle, dando medidas de asociación para cada estrato o subgrupo establecido por la variable modificadora de efecto. 4 Si se presentan simultáneamente, la interacción debe evaluarse siempre antes de la confusión. Sólo en el caso de que la interacción sea moderada es recomendable utilizar una estimación ajustada o controlada. DocuWeb fabis.org 7 de 8 Aguayo Canela, Mariano DocuWeb fabis.org Referencias bibliográficas. 1. Doménech JM, Sarriá A. Análisis multivariante: modelos de regresión. Unidad Didáctica 8: Confusión e interacción. Editorial Signo. Barcelona, 1997. 2. De Irala-Estévez J, Martínez-González MA. Errores en la estimación de medidas de asociación en estudios epidemiológicos. En: Epidemiología Aplicada. Ariel Ciencias Médicas. Editorial Ariel S.A. Barcelona, 2004. Capítulo 7, páginas 257-346. 3. De Irala-Estévez J, Martínez-González MA. Variables modificadoras de efecto. En: Epidemiología Aplicada. Ariel Ciencias Médicas. Editorial Ariel S.A. Barcelona, 2004. Capítulo 8, páginas 347-370. 4. Cobo E, Buekens P. Necesidades y limitaciones del ajuste. Med Clin (Barc) 1990; 95: 702-708. 5. de Irala J, Martínez-González MA, Guillén-Grima F. ¿Qué es una variable de confusión? Med Clin (Barc) 2001; 117: 377-385. 6. Cobo E, Corchero C. Ajuste: qué variables, cómo y cuándo. FMC 2003; 10(10): 741742. DocuWeb fabis.org 8 de 8