Rev Cubana Endocrinol 12(1):58-64 Metodología científica Instituto Nacional de Endocrinología REGRESIÓN LOGÍSTICA. UN EJEMPLO DE SU USO EN ENDOCRINOLOGÍA Dra. Emma Domínguez Alonso1 y Dra. Deysi Aldana Padilla2 RESUMEN Se intentó un acercamiento a la regresión logística, como una de las técnicas estadísticas multivariadas de más frecuente uso en las últimas décadas, para orientar a su uso correcto. Se consideraron cuestiones de tipo práctico como número de sujetos necesarios para aplicarla, situaciones en las que está indicado su uso, tipo de variables a las que es posible aplicarla y las formas en que puede ser incluida en el modelo, interpretación de los resultados, etc. Se mostró un ejemplo de la aplicación de esta técnica en una investigación en el campo de la Endocrinología. Se concluyó que la regresión logística resulta de gran utilidad para su aplicación en cualquier campo de la investigación médica cuando necesitamos precisar el efecto de un grupo de variables, consideradas potencialmente influyentes, sobre la ocurrencia de un determinado proceso. DeCS: MODELOS LOGISTICOS; ENDOCRINOLOGIA. La técnica de la regresión logística se originó en la década de los 60 con el trabajo de Cornfield, Gordon y Smith1 en 1967 Walter y Duncan la utilizan ya en la forma que la conocemos actualmente, o sea para estimar la probabilidad de ocurrencia de un proceso en función de ciertas variables.2 Su uso se incrementa desde principios de los 80 como consecuencia de los adelantos ocurridos en el campo de la computación. 1 2 En una búsqueda sistemática realizada en el MEDLINE encontramos que la regresión logística fue citada en 3 892 publicaciones durante el año 1999, en 285 de ellas conjuntamente con la diabetes mellitus (DM). Teniendo en cuenta su frecuente uso, del cual no está exenta la Endocrinología, nos propusimos realizar este trabajo orientado a lograr un acercamiento Especialista de I Grado en Bioestadística. Departamento de Metodología de la Investigación. Especialista de II Grado en Epidemiología. Investigadora Auxiliar. Jefa del Departamento de Epidemiología y Nutrición. 58 (más práctico que teórico) a los aspectos más importantes relativos a esta técnica estadística. Nuestro trabajo fue estructurado en 3 partes fundamentales: de cualquier naturaleza: cualitativas o cuantitativas. La probabilidad de que Y=1 se denotará por p. La forma analítica en que la probabilidad objeto de interés se vincula con las variables explicativas es la siguiente.3 1. Breve revisión teórica de la técnica. 2. Algunas consideraciones de tipo práctico que orientan a un uso más adecuado y a una interpretación más fidedigna de sus resultados. 3. Un ejemplo del uso de la regresión logística en una investigación endocrinológica. 1 p= 1 + exp (- α-β1x1-β 2x2 - .... β kXk Esta expresión es la que se conoce como función logística; donde exp denota la función exponencial y α1, β1, β2... βk son los parámetros del modelo. Al producir la función exponencial valores mayores que 0 para cualquier argumento, p tomará solo valores entre 0 y 1. Si β es positiva (mayor que 0) entonces la función es creciente y decreciente en el caso contrario. Un coeficiente positivo indica que p crece cuando lo hace la variable. ASPECTOS TEÓRICOS FUNDAMENTALES RELATIVOS A LA REGRESIÓN LOGÍSTICA El objetivo de esta técnica estadística es expresar la probabilidad de que ocurra un hecho como función de ciertas variables, supongamos que son k (k ≥ 1), que se consideran potencialmente influyentes. La regresión logística, al igual que otras técnicas estadísticas multivariadas, da la posibilidad de evaluar la influencia de cada una de las variables independientes sobre la variable respuesta y controlar el efecto del resto. Tendremos, por tanto, una variable dependiente, llamémosla Y, que puede ser dicotómica o politómica (en este trabajo nos referiremos solamente al primer caso) y una o más variables independientes, llamémoslas X. Al ser la variable Y dicotómica, podrá tomar el valor "O" si el hecho no ocurre y "1" si el hecho ocurre; el asignar los valores de esta manera o a la inversa es intrascendente, pero es muy importante tener en cuenta la forma en que se ha hecho llegado el momento de interpretar los resultados. Las variables independientes (también llamadas explicativas) pueden ser ALGUNAS CONSIDERACIONES DE TIPO PRÁCTICO Para una mejor interpretación de los coeficientes β 1 (cualquiera de los coeficientes β1) es necesario referirnos al concepto de riesgo relativo. El riesgo relativo de un suceso se define como la razón entre la probabilidad de que dicho suceso ocurra (p) y la probabilidad de que no ocurra (1-p). El exponencial de los βi se corresponde con el riesgo relativo, o sea, es una medida de la influencia de la variable Xi sobre el riesgo de que ocurra ese hecho y suponiendo que el resto de las variables del modelo permanezcan constantes. Un intervalo de confianza para el exponencial de β que contenga al 1 indica que la variable no tiene una influencia significativa en la 59 ocurrencia del suceso y, por el contrario, valores más alejados de este indican una mayor influencia de la variable.4,5 En el ejemplo se expone más claramente la interpretación del exponencial de los β1. Una vez estimados los valores de α y β1, podemos determinar la probabilidad del suceso para distintos valores de los Xi. El valor de α se corresponde con la constante en la salida de la regresión logística. manejarse del mismo modo que se ha explicado para las nominales, o sea como variables dummy.7 En el ejemplo, algunas de las variables, tanto nominales como ordinales, fueron introducidas en el modelo como variables categóricas, con la consiguiente formación a partir de ellas de variables dummy o ficticias. INTERACCIONES VARIABLES CATEGÓRICAS En ocasiones se piensa que la influencia de una de las variables sobre la probabilidad de que ocurra el hecho se modifica en función del valor de otra de las variables y es necesario incluir en el modelo una tercera que sea el producto de las anteriores. Estos son los conocidos como términos de interacción que pueden incluir 2 o más variables. Introducimos términos de interacción cuando tenemos razones para suponer que la influencia de una de las variables sobre p varía en función del valor que asume otra de las variables incluidas en el modelo; o sea, si la influencia de X1 sobre p varía en función del valor que toma X2, incluimos en el modelo un término que represente la interacción de X1 y X2. Ejemplificaremos este aspecto con 2 variables que se introdujeron como término de interacción por considerarse que la influencia de cada una sobre la variable respuesta podía estar mediatizada por la influencia de la otra. Cuando algunas de las variables explicativas son de índole nominal, de más de 2 categorías (politómicas), para incluirlas en el modelo hay que darles un tratamiento especial. Si estamos en presencia de una variable nominal con C categorías, debemos incluirla en el modelo de regresión logística como variable categórica, de manera que a partir de ella se crean C-1 variables dicotómicas llamadas dummy o ficticias.6 Al crear las variables dummy se debe precisar con cuál de las categorías de la variable original interesa comparar el resto y esa será la llamada categoría de referencia. En general, el exponencial del coeficiente correspondiente a una de las variables dummy, estima la magnitud en que varía el riesgo de que ocurra el suceso, compara esa categoría con la de referencia. VARIABLES ORDINALES En el caso de las variables ordinales se puede asumir que la escala funciona aproximadamente a un nivel cuantitativo, desde luego, tal maniobra presupone que se considere que la “distancia” entre categorías contiguas es la misma. En el caso contrario, las variables ordinales pueden ALGUNOS ASPECTOS A TENER EN CUENTA PARA EL USO DE LA REGRESIÓN LOGÍSTICA · • Tamaño de muestra y número de variables independientes. Una de las ventajas de la regresión logística es que 60 permite el uso de múltiples variables con relativamente pocos casos, sin embargo, hay que tener en cuenta algunas precauciones. Se ha sugerido que el número de sujetos para poder usar esta técnica estadística sin problemas debe ser superior a 10 (k+1) donde k es el número de variables explicativas; por tanto, si se introducen interacciones o variables dummy, el número de elementos en la muestra debe aumentar. Además se ha sugerido que si una de las variables dicotómicas (en especial si es la de respuesta) no tiene al menos 10 casos en cada uno de sus 2 valores posibles, entonces las estimaciones no son confiables.8 En cuanto al número de variables independientes, la inclusión de un gran número de ellas en el modelo (ej. K>15), puede indicar que no se ha reflexionado suficientemente sobre el problema. • Es necesario tener en cuenta el efecto sobre el riesgo de que ocurra el evento, de los cambios de las variables explicativas cuando son cuantitativas (continuas), en ocasiones es necesario categorizarlas, ya que los cambios que se producen de una unidad a otra pueden resultar intrascendentes o no ser constantes a lo largo del rango de valores de la variable. • Cuando algunas de las variables independientes analizadas están altamente correlacionadas, los resultados que se obtienen pueden no ser satisfactorios, por esta razón debe realizarse un análisis previo univariado entre las distintas variables explicativas.9 • Para que la regresión logística tenga un sentido claro, tiene que existir una relación monótona entre las variables explicativas y la de respuesta, esto significa que el aumento de las unas se acompañe del aumento o la disminución aproximadamente constante de la otra, para todo el rango de valores estudiados.3 UN EJEMPLO DEL USO DE LA REGRESIÓN LOGÍSTICA A continuación se muestra un ejemplo del uso de la regresión logística en una investigación en el campo de la Endocrinología. No es nuestro objetivo discutir sus resultados desde el punto de vista clínico o epidemiológico, solo pretendemos lograr un mayor acercamiento a los aspectos prácticos anteriormente planteados. En una investigación en pacientes con diabetes mellitus llevada a cabo por el Instituto Nacional de Endocrinología, fueron vistos 435 pacientes antes y 5 años después de realizarse una intervención educativa destinada a los proveedores de salud en la comunidad. Del total de pacientes, 226 pertenecían al Policlínico “Plaza de la Revolución” y 209 al Policlínico “Héroes del Moncada”, el primero funcionó como área experimental y el segundo, como control. Al término de los 5 años se evaluó si el programa aplicado se traducía en cambios de algunos parámetros (control metabólico, conocimientos de los pacientes, aparición de complicaciones, conducta ante la enfermedad, etc.) a favor del área experimental. Como resultado de este estudio se obtuvo que la aparición de complicaciones agudas (especialmente la hipoglucemia) no tuvo el comportamiento esperado, no se observó una evolución favorable de la misma en el área experimental. Este resultado nos indujo a realizar un análisis multivariado, en el cual no solo se considerara como predictora de esta complicación el área de salud de pertenencia, sino otras variables 61 relacionadas con su aparición. La variable dependiente dicotómica fue ausencia “0” o presencia “1” de hipoglucemia. Se realizó un análisis de regresión logística, en la tabla 1 se muestran las variables incluidas como posibles predictoras y su operacionalización. en dependencia de la influencia de la otra. La edad, el índice de masa corporal y el tipo de tratamiento se incluyeron como variables categóricas y la primera categoría, como de referencia. En la tabla 2 se muestran los resultados. Las variables realmente predictoras de hipoglucemia fueron el tipo de tratamiento, la edad y el sexo. Al analizar los resultados para la variable tipo de tratamiento, que fue considerada como categórica, se tomó la primera categoría (dieta sola) como de referencia, podemos observar que el valor negativo de β para la segunda categoría (tabletas) indica que en los pacientes que tenían este tipo de tratamiento disminuyó el riesgo de desarrollar hipoglucemia en relación con los que tenían solo dieta, esto se corrobora por el exp (β) menor que 1 (0,5477), este último nos cuantifica esta relación e indica que el riesgo de hipoglucemia fue aproximadamente 45 % (1-0,5477) menor en los pacientes que recibían tabletas como tratamiento que en los que solo realizaban dieta. Los valores positivos de β y mayores que 1 del exp (β) para las otras 2 categorías del tipo de tratamiento muestran que el riesgo de esta complicación fue mayor para los pacientes que recibían insulina (ya fuera sola o combinada con tabletas) siempre en relación con los que llevaban dieta solamente. Los que se trataban con insulina sola mostraron un riesgo de hipoglucemia más de 2 veces mayor [exp (β)=2,1556]. Para los que tenían tratamiento combinado (insulina y tabletas) el riesgo de esta complicación fue aproximadamente 5 % mayor [exp (β)=1,0469]. Es importante tener en cuenta que esta categoría no resultó significativa estadísticamente [p=0,9340 e intervalo de confianza para el exp (β) que contiene al 1]. En el caso de las variables categóricas, si alguna categoría resulta significativa la variable queda incluida en el TABLA 1. Operacionalización de las variables incluidas como posibles predictoras Variable Operacionalización Hábito de fumar 1. No 2. Sí Práctica de ejercicios físicos 1. No 2. Sí Frecuencia de visitas al médico 1. Hasta 2 2. Tres o más Tipo de tratamiento 1. Dieta sola 2. Tabletas 3. Insulina 4. Tabletas e insulina Edad 1. Menos de 40 2. De 40 a 59 3. De 60 o más Conocimientos sobre la DM 1. No satisfactorios 2. Satisfactorios Índice de masa corporal 1. Bajopeso 2. Normopeso 3. Obesidad ligera 4. Obesidad moderada 5. Obesidad severa Tiempo de evolución de la diabetes 1. Hasta 10 años 2. 11 años o más Sexo 1. Masculino 2. Femenino Cumplimiento de la dieta 1. No 2. Sí 3. Plaza 4. Moncada Área de salud La realización de ejercicios físicos y el cumplimiento de la dieta se introdujeron como términos de interacción, al considerarse que la influencia de cada uno de ellos sobre la aparición de esta complicación puede estar 62 TABLA 2. Resultados de la regresión logística β Variables Tipo de tratamiento Tratamiento (2 Tratamiento (3) Tratamiento (4) Edad Edad (2) Edad (3) Sexo -0,6020 0,7681 0,0458 - 0,3534 - 0,7801 0,8030 Significación Exp (β) 0,0284 0,0168 0,0496 0,934 0,1232 0,4153 0,0596 0,0098 modelo final, aun cuando el resto no lo sea. Otra variable presente en el modelo final fue la edad, en este caso se evidenció que el riesgo de hipoglucemia resultó menor tanto para los pacientes de 40 a 59 años [exp (β)=0,7023] como para los de 60 o más [exp (β)=0,4583] en relación con los menores de 40 (tomada como categoría de referencia). Podemos observar que el riesgo de presentar esta complicación disminuyó con la edad, de aproximadamente el 30 % en los de 40 a 59 Intervalo de confianza (90 %) Límite inferior Límite superior 0,5477 2,1556 1,0469 0,3620 1,1327 0,4216 0,8289 4,1023 2,5996 0,7023 0,4583 2,2323 0,3441 0,2319 1,3385 1,4335 0,9059 3,7229 años a más del 54 % en los de 60 años o más. La tercera y última variable en el modelo resultante fue el sexo, que mostró un riesgo más de 2 veces mayor [exp (β)=2,2323] en el femenino en relación con el masculino (categoría de referencia). El resultado de la regresión logística ratificó el obtenido mediante el análisis univariado, el área de salud de pertenencia no constituyó predictora de la aparición de hipoglucemia. SUMMARY An approach to logistic regression , as one of the most used multivariate statistical techniques in the last decades, was made to recommend its correct use. Practical questions as the number of subjects necessary for its application, the situations in which it should be used, the type of variables to which it may be applied, the way it may be included in the model, the interpretation of the results, etc., were taken into consideration. An example of the application of this technique in the field of Endocrinology was given. It was concluded that the application of logistic regression is very useful in any field of medical research when we need to determine the effect of a group of variables, potentially considered as influential, on the ocurrence of a certain process. Subject headings: LOGISTIC MODELS; ENDOCRINOLOGY. 63 REFERENCIAS BIBLIOGRÁFICAS 1. Cornfield J, Gordon T, Smith WN. Quantal response curves for experimentally uncontroled variables. Bull Int Statist Inst 1961;38:97-115. 2. Walter S, Duncan D. Estimation of the probability of an event as a function of several variables. Biometrika 1967;54:167-79. 3. Silva LC. Excursión a la regresión logística en ciencias de la salud. Madrid:Díaz Santos, 1994:3-11. 4. Abbott RD, Carroll RJ. Interpreting multiple logistic regression coefficients in prospective observational studies. Am J Epidemiol 1984;119:830-6. 5. Dunn D, Hayes R. Re: Interpreting multiple logistic regression coefficients in prospective observational studies. Am J Epidemiol 1985;122:352. 6. Schoenfeld DA. Analysis of categorical sata: logistic model. Statistics in Medical Research. New York: Mike V, Staley KE, 1982:433-54. 7. Mc Cullagh P. Regression models for ordinal data. J Roy Statist Soc 1980;42:109-42. 8. Hsieh FY. Sample size tables for logistic regression. Stat Med 1989;8(7):795-802. 9. Mc Gee DL, Reed D, Yano K. The results of logistic analyses when the variables are highly correlated. J Chron Dis 1984;37:713-9. Recibido: 21 de diciembre de 2000. Aprobado: 5 de marzo de 2001. Dra. Emma Domínguez Alonso. San Rafael No. 773 entre Oquendo y Marqués González, Centro Habana, Ciudad de La Habana, Cuba. 64