regresión logística. un ejemplo de su uso en endocrinología

Anuncio
Rev Cubana Endocrinol 12(1):58-64
Metodología científica
Instituto Nacional de Endocrinología
REGRESIÓN LOGÍSTICA. UN EJEMPLO DE SU USO
EN ENDOCRINOLOGÍA
Dra. Emma Domínguez Alonso1 y Dra. Deysi Aldana Padilla2
RESUMEN
Se intentó un acercamiento a la regresión logística, como una de las técnicas estadísticas
multivariadas de más frecuente uso en las últimas décadas, para orientar a su uso
correcto. Se consideraron cuestiones de tipo práctico como número de sujetos
necesarios para aplicarla, situaciones en las que está indicado su uso, tipo de variables
a las que es posible aplicarla y las formas en que puede ser incluida en el modelo,
interpretación de los resultados, etc. Se mostró un ejemplo de la aplicación de esta
técnica en una investigación en el campo de la Endocrinología. Se concluyó que la
regresión logística resulta de gran utilidad para su aplicación en cualquier campo de la
investigación médica cuando necesitamos precisar el efecto de un grupo de variables,
consideradas potencialmente influyentes, sobre la ocurrencia de un determinado
proceso.
DeCS: MODELOS LOGISTICOS; ENDOCRINOLOGIA.
La técnica de la regresión logística se
originó en la década de los 60 con el trabajo
de Cornfield, Gordon y Smith1 en 1967
Walter y Duncan la utilizan ya en la forma
que la conocemos actualmente, o sea para
estimar la probabilidad de ocurrencia de un
proceso en función de ciertas variables.2
Su uso se incrementa desde principios de
los 80 como consecuencia de los adelantos
ocurridos en el campo de la computación.
1
2
En una búsqueda sistemática realizada
en el MEDLINE encontramos que la regresión logística fue citada en 3 892 publicaciones durante el año 1999, en 285 de ellas
conjuntamente con la diabetes mellitus
(DM).
Teniendo en cuenta su frecuente uso,
del cual no está exenta la Endocrinología,
nos propusimos realizar este trabajo
orientado a lograr un acercamiento
Especialista de I Grado en Bioestadística. Departamento de Metodología de la Investigación.
Especialista de II Grado en Epidemiología. Investigadora Auxiliar. Jefa del Departamento de
Epidemiología y Nutrición.
58
(más práctico que teórico) a los aspectos
más importantes relativos a esta técnica
estadística.
Nuestro trabajo fue estructurado en
3 partes fundamentales:
de cualquier naturaleza: cualitativas o
cuantitativas. La probabilidad de que Y=1
se denotará por p.
La forma analítica en que la
probabilidad objeto de interés se vincula
con las variables explicativas es la
siguiente.3
1. Breve revisión teórica de la técnica.
2. Algunas consideraciones de tipo
práctico que orientan a un uso más
adecuado y a una interpretación más
fidedigna de sus resultados.
3. Un ejemplo del uso de la regresión logística en una investigación endocrinológica.
1
p=
1 + exp (- α-β1x1-β 2x2 - .... β kXk
Esta expresión es la que se conoce como
función logística; donde exp denota la
función exponencial y α1, β1, β2... βk son
los parámetros del modelo. Al producir la
función exponencial valores mayores que
0 para cualquier argumento, p tomará solo
valores entre 0 y 1.
Si β es positiva (mayor que 0) entonces
la función es creciente y decreciente en el
caso contrario. Un coeficiente positivo
indica que p crece cuando lo hace la
variable.
ASPECTOS TEÓRICOS
FUNDAMENTALES RELATIVOS
A LA REGRESIÓN LOGÍSTICA
El objetivo de esta técnica estadística
es expresar la probabilidad de que ocurra
un hecho como función de ciertas variables,
supongamos que son k (k ≥ 1), que se
consideran potencialmente influyentes. La
regresión logística, al igual que otras
técnicas estadísticas multivariadas, da la
posibilidad de evaluar la influencia de cada
una de las variables independientes sobre
la variable respuesta y controlar el efecto
del resto. Tendremos, por tanto, una
variable dependiente, llamémosla Y, que
puede ser dicotómica o politómica (en este
trabajo nos referiremos solamente al primer
caso) y una o más variables independientes,
llamémoslas X.
Al ser la variable Y dicotómica, podrá
tomar el valor "O" si el hecho no ocurre y
"1" si el hecho ocurre; el asignar los valores
de esta manera o a la inversa es
intrascendente, pero es muy importante
tener en cuenta la forma en que se ha hecho
llegado el momento de interpretar los
resultados. Las variables independientes
(también llamadas explicativas) pueden ser
ALGUNAS CONSIDERACIONES
DE TIPO PRÁCTICO
Para una mejor interpretación de los
coeficientes β 1 (cualquiera de los
coeficientes β1) es necesario referirnos al
concepto de riesgo relativo. El riesgo
relativo de un suceso se define como la
razón entre la probabilidad de que dicho
suceso ocurra (p) y la probabilidad de que
no ocurra (1-p). El exponencial de los βi se
corresponde con el riesgo relativo, o sea,
es una medida de la influencia de la variable
Xi sobre el riesgo de que ocurra ese hecho
y suponiendo que el resto de las variables
del modelo permanezcan constantes. Un
intervalo de confianza para el exponencial
de β que contenga al 1 indica que la variable
no tiene una influencia significativa en la
59
ocurrencia del suceso y, por el contrario,
valores más alejados de este indican una
mayor influencia de la variable.4,5
En el ejemplo se expone más claramente
la interpretación del exponencial de los β1.
Una vez estimados los valores de α y
β1, podemos determinar la probabilidad del
suceso para distintos valores de los Xi. El
valor de α se corresponde con la constante
en la salida de la regresión logística.
manejarse del mismo modo que se ha
explicado para las nominales, o sea como
variables dummy.7
En el ejemplo, algunas de las variables,
tanto nominales como ordinales, fueron
introducidas en el modelo como variables
categóricas, con la consiguiente formación
a partir de ellas de variables dummy o
ficticias.
INTERACCIONES
VARIABLES CATEGÓRICAS
En ocasiones se piensa que la
influencia de una de las variables sobre la
probabilidad de que ocurra el hecho se
modifica en función del valor de otra de las
variables y es necesario incluir en el modelo
una tercera que sea el producto de las
anteriores. Estos son los conocidos como
términos de interacción que pueden incluir
2 o más variables.
Introducimos términos de interacción
cuando tenemos razones para suponer que
la influencia de una de las variables sobre p
varía en función del valor que asume otra
de las variables incluidas en el modelo; o
sea, si la influencia de X1 sobre p varía en
función del valor que toma X2, incluimos en
el modelo un término que represente la
interacción de X1 y X2.
Ejemplificaremos este aspecto con
2 variables que se introdujeron como
término de interacción por considerarse que
la influencia de cada una sobre la variable
respuesta podía estar mediatizada por la
influencia de la otra.
Cuando algunas de las variables
explicativas son de índole nominal, de más
de 2 categorías (politómicas), para incluirlas
en el modelo hay que darles un tratamiento
especial.
Si estamos en presencia de una variable
nominal con C categorías, debemos incluirla
en el modelo de regresión logística como
variable categórica, de manera que a partir
de ella se crean C-1 variables dicotómicas
llamadas dummy o ficticias.6 Al crear las
variables dummy se debe precisar con cuál
de las categorías de la variable original
interesa comparar el resto y esa será la
llamada categoría de referencia.
En general, el exponencial del
coeficiente correspondiente a una de las
variables dummy, estima la magnitud en que
varía el riesgo de que ocurra el suceso,
compara esa categoría con la de referencia.
VARIABLES ORDINALES
En el caso de las variables ordinales se
puede asumir que la escala funciona
aproximadamente a un nivel cuantitativo,
desde luego, tal maniobra presupone que
se considere que la “distancia” entre
categorías contiguas es la misma. En el caso
contrario, las variables ordinales pueden
ALGUNOS ASPECTOS A TENER
EN CUENTA PARA EL USO
DE LA REGRESIÓN LOGÍSTICA
·
• Tamaño de muestra y número de
variables independientes. Una de las
ventajas de la regresión logística es que
60
permite el uso de múltiples variables con
relativamente pocos casos, sin embargo,
hay que tener en cuenta algunas
precauciones. Se ha sugerido que el
número de sujetos para poder usar esta
técnica estadística sin problemas debe
ser superior a 10 (k+1) donde k es el
número de variables explicativas; por
tanto, si se introducen interacciones o
variables dummy, el número de elementos
en la muestra debe aumentar. Además se
ha sugerido que si una de las variables
dicotómicas (en especial si es la de
respuesta) no tiene al menos 10 casos
en cada uno de sus 2 valores posibles,
entonces las estimaciones no son
confiables.8 En cuanto al número de
variables independientes, la inclusión de
un gran número de ellas en el modelo
(ej. K>15), puede indicar que no se ha
reflexionado suficientemente sobre el
problema.
• Es necesario tener en cuenta el efecto
sobre el riesgo de que ocurra el evento,
de los cambios de las variables
explicativas cuando son cuantitativas
(continuas), en ocasiones es necesario
categorizarlas, ya que los cambios que
se producen de una unidad a otra pueden
resultar intrascendentes o no ser
constantes a lo largo del rango de valores
de la variable.
• Cuando algunas de las variables
independientes analizadas están altamente correlacionadas, los resultados
que se obtienen pueden no ser
satisfactorios, por esta razón debe
realizarse un análisis previo univariado
entre las distintas variables explicativas.9
• Para que la regresión logística tenga un
sentido claro, tiene que existir una
relación monótona entre las variables
explicativas y la de respuesta, esto
significa que el aumento de las unas se
acompañe del aumento o la disminución
aproximadamente constante de la otra,
para todo el rango de valores estudiados.3
UN EJEMPLO DEL USO
DE LA REGRESIÓN LOGÍSTICA
A continuación se muestra un ejemplo
del uso de la regresión logística en una
investigación en el campo de la
Endocrinología. No es nuestro objetivo
discutir sus resultados desde el punto de
vista clínico o epidemiológico, solo
pretendemos lograr un mayor acercamiento
a los aspectos prácticos anteriormente
planteados.
En una investigación en pacientes con
diabetes mellitus llevada a cabo por el
Instituto Nacional de Endocrinología,
fueron vistos 435 pacientes antes y 5 años
después de realizarse una intervención
educativa destinada a los proveedores de
salud en la comunidad. Del total de
pacientes, 226 pertenecían al Policlínico
“Plaza de la Revolución” y 209 al Policlínico
“Héroes del Moncada”, el primero funcionó
como área experimental y el segundo, como
control. Al término de los 5 años se evaluó
si el programa aplicado se traducía en
cambios de algunos parámetros (control
metabólico, conocimientos de los pacientes,
aparición de complicaciones, conducta ante
la enfermedad, etc.) a favor del área
experimental.
Como resultado de este estudio se
obtuvo que la aparición de complicaciones
agudas (especialmente la hipoglucemia) no
tuvo el comportamiento esperado, no se
observó una evolución favorable de la
misma en el área experimental. Este resultado
nos indujo a realizar un análisis multivariado,
en el cual no solo se considerara como
predictora de esta complicación el área de
salud de pertenencia, sino otras variables
61
relacionadas con su aparición. La variable
dependiente dicotómica fue ausencia “0” o
presencia “1” de hipoglucemia. Se realizó
un análisis de regresión logística, en la tabla 1
se muestran las variables incluidas como
posibles predictoras y su operacionalización.
en dependencia de la influencia de la otra.
La edad, el índice de masa corporal y el
tipo de tratamiento se incluyeron como
variables categóricas y la primera categoría,
como de referencia.
En la tabla 2 se muestran los resultados. Las variables realmente predictoras de
hipoglucemia fueron el tipo de tratamiento,
la edad y el sexo.
Al analizar los resultados para la
variable tipo de tratamiento, que fue
considerada como categórica, se tomó la
primera categoría (dieta sola) como de
referencia, podemos observar que el valor
negativo de β para la segunda categoría
(tabletas) indica que en los pacientes que
tenían este tipo de tratamiento disminuyó
el riesgo de desarrollar hipoglucemia en
relación con los que tenían solo dieta, esto
se corrobora por el exp (β) menor que 1 (0,5477),
este último nos cuantifica esta relación e
indica que el riesgo de hipoglucemia fue
aproximadamente 45 % (1-0,5477) menor en
los pacientes que recibían tabletas como
tratamiento que en los que solo realizaban
dieta.
Los valores positivos de β y mayores
que 1 del exp (β) para las otras 2 categorías
del tipo de tratamiento muestran que el
riesgo de esta complicación fue mayor para
los pacientes que recibían insulina (ya fuera
sola o combinada con tabletas) siempre en
relación con los que llevaban dieta
solamente. Los que se trataban con insulina
sola mostraron un riesgo de hipoglucemia
más de 2 veces mayor [exp (β)=2,1556]. Para
los que tenían tratamiento combinado
(insulina y tabletas) el riesgo de esta
complicación fue aproximadamente 5 %
mayor [exp (β)=1,0469]. Es importante tener
en cuenta que esta categoría no resultó
significativa estadísticamente [p=0,9340 e
intervalo de confianza para el exp (β) que
contiene al 1]. En el caso de las variables
categóricas, si alguna categoría resulta
significativa la variable queda incluida en el
TABLA 1. Operacionalización de las variables
incluidas como posibles predictoras
Variable
Operacionalización
Hábito de fumar
1. No
2. Sí
Práctica de ejercicios
físicos
1. No
2. Sí
Frecuencia de visitas al
médico
1. Hasta 2
2. Tres o más
Tipo de tratamiento
1. Dieta sola
2. Tabletas
3. Insulina
4. Tabletas e insulina
Edad
1. Menos de 40
2. De 40 a 59
3. De 60 o más
Conocimientos sobre la DM 1. No satisfactorios
2. Satisfactorios
Índice de masa corporal
1. Bajopeso
2. Normopeso
3. Obesidad ligera
4. Obesidad moderada
5. Obesidad severa
Tiempo de evolución de
la diabetes
1. Hasta 10 años
2. 11 años o más
Sexo
1. Masculino
2. Femenino
Cumplimiento de la dieta
1. No
2. Sí
3. Plaza
4. Moncada
Área de salud
La realización de ejercicios físicos y el
cumplimiento de la dieta se introdujeron como
términos de interacción, al considerarse que
la influencia de cada uno de ellos sobre la
aparición de esta complicación puede estar
62
TABLA 2. Resultados de la regresión logística
β
Variables
Tipo de tratamiento
Tratamiento (2
Tratamiento (3)
Tratamiento (4)
Edad
Edad (2)
Edad (3)
Sexo
-0,6020
0,7681
0,0458
- 0,3534
- 0,7801
0,8030
Significación
Exp (β)
0,0284
0,0168
0,0496
0,934
0,1232
0,4153
0,0596
0,0098
modelo final, aun cuando el resto no lo sea.
Otra variable presente en el modelo final
fue la edad, en este caso se evidenció que
el riesgo de hipoglucemia resultó menor
tanto para los pacientes de 40 a 59 años
[exp (β)=0,7023] como para los de 60 o más
[exp (β)=0,4583] en relación con los menores
de 40 (tomada como categoría de referencia).
Podemos observar que el riesgo de presentar
esta complicación disminuyó con la edad,
de aproximadamente el 30 % en los de 40 a 59
Intervalo de confianza (90 %)
Límite inferior
Límite superior
0,5477
2,1556
1,0469
0,3620
1,1327
0,4216
0,8289
4,1023
2,5996
0,7023
0,4583
2,2323
0,3441
0,2319
1,3385
1,4335
0,9059
3,7229
años a más del 54 % en los de 60 años o más.
La tercera y última variable en el modelo
resultante fue el sexo, que mostró un riesgo
más de 2 veces mayor [exp (β)=2,2323] en el
femenino en relación con el masculino
(categoría de referencia).
El resultado de la regresión logística
ratificó el obtenido mediante el análisis
univariado, el área de salud de pertenencia
no constituyó predictora de la aparición de
hipoglucemia.
SUMMARY
An approach to logistic regression , as one of the most used multivariate statistical
techniques in the last decades, was made to recommend its correct use. Practical
questions as the number of subjects necessary for its application, the situations in
which it should be used, the type of variables to which it may be applied, the way it
may be included in the model, the interpretation of the results, etc., were taken into
consideration. An example of the application of this technique in the field of
Endocrinology was given. It was concluded that the application of logistic regression
is very useful in any field of medical research when we need to determine the effect
of a group of variables, potentially considered as influential, on the ocurrence of a
certain process.
Subject headings: LOGISTIC MODELS; ENDOCRINOLOGY.
63
REFERENCIAS BIBLIOGRÁFICAS
1. Cornfield J, Gordon T, Smith WN. Quantal response curves for experimentally uncontroled variables.
Bull Int Statist Inst 1961;38:97-115.
2. Walter S, Duncan D. Estimation of the probability of an event as a function of several variables.
Biometrika 1967;54:167-79.
3. Silva LC. Excursión a la regresión logística en ciencias de la salud. Madrid:Díaz Santos, 1994:3-11.
4. Abbott RD, Carroll RJ. Interpreting multiple logistic regression coefficients in prospective observational
studies. Am J Epidemiol 1984;119:830-6.
5. Dunn D, Hayes R. Re: Interpreting multiple logistic regression coefficients in prospective observational
studies. Am J Epidemiol 1985;122:352.
6. Schoenfeld DA. Analysis of categorical sata: logistic model. Statistics in Medical Research. New York:
Mike V, Staley KE, 1982:433-54.
7. Mc Cullagh P. Regression models for ordinal data. J Roy Statist Soc 1980;42:109-42.
8. Hsieh FY. Sample size tables for logistic regression. Stat Med 1989;8(7):795-802.
9. Mc Gee DL, Reed D, Yano K. The results of logistic analyses when the variables are highly correlated.
J Chron Dis 1984;37:713-9.
Recibido: 21 de diciembre de 2000. Aprobado: 5 de marzo de 2001.
Dra. Emma Domínguez Alonso. San Rafael No. 773 entre Oquendo y Marqués González, Centro Habana,
Ciudad de La Habana, Cuba.
64
Descargar