análisis multivariante

Anuncio
Curso de Estadística Avanzada
Dra. Gema Vega (Mayo 2008)
Curso de Estadística Avanzada
Gema Vega
Análisis Estratificado
El análisis estratificado es un tipo de análisis estadístico que estudia la posible
asociación entre dos variables categóricas a través de una tabla de contingencia 2x2; pero
diferenciando sub-muestras de pacientes según presenten distintas categorías en otra
tercera variable.
El objetivo de este análisis es comprobar si la relación entre las dos variables se ve
modificada por los distintos valores o estratos que puede tomar otra tercera variable. En
nuestro caso, querríamos estudiar la relación entre cada uno de los posibles factores de
riesgo y la variable resultado (mortalidad o morbilidad), y comprobar, si esta asociación
está influida por el hecho de que los pacientes presenten o no, otro factor de riesgo.
Para explicar este tipo de análisis vamos a considerar la relación entre la variable
dependiente ‘enfermedad’ (si/no) y la variable independiente X1 (si/no). La relación entre
estas dos variables la expresaremos a través de una tabla de contingencia de 2x2 como la
siguiente:
ENFERMEDAD
NO
ENFERMEDAD
X1 = SI
a
b
a+ b
X1= NO
c
d
c+ d
Al tratarse de dos variables categóricas, la relación entre ellas, la analizamos, como
ya hemos comentado anteriormente, con el test de χ2 de Pearson. Una vez que hemos
comprobado que existe relación, podemos obtener el valor del Riesgo Relativo (RR), que
medirá la fuerza de esta asociación, según la fórmula: RR= a/(a+b)/c/(c+d)
Si en esta relación, pensamos que otra variable X2 (si/no) pueda estar modificando
el efecto, tendremos que realizar un análisis estratificado según los dos estratos de esta
variable X2 (X2=Si y, X2=No), quedando entonces las siguientes tablas de 2x2:
Para el estrato del valor X2 = SI
ENFERMEDAD
NO
ENFERMEDAD
X1 = SI
a'
b'
a' + b'
X1 = NO
c'
d'
c'+ d'
-2-
Curso de Estadística Avanzada
Gema Vega
Para el estrato del valor X2 = NO
ENFERMEDAD
NO
ENFERMEDAD
X1 = SI
a''
b''
a''+ b''
X1 = NO
c''
d''
c''+ d''
Para cada una de estas tablas se realiza un análisis χ2 de Pearson que nos
informará sobre la existencia de asociación entre la variable X1 y la variable ‘enfermedad’;
mientras que para ambas en conjunto, se realiza un test de homogeneidad de los estratos
que se llama test de χ2 de Mantel-Haenszel. Este test nos informará si la relación entre
ambos estratos es homogénea o no, teniendo en cuenta que la hipótesis nula (H0) de este
test es que los estratos son homogéneos.
Por lo tanto, existen dos posibilidades, que los estratos sean homogéneos o, que
no lo sean. Si no son homogéneos, significa que la relación entre enfermedad y la variable
X1 es diferente según el estrato que se considere en la variable X2. En esta condición, se
dice que existe interacción entre la variable X1 y X2; por lo que la asociación entre las
variables de estudio X1 y ENFERMEDAD se evaluará en función de las categorías de la
variable X2.
Mientras que si los estratos son homogéneos, para comprobar si la variable X2
ejerce algún efecto en la relación de estudio, tenemos que revisar el resultado obtenido
con el test de χ2 de Pearson en cada estrato y compararlo con el obtenido antes de la
estratificación. Si ambos son iguales, se considera que la variable X2 no ejerce ningún
efecto confusor en la relación entre la variable enfermedad y la variable X1. Si por el
contrario, ambos son diferentes, quiere decir, que la variable X2 si ejerce un efecto
confusor en esa relación, definiendo a este tipo de variables, como variables confusoras.
Estas variables cumplen la condición de que están relacionadas con la variable
dependiente y con la variable independiente; pero no representan ningún paso intermedio
entre ellas.
Es posible que esta relación entre enfermedad y la variable X1 no sólo esté influida
por el efecto de la variable X2 sino que su vez, puede estar influida por el de otra variable
y, éste a su vez por el de otra y así sucesivamente por todas las variables que suponemos
que pueden estar influyendo o modificando la posible asociación de las dos primeras, que
son las que realmente queremos estudiar.
Limitaciones del Análisis Estratificado
Según el esquema de análisis por estratos, se van aumentando rápidamente la
cantidad de tablas de contingencia al ir estratificando por sucesivas variables, lo que
conlleva varias desventajas.
- Una de ellas y, posiblemente una de las limitaciones más importantes de
este tipo de análisis, es que el número de pacientes representados en cada celda de
la tabla de 2x2 es progresivamente menor al ir aumentando el número de estratos.
-3-
Curso de Estadística Avanzada
Gema Vega
Esto conllevará que sea progresivamente más difícil encontrar una relación
estadísticamente significativa entre ambas variables.
- En aquellos casos en los que se estudian un número elevado de factores,
la estratificación será progresiva frente a diferentes variables al intentar analizar el
efecto real entre el factor de estudio y la variable de desenlace, sin la influencia de
ninguna variable. Con esta estratificación progresiva, obtendremos subgrupos muy
seleccionados de pacientes, dificultando la interpretabilidad de los resultados
obtenidos.
- Este tipo de análisis sólo se puede realizar con variables categóricas; por lo
que en aquellos casos en que la variable independiente sea cuantitativa, habrá que
transformarla previamente en categórica, con la posibilidad de perder información.
Esta desventaja es aún mayor en aquellos casos en los que existe una relación dosis
dependiente entre el factor de riesgo (variable continua) y la variable dependiente.
Análisis Multivariado
Cuando se quiere valorar el efecto de un número extenso de factores de riesgo
sobre una variable dependiente, es necesario emplear técnicas estadísticas que sean
capaces de valorar el efecto individual de cada factor de riesgo sobre la variable de
resultado, quitando o “apartando” el efecto de confusión de las demás variables; pero, sin
que presenten las desventajas del análisis estratificado. Estas técnicas son los análisis
multivariados a través de los modelos de regresión, los cuales, mediante aproximaciones a
funciones matemáticas, son capaces de deducir el comportamiento de una variable
(variable dependiente) a partir de la existencia de otras (variables independientes).
Estos modelos de regresión se han venido utilizando cada vez con más frecuencia,
tanto en la investigación médica, como en la epidemiológica. La utilización de uno u otro
tipo de análisis de regresión depende de las características de las variables que se estén
analizando. Es decir, si las variables dependientes e independientes son continuas o
categóricas y, dentro de éstas si tienen dos o más categorías (dicotómica o policotómica).
En los casos en que la variable dependiente es dicotómica se distinguen dos
situaciones: Presencia de la enfermedad o evento que designaremos con el valor “1”, y
Ausencia de enfermedad o del evento de estudio y que designaremos con el valor “0”.
Consideraremos que la probabilidad de que aparezca la enfermedad es “p” y la
probabilidad de que no aparezca el “1-p”. En este caso concreto en el que la variable
dependiente es dicotómica se puede utilizar tanto el modelo de Regresión de Cox, como
el modelo de Regresión Logística.
La regresión de modelos proporcionales de Cox se utiliza cuando la variable
dicotómica que queremos estudiar (aparición de un evento), depende del tiempo. Es decir,
que es importante para el estudio no sólo el que los pacientes presenten el evento, sino
en qué momento del estudio aparece dicho evento.
-4-
Curso de Estadística Avanzada
Gema Vega
En nuestro ámbito, este tipo de análisis es frecuentemente utilizado cuando se
están estudiando factores pronósticos. Son por ejemplo el caso de la supervivencia
(valorada a través de la aparición de la muerte) o de aparición de las recidivas tumorales
después de un determinado tratamiento o, en los casos en que se estudia la aparición o
positivización de un determinado valor de laboratorio después de una determinada
intervención, etc.
Por otro parte, el análisis de Regresión Logística se utiliza para la explicación o
predicción de eventos que aparecen a lo largo del período de estudio, en donde no se
evalúa el momento en que aparece. También es el caso de la mortalidad tras la realización
de determinada intervención, considerando solo la posibilidad de que aparezca o no
durante el período de estudio, sin tener en cuenta cuándo ocurrió.
Ventajas y Limitaciones del Análisis Multivariado
Las principales ventajas del uso de estos modelos de regresión en comparación
con el análisis estratificado es que se necesita un menor tamaño muestral y, que no es
necesario el que todas las variables independientes sean categóricas. Es decir, estos
modelos permiten analizar como factores predictivos, tanto a variables categóricas como a
variables continuas.
Las desventajas de la utilización de modelos de regresión se ponen sobretodo de
manifiesto cuando se utilizan imprudentemente. Actualmente es fácil encontrar programas
informáticos que ofrecen al usuario la posibilidad de realizar análisis de regresión
automáticamente, con la simple entrada de la base de datos y el “apretar un botón”, sin
ningún tipo de rigor científico.
Aunque nunca es aconsejable la realización de un análisis estadístico sin un
objetivo previo, un diseño del estudio adecuado y una orientación aproximada de las
posibles asociaciones entre las variables de estudio; en el caso del análisis estratificado, es
posible que aunque esto no se haya cumplido adecuadamente, se pueda dar una
estimación pronóstica sin haber tenido ninguna consideración matemática especial previa
al análisis. Pero en el caso de los análisis de regresión, es necesario comprobar el
cumplimiento de una serie de asunciones con anterioridad a la realización del análisis,
para que las estimaciones obtenidas sean apropiadas.
La mayoría de los modelos de regresión presentan al menos tres tipos de
asunciones sobre las propiedades de las variables del modelo, que son: la linearidad, la
aditividad y la propiedad distributiva. Afortunadamente, la Regresión de Cox y la
Regresión Logística no asumen fuertemente la propiedad distributiva de las variables; pero
sí las dos primeras.
La asunción de linearidad, que solamente se aplicaría en aquellas variables
independientes continuas que fueran incluidas en el modelo, significa que cada cambio
continuo de la variable predictora conlleva un cambio en la variable dependiente y que
este cambio es lineal. En el caso de la Regresión Logística, significaría que si trazamos un
gráfico donde representamos en un eje el “logit” de la probabilidad de que ocurra el
evento (ver más adelante) para cada valor de la variable continua, y en el otro eje, cada
uno de los valores de dicha variable continua, ambos se relacionarían por una línea recta.
-5-
Curso de Estadística Avanzada
Gema Vega
Por otro lado, la asunción de aditividad implica que los factores predictivos del
modelo están relacionados con la variable dependiente en un sentido aditivo. Es decir, que
cada factor de riesgo que se incluya en el modelo aporta su efecto sobre la variable
resultado, sumando su efecto al de los demás factores de riesgo. Mientras que si tuviera
otro efecto, por ejemplo multiplicativo, querría decir que el efecto de cada factor se
multiplicaría al efecto de los demás factores. Es por esto, por lo que se asume que la
mejor predicción del modelo no vendrá explicada por la unión o interacción entre distintas
variables, sino por la mayor cantidad de variables que presente el modelo. Es decir, que
se asume que es más fácil que aparezca el evento cuanto más factores de riesgo tengan
los sujetos.
En otro tipo de modelos de regresión, además de éstas, existen otras asunciones
que hay que contemplar. En el caso de la regresión linear múltiple, que se utiliza cuando
la variable dependiente es continua, se debe de comprobar o asumir que dicha variable
dependiente sigue una distribución normal de Gauss. En el análisis discriminante se
asume que todas las variables continuas incluidas en el modelo conjuntamente se
distribuyen según una distribución normal multivariante.
No obstante, los modelos de regresión más comúnmente utilizados para el análisis
pronóstico no mantienen estas asunciones tan estrictas. Así, la Regresión Logística binaria
o dicotómica, no mantiene una asunción distributiva y la regresión de modelos
proporcionales de Cox asume que la distribución de las variables en el tiempo tiene la
misma forma en los distintos pacientes, sin que se asuma una forma específica para esta
distribución.
Cuando no se contemplan estos tres tipos de asunciones, los modelos de regresión
pueden no ajustarse en su poder discriminante, ni en las inferencias sobre los distintos
factores de riesgo. En el caso de la propiedad de linearidad, es necesario comprobar que
se cumple esta condición por cada una de las variables continuas, con anterioridad a su
inclusión en el análisis. Pues a veces, es necesario hacer alguna transformación de estas
variables continuas (en el inverso, en el logaritmo o en la raíz cuadrada), para poder
conseguir la linearidad con el “logit” de la variable de estudio. Por el contrario, la
comprobación de la propiedad de aditividad, se realiza con posterioridad a la obtención del
modelo, la cual se puede probar introduciendo en el modelo distintas interacciones entre
los factores, siempre que estas interacciones tuvieran una explicación clínica o biológica.
Si alguna de estas fuera significativa, entonces el modelo no asumiría que el efecto de una
variable es el mismo para todos los valores de otras variables.
-6-
Curso de Estadística Avanzada
Gema Vega
Análisis de Regresión Logística
En un análisis multivariado de Regresión Logística la variable dependiente es
dicotómica y no depende del tiempo.
Concepto Matemático
El análisis de Regresión Logística se basa en intentar explicar una función
matemática sigmoidea (distribución logística), cuya variable sólo puede tomar los valores
comprendidos entre ‘0’ y ‘1’, a través de una expresión matemática que contempla la
existencia de un número de variables independientes o explicativas, y que, se representa
matemáticamente según la fórmula:
f(p)= 1/ 1+ e
-Ζ
En donde,
‘f(p)’es la distribución logística, la cual recuerda a la distribución de probabilidad
condicionada, y proporciona valores continuos de ‘p’, comprendidos entre el valor ‘0’ y ‘1’,
para cualquier valor de ‘Ζ’, a pesar de que ‘Ζ’ pueda tomar valores entre -∞ y +∞
‘p’
es la variable ‘probabilidad de que ocurra el evento’, que va a variar entre
‘0’ (no evento) y ‘1’ (evento)
‘e’
es el valor del número ’e’
‘Ζ’
es una expresión matemática del sumatorio de los productos de cada una
de las variables independientes (Xi) por un coeficiente (βi), más una constante (β0). Se
calcula según la fórmula:
Ζ = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi
En donde,
β0 …βi representan a los coeficientes y,
X0 …Xi representan a las variables independientes o explicativas del modelo
El modelo matemático asigna un valor a los distintos coeficientes βi con el fin de
ajustar la función de probabilidad de presentar el evento, al valor real que presenta la
variable resultado en la muestra de estudio.
Las variables (Xi) permanecerán en el modelo cuando se demuestre que el
coeficiente βi es distinto de cero. Por tanto, en este tipo de análisis la hipótesis nula (H0)
que hay que rechazar es que ‘βi = 0’. Puesto que, si los coeficientes βi fueran iguales a ‘0’,
Ζ también sería cero, y al elevar el número ’e’ a ‘0’, nos daría la unidad. En este caso, el
valor de la función de probabilidad sería ‘f(p)= ½’. Esto quiere decir, que a pesar de la
existencia o no de las variables Xi, existiría la misma probabilidad de presentar el evento
que, de no presentarlo (p =0,5). Por lo tanto, en este supuesto el evento no dependería
de la existencia de las variables independientes Xi.
Obtención de los coeficientes βi
El procedimiento matemático a través del cual se obtienen los distintos valores de
los coeficientes ‘βi’ es complejo. La estimación de dichos coeficientes se realiza a través de
métodos de resolución iterativos, siendo necesario el uso de programas estadísticos
-7-
Curso de Estadística Avanzada
Gema Vega
automáticos. Se realizan múltiples iteraciones con el fin de encontrar el mejor ajuste de la
función de probabilidad a la nube de puntos que representarían los datos de la muestra de
estudio.
El ajuste se comprobaría a través de test estadísticos de máxima verosimilitud.
Para ello se realizarían múltiples iteraciones hasta llegar a obtener aquellos coeficientes ‘βi’
que maximicen la probabilidad de obtener los valores de la variable dependiente
(aparición del evento) que hemos encontrado en la muestra.
Además de los distintos coeficientes de cada variable, en la fórmula matemática
también existe otro coeficiente independiente (β0). Este coeficiente es una constante y
vendría a representar a aquella cantidad de la nube de puntos que no se puede explicar a
través de las variables del modelo. Esta constante debe estar presente en cualquier
modelo predictivo de Regresión Logística.
Variables independientes en el Análisis de Regresión Logística
Una vez que ya se ha encontrado la mejor estrategia estadística para hacer el
análisis, el siguiente problema que hay que resolver es el de cuantas variables
independientes hay que introducir en el modelo, cuales, y cómo se van introduciendo.
Según Harrel y col. y otros autores, en el modelo se deben introducir todas aquellas
variables que en análisis bivariado hayan demostrado estar relacionadas de manera
estadísticamente significativa con la variable resultado y también a aquellas asociaciones
estadísticas que, aunque no hubieran alcanzado la significación estadística, tuvieran un
valor de p<0,10, ó, incluso, menor de 0,20.
No obstante, además de introducir aquellos factores de riesgo que cumplan estos
criterios estadísticos, también es necesario introducir aquellas características de los
pacientes que desde el punto de vista epidemiológico pueden influir o estar relacionados
con la variable de resultado aunque no hayamos podido demostrarlo estadísticamente.
A) Métodos de Introducción de variables independientes
Con respecto a cómo se van introduciendo las variables independientes (Xi) en el
modelo multivariado de Regresión Logística, hay distintos métodos, siendo los métodos
‘paso a paso’ (stepwise) los que están más ampliamente recomendados en los estudios
predictivos. Estos métodos consisten en ir calculando los valores de los coeficientes ‘βi’,
según se van cambiando una a una las variables ‘Xi’, en cada paso del análisis y, al mismo
tiempo, cuantificar estadísticamente los cambios que se producen en el ajuste del modelo,
como consecuencia de los cambios en las variables y en sus coeficientes.
Estos cambios de las variables del modelo paso a paso, y la evaluación del ajuste
que ésta conlleva, se puede realizar de dos formas:
- Una de ellas es el método ‘forward’ o ‘hacia delante’, en el que primero se
introduce la constante y luego, se van añadiendo de una en una, las diferentes variables
independientes, del total de las variables que hemos escogido para el análisis multivariado
por cumplir las condiciones que explicamos anteriormente. El criterio de selección de la
variable independiente en cada paso, depende del cambio global que produzca en el
ajuste del modelo, la introducción de cada una de esas variables. Este cambio se mide, en
función de que la introducción de una variable represente un cambio significativo en el
ajuste, con respecto al anterior modelo sin esa variable. La inclusión siempre se realizará
-8-
Curso de Estadística Avanzada
Gema Vega
por orden decreciente de significación estadística, hasta que ninguna de las variables
restantes aporte cambios estadísticamente significativos al modelo.
- El otro método es el ‘backward’ o ‘hacia detrás’, en el que a diferencia del
anterior, en un primer lugar se introducen todas las variables en el modelo, para
posteriormente, ir eliminando en cada paso la variable que menos contribuye al ajuste del
mismo, al comprobar que su permanencia en el modelo no aporta ninguna diferencia
estadísticamente significativa, con respecto al modelo sin dicha variable.
En ambos métodos, cada vez que se va incluyendo o excluyendo una variable, se
van modificando los distintos coeficientes de las demás variables que permanecen, hasta
conseguir aquellos, con los que se ajusta mejor el modelo a los datos de la muestra o a la
‘nube de puntos’.
B) Limitaciones del método ‘stepwise’ (‘Paso a Paso’)
La selección de las variables ‘paso a paso’ hacia delante o hacia atrás que se utiliza
en los distintos tipos de regresión, puede variar el resultado de las variables implicadas en
el modelo definitivo. Esta variación será tanto mayor, cuanto menor sea el tamaño de la
muestra. Por esto se considera que la selección ‘paso a paso’ puede no ser válida, cuando
el número de variables independientes introducidas en el análisis, es superior a una
décima parte de los eventos ocurridos en la variable dependiente.
Harrel y col. demostraron que el poder discriminante de los modelos iba
empeorando a medida que disminuía el número de eventos de la variable de estudio, si
manteníamos el mismo número de variables independientes. Es por esto, por lo que no se
debe de utilizar la selección de los pacientes paso a paso, a no ser que el número de
eventos sea al menos 10 veces mayor que el número de variables introducidas en el
análisis de regresión. Este problema aún es mayor cuando se considera la posibilidad de
que exista interacción entre las variables independientes.
Estos mismos autores sugieren que en aquellos casos en los que no se pueda
obtener suficiente muestra como para cumplir esta proporción entre el número de eventos
y el número de variables independientes, sería necesario realizar con anterioridad a la
Regresión Logística, un análisis de reducción de datos, como es por ejemplo el análisis de
componentes principales. Con estos análisis previos confirman que se consigue un mejor
poder discriminante, en comparación con los modelos obtenidos a partir de las variables
originales y el mismo tamaño muestral.
En contraposición a esta mejoría en el poder discriminante, existen otras
desventajas asociadas a la utilización de los modelos obtenidos de esta manera. Una de
ellas es, que la mayoría de las veces estos modelos son difíciles de interpretar al no poder
dar una interpretación clínica o biológica a cada uno de los factores implicados en el
modelo. Y otra, es que todas las variables originales reciben un peso en cada uno de los
factores; por lo que es difícil saber la contribución real y de forma independiente, de cada
una de las variables originales, con respecto a la variable resultado. Ambas desventajas
conllevan, el que esta técnica no se utilice en aquellos estudios, en los que se quiere crear
un modelo que sea fácilmente aplicable en clínica, y comprensible por la mayoría de los
profesionales implicados.
-9-
Curso de Estadística Avanzada
Gema Vega
C) Validación del modelo en los métodos ‘Paso a Paso’
Al utilizar estos métodos ‘paso a paso’, es necesario analizar la validez del modelo
en cada etapa del proceso, comprobando el efecto significativo o no, de la inclusión de
una variable nueva o la exclusión de la peor variable de las ya existentes.
¾ Para ello, recordaremos que, como hemos comentado anteriormente, los coeficientes
‘βi’ se obtienen por el procedimiento de máxima verosimilitud y que además, la
ecuación de ajuste matemáticamente perfecto (modelo saturado), es aquella con
tantos coeficientes ‘βi’ como individuos conformen la muestra. En los métodos ‘paso a
paso’, se trata de comparar cada modelo con este modelo perfecto o saturado,
realizándose esta comparación a través del logaritmo de la función de máxima
verosimilitud, cuya fórmula matemática es:
D = -2Log(verosimilitud del modelo estudiado / verosimilitud del modelo saturado)
El resultado ‘D’ es la ‘devianza’, que representa de alguna manera a aquella
información de la nube de puntos que no es explicada por el modelo.
A partir de ésta se puede obtener un valor ‘G’ según la fórmula:
G = D(modelo con la variable) – D(modelo sin la variable) =
= - 2Log (verosimilitud del modelo con variable / verosimilitud del modelo sin variable)
Bajo la hipótesis nula (H0) de que el coeficiente de la nueva variable es igual a
cero, ‘G’ sigue una distribución de χ2 con un grado de libertad en aquellos casos en los
que la nueva variable sea dicotómica o continua. Valores de ‘G’ superiores a la χ2 de la
tabla de Pearson para un grado de libertad permiten rechazar la ‘H0’ y la variable por tanto
debe permanecer en el modelo.
En los casos en que esa nueva variable tuviera varias categorías, los grados de
libertad serían el número de categorías menos uno, es decir, el número de variables
dummy creadas para introducir esa variable en el modelo (ver más adelante).
¾ Otro método para estudiar la permanencia o exclusión de una variable en el modelo es
calcular el índice de Wald, el cual se obtiene según la fórmula:
‘W’ = coeficiente de la variable / error estándar del coeficiente
Este índice sigue una distribución normal de Gauss. Por lo que, aquellas variables
que tengan un índice de Wald >1,96 deben ser conservadas en el modelo, al contribuir
significativamente (p<0,05) y de manera independiente, a la probabilidad final de
aparición del evento.
Codificación de las variables en el Análisis de Regresión Logística
Para poder realizar correctamente el análisis de Regresión Logística con el
programa estadístico SPSS, es necesario utilizar un tipo concreto de codificación de las
distintas variables, el cual comentaremos a continuación.
¾ La variable dependiente se codificará como ‘0’, cuando no ocurra el evento y, como ‘1’
cuando si ocurra. Así también se codificarán todas las variables independientes
dicotómicas.
- 10 -
Curso de Estadística Avanzada
Gema Vega
¾ En aquellos casos en que las variables categóricas tengan más de 2 categorías, será
necesario hacer una transformación previa para convertirlas en dicotómicas. Esta
transformación consiste en crear nuevas variables dicotómicas ficticias (“dummy”),
pero manteniendo la misma información que en la variable original.
Para la creación de las variables ficticias a partir de la variable original, ésta
primero se codificará en valores numéricos crecientes, considerando como primer valor
posible el ‘0’ (0,1,2,…). Posteriormente, se crearán tantas variables ficticias
dicotómicas como número de categorías menos ‘1’ exista en la variable original. A
estas variables ficticias dicotómicas se les dará el valor ‘1’ ó ‘0’, dependiendo de si el
paciente presenta o no, determinada categoría en la variable original. De tal manera,
que aquellos enfermos que en la variable original presenten el valor de la categoría
inferior (‘0’), tendrán el valor ‘0’ en todas las variables ficticias creadas. Los que
presenten el valor ‘1’ en la variable original, obtendrán el valor ‘1’ en la primera
variable dummy, y el valor ‘0’ en el resto de las variables dummy. Los pacientes que
tengan la categoría con valor ‘2’ en la variable original, obtendrán el valor ‘0’ en la
primera variable dummy, el valor ‘1’ en la segunda variable dummy y el valor ‘0’ en las
demás. Y así, sucesivamente. De esta forma, un paciente que presente cualquier
categoría superior a la categoría de referencia, sólo tendrá el valor ‘1’ en una única
variable dummy, que será precisamente la que representa a su categoría.
Aunque posteriormente comentaremos cómo se manejarán este tipo de
variables en el modelo definitivo, hay que saber que en estos casos, la fuerza de la
asociación entre la variable original y la variable resultado se medirá a través del
riesgo que supone estar en una categoría (pertenecer a una variable ficticia) frente a
estar en otra categoría, la cual se toma como referencia. Para ello es necesario, que
previamente al análisis se identifique la categoría de referencia.
Habitualmente, en aquellos casos en que las categorías sean exposiciones
graduales a un factor de riesgo, se utiliza como categoría de referencia, la categoría
inferior o superior. Por el contrario, en aquellos casos en que las categorías no
representan niveles de exposición, se debe de explicar claramente cual es la categoría
de referencia.
En la actualidad, los programas estadísticos realizan la transformación en
variables ficticias de forma automática; aunque es necesario darles la información
oportuna sobre, de qué variable categórica se trata y, cual se va a considerar la
categoría de referencia.
Es importante resaltar que, es posible encontrar una relación significativa entre
la variable resultado y alguna de las variables ficticias o categorías, sin que exista
frente a todas ellas. En estos casos es necesario mantener todas las variables ficticias
en el modelo. Esto es así, porque realmente las variables ‘dummy’ representan
diferentes categorías de un mismo factor de riesgo y, el hecho de que en el modelo
vengan representadas por distintas variables, es simplemente una transformación
matemática necesaria para poder llevar a cabo este tipo de análisis.
¾ En el caso de que las variables sean continuas, éstas se introducirán tal y como están
en la base de datos o una vez que hayan sido transformadas, para cumplir la asunción
de linealidad.
- 11 -
Curso de Estadística Avanzada
Gema Vega
Significado de los coeficientes ‘βi’
Una vez que ya hemos comentado qué variables se deben de introducir en el
modelo, cómo se introducen éstas en el análisis para obtener el modelo definitivo, y como
se deben de codificar; vamos a referirnos a cómo se deben de interpretar los resultados
obtenidos una vez realizado el análisis.
Primero analizaremos el significado de los coeficientes ‘βi‘. Para ello, es necesario
volver a recordar los conceptos epidemiológicos de cómo se obtienen el riesgo relativo y la
odds ratio.
El Riesgo Relativo (RR) representa el riesgo de padecer la enfermedad
entre aquellos pacientes que presentan el factor de riesgo, frente a los que no lo
presentan, y se obtiene al dividir la incidencia de aparición del evento en los pacientes que
presentaban el factor de riesgo, entre la incidencia de aparición del evento en los
pacientes que no presentaban el factor de riesgo.
La Odds Ratio (OR) mide la relación entre la aparición del evento y la no
aparición del evento, en los pacientes que tienen el factor de riesgo, frente a los que no
tienen el factor de riesgo. Se refiere a cuantas veces es más frecuente que ocurra el
evento frente a que no ocurra, en los pacientes que tiene el factor de riesgo, frente a los
que no lo presentan.
Tanto la OR como el RR, se utilizan cómo medida de la fuerza de la asociación
entre las dos variables de estudio (una variable independiente y otra variable
dependiente). Pero existe una diferencia en el concepto de ambos. Como el RR se
obtiene a partir de incidencias, sólo se puede utilizar en aquellos estudios que
sean prospectivos; mientras que la OR se utilizará en los estudios
retrospectivos, pues en éstos, no se puede obtener la incidencia de aparición del
evento, y sí la proporción de eventos y no eventos, entre los que presentan el factor de
riesgo y los que no lo presentan. No obstante, en aquellos casos en que la aparición del
evento es poco frecuente en la población de donde se obtuvo la muestra (incidencia
<10%), se puede asumir, y matemáticamente demostrar, que la OR es una buena
aproximación del RR.
A) Cálculo de la OR en Regresión Logística
En el análisis de Regresión Logística, la fuerza de la asociación entre las variables
independientes y la variable resultado, se estima a partir del coeficiente ‘βi‘. Para entender
cómo se realiza esta estimación tenemos que volver a la fórmula inicial del modelo
logístico:
f(p)= 1/ 1+ e
p / 1- p = e
En donde,
-Ζ
Que matemáticamente es lo mismo que,
Ζ
Ζ = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi.
‘p’ es la probabilidad de que aparezca el evento y,
‘1- p’ la probabilidad de que no aparezca el evento.
- 12 -
Curso de Estadística Avanzada
Gema Vega
Si consideramos que el modelo sólo tuviera una variable, la fórmula quedaría
p/ 1- p = e
β0 + β1* X1
Es decir, que si el paciente tuviera el factor de riesgo (X1=1), la probabilidad de
que ocurriera el evento frente a que no ocurriera sería
p/ 1- p = e
β0 + β1
lo que se denomina la odds con el factor de riesgo.
Mientras que, si el paciente no presentara el factor de riesgo (X1=0), la expresión
quedaría
p/ 1- p = e
β0
Esto se denomina la odds sin el factor de riesgo
Como hemos recordado anteriormente, la OR se obtiene al dividir la odds de
presentar un evento frente a no presentarlo en los pacientes que tienen el factor de
riesgo; entre la odds de presentar el evento frente a no presentarlo, en los que no tienen
el factor de riesgo. Es decir, la odds con factor entre la odds sin factor
OR
OR
X1
X1
=e
β0 + β1
=e
β1
/e
β0
Y, esto es igual a:
Si calculamos el logaritmo neperiano de OR
X1,
nos dará el valor de ‘β1’
Ln OR X1= Ln (p/ 1- p) = β1
A esta expresión del ‘Ln(p/1-p)’ se le denomina transformación ‘Logit’ de ‘p’, que
este caso particular sería el Logit para el factor X1, pero que se puede generalizar para
aquellos modelos en los que hay más de una variable
Ln(p/ 1- p) = β0 + β1* X1 + β2* X2 + β3* X3 +…+ βi* Xi
En estos casos en los que en el modelo existe más de una variable (Xi),
matemáticamente se podría demostrar que, cada coeficiente ‘βi’ representa el logaritmo
neperiano de la OR para cada factor ‘Xi’, siempre que los demás factores permanecieran
constantes.
Según la argumentación anterior, una vez que obtengamos el modelo logístico
definitivo, la OR para cada factor la calcularemos con la simple operación matemática de
elevar el número ‘e’ a cada coeficiente ‘β’. Esta OR representa la fuerza de la asociación
entre cada factor y la variable dependiente, de manera independiente de los demás
factores de riesgo. Es decir, la OR debida exclusivamente a la presencia de ese factor una
vez eliminado el efecto de los demás factores estudiados.
Por tanto, en las variables categóricas dicotómicas, la OR así obtenida expresará el
riesgo de que se produzca el evento asociado a presentar dicho factor.
- 13 -
Curso de Estadística Avanzada
Gema Vega
En el caso de variables categóricas con más de dos categorías, hay que tener en
cuenta que estas variables están representadas en el modelo por las variables ficticias o
variables ‘dummy’. En estos casos, la OR obtenida a partir del coeficiente, representaría la
OR de esa categoría (la de la variable ‘dummy’), frente a la categoría de referencia.
En el caso de las variables cuantitativas, el logaritmo neperiano del coeficiente de
esa variable expresaría la OR por cada unidad de aumento en dicha variable, lo que a
veces no tiene ninguna relevancia clínica. Esto podría ser el caso de la variable Edad
(medida en años), o de la Presión Arterial (medida en mmHg), en donde cambios en una
unidad de medida no tienen una traducción clínica o epidemiológica de importancia y,
donde además, los mismos aumentos, tampoco tienen el mismo significado en los
distintos valores que tome la variable. Por ejemplo, en las variables anteriormente
mencionadas, podría ser el caso del aumento de un año de edad entre 20 y 21 años ó
entre 74 y 75 años y, en el caso de la Presión Arterial, los cambios de 1 mmHg entre 70 y
71 mmHg ó entre 95 y 96 mmHg de Presión Arterial diastólica. En estos casos de variables
cuantitativas se puede establecer un nivel de “cambio” de valor de la variable, que sea
relevante clínicamente. En los casos anteriores podría ser 10 años ó 10 mmHg. Una vez
que se ha fijado un nivel de cambio relevante (c), la OR la calcularemos al elevar el
número ‘e’, al producto de multiplicar el coeficiente‘β’ por la constante ‘c’ (e c*β).
B) Estimación poblacional de las OR obtenidos por Regresión Logística
Una vez que se han obtenido los OR a partir de los coeficientes ‘βi‘, es necesario
estimar estos parámetros a través de los intervalos de confianza del 95%. Los límites de
éstos, se calcularán a partir del error estándar de cada uno de ellos (Sβ1), según la
fórmula:
e(β1± 1,96* Sβ1)
Para las variables continuas, estimaremos la OR del intervalo de cambio de la
variable que se haya considerado (‘c’), calculando los límites del intervalo de confianza del
95% a partir de la fórmula:
e
c*β ± 1,96* c* Sβ
C) Cálculo de los RR a través de Regresión Logística
En los casos de estudios prospectivos, la fuerza de la asociación entre las distintas
variables independientes y la dependiente, se debe de medir con el riesgo relativo y no
con la odds ratio. Aunque la OR es una buena estimación del RR cuando la incidencia de
aparición del evento es baja, es más conveniente calcular el RR para cada variable. Este
cálculo se realiza a partir del modelo; pero no, a través de la transformación del
coeficiente ‘β’, sino a través del valor de ‘p’. Según la definición del RR, éste se obtiene a
partir de dividir la incidencia de aparición del evento en los enfermos expuestos al factor
de riesgo, entre la incidencia de aparición del evento en los no expuestos.
Con el cálculo matemático de la ecuación obtenida en el modelo de Regresión
Logística, no obtenemos una probabilidad de aparición del evento distinta para cada uno
de los pacientes que estamos estudiando; sino que lo que obtenemos es la probabilidad
para grupos de pacientes que presenten unas determinadas variables o características. Es
decir, que todos aquellos pacientes que tomen los mismos valores en las variables que
incluye el modelo, tendrán la misma probabilidad de aparición del evento. Por lo tanto,
- 14 -
Curso de Estadística Avanzada
Gema Vega
obtendremos valores de probabilidad de presentar el evento, que definen a grupos de
pacientes con unas características determinadas (‘Perfiles’ o ‘Patrones de Variables’).
Según esto, podríamos obtener esa probabilidad para aquellos enfermos que, presentando
todas las características idénticas, sólo se diferencian en la presencia o ausencia de una
de ellas. Y, a partir de aquí obtendremos el RR para ese factor, que es en el que se
diferencian.
Pondremos como ejemplo un modelo en el que existen tres factores de riesgo, ‘X1’,
‘X2’ y ‘X3’, cuya ecuación de Regresión Logística vendrá definida por
p = 1/ 1+ e
– (β0 + β1* X1 + β2* X2 + β3* X3)
Queremos calcular el RR para la variable ‘X1’ y para ello debemos calcular la
incidencia de aparición del evento cuando los pacientes tienen el factor ‘X1’ y, la incidencia
de aparición del evento cuando no tienen ese factor. Es decir el valor de ‘p’ cuando el
factor ‘X1=1’ y el valor de ‘p’ cuando el factor ‘X1=0’, siempre que las variables ‘X2’ y ‘X3’ se
mantengan constantes. Estas variables pueden tomar tanto el valor ‘0’ como el valor ’1’.
Para nuestro ejemplo consideraremos que toman siempre el valor ‘1’.
Según las condiciones anteriores, para aquellos pacientes que tengan las
características de ‘X1=1’, ‘ X2 =1’ y ‘X3=1’, el valor de ‘p’ será
P
‘X1=1’,‘ X2=1’,‘X3=1’
= 1/ 1+ e
– (β0 + β1 + β2 + β3)
Y, para aquellos pacientes que también tengan las características ‘X2=1’ y ‘X3=1’,
pero la variable ‘X1=0’; el valor de ‘p’ será
p
‘X1=0’,‘ X2=1’,‘X3=1’
= 1/ 1+ e
– (β0 + β2 + β3)
Una vez obtenidos estos dos valores de ‘p’, el RR de esta variable ‘X1’, lo
obtendremos de dividir p(‘X1=1’,‘X2=1’,‘X3=1’) entre p (‘X1=0’,‘X2=1’,‘X3=1’). Que representaría a la
probabilidad de que ocurra el evento cuando se tiene el factor de riesgo ‘X1’, frente a la
probabilidad de que ocurra el evento cuando no se tiene ese factor de riesgo ‘X1’.
Es decir,
RR‘X1’ = p(‘X1=1’,‘X2=1’,‘X3=1’) / p(‘X1=0’,‘X2=1’,‘X3=1’)
D) Estimación de los RR obtenidos por Regresión Logística
En estos casos, también será necesario calcular los intervalos de confianza para los
RR; pero tampoco será a través de los coeficientes βi, sino a través de los valores de
probabilidad obtenidos a partir de la fórmula del modelo definitivo, cuando dichos factores
toman el valor máximo o mínimo según el coeficiente βi y su error estándar Sβ1, para un
nivel de seguridad del 95% (βi ± 1,96*Sβ1).
Para un modelo con una sola variable X1, los límites del intervalo (IC95%) se
obtendrán de la siguiente manera:
- El límite superior del intervalo de confianza será el valor del RR obtenido
- 15 -
Curso de Estadística Avanzada
Gema Vega
al dividir la probabilidad de que ocurra el evento teniendo el factor de riesgo X1, tomando
como coeficiente de dicha variable a “β1+1,96*Sβ1” en la fórmula del modelo;
p X1=1 = 1/ 1+ e
– ((β0 + (β1+ 1,96*Sβ1) X1))
entre la probabilidad de que ocurra el evento sin tener ese factor X1
p X1=0 = 1/ 1+ e
– (β0)
- Del mismo modo se calculará el límite inferior del intervalo de confianza,
que será el valor del RR obtenido a partir de dividir la probabilidad de que ocurra el
evento teniendo el factor de riesgo X1, tomando como coeficiente de dicha variable a “β11,96*Sβ1” en la fórmula del modelo;
pX1=1 = 1/ 1+ e
– ((β0 + (β1 - 1,96*Sβ1) X1))
entre la probabilidad de que ocurra el evento sin tener ese factor X1
pX1=0 = 1/ 1+ e
– (β0)
Configuración final del modelo
Una vez que hemos obtenido el modelo, la configuración final del mismo, no se
debe de basar exclusivamente en estimaciones estadísticas. Es necesario que el
investigador compruebe la relevancia del modelo, e incluso, que lo modifique, al incluir
alguna variable que tenga interés desde el punto de vista clínico o epidemiológico; aunque
no se haya conseguido demostrar que tenga una significación estadística.
Además de estas consideraciones clínicas y/o epidemiológicas, también es
importante contemplar que el modelo definitivo debe de cumplir algunas condiciones
matemáticas que comentamos a continuación:
- En el caso de que necesitemos utilizar la transformación de variables categóricas
en variables ficticias (dummy), puede ocurrir que encontremos significación
estadística sólo entre la variable dependiente y alguna de las variables ficticias. A
pesar de ello, es necesario mantener todas ellas en el modelo, pues representan al
mismo factor de riesgo (variable categórica policotómica).
- Hay que descartar la existencia de interacción entre las variables independientes.
Para ello hay que introducir en el análisis estadístico a la interacción de dos variables
como una nueva variable (variable interacción), y comprobar si el ajuste del modelo
mejora o no. Es posible, que en el nuevo modelo la variable interacción sea
significativa, pero que al mismo tiempo, desaparezca la significación estadística de
los coeficientes de las variables de la interacción por separado. En estos casos, hay
que considerar la posibilidad de que este último modelo sea mejor o no. En el caso
de que sí lo sea, se creará un nuevo modelo donde además de la variable
interacción, se mantendrán las dos variables independientes. Esta propiedad es la
que hace que el modelo sea ‘parsimonioso’, pues mantiene todos los niveles
- 16 -
Curso de Estadística Avanzada
Gema Vega
‘jerárquicos’ de las variables que están en el mismo. Por el contrario, en los casos en
que el modelo con la interacción sea igual que el modelo con las dos variables por
separado, se elegirá este último modelo, para mantener la asunción de aditividad.
Se estudiaran sólo aquellas interacciones entre los factores, que puedan tener una
explicación biológica o fisiopatológica.
Bondad de Ajuste del Modelo de Regresión Logística
Una vez que hemos obtenido la configuración final del modelo, nos debemos
preguntar cuál puede ser el mejor modelo. Para ello hay que tener en cuenta que el mejor
modelo será aquel que mejor se ajuste a los datos reales obtenidos en la muestra del
estudio o muestra de aprendizaje.
El ajuste del modelo final se estudia por ‘la bondad de ajuste’. Para ello es
necesario que se conozcan el número de perfiles o distintos patrones de variables que
tenemos en la muestra. Es decir, las distintas posibilidades de combinación de las
variables que se encuentran en el modelo y que pueden aparecer por la presencia o
ausencia de cada una de ellas. Estas configurarán los distintos perfiles de pacientes de los
que disponemos en la muestra y de los que podemos obtener el valor de probabilidad de
que ocurra el evento.
Cuando las variables independientes son categóricas, el número de perfiles es más
pequeño que el número de enfermos incluidos en la muestra de estudio. Mientras que,
cuando existen variables continuas en el modelo, es poco probable que muchos pacientes
presenten los mismos valores en estas variables; por lo que habrá mayor número de
perfiles, e incluso, es posible que haya tantos perfiles como individuos en la muestra.
El ajuste del modelo logístico se mide a través del desajuste entre, la respuesta
observada y la respuesta predicha por el modelo, calculando el ‘valor residual’ entre
ambas. Este valor en Regresión Logística se denomina ‘residual de Pearson’ (χ). Como
estas diferencias pueden ser de diferentes signos (positivas o negativas), la cuantificación
del desajuste se hace a través de la suma de los cuadrados de todos los residuales, lo que
se denomina la ‘χ2 residual de Pearson’, que sigue una distribución de χ2 (con grados de
libertad: número de perfiles menos, '1’ más el valor de ‘p’). Este valor se puede comparar
con el máximo valor que el azar explique, según la tabla de Pearson, para los distintos
grados de libertad, y así obtener una medida del ajuste o desajuste del modelo.
Pero esta aproximación es incorrecta para aquellos modelos en los que se
introducen factores cuantitativos, por tener mayor número de perfiles. En estos casos se
debe de utilizar el ‘test de Hosmer-Lemeshow’, por el cual, se agrupan el elevado número
de perfiles, en un número menor. Esta reducción se realiza según criterios estadísticos.
- 17 -
Curso de Estadística Avanzada
Gema Vega
Capacidad Predictiva del Modelo de Regresión Logística
Cuando ya hemos obtenido el modelo matemático definitivo, la estimación de la
probabilidad de aparición del evento en un futuro nuevo paciente se puede obtener por un
simple cálculo matemático; pero necesitamos estar seguros de cual es la capacidad
predictiva del mismo.
Las herramientas con las que contamos para estudiar la seguridad predictiva de los
modelos son fundamentalmente dos, la fiabilidad y el poder discriminante.
La fiabilidad se refiere a la concordancia entre la predicción y la realidad. Es
decir, el porcentaje de enfermos que están bien clasificados.
El poder discriminante, es aquella propiedad, por la cual, el modelo es
capaz de discernir entre los enfermos que van a presentar el evento de estudio, frente a
aquellos que no lo presentarán.
La fiabilidad es una propiedad muy importante de los métodos y es necesario
validarla. Pero ésta es difícil de cuantificar, pues existen muchas maneras de subdividir a
los pacientes en distintos grupos con similar porcentaje de bien clasificados. Por ejemplo,
en el caso de nuestro estudio particular con una mortalidad estimada del 8%, podemos
encontrar dos modelos con una fiabilidad del 90% y no predecir la mortalidad de la misma
manera. El que un modelo tenga una fiabilidad del 90% significa que clasifica bien al 90%
de los enfermos; pero esta fiabilidad se puede obtener a expensas de haber clasificado
bien a casi todos los enfermos que sobrevivieron y no haber clasificado correctamente a
ninguno de los que fallecieron. O, por el contrario, se puede obtener al clasificar
correctamente a todos los enfermos que fallecieron y, un poco peor a aquellos que
sobrevivieron. Como es lógico, ambos modelos son totalmente diferentes en su poder de
clasificación entre vivos y muertos aunque la fiabilidad sea la misma.
A diferencia de la fiabilidad, el poder discriminante de un modelo es más fácil de
medir a través del índice de discriminación predictiva del modelo, llamado “Indice c” (por
la palabra “concordancia”). Este índice es la probabilidad de que, dada una pareja de
pacientes elegida al azar, el valor predicho y el observado, concuerden. Por ejemplo, si el
paciente ha tenido un resultado favorable, la predicción de ese mismo paciente, también
deberá ser un resultado favorable.
En los modelos de Regresión Logística en los que la variable dependiente es
dicotómica, este Indice “c” es idéntico al área bajo la curva ROC (Receiver Operating
Characteristic). Cuando el índice “c” toma el valor “0,5” el método no tiene ningún poder
discriminante; mientras que cuando toma el valor “1”, el método puede establecer una
línea de separación entre la aparición del evento, de acuerdo con la severidad de la
variable de estudio, que en este caso sería el modelo.
Para poder entender el concepto de este índice, repasaremos el significado de
algunos conceptos epidemiológicos y de lo que representa la curva ROC. Representaremos
nuevamente la tabla de contingencia de 2x2, pero planteándonos que lo que estamos
- 18 -
Curso de Estadística Avanzada
Gema Vega
relacionando es, por un lado, el valor observado y por otro, el valor predicho. Esto sería
semejante a las tablas de contingencia que representamos, cuando estamos haciendo un
análisis de la eficacia de una prueba diagnóstica, en la detección de un evento o de una
enfermedad (Por ejemplo, el valor de las enzimas CPK y CPK_MB a partir del cual se
considera que ha ocurrido un infarto agudo de miocardio). En nuestro caso, en vez de una
prueba diagnóstica, sería la predicción de aparición del evento en la muestra de
validación, a través del cálculo de la probabilidad obtenida por el modelo y, la existencia o
no del evento en esa misma muestra.
REALIDAD
PREDICCIÓN
Enfermedad
No
Enfermedad
Enfermedad
a
b
a+ b
No Enfermedad
c
d
c+ d
a+ c
b+ d
A partir de esta tabla podremos definir distintos conceptos que sirven para valorar
la eficacia de una prueba y que en nuestro estudio evaluaría la capacidad predictiva del
modelo.
La sensibilidad (Sb) del modelo vendría representada por aquel porcentaje
de pacientes que, habiendo presentado el evento (enfermedad), hayan sido clasificados
por el modelo como enfermedad. Indicaría lo bueno que es el modelo para identificar a los
pacientes que van a sufrir el evento. La expresión matemática a partir de la tabla anterior
sería
Sb = a / a + c
La Especificidad (Es) del modelo sería aquella proporción de pacientes que,
no habiendo presentado el evento (no enfermedad), son clasificados por el modelo como
‘no enfermedad’. Indicaría, hasta qué punto el modelo es bueno para identificar a los
individuos que no van a sufrir el evento. Matemáticamente se expresaría
Es = d / b + d
El ‘valor predictivo de un resultado positivo’ (VPP), es el que viene
determinado por aquellos pacientes que, habiendo sido clasificados como enfermedad,
realmente la hubieran presentado. Es decir,
VPP = a / a + b
El ‘valor predictivo de un resultado negativo’ (VPN), es el que viene
determinado por aquellos pacientes que, habiendo sido clasificados como ‘no enfermedad’
realmente no la hubieran presentado. Es decir,
VPN = d / c + d
- 19 -
Curso de Estadística Avanzada
Gema Vega
En todos los modelos predictivos de Regresión Logística obtendremos unos valores
continuos de la probabilidad de aparición del evento según los pacientes presenten o no
las características de las variables contenidas en el modelo. A partir de estos porcentajes
tenemos que escoger un valor que clasifique a los enfermos como enfermedad o ‘no
enfermedad’. La elección de este punto de corte de probabilidad es arbitrario, pero
siempre va a ir acompañado de un valor de sensibilidad y de especificidad, que variarán
de manera inversa según el valor de probabilidad que escojamos. Es decir, que si
elegimos un nivel de corte con alta sensibilidad, esto será a expensas de disminuir en
especificidad. Por lo tanto el propio investigador es el que debe de sopesar la importancia
relativa de la sensibilidad y de la especificidad para definir el punto de corte según las
implicaciones que conlleven de los errores de mala clasificación. Así, si se deben evitar los
individuos que sean clasificados falsamente como enfermedad, el punto de corte debe de
situarse donde la especificidad sea máxima. Mientras que, si lo importante fuera evitar
clasificar como ‘no enfermedad’ a aquellos pacientes que si van a fallecer, habría que
tomar un punto de corte donde la sensibilidad fuera alta.
Otra forma de definir el punto de corte es utilizando la curva ROC. Esta curva es la
expresión gráfica del cambio entre especificidad y sensibilidad según los distintos puntos
de corte. Para representarla, primero se eligen distintos puntos de corte, y después se
obtienen para cada nivel de corte, el valor de la sensibilidad y la especificidad asociado, a
través de una tabla 2x2 como la anterior. Posteriormente, se realiza una representación
gráfica entre la sensibilidad y el recíproco de la especificidad (1-Especificidad),
denominando a este último ‘tasa de falsos positivos’. Entre ambos se representa una curva
(Figura.1), denominada curva ROC.
Los valores de los ejes variarán entre ‘0’ y ‘1’ ó entre ‘0’ y ‘100’, según
consideremos ‘tanto por 1’ o en ‘tanto por ciento’.
Sensibilidad
2
3
1
1 - Especificidad
Figura 1. Curva ROC
- 20 -
Curso de Estadística Avanzada
Gema Vega
La forma de la curva se podría dividir en tres partes.
- La parte inicial de la curva vendría representada por una recta con una
gran pendiente (1), en la cual la sensibilidad aumenta mucho, sin que apenas varíe la tasa
de falsos positivos.
- La porción intermedia que vendría representado por un segmento
curvilíneo (2) con más o menos pendiente, donde crecen tanto la sensibilidad como los
falsos positivos.
- Para terminar en otro segmento recto casi sin pendiente (3), donde
apenas aumenta la sensibilidad; mientras que si van aumentando los falsos positivos.
El modelo ideal sería aquel que tuviera 100% de sensibilidad y 100% de
especificidad, situándose en el margen superior izquierdo de la gráfica. Y el peor modelo,
sería aquel que viniera representado por una línea diagonal desde el margen inferior
izquierdo hasta el margen superior derecho. En este último caso, cada incremento en la
sensibilidad, vendría asociado a un incremento de igual magnitud en la proporción de
falsos positivos. Es obvio, que la mayoría de los modelos se encuentran entre estos dos
extremos, y que aquellos modelos que tengan una buena predicción, obtendrán una curva
que se alejará de la diagonal para aproximarse hacia el vértice superior izquierdo.
Esta curva nos sirve para objetivar como varían conjuntamente la sensibilidad y la
especificidad y comprobar la exactitud del pronóstico en distintos puntos de corte. Por lo
general, el mejor punto de corte se sitúa en la zona donde “tuerce la curva”. Una vez
obtenido el mejor punto de corte que se considere según los objetivos del estudio,
podremos clasificar a los pacientes. De tal manera que aquellos que tengan un valor de
probabilidad de aparición del evento (obtenido a través del modelo matemático) superior
al punto de corte, serán clasificados con el valor ‘1’. Y los que tengan un valor de
probabilidad inferior al punto de corte que hemos determinado, serán clasificados como
‘0’.
Creación de la Escala Clínica de Riesgo
A través del análisis multivariado de Regresión Logística obtenemos aquellos
factores que de forma independiente contribuyen a un mal pronóstico postoperatorio de
los pacientes sometidos a cirugía cardiaca con circulación extracorpórea (muerte o
aparición de complicaciones). Además, con este análisis también desarrollamos un modelo
matemático mediante el cual podemos calcular el riesgo relativo (RR) para cada factor de
riesgo con su estimación poblacional a través del intervalo de confianza y, el valor de
probabilidad de aparición de cada uno de los dos eventos de estudio (mortalidad y
morbilidad) para cada paciente individual, según presente o no dichos factores de riesgo.
La utilización de este modelo, conlleva la realización de operaciones matemáticas según la
fórmula de la función logística que comentamos anteriormente:
f(p)=1/1+e–(β0+β1X1+β2*X2+β3*X3+…+βi*Xi), siendo ‘p’: la probabilidad de aparición del
evento; ‘Xi’: los factores de riesgo independientes y ‘βi’ los coeficientes de dichos factores.
- 21 -
Curso de Estadística Avanzada
Gema Vega
La necesidad de realizar estos cálculos para la obtención del valor de probabilidad
de forma predictiva supone una gran limitación para que sea fácilmente utilizada por un
clínico. Por este motivo, es conveniente la creación de escalas clínicas que puedan
sustituir al modelo matemático original.
Se creará una escala clínica de riesgo para cada una de las variables de estudio
que son objeto de esta tesis. Cada una de ellas estará compuesta por los factores
independientes de riesgo de aparición de dicho evento de estudio, a los cuales les
asignaremos un valor. Este valor será similar o aproximado al valor del RR obtenido por el
análisis multivariado para dicho factor, teniendo en cuenta el intervalo de confianza. El
valor total que tendrá cada paciente, será la suma de los valores de aquellos factores de
riesgo que presente dicho paciente.
Posteriormente y según los resultados obtenidos en la muestra de pacientes que
denominamos “de aprendizaje”, se asignará la probabilidad de aparición del evento con su
intervalo de confianza, para cada uno de los posibles valores de la escala. En aquellos
valores de la escala en los que los intervalos de confianza de la probabilidad de aparición
del evento se solapen, se agruparán para formar categorías de riesgo. De esta manera,
dividiremos los posibles valores de la escala en categorías progresivas de riesgo a las que
les será asignada una probabilidad de aparición del evento.
Estas escalas con sus categorías de riesgo y la probabilidad de aparición del evento
asignada a cada una de ellas, serán las que posteriormente se validarán en la muestra de
validación.
- 22 -
Descargar