Una historia interminable,La fragilidad de la emPeratriz,Todos los

Anuncio
Una historia interminable
Hoy no vamos a hablar de dragones que te llevan de paseo si te pones en
su chepa. Tampoco vamos a hablar de hombres con los pies en la cabeza ni de
ninguna otra de las criaturas de la mente delirante de Michael Ende. Hoy
vamos a hablar de otra historia que no tiene fin: el de los indicadores de
pruebas diagnósticas.
Cuando uno cree que los conoce todos, levanta una piedra y encuentra otro
más debajo de ella. ¿Y por qué hay tantos?, os preguntaréis. Pues la
respuesta es muy sencilla. Aunque hay indicadores que nos interpretan muy
bien cómo trata la prueba diagnóstica a los sanos y a los enfermos, todavía
se busca un buen indicador, único, que nos dé una idea de la capacidad
diagnóstica del test.
Existen
multitud de indicadores de pruebas diagnósticas que valoran la capacidad de
la prueba diagnóstica para discriminar entre enfermos y sanos comparando
los resultados con los de un estándar de referencia. Todos ellos se derivan
de la comparación entre positivos y negativos en una tabla de contingencia,
con lo que podemos construir los indicadores habituales que veis en la
tabla adjunta: sensibilidad, especificidad, valores predictivos, cocientes
de probabilidad, índice de exactitud e índice de Youden.
El problema es que la mayoría de ellos valoran parcialmente la capacidad de
la prueba, por lo que necesitamos utilizarlos en parejas: sensibilidad y
especificidad, por ejemplo. Solo los dos últimos que hemos enunciado
funcionan como indicadores únicos. El índice de exactitud mide el
porcentaje de pacientes correctamente diagnosticados, pero trata por igual
a positivos y negativos, verdaderos o falsos. Por su parte, el índice de
Youden suma los mal clasificados por la prueba diagnóstica.
En cualquier caso, no se recomienda utilizar ni el índice de exactitud
ni el de Youden de forma aislada si queremos valorar una prueba
diagnóstica. Además, este último es un término difícil de trasladar a un
concepto clínico tangible al ser
sensibilidad y la especificidad.
una
transformación
lineal
de
la
Llegados a este punto se entiende lo que nos gustaría disponer de un
indicador único, sencillo, cuya interpretación nos resultase familiar y que
no dependiese de la prevalencia de la enfermedad. Sería, sin duda, un buen
indicador de la capacidad de la prueba diagnóstica que nos evitaría tener
que recurrir a una pareja de indicadores.
Y aquí es donde a alguna mente brillante se le ocurre utilizar un
indicador tan conocido y familiar como la odds ratio para interpretar la
capacidad de la prueba. Así, podemos definir la odds ratio diagnóstica
(ORD) como la razón de la odds de que el enfermo dé positivo con respecto a
la odds de dar positivo estando sano. Como esto parece un trabalenguas,
vamos a comentar los dos componentes de la razón.
La odds de que el enfermo dé positivo frente a que dé negativo no es más
que la proporción entre verdaderos positivos (VP) y falsos negativos (FN):
VP/FN. Por otra parte la odds de que el sano dé positivo frente a que dé
negativo es el cociente entre falsos positivos (FP) y verdaderos negativos
(VN): FP/VN. Y visto esto, solo nos queda definir la razón entre las dos
odds:
La ORD puede también expresarse en función de los valores predictivos y
de los cocientes de probabilidad, según las expresiones siguientes:
Como toda odds ratio, los valores posibles de la ORD van de cero a
infinito. El valor nulo es el uno, que significa que la prueba no tiene
capacidad discriminatoria entre sanos y enfermos. Un valor mayor de uno
indica capacidad discriminatoria, que será mayor cuanto mayor sea el valor.
Por último, valores entre cero y uno nos indicarán que la prueba no solo no
discrimina bien entre enfermos y sanos, sino que los clasifica de forma
errónea y nos da más valores negativos entre los enfermos que entre los
sanos.
La ORD es un medidor global fácil de interpretar y que no depende de la
prevalencia de la enfermedad, aunque hay que decir que sí puede variar
entre grupos de enfermos con distinta gravedad de su enfermedad.
Por último, añadir a sus ventajas que existe la posibilidad de construir
su intervalo de confianza a partir de la tabla de contingencia usando esta
pequeña fórmula que me vais a permitir:
Sí, ya he visto el logaritmo, pero es que las odds son así: al ser
asimétricas alrededor del valor nulo estos cálculos hay que hacerlos con
logaritmos neperianos. Así, una vez que tenemos el error estándar podemos
calcular el intervalo de esta manera:
Solo nos quedaría, finalmente, aplicar los antilogaritmos a los límites
del intervalo que obtenemos con la última fórmula (el antilogaritmo es
elevar el número e a los límites obtenidos).
Y creo que con esto ya está bien por hoy. Podríamos seguir mucho más. La
ORD tiene muchas más bondades. Por ejemplo, puede utilizarse con pruebas
con resultados cuantitativos (no solo positivo o negativo), ya que existe
una correlación entre la ORD y el área bajo la curva ROC de la prueba.
Además, puede usarse en metanálisis y en modelos de regresión logística, lo
que permite incluir variables para controlar la heterogeneidad de los
estudios primarios. Pero esa es otra historia…
La fragilidad de la emPeratriz
Una de las cosas que más me maravilla de la estadística es su aspecto de
solidez, sobre todo si tenemos en cuenta que continuamente se mueve en el
terreno del azar y la incertidumbre. Claro que el problema no es de la
estadística como tal, sino nuestro por creer en la solidez de sus
conclusiones.
El ejemplo más característico es el del contraste de hipótesis.
Imaginemos que queremos estudiar el efecto de un fármaco sobre la
prevención de la migraña, esa enfermedad tan frecuente después del
matrimonio. Lo primero que hacemos es establecer nuestra hipótesis nula,
que habitualmente dice lo contrario a lo que queremos demostrar.
En nuestro caso, la hipótesis nula dice que el fármaco es igual de
eficaz que el placebo para prevenir la migraña. Hacemos nuestro ensayo
aleatorizando a los sujetos a los grupos de control y de tratamiento y
obtenemos nuestros resultados. Por último, hacemos el contraste de
hipótesis con el estadístico adecuado y calculamos la probabilidad de que
las diferencias en el número de jaquecas observadas en cada grupo se deben
al azar. Este es el valor de la p, que nos indica única y exclusivamente la
probabilidad de que un resultado como el observado, o aún más extremo, se
deba al azar.
Si obtenemos un valor de p de 0,35 querrá decir que la probabilidad de
que la diferencia no sea real (se deba al azar) es de un 35%, con lo que no
podremos rechazar la hipótesis nula y concluiremos que la diferencia no es
real por no ser estadísticamente significativa. Sin embargo, si el valor de
p es muy bajo, sí que nos sentimos seguros para decir que existe esa
diferencia. ¿Cómo de bajo?. Por convenio se suele escoger un valor de 0,05.
Así que si p < 0,05 rechazamos la hipótesis nula y decimos que la
diferencia no se debe al azar y que es estadísticamente significativa. Y
aquí es donde viene a cuento mi reflexión sobre el aspecto sólido de lo que
no es más que incertidumbre: siempre hay una probabilidad de equivocarse,
que es igual al valor de p. Y además, el umbral elegido es totalmente
arbitrario, de forma que una p=0,049 es estadísticamente significativa
mientras que una p = 0,051 no lo es, a pesar de que sus valores son
prácticamente los mismos.
Pero es que la cosa va más allá, porque no todas la p son igual de
fiables. Pensad que hacemos un ensayo A con nuestro fármaco en el que
participan 100 personas en el grupo de tratamiento y 100 en el de control,
y que obtenemos un 35% menos de cefaleas en el grupo de intervención, con
un valor de p = 0,02.
Ahora suponed otro ensayo con el mismo fármaco pero en el que participan
2000 personas en cada brazo del ensayo, obteniendo una reducción del 20% y
un valor de p = 0,02. ¿Os parecen igual de fiables los resultados y la
conclusión de los dos estudios?.
A primera vista el valor de p = 0,02 es significativo y similar en los
dos. Sin embargo, el nivel de confianza que deberíamos depositar en cada
estudio no debería ser el mismo. Pensad que pasaría si en el grupo de
tratamiento del ensayo A hubiese habido cinco personas más con dolor de
cabeza. El resultado de p podría haberse ido hasta 0,08, dejando de ser
significativo.
Sin embargo, el mismo cambio en el ensayo B es poco probable que hubiese
alterado las cosas. El ensayo B es menos susceptible a los cambios en
cuanto a la significación estadística de sus resultados.
Pues bien, basándose en este razonamiento se han descrito una serie de
índices de fragilidad, que describen el número mínimo de participantes cuyo
estado tiene que cambiar para que el valor de p pase de ser
estadísticamente significativo a no serlo.
Lógicamente, además de tener en cuenta otras características del
estudio, como el tamaño muestral o el número de eventos observados, este
índice de fragilidad podría darnos una idea más aproximada de la solidez de
nuestras conclusiones y, por lo tanto, de la confianza que podemos
depositar en nuestros resultados.
Y hasta aquí hemos llegado por hoy. Una entrada más dando vueltas
alrededor de la p y de la significación estadística, cuando lo que en
realidad interesa más valorar es la importancia clínica de los resultados.
Pero esa es otra historia…
Todos los caminos llevan a
Roma
Esta expresión tiene su origen en la manía que les entró a los romanos
por hacer carreteras entre la capital del Imperio y las provincias más
alejadas. Había un momento en que cualquier camino que tomases te llevaba a
Roma, de ahí el dicho.
En la actualidad los caminos te pueden llevar a cualquier parte, pero la
frase se conserva para usarla cuando queremos decir que hay varias maneras
de conseguir un mismo fin. Por ejemplo, cuando queremos saber si hay
dependencia entre dos variables y si su diferencia es estadísticamente
significativa. Siempre hay varios caminos para llegar a nuestra ansiada p.
Y para demostrarlo, vamos a verlo con un ejemplo absurdo e imposible,
para el cual voy a tener que hacer uso de mi máquina del tiempo. Así que,
ya que la cosa va de romanos, nos vamos al año 216 antes de Cristo, en
medio de la segunda guerra púnica, y planeamos un estudio para ver quiénes
son más listos, los romanos o los cartagineses.
Para ello seleccionamos una muestra de 251 romanos y de 249 cartagineses
que pillamos despistados en la batalla de Cannas y les pasamos un test de
inteligencia para ver qué proporción tiene un cociente de inteligencia
mayor de 120, lo que vamos a considerar como ser bastante listo.
Los resultados podéis verlos en la
tabla que os adjunto. Podemos ver que
el 25% de los romanos (63 de 251) y el
16% de los cartagineses (40 de 249)
pueden ser calificados como listos. A
primera vista uno pensaría que los
romanos eran más listos pero claro,
siempre hay posibilidad de que esta
diferencia sea debida al azar por error
de muestreo.
Así que planteamos nuestra hipótesis nula de que todos son igual de
listos, elegimos un estadístico cuya distribución de probabilidad bajo la
hipótesis nula sea conocida, calculamos cuánto vale y calculamos su valor
de p. Si es menor de 0,05 rechazaremos la hipótesis nula y concluiremos que
los romanos eran más listos. Si es mayor, no podremos rechazar la hipótesis
nula, así que concluiremos que todos eran igual de listos y que la
diferencia observada se debe al azar.
El primer estadístico que se me
ocurre es la chi-cuadrado. Como ya
sabemos, ésta valora la diferencia
entre valores observados y esperados y
calcula un valor que sigue una
distribución conocida (chi-cuadrado),
por lo que podemos calcular su valor de
p. De esta forma, construimos la tabla
de valores observados y esperados y
obtenemos un valor de chi-cuadrado
igual a 6,35. Ahora podemos calcular el
valor de p utilizando, por ejemplo, una de las calculadoras de probabilidad
disponibles en Internet, obteniendo un valor de p = 0,01. Como es menor de
0,05 rechazamos la hipótesis nula y concluimos que los romanos eran, en
efecto, más listos que los cartagineses, lo que explicaría que ganasen las
tres guerras púnicas, aunque la segunda se les atragantase un poco.
Pero hemos dicho que todos los caminos llevan a Roma. Y otra forma de
llegar a la p sería comparar las dos proporciones y ver si su diferencia es
estadísticamente significativa. Una vez más, nuestra hipótesis nula dice
que no hay diferencias entre las dos, así que la resta de las dos
proporciones, si la hipótesis nula es cierta, debería valer cero.
De esta manera, lo que tenemos que hacer es calcular la diferencia de
proporciones y estandarizarla dividiéndola por su error estándar,
obteniendo así un valor z que seguirá una distribución de probabilidad
normal.
La fórmula es la siguiente
Con ésta obtenemos un valor de z = 2,51. Si volvemos a utilizar otra
calculadora de probabilidad para calcular lo que queda fuera de la media ±
z (el contraste es bilateral), veremos que el valor de p = 0,01.
Efectivamente, el mismo valor de p que obtuvimos con la chi-cuadrado.
Pero esto no debería extrañarnos. Al fin y al cabo, la p no es más que
la probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula
(error de tipo I). Y como la hipótesis nula es la misma usemos chi-cuadrado
o z, la probabilidad de error de tipo I debe ser la misma en los dos casos.
Pero es que, además, hay otra curiosidad. El valor de la chi-cuadrado
(6,35) es exactamente el cuadrado del valor que obtuvimos para z (2,51).
Pero esto tampoco debería extrañarnos si sabemos que las distribuciones de
la chi-cuadrado y la normal están relacionadas.: si elevamos al cuadrado
todos los valores de una distribución de frecuencias normal y volvemos a
representar los resultados obtendremos una distribución de frecuencias de
la chi-cuadrado. Curioso, ¿verdad?.
También podríamos realizar una prueba exacta de Fisher en lugar de una
chi-cuadrado y obtendríamos unos resultados similares.
Y con esto vamos a dejar a romanos y cartagineses en paz. Solo deciros
que todavía hay más caminos para demostrar si la diferencia de proporciones
es significativa o no. Podríamos haber calculado el intervalo de confianza
de la diferencia o el del cociente de proporciones (el riesgo relativo) o,
incluso, el de la odds ratio entre las dos proporciones y ver si los
intervalos incluían el valor nulo para determinar si eran estadísticamente
significativos. Pero esa es otra historia…
Descargar