Una historia interminable Hoy no vamos a hablar de dragones que te llevan de paseo si te pones en su chepa. Tampoco vamos a hablar de hombres con los pies en la cabeza ni de ninguna otra de las criaturas de la mente delirante de Michael Ende. Hoy vamos a hablar de otra historia que no tiene fin: el de los indicadores de pruebas diagnósticas. Cuando uno cree que los conoce todos, levanta una piedra y encuentra otro más debajo de ella. ¿Y por qué hay tantos?, os preguntaréis. Pues la respuesta es muy sencilla. Aunque hay indicadores que nos interpretan muy bien cómo trata la prueba diagnóstica a los sanos y a los enfermos, todavía se busca un buen indicador, único, que nos dé una idea de la capacidad diagnóstica del test. Existen multitud de indicadores de pruebas diagnósticas que valoran la capacidad de la prueba diagnóstica para discriminar entre enfermos y sanos comparando los resultados con los de un estándar de referencia. Todos ellos se derivan de la comparación entre positivos y negativos en una tabla de contingencia, con lo que podemos construir los indicadores habituales que veis en la tabla adjunta: sensibilidad, especificidad, valores predictivos, cocientes de probabilidad, índice de exactitud e índice de Youden. El problema es que la mayoría de ellos valoran parcialmente la capacidad de la prueba, por lo que necesitamos utilizarlos en parejas: sensibilidad y especificidad, por ejemplo. Solo los dos últimos que hemos enunciado funcionan como indicadores únicos. El índice de exactitud mide el porcentaje de pacientes correctamente diagnosticados, pero trata por igual a positivos y negativos, verdaderos o falsos. Por su parte, el índice de Youden suma los mal clasificados por la prueba diagnóstica. En cualquier caso, no se recomienda utilizar ni el índice de exactitud ni el de Youden de forma aislada si queremos valorar una prueba diagnóstica. Además, este último es un término difícil de trasladar a un concepto clínico tangible al ser sensibilidad y la especificidad. una transformación lineal de la Llegados a este punto se entiende lo que nos gustaría disponer de un indicador único, sencillo, cuya interpretación nos resultase familiar y que no dependiese de la prevalencia de la enfermedad. Sería, sin duda, un buen indicador de la capacidad de la prueba diagnóstica que nos evitaría tener que recurrir a una pareja de indicadores. Y aquí es donde a alguna mente brillante se le ocurre utilizar un indicador tan conocido y familiar como la odds ratio para interpretar la capacidad de la prueba. Así, podemos definir la odds ratio diagnóstica (ORD) como la razón de la odds de que el enfermo dé positivo con respecto a la odds de dar positivo estando sano. Como esto parece un trabalenguas, vamos a comentar los dos componentes de la razón. La odds de que el enfermo dé positivo frente a que dé negativo no es más que la proporción entre verdaderos positivos (VP) y falsos negativos (FN): VP/FN. Por otra parte la odds de que el sano dé positivo frente a que dé negativo es el cociente entre falsos positivos (FP) y verdaderos negativos (VN): FP/VN. Y visto esto, solo nos queda definir la razón entre las dos odds: La ORD puede también expresarse en función de los valores predictivos y de los cocientes de probabilidad, según las expresiones siguientes: Como toda odds ratio, los valores posibles de la ORD van de cero a infinito. El valor nulo es el uno, que significa que la prueba no tiene capacidad discriminatoria entre sanos y enfermos. Un valor mayor de uno indica capacidad discriminatoria, que será mayor cuanto mayor sea el valor. Por último, valores entre cero y uno nos indicarán que la prueba no solo no discrimina bien entre enfermos y sanos, sino que los clasifica de forma errónea y nos da más valores negativos entre los enfermos que entre los sanos. La ORD es un medidor global fácil de interpretar y que no depende de la prevalencia de la enfermedad, aunque hay que decir que sí puede variar entre grupos de enfermos con distinta gravedad de su enfermedad. Por último, añadir a sus ventajas que existe la posibilidad de construir su intervalo de confianza a partir de la tabla de contingencia usando esta pequeña fórmula que me vais a permitir: Sí, ya he visto el logaritmo, pero es que las odds son así: al ser asimétricas alrededor del valor nulo estos cálculos hay que hacerlos con logaritmos neperianos. Así, una vez que tenemos el error estándar podemos calcular el intervalo de esta manera: Solo nos quedaría, finalmente, aplicar los antilogaritmos a los límites del intervalo que obtenemos con la última fórmula (el antilogaritmo es elevar el número e a los límites obtenidos). Y creo que con esto ya está bien por hoy. Podríamos seguir mucho más. La ORD tiene muchas más bondades. Por ejemplo, puede utilizarse con pruebas con resultados cuantitativos (no solo positivo o negativo), ya que existe una correlación entre la ORD y el área bajo la curva ROC de la prueba. Además, puede usarse en metanálisis y en modelos de regresión logística, lo que permite incluir variables para controlar la heterogeneidad de los estudios primarios. Pero esa es otra historia… La fragilidad de la emPeratriz Una de las cosas que más me maravilla de la estadística es su aspecto de solidez, sobre todo si tenemos en cuenta que continuamente se mueve en el terreno del azar y la incertidumbre. Claro que el problema no es de la estadística como tal, sino nuestro por creer en la solidez de sus conclusiones. El ejemplo más característico es el del contraste de hipótesis. Imaginemos que queremos estudiar el efecto de un fármaco sobre la prevención de la migraña, esa enfermedad tan frecuente después del matrimonio. Lo primero que hacemos es establecer nuestra hipótesis nula, que habitualmente dice lo contrario a lo que queremos demostrar. En nuestro caso, la hipótesis nula dice que el fármaco es igual de eficaz que el placebo para prevenir la migraña. Hacemos nuestro ensayo aleatorizando a los sujetos a los grupos de control y de tratamiento y obtenemos nuestros resultados. Por último, hacemos el contraste de hipótesis con el estadístico adecuado y calculamos la probabilidad de que las diferencias en el número de jaquecas observadas en cada grupo se deben al azar. Este es el valor de la p, que nos indica única y exclusivamente la probabilidad de que un resultado como el observado, o aún más extremo, se deba al azar. Si obtenemos un valor de p de 0,35 querrá decir que la probabilidad de que la diferencia no sea real (se deba al azar) es de un 35%, con lo que no podremos rechazar la hipótesis nula y concluiremos que la diferencia no es real por no ser estadísticamente significativa. Sin embargo, si el valor de p es muy bajo, sí que nos sentimos seguros para decir que existe esa diferencia. ¿Cómo de bajo?. Por convenio se suele escoger un valor de 0,05. Así que si p < 0,05 rechazamos la hipótesis nula y decimos que la diferencia no se debe al azar y que es estadísticamente significativa. Y aquí es donde viene a cuento mi reflexión sobre el aspecto sólido de lo que no es más que incertidumbre: siempre hay una probabilidad de equivocarse, que es igual al valor de p. Y además, el umbral elegido es totalmente arbitrario, de forma que una p=0,049 es estadísticamente significativa mientras que una p = 0,051 no lo es, a pesar de que sus valores son prácticamente los mismos. Pero es que la cosa va más allá, porque no todas la p son igual de fiables. Pensad que hacemos un ensayo A con nuestro fármaco en el que participan 100 personas en el grupo de tratamiento y 100 en el de control, y que obtenemos un 35% menos de cefaleas en el grupo de intervención, con un valor de p = 0,02. Ahora suponed otro ensayo con el mismo fármaco pero en el que participan 2000 personas en cada brazo del ensayo, obteniendo una reducción del 20% y un valor de p = 0,02. ¿Os parecen igual de fiables los resultados y la conclusión de los dos estudios?. A primera vista el valor de p = 0,02 es significativo y similar en los dos. Sin embargo, el nivel de confianza que deberíamos depositar en cada estudio no debería ser el mismo. Pensad que pasaría si en el grupo de tratamiento del ensayo A hubiese habido cinco personas más con dolor de cabeza. El resultado de p podría haberse ido hasta 0,08, dejando de ser significativo. Sin embargo, el mismo cambio en el ensayo B es poco probable que hubiese alterado las cosas. El ensayo B es menos susceptible a los cambios en cuanto a la significación estadística de sus resultados. Pues bien, basándose en este razonamiento se han descrito una serie de índices de fragilidad, que describen el número mínimo de participantes cuyo estado tiene que cambiar para que el valor de p pase de ser estadísticamente significativo a no serlo. Lógicamente, además de tener en cuenta otras características del estudio, como el tamaño muestral o el número de eventos observados, este índice de fragilidad podría darnos una idea más aproximada de la solidez de nuestras conclusiones y, por lo tanto, de la confianza que podemos depositar en nuestros resultados. Y hasta aquí hemos llegado por hoy. Una entrada más dando vueltas alrededor de la p y de la significación estadística, cuando lo que en realidad interesa más valorar es la importancia clínica de los resultados. Pero esa es otra historia… Todos los caminos llevan a Roma Esta expresión tiene su origen en la manía que les entró a los romanos por hacer carreteras entre la capital del Imperio y las provincias más alejadas. Había un momento en que cualquier camino que tomases te llevaba a Roma, de ahí el dicho. En la actualidad los caminos te pueden llevar a cualquier parte, pero la frase se conserva para usarla cuando queremos decir que hay varias maneras de conseguir un mismo fin. Por ejemplo, cuando queremos saber si hay dependencia entre dos variables y si su diferencia es estadísticamente significativa. Siempre hay varios caminos para llegar a nuestra ansiada p. Y para demostrarlo, vamos a verlo con un ejemplo absurdo e imposible, para el cual voy a tener que hacer uso de mi máquina del tiempo. Así que, ya que la cosa va de romanos, nos vamos al año 216 antes de Cristo, en medio de la segunda guerra púnica, y planeamos un estudio para ver quiénes son más listos, los romanos o los cartagineses. Para ello seleccionamos una muestra de 251 romanos y de 249 cartagineses que pillamos despistados en la batalla de Cannas y les pasamos un test de inteligencia para ver qué proporción tiene un cociente de inteligencia mayor de 120, lo que vamos a considerar como ser bastante listo. Los resultados podéis verlos en la tabla que os adjunto. Podemos ver que el 25% de los romanos (63 de 251) y el 16% de los cartagineses (40 de 249) pueden ser calificados como listos. A primera vista uno pensaría que los romanos eran más listos pero claro, siempre hay posibilidad de que esta diferencia sea debida al azar por error de muestreo. Así que planteamos nuestra hipótesis nula de que todos son igual de listos, elegimos un estadístico cuya distribución de probabilidad bajo la hipótesis nula sea conocida, calculamos cuánto vale y calculamos su valor de p. Si es menor de 0,05 rechazaremos la hipótesis nula y concluiremos que los romanos eran más listos. Si es mayor, no podremos rechazar la hipótesis nula, así que concluiremos que todos eran igual de listos y que la diferencia observada se debe al azar. El primer estadístico que se me ocurre es la chi-cuadrado. Como ya sabemos, ésta valora la diferencia entre valores observados y esperados y calcula un valor que sigue una distribución conocida (chi-cuadrado), por lo que podemos calcular su valor de p. De esta forma, construimos la tabla de valores observados y esperados y obtenemos un valor de chi-cuadrado igual a 6,35. Ahora podemos calcular el valor de p utilizando, por ejemplo, una de las calculadoras de probabilidad disponibles en Internet, obteniendo un valor de p = 0,01. Como es menor de 0,05 rechazamos la hipótesis nula y concluimos que los romanos eran, en efecto, más listos que los cartagineses, lo que explicaría que ganasen las tres guerras púnicas, aunque la segunda se les atragantase un poco. Pero hemos dicho que todos los caminos llevan a Roma. Y otra forma de llegar a la p sería comparar las dos proporciones y ver si su diferencia es estadísticamente significativa. Una vez más, nuestra hipótesis nula dice que no hay diferencias entre las dos, así que la resta de las dos proporciones, si la hipótesis nula es cierta, debería valer cero. De esta manera, lo que tenemos que hacer es calcular la diferencia de proporciones y estandarizarla dividiéndola por su error estándar, obteniendo así un valor z que seguirá una distribución de probabilidad normal. La fórmula es la siguiente Con ésta obtenemos un valor de z = 2,51. Si volvemos a utilizar otra calculadora de probabilidad para calcular lo que queda fuera de la media ± z (el contraste es bilateral), veremos que el valor de p = 0,01. Efectivamente, el mismo valor de p que obtuvimos con la chi-cuadrado. Pero esto no debería extrañarnos. Al fin y al cabo, la p no es más que la probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula (error de tipo I). Y como la hipótesis nula es la misma usemos chi-cuadrado o z, la probabilidad de error de tipo I debe ser la misma en los dos casos. Pero es que, además, hay otra curiosidad. El valor de la chi-cuadrado (6,35) es exactamente el cuadrado del valor que obtuvimos para z (2,51). Pero esto tampoco debería extrañarnos si sabemos que las distribuciones de la chi-cuadrado y la normal están relacionadas.: si elevamos al cuadrado todos los valores de una distribución de frecuencias normal y volvemos a representar los resultados obtendremos una distribución de frecuencias de la chi-cuadrado. Curioso, ¿verdad?. También podríamos realizar una prueba exacta de Fisher en lugar de una chi-cuadrado y obtendríamos unos resultados similares. Y con esto vamos a dejar a romanos y cartagineses en paz. Solo deciros que todavía hay más caminos para demostrar si la diferencia de proporciones es significativa o no. Podríamos haber calculado el intervalo de confianza de la diferencia o el del cociente de proporciones (el riesgo relativo) o, incluso, el de la odds ratio entre las dos proporciones y ver si los intervalos incluían el valor nulo para determinar si eran estadísticamente significativos. Pero esa es otra historia…