162 – Módulo 7 – Fascículo Nº 1 – 2011 – Módulo 7 – Fascículo Nº 1 – 2011 Estudios diagnósticos: conceptos útiles Dr. Jorge Thierer1, MTSAC Contenidos – Cociente de posibilidad (likelihood ratio) – Curva ROC – Comentario final Abreviaturas E–Sano E+Enfermo FN Falso negativo FP Falso positivo LR– Likelihood ratio negativo LR+ Likelihood ratio positivo En esta entrega vamos a referirnos a conceptos habituales en los estudios diagnósticos. Cuando se realiza una prueba diagnóstica se busca determinar la presencia o la ausencia de una patología. Dicha patología tiene en la población general una prevalencia determinada: es la cantidad de personas que la padecen sobre el total de la población. Podremos decir entonces que la prevalencia de hipertensión en la población general ronda el 30%, la de diabetes el 10%, la de insuficiencia cardíaca el 3%. Ahora bien, más allá de la prevalencia en la población general, para cada persona podemos sospechar una prevalencia determinada de la patología, en base, entre otros, a sus características basales y antecedentes. Por ejemplo, la prevalencia de insuficiencia cardíaca es claramente inferior al 1% en varones jóvenes y supera el 10% en mujeres ancianas. Para diagnosticar la enfermedad o condición en una persona en particular, recurriremos en- P– P+ VN VP VPN VPP Prueba negativa Prueba positiva Verdadero negativo Verdadero positivo Valor predictivo negativo Valor predictivo positivo tonces a una prueba o a un conjunto de ellas. Esperaremos de esa prueba que tenga la capacidad de determinar con la mayor certeza posible la existencia o no de la enfermedad; lo ideal sería que diagnostique correctamente a todos los sanos y a todos los enfermos. Veamos lo que sucede ante la realización de una prueba (Figura 1). La prevalencia de la enfermedad en la población de personas estudiadas es, como dijimos, el número de enfermos sobre el total. Como vemos, entre los enfermos (E+), la prueba puede resultar positiva y sostener que la enfermedad existe (P+), o negativa, quedando la enfermedad sin diagnóstico (P–). La P+ en E+ es lo que llamamos un verdadero positivo (VP), porque es una prueba que diagnostica enfermedad en alguien verdaderamente enfermo. La P– en E+ es lo que llamamos un falso negativo (FN), porque es una prueba que no diagnostica enfermedad en alguien que en Director del Área de Investigación de la Sociedad Argentina de Cardiología Director del Departamento de Investigación y Jefe de la Sección de Insuficiencia Cardíaca del Instituto Cardiovascular de Buenos Aires (ICBA) MTSAC Miembro Titular de la Sociedad Argentina de Cardiología 1 163 Estudios diagnósticos: conceptos útiles realidad está enfermo. La capacidad de la prueba para diagnosticar enfermedad, entonces, puede cuantificarse como la cantidad de P+ en E+ (los VP) sobre el total de pruebas realizadas en E+ (los que fueron VP más los que resultaron FN). El cociente VP / (VP + FN) es lo que se llama tasa de verdaderos positivos o sensibilidad de la prueba. –––––––––––––––––––––––––––––––– Cuanto mayor es la sensibilidad de la prueba, más enfermos serán diagnosticados adecuadamente, con lo que la tasa de FN será menor. –––––––––––––––––––––––––––––––– La P– en E– es lo que llamamos un verdadero negativo (VN), porque es una prueba que diagnostica ausencia de enfermedad en alguien que está sano. La P+ en E– es lo que llamamos un falso positivo (FP), porque es una prueba que diagnostica enfermedad en alguien que en realidad está sano. La capacidad de la prueba para diagnosticar ausencia de enfermedad, entonces, puede cuantificarse como la cantidad de P– en E– (los VN) sobre el total de pruebas realizadas en E– (los que fueron VN más los que resultaron FP). El cociente VN / (VN + FP) es lo que se llama tasa de verdaderos negativos o especificidad de la prueba. –––––––––––––––––––––––––––––––– Cuanto mayor es la especificidad de la prueba, más sanos serán diagnosticados adecuadamente, con lo que la tasa de FP será menor. –––––––––––––––––––––––––––––––– Ahora bien, la sensibilidad y la especificidad de una prueba son conocidas a partir de la litera- Fig. 1. E+: Enfermos. E-: Sanos. P+: Prueba positiva. P-: Prueba negativa. S: Sensibilidad. E: Especificidad. VP: Verdadero positivo. VN: Verdadero negativo. FP: Falso positivo. FN: Falso negativo. VPP: Valor predictivo positivo. VPN: Valor predictivo negativo. tura previa. Lo que realmente importa es, una vez realizada la prueba, cómo impacta en el manejo de los pacientes. ¿Consideramos en cada caso el resultado de la prueba como verdad absoluta? ¿Modifica realmente la prueba nuestra evaluación previa del paciente? En realidad, nuestro interés se centra en determinar la probabilidad de que el paciente sea un enfermo (E+) si la prueba es positiva (P+), o bien que haya ausencia de patología (E–) si la prueba es negativa (P–). El primer punto (probabilidad de E+ si P+) corresponde al valor predictivo positivo (VPP), que surge del cociente de las P+ en E+ (VP) sobre el total de las P+ (VP + FP). Es decir que VPP = VP / VP + FP. Si el valor de FP aumenta, aumenta el denominador y, por lo tanto, el VPP cae. ¿Y cuándo aumenta el valor de FP? Como ya vimos, cuando una prueba es poco específica. Colofón: las pruebas muy específicas tienen un VPP alto; un resultado positivo, por lo tanto, es con alto grado de probabilidad un verdadero positivo. Una prueba positiva con alto grado de especificidad incluye: suma al positivo al grupo de los enfermos. –––––––––––––––––––––––––––––––– Las pruebas con alta especificidad poseen un VPP elevado. –––––––––––––––––––––––––––––––– El segundo punto (probabilidad de E– si P–) corresponde al valor predictivo negativo (VPN), que surge del cociente de las P– en E– (VN) sobre el total de las P– (VN + FN). Es decir que VPN = VN / VN + FN. Si el valor de FN aumenta, aumenta el denominador y, por lo tanto, el VPN 164 – Módulo 7 – Fascículo Nº 1 – 2011 cae. ¿Y cuándo aumenta el valor de FN? Aumenta cuando una prueba es poco sensible. Por lo tanto, las pruebas muy sensibles tienen un VPN alto; un resultado negativo es con alto grado de probabilidad un verdadero negativo. Una prueba negativa con alto grado de sensibilidad excluye: suma al negativo al grupo de los sanos. –––––––––––––––––––––––––––––––– Las pruebas con alta sensibilidad poseen un VPN elevado. –––––––––––––––––––––––––––––––– A diferencia de la sensibilidad y la especificidad, que son propias de la prueba, cualquiera que sea el escenario y la probabilidad preprueba, los valores predictivos positivo y negativo varían según la prevalencia de la enfermedad en el grupo estudiado o en el paciente individual. La sensibilidad se determina en los enfermos y la especificidad en los sanos y, por lo tanto, no dependen de la prevalencia. En cambio, y tal como se ejemplifica en las Figuras 2 a 6, al variar la prevalencia, una prueba con la misma sensibilidad y especificidad varía su VPP y VPN. Fig. 2. E+: Enfermos. E-: Sanos. P+: Prueba positiva. P-: Prueba negativa. S: Sensibilidad. E: Especificidad. VP: Verdadero positivo. VN: Verdadero negativo. FP: Falso positivo. FN: Falso negativo. VPP: Valor predictivo positivo. VPN: Valor predictivo negativo. Fig. 3. E+: Enfermos. E-: Sanos. P+: Prueba positiva. P-: Prueba negativa. S: Sensibilidad. E: Especificidad. VP: Verdadero positivo. VN: Verdadero negativo. FP: Falso positivo. FN: Falso negativo. VPP: Valor predictivo positivo. VPN: Valor predictivo negativo. Consideremos como ejemplo (Figura 2) una prueba con una sensibilidad del 80% y una especificidad del 90%. Para una prevalencia o probabilidad preprueba de enfermedad del 10%, un resultado positivo de la prueba lleva la probabilidad posprueba al 47%, mientras que un resultado negativo no excluye totalmente la probabilidad de enfermedad: el VPN es del 97,6%, por lo que existe aún una probabilidad luego de la prueba de padecer la enfermedad o de presentar el carácter en estudio del 2,4%. Si la prevalencia es menor (Figura 3, ejemplo con 1% de prevalencia), baja el VPP y aumenta el VPN: por lo tanto, la probabilidad de padecer la enfermedad es mucho menor si el resultado es positivo; y si es negativo, nos acercamos a una certeza mayor de ausencia de patología. Por el contrario, al aumentar la prevalencia al 20% (Figura 4), aumenta el VPP y cae el VPN: un resultado positivo nos deja en una probabilidad posprueba del 66,6% e incluso un resultado negativo admite una probabilidad de enfermedad del 5,3%. 165 En el caso de una prevalencia muy alta (Figura 5, ejemplo con 90%), un resultado positivo lleva la probabilidad al 98,6%, y uno negativo no puede excluir que exista enfermedad en un ¡66,7% de los casos! En resumen, en casos de prevalencia muy alta o muy baja, el rédito de la prueba no es significativo. En casos de prevalencia intermedia es donde la ganancia de la prueba es máxima: veamos en la Figura 6 cómo, frente a una probabilidad preprueba del 50%, un resultado positivo lleva la probabilidad posprueba al 88,8% y uno negativo la baja al 18,2%. Fig. 4. E+: Enfermos. E-: Sanos. P+: Prueba positiva. P-: Prueba negativa. S: Sensibilidad. E: Especificidad. VP: Verdadero positivo. VN: Verdadero negativo. FP: Falso positivo. FN: Falso negativo. VPP: Valor predictivo positivo. VPN: Valor predictivo negativo. Fig. 5. E+: Enfermos. E-: Sanos. P+: Prueba positiva. P-: Prueba negativa. S: Sensibilidad. E: Especificidad. VP: Verdadero positivo. VN: Verdadero negativo. FP: Falso positivo. FN: Falso negativo. VPP: Valor predictivo positivo. VPN: Valor predictivo negativo. Estudios diagnósticos: conceptos útiles Fig. 6. E+: Enfermos. E-: Sanos. P+: Prueba positiva. P-: Prueba negativa. S: Sensibilidad. E: Especificidad. VP: Verdadero positivo. VN: Verdadero negativo. FP: Falso positivo. FN: Falso negativo. VPP: Valor predictivo positivo. VPN: Valor predictivo negativo. Cociente de posibilidad (likelihood ratio) ___________ Otra forma de definir la probabilidad de enfermedad una vez realizada la prueba es mediante la utilización de los cocientes de posibilidad o razones de verosimilitud (likelihood ratio en inglés, LR). Dijimos que frente a una prueba de resultado positivo existe la probabilidad de que éste sea un VP o un FP. La razón VP / FP se denomina LR+. Cuanto mayor el LR+, mayor la probabilidad posprueba de que un resultado positivo corresponda a un enfermo. 166 Frente a una prueba de resultado negativo existe la probabilidad de éste sea un VN o un FN. La razón VN / FN se denomina LR–. Cuanto mayor el LR–, mayor la probabilidad posprueba de que un resultado negativo corresponda a un sano. En un estudio con sensibilidad del 80%, la tasa de VP es de 0,80 y la de FN es de 0,20. De igual modo, con una especificidad del 90%, la tasa de VN es de 0,90 y la de FP es de 0,10. Por lo tanto: LR+ = VP / FP = 0,80 / 0,10 = 8 LR– = VN / FN = 0,90 / 0,20 = 4,5 ¿Cómo se utilizan los likelihood ratios? Veamos los pasos con el ejemplo de la Figura 2: A. Para confirmar enfermedad 1. Se determina inicialmente la probabilidad preprueba de enfermedad. La probabilidad es una proporción (casos probables sobre el total de las determinaciones). En este ejemplo, p = 10% = 0,10. 2. Se convierte la probabilidad preprueba en odds preprueba (odds, vocablo inglés que puede traducirse por posibilidad), entendido como el cociente entre la probabilidad de que algo suceda y la probabilidad de que no suceda. Odds se define por lo tanto: p / 1 – p. En el ejemplo: Odds preprueba de enfermedad = 0,10 / 0,90 = 0,11. Este valor debe leerse como una chance de 0,11 de enfermedad frente a una de 1 de no enfermedad. 3. Se multiplica el odds preprueba por el LR+ y se obtiene el odds posprueba. Odds preprueba (enf.) × LR+ = 0,11 × 8 = 0,88 4. Pasamos nuevamente de odds a probabilidad, con la fórmula p = odds / 1 + odds. Probabilidad posprueba = odds posprueba / 1 + odds posprueba = 0,88 / 1 + 0,88 = 0,88 / 1,88 = 0,468 = 46,8% Vemos entonces que utilizando el LR+ llegamos a una probabilidad de enfermedad que es similar al VPP. B. Para descartar enfermedad Los pasos son similares: Probabilidad preprueba de ausencia de enfermedad 1 – 0,10 = 0,90 – Módulo 7 – Fascículo Nº 1 – 2011 Odds preprueba de ausencia de enfermedad = 0,90 / 0,10 = 9 Odds posprueba = odds preprueba × LR– = 9 × 4,5 = 40,5 Probabilidad posprueba = odds posprueba / 1 + odds posprueba = 40,5 / 1 + 40,5 = 40,5 / 41,5 = 0,976 = 97,6% Vemos entonces que utilizando el LR– llegamos a una probabilidad de ausencia de enfermedad que es similar al VPN. ¿Cuál es entonces la utilidad de los LR respecto del cálculo tradicional? Hay tablas con los valores de LR+ y LR– que corresponden a diferentes estudios. No es necesario entonces conocer la sensibilidad o la especificidad; existen nomogramas que permiten, conociendo la probabilidad preprueba y el LR, llegar a la probabilidad posprueba simplemente uniendo los puntos del gráfico. El problema es que no siempre se informan los LR y entonces hay que hacer todas las operaciones descriptas, lo cual lo hace más engorroso. Curva ROC ___________ En toda prueba diagnóstica se cumple el hecho de que al aumentar la sensibilidad decrece la especificidad. Cuanto mayor sea la capacidad para detectar enfermos (VP), mayor será la probabilidad de que personas sanas sean falsamente diagnosticadas como enfermas (FP). Razonémoslo desde un ejemplo: si establecemos como punto de corte por encima del cual se diagnostica insuficiencia cardíaca un valor de BNP (péptido natriurético cerebral) muy bajo, por ejemplo 50 pg/ml, es muy probable que detectemos a todos los pacientes con dicha patología, con lo que tendremos una tasa de VP del 100% y una tasa de FN del 0%. Pero al mismo tiempo a muchas personas que no tienen insuficiencia cardíaca se les diagnosticará que la padecen, con lo que habrá también una tasa alta de FP. Si queremos resolver este problema incrementando progresivamente el valor de corte, cada vez nos equivocaremos menos al diagnosticar la enfermedad, con lo que la especificidad aumenta- 167 Estudios diagnósticos: conceptos útiles rá y la tasa de FP irá decreciendo; pero es cierto que personas con la patología y con valores de BNP por debajo del valor de corte ya no serán diagnosticadas: irá disminuyendo la sensibilidad y con ella la tasa de VP. Debe haber, para cada prueba diagnóstica, un valor de corte que mejor combine sensibilidad y especificidad, para lograr lo que se llama la mayor certeza diagnóstica. El mismo ejemplo del BNP puede aplicarse al monto de desnivel del ST requerido para diagnosticar enfermedad coronaria en una ergometría: con 0, 5 mm de desnivel, altísima sensibilidad y baja especificidad; con 4 mm de ST, muy baja sensibilidad y alta especificidad. –––––––––––––––––––––––––––––––– En una prueba diagnóstica, a medida que aumenta la sensibilidad, decrece la especificidad y viceversa. –––––––––––––––––––––––––––––––– La curva ROC (Figura 7) grafica entonces la tasa de VP contra la tasa de FP para cada valor de corte de un método, o para cada valor de un puntaje (score) o de un modelo estadístico. En general, en el eje de las abscisas se grafica la tasa de FP (1 – especificidad) y en el de las ordenadas la de VP (sensibilidad). Al aumentar una, aumenta la otra. El área bajo la curva representa la capacidad de discriminación del modelo o del método. Fig. 7. Curva ROC. FP: Falsos positivos. VP: Verdaderos positivos. Si el área es de 0,50, entonces el método carece de la capacidad de discriminar. A medida que el área aumenta, la capacidad de discriminación es mayor. El área ideal es 1, lo cual implica sensibilidad y especificidad del 100%. Se entiende que un área de entre 0,50 y 0,70 corresponde a una escasa capacidad de discriminar; un área de entre 0,70 y 0,90 corresponde a una buena capacidad y con un área superior a 0,90 es muy buena. Se entiende que si la curva grafica la relación VP/FP para cada punto de corte, la mejor relación entre ambas corresponde al punto de la curva más cercano al ángulo superior izquierdo. Las áreas bajo la curva de diferentes métodos o modelos se pueden comparar y así establecer si hay diferencia estadísticamente significativa entre ellas; si así fuere, el modelo diagnóstico o el método con mayor área bajo la curva será el preferido. Comentario final ___________ Más allá de todo lo explicado hay una cuestión que es fundamental: la decisión de la elección sobre el mejor punto de corte para diagnosticar depende siempre de cuán dispuestos estamos a sacrificar especificidad en tren de ganar sensibilidad, y 168 a la inversa. Si nos referimos a una patología cuyo diagnóstico tardío o falta de diagnóstico se traduce en un evento grave (retraso intelectual, alteraciones irreversibles, muerte) pretenderemos una sensibilidad alta, no toleraremos FN. Y ello sobre todo si las medidas que pueden tomarse son efectivas y poco costosas. Si el diagnóstico – Módulo 7 – Fascículo Nº 1 – 2011 implica como contrapartida medidas muy costosas en términos médicos o económicos, buscaremos estar seguros del diagnóstico: alta especificidad, poca tolerancia para los FP. No hay un “número mágico” para la sensibilidad o la especificidad; sólo queda ejercer el arte de la medicina y el del sentido común.