Máster Oficial en Estadística Aplicada Universidad de Granada ______________________________________________________________________ ¿Cuánto se gana en la precisión del diagnóstico si se combinan estos test? Una solución estadística a un problema clínico. ______________________________________________________________________ Proyecto Fin de Máster Luis Alexys Pinzón Castro Tutor: Juan de Dios Luna del Castillo Septiembre de 2014 DEPARTAMENTO DE ESTADISTICA E INVESTIGACION OPERATIVA 2 Dedicado a:. La paciencia infinita de mí pequeña y hermosa familia, ya que me he perdido de muchas risas y travesuras de Nicolas Alejandro, de sus tareas e improvisadas travesuras, de las conversaciones pendientes con mi madre Gilma y de la agradable compañía de mi esposa Marisol, a ellos con todo mi amor. A la gloria infinita del Gran Arquitecto del Universo al cual le ofrezco disculpas por ocupar mi mente y cambiar por instantes la belleza de su creación y la ayuda a mis congéneres por el mundo fascinante de la estadística. El sabrá perdonarme y sabrá mantener en el oriente eterno a mi padre Luis Alfonso, ser humano del que aprendí a ser mejor hombre. 3 A mi padre, In Memoriam 4 AGRADECIMIENTOS En el ambiente virtual de la red, la UGR, nos ha planteado un método de aprendizaje. Detrás de la estructura del andamiaje de esta plataforma existen seres humanos que con dedicación, profesionalismo altruismo realizaron una propuesta de la cual han resultado sucesos muy interesantes, a ellos que al otro lado de la red estuvieron pendientes de todo el desarrollo de estas actividades, muchas gracias excelentes docentes. Desde el inicio de mi labor como docente de estadística, en lecturas previas visualice las riquezas de la información y aplicabilidad encontradas en la bioestadística. El panorama de investigación propuesta por esta área del conocimiento, abordan muchos contextos cuantitativos y cualitativos aportantes a la clínica. Por este hecho expreso un inmenso agradecimiento al doctor Juan de Dios Luna del Castillo, quien me acoge con su experticia y bondad brindándome la más gentil y oportuna asesoría que he tenido en mi transcurrir académico, así aportó todo de sí en la construcción de esta experiencia, muchas gracias Doctor. En Colombia existen personas que en mi ambiente académico y contractual me han propiciado espacios que facilitaron mi labor de estudiante. La decana de mi facultad en la Universidad, mis jefes y compañeros de la Alcaldía de Villavicencio, a ellos muchas gracias por su apoyo. Finalmente existen otros apoyos que motivan a continuar con estos proyectos que muchas veces se tornan complicados, a mis amigos, hermanas, estudiantes y en general a todos a quienes aportaron en este proceso de formación, muchas gracias. 5 Índice RESUMEN .................................................................... ¡Error! Marcador no definido. LISTADO DE TABLAS ................................................................................................. 9 LISTADO DE FIGURAS ............................................................................................. 10 CAPITULO I TEST DICOTÓMICOS Y TEST CUANTITATIVOS ..................... 11 1.1 Introducción a las medidas de precisión de un test diagnóstico ................ 11 1.2 Tests diagnósticos binarios. ........................................................................... 13 1.2.1 Medidas de precisión de un test diagnóstico. ....................................... 14 1.2.2 Parámetros que no dependen de la prevalencia de la enfermedad. ... 15 1.2.2.1 Sensibilidad y especificidad. ............................................................... 16 1.2.2.2 Razones de verosimilitudes (Likelihood Ratio). ............................... 19 1.2.2.3 La razón del producto cruzado diagnóstica. .................................... 21 1.2.2.4 Índice de Youden................................................................................. 22 1.2.3 Parámetros que dependen de la prevalencia de la enfermedad. ........ 23 1.2.3.1 1.3 Valores predictivos.............................................................................. 23 Tests diagnósticos cuantitativos. ............................................................... 26 1.3.1 La curva ROC para tests diagnósticos continuos. ............................... 27 1.3.2 Algunas propiedades matemáticas de la curva ROC. ......................... 28 1.3.2.1 Propiedad 1. ......................................................................................... 28 1.3.2.2 Propiedad 2. ......................................................................................... 28 1.3.2.3 Propiedad 3. ......................................................................................... 29 1.3.2.4 Propiedad 4. ......................................................................................... 29 1.3.2.5 Propiedad 5. ......................................................................................... 30 1.3.2.6 Propiedad 6. ......................................................................................... 30 1.3.2.7 Propiedad 7. ......................................................................................... 30 1.3.3 Ventajas de la curva COR ..................................................................... 31 1.3.4 Área bajo la curva ROC como medida de resumen ............................ 32 CAPITULO II EL PLANTEAMIENTO DE LOS PROBLEMAS A RESOLVER Y EL OBJETIVO GENERAL DE ESTE TRABAJO. ................................................. 36 CAPITULO III LA COMBINACIÓN DE TESTS DIAGNÓSTICOS BINARIOS 38 3.1 Distintas formas de combinación de dos tests diagnósticos binarios y su influencia en la sensibilidad y especificidad del test. ............................................. 38 3.1.1 Combinaciones de tests diagnósticos..................................................... 38 3.1.2 Efecto de la combinación en la sensibilidad y la especificidad ........... 39 3.1.3 Efectos sobre los valores predictivos ..................................................... 40 3.1.4 Efectos sobre las razones de verosimilitud ........................................... 41 3.1.5 Estimación puntual y por intervalos de las razones de verosimilitudes de tests individuales, de sus combinaciones y de las diferencias entre tests individuales y tests combinados........................................................................... 44 3.1.5.1 Estimación puntual y por intervalos de las razones de verosimilitud para test individuales............................................................................................ 44 3.1.5.2 de test Estimación puntual de razones de verosimilitud para combinación 46 3.1.5.3 Estimación por intervalos de razones de verosimilitud para combinación de test .............................................................................................. 47 3.2 Un problema de combinación de test diagnósticos binarios con las soluciones expuestas. Recomendaciones generales. ............................................... 50 3.2.1 Uso de las pruebas pap y vph en combinación (pap ∪ 𝑽𝑷𝑯) ............ 50 3.2.2 Uso de la ecografía Doppler (DU) y la neumoplastimografía ocular (OPG) combinadas o por separado para el diagnóstico de la estenosis carotidea grave. ..................................................................................................... 56 3.2.3 ¿Debería complementarse el uso de la tira radiactiva para la determinación de la infección urinaria con una tinción de GRAM para conseguir un aumento de la precisión diagnóstica? Ese resultado ¿es el mismo en niños que en adultos? ...................................................................................... 60 CAPITULO IV PROTOCOLO DE ANÁLISIS DE LOS PROBLEMAS PRESENTADOS ........................................................................................................... 64 CAPITULO V REFERENTES BIBLIOGRAFICOS ............................................... 68 APENDICE ................................................................................................................... 69 Apéndice A Uso de las pruebas pap y vph en combinación (pap ∪ 𝑽𝑷𝑯) ........ 69 A1. Resultados del test Pap para HSIL .............................................................. 69 A2. Resultados del test pap para LSIL o HSIL ................................................. 69 A3. Resultados del test HPV para HSIL............................................................. 70 A4. Resultados del test HPV para HSIL O LSIL .............................................. 70 A5. Resultados del test PAP O HPV para HSIL ................................................ 71 A 6. Resultados del test PAP O HPV para HSIL o LSIL.................................. 71 Apéndice B Uso de la ecografía Doppler (DU) y la neumoplastimografía ocular (OPG) combinadas o por separado para el diagnóstico de la estenosis carotidea grave........................................................................................................................... 72 Apéndice C ¿Debería complementarse el uso de la tira radiactiva para la determinación de la infección urinaria con una tinción de GRAM para conseguir un aumento de la precisión diagnóstica? Ese resultado ¿es el mismo en niños que en adultos?.......................................................................................................... 73 7 8 LISTADO DE TABLAS Tabla 1Clasificacion de los resultados de un test diagnostico binario para los estados de la enfermedad ................................................................................................................. 15 Tabla 2Tabla de probabilidad de los datos ..................................................................... 17 Tabla 3 probabilidades de cada uno de los tests y de sus combinaciones en serie o en paralelo para el caso de dos tests diagnósticos binarios, A y B que sean condicionalmente independientes. .................................................................................. 46 Tabla 4 La citología de repetición clasificada por la prueba de Papanicolau (Papilla) y HPV prueba resultados dentro de categorías de la enfermedad (n=364). ...................... 51 Tabla 5 Estimación de la sensibilidad, especificidad, razones de verosimilitud y odds ratio para repetición la citología (Pap), HPV y la prueba combinada P ∪H en el umbral de cada enfermedad. ....................................................................................................... 51 Tabla 6 Datos originales apartado 3 Utility of combining two diagnostic test, Browiak Dale y Reed JF en 1991, pag 174 ................................................................................... 57 Tabla 7 Resultados reorganizados según tabla B1 Assessing the gain in diagnostic performance when combining two diagnostic tests Petra Macaskill y Colls, Statist. Med. 2002, pag 2543 ............................................................................................................... 57 Tabla 8 Estimación de la sensibilidad, especificidad, razones de verosimilitud y odds ratio para DU, OPG y la prueba combinada DU ∪ OPG en el umbral de la enfermedad. ........................................................................................................................................ 58 Tabla 9 Datos de los tests para la determinación de la Infección urinaria. Niños y Adultos............................................................................................................................ 60 9 LISTADO DE FIGURAS Figura 1Grafica relacional en SPSS valores predictivos para diferentes prevalencias en una resonancia magnética y una mamografía. ............................................................... 25 Figura 2Curva COR ........................................................................................................ 27 Figura 3Diferentes curvas ROC correspondientes a test diagnósticos de diferente comportamiento .............................................................................................................. 29 Figura 4Regiones críticas para razones de verosimilitud usando las: (a) regla 'positivo'; (b) ' regla de ambos positivo'. ......................................................................................... 43 Figura 5 Razones de verosimilitud por la sola prueba (Pap) y combinado prueba P ∪H cuando: (a) enfermedad = LSIL o HSIL; (b) la enfermedad = HSIL. ............................ 52 Figura 6 Razones de verosimilitud por la sola prueba (VPH) y combinado prueba P ∪H cuando: (a) enfermedad = LSIL o HSIL; (b) la enfermedad = HSIL ............................. 53 Figura 7 Razones de verosimilitud por la sola prueba (DU) y combinado prueba DU∪OPG (a); (b) para la sola prueba (OPG) y combinado DU∪OPG (la enfermedad = estenosis grave)............................................................................................................... 58 10 CAPITULO I TEST DICOTÓMICOS Y TEST CUANTITATIVOS 1.1 Introducción a las medidas de precisión de un test diagnóstico Un test diagnóstico es un procedimiento que tiene por objeto emitir un juicio sobre la presencia o no de una cierta enfermedad psicofísica en un sujeto; sin embargo este procedimiento puede manifestar presencia de una enfermedad que no existe (falso positivo) o ausencia de una enfermedad que si existe (falso negativo), de manera que es posible que este sujeto a algún tipo de error. En primer lugar, las medidas de precisión de los test diagnósticos deben tener una capacidad inherente para detectar correctamente un estado cuando, en realidad, está presente y descartar correctamente una afección cuando verdaderamente está ausente. Estos atributos se consideran fundamentales para los mismos test. Que no se vean fuertemente alterados con diferentes muestras de pacientes con diferentes tasas de prevalencia de la enfermedad. Es importante reconocer, sin embargo, que estos atributos pueden cambiar algo con el paso del tiempo y de la población en las especificaciones técnicas de su evaluación, la interpretación clínica del test y el cambio en las características en la enfermedad del paciente. La exactitud de una prueba se mide comparando los resultados de pruebas con el estado de condición verdadero del paciente. Se asume que el estado de condición verdadero sea uno de dos estados mutuamente excluyentes: "la condición está presente" o "la condición 11 es ausente". Por ejemplo la presencia de Hepatitis C o no en un grupo de empleados en alguna empresa. Los tests diagnósticos son muy usados en la práctica médica en general, se suelen usar en la investigación de una población específica para evidenciar la presencia de una enfermedad y confirmar o desmentir el resultado de un diagnóstico provisional de un paciente. La interpretación de un test diagnóstico depende tanto de la habilidad que tiene el test para discriminar a los individuos enfermos de los sanos como de las características particulares de cada sujeto y del ambiente en el que se aplica el test (debe ser propicio); así mismo, un test es útil si permite diferenciar entre distintas enfermedades o condiciones clínicas, así como entre la condición de sano y la de enfermo. En las aplicaciones de los tests diagnósticos, un argumento indispensable es evaluar su exactitud, teniendo en cuenta que la exactitud de un método es la cualidad que tiene ese método de medir realmente lo que dice que mide y eso, generalmente no hace referencia al diseño del estudio ni a la ausencia de sesgos debidos al diseño. Una vez definida la exactitud del estudio, se debe analizar la correcta interpretación de los resultados presentados en ellos, ya que es posible que un estudio cumpla con todas las características que garanticen su validez, pero, si los resultados muestran que carece de capacidad de discriminar entre las condiciones de interés, éste no tendrá utilidad. Debido a la importancia de los tests diagnósticos en la práctica científica surge el requerimiento de medir la precisión con la que el test discrimina a los sujetos enfermos de los sanos. Para evaluar la exactitud de un test diagnóstico es necesario tener a mano un estimador insesgado (Jimenez, 2008) de la exactitud del test, para tener acceso a este estimador se requiere poder determinar el estado de salud verdadero de cada paciente, independientemente del resultado del test. El procedimiento por el que se conoce el estado de salud verdadero de cada paciente es el “gold estándar”, que se supone es una prueba diagnóstica determinante, por ejemplo una biopsia o una evaluación clínica. El Gold estándar, es, por lo tanto, una técnica diagnóstica que define la presencia de la condición con la mayor certeza conocida, determina el estado de condición verdadero (el Gold estándar es una fuente de información, completamente diferente e independiente de 12 la prueba o pruebas bajo la evaluación), que muestra el estado de condición verdadero del paciente. Los patrones oro diferentes se usan para pruebas y aplicaciones diferentes; algunos de los ejemplos comunes son informes de la autopsia, conclusiones de la cirugía, resultados de la patología de especímenes de la biopsia y los resultados de otras pruebas diagnósticas que tienen perfecta o están tan cerca de la exactitud perfecta que nos parece tal. La clasificación de los tests diagnósticos se puede hacer en tres grandes grupos: Test diagnósticos binarios: según si el resultado del test es dicotómico (por ejemplo dos categorías, positivo o negativo), es decir, el sujeto presenta o no la enfermedad, por ejemplo presenta o no Hepatitis B. Test diagnósticos ordinales: según si el resultado es cualitativo y que sus valores se puedan ordenar (por ejemplo una clasificación de la frecuencia de un comportamiento muy utilizada en psicología como: nunca, pocas veces, alguna vez y muchas veces) y por último, Test diagnósticos cuantitativos: Según si el resultado se puede definir en una escala de valores continua(o discreta) en un intervalo (o continuos) (por ejemplo la medición del índice de placa bacteriana). En la práctica, los tests más comunes son los binarios porque su manejo es más sencillo. En el presente estudio nos centraremos en la posible ganancia de precisión del diagnóstico si se combinan dos tests diagnósticos. 1.2 Tests diagnósticos binarios. Como se ha mencionado en la introducción, los test diagnósticos binarios son aquellos tests en los que el resultado muestra la presencia de la enfermedad o la ausencia de la misma (dicotómicos). Con frecuencia estos tests presentan un resultado con un nivel de incertidumbre en el que no se puede decir si el test es positivo o negativo, lo que hace de hecho que no sean realmente tests binarios; sin embargo en la práctica se refuerza a que el resultado sea binario repitiendo el test hasta que se alcanza un resultado positivo o negativo. 13 En este apartado se describen diversas medidas de la precisión de los test diagnósticos binarios. En primer lugar, introduciendo medidas de precisión intrínseca que miden la capacidad inherente para detectar correctamente un estado cuando, en realidad, está presente y en descartar correctamente una afección cuando verdaderamente está ausente. Estos atributos se consideran fundamentales para los mismos test, que no cambien con diferentes muestras de pacientes con diferentes tasas de prevalencia de la enfermedad. Es importante reconocer, sin embargo, que estos atributos pueden cambiar algo con el paso del tiempo y de la población en las especificaciones técnicas de la máquina de imágenes, la interpretación clínica del test y el cambio en las características del paciente (P.ej. severidad de la enfermedad). 1.2.1 Medidas de precisión de un test diagnóstico. Se considerara en lo que sigue una enfermedad tal que la presentan o no los sujetos de una población. Supóngase que está a disposición un gold estándar para diagnosticar la enfermedad. Así, se dice que, sea D=1 el suceso que denota que un sujeto de la población presenta la enfermedad y D=0 el suceso que denota que un sujeto no presenta la enfermedad. A la probabilidad de que un sujeto de la población tenga la enfermedad se le denomina prevalencia de la enfermedad en la población y se denota por P(D=1). Considérese un test diagnóstico binario, con los resultados: positivo T=1 y negativo T=0. Si la prueba tiene resultado positivo se puede considerar que el sujeto tiene la enfermedad y si la prueba tiene resultado negativo se considera que el sujeto no tiene la enfermedad. No se puede olvidar que un test diagnóstico puede equivocarse por lo que se tienen determinada probabilidad de acertar y otra de fallar en el diagnóstico de la enfermedad usando el test. Los resultados del test diagnóstico se pueden clasificar como verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos (FP) o falsos negativos (FN). Un verdadero positivo ocurre cuando un sujeto enfermo es correctamente clasificado como positivo en el resultado del test, un verdadero negativo ocurre cuando un sujeto no afectado por la enfermedad tiene un resultado negativo en el test diagnóstico, un falso positivo ocurre cuando un sujeto no afectado por la enfermedad tiene un resultado positivo en el test diagnóstico y un falso negativo ocurre cuando un sujeto afectado por la enfermedad 14 obtiene un resultado negativo en el test diagnóstico. Por lo tanto una prueba diagnóstica puede tener dos tipos de errores, los errores falsos positivos y los errores falsos negativos. La Tabla 1 muestra la clasificación de los resultados de la prueba diagnóstica para los distintos estados de enfermedad, en el formato clásico de una tabla 2x2. Tabla 1Clasificacion de los resultados de un test diagnostico binario para los estados de la enfermedad Resultado del test diagnostico binario Estado de la enfermedad T=1 T=0 D=1 Positivo verdadero (TP) Negativo Falso (FN) D=0 Positivo Falso (FP) Negativo verdadero (TN) A partir de esta tabla se presentaran y definirán todos los parámetros de los tests diagnósticos binarios, tanto en el caso en el que dependan de la prevalencia de la enfermedad como en el caso en el que no dependan de la prevalencia de la enfermedad. De esta manera se dividirá nuestro análisis en presentar las medidas de precisión de un test diagnostico cuando dependen de la prevalencia de la enfermedad y cuando no. 1.2.2 Parámetros que no dependen de la prevalencia de la enfermedad. Se estudiará primero aquellos parámetros que, condicionando convenientemente, no dependen de la población en la que se apliquen, siendo características que sólo dependen del test diagnóstico, definiendo de manera intrínseca o la calidad del mismo, es decir su precisión o lo informativo que resulta ese test. La sensibilidad y especificidad son medidas de precisión en el diagnóstico que no se ven afectadas por la prevalencia de la enfermedad. 15 1.2.2.1 Sensibilidad y especificidad. En la literatura médica un test diagnóstico (Montero, 2010) es normalmente medido por las probabilidades condicionadas de clasificar correctamente un paciente enfermo o no enfermo. Estas probabilidades son la sensibilidad y especificidad. Sus definiciones son resumidas en la tabla 2, en donde las filas resumen los datos de acuerdo con el auténtico estado de los sujetos y las columnas resumen los resultados de la prueba (subrayando que la sensibilidad y la especificidad se calculan a partir de las dos diferentes submuestras de sujetos), nos indican el verdadero estado de la condición en el indicador variable D, donde, como ya se ha mencionado D =1 (presenta la enfermedad), el estado está presente y D=0 si el estado está ausente (no presenta la enfermedad). Los resultados del test diagnóstico que indican, de igual manera que el estado está presente se llaman positivos; los que indican que el estado está ausente se llama negativo. Nos indican resultados positivos de la prueba como T=1 (el sujeto presenta la enfermedad), resultados negativos de la prueba T=0 (el sujeto no presenta la enfermedad). El número total de sujetos con y sin la condición se notan, respectivamente con n1 y n0 , el número total de sujetos, con la enfermedad, que dan positivo en la prueba y negativo se notan, respectivamente con TP y FN respectivamente; y el número total de sujetos sin el estado en donde el resultado sea positivo y negativo, respectivamente FP y TN. El número total de pacientes en el grupo de estudio, N es igual a N = n1 + no =TP+FN+FP+TN. Definición 1.1. La sensibilidad (Se) de un test diagnóstico es su capacidad para detectar la condición cuando realmente está presente. Se escribe la sensibilidad como Se = P(T = 1|D = 1) que se puede leer así: La sensibilidad (Se) es la probabilidad que el resultado del test es positivo (T=1), dado que la condición (enfermedad) está presente (D = 1). Esto es, La estimación puntual de la sensibilidad, a partir de los datos de la tabla 2 sería: ̂ = TP/n1 Se (1.1) 16 Definición 1.2. La especificidad (Sp) de un test diagnóstico es su capacidad para excluir la enfermedad en los pacientes sin la condición. Se escribe especificidad como Sp = P(𝑇 = 0⁄𝐷 = 0), que se puede leer así: La especificidad (Sp) es la probabilidad que el resultado del test es negativo (T=0), dado que la condición (enfermedad) está ausente (D=0). Esto es, La estimación puntual de la especificidad, a partir de los datos de la tabla 2 sería: 𝑠̂𝑝 = 𝑇𝑁⁄𝑛0 (1.2) Tabla 2Tabla de probabilidad de los datos Resultado del test diagnostico binario Estado de la enfermedad Presencia( D=1) Ausencia ( D=0) Positivo (T=1) Se = TP n1 Positivo Falso (FP=FP/no ) Negativo ( T=0) Total Negativo Falso (FN=FN/n1 ) Sp = TN no n1 n0 Con las definiciones anteriores, se evidencia, que tanto la sensibilidad como la especificidad de un test diagnóstico son probabilidades de aciertos. La suma de las probabilidades de un verdadero positivo y de un falso negativo es la unidad. P(T = 1/D = 1) + P(𝑇 = 0⁄𝐷 = 0) = 1. De manera análoga, P(𝑇 = 0⁄𝐷 = 0) + P(𝑇 = 1⁄𝐷 = 0) = 1. Un test diagnóstico es esencialmente un procedimiento que tiene una probabilidad distinta de 1 de acertar con el verdadero estado de la enfermedad tanto si el sujeto está enfermo como si el sujeto está sano. Además no es ningún disparate pensar que todo tests diagnóstico tiene una sensibilidad y una especificidad superior a 0 ya que de no ser así estaríamos en la presencia de un tests diagnóstico inútil lo que, no se daría en la práctica. Por tanto es claro que 0< Sp, Se<1 y 17 eso nos acompañará a partir de ahora. De hecho se debería exigir que por lo menos la sensibilidad o la especificidad fueran superiores a ½, de tal manera que como mínimo se comportara como el lanzamiento de una moneda al aire para decidir el verdadero estado del paciente. Por otro lado, es claro que tanto la sensibilidad como la especificidad no dependen de la prevalencia de la enfermedad que se esté estudiando y desde ese punto de vista se dice, que no dependen de la población en la que se aplican sino sólo de la prueba. Sin embargo, las características propias de la prueba pueden hacer que la sensibilidad y la especificidad dependan de las características de la población. Un ejemplo que se presenta con mucha frecuencia, es el de los ultrasonidos como tests diagnóstico de la apendicitis aguda que tiene una menor sensibilidad si se aplica en niños que si se aplica en adultos, siendo la prevalencia de la apendicitis aguda muy parecida en poblaciones de adultos y en poblaciones de niños. Resumiendo la sensibilidad y la especificidad miden la exactitud y sólo dependen de características intrínsecas de la misma. Como nota complementaria se tiene que si un test es muy sensible, un resultado negativo descarta la enfermedad; así mismo, si un test es muy específico un resultado positivo confirma la enfermedad. Por otro lado si bien la sensibilidad y especificidad no varían con la prevalencia de la enfermedad (en general), no presentan la probabilidad que tiene un paciente de presentar la enfermedad. Los valores predictivos muestran la probabilidad que tiene un sujeto de presentar la enfermedad, pero varían dependiendo de la prevalencia de la misma. Otra desventaja de utilizar estas medidas de exactitud es que para calcularlas, necesariamente se requiere utilizar valores binarios (si o no, positivo o negativo, presente o ausente), lo que limita su capacidad diagnóstica. A continuación se muestran otras formas de expresar la exactitud del test, que intentan eliminar las limitaciones que se acaban de presentar. 18 1.2.2.2 Razones de verosimilitudes (Likelihood Ratio). Frente a medidas de exactitud del test diagnóstico como las que se describieron en párrafos anteriores, existen unas medidas que caracterizan algo adicional de los mismos, esto es lo informativo y que a su vez son más usadas; éstas medidas son la razón de verosimilitud positiva y la razón de verosimilitud negativa. Definición 1.3. La razón de verosimilitud es el cociente de dos probabilidades, la probabilidad de un resultado de la prueba particular en pacientes con presencia de la enfermedad entre la probabilidad del resultado de la prueba en pacientes sin la enfermedad. Se denota la razón de verosimilitudes como LR. Debido a que la exactitud de un test tiene dos dimensiones se tiene la razón de verosimilitud para un test positivo, LR+ (que tan probable es encontrar el test positivo en alguien enfermo respecto a alguien sano) y la razón de verosimilitud para una test negativo LR− (que tan probable es encontrar un test negativo en alguien enfermo respecto a alguien sano). LR+ =P(𝑇 = 1⁄𝐷 = 1)⁄P(𝑇 = 1⁄𝐷 = 0) = 𝑆𝑒 ⁄( 1 − Sp ) (1.3) LR− = 𝑃 (𝑇 = 0|𝐷 = 1)⁄𝑃(𝑇 = 0|𝐷 = 0) = 1 − 𝑆𝑒 ⁄𝑆𝑝 (1.4) Las razones de verisimilitud expresan una cifra que va desde 0 hasta ∞. Así, una prueba inútil, que no tiene alguna relación con el estado de la enfermedad tiene LRs=1. Por el contrario una prueba perfecta, en la que para cada T 1 entonces D 1 y en cada T 0 entonces D 0 con probabilidad uno, tiene parámetros de 𝐿𝑅+= ∞ y 𝐿𝑅 −= 0. Una LR > 1 indica que el resultado de prueba es más probable en pacientes con la enfermedad que en pacientes sin la enfermedad; y una LR < 1 indica que el resultado de prueba es más probable en pacientes sin la condición. Una característica importante de las LRs es que cuantifican el aumento en el conocimiento sobre la presencia de la enfermedad, que es adquirido a través de la prueba diagnóstica. 19 El número de veces que es mayor la probabilidad de que un individuo tenga la enfermedad frente a que no la tenga antes de que la prueba sea llevada a cabo, es decir, en ausencia del resultado del test es: Odds Pre-test=P(D = 1)⁄P(D = 0) (1.5) Después de llevar a cabo la prueba esta razón se transforman con el conocimiento de los resultados de ésta, entonces es: Odds Post-test=P(D = 1⁄T = 1)⁄P(D = 0⁄T = 1) = P(D = 1⁄T = 0)⁄P(D = 0⁄T = 0) (1.6) Las razones de verosimilitud relacionan estas dos razones. Odds Post-test (T = 1)= LR+ x (Odds Pre-test) (1.7) Odds Post-test (T = 0)= LR− x (Odds Pre-test) (1.8) Para el caso de test positivo: Post-test (T = 1)=P(D = 1|T = 1)⁄P(D = 0|T = 1)= (P(D = 1|T = 1)⁄P(T = 1))⁄(P(D = 0|T = 1)⁄P(T = 1)) (1.9) Es decir: 𝑃(𝑇 = 1⁄𝐷 = 1)𝑃(𝐷 = 1)⁄𝑃(𝑇 = 1⁄𝐷 = 0)𝑃 (𝐷 = 0) = 𝐿𝑅 + ∗ (𝑃(𝐷 = 1))⁄(𝑃(𝐷 = 0)) = LR+ x Pre-test (1.10) Por lo tanto, los parámetros (LR+, LR-) cuantifican el cambio en las probabilidades de enfermedad obtenido por el conocimiento de los resultados de la prueba diagnóstica. Es claro, mirando las expresiones anteriores, que la exigencia que hacíamos antes de tests no degenerados, sensibilidad y especificidad estrictamente entre 0 y 1, sigue siendo válida ahora. Lo lógico es que en un test diagnóstico ocurra que P(T=1|D=1) > P(T=1|D=0) y por tanto LR+ > 1, indicando un aporte mayor de información del test para un resultado positivo conforme más separado esté de 1. De la misma manera en un test diagnóstico lo lógico es que P(T=0|D=1) < P(T=0|D=0) y de ahí ocurrirá que LR¯ < 1 siendo más informativo el test con respecto al negativo conforme este más alejado de 1 siendo inferior a él. Tanto una medida como la otra reflejan muy bien los aportes del test cuando da positivo y cuando da negativo a la afirmación o al descarte de la enfermedad. 20 Una ventaja de la LR, es que se puede obtener un LR diferente para cada valor del test, o para un rango de valores. Por ejemplo, si se tiene una determinada enfermedad, en que el test que la detecta tiene un valor de 0 en sujetos sanos, y a medida que este valor aumenta, la probabilidad de tener la enfermedad va aumentando; entonces, se puede calcular el LR para rangos diferentes y así estimar cual será el aumento en la probabilidad con valores diferentes. “Así, un valor del test entre 0 y 10 podría tener un LR de 2, lo cual aumentaría un poco la probabilidad, un valor entre 11-20 tendría un LR mayor (por ejemplo un LR de 5), y por tanto aumentaría un poco más la probabilidad. Finalmente, un valor de 50 tendría un LR tan alto (10 o más) que en un número muy alto de casos confirmaría la enfermedad. No es posible hacer esto con la sensibilidad y la especificidad” (Salech y Cols, 2008). Los LR permiten, así, resumir en un solo valor, dos parámetros de los test diagnósticos, la sensibilidad y la especificidad, y dado que su cálculo se hace a partir de ellos, su valor es independiente de la prevalencia de la condición en la muestra seleccionada. 1.2.2.3 La razón del producto cruzado diagnóstica. La razón del producto cruzado (odds ratio) es una medida de asociación entre dos caracteres de tipo binario que es estimable en cualquier diseño. Aunque no es una medida demasiado frecuente en los tests diagnósticos a veces se usa la razón del producto cruzado diagnóstica (DOR) que se define como: DOR = 𝐿𝑅 +⁄𝐿𝑅− (1.11) De esta manera, la razón del producto cruzado mezcla las dos formas de exactitud de un tests diagnóstico, la de la exactitud del positivo y la del negativo, aunque no es muy usada ya que puede tomar valores grandes cuando o LR + es grande o cuando LR¯ es pequeña, siendo características muy diferentes la una de la otra lo que nos obligaría a estudiar, por separado, las razones de verosimilitudes. 21 1.2.2.4 Índice de Youden. Una medida conjunta de exactitud de un test diagnóstico fue propuesta por W.J. Youden en 1950. Definición 1.4. Se define el Índice de Youden como la suma de la sensibilidad y la especificidad meno uno, es decir: J = Se + Sp − 1 = 1 − [P(𝑇 = 1⁄𝐷 = 0) + P(𝑇 = 0⁄𝐷 = 1)]. (1.12) Los valores del índice de Youden varían entre -1 y 1, refleja la diferencia entre la tasa de verdaderos positivos y la de falsos positivos. Un buen test debe tener alta esta diferencia. Teóricamente es igual a 1 solo cuando el test diagnóstico es perfecto, o sea, cuando Se + Sp = 2, de modo que también puede decirse que cuanto más cercano a 1, mejor es el test diagnóstico que se está evaluando. El índice de Youden, J, tiene la ventaja de no estar afectado por la prevalencia, y es preferido por la combinación de los sencillos valores de la sensibilidad y la especificidad (Feinstein, 1975). Sin embargo, tiene la desventaja de que, al resultar de la combinación de los valores de sensibilidad y especificidad, se pierde la idea de si el test diagnóstico es bueno en sensibilidad o especificidad. Feinstein (Feinstein, 1975) fundamenta esta afirmación mediante un ejemplo: si el índice de Youden tiene un valor de 0,55, puede ser que la sensibilidad sea de 0,95 y la especificidad de 0,60, o al contrario. Cuando el test diagnóstico no está asociado con la enfermedad ocurre, como se ha mencionado en párrafos anteriores, que la suma de la sensibilidad y la especificidad vale 1 lo que indica que J será igual a cero. Es claro que cuando la suma de la sensibilidad y de la especificidad sea inferior a 1 estaríamos en una situación en la que el tests diagnóstico está relacionado de manera negativa con la enfermedad lo qué no es común de encontrar en la práctica. Por el contrario la situación común es que la suma de la sensibilidad de un test sea mayor que 1 por lo que J tomará un valor mayor que cero siendo como máximo 1, caso en el que la sensibilidad y la especificidad es mayor que 1. 22 Una de las interpretaciones del índice de Youden que lo hace muy atractivo es la siguiente: Considérense las personas con la enfermedad, la ganancia neta en certidumbre que provoca el test, en esas personas será P(T=1 | D=1) P(T =0| D=1) , mientras que la misma ganancia en las personas sin la condición, será P(T=0 | D=0) P(T=1 | D=0) ; si se consideran igual de graves los resultados falsos positivos que los resultados falsos negativos, se puede definir la ganancia media en certidumbre que provoca el test como la suma de las dos diferencias anteriores dividida por 2, que se puede demostrar fácilmente que es el índice de Youden. Es decir, el índice de Youden es la ganancia media en certidumbre que provoca el test diagnóstico. El índice de Youden es una medida de exactitud de un test diagnostico binario que no depende de la prevalencia de la enfermedad, sin embargo es de difícil interpretación debido a que es la suma de dos probabilidades de diferentes condicionantes. 1.2.3 Parámetros que dependen de la prevalencia de la enfermedad. Los parámetros que se han presentado de los tests diagnósticos son aquellos que hacen referencia a la calidad diagnóstica intrínseca del test, sin embargo, esos parámetros no ayudan para diagnosticar a un sujeto concreto, no aportan información acerca de la probabilidad de que un sujeto tenga o no la enfermedad, una vez que se haya pasado el tests diagnóstico y se sepa si ha salido positivo o negativo. Son los parámetros, que definen el funcionamiento del test a posteriori una vez que se conozca el resultado del mismo. Este problema es realmente el problema diagnóstico que le importa resolver al médico: a la vista del resultado del test que se puede decir de si el sujeto tiene o no tiene la enfermedad. Los parámetros de este tipo son los que se denominan valores predictivos y son los que se presentan a continuación. 1.2.3.1 Valores predictivos A pesar de que la sensibilidad y la especificidad son consideradas las características operacionales básicas de un test diagnóstico, en la práctica su capacidad de cuantificación de la exactitud médica es muy baja. El médico requiere evaluar la medida en que sus resultados modifican realmente el nivel de conocimiento que se tenía sobre la enfermedad. De manera específica, le interesa identificar la probabilidad de que un sujeto 23 para el que se haya obtenido un resultado positivo, tenga efectivamente la enfermedad; y lo contrario, identificar la probabilidad de que un sujeto con un resultado negativo este efectivamente libre de la enfermedad. Las medidas que responden a estas interrogantes se conocen como valores predictivos. Tomando como referencia la tabla 1.2 se tiene que: Definición 1.5 El valor predictivo de una prueba positiva equivale a la probabilidad condicional de que los sujetos con una prueba positiva tengan realmente la enfermedad. VPP = P(D = 1⁄T = 1)= [𝑃(𝐷 = 1)𝑃(𝑇 = 1⁄𝐷 = 1)]⁄[𝑃(𝐷 = 1)𝑃(𝑇 = 1⁄𝐷 = 1) + 𝑃(𝐷 = 0)𝑃(𝑇 = 1⁄𝐷 = 0)] =P(D=1)S P(D=1)Se e+(1−P(D=1)(1−SP) (1.13) De la expresión (1.13) se observa que el valor predictivo positivo no sólo depende de la calidad del test diagnóstico sino que también depende de la prevalencia de la enfermedad, de la probabilidad de que un sujeto elegido al azar de la población esté enfermo, P(D=1). Además esa dependencia es muy directa en el sentido de que conforme sea mayor la prevalencia mayor será VPP y es fuerte como puede verse en la Figura1 que aparece a continuación. Definición 1.5 Dado que el VPP depende de la prevalencia, es claro cuando la prevalencia es fija depende de la sensibilidad y de la especificidad, pero más de la especificidad que de la sensibilidad. En efecto si se supone que la prevalencia es fija, en ese caso la Se es relevante, pero sea cuál sea esta situación, éste queda condicionado por la prevalencia. Sin embargo el efecto de la Sp es muy fuerte, pues si esta es muy grande la cantidad 1Sp será muy pequeña y el producto (1-P(D=1))(1-Sp) será muy pequeño tendiente a cero, así el cociente VPP será muy cercano a 1. Por tanto en el valor predictivo positivo intervienen la sensibilidad y la especificidad del test, pero el efecto de ésta es mucho más fuerte que el de la sensibilidad. 24 Valores predictivos Figura 1Grafica relacional en SPSS valores predictivos para diferentes prevalencias en una resonancia magnética y una mamografía. Prevalencia Para la mamografía (𝑆𝑒 = 0.42 𝑦 𝑆𝑝 = 0.9), para la resonancia magnética (𝑆𝑒 = 0.72 𝑦 𝑆𝑝 = 0.86) Definición 1.6. El valor predictivo de una prueba negativa es la probabilidad condicional de que los individuos con la prueba negativa no tengan realmente la enfermedad. VPN = P(D = 0⁄T = 0) [𝑃(𝐷 = 0)𝑃(𝑇 = 0⁄𝐷 = 0)]⁄[𝑃(𝐷 = 0)𝑃(𝑇 = 0⁄𝐷 = 0) + 𝑃(𝐷 = 1)𝑃(𝑇 = 0⁄𝐷 = 1)] (1−P(D=1))Sp =(1−P(D=1))S p +P(D=1)(1−Se ) De lo anterior se observa que (1.14) el VPN también depende de la prevalencia de la enfermedad, en este caso relacionado con el inverso, cuanto mayor sea la prevalencia menor será el VPN. La dependencia es fuerte como se puede ver en la figura 1. De la misma manera que antes, la sensibilidad y la especificidad del test juegan un papel relevante en el caso del VPN, pero, también como ya se ha visto, el papel más relevante es ahora para la sensibilidad porque si ésta toma valores muy altos, entonces el valor de VPN estará muy cercano a 1 independientemente de los valores de la prevalencia y de Sp. 25 Según la tabla 1.1 se tiene que las estimaciones para los valores predictivos positivo y negativo serian: ̂ = P(D = 1⁄T = 1) = Verdaderos positivos = TP VPP Total positivos TP+FP (1.15), Así mismo, ̂ = P(D = 0⁄T = 0) = Verdaderos negativos = TN VPN Total negativos TN+FN (1.16) 1.3 Tests diagnósticos cuantitativos. Hasta ahora, se han mencionado los tests diagnósticos cuyo resultado es binario, indicándose con cada uno de los dos posibles resultados la presencia o la ausencia de la enfermedad. Sin embargo, en muchas ocasiones el resultado del test diagnóstico es un valor numérico y continua de manera que de acuerdo a que sea mayor (o menor) se comporta como un mayor indicador de la enfermedad; en este caso se está en la presencia de un test cuantitativo (por ejemplo los valores de glucemia en mg/dl) que presenta características particulares en su tratamiento. Para evaluar cómo se comporta el test diagnóstico cuantitativo (continuo) para cada punto de corte seleccionado se utiliza la curva de rendimiento diagnostico ROC, a partir de ella, es factible deducir cuál es el punto de corte Mo óptimo, que es aquel valor de M en el que un pequeño aumento de la sensibilidad ocasiona un incremento excesivo (en términos relativos) de la proporción de falsos positivos, por lo tanto la curva ROC es un gráfico en el que se observan todos los pares (sensibilidad, especificidad) resultantes de la variación continua de los puntos de corte M en todo el rango de resultados observados. En el eje Y de coordenadas se sitúa la sensibilidad (fracción de verdaderos positivos) (definida de acuerdo a la definición 1.1). En el eje X se sitúa la tasa de falsos positivos (1- especificidad), calculada en el subgrupo no afectado. 26 Figura 2Curva COR El manejo de la calidad diagnóstica de un test cuantitativo pasa por el manejo de la curva ROC que coloca la situación en un punto lógico, ya que para cada uno de los infinitos posibles valores de un tests cuantitativo continuo tendría una sensibilidad y una tasa de falsos positivos asignada a él, se dispone ahora de una función de valores que expresa el funcionamiento del test diagnóstico. A continuación se presenta la curva ROC de manera teórica. 1.3.1 La curva ROC para tests diagnósticos continuos. Considérese una variable aleatoria Y, continua, que es el resultado de un test diagnóstico continuo, y se supone, sin pérdida de generalidad, que valores altos de esa variable aleatoria suponen más evidencia de enfermedad que valores pequeños. Se supone, también un punto de corte c de manera que si Y≥c se considera que el tests es positivo y si Y<c el test es negativo. Dentro de ese punto de corte c se tienen dos tasas, una de acierto y otra de fallo: TF(c) = P(Y ≥ c⁄D = 1) y TN(c) = P(Y ≥ c⁄D = 0) (1.17) La primera es la tasa de verdaderos positivos, relacionada con c, pues es la probabilidad de que el test diagnóstico desborde a c en la población de enfermos, mientras que la 27 segunda es la tasa de falsos positivos puesto que es la probabilidad de que el tests diagnóstico esté por encima de c en la población de personas no enfermas. De esta manera, para cada valor diferente de c se puede tener una pareja de valores (TF(c); TN(c)), y a ese conjunto de parejas de valores es a lo que se denomina curva ROC (Receiver Operating Characteristic Curve), es decir la curva ROC es: 𝑅𝑂𝐶 (𝑐 ) = {(TF(c); TN(c)), 𝑐 ∈ (−∞, ∞)} (1.18) Es decir, la curva ROC es la línea que para cada punto de corte c, representa la tasa de falsos positivos contra la sensibilidad Conforme c se hace mayor las dos cantidades tienden a cero y conforme c se hace menor las dos cantidades se hacen mayores, de manera que cuando c=∞ entonces TP(∞)=0 y TN(∞)=0 y cuando c=-∞ entonces TP(∞)=1 y TN(-∞)=1. De aquí que la curva ROC es una función monótona creciente en el cuadrado (0,1). 1.3.2 Algunas propiedades matemáticas de la curva ROC. Dentro del estudio de la curva ROC se enunciaran a continuación una serie de propiedades de la misma. No se presentara la demostración de ellas (se pueden encontrar en el libro de Pepe (2003)). 1.3.2.1 Propiedad 1. En el caso de un tests no informativo, aquél que es independiente del estado de la enfermedad, la curva ROC es la diagonal principal del cuadrado unidad, ya que si el test diagnóstico es independiente de la enfermedad TP(c)=TN(c). Véase la figura 3. 1.1.1.1 Propiedad 2. Un test diagnóstico óptimo es aquél que tiene para todo punto de corte un TP(c)=1 y una TN(c)=0, es decir aquél que tiene una curva ROC sobre el eje de las Y y sobre el eje superior del eje de las X. 28 Figura 3Diferentes curvas ROC correspondientes a test diagnósticos de diferente comportamiento 1.1.1.2 Propiedad 3. Conforme la curva ROC de un test diagnostico esté más cerca del punto de sensibilidad 1 y tasa de falsos positivos de 0, mejor será el test diagnóstico. Si un test diagnóstico tiene mayor valor de la sensibilidad que otro para cualquier valor de la tasa de falsos positivos entonces ese test, es mejor, domina al otro. Ese es el caso del Test B sobre el A de la figura 2. Es decir que, cualitativamente, cuanto más próxima es una curva ROC a la esquina superior izquierda (cuando se presenta la sensibilidad en el eje Y, más alta es la exactitud global de la prueba. De igual manera, si se dibujan en un mismo gráfico las curvas obtenidas con distintas pruebas diagnósticas, aquella que esté situada más hacia arriba y hacia la izquierda tiene mayor exactitud: por simple observación se obtiene una comparación cualitativa (sensibilidad= especificidad =1). 1.1.1.3 Propiedad 4. Los tests cuya curva ROC se sitúa bajo la diagonal principal (de 45º) del cuadrado unidad son tests que funcionan peor que lo haría el azar y por tanto son tests despreciables para 29 su uso diagnóstico, estos test se pueden corregir cambiando el criterio de positividad de “mayor que” a “menor que” o viceversa 1.1.1.4 Propiedad 5. La curva ROC para una variable Y se mantiene invariante para toda transformación monótona creciente de Y en el intervalo (0,1), en donde se observa que: lim 𝑅𝑂𝐶 (𝑡) = 0 𝑡→0 𝑙𝑖𝑚 𝑅𝑂𝐶 (𝑡) = 1 (1.19) 𝑡→1 1.1.1.5 Propiedad 6. Notando por SD=1(y)=P (Y ≥ y⁄D = 1) y SD=0(y) = P(Y ≥ y⁄D = 0) la curva ROC se puede presentar de la siguiente manera: −1 ROC(t) = SD=1 (SD=0 (t)), t ∈ (0,1) (1.20) 1.1.1.6 Propiedad 7. De la expresión 18, se puede deducir que la pendiente de la curva ROC en el punto t es −1 −1 fD=1 (SD=0 (t))⁄fD=0 (SD=0 (t)), dónde fD=1 y fD=0 son las funciones de densidad de Y en −1 la población de enfermos y de sanos respectivamente. Siendo c = (SD=0 (t)) la pendiente seria fD=1 (c)⁄fD=0 (c). La pendiente puede ser leída como la razón de verosimilitudes en el punto de corte c, es decir 𝑃 (𝑌 = 𝑐 ⁄𝐷 = 1)⁄𝑃 (𝑌 = 𝑐 ⁄𝐷 = 0) que será tanto mayor conforme sea mayor c. La curva ROC también sirve para determinar el punto de corte idóneo en la clasificación de sanos y enfermos en términos de coste promedio inferior. El punto de corte óptimo Mo se puede obtener de un modo objetivo; para ello es preciso introducir en el problema el coste de cada una de las acciones que intervienen en el mismo. Una vez definido un punto de corte M, cada individuo de la población es de uno de estos cuatro tipos: (T=1) ∩ (D=0), (T=1) ∩ (D=1) , (T=0) ∩ (D=1) y (T=0) ∩ (D=0) . 30 Cada tipo de individuo conlleva un coste C∝, C1−β , Cβ y C1−α respectivamente; es decir, C∝ (C1−β ) es el coste asociado a tratar a alguien que no (sí) está enfermo, en tanto que Cβ (C1−α ) es el coste asociado a no tratar a alguien que sí (no) está enfermo (usualmente Cβ es alto y C1−α=0). Si se conocen los costes, el coste medio asociado al punto M es: C = P[(T = 1) ∩ (D = 0)]xC∝ + P[(T = 1) ∩ (D = 1)]xC1−β+ P[(T = 0) ∩ (D = 1)xCβ + P[(T = 0) ∩ (D = 0)]xC1−α = P[(D = 0)P(T = 1⁄D = 0)xC∝ + P(D = 1)P(T = 1⁄D = 1)x C1−β + P(D = 1)P(T = 0⁄D = 1)x Cβ + P(D = 0)P(T = 0⁄D = 0)x C1−α = (1 − P(D = 1)) ∝ C∝ + P(1 − β)C1−β + P(D = 1)βCβ + (1 − P(D = 1)(1−∝)C1−α (1.21) Siendo P(D=1) como ya se había mencionado, la prevalencia de la enfermedad. El valor óptimo Mo será aquel que haga mínimo el coste C, pudiendo demostrarse que la pendiente del mismo en la curva ROC es: Ŋ= 1−𝑃(𝐷=1) 𝑃(𝐷=1) C∝ −C1−β 𝑥C β −C1−α = 1−𝑃(𝐷=1) 𝑃(𝐷=1) 𝑥𝑅 (1.22) La cual se puede determinar si se conoce la prevalencia P(D=1) y la razón de la diferencia de costes R. Pero aun siendo una función muy importante, a la hora de valorar tests diagnósticos cuantitativos la curva ROC resulta de un valor limitado para su uso por su extensión y dificultad de manejo por lo que se han buscado medidas de resumen de la misma entre las que resalta el área bajo la curva ROC. 1.1.2 Ventajas de la curva COR Por lo anterior redactado se verifica que las curvas ROC son indicadores de la exactitud diagnóstica y proporcionan un criterio que unificas el procedimiento de evaluación de una prueba, debido a sus aplicaciones. La utilización de las curvas ROC en la evaluación de pruebas diagnósticas presenta las siguientes ventajas: 1. Son fácilmente comprensibles de la capacidad de discriminación de la prueba en todo el rango de los puntos de corte. 2. Son simples, gráficas y sencillas de interpretar de manera visual. 31 3. No requieren de un nivel de decisión particular porque está incluido todo el espectro de puntos de corte. 4. Son independientes de la prevalencia, ya que la sensibilidad y la especificidad se obtienen en distintos subgrupos. Por lo tanto, no es menester tener cuidado para obtener muestras con prevalencia representativa de la población. 5. Proporcionan una comparación visual directa entre pruebas en una escala común. 6. La sensibilidad y la especificidad son accesibles en el gráfico, en contraste con los diagramas de puntos y los histogramas. 1.1.3 Área bajo la curva ROC como medida de resumen Como ya se ha mencionado, La curva ROC es una forma de resumen gráfico conveniente de toda la información que podría ser necesaria para una descripción comprensible de un marcador en todo el rango de sus puntos de corte. Sin embargo, es posible que en determinadas circunstancias un gráfico sea complejo de construir o que sea necesario comparar diferentes clasificadores, por esto la expresión “resúmenes más simples” será más conveniente. Es así, que se ha dedicado un gran espacio científico a la obtención de valores escalares únicos que puedan capturar (resumir) las características esenciales de una curva ROC, de cierta manera se hablara de algunas medidas de resumen, como la media y la varianza, capturan las características esenciales de los conjuntos de datos. La esencia de estos indicadores de resumen es comparar las distribuciones de los valores o puntuaciones del marcador para las poblaciones enferma y no-enferma. Un buen marcador tiende a producir altos valores para la población enferma y bajos valores para la población no-enferma, y será mejor cuanto mayor sea el grado en que estas distribuciones difieren. El área de la curva ROC es una manera de mostrar de forma conjunta la comparación de dos distribuciones. 32 El área bajo la curva ROC, notada generalmente como AUC, se define, claro está, como: 1 AUC = ∫0 ROC(t)dt (1.23) y tiene una interpretación que es la cual la ha hecho de tanta utilidad: el área bajo la curva ROC es igual a la probabilidad de que, elegida una pareja de individuos al azar, uno enfermo y otro sano, el test diagnóstico sea capaz de ordenarlos correctamente; es decir AUC=(P(TD=1) > P(TD=0)) Es obvio, al observar la figura 3, que AUC=1 cuando estamos ante un test ideal que discrimina perfectamente entre sanos y enfermos, que en el caso de un test inútil, aquél que acierta tanto como el azar, AUC=0.5, y que cualquier test aplicable tendrá un área de valor superior a 0.5, ya que los tests despreciables para su uso, aquellos que tienen su curva ROC por debajo de la diagonal principal, tendrán AUC inferiores a 0.5. Este parámetro nos acompañará a partir de ahora como una medida de resumen que permite señalar de manera muy clara el funcionamiento de un test diagnóstico cuantitativo. Hasta el momento se ha presentado la curva ROC y el área bajo ella en términos puramente poblacionales, sin embargo, en la práctica rara vez se conocen los parámetros poblacionales por lo que tienen sentido plantearse problemas típicos de inferencia estadística. Para ello supongamos que tenemos nD=1 individuos enfermos a los que se les ha aplicado el test y, habiéndose obtenido Y(D=1)i , i=1,...,nD=1 observaciones; además nD=0 individuos sanos a los que se les ha aplicado el test Y, habiéndose obtenido Y(D=0)j , j=1,...,nD=0 observaciones. 33 Si se aplica la definición de curva ROC a los datos de las dos muestras podemos tener lo que se denomina curva ROC empírica, de manera que para cada punto de corte, c, podemos tener la estimación puntual de la sensibilidad y de la tasa de fasos positivos: ND=1 ̂ TF(c) = ∑i=1 I(Y(D=1)i ≥ c)⁄nD=1 (1.24) 𝑁𝐷=1 ̂ (𝑐) = ∑ 𝐼(𝑌(𝐷=0)𝑖 ≥ 𝑐)⁄𝑛𝐷=0 𝑇𝑁 𝑖=1 Dónde, el operador I indica el número de observaciones que cumplen la propiedad en el paréntesis del operador. −1 ̂𝑒 (𝑡) = 𝑆̂𝐷=1 (𝑆̂𝐷=0 También se puede presentar la curva ROC empírica como 𝑅𝑂𝐶 (t)). Desde luego que en cada punto de la curva ROC se puede construir un intervalo de confianza de manera que en vez de una curva ROC tendremos unas bandas de curvas ROC, bandas que tienen expresiones complejas y que por tanto no presentaremos aquí pero que usaremos a partir de los cálculos hechos por programas específicos. 34 35 CAPITULO II EL PLANTEAMIENTO DE LOS PROBLEMAS A RESOLVER Y EL OBJETIVO GENERAL DE ESTE TRABAJO. Descritas hasta aquí las características que definen a los tests diagnósticos, tanto cualitativos como cuantitativos, el problema que generalmente se plantea en la clínica es el de determinar la mejora en el diagnóstico por empleo de un nuevo test diagnóstico. Es decir, teniendo un test diagnóstico del que se conocen los parámetros que definen la calidad del mismo cabe preguntarse en qué se mejoran esas prestaciones diagnósticas si se emplea otro test diagnóstico que obviamente no tiene por qué dar el mismo resultado que el anterior. Para el clínico este problema es un problema importante pues no es lo mismo, como se verá en los siguientes apartados, la combinación de diferentes tests diagnósticos provocaran mejoras en unos parámetros y empeoramientos de otros. Dicho esto, el objetivo fundamental de este Trabajo de Fin de Máster es el determinar, en función de diferentes criterios, para qué es bueno combinar dostests diagnósticos y cuando se puede decidir que dicha combinación es beneficiosa en términos generales, todo ello en el caso más común que es el de los tests diagnósticos binarios. 36 37 CAPITULO III LA COMBINACIÓN DE TESTS DIAGNÓSTICOS BINARIOS 3.1 Distintas formas de combinación de dos tests diagnósticos binarios y su influencia en la sensibilidad y especificidad del test. La evaluación de los test puede ser abordada de dos maneras. En la primera, se pueden comparar directamente para evaluar cuál proporciona el mejor rendimiento diagnóstico; en la segunda se puede comparar la información diagnóstica obtenida en ambas pruebas en combinación, en comparación con la información de una sola prueba. La comparación de la exactitud de dos o más test diagnósticos binarios es uno de los problemas más representativos en el estudio de la metodología estadística para el diagnóstico. Los parámetros anteriormente expuestos miden características de los tests diagnósticos que son inamovibles, en el sentido de que el investigador no puede hacer nada por mejorarlas de cara a una disminución de la incertidumbre para el paciente. Por eso es válido, para incrementar y mejorar la certidumbre, por la combinación de varios métodos. La presentación que se hace a continuación involucrará, por comodidad, a dos tests diagnósticos T1 y T2, pero lo dicho en ese caso es extensivo para más de dos tests diagnósticos. 3.1.1 Combinaciones de tests diagnósticos. Las dos maneras clásicas de combinar dos tests diagnósticos binarios son combinarlos en serie (primero se aplica una prueba, y después se indica la otra prueba solo si el sujeto resulta positivo de la anterior. Al final, se considera positivo al sujeto que haya tenido resultados positivos en todas las pruebas y negativos a todos los demás.) o combinarlos en paralelo (Todas se aplican de manera simultánea a la misma muestra de sujetos, de forma que se consideran negativos aquellos sujetos que obtienen resultados negativos en 38 todas las pruebas, y positivos todos los demás). En la combinación en serie se dirá que el individuo tiene la enfermedad cuando ambos tests dan positivo y en la combinación en paralelo se dirá que el sujeto tiene la enfermedad cuando al menos uno de los dos dé positivo. 3.1.2 Efecto de la combinación en la sensibilidad y la especificidad Ahora se revisara el efecto de las combinaciones, supongamos que la sensibilidad y la especificidad del primer test son Se1 y Sp1, mientras que las del segundo test son: Se2 y Sp2 . La sensibilidad del test cuando combinamos los dos test en serie será: 𝑆𝑒 𝑆𝑒𝑟𝑖𝑒 = 𝑃(𝑆𝑒𝑟𝑖𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜⁄𝐷 = 1) = 𝑃(𝑇1 = 1 ∩ 𝑇2 = 1) = = 𝑃(𝑇1 = 1⁄𝐷 = 1) 𝑃(𝑇2 = 1⁄𝐷 = 1) = 𝑆𝑒1 𝑆𝑒2 (3.25) Como se puede observar, la sensibilidad de la combinación en serie es inferior a la de cada uno de los tests porque es el producto de cada una de las dos sensibilidades que son cantidades entre 0 y 1, que será siempre inferior a cada uno de los factores. Hemos de resaltar, antes de seguir, que la segunda igualdad de la expresión (3.25) es cierta sólo si se da independencia condicional; en efecto el suponer que, condicionando en el estado de enfermedad del sujeto, los resultados de ambos tests son independientes, o lo que es lo mismo que el resultado del uno no está condicionado por el resultado del otro, cuando se aplican en el mismo individuo, es lo que nos permite escribir esa igualdad y es una suposición razonable. Eso no significa que los dos tests diagnósticos no estén relacionados, sino que se aplican al mismo sujeto, son tales que el resultado de uno no se ve influenciado por el resultado del otro. Ahora el procedimiento para la especificidad de ambos tests aplicados en serie; para ello parece claro que se considerará que el resultado es negativo cuando al menos uno de los tests dé un resultado negativo. SpSerie = P(Serie negativo⁄D = 0) = P(T1 = 0 ∪ T2 = 0⁄D = 0) = P(T1 = 0⁄D = 0) + P(T2 = 0⁄D = 0) − P(T1 = 0⁄D = 0)P(T2 = 0⁄D = 0) = Sp1 + Sp2 − Sp1 Sp2 (3.26) 39 De la expresión anterior se puede decir que la especificidad en serie siempre será mayor que la especificidad de cada una de sus componentes porque, como se ve en (3.26), es la suma de las especificidades de sus componentes menos una cantidad que siempre es menor que la menor de esas especificidades (debido a que es el producto de las dos especificidades). Se puede decir, por tanto que si ambos tests se conjugan en serie se aumenta la especificidad y se disminuye la sensibilidad, mientras que si conjugan en paralelo se aumenta la sensibilidad y disminuye la especificidad (esto último se puede demostrar muy fácilmente). Por tanto la conjugación booleana de tests diagnósticos binarios permite incrementar la sensibilidad o la especificidad, dependiendo de la manera en que estos sean combinados. Es claro que la combinación de varios tests no tiene por qué ser booleana y que en esos casos se encontrarán soluciones diferentes. 3.1.3 Efectos sobre los valores predictivos Las ventajas y desventajas inherentes entre sensibilidad y especificidad no conduce necesariamente a una relación inversa entre el valor predictivo de una prueba positiva (VPP = P(D = 1⁄T = 1)) y el valor predictivo de una prueba negativa (VPN = P(D = 0⁄T = 0)) los valores predictivos son también conocidos como las probabilidades post-test de la enfermedad en los aspectos positivos de prueba y no las enfermedades en los negativos de la prueba, respectivamente. Una ganancia en el VPP y el VPN de la prueba combinada en relación con las pruebas de componente puede ocurrir si está presente una marcada asimetría en la prueba de dependencia entre los grupos enfermos y no enfermos. La asimetría en la prueba de dependencia surge cuando, por ejemplo, hay una correlación negativa entre los resultados de la prueba en la relación en el sujeto enfermo pero positivo en el no-enfermo. Aunque suponiendo que los resultados entre enfermos y no enfermos presentan independencia condicional es conveniente desde el punto de vista analítico que este bien definida la importancia de tomar la dependencia condicional en cuenta al 40 determinar la ganancia potencial de combinar los resultados de dos pruebas (Macaskill y Colls, 2002). Los VPP y VPN se centran en la probabilidad de la enfermedad dada el resultado de la prueba y así proporcionar una base para comparar el rendimiento de las pruebas en una población determinada clínicamente relevante (Macaskill y Colls, 2002). Sin embargo, la generalización de valores predictivos es limitada de una población a otra porque ellos dependen de la prevalencia incluso si la precisión de la prueba dentro de los enfermos y dentro de los subgrupos no enfermos es constante a través de las poblaciones. Un enfoque alternativo, pero estrechamente relacionado, es comparar las razones de verosimilitud de las pruebas combinadas y compuestas. 3.1.4 Efectos sobre las razones de verosimilitud Para un determinado resultado, el cociente de probabilidad se define como la probabilidad de que el resultado de la prueba para un sujeto enfermo dividido por la probabilidad de que el resultado de la misma prueba para un sujeto no enfermo. Por lo tanto, la razón de verosimilitud positiva está dada por 𝐿𝑅 + = 𝑆𝑒⁄1 − 𝑆𝑝 y la razón de verosimilitud negativa está dada por 𝐿𝑅− = (1 − 𝑆𝑒)⁄𝑆𝑝. Las razones de verosimilitud toman en cuenta las ventajas y desventajas en la prueba de rendimiento en las poblaciones de enfermas y libre de enfermedad. Para un resultado dado, las probabilidades post-test de enfermedad es igual al producto de las probabilidades pre-test de la enfermedad y la razón de verosimilitud positiva. Por lo tanto, el valor predictivo positivo de la prueba puede ser expresado como VPP = λLR+ /(1 + λLR+), donde λ representa la odds pre-test de la enfermedad, es decir el cociente entre la prevalencia y 1 menos la prevalencia de la enfermedad, p/(1-p). Del mismo modo, el valor predictivo de una prueba negativa es dado por PPN = 1/(1 + λLR−). Cuando LR+ = 1, un resultado positivo no tiene ningún valor diagnóstico y la VPP es igual a la probabilidad pre-test de la enfermedad. 41 Asimismo, el VPN es igual a la probabilidad pretest de la enfermedad no cuando LR −=1. Como LR+ aumenta por encima de 1 aumenta la VPP, mientras que el VPN aumenta a medida que disminuye la LR− (inferiores a 1). La figura 4 muestra la exactitud de una sola prueba (A) en el espacio ROC. La región sombreada representa la zona en la que la sensibilidad y la especificidad de una prueba combinada (A∪B) deben mentir, para cualquier prueba adicional dicotómica B. La pendiente de la línea desde (0; 0) que por (1 − 𝑆𝑝𝐴 ; 𝑆𝑒𝐴 ) da la razón de verosimilitud positiva para la prueba de A. Del mismo modo, la pendiente de la línea desde (1; 1) que pasa por (1 − 𝑆𝑝𝐴 ; 𝑆𝑒𝐴 ) le da la razón de verosimilitud negativa para la prueba A. Estas dos líneas dividen el área sombreada en tres regiones. La figura 4 muestra las regiones correspondientes para A∩B. Esta representación gráfica corresponde a la dada por Biggerstaff para comparar el rendimiento de dos pruebas diagnósticas (Biggerstaff, 2000). Como se muestra a continuación, este enfoque también puede utilizarse para evaluar el aumento incremental en la combinación de pruebas. Porque los puntos son ploteados en el espacio ROC, la gráfica es más fácil de construir e interpretar que el método gráfico ideado por Marshall. Ahora podemos identificar las regiones donde se puede hacer una elección clara entre la prueba individual y combinada. Elegiríamos la prueba combinada si LR-combinada < LR−individual y LR+combinado > LR+individual (región c en las figuras 4 a y b), ya que la prueba combinada debe tener una mayor VPP y VPN que la prueba individual, independientemente de su prevalencia. Estas conclusiones se siguen del examen de las curvas ROC para las pruebas. Para una sola prueba (binaria) A, la curva ROC se obtiene por las dos líneas que unen (0; 0) y (1; 1) a (1 − 𝑆𝑝𝐴 ;𝑆𝑒𝐴). Si la sensibilidad y especificidad de la prueba combinada se encuentra en la región c, entonces para cualquier valor dado de 1-especificidad, la sensibilidad de la prueba combinada es siempre mayor que la sensibilidad de la prueba individual. 42 Figura 4 Regiones críticas para razones de verosimilitud usando las: (a) regla 'positivo'; (b) ' regla de ambos positivo'. La única prueba es la mejor opción cuando LR −combinada > LR−individual y LR+combinada < LR+individual (región s en las figuras 4(a) y 1(b). Por lo tanto, para cualquier valor dado de 1-especificidad, la sensibilidad de la prueba combinada es siempre menor que la sensibilidad de la prueba individual. En t de la región, se produce un intercambio y no claro se puede elegir entre las pruebas basadas exclusivamente en las razones de verosimilitud. Como se señaló anteriormente, la región en la cual cae la prueba combinada depende no sólo en la sensibilidad y la especificidad de la prueba adjunta, sino también de la dependencia condicionada de las pruebas. Además, la regla de 'positivo' es claro de la figura 3.4 eso si LR+A∪ B> LR+ A y luego LR−A∪B< LR−A y si LR− A∪B > LR−A entonces LR+A∪B < LR+A; si no se aplica, A∪B cae en región t. Asimismo, para la regla de 'ambos positivos' (Figura 3.4(b) si LR−A∩B < LR− A entonces LR+A∩B > LR+ y si LR+A∩B < LR+A entonces LR−A∩B > LR+A; si no se aplica, A∩B cae en la región t. Es de destacar que la razón de odds del diagnóstico también toma en cuenta el equilibrio entre la sensibilidad y la especificidad y por lo tanto, podría utilizarse como una medida global del rendimiento de la prueba de diagnóstico para comparar pruebas dicotómicas (DOR = [𝑆𝑒 / (1 − 𝑆𝑒 )] = [(1−𝑆𝑝 ) /𝑆𝑝 ] = [𝑆𝑒 =/(𝑆𝑒 − 1)] = [(1−𝑆𝑒 ) /𝑆𝑒 ] =LR+ / LR− (9)) Sin embargo, en este contexto, el odds-ratio es más difícil de interpretar que las razones de verosimilitud. Por ejemplo, la prueba combinada puede tener una mayor (o menor) 43 odds-ratio de prueba A, pero todavía mienten en la región (t) donde ni prueba muestra razones de verosimilitud superior. 3.1.5 Estimación puntual y por intervalos de las razones de verosimilitudes de tests individuales, de sus combinaciones y de las diferencias entre tests individuales y tests combinados. 3.1.5.1 Estimación puntual y por intervalos de las razones de verosimilitud para test individuales Las razones de verosimilitud positiva y negativa dependen como se ha mencionado atrás solamente de la sensibilidad y de la especificidad del test diagnóstico, debido a esto su estimación se puede realizar teniendo en cuenta los lineamientos de un muestreo transversal o de un muestreo de caso-control. Cuando el test diagnóstico y el gold estándar se aplican a todos los sujetos de una muestra aleatoria de tamaño 𝑛1 + 𝑛0 (Tabla 1.2), el estimador máximo verosímil de la razón de verosimilitud positiva se puede obtener así: ̂ 𝑆𝑒⁄𝑛1 𝑆𝑒 𝑛𝑜 ̂ + = 𝑆𝑒 𝐿𝑅 = = ̂ 1−𝑆𝑝 𝐹𝑃 ⁄𝑛 𝐹𝑃𝑛 𝑜 (3.27) 1 De la misma manera el estimador de la razón de verosimilitud negativa es: ̂ ̂ − = 1− Se = FN⁄n1 = FNno 𝐿𝑅 ŝ S ⁄n S n p p o (3.28) p 1 Como las ecuaciones 25 y 26 están escritas como cocientes de proporciones estadísticamente independientes la distribución teórica asintótica se obtiene usando la transformación logarítmica y el método Delta (Barndorff – Nielsen y Cox, 1989, Teorema 2.6). Para LR+ la varianza para su logaritmo es: ̂ (𝐿𝑛𝐿𝑅 + ) 𝑉𝑎𝑟 2 ̂ (𝑆𝑒 ) ( 1 ) + 𝑉𝑎𝑟 ̂ (𝑆𝑝 ) ( 1 ) =(𝑉𝑎𝑟 𝑆 1−𝑆 𝑒 = (𝑆 1−𝑆𝑒 𝑒 +𝐹𝑁)𝑆𝑒 2 𝑝 + (𝐹𝑃+𝑆 𝑆𝑝 𝑝 )(1−𝑆𝑝 ) (3.29) 44 Para LR− la varianza para su logaritmo es: −1 2 −) ̂ ̂ (𝑆𝑝 ) (−1) ̂ ( ) ( ) + 𝑉𝑎𝑟 𝑉𝑎𝑟 𝐿𝑛𝐿𝑅 =(𝑉𝑎𝑟 𝑆𝑒 ( 1−𝑆𝑒 𝑆𝑝 1−𝑆𝑝 𝑆𝑒 = (𝑆 𝑒 +𝐹𝑁)(1−𝑆𝑒) 2 + (𝐹𝑃+𝑆 (3.30) 𝑝 )𝑆𝑝 De esta manera, los intervalos de confianza para el logaritmo de LR, debido a la normalidad asintótica, se pueden calcular desde las estimaciones y las expresiones de la varianza asintótica (Marin Jimenez, 2008). Al transformarlas se producen los intervalos de confianza con un máximo nivel de significancia escrito en porcentaje de 100𝛼% para las razones de verosimilitudes, que son: 𝑆 1−𝑆𝑒 𝐿𝑅 + ∈ 𝑒𝑥𝑝 {𝑙𝑛 (1−𝑆𝑒 ) ± 𝑍𝛼⁄2 √ 𝑝 𝑆𝑒 𝑆𝑝 + 𝐹𝑃} (3.31) La ecuación 29 se puede escribir como: 𝑆𝑒 ±𝑍𝛼⁄2 √ 𝐿𝑅 + ∈ 1−𝑆 1−𝑆𝑒 𝑆𝑝 +𝐹𝑃 𝑆𝑒 (3.32) 𝑝 Así mismo: 𝐿𝑅 − ∈ 𝑒𝑥𝑝 {𝑙𝑛 ( 1−𝑆𝑒 𝑆𝑝 ) ± 𝑍𝛼⁄2 √ 𝑆𝑒 + 𝐹𝑁 1−𝑆𝑝 𝑆𝑝 } (3.33) La ecuación 31 se puede escribir como: 𝑆 𝐿𝑅 − ∈ 1−𝑆𝑒 𝑆𝑝 1−𝑆𝑝 𝑆𝑝 𝑒 ±𝑍𝛼⁄2 √𝐹𝑁 + (3.34) ̂ + y lnLR ̂ − viene dada por En muestras grandes, la covarianza de lnLR 1 1 ̂ +, lnLR ̂ −} = − [ ] cov{lnLR + Se + FN FP + Sp 45 3.1.5.2 Estimación puntual combinación de test de razones de verosimilitud para Como se muestra en la tabla 3.3, se puede evaluar si el test combinado es 'mejor' que un solo test por sobre el análisis como una comparación directa de dos test condicionales dependientes y dicotómicos. Aunque los test de componente son condicionalmente independientes, las pruebas individuales y combinadas deben ser condicional dependientes porque el test combinado contiene información de la prueba individual. A diferencia de la actitud adoptada por Marshall, no basar nuestro análisis en la dependencia condicional estimada entre pruebas de componente, pero realizar comparaciones directas entre las razones de verosimilitud de las pruebas individuales y combinadas, mientras que teniendo en la dependencia condicional cuenta entre ellos (Macaskill y Colls, 2002). Tabla 3 probabilidades de cada uno de los tests y de sus combinaciones en serie o en paralelo para el caso de dos tests diagnósticos binarios, A y B que sean condicionalmente independientes. (a) D=1 D=0 Test combinado 𝐴 ∪ 𝐵 Test A + + - + 𝜋++ + (𝑝++ = + 𝑝++ − ) + 0 𝜋−+ + = ( 𝑝−+ + ) (b) Test A + − 𝜋++ 𝜋−+ − = ( 𝑝−+ − ) = − (𝑝++ + 𝑝+− −) + = ( 𝑝++ + ) D=0 𝛾++ − Test combinado 𝐴 ∩ 𝐵 + + − = ( 𝑝+ − ) 𝛾+ + = ( 𝑝+− + ) 𝛾−+− = (𝑝−+ − + 𝑝−+ + ) 0 - 𝜋−− − = ( 𝑝−− − ) − = 𝑝− 𝜋−+ −+ D=1 𝛾++ + 0 0 𝛾+− − = ( 𝑝+− − ) 𝛾−−− = (𝑝−− − + 𝑝−− + ) Tabla 3 (a), los números (𝑛++ + , 𝑛−+ + , 𝑛−+ − ) de las personas que caen en las celdas de la tabla 2 × 2 para el grupo de enfermos siguen una distribución trinomial. Por lo tanto, los estimadores de máxima verosimilitud de las probabilidades de la celda están dados por + − + ̂− 𝜋̂ 𝑗𝑘 = 𝑛𝑗𝑘 ⁄𝑛𝐷 𝑦 𝜋𝑗𝑘 = 𝑛𝑗𝑘 ⁄𝑛𝐷 [15]. Por lo tanto, las razones de verosimilitud positiva se estiman como: + + + 𝜋 ̂ +𝜋 ̂ + ̂ 𝐴+ = 𝜋̂+− + y 𝐿𝑅 ̂ 𝐴∪𝐵 𝐿𝑅 = +− + −++ 𝜋 ̂+ + 𝜋 ̂ + ++ 𝜋 ̂− + (3.35) 46 Del mismo modo, las razones de verosimilitud negativa se estiman por + − ̂ 𝐴− = 𝜋̂−− + y 𝐿𝑅 ̂ 𝐴∪𝐵 𝐿𝑅 = 𝜋 ̂ −+ + 𝜋 ̂− − − 𝜋 ̂− − (3.36) Las razones de verosimilitud derivadas de tabla 3 (b) se calculan de manera similar. 3.1.5.3 Estimación por intervalos de razones de verosimilitud para combinación de test El método para calcular el intervalo de confianza de un cociente de probabilidad para una tabla de contingencia 2*2 es equivalente a la de un riesgo relativo (Simel, Samsa, & Matchar, 1991). La varianza asintótica de la diferencia entre dos proporciones de logverosimilitud cuando los resultados son obtenidos de muestras independientes es una simple generalización de esta fórmula. Sin embargo, no somos conscientes de una fórmula de la varianza para la diferencia entre los coeficientes de log-verosimilitud cuando los datos estén sincronizados. Por lo tanto, hemos utilizado el método delta (Agresti, 1990) para derivar asintóticas fórmulas para el diseño apareada que hemos considerado en este documento. Cualquier regla positiva (A∪ 𝑩) Comparación de las razones de verosimilitud positiva se basa en ̂ +𝐴 ⋃ 𝐵 ) − ln(LR ̂ +A) = Ln(LR = ln(π ̂+ ̂+ ̂− ̂− ̂+ ̂− ++ + π −+ ) − ln(π ++ + π −+ ) − ln(π ++ ) + ln(π ++ ) (3.37) Derivamos las fórmulas para la varianza asintótica de la diferencia en las proporciones basándonos en la suposición de que la diferencia de los cocientes de log-verosimilitud aproximadamente se distribuye normalmente. La estimación de la varianza sería, de acuerdo a la siguiente ecuación calculada en (Macaskill y Colls, 2002) ̂ +A∪B) − ln(LR ̂ +A)) = 𝑉𝑎𝑟(ln(LR π ̂+ = (𝑇𝑃+𝐹𝑁)π̂+−+(π̂+ ++ ̂+ −+ +π ++ ) π ̂− + (𝐹𝑃+𝑇𝑁)π̂−−+(π̂− ++ ̂− −+ +π ++ ) (3.38) 47 Así, el intervalo de confianza del 95 por ciento para la relación de las razones de verosimilitud es determinada por la ecuación 3.39, así: ̂ +A∪B ) − ln(LR ̂ +A)) ± 1,96√{𝑉𝑎𝑟(ln(LR ̂ + A∪B) − ln(LR ̂ +A))} (3.39) exp(Ln(LR Utilizando el mismo procedimiento se tiene que las expresiones correspondientes para las razones de verosimilitud negativas son ̂ − A∪B) − ln(LR ̂ −A) = Ln(LR = ln(π ̂+ ̂− ̂+ ̂+ ̂− ̂− −− ) − ln(π −− ) − ln(π −− + π −+ ) + ln(π −− + π −+ ) (3.40) ̂ −A∪B) − ln(LR ̂ −A)) = 𝑉𝑎𝑟(ln(LR = π ̂+ −+ (𝑇𝑃+𝐹𝑁)π ̂+ ̂+ ̂+ −− (π −− +π −+ ) + π ̂− −+ (𝐹𝑃+𝑇𝑁)π ̂− ̂− ̂− −− (π −− +π −+ ) (3.41) Las ecuaciones (3.37)–(3.41) se pueden utilizar para determinar si el rendimiento diagnóstico de la prueba combinada es mejor que una prueba de un solo componente, o ̂ + A∪B > LR+A y el intervalo de confianza para LR ̂ +A∪B⁄LR+A no viceversa. Si LR ̂ − A∪B > LR−A y incluye 1, se prefiere la prueba combinada. De la misma manera, si LR ̂ −A∪B ⁄LR− A no incluye 1, se recomienda la prueba el intervalo de confianza para LR individual. Ambas reglas positivas (𝑨 ∩ 𝑩) Las ecuaciones que rigen el cálculo para la regla de "la conjunción" son muy similares a las mencionadas en el apartado anterior. Para comparar las razones de verosimilitud positiva, tenemos ̂ + A∩B) − ln(LR ̂ +A) = Ln(LR + − ) + − = ln(𝛾̂++ ) − ln(𝛾̂++ −ln(𝛾̂++ + 𝛾̂±+) + ln(𝛾̂++ + 𝛾̂±−) (3.42) ̂ −A∩B) − ln(LR ̂ −A)) = 𝑉𝑎𝑟(ln(LR ̂+ 𝛾 = (𝑇𝑃+𝐹𝑁)𝛾̂+ ±(𝛾̂+ ++ ̂++ − ++ +𝛾 ̂− 𝛾 + (𝐹𝑃+𝑇𝑁)𝛾̂−±(𝛾̂− ) ++ ̂+− − ) ++ +𝛾 (3.43) 48 y por las razones de verosimilitud negativa, las fórmulas correspondientes ̂ − A∩B) − ln(LR ̂ −A) = Ln(LR + − + − ) = ln(𝛾̂−− + 𝛾̂++−) − ln(𝛾̂−− + 𝛾̂+−−) − ln(𝛾̂−− ) + ln(𝛾̂−− (3.44) ̂ −A∩B) − ln(LR ̂ −A)) = 𝑉𝑎𝑟(ln(LR ̂+ 𝛾 = (𝑇𝑃+𝐹𝑁)𝛾̂++ −(𝛾̂+ −− ̂++ − −− +𝛾 ̂− 𝛾 + (𝐹𝑃+𝑇𝑁)𝛾̂−+ −(𝛾̂− ) −− ̂+− − ) −− +𝛾 (3.45) ̂ − A∩B⁄LR− A<1, o la prueba individual En este caso, se prefiere la prueba combinada si LR ̂ + A∩B⁄LR+A < 1 . si LR Consideraciones finales En muchos casos, la elección entre el uso de la prueba individual o combinada puede no ser clara porque no hay ninguna mejora simultánea en LR+ y LR−. En este caso, el uso de una prueba adicional o no se verá afectado por las ventajas y desventajas en el número de resultados positivos falsos adicionales esperado uno está dispuesto a aceptar en relación con el número esperado de verdaderos positivos adicionales (para la regla de 'positivo'), o el número esperado de falsos negativos adicionales en relación con el aumento esperado en el número de verdaderos negativos (por la regla de "ambos positivos"). En ambos casos dependerá de la prevalencia (T) de la condición en la población para ser probado. Cuando dos pruebas diagnósticas están disponibles para una enfermedad determinada, el interés se centra a menudo en que prueba, individualmente considerada funciona mejor. Sin embargo, se pueden considerar altos beneficios en el diagnóstico mediante la combinación de pruebas, sobre todo cuando ninguno de los dos test es altamente preciso. Hemos descrito un método para evaluar el incremento en la calidad diagnóstica usando una prueba de diagnóstico en combinación con una segunda prueba (adjunto). Acabamos de describir un método que resuelve el problema fundamental que plantea este trabajo la determinación de cuando un test diagnóstico adicional incrementa la calidad diagnóstica de uno establecido y que combinación de ambos tests nos permite conseguir tal incremento y en qué sentido. Posteriormente este método se aplicará a la resolución de varios problemas clínicos de interés 49 3.2 Un problema de combinación de test diagnósticos binarios con las soluciones expuestas. Recomendaciones generales. Como ejemplo para describir el problema de combinación de test diagnósticos binarios se tomaron como referencia los problemas incluidos en los artículos Assessing the gain in diagnostic performance when combining two diagnostic tests, Petra Macaskill1 y Colls, stat_med_2002 (Referenciado en 3.2.1), el problema del apartado 3 del artículo de comp_method_biomed_1991 que son unos datos que se han convertido en unos datos clásicos (Referenciado en 3.2.2) y Además unos datos españoles sobre el uso de la tira radiactiva en el diagnóstico de la infección urinaria, en Evaluación de la tira reactiva para el diagnóstico de infección urinaria en niños y adultos , de Cristina Latorre, Manuela Noguero y Aurea Mir (referenciado en 3.2.3). En los tres casos determinaremos si un test adicional agrega algo al test ya disponible y en qué condiciones se puede afirmar tal cosa. Todos los cálculos de los ejercicios están en una hoja de cálculo que va en el DE-ROM que acompaña a al texto del TFM. 3.2.1 Uso de las pruebas pap y vph en combinación (pap ∪ 𝑽𝑷𝑯) Los métodos desarrollados en este ejemplo (Macaskill y Colls, 2002) se aplicarán a un estudio del rendimiento de la prueba de Papanicolau (ThinprepTM) y prueba de virus del papiloma humanos (VPH) en un grupo de 364 mujeres que fueron referidos por colposcopia debido a un frotis anormal en una prueba de Papanicolaou convencional. Un objetivo importante de este estudio fue evaluar si con VPH en combinación con repetición citología (utilizando la regla del 'positivo') proporciona mejor rendimiento diagnóstico que repetir citología individual para la clasificación de las mujeres con lesiones cervicales equívocos o bajo grado. La regla de 'positivo' fue elegida con el fin de mejorar el rendimiento de la prueba en el grupo de enfermas en comparación con el uso de solo repetir la citología. Los resultados de la prueba de Papanicolaou fueron clasificados como T=0 (normal) o T=1 (células escamosas atípicas de significado indeterminado ASCUS; lesión intra epitelial escamosa de bajo grado LSIL; o lesión intra epitelial escamosa de alto grado HSIL). VPH (tipos 16; 18; 31; 33; 35; 45; 51; 52; 56 usando análisis de DNA de HPV captura híbrida tubo) resultados de la prueba fueron registrados como T=0 o T=1 (para uno o más tipos usando umbral de señal recomendada del fabricante). 50 La información estándar de referencia estaba disponible para todas las mujeres, como todas ellas experimentaron la colposcopia. Los resultados de la colposcopia se registraron como normal, LSIL o HSIL. Se evaluó el rendimiento de los componentes y pruebas combinadas en ambos umbrales posibles para el estándar de referencia. La tabla 4 muestra los resultados estándar de la prueba y de referencia para el estudio descrito en esta sección. En la tabla, la prevalencia de LSIL ∪ HSLI (lesión del grado superior) es 63+43+60+20 364 = 0,51 y la prevalencia de HSIL 60+20 364 = 0,22. Estas altas tasas de prevalencia son coherentes con las mujeres seleccionadas sobre la base de la anterior anomalía. Tabla 4 La citología de repetición clasificada por la prueba de Papanicolau (Papilla) y HPV prueba resultados dentro de categorías de la enfermedad (n=364). Enfermedad Citología (pap) HSIL LSIL ASCUS Normal Total D=0 HVP=1 HVP=0 2 2 15 12 7 9 16 115 40 138 D=LSIL HVP=1 2 40 9 12 63 HVP=0 1 14 9 19 43 D=HSIL HVP=1 HVP=0 28 12 24 2 2 2 6 4 60 20 Assessing the gain in diagnostic performance when combining Two diagnostic tests, Petra macaskill1 y Colls, statistics in medicine. 2002 La tabla 5 muestra las estimaciones para los parámetros sensibilidad, especificidad, razones de verosimilitud y OR`s, en las que se utilizaron las tablas A1-A6 para el cálculo de cada una de ellos. Tabla 5 Estimación de la sensibilidad, especificidad, razones de verosimilitud y odds ratio para repetición la citología (Pap), HPV y la prueba combinada P ∪H en el umbral de cada enfermedad. Pap + HPV P OR H Sens 0.78 0.66 0.88 Espec 0.74 0.78 0.65 LR+ 2.95 2.94 2.48 LR0.30 0.44 0.19 OR 9.86 6.74 12.90 Sens Espec LR+ LR- OR 0.88 0.57 2.04 0.22 9.30 0.75 0.64 2.07 0.39 5.27 0.95 0.47 1.80 0.11 17.00 Se considerara ASCUS o el grado más alto de la anormalidad como un resultado de pruebas positivo para la citología de repetición (Papilla). Dicotomizar los resultados de la prueba de Papanicolaou en este umbral da los resultados que se muestran en la tabla 5. 51 Aunque el odds ratio para Pap individual (9.86 y 9.3) es menor que para la prueba combinada para ambos umbrales de la enfermedad (12.9 y 17 respectivamente), la prueba combinada cae en la región donde hay un equilibrio en las razones de verosimilitud (figuras 3.5 (a) y (b)). En cada caso, la prueba combinada tiene una menor verosimilitud (0.19 y 0.11) negativa que Pap individual (0.30 y 0.22), pero también una menor razón de verosimilitud positiva (2.48 vs 2.95 y 1.80 vs 2.04). Figura 5 Razones de verosimilitud por la sola prueba (Pap) y combinado prueba P ∪H cuando: (a) enfermedad = LSIL o HSIL; (b) la enfermedad = HSIL. (a) (b) La clasificación cruzada de los resultados para el Papanicolaou y la prueba combinada para la detección de grado bajo o lesiones de alto grado, se tiene π ̂+ + + = =0,780; π ̂+ ̂+ − + =0,097 y π −−. =0,124 para las 186 mujeres que dieron positivo en la norma de referencia. Para las 178 mujeres que dieron negativo en la referencia estándar, π ̂− ̂− ̂− + + =0,264; π − + =0,090 y π − − = 0,646. De estas proporciones observadas, se puede calcular la diferencia en el registro de las razones de verosimilitud positiva mediante la ecuación (3.37) como: ̂ + P∪H ) − ln(LR ̂ + 𝑃) = Ln(LR = ln(π ̂+ ̂+ ̂− ̂− ̂+ ̂− ++ + π −+ ) − ln(π ++ + π −+ ) − ln(π ++ ) + ln(π ++ ) =ln(0,780 + 0,097) − ln(0,264 + 0,090) − ln(0,780) + ln(0,264)=-0,176 52 De la ecuación (3.38), la varianza de esta estimación es ̂ +P∪H ) − ln(LR ̂ +𝑃)) = 𝑉𝑎𝑟(ln(LR = π ̂+ ∓ (𝑇𝑃 + 𝐹𝑁)π ̂+ ̂+ ̂+ ++ (π ++ ) ∓+π + π ̂− ∓ (𝐹𝑃 + 𝑇𝑁)π ̂− ̂− ̂− ++ (π ++ ) ∓+π = 0.097 0.09 + (145 + 47)0.78(0.097 + 0.78) (41 + 131)264(0.09 + 0.264) = 0,0063 Por lo tanto, la relación de los coeficientes de probabilidad positivos es de ̂ +P∪H ) − ln(LR ̂ + 𝑃)) = exp(−0,176) = 0,84 con 95% IC 0,72 a 0,98. Para la exp(Ln(LR razón de verosimilitud negativa de las ecuaciones (3.40) y (3.41), la relación es de 0.64 con IC 95% 0,48 a 0,84. Ninguno de estos intervalos de confianza incluye el valor de1. Por lo tanto, hay una disminución significativa en ambas las razones de verosimilitud la positiva y negativa. La disminución de la LR+ favorece el uso de la prueba individual mientras que la disminución de la LR− favorece el uso de la prueba combinada. Para la enfermedad HSIL, las estimaciones correspondientes son 0.88 (IC 95% 0.78 a 0.98) y 0.48 (CI 95% 0.23 a 1.04). Así, hay una compensación en las proporciones de probabilidad para ambos niveles de la enfermedad y de ahí se tiene que considerar la compensación en el verdadero positivo esperado y falso positivo adicionales. Figura 6 Razones de verosimilitud por la sola prueba (VPH) y combinado prueba P ∪H cuando: (a) enfermedad = LSIL o HSIL; (b) la enfermedad = HSIL (a) (b) 53 Por otro lado, La clasificación cruzada de los resultados para el prueba de virus del papiloma humanos (VPH) y la prueba combinada para la detección de grado bajo o lesiones de alto grado, aunque con resultados similares a los de la prueba pap, el odds ratio para HPV individual es menor que en la prueba combinada para ambos umbrales de la enfermedad, la prueba combinada cae en la región donde hay un equilibrio en las razones de verosimilitud (figuras 3.6 (a) y (b)). En cada caso, la prueba combinada tiene una menor verosimilitud negativa que HPV individual, pero también una menor razón de verosimilitud positiva. La clasificación cruzada de los resultados para el Papanicolaou y la prueba combinada para la detección de grado bajo o lesiones de alto grado, se tiene π ̂+ + + = =0,661; π ̂+ ̂+ − + =0,215 y π −−. =0,124 para las 186 mujeres que dieron positivo en la norma de referencia. Para las 178 mujeres que dieron negativo en la referencia estándar, π ̂− ̂− ̂− + + =0,225; π − + =0,129 y π − − = 0,646. De estas proporciones observadas, se puede calcular la diferencia en el registro de las razones de verosimilitud positiva mediante la ecuación (3.37) como: ̂ +P∪H ) − ln(LR ̂ +𝐻) = Ln(LR = ln(π ̂+ ̂+ ̂− ̂− ̂+ ̂− ++ + π −+ ) − ln(π ++ + π −+ ) − ln(π ++ ) + ln(π ++ ) =ln(0,661 + 0,215) − ln(0,225 + 0,129) − ln(0,661) + ln(0,225)=-0,172 De la ecuación (3.38), la varianza de esta estimación es ̂ + P∪H ) − ln(LR ̂ + 𝐻)) = 𝑉𝑎𝑟(ln(LR π ̂+ π ̂− −+ −+ = + = + + + − (𝑇𝑃 + 𝐹𝑁)π ̂++ (π ̂− + + π ̂ ++ ) (𝐹𝑃 + 𝑇𝑁)π ̂++ (π ̂− ̂− −+ + π ++ ) 0.215 0.219 + (123 + 40)0.661(0.215 + 0.661) (63 + 138)0.225(0.219 + 0.225) = 0,0057 Por lo tanto, la relación de los coeficientes de probabilidad positivos es de ̂ +P∪H ) − ln(LR ̂ + 𝑃)) = exp(−0,172) = 0,84 con 95% IC 0,69 a 0,988. exp(Ln(LR 54 Para la razón de verosimilitud negativa de las ecuaciones (3.40) y (3.41), ̂ − P∪H ) − ln(LR ̂ −H) = Ln(LR = ln(π ̂+ ̂− ̂+ ̂+ ̂− ̂− −− ) − ln(π −− ) − ln(π −− + π −+ ) + ln(π −− + π −+ )= ln(0.124) − ln(0.646) − ln(0.124 + 0.215) + ln(0.646 + 0.219) = −0.714 ̂ − P∪H ) − ln(LR ̂ − 𝐻)) = 𝑉𝑎𝑟(ln(LR π ̂+ = (𝑇𝑃+𝐹𝑁)π̂+−+(π̂+ −− π ̂− ̂+ −−+π −+ 0.215 (123+40)0.124(0.124+0.215) + (𝐹𝑃+𝑇𝑁)π̂−−+(π̂− ) −− = ̂− −− +π −+ ) 0.129 + (63+138)646(0.646+0.129)=0.0327 Por lo tanto, la relación de los coeficientes de probabilidad negativos es de ̂ −P∪H ) − ln(LR ̂ + 𝐻)) = exp(−0,174) = 0,49. La relación es de 0,49 con exp(Ln(LR 95% IC 0,14 a 0,84. Ninguno de estos intervalos de confianza incluye el valor de1. La disminución de la LR+ favorece el uso de la prueba individual mientras que la disminución de la LR− favorece el uso de la prueba combinada. Para la enfermedad HSIL, las estimaciones correspondientes son 0.88 (IC 95% 0.78 a 0.98) y 0.48 (CI 95% 0.23 a 1.04). Así, hay una compensación en las proporciones de probabilidad para ambos niveles de la enfermedad y de ahí se tiene que considerar la compensación en el verdadero positivo esperado y falso positivo adicionales. Conclusión Estas dos pruebas diagnósticas (PAP Y HVP) están disponibles para determinar la existencia de una lesión intra epitelial escamosa de bajo grado LSIL o lesión intra epitelial escamosa de alto grado HSIL, el centro del asunto es identificar si cada una de las pruebas individuales funciona mejor. Nuestro enfoque abordó el problema en términos de una comparación directa entre el rendimiento diagnóstico de dos test (en paralelo) y uno de los dos en solitario. Las razones de verosimilitud de la prueba combinada se compararon con los de una prueba individual para evaluar su rendimiento diagnóstico relativo. Puesto que las razones de verosimilitud son una función de sensibilidad y especificidad, que tienen en cuenta la compensación que se produce en estas medidas cuando se combinan las pruebas. 55 Lo anterior muestra que utilizando una prueba diagnóstica combinada (para este caso en paralelo) un resultado positivo de cualquiera de ellas se considera diagnóstico de la enfermedad, en este problema se evidencio un aumento en la sensibilidad y disminución de la especificidad cuando se combinaron las pruebas, lo que sugiere que si lo que se desea es tener mayor rendimiento diagnostico estimando la enfermedad (un individuo enfermo que da en el test positivo) es útil la combinación, pero si lo que se desea es aumentar el poder diagnostico estimando la no presencia de la enfermedad (que un sujeto este sano cuando el test arroja negativo) se deben utilizar los test individuales. 3.2.2 Uso de la ecografía Doppler (DU) y la neumoplastimografía ocular (OPG) combinadas o por separado para el diagnóstico de la estenosis carotidea grave. La estenosis de las carótidas es un estrechamiento de tales vasos sanguíneos que todas las personas sufren a lo largo de la vida; sin embargo un estrechamiento excesivo de tales vasos, pérdida de más del 75% de su luz, es un problema especialmente grave puesto que pone en serio riesgo a la persona de sufrir accidentes cerebrales graves. La determinación rigurosa de la presencia de una estenosis importante (como se ha dicho superior al 75%) se hace mediante una angiografía cerebral prueba que es considerada un gold standard y que tiene el inconveniente del trabajo con material radiactivo en una zona tan sensible como el cerebro. Por ello antes que usar esa prueba se han desarrollado otras pruebas que no son invasivas y que no resultan tan potencialmente peligrosas para el paciente. La primera es el uso de la ecografía Doppler para la determinación de la presencia o no de la estenosis grave, DU, que concluye en un resultado binario que proporciona un observador experto en su uso. La otra es una prueba, valorada por un experto, que se denomina neumoplastimografía ocular, OPG, que determina en otras zonas regadas por las carótidas el déficit de riego; es también una prueba de resultado binario. Pues bien en el artículo de (Utility of combining two diagnostic test, Browiak Dale y Reed JF en 1991) se emplearon análisis de 538 carótidas, correspondientes a 269 pacientes sospechosos de estenosis de carótidas grave, a las que se les midió con el gold standard y con los dos tests citados. Los resultados obtenidos aparecen en la tabla siguiente: 56 Tabla 6 Datos originales apartado 3 Utility of combining two diagnostic test, Browiak Dale y Reed JF en 1991, pag 174 Estenosis<75% Estenosis>=75% DU+OPG+ 10 158 DU+OPG18 30 DU-OPG+ 53 22 DU-OPG241 6 Teniendo en cuenta estos resultados se desea determinar si es mejor usar una prueba de las dos o si es mejor usar la combinación de ambas y en qué condiciones eso es mejor. El problema se resolverá bajo la suposición de que los resultados de la pareja de carótidas provenientes del mismo paciente o son independientes o están débilmente relacionados, cosa que es la que ocurre en esta ocasión. Tabla 7 Resultados reorganizados según tabla B1 Assessing the gain in diagnostic performance when combining two diagnostic tests Petra Macaskill y Colls, Statist. Med. 2002, pag 2543 Resultados del test DU O OPG para estenosis grave OPG Positivo (T=1) Negativo ( T=0) Total DU D=1 D=0 Presencia( D=1) + 158 30 10 18 216 Ausencia ( D=0) - 22 6 53 241 322 180 36 63 259 538 Total La tabla 3.8 muestra las estimaciones para los parámetros sensibilidad, especificidad, razones de verosimilitud y OR`s, en las que se utilizaron la tabla B1 para el cálculo de cada uno de ellos. Aunque el odds ratio para DU individual (70.5) es menor que para la prueba combinada para el umbral de la enfermedad (104.1), la prueba combinada cae en la región donde hay un equilibrio en las razones de verosimilitud (figura 3.7 (a)). En así como, la prueba combinada tiene una menor verosimilitud (0.04) negativa que DU individual (0.14), pero también una menor razón de verosimilitud positiva (3.86 vs 10.01), se presenta la misma situación con OPG, mayores sensibilidades para la prueba combinada, menores especificidades, menores razones de verosimilitud tanto positiva como negativa y mayores OR`s (La tabla de cálculo se encuentra en el apéndice B1). 57 Tabla 8 Estimación de la sensibilidad, especificidad, razones de verosimilitud y odds ratio para DU, OPG y la prueba combinada DU ∪ OPG en el umbral de la enfermedad. Test DU OPG DU ∪ OPG n 538 538 538 Se 0.87 0.74 0.97 Sp 0.91 0.88 0.75 LR+ 10.01 6.07 3.86 LR- OR 0.14 70.5 0.3 20.56 0.04 104.1 Figura 7 Razones de verosimilitud por la sola prueba (DU) y combinado prueba DU∪OPG (a); (b) para la sola prueba (OPG) y combinado DU∪OPG (la enfermedad=estenosis grave) (a) (b) La clasificación cruzada de los resultados para el OPG y la prueba combinada para la detección de estenosis grave, se tiene π ̂+ ̂+ ̂+ + + = 0.870; π − + =0,102 y π −−. =0,028 para los 216 pacientes que dieron positivo. Para los restantes 322 sujetos que dieron negativo, se tiene que π ̂− ̂− ̂− + + =0,087; π − + =0,165 y π − − = 0,748. De estas proporciones observadas, se puede calcular la diferencia en el registro de las razones de verosimilitud positiva mediante la ecuación (3.37) como: ̂ + DU ∪ OPG) − ln(LR ̂ +𝑂𝑃𝐺) = Ln(LR = ln(π ̂+ ̂+ ̂− ̂− ̂+ ̂− ++ + π −+ ) − ln(π ++ + π −+ ) − ln(π ++ ) + ln(π ++ )=-0.952 58 De la ecuación (3.38), la varianza de esta estimación es ̂ + P∪H ) − ln(LR ̂ + 𝐻)) = 𝑉𝑎𝑟(ln(LR π ̂+ π ̂− −+ −+ = + = 0.0254 + + + − (𝑇𝑃 + 𝐹𝑁)π ̂++ (π ̂− + + π ̂++ ) (𝐹𝑃 + 𝑇𝑁)π ̂++ (π ̂− ̂− −+ + π ++ ) Por lo tanto, la relación de los coeficientes de probabilidad positivos es de ̂ +P∪H ) − ln(LR ̂ + 𝑃)) = exp(−0,952) = 0,39 con 95% IC 0,074 a 0,699. exp(Ln(LR Para la razón de verosimilitud negativa de las ecuaciones (3.40) y (3.41), ̂ − P∪H ) − ln(LR ̂ −H) = Ln(LR = ln(π ̂+ ̂− ̂+ ̂+ ̂− ̂− −− ) − ln(π −− ) − ln(π −− + π −− + π −+ ) =-1.342 ∓ ) + ln(π ̂ − P∪H ) − ln(LR ̂ − 𝐻)) = 𝑉𝑎𝑟(ln(LR = π ̂+ π ̂− −+ −+ + = 0.132 + + + − (𝑇𝑃+𝐹𝑁)π ̂ −− (π ̂ −−+π ̂ −+) (𝐹𝑃+𝑇𝑁)π ̂ −− (π ̂− ̂− −− +π −+ ) Por lo tanto, la relación de los coeficientes de probabilidad negativos es de ̂ −P∪H ) − ln(LR ̂ + 𝐻)) = exp(−1,342) = 0,261. La relación es de 0,261 con exp(Ln(LR 95% IC -0,45 a 0,973. Como en el problema anterior ninguno de estos intervalos de confianza incluye el valor de 1(incluso el LR- contiene al cero). La disminución de la LR+ favorece el uso de la prueba individual mientras que el hecho que la LR− ni aumente ni disminuya dice que cualquiera de las dos pruebas la individual (OPG) o la combinada (DU o OPG) se pueden utilizar. Conclusión De manera similar que en el problema anterior se evidencia que la combinación de DU-OPG mejora la probabilidad de determinar el estado de la enfermedad de la arteria carótida del paciente (debido a que aumenta la sensibilidad), sin embargo si lo que se desea es el otro predictor, es decir que mejore la probabilidad de detectar los sujetos sanos es evidente que se debe tener los test individuales. Lo anterior sugiere que en el caso de dos pruebas de diagnóstico que son discordantes, el desacuerdo puede ser eliminado combinando las pruebas de manera que se aumenta la sensibilidad. 59 3.2.3 ¿Debería complementarse el uso de la tira radiactiva para la determinación de la infección urinaria con una tinción de GRAM para conseguir un aumento de la precisión diagnóstica? Ese resultado ¿es el mismo en niños que en adultos? En las consultas de atención primaria se usa una prueba muy rápida e inocua, que no es un gold standard, para la determinación de si un paciente con síntomas sufre una infección urinaria, que es la denominada prueba de la tira radiactiva (TR). El Gold standard de la infección urinaria es el urocultivo para el que se tarda en tener un resultado más de 10 días. Por esto y porque la TR tiene baja sensibilidad/especificidad en determinadas situaciones se plantea el problema de emplear una prueba cuyo resultado tarda un día que es la denominada tinción de GRAM. Tanto la TR como GRAM son pruebas de resultado binario. En (Evaluación de la tira reactiva para el diagnóstico de infección urinaria en niños y adultos, de Cristina Latorre, Manuela Noguero y Aurea Mir) se ha realizado un estudio en el que a una muestra de niños a otra muestra de adultos se les ha aplicado tanto el gold standard como las dos pruebas obteniéndose las tablas que figuran a continuación. Tabla 9 Datos de los tests para la determinación de la Infección urinaria. Niños y Adultos Datos de los tests para la determinación de la Infección urinaria. Niños TR+GRAM+ TR+GRAM- TR-GRAM+ TR-GRAMNo Infección 21 190 7 255 Infección 50 7 12 5 Datos de los tests para la determinación de la Infección urinaria. Adultos TR+GRAM+ TR+GRAM- TR-GRAM+ TR-GRAMNo Infección 7 215 3 283 Infección 27 2 3 1 Con estos datos y aplicando la metodología descrita se contestaran las preguntas del título del apartado. 60 Caso 1 Niños (GRAM VS (GRAM ∩ 𝑻𝑹) (APENDICE C1) Las ecuaciones que rigen el cálculo para la regla de "la conjunción" son muy similares a las mencionadas en el problema anterior. Para comparar las razones de verosimilitud positiva, tenemos la ecuación (3.42) y calculando las probabilidades desde la tabla 3 (𝛾++ + = 0.676 𝛾++ − =0.162, 𝛾−+− = 0.162, 𝛾+− + = 0.044, 𝛾+− − = 0.015 𝑦 𝛾−− − = 0.941 ) ̂ + G∩TR ) − ln(LR ̂ +𝐺) = Ln(LR + − ) + − = ln(𝛾̂++ ) − ln(𝛾̂++ −ln(𝛾̂++ + 𝛾̂±+) + ln(𝛾̂++ + 𝛾̂±−) = 0.546 ̂ + G∩TR⁄LR ̂ +G = 1.727 Entonces LR y por las razones de verosimilitud negativa, las fórmulas correspondientes ̂ − G∩TR ) − ln(LR ̂ −𝐺) = Ln(LR + − + − ) = ln(𝛾̂−− + 𝛾̂++−) − ln(𝛾̂−− + 𝛾̂+−−) − ln(𝛾̂−− ) + ln(𝛾̂−− =0.748 ̂ − G∩TR⁄LR ̂ −G = 2.11 Entonces LR Por otro lado se evidencia que al combinar los dos test en serie GRAM Y TR para niños disminuye la sensibilidad y se incrementa la especificidad (Ver Apéndice C1), lo que sugiere que se incrementa el poder para discriminar sanos cuando el test es positivo, pero no se evidencia la enfermedad. Caso 2 Niños (TR VS (GRAM ∩ 𝑻𝑹) (APENDICE C2) Al igual que en el caso 1. Para comparar las razones de verosimilitud positiva, tenemos la ecuación (3.42) y calculando las probabilidades desde la tabla 3 ̂ +G∩TR ) − ln(LR ̂ +𝑇𝑅) = Ln(LR + − ) + − = ln(𝛾̂++ ) − ln(𝛾̂++ −ln(𝛾̂++ + 𝛾̂±+) + ln(𝛾̂++ + 𝛾̂±−) = 2.6 ̂ + G∩TR⁄LR ̂ +TR = 14 Entonces LR 61 y por las razones de verosimilitud negativa, las fórmulas correspondientes ̂ −G∩TR ) − ln(LR ̂ −𝑇𝑅) = Ln(LR + − + − ) = ln(𝛾̂−− + 𝛾̂++−) − ln(𝛾̂−− + 𝛾̂+−−) − ln(𝛾̂−− ) + ln(𝛾̂−− =-0.1 ̂ − G∩TR⁄LR ̂ −TR = 0.9 Entonces LR ̂ − G∩TR⁄LR−𝑇𝑅<1 que la TR. En este caso, se prefiere la prueba combinada si LR Caso 3 Adultos (GRAM VS (GRAM ∩ 𝑻𝑹) (APENDICE C3) Para comparar las razones de verosimilitud positiva, se tiene la ecuación (3.42) y calculando las probabilidades desde la tabla 3 ̂ + G∩TR ) − ln(LR ̂ +𝐺) = Ln(LR + − ) + − = ln(𝛾̂++ ) − ln(𝛾̂++ −ln(𝛾̂++ + 𝛾̂±+) + ln(𝛾̂++ + 𝛾̂±−) = 0.72 ̂ + G∩TR⁄LR ̂ +G = 2.06 Entonces LR y por las razones de verosimilitud negativa, las fórmulas correspondientes ̂ − G∩TR ) − ln(LR ̂ −𝐺) = Ln(LR + − + − ) = ln(𝛾̂−− + 𝛾̂++−) − ln(𝛾̂−− + 𝛾̂+−−) − ln(𝛾̂−− ) + ln(𝛾̂−− =0.78 ̂ − G∩TR⁄LR ̂ −G = 2.19 Entonces LR La sensibilidad (Ver Apéndice C3) para adultos es mayor por lo que no se ve afectada con mayor valor en comparación que para los niños, pero la prueba combinada se convierte en específica (0.99). Caso 4 Adultos (TR VS (GRAM ∩ 𝑻𝑹) (APENDICE C4) Al igual que en el caso 1. Para comparar las razones de verosimilitud positiva, tenemos la ecuación (3.42) y calculando las probabilidades desde la tabla 3 ̂ +G∩TR ) − ln(LR ̂ +𝑇𝑅) = Ln(LR + − ) + − = ln(𝛾̂++ ) − ln(𝛾̂++ −ln(𝛾̂++ + 𝛾̂±+) + ln(𝛾̂++ + 𝛾̂±−) = 3.85 ̂ + G∩TR⁄LR ̂ +TR = 47.09 Entonces LR 62 y por las razones de verosimilitud negativa, las fórmulas correspondientes ̂ −G∩TR ) − ln(LR ̂ −𝑇𝑅) = Ln(LR + − + − ) = ln(𝛾̂−− + 𝛾̂++−) − ln(𝛾̂−− + 𝛾̂+−−) − ln(𝛾̂−− ) + ln(𝛾̂−− =-0.04 ̂ − G∩TR⁄LR ̂ −TR = 0.96 Entonces LR Conclusión: La sensibilidad de la tira reactiva (TR) y del tinción de Gram fue superior en las orinas obtenidas de adultos que en las de niños. La especificidad de las pruebas combinadas para los niños y adultos aumento de manera significativa, un poco más en los adultos que en los niños. La tira reactiva es un buen método para descartar una infección urinaria en niños y adultos. Tanto en niños como en adultos la prueba combinada se prefiere respecto a la prueba de tira radioactiva (TR). En adultos tanto sensibilidad como la especificidad se incrementaron (mas la especificidad) en los test combinados (aumento bastante en el test combinado respecto a la tira radioactiva) respecto a cada test individual. El valor predictivo positivo de la tira radioactiva es un poco mayor en niños que en adultos, mientras que para la tinción de GRAM fue mayor en adultos que en niños. Así mismo, el valor predictivo negativo de las dos pruebas es un poco mayor (no significativo) en adultos que en niños. Por último, La tira radioactiva es poco específica tanto en niños como en adultos, con respecto a la tinción de GRAM, esta última es más específica en adultos que en niños. 63 CAPITULO IV PROTOCOLO DE ANÁLISIS DE LOS PROBLEMAS PRESENTADOS La sensibilidad total (a veces llamado "sensibilidad neta") y precisión total (a veces llamado "precisión neta") para las dos pruebas en la combinación se puede obtener usando conceptos de probabilidad. Las pruebas en paralelo (A ∪ 𝐵) muestran un resultado positivo de cualquiera de ellas se considera diagnóstico de la enfermedad, se hacen importantes cuando se necesita un diagnóstico rápido, (Ej.: pacientes hospitalizados o en urgencias), normalmente aumentan la sensibilidad y disminuyen la especificidad. Las pruebas en serie (A ∩ 𝐵)) sólo consideran el diagnóstico de enfermedad cuando todas las pruebas dan positivas, cuando no se precisa una evaluación rápida, cuando alguna de las pruebas tiene un riesgo elevado, aumentan la especificidad y disminuyen la sensibilidad. Surgen así, algunas normas que permiten aplicar cada una de las combinaciones de los test binarios, es decir: 64 La combinación de test en serie son especialmente útiles cuando se requiere una prueba muy específica pero sólo. Dos test de diagnóstico se aplican en serie si ambas pruebas deben ser positivas a fin de apuntar la acción (el resultado combinado se llama "positivo"). Las combinaciones de test en paralelo son útiles cuando se requiere una prueba muy sensible pero sólo se dispone de pruebas relativamente insensibles que miden diferentes fenómenos clínicos. Es menos probable que la enfermedad se pase por alto, pero también hay más falsos positivos, pero se complica teniendo en cuenta que el tratamiento de algunos pacientes se hace complejo sin la enfermedad. Dos pruebas, ya sean idénticas o diferentes, se dice que se debe aplicar en paralelo si un resultado positivo en una de las pruebas es suficiente para solicitar un trabajo de diagnóstico (es decir, el resultado se llama "positivo"). Dos pruebas de tamizaje, ya sean idénticas o diferentes, se dice que se debe aplicar en paralelo si un resultado positivo en una de las pruebas es suficiente para solicitar un trabajo de diagnóstico (es decir, el resultado se llama "positivo"). Es así, que a manera de conclusión las pruebas en paralelo con dos test diagnósticos nos dan dos posibilidades de identificar a cada caso. Para pruebas en paralelo se da mayor sensibilidad. Las pruebas de los modelos serie con dos test diagnósticos nos ofrece dos posibilidades para identificar cada no-caso. Para las pruebas de los modelos serie tiene mayor especificidad. En todos los casos los LR+ fueron superiores a 1, esto es para niños y adultos en la tira radioactiva, la tinción de GRAM y la combinación de las dos, mientras que las LR- tuvieron un valor menor que 1, lo que nos muestra que tanto para niños como para adultos la probabilidad de que al ser el test positivo es mayor en pacientes con la enfermedad que sin la enfermedad y que la probabilidad de que al salir el test negativo es mayor en pacientes sin la condición respecto a los pacientes enfermos. 65 El enfoque abordado en este documento abordo los problemas (de manera particular) en términos de una comparación directa entre el rendimiento diagnóstico de las combinaciones en serie o en paralelo de test diagnósticos para variables dicotómicas pruebas realizadas en los mismos sujetos. Las razones de verosimilitud de la prueba combinada fueron comparadas con los de una prueba individual para evaluar su rendimiento diagnóstico relativo. Puesto que las razones de verosimilitud son una función de sensibilidad y especificidad, que tienen en cuenta la compensación que se produce en estas medidas cuando se combinan las pruebas. También proporcionan una base clínicamente relevante para comparar las pruebas porque LR es igual al cociente de las probabilidades de la enfermedad en el caso de un resultado positivo de pruebas pre y post-test, y LR− es el ratio de análogo de la enfermedad asociado con un resultado negativo de la prueba. Para terminar, se evidencia que el método de comparación de las máximas verosimilitudes es un poco limitado, ya que sólo puede ser usado para tasar si la prueba individual es superior o inferior a la prueba combinada, mostrando que la prueba individual tiene LR− inferior que el combinado ‘la una o la otra’ prueba positiva. Sin embargo, el complemento de este resultado permite que LR para la prueba combinada sea más alto o más abajo que para la prueba individual. De ahí, este método no puede dar una respuesta definitiva en cuanto a si la prueba combinada es superior a la prueba diagnóstica individual. 66 67 CAPITULO V REFERENTES BIBLIOGRAFICOS Agresti, A. (1990). Categorical Data Analysis. New York: Wiley. Biggerstaff, B. (2000). Comparing diagnostic tests: a simple graphic using likelihood ratios. Stat Med 19(5), 649-663. Castaldo, J., Nicholas, G., Ge, W., & Reed, J. (1989). Duplex ultrasound and ocular pneumoplethysmography. Neurol. 46, 518. Feinstein, A. (1975). On the sensitivity, specificity and discrimination of diagnostic tests. En A. Feinstein, Clinical biostatistics (págs. 17: 104-16.). Clin Pharmacol Ther . Fleiss, J. (1981). Statistical Methods for Rates and Proportions. New York: Willey. Gee, W. (1982). Carotid physiology with ocular pneumoplethysmography. Stroke 13, 666-673. Jimenez, A. E. (2008). Inferencia exacta y asintotica para parametros d etest diagnosticos discretos en presencia de verificacion parcial. Granada, España: Editorial Universidad de Granada. Kotz, S., & NL, J. (1972). Distributions in Statistics: Continuous Multivariate Distributions. New York: Wiley. Macaskill y Colls, P. (2002). Assessing the gain in diagnostic performance when combining two diagnostics test. Statistics in medicine, 2527 - 2546. Maguire, W. (1996). Modeling Boolean Decision Rules Applied to Multiple-observer Decision Strategies. Medical Decision Making, 50-57. Marin Jimenez, A. E. (2008). Inferencia exacta y asintotica para parametros de test diagnosticos discretos en presencia de verificacion parcial. Granada: Editor de la Universidad de Granada. Montero, M. A. (2010). Intervalos de confianza y contrastes de hipotesis para parametros de test diagnosticos binarios. Granada, Andalucia, España. Salech y Cols, F. (2008). Estudios que evalúan un test diagnostico, interpretando sus resultados. Revista de Medicina, Chile, 136: 1203-1208. Simel, D., Samsa, G., & Matchar, D. (1991). Likelihood ratios with con_dence: sample size estimation for diagnostic test studies. Journal of Clinical Epidemiology , 44(8): 763-770. 68 APENDICE A Uso de las pruebas pap y vph en combinación (pap ∪ 𝑽𝑷𝑯) A1. Resultados del test Pap para HSIL Estado de la enfermedad Positivo (T=1) Presencia( D=1) 70 10 80 Ausencia ( D=0) 122 162 284 192 172 364 Negativo ( T=0) Total Calculo de los parámetros Se 0.88 Sp 0.57 LR+ 2.04 LR- 0.22 OR 9.30 A2. Resultados del test pap para LSIL o HSIL Estado de Positivo Negativo la Total (T=1) ( T=0) enfermedad Presencia ( D=1) Ausencia ( D=0) 145 41 186 47 131 178 192 172 Calculo de los parámetros Se 0.78 Sp 0.74 LR+ 2.95 LR- 0.30 OR 9.86 364 69 A3. Resultados del test HPV para HSIL Estado de la enfermedad Positivo (T=1) Negativo ( T=0) Total Presencia( D=1) 60 20 80 Ausencia ( D=0) 103 181 284 163 201 Calculo de los parámetros Se 0.75 364 Sp 0.64 LR+ 2.07 LR- 0.39 OR 5.27 A4. Resultados del test HPV para HSIL O LSIL Estado de la Positivo Negativo enfermedad (T=1) ( T=0) Total Presencia ( D=1) 123 63 186 Ausencia ( D=0) 40 138 178 163 201 Calculo de los parámetros Se 0.66 364 Sp 0.78 LR+ 2.94 LR- 0.44 OR 6.74 70 A5. Resultados del test PAP O HPV para HSIL Positivo Negativo ( HVP Total (T=1) T=0) PAP D=1 D=0 Presencia( D=1) + 54 16 75 47 192 Ausencia ( D=0) - 6 4 28 134 172 60 20 103 181 364 Total Calculo de los parámetros Se 0.95 Sp 0.47 LR+ 1.80 LR- 0.11 OR 16.97 A 6. Resultados del test PAP O HPV para HSIL o LSIL Positivo Negativo HVP Total (T=1) ( T=0) PAP Presencia( D=1) Ausencia ( D=0) Total 105 40 24 23 192 18 23 16 115 172 123 63 40 138 364 Se 0.88 Sp 0.65 LR+ 2.48 LR- 0.19 OR 12.94 71 Apéndice B Uso de la ecografía Doppler (DU) y la neumoplastimografía ocular (OPG) combinadas o por separado para el diagnóstico de la estenosis carotidea grave. Resultados del test DU O OPG para diagnosticar estenosis carotidea grave OPG Positivo (T=1) Negativo ( T=0) Total DU Presencia( 158 30 10 18 216 D=1) Ausencia ( 22 6 53 241 322 D=0) Total 180 36 63 259 538 Calculo de los parámetros Se DU o OPG 0.97 Sp 0.75 LR+ 3.86 LR- 0.04 OR 104.14 DU Parámetros Probabilidades Se Sp LR+ LROR 0.87 0.91 10.01 0.14 70.50 OPG 0.74 0.88 6.07 0.30 20.56 π ̂+ ++ π ̂+ -+ π ̂+ -π ̂-+ + π ̂-- + π ̂-- - 0.870 0.102 0.028 0.087 0.165 0.748 72 Apéndice C ¿Debería complementarse el uso de la tira radiactiva para la determinación de la infección urinaria con una tinción de GRAM para conseguir un aumento de la precisión diagnóstica? Ese resultado ¿es el mismo en niños que en adultos? C 1. Resultados del test GRAM Y TR para infección urinaria Niños Positivo (T=1) Negativo ( T=0) Presencia( D=1) 50 12 21 7 90 Ausencia ( D=0) 7 5 190 255 457 Total 57 17 211 262 547 TR Total GRAM Parámetros combinados en serie Parametros individuales Se Sp LR+ LROR Test Se 0.65 0.97 24.44 0.36 67.09 GRAM TR 0.84 0.77 Sp LR+ LROR 0.94 14.15 0.17 82.11 Probabilidade s 0.676 0.162 0.162 0.044 0.015 0.941 0.55 1.73 0.41 4.16 73 C2. Resultados del test TR Y GRAM para infección urinaria Niños GRAM Positivo (T=1) TR Negativo ( T=0) D=1 Total D=0 Presencia( D=1) + 50 7 21 190 268 Ausencia ( D=0) - 12 5 7 255 279 62 12 28 445 547 Total Probabilidades + π ̂+ + 0.676 + π ̂- + 0.095 + π ̂- 0.230 π ̂+ + 0.044 π ̂- + 0.402 π ̂- 0.554 74 C3. Resultados del test GRAM Y TR para infección urinaria Adultos TR Positivo (T=1) Negativo ( T=0) Tota l GRAM Presencia( D=1) 27 3 7 3 40 Ausencia ( D=0) 2 1 215 283 501 Total 29 4 222 286 541 Parametros combinados en serie Parametros individuales Se Sp LR+ LROR Test Se Sp LR+ LROR 33 0.80 0.99 97.21 0.20 479.42 GRAM 0.91 0.98 47.09 0.09 508.00 508 Probabilidades 0.818 0.091 0.091 0.014 TR 0.88 0.57 2.06 0.21 9.78 0.061023622 0.980 75 C4. Resultados del test GRAM Y TR para infección urinaria Adultos GRM Positivo (T=1) Negativo ( T=0) Total TR Presencia( D=1) 27 2 7 215 251 Ausencia ( D=0) 1 1 3 283 288 Total 28 3 10 498 539 31 Probabilidades π ̂+ 0.871 ++ + π ̂- + 0.065 + π ̂- 0.065 π ̂+ + 0.014 π ̂- + 0.423 π ̂- 0.563 508 76