Memoria Máster LuisAlexisPinzónCastro

Anuncio
Máster Oficial en Estadística Aplicada
Universidad de Granada
______________________________________________________________________
¿Cuánto se gana en la precisión del diagnóstico si
se combinan estos test? Una solución estadística a
un problema clínico.
______________________________________________________________________
Proyecto Fin de Máster
Luis Alexys Pinzón Castro
Tutor: Juan de Dios Luna del Castillo
Septiembre de 2014
DEPARTAMENTO DE ESTADISTICA E
INVESTIGACION OPERATIVA
2
Dedicado a:.
La paciencia infinita de mí pequeña y hermosa familia, ya que me he perdido de muchas
risas y travesuras de Nicolas Alejandro, de sus tareas e improvisadas travesuras, de las
conversaciones pendientes con mi madre Gilma y de la agradable compañía de mi esposa
Marisol, a ellos con todo mi amor.
A la gloria infinita del Gran Arquitecto del Universo al cual le ofrezco disculpas por
ocupar mi mente y cambiar por instantes la belleza de su creación y la ayuda a mis
congéneres por el mundo fascinante de la estadística. El sabrá perdonarme y sabrá
mantener en el oriente eterno a mi padre Luis Alfonso, ser humano del que aprendí a ser
mejor hombre.
3
A mi padre,
In Memoriam
4
AGRADECIMIENTOS
En el ambiente virtual de la red, la UGR, nos ha planteado un método de aprendizaje.
Detrás de la estructura del andamiaje de esta plataforma existen seres humanos que con
dedicación, profesionalismo altruismo realizaron una propuesta de la cual han resultado
sucesos muy interesantes, a ellos que al otro lado de la red estuvieron pendientes de todo
el desarrollo de estas actividades, muchas gracias excelentes docentes.
Desde el inicio de mi labor como docente de estadística, en lecturas previas visualice las
riquezas de la información y aplicabilidad encontradas en la bioestadística. El panorama
de investigación propuesta por esta área del conocimiento, abordan muchos contextos
cuantitativos y cualitativos aportantes a la clínica. Por este hecho expreso un inmenso
agradecimiento al doctor Juan de Dios Luna del Castillo, quien me acoge con su experticia
y bondad brindándome la más gentil y oportuna asesoría que he tenido en mi transcurrir
académico, así aportó todo de sí en la construcción de esta experiencia, muchas gracias
Doctor.
En Colombia existen personas que en mi ambiente académico y contractual me han
propiciado espacios que facilitaron mi labor de estudiante. La decana de mi facultad en
la Universidad, mis jefes y compañeros de la Alcaldía de Villavicencio, a ellos muchas
gracias por su apoyo.
Finalmente existen otros apoyos que motivan a continuar con estos proyectos que muchas
veces se tornan complicados, a mis amigos, hermanas, estudiantes y en general a todos a
quienes aportaron en este proceso de formación, muchas gracias.
5
Índice
RESUMEN .................................................................... ¡Error! Marcador no definido.
LISTADO DE TABLAS ................................................................................................. 9
LISTADO DE FIGURAS ............................................................................................. 10
CAPITULO I TEST DICOTÓMICOS Y TEST CUANTITATIVOS ..................... 11
1.1
Introducción a las medidas de precisión de un test diagnóstico ................ 11
1.2
Tests diagnósticos binarios. ........................................................................... 13
1.2.1
Medidas de precisión de un test diagnóstico. ....................................... 14
1.2.2
Parámetros que no dependen de la prevalencia de la enfermedad. ... 15
1.2.2.1
Sensibilidad y especificidad. ............................................................... 16
1.2.2.2
Razones de verosimilitudes (Likelihood Ratio). ............................... 19
1.2.2.3
La razón del producto cruzado diagnóstica. .................................... 21
1.2.2.4
Índice de Youden................................................................................. 22
1.2.3
Parámetros que dependen de la prevalencia de la enfermedad. ........ 23
1.2.3.1
1.3
Valores predictivos.............................................................................. 23
Tests diagnósticos cuantitativos. ............................................................... 26
1.3.1
La curva ROC para tests diagnósticos continuos. ............................... 27
1.3.2
Algunas propiedades matemáticas de la curva ROC. ......................... 28
1.3.2.1
Propiedad 1. ......................................................................................... 28
1.3.2.2
Propiedad 2. ......................................................................................... 28
1.3.2.3
Propiedad 3. ......................................................................................... 29
1.3.2.4
Propiedad 4. ......................................................................................... 29
1.3.2.5
Propiedad 5. ......................................................................................... 30
1.3.2.6
Propiedad 6. ......................................................................................... 30
1.3.2.7
Propiedad 7. ......................................................................................... 30
1.3.3
Ventajas de la curva COR ..................................................................... 31
1.3.4
Área bajo la curva ROC como medida de resumen ............................ 32
CAPITULO II EL PLANTEAMIENTO DE LOS PROBLEMAS A RESOLVER Y
EL OBJETIVO GENERAL DE ESTE TRABAJO. ................................................. 36
CAPITULO III LA COMBINACIÓN DE TESTS DIAGNÓSTICOS BINARIOS 38
3.1 Distintas formas de combinación de dos tests diagnósticos binarios y su
influencia en la sensibilidad y especificidad del test. ............................................. 38
3.1.1
Combinaciones de tests diagnósticos..................................................... 38
3.1.2
Efecto de la combinación en la sensibilidad y la especificidad ........... 39
3.1.3
Efectos sobre los valores predictivos ..................................................... 40
3.1.4
Efectos sobre las razones de verosimilitud ........................................... 41
3.1.5
Estimación puntual y por intervalos de las razones de verosimilitudes
de tests individuales, de sus combinaciones y de las diferencias entre tests
individuales y tests combinados........................................................................... 44
3.1.5.1
Estimación puntual y por intervalos de las razones de verosimilitud
para test individuales............................................................................................ 44
3.1.5.2
de test
Estimación puntual de razones de verosimilitud para combinación
46
3.1.5.3
Estimación por intervalos de razones de verosimilitud para
combinación de test .............................................................................................. 47
3.2 Un problema de combinación de test diagnósticos binarios con las
soluciones expuestas. Recomendaciones generales. ............................................... 50
3.2.1
Uso de las pruebas pap y vph en combinación (pap ∪ 𝑽𝑷𝑯) ............ 50
3.2.2
Uso de la ecografía Doppler (DU) y la neumoplastimografía ocular
(OPG) combinadas o por separado para el diagnóstico de la estenosis
carotidea grave. ..................................................................................................... 56
3.2.3
¿Debería complementarse el uso de la tira radiactiva para la
determinación de la infección urinaria con una tinción de GRAM para
conseguir un aumento de la precisión diagnóstica? Ese resultado ¿es el mismo
en niños que en adultos? ...................................................................................... 60
CAPITULO IV PROTOCOLO DE ANÁLISIS DE LOS PROBLEMAS
PRESENTADOS ........................................................................................................... 64
CAPITULO V REFERENTES BIBLIOGRAFICOS ............................................... 68
APENDICE ................................................................................................................... 69
Apéndice A Uso de las pruebas pap y vph en combinación (pap ∪ 𝑽𝑷𝑯) ........ 69
A1. Resultados del test Pap para HSIL .............................................................. 69
A2. Resultados del test pap para LSIL o HSIL ................................................. 69
A3. Resultados del test HPV para HSIL............................................................. 70
A4. Resultados del test HPV para HSIL O LSIL .............................................. 70
A5. Resultados del test PAP O HPV para HSIL ................................................ 71
A 6. Resultados del test PAP O HPV para HSIL o LSIL.................................. 71
Apéndice B Uso de la ecografía Doppler (DU) y la neumoplastimografía ocular
(OPG) combinadas o por separado para el diagnóstico de la estenosis carotidea
grave........................................................................................................................... 72
Apéndice C ¿Debería complementarse el uso de la tira radiactiva para la
determinación de la infección urinaria con una tinción de GRAM para conseguir
un aumento de la precisión diagnóstica? Ese resultado ¿es el mismo en niños
que en adultos?.......................................................................................................... 73
7
8
LISTADO DE TABLAS
Tabla 1Clasificacion de los resultados de un test diagnostico binario para los estados de
la enfermedad ................................................................................................................. 15
Tabla 2Tabla de probabilidad de los datos ..................................................................... 17
Tabla 3 probabilidades de cada uno de los tests y de sus combinaciones en serie o en
paralelo para el caso de dos tests diagnósticos binarios, A y B que sean
condicionalmente independientes. .................................................................................. 46
Tabla 4 La citología de repetición clasificada por la prueba de Papanicolau (Papilla) y
HPV prueba resultados dentro de categorías de la enfermedad (n=364). ...................... 51
Tabla 5 Estimación de la sensibilidad, especificidad, razones de verosimilitud y odds
ratio para repetición la citología (Pap), HPV y la prueba combinada P ∪H en el umbral
de cada enfermedad. ....................................................................................................... 51
Tabla 6 Datos originales apartado 3 Utility of combining two diagnostic test, Browiak
Dale y Reed JF en 1991, pag 174 ................................................................................... 57
Tabla 7 Resultados reorganizados según tabla B1 Assessing the gain in diagnostic
performance when combining two diagnostic tests Petra Macaskill y Colls, Statist. Med.
2002, pag 2543 ............................................................................................................... 57
Tabla 8 Estimación de la sensibilidad, especificidad, razones de verosimilitud y odds
ratio para DU, OPG y la prueba combinada DU ∪ OPG en el umbral de la enfermedad.
........................................................................................................................................ 58
Tabla 9 Datos de los tests para la determinación de la Infección urinaria. Niños y
Adultos............................................................................................................................ 60
9
LISTADO DE FIGURAS
Figura 1Grafica relacional en SPSS valores predictivos para diferentes prevalencias en
una resonancia magnética y una mamografía. ............................................................... 25
Figura 2Curva COR ........................................................................................................ 27
Figura 3Diferentes curvas ROC correspondientes a test diagnósticos de diferente
comportamiento .............................................................................................................. 29
Figura 4Regiones críticas para razones de verosimilitud usando las: (a) regla 'positivo';
(b) ' regla de ambos positivo'. ......................................................................................... 43
Figura 5 Razones de verosimilitud por la sola prueba (Pap) y combinado prueba P ∪H
cuando: (a) enfermedad = LSIL o HSIL; (b) la enfermedad = HSIL. ............................ 52
Figura 6 Razones de verosimilitud por la sola prueba (VPH) y combinado prueba P ∪H
cuando: (a) enfermedad = LSIL o HSIL; (b) la enfermedad = HSIL ............................. 53
Figura 7 Razones de verosimilitud por la sola prueba (DU) y combinado prueba
DU∪OPG (a); (b) para la sola prueba (OPG) y combinado DU∪OPG (la enfermedad =
estenosis grave)............................................................................................................... 58
10
CAPITULO I
TEST DICOTÓMICOS Y TEST CUANTITATIVOS
1.1 Introducción a las medidas de precisión de un test diagnóstico
Un test diagnóstico es un procedimiento que tiene por objeto emitir un juicio sobre la
presencia o no de una cierta enfermedad psicofísica en un sujeto; sin embargo este
procedimiento puede manifestar presencia de una enfermedad que no existe (falso
positivo) o ausencia de una enfermedad que si existe (falso negativo), de manera que es
posible que este sujeto a algún tipo de error.
En primer lugar, las medidas de precisión de los test diagnósticos deben tener una
capacidad inherente para detectar correctamente un estado cuando, en realidad, está
presente y descartar correctamente una afección cuando verdaderamente está ausente.
Estos atributos se consideran fundamentales para los mismos test. Que no se vean
fuertemente alterados con diferentes muestras de pacientes con diferentes tasas de
prevalencia de la enfermedad. Es importante reconocer, sin embargo, que estos atributos
pueden cambiar algo con el paso del tiempo y de la población en las especificaciones
técnicas de su evaluación, la interpretación clínica del test y el cambio en las
características en la enfermedad del paciente.
La exactitud de una prueba se mide comparando los resultados de pruebas con el estado
de condición verdadero del paciente. Se asume que el estado de condición verdadero sea
uno de dos estados mutuamente excluyentes: "la condición está presente" o "la condición
11
es ausente". Por ejemplo la presencia de Hepatitis C o no en un grupo de empleados en
alguna empresa.
Los tests diagnósticos son muy usados en la práctica médica en general, se suelen usar en
la investigación de una población específica para evidenciar la presencia de una
enfermedad y confirmar o desmentir el resultado de un diagnóstico provisional de un
paciente.
La interpretación de un test diagnóstico depende tanto de la habilidad que tiene el test
para discriminar a los individuos enfermos de los sanos como de las características
particulares de cada sujeto y del ambiente en el que se aplica el test (debe ser propicio);
así mismo, un test es útil si permite diferenciar entre distintas enfermedades o condiciones
clínicas, así como entre la condición de sano y la de enfermo.
En las aplicaciones de los tests diagnósticos, un argumento indispensable es evaluar su
exactitud, teniendo en cuenta que la exactitud de un método es la cualidad que tiene ese
método de medir realmente lo que dice que mide y eso, generalmente no hace referencia
al diseño del estudio ni a la ausencia de sesgos debidos al diseño. Una vez definida la
exactitud del estudio, se debe analizar la correcta interpretación de los resultados
presentados en ellos, ya que es posible que un estudio cumpla con todas las características
que garanticen su validez, pero, si los resultados muestran que carece de capacidad de
discriminar entre las condiciones de interés, éste no tendrá utilidad.
Debido a la importancia de los tests diagnósticos en la práctica científica surge el
requerimiento de medir la precisión con la que el test discrimina a los sujetos enfermos
de los sanos. Para evaluar la exactitud de un test diagnóstico es necesario tener a mano
un estimador insesgado (Jimenez, 2008) de la exactitud del test, para tener acceso a este
estimador se requiere poder determinar el estado de salud verdadero de cada paciente,
independientemente del resultado del test. El procedimiento por el que se conoce el estado
de salud verdadero de cada paciente es el “gold estándar”, que se supone es una prueba
diagnóstica determinante, por ejemplo una biopsia o una evaluación clínica.
El Gold estándar, es, por lo tanto, una técnica diagnóstica que define la presencia de la
condición con la mayor certeza conocida, determina el estado de condición verdadero (el
Gold estándar es una fuente de información, completamente diferente e independiente de
12
la prueba o pruebas bajo la evaluación), que muestra el estado de condición verdadero del
paciente. Los patrones oro diferentes se usan para pruebas y aplicaciones diferentes;
algunos de los ejemplos comunes son informes de la autopsia, conclusiones de la cirugía,
resultados de la patología de especímenes de la biopsia y los resultados de otras pruebas
diagnósticas que tienen perfecta o están tan cerca de la exactitud perfecta que nos parece
tal.
La clasificación de los tests diagnósticos se puede hacer en tres grandes grupos:

Test diagnósticos binarios: según si el resultado del test es dicotómico (por
ejemplo dos categorías, positivo o negativo), es decir, el sujeto presenta o no la
enfermedad, por ejemplo presenta o no Hepatitis B.

Test diagnósticos ordinales: según si el resultado es cualitativo y que sus valores
se puedan ordenar (por ejemplo una clasificación de la frecuencia de un
comportamiento muy utilizada en psicología como: nunca, pocas veces, alguna
vez y muchas veces) y por último,

Test diagnósticos cuantitativos: Según si el resultado se puede definir en una
escala de valores continua(o discreta) en un intervalo (o continuos) (por ejemplo
la medición del índice de placa bacteriana). En la práctica, los tests más comunes
son los binarios porque su manejo es más sencillo.
En el presente estudio nos centraremos en la posible ganancia de precisión del
diagnóstico si se combinan dos tests diagnósticos.
1.2 Tests diagnósticos binarios.
Como se ha mencionado en la introducción, los test diagnósticos binarios son aquellos
tests en los que el resultado muestra la presencia de la enfermedad o la ausencia de la
misma (dicotómicos). Con frecuencia estos tests presentan un resultado con un nivel de
incertidumbre en el que no se puede decir si el test es positivo o negativo, lo que hace de
hecho que no sean realmente tests binarios; sin embargo en la práctica se refuerza a que
el resultado sea binario repitiendo el test hasta que se alcanza un resultado positivo o
negativo.
13
En este apartado se describen diversas medidas de la precisión de los test diagnósticos
binarios. En primer lugar, introduciendo medidas de precisión intrínseca que miden la
capacidad inherente para detectar correctamente un estado cuando, en realidad, está
presente y en descartar correctamente una afección cuando verdaderamente está ausente.
Estos atributos se consideran fundamentales para los mismos test, que no cambien con
diferentes muestras de pacientes con diferentes tasas de prevalencia de la enfermedad. Es
importante reconocer, sin embargo, que estos atributos pueden cambiar algo con el paso
del tiempo y de la población en las especificaciones técnicas de la máquina de imágenes,
la interpretación clínica del test y el cambio en las características del paciente (P.ej.
severidad de la enfermedad).
1.2.1
Medidas de precisión de un test diagnóstico.
Se considerara en lo que sigue una enfermedad tal que la presentan o no los sujetos de
una población. Supóngase que está a disposición un gold estándar para diagnosticar la
enfermedad. Así, se dice que, sea D=1 el suceso que denota que un sujeto de la población
presenta la enfermedad y D=0 el suceso que denota que un sujeto no presenta la
enfermedad. A la probabilidad de que un sujeto de la población tenga la enfermedad se le
denomina prevalencia de la enfermedad en la población y se denota por P(D=1).
Considérese un test diagnóstico binario, con los resultados: positivo T=1 y negativo T=0.
Si la prueba tiene resultado positivo se puede considerar que el sujeto tiene la enfermedad
y si la prueba tiene resultado negativo se considera que el sujeto no tiene la enfermedad.
No se puede olvidar que un test diagnóstico puede equivocarse por lo que se tienen
determinada probabilidad de acertar y otra de fallar en el diagnóstico de la enfermedad
usando el test.
Los resultados del test diagnóstico se pueden clasificar como verdaderos positivos (TP),
verdaderos negativos (TN), falsos positivos (FP) o falsos negativos (FN). Un verdadero
positivo ocurre cuando un sujeto enfermo es correctamente clasificado como positivo en
el resultado del test, un verdadero negativo ocurre cuando un sujeto no afectado por la
enfermedad tiene un resultado negativo en el test diagnóstico, un falso positivo ocurre
cuando un sujeto no afectado por la enfermedad tiene un resultado positivo en el test
diagnóstico y un falso negativo ocurre cuando un sujeto afectado por la enfermedad
14
obtiene un resultado negativo en el test diagnóstico. Por lo tanto una prueba diagnóstica
puede tener dos tipos de errores, los errores falsos positivos y los errores falsos negativos.
La Tabla 1 muestra la clasificación de los resultados de la prueba diagnóstica para los
distintos estados de enfermedad, en el formato clásico de una tabla 2x2.
Tabla 1Clasificacion de los resultados de un test diagnostico binario para los estados de
la enfermedad
Resultado del test diagnostico binario
Estado de
la
enfermedad
T=1
T=0
D=1
Positivo verdadero
(TP)
Negativo Falso (FN)
D=0
Positivo Falso (FP)
Negativo verdadero
(TN)
A partir de esta tabla se presentaran y definirán todos los parámetros de los tests
diagnósticos binarios, tanto en el caso en el que dependan de la prevalencia de la
enfermedad como en el caso en el que no dependan de la prevalencia de la enfermedad.
De esta manera se dividirá nuestro análisis en presentar las medidas de precisión de un
test diagnostico cuando dependen de la prevalencia de la enfermedad y cuando no.
1.2.2
Parámetros que no dependen de la prevalencia de la enfermedad.
Se estudiará primero aquellos parámetros que, condicionando convenientemente, no
dependen de la población en la que se apliquen, siendo características que sólo dependen
del test diagnóstico, definiendo de manera intrínseca o la calidad del mismo, es decir su
precisión o lo informativo que resulta ese test.
La sensibilidad y especificidad son medidas de precisión en el diagnóstico que no se ven
afectadas por la prevalencia de la enfermedad.
15
1.2.2.1 Sensibilidad y especificidad.
En la literatura médica un test diagnóstico (Montero, 2010) es normalmente medido por
las probabilidades condicionadas de clasificar correctamente un paciente enfermo o no
enfermo. Estas probabilidades son la sensibilidad y especificidad.
Sus definiciones son resumidas en la tabla 2, en donde las filas resumen los datos de
acuerdo con el auténtico estado de los sujetos y las columnas resumen los resultados de
la prueba (subrayando que la sensibilidad y la especificidad se calculan a partir de las dos
diferentes submuestras de sujetos), nos indican el verdadero estado de la condición en el
indicador variable D, donde, como ya se ha mencionado D =1 (presenta la enfermedad),
el estado está presente y D=0 si el estado está ausente (no presenta la enfermedad). Los
resultados del test diagnóstico que indican, de igual manera que el estado está presente se
llaman positivos; los que indican que el estado está ausente se llama negativo. Nos indican
resultados positivos de la prueba como T=1 (el sujeto presenta la enfermedad), resultados
negativos de la prueba T=0 (el sujeto no presenta la enfermedad). El número total de
sujetos con y sin la condición se notan, respectivamente con n1 y n0 , el número total de
sujetos, con la enfermedad, que dan positivo en la prueba y negativo se notan,
respectivamente con TP y FN respectivamente; y el número total de sujetos sin el estado
en donde el resultado sea positivo y negativo, respectivamente FP y TN. El número total
de pacientes en el grupo de estudio, N es igual a N = n1 + no =TP+FN+FP+TN.
Definición 1.1.
La sensibilidad (Se) de un test diagnóstico es su capacidad para detectar la condición
cuando realmente está presente. Se escribe la sensibilidad como Se = P(T = 1|D = 1)
que se puede leer así: La sensibilidad (Se) es la probabilidad que el resultado del test es
positivo (T=1), dado que la condición (enfermedad) está presente (D = 1). Esto es, La
estimación puntual de la sensibilidad, a partir de los datos de la tabla 2 sería:
̂ = TP/n1
Se
(1.1)
16
Definición 1.2.
La especificidad (Sp) de un test diagnóstico es su capacidad para excluir la enfermedad
en los pacientes sin la condición. Se escribe especificidad como Sp = P(𝑇 = 0⁄𝐷 = 0),
que se puede leer así: La especificidad (Sp) es la probabilidad que el resultado del test es
negativo (T=0), dado que la condición (enfermedad) está ausente (D=0). Esto es, La
estimación puntual de la especificidad, a partir de los datos de la tabla 2 sería:
𝑠̂𝑝 = 𝑇𝑁⁄𝑛0 (1.2)
Tabla 2Tabla de probabilidad de los datos
Resultado del test diagnostico binario
Estado de la
enfermedad
Presencia( D=1)
Ausencia ( D=0)
Positivo (T=1)
Se =
TP
n1
Positivo Falso
(FP=FP/no )
Negativo ( T=0)
Total
Negativo Falso
(FN=FN/n1 )
Sp =
TN
no
n1
n0
Con las definiciones anteriores, se evidencia, que tanto la sensibilidad como la
especificidad de un test diagnóstico son probabilidades de aciertos. La suma de las
probabilidades de un verdadero positivo y de un falso negativo es la unidad.
P(T = 1/D = 1) + P(𝑇 = 0⁄𝐷 = 0) = 1. De manera análoga,
P(𝑇 = 0⁄𝐷 = 0) + P(𝑇 = 1⁄𝐷 = 0) = 1.
Un test diagnóstico es esencialmente un procedimiento que tiene una probabilidad distinta
de 1 de acertar con el verdadero estado de la enfermedad tanto si el sujeto está enfermo
como si el sujeto está sano.
Además no es ningún disparate pensar que todo tests diagnóstico tiene una sensibilidad
y una especificidad superior a 0 ya que de no ser así estaríamos en la presencia de un tests
diagnóstico inútil lo que, no se daría en la práctica. Por tanto es claro que 0< Sp, Se<1 y
17
eso nos acompañará a partir de ahora. De hecho se debería exigir que por lo menos la
sensibilidad o la especificidad fueran superiores a ½, de tal manera que como mínimo se
comportara como el lanzamiento de una moneda al aire para decidir el verdadero estado
del paciente.
Por otro lado, es claro que tanto la sensibilidad como la especificidad no dependen de la
prevalencia de la enfermedad que se esté estudiando y desde ese punto de vista se dice,
que no dependen de la población en la que se aplican sino sólo de la prueba. Sin embargo,
las características propias de la prueba pueden hacer que la sensibilidad y la especificidad
dependan de las características de la población. Un ejemplo que se presenta con mucha
frecuencia, es el de los ultrasonidos como tests diagnóstico de la apendicitis aguda que
tiene una menor sensibilidad si se aplica en niños que si se aplica en adultos, siendo la
prevalencia de la apendicitis aguda muy parecida en poblaciones de adultos y en
poblaciones de niños. Resumiendo la sensibilidad y la especificidad miden la exactitud y
sólo dependen de características intrínsecas de la misma.
Como nota complementaria se tiene que si un test es muy sensible, un resultado negativo
descarta la enfermedad; así mismo, si un test es muy específico un resultado positivo
confirma la enfermedad.
Por otro lado si bien la sensibilidad y especificidad no varían con la prevalencia de la
enfermedad (en general), no presentan la probabilidad que tiene un paciente de presentar
la enfermedad. Los valores predictivos muestran la probabilidad que tiene un sujeto de
presentar la enfermedad, pero varían dependiendo de la prevalencia de la misma. Otra
desventaja de utilizar estas medidas de exactitud es que para calcularlas, necesariamente
se requiere utilizar valores binarios (si o no, positivo o negativo, presente o ausente), lo
que limita su capacidad diagnóstica.
A continuación se muestran otras formas de expresar la exactitud del test, que intentan
eliminar las limitaciones que se acaban de presentar.
18
1.2.2.2 Razones de verosimilitudes (Likelihood Ratio).
Frente a medidas de exactitud del test diagnóstico como las que se describieron en
párrafos anteriores, existen unas medidas que caracterizan algo adicional de los mismos,
esto es lo informativo y que a su vez son más usadas; éstas medidas son la razón de
verosimilitud positiva y la razón de verosimilitud negativa.
Definición 1.3.
La razón de verosimilitud es el cociente de dos probabilidades, la probabilidad de un
resultado de la prueba particular en pacientes con presencia de la enfermedad entre la
probabilidad del resultado de la prueba en pacientes sin la enfermedad.
Se denota la razón de verosimilitudes como LR. Debido a que la exactitud de un test tiene
dos dimensiones se tiene la razón de verosimilitud para un test positivo, LR+ (que tan
probable es encontrar el test positivo en alguien enfermo respecto a alguien sano) y la
razón de verosimilitud para una test negativo LR− (que tan probable es encontrar un test
negativo en alguien enfermo respecto a alguien sano).
LR+ =P(𝑇 = 1⁄𝐷 = 1)⁄P(𝑇 = 1⁄𝐷 = 0) = 𝑆𝑒 ⁄( 1 − Sp )
(1.3)
LR− = 𝑃 (𝑇 = 0|𝐷 = 1)⁄𝑃(𝑇 = 0|𝐷 = 0) = 1 − 𝑆𝑒 ⁄𝑆𝑝 (1.4)
Las razones de verisimilitud expresan una cifra que va desde 0 hasta ∞. Así, una prueba
inútil, que no tiene alguna relación con el estado de la enfermedad tiene LRs=1. Por el
contrario una prueba perfecta, en la que para cada T 1 entonces D 1 y en cada T 0
entonces D 0 con probabilidad uno, tiene parámetros de 𝐿𝑅+= ∞ y 𝐿𝑅 −= 0. Una LR
> 1 indica que el resultado de prueba es más probable en pacientes con la enfermedad
que en pacientes sin la enfermedad; y una LR < 1 indica que el resultado de prueba es
más probable en pacientes sin la condición.
Una característica importante de las LRs es que cuantifican el aumento en el conocimiento
sobre la presencia de la enfermedad, que es adquirido a través de la prueba diagnóstica.
19
El número de veces que es mayor la probabilidad de que un individuo tenga la enfermedad
frente a que no la tenga antes de que la prueba sea llevada a cabo, es decir, en ausencia
del resultado del test es:
Odds Pre-test=P(D = 1)⁄P(D = 0) (1.5)
Después de llevar a cabo la prueba esta razón se transforman con el conocimiento de los
resultados de ésta, entonces es:
Odds Post-test=P(D = 1⁄T = 1)⁄P(D = 0⁄T = 1) =
P(D = 1⁄T = 0)⁄P(D = 0⁄T = 0) (1.6)
Las razones de verosimilitud relacionan estas dos razones.
Odds Post-test (T = 1)= LR+ x (Odds Pre-test)
(1.7)
Odds Post-test (T = 0)= LR− x (Odds Pre-test)
(1.8)
Para el caso de test positivo:
Post-test (T = 1)=P(D = 1|T = 1)⁄P(D = 0|T = 1)=
(P(D = 1|T = 1)⁄P(T = 1))⁄(P(D = 0|T = 1)⁄P(T = 1))
(1.9)
Es decir:
𝑃(𝑇 = 1⁄𝐷 = 1)𝑃(𝐷 = 1)⁄𝑃(𝑇 = 1⁄𝐷 = 0)𝑃 (𝐷 = 0) = 𝐿𝑅 +
∗ (𝑃(𝐷 = 1))⁄(𝑃(𝐷 = 0)) =
LR+ x Pre-test
(1.10)
Por lo tanto, los parámetros (LR+, LR-) cuantifican el cambio en las probabilidades de
enfermedad obtenido por el conocimiento de los resultados de la prueba diagnóstica.
Es claro, mirando las expresiones anteriores, que la exigencia que hacíamos antes de tests
no degenerados, sensibilidad y especificidad estrictamente entre 0 y 1, sigue siendo válida
ahora. Lo lógico es que en un test diagnóstico ocurra que P(T=1|D=1) > P(T=1|D=0) y
por tanto LR+ > 1, indicando un aporte mayor de información del test para un resultado
positivo conforme más separado esté de 1. De la misma manera en un test diagnóstico lo
lógico es que P(T=0|D=1) < P(T=0|D=0) y de ahí ocurrirá que LR¯ < 1 siendo más
informativo el test con respecto al negativo conforme este más alejado de 1 siendo inferior
a él. Tanto una medida como la otra reflejan muy bien los aportes del test cuando da
positivo y cuando da negativo a la afirmación o al descarte de la enfermedad.
20
Una ventaja de la LR, es que se puede obtener un LR diferente para cada valor del test, o
para un rango de valores. Por ejemplo, si se tiene una determinada enfermedad, en que el
test que la detecta tiene un valor de 0 en sujetos sanos, y a medida que este valor aumenta,
la probabilidad de tener la enfermedad va aumentando; entonces, se puede calcular el LR
para rangos diferentes y así estimar cual será el aumento en la probabilidad con valores
diferentes. “Así, un valor del test entre 0 y 10 podría tener un LR de 2, lo cual aumentaría
un poco la probabilidad, un valor entre 11-20 tendría un LR mayor (por ejemplo un LR
de 5), y por tanto aumentaría un poco más la probabilidad. Finalmente, un valor de 50
tendría un LR tan alto (10 o más) que en un número muy alto de casos confirmaría la
enfermedad. No es posible hacer esto con la sensibilidad y la especificidad” (Salech y
Cols, 2008). Los LR permiten, así, resumir en un solo valor, dos parámetros de los test
diagnósticos, la sensibilidad y la especificidad, y dado que su cálculo se hace a partir de
ellos, su valor es independiente de la prevalencia de la condición en la muestra
seleccionada.
1.2.2.3 La razón del producto cruzado diagnóstica.
La razón del producto cruzado (odds ratio) es una medida de asociación entre dos
caracteres de tipo binario que es estimable en cualquier diseño. Aunque no es una medida
demasiado frecuente en los tests diagnósticos a veces se usa la razón del producto cruzado
diagnóstica (DOR) que se define como:
DOR = 𝐿𝑅 +⁄𝐿𝑅−
(1.11)
De esta manera, la razón del producto cruzado mezcla las dos formas de exactitud de un
tests diagnóstico, la de la exactitud del positivo y la del negativo, aunque no es muy usada
ya que puede tomar valores grandes cuando o LR + es grande o cuando LR¯ es pequeña,
siendo características muy diferentes la una de la otra lo que nos obligaría a estudiar, por
separado, las razones de verosimilitudes.
21
1.2.2.4 Índice de Youden.
Una medida conjunta de exactitud de un test diagnóstico fue propuesta por W.J. Youden
en 1950.
Definición 1.4.
Se define el Índice de Youden como la suma de la sensibilidad y la especificidad meno
uno, es decir:
J = Se + Sp − 1 = 1 − [P(𝑇 = 1⁄𝐷 = 0) + P(𝑇 = 0⁄𝐷 = 1)].
(1.12)
Los valores del índice de Youden varían entre -1 y 1, refleja la diferencia entre la tasa de
verdaderos positivos y la de falsos positivos. Un buen test debe tener alta esta diferencia.
Teóricamente es igual a 1 solo cuando el test diagnóstico es perfecto, o sea, cuando Se +
Sp = 2, de modo que también puede decirse que cuanto más cercano a 1, mejor es el test
diagnóstico que se está evaluando.
El índice de Youden, J, tiene la ventaja de no estar afectado por la prevalencia, y es
preferido por la combinación de los sencillos valores de la sensibilidad y la especificidad
(Feinstein, 1975). Sin embargo, tiene la desventaja de que, al resultar de la combinación
de los valores de sensibilidad y especificidad, se pierde la idea de si el test diagnóstico es
bueno en sensibilidad o especificidad. Feinstein (Feinstein, 1975) fundamenta esta
afirmación mediante un ejemplo: si el índice de Youden tiene un valor de 0,55, puede ser
que la sensibilidad sea de 0,95 y la especificidad de 0,60, o al contrario.
Cuando el test diagnóstico no está asociado con la enfermedad ocurre, como se ha
mencionado en párrafos anteriores, que la suma de la sensibilidad y la especificidad vale
1 lo que indica que J será igual a cero. Es claro que cuando la suma de la sensibilidad y
de la especificidad sea inferior a 1 estaríamos en una situación en la que el tests
diagnóstico está relacionado de manera negativa con la enfermedad lo qué no es común
de encontrar en la práctica. Por el contrario la situación común es que la suma de la
sensibilidad de un test sea mayor que 1 por lo que J tomará un valor mayor que cero
siendo como máximo 1, caso en el que la sensibilidad y la especificidad es mayor que 1.
22
Una de las interpretaciones del índice de Youden que lo hace muy atractivo es la
siguiente: Considérense las personas con la enfermedad, la ganancia neta en certidumbre
que provoca el test, en esas personas será P(T=1 | D=1) P(T =0| D=1) , mientras que
la misma ganancia en las personas sin la condición, será P(T=0 | D=0) P(T=1 | D=0) ;
si se consideran igual de graves los resultados falsos positivos que los resultados falsos
negativos, se puede definir la ganancia media en certidumbre que provoca el test como la
suma de las dos diferencias anteriores dividida por 2, que se puede demostrar fácilmente
que es el índice de Youden. Es decir, el índice de Youden es la ganancia media en
certidumbre que provoca el test diagnóstico.
El índice de Youden es una medida de exactitud de un test diagnostico binario que no
depende de la prevalencia de la enfermedad, sin embargo es de difícil interpretación
debido a que es la suma de dos probabilidades de diferentes condicionantes.
1.2.3
Parámetros que dependen de la prevalencia de la enfermedad.
Los parámetros que se han presentado de los tests diagnósticos son aquellos que hacen
referencia a la calidad diagnóstica intrínseca del test, sin embargo, esos parámetros no
ayudan para diagnosticar a un sujeto concreto, no aportan información acerca de la
probabilidad de que un sujeto tenga o no la enfermedad, una vez que se haya pasado el
tests diagnóstico y se sepa si ha salido positivo o negativo. Son los parámetros, que
definen el funcionamiento del test a posteriori una vez que se conozca el resultado del
mismo. Este problema es realmente el problema diagnóstico que le importa resolver al
médico: a la vista del resultado del test que se puede decir de si el sujeto tiene o no tiene
la enfermedad. Los parámetros de este tipo son los que se denominan valores predictivos
y son los que se presentan a continuación.
1.2.3.1 Valores predictivos
A pesar de que la sensibilidad y la especificidad son consideradas las características
operacionales básicas de un test diagnóstico, en la práctica su capacidad de cuantificación
de la exactitud médica es muy baja. El médico requiere evaluar la medida en que sus
resultados modifican realmente el nivel de conocimiento que se tenía sobre la
enfermedad. De manera específica, le interesa identificar la probabilidad de que un sujeto
23
para el que se haya obtenido un resultado positivo, tenga efectivamente la enfermedad; y
lo contrario, identificar la probabilidad de que un sujeto con un resultado negativo este
efectivamente libre de la enfermedad. Las medidas que responden a estas interrogantes
se conocen como valores predictivos. Tomando como referencia la tabla 1.2 se tiene que:
Definición 1.5
El valor predictivo de una prueba positiva equivale a la probabilidad condicional de que
los sujetos con una prueba positiva tengan realmente la enfermedad.
VPP =
P(D = 1⁄T = 1)=
[𝑃(𝐷 = 1)𝑃(𝑇 = 1⁄𝐷 = 1)]⁄[𝑃(𝐷 = 1)𝑃(𝑇 = 1⁄𝐷 = 1) + 𝑃(𝐷 = 0)𝑃(𝑇 = 1⁄𝐷 = 0)]
=P(D=1)S
P(D=1)Se
e+(1−P(D=1)(1−SP)
(1.13)
De la expresión (1.13) se observa que el valor predictivo positivo no sólo depende de la
calidad del test diagnóstico sino que también depende de la prevalencia de la enfermedad,
de la probabilidad de que un sujeto elegido al azar de la población esté enfermo, P(D=1).
Además esa dependencia es muy directa en el sentido de que conforme sea mayor la
prevalencia mayor será VPP y es fuerte como puede verse en la Figura1 que aparece a
continuación.
Definición 1.5
Dado que el VPP depende de la prevalencia, es claro cuando la prevalencia es fija
depende de la sensibilidad y de la especificidad, pero más de la especificidad que de la
sensibilidad. En efecto si se supone que la prevalencia es fija, en ese caso la Se es
relevante, pero sea cuál sea esta situación, éste queda condicionado por la prevalencia.
Sin embargo el efecto de la Sp es muy fuerte, pues si esta es muy grande la cantidad 1Sp será muy pequeña y el producto (1-P(D=1))(1-Sp) será muy pequeño tendiente a cero,
así el cociente VPP será muy cercano a 1. Por tanto en el valor predictivo positivo
intervienen la sensibilidad y la especificidad del test, pero el efecto de ésta es mucho más
fuerte que el de la sensibilidad.
24
Valores predictivos
Figura 1Grafica relacional en SPSS valores predictivos para diferentes prevalencias en
una resonancia magnética y una mamografía.
Prevalencia
Para la mamografía (𝑆𝑒 = 0.42 𝑦 𝑆𝑝 = 0.9), para la resonancia magnética (𝑆𝑒 =
0.72 𝑦 𝑆𝑝 = 0.86)
Definición 1.6.
El valor predictivo de una prueba negativa es la probabilidad condicional de que los
individuos con la prueba negativa no tengan realmente la enfermedad.
VPN = P(D = 0⁄T = 0)
[𝑃(𝐷 = 0)𝑃(𝑇 = 0⁄𝐷 = 0)]⁄[𝑃(𝐷 = 0)𝑃(𝑇 = 0⁄𝐷 = 0) + 𝑃(𝐷 = 1)𝑃(𝑇 = 0⁄𝐷 = 1)]
(1−P(D=1))Sp
=(1−P(D=1))S
p +P(D=1)(1−Se )
De lo anterior se observa que
(1.14)
el VPN también depende de la prevalencia de la
enfermedad, en este caso relacionado con el inverso, cuanto mayor sea la prevalencia
menor será el VPN. La dependencia es fuerte como se puede ver en la figura 1. De la
misma manera que antes, la sensibilidad y la especificidad del test juegan un papel
relevante en el caso del VPN, pero, también como ya se ha visto, el papel más relevante
es ahora para la sensibilidad porque si ésta toma valores muy altos, entonces el valor de
VPN estará muy cercano a 1 independientemente de los valores de la prevalencia y de
Sp.
25
Según la tabla 1.1 se tiene que las estimaciones para los valores predictivos positivo y
negativo serian:
̂ = P(D = 1⁄T = 1) = Verdaderos positivos = TP
VPP
Total positivos
TP+FP
(1.15),
Así mismo,
̂ = P(D = 0⁄T = 0) = Verdaderos negativos = TN
VPN
Total negativos
TN+FN
(1.16)
1.3 Tests diagnósticos cuantitativos.
Hasta ahora, se han mencionado los
tests diagnósticos cuyo resultado es binario,
indicándose con cada uno de los dos posibles resultados la presencia o la ausencia de la
enfermedad. Sin embargo, en muchas ocasiones el resultado del test diagnóstico es un
valor numérico y continua de manera que de acuerdo a que sea mayor (o menor) se
comporta como un mayor indicador de la enfermedad; en este caso se está en la presencia
de un test cuantitativo (por ejemplo los valores de glucemia en mg/dl) que presenta
características particulares en su tratamiento.
Para evaluar cómo se comporta el test diagnóstico cuantitativo (continuo) para cada punto
de corte seleccionado se utiliza la curva de rendimiento diagnostico ROC, a partir de ella,
es factible deducir cuál es el punto de corte Mo óptimo, que es aquel valor de M en el que
un pequeño aumento de la sensibilidad ocasiona un incremento excesivo (en términos
relativos) de la proporción de falsos positivos, por lo tanto la curva ROC es un gráfico en
el que se observan todos los pares (sensibilidad, especificidad) resultantes de la variación
continua de los puntos de corte M en todo el rango de resultados observados. En el eje Y
de coordenadas se sitúa la sensibilidad (fracción de verdaderos positivos) (definida de
acuerdo a la definición 1.1). En el eje X se
sitúa la tasa de falsos positivos (1-
especificidad), calculada en el subgrupo no afectado.
26
Figura 2Curva COR
El manejo de la calidad diagnóstica de un test cuantitativo pasa por el manejo de la curva
ROC que coloca la situación en un punto lógico, ya que para cada uno de los infinitos
posibles valores de un tests cuantitativo continuo tendría una sensibilidad y una tasa de
falsos positivos asignada a él, se dispone ahora de una función de valores que expresa el
funcionamiento del test diagnóstico. A continuación se presenta la curva ROC de manera
teórica.
1.3.1
La curva ROC para tests diagnósticos continuos.
Considérese una variable aleatoria Y, continua, que es el resultado de un test diagnóstico
continuo, y se supone, sin pérdida de generalidad, que valores altos de esa variable
aleatoria suponen más evidencia de enfermedad que valores pequeños. Se supone,
también un punto de corte c de manera que si Y≥c se considera que el tests es positivo y
si Y<c el test es negativo. Dentro de ese punto de corte c se tienen dos tasas, una de acierto
y otra de fallo:
TF(c) = P(Y ≥ c⁄D = 1) y TN(c) = P(Y ≥ c⁄D = 0)
(1.17)
La primera es la tasa de verdaderos positivos, relacionada con c, pues es la probabilidad
de que el test diagnóstico desborde a c en la población de enfermos, mientras que la
27
segunda es la tasa de falsos positivos puesto que es la probabilidad de que el tests
diagnóstico esté por encima de c en la población de personas no enfermas.
De esta manera, para cada valor diferente de c se puede tener una pareja de valores (TF(c);
TN(c)), y a ese conjunto de parejas de valores es a lo que se denomina curva ROC
(Receiver Operating Characteristic Curve), es decir la curva ROC es:
𝑅𝑂𝐶 (𝑐 ) = {(TF(c); TN(c)), 𝑐 ∈ (−∞, ∞)} (1.18)
Es decir, la curva ROC es la línea que para cada punto de corte c, representa la tasa de
falsos positivos contra la sensibilidad Conforme c se hace mayor las dos cantidades
tienden a cero y conforme c se hace menor las dos cantidades se hacen mayores, de
manera que cuando c=∞ entonces TP(∞)=0 y TN(∞)=0 y cuando c=-∞ entonces TP(∞)=1 y TN(-∞)=1. De aquí que la curva ROC es una función monótona creciente en el
cuadrado (0,1).
1.3.2
Algunas propiedades matemáticas de la curva ROC.
Dentro del estudio de la curva ROC se enunciaran a continuación una serie de propiedades
de la misma. No se presentara la demostración de ellas (se pueden encontrar en el libro
de Pepe (2003)).
1.3.2.1 Propiedad 1.
En el caso de un tests no informativo, aquél que es independiente del estado de la
enfermedad, la curva ROC es la diagonal principal del cuadrado unidad, ya que si el test
diagnóstico es independiente de la enfermedad TP(c)=TN(c). Véase la figura 3.
1.1.1.1 Propiedad 2.
Un test diagnóstico óptimo es aquél que tiene para todo punto de corte un TP(c)=1 y una
TN(c)=0, es decir aquél que tiene una curva ROC sobre el eje de las Y y sobre el eje
superior del eje de las X.
28
Figura 3Diferentes curvas ROC correspondientes a test diagnósticos de diferente
comportamiento
1.1.1.2 Propiedad 3.
Conforme la curva ROC de un test diagnostico esté más cerca del punto de sensibilidad
1 y tasa de falsos positivos de 0, mejor será el test diagnóstico. Si un test diagnóstico tiene
mayor valor de la sensibilidad que otro para cualquier valor de la tasa de falsos positivos
entonces ese test, es mejor, domina al otro. Ese es el caso del Test B sobre el A de la
figura 2. Es decir que, cualitativamente, cuanto más próxima es una curva ROC a la
esquina superior izquierda (cuando se presenta la sensibilidad en el eje Y, más alta es la
exactitud global de la prueba. De igual manera, si se dibujan en un mismo gráfico las
curvas obtenidas con distintas pruebas diagnósticas, aquella que esté situada más hacia
arriba y hacia la izquierda tiene mayor exactitud: por simple observación se obtiene una
comparación cualitativa (sensibilidad= especificidad =1).
1.1.1.3 Propiedad 4.
Los tests cuya curva ROC se sitúa bajo la diagonal principal (de 45º) del cuadrado unidad
son tests que funcionan peor que lo haría el azar y por tanto son tests despreciables para
29
su uso diagnóstico, estos test se pueden corregir cambiando el criterio de positividad de
“mayor que” a “menor que” o viceversa
1.1.1.4 Propiedad 5.
La curva ROC para una variable Y se mantiene invariante para toda transformación
monótona creciente de Y en el intervalo (0,1), en donde se observa que:
lim 𝑅𝑂𝐶 (𝑡) = 0
𝑡→0
𝑙𝑖𝑚 𝑅𝑂𝐶 (𝑡) = 1
(1.19)
𝑡→1
1.1.1.5 Propiedad 6.
Notando por SD=1(y)=P (Y ≥ y⁄D = 1) y SD=0(y) = P(Y ≥ y⁄D = 0) la curva ROC se
puede presentar de la siguiente manera:
−1
ROC(t) = SD=1 (SD=0
(t)), t ∈ (0,1)
(1.20)
1.1.1.6 Propiedad 7.
De la expresión 18, se puede deducir que la pendiente de la curva ROC en el punto t es
−1
−1
fD=1 (SD=0
(t))⁄fD=0 (SD=0
(t)), dónde fD=1 y fD=0 son las funciones de densidad de Y en
−1
la población de enfermos y de sanos respectivamente. Siendo c = (SD=0
(t)) la pendiente
seria fD=1 (c)⁄fD=0 (c). La pendiente puede ser leída como la razón de verosimilitudes en
el punto de corte c, es decir 𝑃 (𝑌 = 𝑐 ⁄𝐷 = 1)⁄𝑃 (𝑌 = 𝑐 ⁄𝐷 = 0) que será tanto mayor
conforme sea mayor c.
La curva ROC también sirve para determinar el punto de corte idóneo en la clasificación
de sanos y enfermos en términos de coste promedio inferior. El punto de corte óptimo Mo
se puede obtener de un modo objetivo; para ello es preciso introducir en el problema el
coste de cada una de las acciones que intervienen en el mismo. Una vez definido un punto
de corte M, cada individuo de la población es de uno de estos cuatro tipos: (T=1) ∩ (D=0),
(T=1) ∩ (D=1) , (T=0) ∩ (D=1) y (T=0) ∩ (D=0) .
30
Cada tipo de individuo conlleva un coste C∝, C1−β , Cβ y C1−α respectivamente; es decir,
C∝ (C1−β ) es el coste asociado a tratar a alguien que no (sí) está enfermo, en tanto que
Cβ (C1−α ) es el coste asociado a no tratar a alguien que sí (no) está enfermo (usualmente
Cβ es alto y C1−α=0). Si se conocen los costes, el coste medio asociado al punto M es:
C = P[(T = 1) ∩ (D = 0)]xC∝ + P[(T = 1) ∩ (D = 1)]xC1−β+
P[(T = 0) ∩ (D = 1)xCβ + P[(T = 0) ∩ (D = 0)]xC1−α =
P[(D = 0)P(T = 1⁄D = 0)xC∝ + P(D = 1)P(T = 1⁄D = 1)x C1−β +
P(D = 1)P(T = 0⁄D = 1)x Cβ + P(D = 0)P(T = 0⁄D = 0)x C1−α =
(1 − P(D = 1)) ∝ C∝ + P(1 − β)C1−β + P(D = 1)βCβ + (1 − P(D = 1)(1−∝)C1−α
(1.21)
Siendo P(D=1) como ya se había mencionado, la prevalencia de la enfermedad. El valor
óptimo Mo será aquel que haga mínimo el coste C, pudiendo demostrarse que la pendiente
del mismo en la curva ROC es:
Ŋ=
1−𝑃(𝐷=1)
𝑃(𝐷=1)
C∝ −C1−β
𝑥C
β −C1−α
=
1−𝑃(𝐷=1)
𝑃(𝐷=1)
𝑥𝑅
(1.22)
La cual se puede determinar si se conoce la prevalencia P(D=1) y la razón de la diferencia
de costes R.
Pero aun siendo una función muy importante, a la hora de valorar tests diagnósticos
cuantitativos la curva ROC resulta de un valor limitado para su uso por su extensión y
dificultad de manejo por lo que se han buscado medidas de resumen de la misma entre
las que resalta el área bajo la curva ROC.
1.1.2
Ventajas de la curva COR
Por lo anterior redactado se verifica que las curvas ROC son indicadores de la exactitud
diagnóstica y proporcionan un criterio que unificas el procedimiento de evaluación de
una prueba, debido a sus aplicaciones. La utilización de las curvas ROC en la evaluación
de pruebas diagnósticas presenta las siguientes ventajas:
1. Son fácilmente comprensibles de la capacidad de discriminación de la prueba
en todo el rango de los puntos de corte.
2. Son simples, gráficas y sencillas de interpretar de manera visual.
31
3. No requieren de un nivel de decisión particular porque está incluido todo el
espectro de puntos de corte.
4. Son independientes de la prevalencia, ya que la sensibilidad y la especificidad
se obtienen en distintos subgrupos.
Por lo tanto, no es menester tener cuidado para obtener muestras con prevalencia
representativa de la población.
5. Proporcionan una comparación visual directa entre pruebas en una escala
común.
6. La sensibilidad y la especificidad son accesibles en el gráfico, en contraste con
los diagramas de puntos y los histogramas.
1.1.3
Área bajo la curva ROC como medida de resumen
Como ya se ha mencionado, La curva ROC es una forma de resumen gráfico conveniente
de toda la información que podría ser necesaria para una descripción comprensible de un
marcador en todo el rango de sus puntos de corte. Sin embargo, es posible que en
determinadas circunstancias un gráfico sea complejo de construir o que sea necesario
comparar diferentes clasificadores, por esto la expresión “resúmenes más simples” será
más conveniente. Es así, que se ha dedicado un gran espacio científico a la obtención de
valores escalares únicos que puedan capturar (resumir) las características esenciales de
una curva ROC, de cierta manera se hablara de algunas medidas de resumen, como la
media y la varianza, capturan las características esenciales de los conjuntos de datos.
La esencia de estos indicadores de resumen es comparar las distribuciones de los valores
o puntuaciones del marcador para las poblaciones enferma y no-enferma. Un buen
marcador tiende a producir altos valores para la población enferma y bajos valores para
la población no-enferma, y será mejor cuanto mayor sea el grado en que estas
distribuciones difieren. El área de la curva ROC es una manera de mostrar de forma
conjunta la comparación de dos distribuciones.
32
El área bajo la curva ROC, notada generalmente como AUC, se define, claro está, como:
1
AUC = ∫0 ROC(t)dt
(1.23)
y tiene una interpretación que es la cual la ha hecho de tanta utilidad: el área bajo la curva
ROC es igual a la probabilidad de que, elegida una pareja de individuos al azar, uno
enfermo y otro sano, el test diagnóstico sea capaz de ordenarlos correctamente; es decir
AUC=(P(TD=1) > P(TD=0))
Es obvio, al observar la figura 3, que AUC=1 cuando estamos ante un test ideal que
discrimina perfectamente entre sanos y enfermos, que en el caso de un test inútil, aquél
que acierta tanto como el azar, AUC=0.5, y que cualquier test aplicable tendrá un área de
valor superior a 0.5, ya que los tests despreciables para su uso, aquellos que tienen su
curva ROC por debajo de la diagonal principal, tendrán AUC inferiores a 0.5.
Este parámetro nos acompañará a partir de ahora como una medida de resumen que
permite señalar de manera muy clara el funcionamiento de un test diagnóstico
cuantitativo.
Hasta el momento se ha presentado la curva ROC y el área bajo ella en términos
puramente poblacionales, sin embargo, en la práctica rara vez se conocen los parámetros
poblacionales por lo que tienen sentido plantearse problemas típicos de inferencia
estadística.
Para ello supongamos que tenemos nD=1 individuos enfermos a los que se les ha aplicado
el test y, habiéndose obtenido Y(D=1)i , i=1,...,nD=1 observaciones; además nD=0
individuos sanos a los que se les ha aplicado el test Y, habiéndose obtenido Y(D=0)j ,
j=1,...,nD=0 observaciones.
33
Si se aplica la definición de curva ROC a los datos de las dos muestras podemos tener lo
que se denomina curva ROC empírica, de manera que para cada punto de corte, c,
podemos tener la estimación puntual de la sensibilidad y de la tasa de fasos positivos:
ND=1
̂
TF(c) = ∑i=1
I(Y(D=1)i ≥ c)⁄nD=1
(1.24)
𝑁𝐷=1
̂ (𝑐) = ∑ 𝐼(𝑌(𝐷=0)𝑖 ≥ 𝑐)⁄𝑛𝐷=0
𝑇𝑁
𝑖=1
Dónde, el operador I indica el número de observaciones que cumplen la propiedad en el
paréntesis del operador.
−1
̂𝑒 (𝑡) = 𝑆̂𝐷=1 (𝑆̂𝐷=0
También se puede presentar la curva ROC empírica como 𝑅𝑂𝐶
(t)).
Desde luego que en cada punto de la curva ROC se puede construir un intervalo de
confianza de manera que en vez de una curva ROC tendremos unas bandas de curvas
ROC, bandas que tienen expresiones complejas y que por tanto no presentaremos aquí
pero que usaremos a partir de los cálculos hechos por programas específicos.
34
35
CAPITULO II
EL PLANTEAMIENTO DE LOS PROBLEMAS A RESOLVER Y EL
OBJETIVO GENERAL DE ESTE TRABAJO.
Descritas hasta aquí las características que definen a los tests diagnósticos, tanto
cualitativos como cuantitativos, el problema que generalmente se plantea en la clínica es
el de determinar la mejora en el diagnóstico por empleo de un nuevo test diagnóstico. Es
decir, teniendo un test diagnóstico del que se conocen los parámetros que definen la
calidad del mismo cabe preguntarse en qué se mejoran esas prestaciones diagnósticas si
se emplea otro test diagnóstico que obviamente no tiene por qué dar el mismo resultado
que el anterior. Para el clínico este problema es un problema importante pues no es lo
mismo, como se verá en los siguientes apartados, la combinación de diferentes tests
diagnósticos provocaran mejoras en unos parámetros y empeoramientos de otros.
Dicho esto, el objetivo fundamental de este Trabajo de Fin de Máster es el
determinar, en función de diferentes criterios, para qué es bueno combinar dostests
diagnósticos y cuando se puede decidir que dicha combinación es beneficiosa en términos
generales, todo ello en el caso más común que es el de los tests diagnósticos binarios.
36
37
CAPITULO III
LA COMBINACIÓN DE TESTS DIAGNÓSTICOS BINARIOS
3.1 Distintas formas de combinación de dos tests diagnósticos binarios y su
influencia en la sensibilidad y especificidad del test.
La evaluación de los test puede ser abordada de dos maneras. En la primera, se pueden
comparar directamente para evaluar cuál proporciona el mejor rendimiento diagnóstico;
en la segunda se puede comparar la información diagnóstica obtenida en ambas pruebas
en combinación, en comparación con la información de una sola prueba. La comparación
de la exactitud de dos o más test diagnósticos binarios es uno de los problemas más
representativos en el estudio de la metodología estadística para el diagnóstico.
Los parámetros anteriormente expuestos miden características de los tests diagnósticos
que son inamovibles, en el sentido de que el investigador no puede hacer nada por
mejorarlas de cara a una disminución de la incertidumbre para el paciente. Por eso es
válido, para incrementar y mejorar la certidumbre, por la combinación de varios métodos.
La presentación que se hace a continuación involucrará, por comodidad, a dos tests
diagnósticos T1 y T2, pero lo dicho en ese caso es extensivo para más de dos tests
diagnósticos.
3.1.1
Combinaciones de tests diagnósticos.
Las dos maneras clásicas de combinar dos tests diagnósticos binarios son combinarlos en
serie (primero se aplica una prueba, y después se indica la otra prueba solo si el sujeto
resulta positivo de la anterior. Al final, se considera positivo al sujeto que haya tenido
resultados positivos en todas las pruebas y negativos a todos los demás.) o combinarlos
en paralelo (Todas se aplican de manera simultánea a la misma muestra de sujetos, de
forma que se consideran negativos aquellos sujetos que obtienen resultados negativos en
38
todas las pruebas, y positivos todos los demás). En la combinación en serie se dirá que el
individuo tiene la enfermedad cuando ambos tests dan positivo y en la combinación en
paralelo se dirá que el sujeto tiene la enfermedad cuando al menos uno de los dos dé
positivo.
3.1.2
Efecto de la combinación en la sensibilidad y la especificidad
Ahora se revisara el efecto de las combinaciones, supongamos que la sensibilidad y la
especificidad del primer test son Se1 y Sp1, mientras que las del segundo test son:
Se2 y Sp2 . La sensibilidad del test cuando combinamos los dos test en serie será:
𝑆𝑒 𝑆𝑒𝑟𝑖𝑒 = 𝑃(𝑆𝑒𝑟𝑖𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜⁄𝐷 = 1) = 𝑃(𝑇1 = 1 ∩ 𝑇2 = 1) =
= 𝑃(𝑇1 = 1⁄𝐷 = 1) 𝑃(𝑇2 = 1⁄𝐷 = 1) = 𝑆𝑒1 𝑆𝑒2
(3.25)
Como se puede observar, la sensibilidad de la combinación en serie es inferior a la de
cada uno de los tests porque es el producto de cada una de las dos sensibilidades que son
cantidades entre 0 y 1, que será siempre inferior a cada uno de los factores. Hemos de
resaltar, antes de seguir, que la segunda igualdad de la expresión (3.25) es cierta sólo si
se da independencia condicional; en efecto el suponer que, condicionando en el estado de
enfermedad del sujeto, los resultados de ambos tests son independientes, o lo que es lo
mismo que el resultado del uno no está condicionado por el resultado del otro, cuando se
aplican en el mismo individuo, es lo que nos permite escribir esa igualdad y es una
suposición razonable. Eso no significa que los dos tests diagnósticos no estén
relacionados, sino que se aplican al mismo sujeto, son tales que el resultado de uno no se
ve influenciado por el resultado del otro.
Ahora el procedimiento para la especificidad de ambos tests aplicados en serie; para ello
parece claro que se considerará que el resultado es negativo cuando al menos uno de los
tests dé un resultado negativo.
SpSerie = P(Serie negativo⁄D = 0) = P(T1 = 0 ∪ T2 = 0⁄D = 0) =
P(T1 = 0⁄D = 0) + P(T2 = 0⁄D = 0) − P(T1 = 0⁄D = 0)P(T2 = 0⁄D = 0) =
Sp1 + Sp2 − Sp1 Sp2
(3.26)
39
De la expresión anterior se puede decir que la especificidad en serie siempre será mayor
que la especificidad de cada una de sus componentes porque, como se ve en (3.26), es la
suma de las especificidades de sus componentes menos una cantidad que siempre es
menor que la menor de esas especificidades (debido a que es el producto de las dos
especificidades).
Se puede decir, por tanto que si ambos tests se conjugan en serie se aumenta la
especificidad y se disminuye la sensibilidad, mientras que si conjugan en paralelo se
aumenta la sensibilidad y disminuye la especificidad (esto último se puede demostrar muy
fácilmente).
Por tanto la conjugación booleana de tests diagnósticos binarios permite incrementar la
sensibilidad o la especificidad, dependiendo de la manera en que estos sean combinados.
Es claro que la combinación de varios tests no tiene por qué ser booleana y que en esos
casos se encontrarán soluciones diferentes.
3.1.3
Efectos sobre los valores predictivos
Las ventajas y desventajas inherentes entre sensibilidad y especificidad no conduce
necesariamente a una relación inversa entre el valor predictivo de una prueba positiva
(VPP = P(D = 1⁄T = 1)) y el valor predictivo de una prueba negativa (VPN =
P(D = 0⁄T = 0)) los valores predictivos son también conocidos como las probabilidades
post-test de la enfermedad en los aspectos positivos de prueba y no las enfermedades en
los negativos de la prueba, respectivamente. Una ganancia en el VPP y el VPN de la
prueba combinada en relación con las pruebas de componente puede ocurrir si está
presente una marcada asimetría en la prueba de dependencia entre los grupos enfermos y
no enfermos.
La asimetría en la prueba de dependencia surge cuando, por ejemplo, hay una correlación
negativa entre los resultados de la prueba en la relación en el sujeto enfermo pero positivo
en el no-enfermo. Aunque suponiendo que los resultados entre enfermos y no enfermos
presentan independencia condicional es conveniente desde el punto de vista analítico que
este bien definida la importancia de tomar la dependencia condicional en cuenta al
40
determinar la ganancia potencial de combinar los resultados de dos pruebas (Macaskill y
Colls, 2002).
Los VPP y VPN se centran en la probabilidad de la enfermedad dada el resultado de la
prueba y así proporcionar una base para comparar el rendimiento de las pruebas en una
población determinada clínicamente relevante (Macaskill y Colls, 2002). Sin embargo, la
generalización de valores predictivos es limitada de una población a otra porque ellos
dependen de la prevalencia incluso si la precisión de la prueba dentro de los enfermos y
dentro de los subgrupos no enfermos es constante a través de las poblaciones. Un enfoque
alternativo, pero estrechamente relacionado, es comparar las razones de verosimilitud de
las pruebas combinadas y compuestas.
3.1.4
Efectos sobre las razones de verosimilitud
Para un determinado resultado, el cociente de probabilidad se define como la probabilidad
de que el resultado de la prueba para un sujeto enfermo dividido por la probabilidad de
que el resultado de la misma prueba para un sujeto no enfermo. Por lo tanto, la razón de
verosimilitud positiva está dada por 𝐿𝑅 + = 𝑆𝑒⁄1 − 𝑆𝑝 y la razón de verosimilitud
negativa está dada por 𝐿𝑅− = (1 − 𝑆𝑒)⁄𝑆𝑝. Las razones de verosimilitud toman en
cuenta las ventajas y desventajas en la prueba de rendimiento en las poblaciones de
enfermas y libre de enfermedad.
Para un resultado dado, las probabilidades post-test de enfermedad es igual al producto
de las probabilidades pre-test de la enfermedad y la razón de verosimilitud positiva. Por
lo tanto, el valor predictivo positivo de la prueba puede ser expresado como VPP = λLR+
/(1 + λLR+), donde λ representa la odds pre-test de la enfermedad, es decir el cociente
entre la prevalencia y 1 menos la prevalencia de la enfermedad, p/(1-p). Del mismo modo,
el valor predictivo de una prueba negativa es dado por PPN = 1/(1 + λLR−). Cuando LR+
= 1, un resultado positivo no tiene ningún valor diagnóstico y la VPP es igual a la
probabilidad pre-test de la enfermedad.
41
Asimismo, el VPN es igual a la probabilidad pretest de la enfermedad no cuando LR −=1.
Como LR+ aumenta por encima de 1 aumenta la VPP, mientras que el VPN aumenta a
medida que disminuye la LR− (inferiores a 1).
La figura 4 muestra la exactitud de una sola prueba (A) en el espacio ROC. La región
sombreada representa la zona en la que la sensibilidad y la especificidad de una prueba
combinada (A∪B) deben mentir, para cualquier prueba adicional dicotómica B. La
pendiente de la línea desde (0; 0) que por (1 − 𝑆𝑝𝐴 ; 𝑆𝑒𝐴 ) da la razón de verosimilitud
positiva para la prueba de A. Del mismo modo, la pendiente de la línea desde (1; 1) que
pasa por (1 − 𝑆𝑝𝐴 ; 𝑆𝑒𝐴 ) le da la razón de verosimilitud negativa para la prueba A. Estas
dos líneas dividen el área sombreada en tres regiones.
La figura 4 muestra las regiones correspondientes para A∩B. Esta representación gráfica
corresponde a la dada por Biggerstaff para comparar el rendimiento de dos pruebas
diagnósticas (Biggerstaff, 2000). Como se muestra a continuación, este enfoque también
puede utilizarse para evaluar el aumento incremental en la combinación de pruebas.
Porque los puntos son ploteados en el espacio ROC, la gráfica es más fácil de construir e
interpretar que el método gráfico ideado por Marshall.
Ahora podemos identificar las regiones donde se puede hacer una elección clara entre la
prueba individual y combinada. Elegiríamos la prueba combinada si LR-combinada <
LR−individual y LR+combinado > LR+individual (región c en las figuras 4 a y b), ya que
la prueba combinada debe tener una mayor VPP y VPN que la prueba individual,
independientemente de su prevalencia. Estas conclusiones se siguen del examen de las
curvas ROC para las pruebas. Para una sola prueba (binaria) A, la curva ROC se obtiene
por las dos líneas que unen (0; 0) y (1; 1) a (1 − 𝑆𝑝𝐴 ;𝑆𝑒𝐴).
Si la sensibilidad y especificidad de la prueba combinada se encuentra en la región c,
entonces para cualquier valor dado de 1-especificidad, la sensibilidad de la prueba
combinada es siempre mayor que la sensibilidad de la prueba individual.
42
Figura 4 Regiones críticas para razones de verosimilitud usando las: (a) regla 'positivo';
(b) ' regla de ambos positivo'.
La única prueba es la mejor opción cuando LR −combinada > LR−individual y
LR+combinada < LR+individual (región s en las figuras 4(a) y 1(b). Por lo tanto, para
cualquier valor dado de 1-especificidad, la sensibilidad de la prueba combinada es
siempre menor que la sensibilidad de la prueba individual. En t de la región, se produce
un intercambio y no claro se puede elegir entre las pruebas basadas exclusivamente en las
razones de verosimilitud.
Como se señaló anteriormente, la región en la cual cae la prueba combinada depende no
sólo en la sensibilidad y la especificidad de la prueba adjunta, sino también de la
dependencia condicionada de las pruebas. Además, la regla de 'positivo' es claro de la
figura 3.4 eso si LR+A∪ B> LR+ A y luego LR−A∪B< LR−A y si LR− A∪B > LR−A
entonces LR+A∪B < LR+A; si no se aplica, A∪B cae en región t. Asimismo, para la regla
de 'ambos positivos' (Figura 3.4(b) si LR−A∩B < LR− A entonces LR+A∩B > LR+ y si
LR+A∩B < LR+A entonces LR−A∩B > LR+A; si no se aplica, A∩B cae en la región t.
Es de destacar que la razón de odds del diagnóstico también toma en cuenta el equilibrio
entre la sensibilidad y la especificidad y por lo tanto, podría utilizarse como una medida
global del rendimiento de la prueba de diagnóstico para comparar pruebas dicotómicas
(DOR = [𝑆𝑒 / (1 − 𝑆𝑒 )] = [(1−𝑆𝑝 ) /𝑆𝑝 ] = [𝑆𝑒 =/(𝑆𝑒 − 1)] = [(1−𝑆𝑒 ) /𝑆𝑒 ] =LR+ / LR− (9))
Sin embargo, en este contexto, el odds-ratio es más difícil de interpretar que las razones
de verosimilitud. Por ejemplo, la prueba combinada puede tener una mayor (o menor)
43
odds-ratio de prueba A, pero todavía mienten en la región (t) donde ni prueba muestra
razones de verosimilitud superior.
3.1.5
Estimación puntual y por intervalos de las razones de verosimilitudes
de tests individuales, de sus combinaciones y de las diferencias entre
tests individuales y tests combinados.
3.1.5.1 Estimación puntual y por intervalos de las razones de
verosimilitud para test individuales
Las razones de verosimilitud positiva y negativa dependen como se ha mencionado atrás
solamente de la sensibilidad y de la especificidad del test diagnóstico, debido a esto su estimación
se puede realizar teniendo en cuenta los lineamientos de un muestreo transversal o de un muestreo
de caso-control.
Cuando el test diagnóstico y el gold estándar se aplican a todos los sujetos de una muestra aleatoria
de tamaño 𝑛1 + 𝑛0 (Tabla 1.2), el estimador máximo verosímil de la razón de verosimilitud
positiva se puede obtener así:
̂
𝑆𝑒⁄𝑛1
𝑆𝑒 𝑛𝑜
̂ + = 𝑆𝑒
𝐿𝑅
=
=
̂
1−𝑆𝑝
𝐹𝑃 ⁄𝑛
𝐹𝑃𝑛
𝑜
(3.27)
1
De la misma manera el estimador de la razón de verosimilitud negativa es:
̂
̂ − = 1− Se = FN⁄n1 = FNno
𝐿𝑅
ŝ
S ⁄n
S n
p
p
o
(3.28)
p 1
Como las ecuaciones 25 y 26 están escritas como cocientes de proporciones estadísticamente
independientes la distribución teórica asintótica se obtiene usando la transformación logarítmica
y el método Delta (Barndorff – Nielsen y Cox, 1989, Teorema 2.6).
Para LR+ la varianza para su logaritmo es:
̂ (𝐿𝑛𝐿𝑅 + )
𝑉𝑎𝑟
2
̂ (𝑆𝑒 ) ( 1 ) + 𝑉𝑎𝑟
̂ (𝑆𝑝 ) ( 1 )
=(𝑉𝑎𝑟
𝑆
1−𝑆
𝑒
= (𝑆
1−𝑆𝑒
𝑒 +𝐹𝑁)𝑆𝑒
2
𝑝
+ (𝐹𝑃+𝑆
𝑆𝑝
𝑝 )(1−𝑆𝑝 )
(3.29)
44
Para LR− la varianza para su logaritmo es:
−1 2
−)
̂
̂ (𝑆𝑝 ) (−1)
̂
(
)
(
) + 𝑉𝑎𝑟
𝑉𝑎𝑟 𝐿𝑛𝐿𝑅 =(𝑉𝑎𝑟 𝑆𝑒 (
1−𝑆𝑒
𝑆𝑝
1−𝑆𝑝
𝑆𝑒
= (𝑆
𝑒 +𝐹𝑁)(1−𝑆𝑒)
2
+ (𝐹𝑃+𝑆
(3.30)
𝑝 )𝑆𝑝
De esta manera, los intervalos de confianza para el logaritmo de LR, debido a la normalidad
asintótica, se pueden calcular desde las estimaciones y las expresiones de la varianza asintótica
(Marin Jimenez, 2008).
Al transformarlas se producen los intervalos de confianza con un máximo nivel de significancia
escrito en porcentaje de 100𝛼% para las razones de verosimilitudes, que son:
𝑆
1−𝑆𝑒
𝐿𝑅 + ∈ 𝑒𝑥𝑝 {𝑙𝑛 (1−𝑆𝑒 ) ± 𝑍𝛼⁄2 √
𝑝
𝑆𝑒
𝑆𝑝
+ 𝐹𝑃}
(3.31)
La ecuación 29 se puede escribir como:
𝑆𝑒 ±𝑍𝛼⁄2 √
𝐿𝑅 + ∈ 1−𝑆
1−𝑆𝑒 𝑆𝑝
+𝐹𝑃
𝑆𝑒
(3.32)
𝑝
Así mismo:
𝐿𝑅 − ∈ 𝑒𝑥𝑝 {𝑙𝑛 (
1−𝑆𝑒
𝑆𝑝
) ± 𝑍𝛼⁄2 √
𝑆𝑒
+
𝐹𝑁
1−𝑆𝑝
𝑆𝑝
}
(3.33)
La ecuación 31 se puede escribir como:
𝑆
𝐿𝑅 − ∈
1−𝑆𝑒
𝑆𝑝
1−𝑆𝑝
𝑆𝑝
𝑒
±𝑍𝛼⁄2 √𝐹𝑁
+
(3.34)
̂ + y lnLR
̂ − viene dada por
En muestras grandes, la covarianza de lnLR
1
1
̂ +, lnLR
̂ −} = − [
]
cov{lnLR
+
Se + FN FP + Sp
45
3.1.5.2 Estimación puntual
combinación de test
de
razones
de
verosimilitud
para
Como se muestra en la tabla 3.3, se puede evaluar si el test combinado es 'mejor' que un
solo test por sobre el análisis como una comparación directa de dos test condicionales
dependientes y dicotómicos. Aunque los test de componente son condicionalmente
independientes, las pruebas individuales y combinadas deben ser condicional
dependientes porque el test combinado contiene información de la prueba individual. A
diferencia de la actitud adoptada por Marshall, no basar nuestro análisis en la dependencia
condicional estimada entre pruebas de componente, pero realizar comparaciones directas
entre las razones de verosimilitud de las pruebas individuales y combinadas, mientras que
teniendo en la dependencia condicional cuenta entre ellos (Macaskill y Colls, 2002).
Tabla 3 probabilidades de cada uno de los tests y de sus combinaciones en serie o en
paralelo para el caso de dos tests diagnósticos binarios, A y B que sean
condicionalmente independientes.
(a)
D=1
D=0
Test combinado 𝐴 ∪ 𝐵
Test A
+
+
-
+
𝜋++
+
(𝑝++
=
+
𝑝++ − )
+
0
𝜋−+ + = ( 𝑝−+ + )
(b)
Test A
+
−
𝜋++
𝜋−+ − = ( 𝑝−+ − )
=
−
(𝑝++
+
𝑝+− −)
+
= ( 𝑝++ + )
D=0
𝛾++ −
Test combinado 𝐴 ∩ 𝐵
+
+
−
= ( 𝑝+ − )
𝛾+ + = ( 𝑝+− + )
𝛾−+− = (𝑝−+ − + 𝑝−+ + )
0
-
𝜋−− − = ( 𝑝−− − )
− = 𝑝−
𝜋−+
−+
D=1
𝛾++ +
0
0
𝛾+− −
= ( 𝑝+− − )
𝛾−−− = (𝑝−− − + 𝑝−− + )
Tabla 3 (a), los números (𝑛++ + , 𝑛−+ + , 𝑛−+ − ) de las personas que caen en las celdas de la tabla
2 × 2 para el grupo de enfermos siguen una distribución trinomial. Por lo tanto, los
estimadores de máxima verosimilitud de las probabilidades de la celda están dados por
+
−
+
̂−
𝜋̂
𝑗𝑘 = 𝑛𝑗𝑘 ⁄𝑛𝐷 𝑦 𝜋𝑗𝑘 = 𝑛𝑗𝑘 ⁄𝑛𝐷 [15]. Por lo tanto, las razones de verosimilitud positiva
se estiman como:
+
+
+
𝜋
̂ +𝜋
̂
+
̂ 𝐴+ = 𝜋̂+− + y 𝐿𝑅
̂ 𝐴∪𝐵
𝐿𝑅
= +− + −++
𝜋
̂+ +
𝜋
̂ + ++ 𝜋
̂− +
(3.35)
46
Del mismo modo, las razones de verosimilitud negativa se estiman por
+
−
̂ 𝐴− = 𝜋̂−− + y 𝐿𝑅
̂ 𝐴∪𝐵
𝐿𝑅
=
𝜋
̂
−+
+
𝜋
̂−
−
−
𝜋
̂− −
(3.36)
Las razones de verosimilitud derivadas de tabla 3 (b) se calculan de manera similar.
3.1.5.3 Estimación por intervalos de razones de verosimilitud para
combinación de test
El método para calcular el intervalo de confianza de un cociente de probabilidad para una
tabla de contingencia 2*2 es equivalente a la de un riesgo relativo (Simel, Samsa, &
Matchar, 1991). La varianza asintótica de la diferencia entre dos proporciones de logverosimilitud cuando los resultados son obtenidos de muestras independientes es una
simple generalización de esta fórmula. Sin embargo, no somos conscientes de una
fórmula de la varianza para la diferencia entre los coeficientes de log-verosimilitud
cuando los datos estén sincronizados. Por lo tanto, hemos utilizado el método delta
(Agresti, 1990) para derivar asintóticas fórmulas para el diseño apareada que hemos
considerado en este documento.
Cualquier regla positiva (A∪ 𝑩)
Comparación de las razones de verosimilitud positiva se basa en
̂ +𝐴 ⋃ 𝐵 ) − ln(LR
̂ +A) =
Ln(LR
= ln(π
̂+
̂+
̂−
̂−
̂+
̂−
++ + π
−+ ) − ln(π
++ + π
−+ ) − ln(π
++ ) + ln(π
++ )
(3.37)
Derivamos las fórmulas para la varianza asintótica de la diferencia en las proporciones
basándonos en la suposición de que la diferencia de los cocientes de log-verosimilitud
aproximadamente se distribuye normalmente. La estimación de la varianza sería, de
acuerdo a la siguiente ecuación calculada en (Macaskill y Colls, 2002)
̂ +A∪B) − ln(LR
̂ +A)) =
𝑉𝑎𝑟(ln(LR
π
̂+
= (𝑇𝑃+𝐹𝑁)π̂+−+(π̂+
++
̂+
−+ +π
++ )
π
̂−
+ (𝐹𝑃+𝑇𝑁)π̂−−+(π̂−
++
̂−
−+ +π
++ )
(3.38)
47
Así, el intervalo de confianza del 95 por ciento para la relación de las razones de
verosimilitud es determinada por la ecuación 3.39, así:
̂ +A∪B ) − ln(LR
̂ +A)) ± 1,96√{𝑉𝑎𝑟(ln(LR
̂ + A∪B) − ln(LR
̂ +A))} (3.39)
exp(Ln(LR
Utilizando el mismo procedimiento se tiene que las expresiones correspondientes para las
razones de verosimilitud negativas son
̂ − A∪B) − ln(LR
̂ −A) =
Ln(LR
= ln(π
̂+
̂−
̂+
̂+
̂−
̂−
−− ) − ln(π
−− ) − ln(π
−− + π
−+ ) + ln(π
−− + π
−+ )
(3.40)
̂ −A∪B) − ln(LR
̂ −A)) =
𝑉𝑎𝑟(ln(LR
=
π
̂+
−+
(𝑇𝑃+𝐹𝑁)π
̂+
̂+
̂+
−− (π
−− +π
−+ )
+
π
̂−
−+
(𝐹𝑃+𝑇𝑁)π
̂−
̂−
̂−
−− (π
−− +π
−+ )
(3.41)
Las ecuaciones (3.37)–(3.41) se pueden utilizar para determinar si el rendimiento
diagnóstico de la prueba combinada es mejor que una prueba de un solo componente, o
̂ + A∪B > LR+A y el intervalo de confianza para LR
̂ +A∪B⁄LR+A no
viceversa. Si LR
̂ − A∪B > LR−A y
incluye 1, se prefiere la prueba combinada. De la misma manera, si LR
̂ −A∪B ⁄LR− A no incluye 1, se recomienda la prueba
el intervalo de confianza para LR
individual.
Ambas reglas positivas (𝑨 ∩ 𝑩)
Las ecuaciones que rigen el cálculo para la regla de "la conjunción" son muy similares a
las mencionadas en el apartado anterior. Para comparar las razones de verosimilitud
positiva, tenemos
̂ + A∩B) − ln(LR
̂ +A) =
Ln(LR
+
− )
+
−
= ln(𝛾̂++
) − ln(𝛾̂++
−ln(𝛾̂++
+ 𝛾̂±+) + ln(𝛾̂++
+ 𝛾̂±−) (3.42)
̂ −A∩B) − ln(LR
̂ −A)) =
𝑉𝑎𝑟(ln(LR
̂+
𝛾
= (𝑇𝑃+𝐹𝑁)𝛾̂+ ±(𝛾̂+
++
̂++ −
++ +𝛾
̂−
𝛾
+ (𝐹𝑃+𝑇𝑁)𝛾̂−±(𝛾̂−
)
++
̂+− − )
++ +𝛾
(3.43)
48
y por las razones de verosimilitud negativa, las fórmulas correspondientes
̂ − A∩B) − ln(LR
̂ −A) =
Ln(LR
+
−
+
− )
= ln(𝛾̂−−
+ 𝛾̂++−) − ln(𝛾̂−−
+ 𝛾̂+−−) − ln(𝛾̂−−
) + ln(𝛾̂−−
(3.44)
̂ −A∩B) − ln(LR
̂ −A)) =
𝑉𝑎𝑟(ln(LR
̂+
𝛾
= (𝑇𝑃+𝐹𝑁)𝛾̂++ −(𝛾̂+
−−
̂++ −
−− +𝛾
̂−
𝛾
+ (𝐹𝑃+𝑇𝑁)𝛾̂−+ −(𝛾̂−
)
−−
̂+− − )
−− +𝛾
(3.45)
̂ − A∩B⁄LR− A<1, o la prueba individual
En este caso, se prefiere la prueba combinada si LR
̂ + A∩B⁄LR+A < 1 .
si LR
Consideraciones finales
En muchos casos, la elección entre el uso de la prueba individual o combinada puede no
ser clara porque no hay ninguna mejora simultánea en LR+ y LR−. En este caso, el uso de
una prueba adicional o no se verá afectado por las ventajas y desventajas en el número de
resultados positivos falsos adicionales esperado uno está dispuesto a aceptar en relación
con el número esperado de verdaderos positivos adicionales (para la regla de 'positivo'),
o el número esperado de falsos negativos adicionales en relación con el aumento esperado
en el número de verdaderos negativos (por la regla de "ambos positivos"). En ambos casos
dependerá de la prevalencia (T) de la condición en la población para ser probado.
Cuando dos pruebas diagnósticas están disponibles para una enfermedad determinada, el
interés se centra a menudo en que prueba, individualmente considerada funciona mejor.
Sin embargo, se pueden considerar altos beneficios en el diagnóstico mediante la
combinación de pruebas, sobre todo cuando ninguno de los dos test es altamente preciso.
Hemos descrito un método para evaluar el incremento en la calidad diagnóstica usando
una prueba de diagnóstico en combinación con una segunda prueba (adjunto). Acabamos
de describir un método que resuelve el problema fundamental que plantea este trabajo la
determinación de cuando un test diagnóstico adicional incrementa la calidad diagnóstica
de uno establecido y que combinación de ambos tests nos permite conseguir tal
incremento y en qué sentido. Posteriormente este método se aplicará a la resolución de
varios problemas clínicos de interés
49
3.2 Un problema de combinación de test diagnósticos binarios con las
soluciones expuestas. Recomendaciones generales.
Como ejemplo para describir el problema de combinación de test diagnósticos binarios
se tomaron como referencia los problemas incluidos en los artículos Assessing the gain
in diagnostic performance when combining two diagnostic tests, Petra Macaskill1 y
Colls, stat_med_2002 (Referenciado en 3.2.1), el problema del apartado 3 del artículo de
comp_method_biomed_1991 que son unos datos que se han convertido en unos datos
clásicos (Referenciado en 3.2.2) y Además unos datos españoles sobre el uso de la tira
radiactiva en el diagnóstico de la infección urinaria, en Evaluación de la tira reactiva para
el diagnóstico de infección urinaria en niños y adultos , de Cristina Latorre, Manuela
Noguero y Aurea Mir (referenciado en 3.2.3). En los tres casos determinaremos si un test
adicional agrega algo al test ya disponible y en qué condiciones se puede afirmar tal cosa.
Todos los cálculos de los ejercicios están en una hoja de cálculo que va en el DE-ROM
que acompaña a al texto del TFM.
3.2.1
Uso de las pruebas pap y vph en combinación (pap ∪ 𝑽𝑷𝑯)
Los métodos desarrollados en este ejemplo (Macaskill y Colls, 2002) se aplicarán a un
estudio del rendimiento de la prueba de Papanicolau (ThinprepTM) y prueba de virus del
papiloma humanos (VPH) en un grupo de 364 mujeres que fueron referidos por
colposcopia debido a un frotis anormal en una prueba de Papanicolaou convencional. Un
objetivo importante de este estudio fue evaluar si con VPH en combinación con repetición
citología (utilizando la regla del 'positivo') proporciona mejor rendimiento diagnóstico
que repetir citología individual para la clasificación de las mujeres con lesiones cervicales
equívocos o bajo grado. La regla de 'positivo' fue elegida con el fin de mejorar el
rendimiento de la prueba en el grupo de enfermas en comparación con el uso de solo
repetir la citología.
Los resultados de la prueba de Papanicolaou fueron clasificados como T=0 (normal) o
T=1 (células escamosas atípicas de significado indeterminado ASCUS; lesión intra
epitelial escamosa de bajo grado LSIL; o lesión intra epitelial escamosa de alto grado
HSIL). VPH (tipos 16; 18; 31; 33; 35; 45; 51; 52; 56 usando análisis de DNA de HPV
captura híbrida tubo) resultados de la prueba fueron registrados como T=0 o T=1 (para
uno o más tipos usando umbral de señal recomendada del fabricante).
50
La información estándar de referencia estaba disponible para todas las mujeres, como
todas ellas experimentaron la colposcopia. Los resultados de la colposcopia se registraron
como normal, LSIL o HSIL. Se evaluó el rendimiento de los componentes y pruebas
combinadas en ambos umbrales posibles para el estándar de referencia.
La tabla 4 muestra los resultados estándar de la prueba y de referencia para el estudio
descrito en esta sección. En la tabla, la prevalencia de LSIL ∪ HSLI (lesión del grado
superior) es
63+43+60+20
364
= 0,51 y la prevalencia de HSIL
60+20
364
= 0,22. Estas altas tasas
de prevalencia son coherentes con las mujeres seleccionadas sobre la base de la anterior
anomalía.
Tabla 4 La citología de repetición clasificada por la prueba de Papanicolau (Papilla) y
HPV prueba resultados dentro de categorías de la enfermedad (n=364).
Enfermedad
Citología (pap)
HSIL
LSIL
ASCUS
Normal
Total
D=0
HVP=1
HVP=0
2
2
15
12
7
9
16
115
40
138
D=LSIL
HVP=1
2
40
9
12
63
HVP=0
1
14
9
19
43
D=HSIL
HVP=1
HVP=0
28
12
24
2
2
2
6
4
60
20
Assessing the gain in diagnostic performance when combining Two diagnostic tests, Petra
macaskill1 y Colls, statistics in medicine. 2002
La tabla 5 muestra las estimaciones para los parámetros sensibilidad, especificidad,
razones de verosimilitud y OR`s, en las que se utilizaron las tablas A1-A6 para el cálculo
de cada una de ellos.
Tabla 5 Estimación de la sensibilidad, especificidad, razones de verosimilitud y odds
ratio para repetición la citología (Pap), HPV y la prueba combinada P ∪H en el umbral
de cada enfermedad.
Pap +
HPV
P OR H
Sens
0.78
0.66
0.88
Espec
0.74
0.78
0.65
LR+
2.95
2.94
2.48
LR0.30
0.44
0.19
OR
9.86
6.74
12.90
Sens Espec LR+ LR- OR
0.88 0.57 2.04 0.22 9.30
0.75 0.64 2.07 0.39 5.27
0.95 0.47 1.80 0.11 17.00
Se considerara ASCUS o el grado más alto de la anormalidad como un resultado de
pruebas positivo para la citología de repetición (Papilla). Dicotomizar los resultados de
la prueba de Papanicolaou en este umbral da los resultados que se muestran en la tabla 5.
51
Aunque el odds ratio para Pap individual (9.86 y 9.3) es menor que para la prueba
combinada para ambos umbrales de la enfermedad (12.9 y 17 respectivamente), la prueba
combinada cae en la región donde hay un equilibrio en las razones de verosimilitud
(figuras 3.5 (a) y (b)). En cada caso, la prueba combinada tiene una menor verosimilitud
(0.19 y 0.11) negativa que Pap individual (0.30 y 0.22), pero también una menor razón
de verosimilitud positiva (2.48 vs 2.95 y 1.80 vs 2.04).
Figura 5 Razones de verosimilitud por la sola prueba (Pap) y combinado prueba P ∪H
cuando: (a) enfermedad = LSIL o HSIL; (b) la enfermedad = HSIL.
(a)
(b)
La clasificación cruzada de los resultados para el Papanicolaou y la prueba combinada
para la detección de grado bajo o lesiones de alto grado, se tiene π
̂+
+ + = =0,780;
π
̂+
̂+
− + =0,097 y π
−−. =0,124 para las 186 mujeres que dieron positivo en la norma de
referencia. Para las 178 mujeres que dieron negativo en la referencia estándar,
π
̂−
̂−
̂−
+ + =0,264; π
− + =0,090 y π
− − = 0,646. De estas proporciones observadas, se puede
calcular la diferencia en el registro de las razones de verosimilitud positiva mediante la
ecuación (3.37) como:
̂ + P∪H ) − ln(LR
̂ + 𝑃) =
Ln(LR
= ln(π
̂+
̂+
̂−
̂−
̂+
̂−
++ + π
−+ ) − ln(π
++ + π
−+ ) − ln(π
++ ) + ln(π
++ )
=ln(0,780 + 0,097) − ln(0,264 + 0,090) − ln(0,780) + ln(0,264)=-0,176
52
De la ecuación (3.38), la varianza de esta estimación es
̂ +P∪H ) − ln(LR
̂ +𝑃)) =
𝑉𝑎𝑟(ln(LR
=
π
̂+
∓
(𝑇𝑃 + 𝐹𝑁)π
̂+
̂+
̂+
++ (π
++ )
∓+π
+
π
̂−
∓
(𝐹𝑃 + 𝑇𝑁)π
̂−
̂−
̂−
++ (π
++ )
∓+π
=
0.097
0.09
+
(145 + 47)0.78(0.097 + 0.78) (41 + 131)264(0.09 + 0.264)
= 0,0063
Por lo tanto, la relación de los coeficientes de probabilidad positivos es de
̂ +P∪H ) − ln(LR
̂ + 𝑃)) = exp(−0,176) = 0,84 con 95% IC 0,72 a 0,98. Para la
exp(Ln(LR
razón de verosimilitud negativa de las ecuaciones (3.40) y (3.41), la relación es de 0.64
con IC 95% 0,48 a 0,84. Ninguno de estos intervalos de confianza incluye el valor de1.
Por lo tanto, hay una disminución significativa en ambas las razones de verosimilitud la
positiva y negativa. La disminución de la LR+ favorece el uso de la prueba individual
mientras que la disminución de la LR− favorece el uso de la prueba combinada. Para la
enfermedad HSIL, las estimaciones correspondientes son 0.88 (IC 95% 0.78 a 0.98) y
0.48 (CI 95% 0.23 a 1.04). Así, hay una compensación en las proporciones de
probabilidad para ambos niveles de la enfermedad y de ahí se tiene que considerar la
compensación en el verdadero positivo esperado y falso positivo adicionales.
Figura 6 Razones de verosimilitud por la sola prueba (VPH) y combinado prueba P ∪H
cuando: (a) enfermedad = LSIL o HSIL; (b) la enfermedad = HSIL
(a)
(b)
53
Por otro lado, La clasificación cruzada de los resultados para el prueba de virus del
papiloma humanos (VPH) y la prueba combinada para la detección de grado bajo o
lesiones de alto grado, aunque con resultados similares a los de la prueba pap, el odds
ratio para HPV individual es menor que en la prueba combinada para ambos umbrales de
la enfermedad, la prueba combinada cae en la región donde hay un equilibrio en las
razones de verosimilitud (figuras 3.6 (a) y (b)). En cada caso, la prueba combinada tiene
una menor verosimilitud negativa que HPV individual, pero también una menor razón de
verosimilitud positiva.
La clasificación cruzada de los resultados para el Papanicolaou y la prueba combinada
para la detección de grado bajo o lesiones de alto grado, se tiene π
̂+
+ + = =0,661;
π
̂+
̂+
− + =0,215 y π
−−. =0,124 para las 186 mujeres que dieron positivo en la norma de
referencia. Para las 178 mujeres que dieron negativo en la referencia estándar,
π
̂−
̂−
̂−
+ + =0,225; π
− + =0,129 y π
− − = 0,646. De estas proporciones observadas, se puede
calcular la diferencia en el registro de las razones de verosimilitud positiva mediante la
ecuación (3.37) como:
̂ +P∪H ) − ln(LR
̂ +𝐻) =
Ln(LR
= ln(π
̂+
̂+
̂−
̂−
̂+
̂−
++ + π
−+ ) − ln(π
++ + π
−+ ) − ln(π
++ ) + ln(π
++ )
=ln(0,661 + 0,215) − ln(0,225 + 0,129) − ln(0,661) + ln(0,225)=-0,172
De la ecuación (3.38), la varianza de esta estimación es
̂ + P∪H ) − ln(LR
̂ + 𝐻)) =
𝑉𝑎𝑟(ln(LR
π
̂+
π
̂−
−+
−+
=
+
=
+
+
+
−
(𝑇𝑃 + 𝐹𝑁)π
̂++ (π
̂− + + π
̂ ++ ) (𝐹𝑃 + 𝑇𝑁)π
̂++ (π
̂−
̂−
−+ + π
++ )
0.215
0.219
+
(123 + 40)0.661(0.215 + 0.661) (63 + 138)0.225(0.219 + 0.225)
= 0,0057
Por lo tanto, la relación de los coeficientes de probabilidad positivos es de
̂ +P∪H ) − ln(LR
̂ + 𝑃)) = exp(−0,172) = 0,84 con 95% IC 0,69 a 0,988.
exp(Ln(LR
54
Para la razón de verosimilitud negativa de las ecuaciones (3.40) y (3.41),
̂ − P∪H ) − ln(LR
̂ −H) =
Ln(LR
= ln(π
̂+
̂−
̂+
̂+
̂−
̂−
−− ) − ln(π
−− ) − ln(π
−− + π
−+ ) + ln(π
−− + π
−+ )=
ln(0.124) − ln(0.646) − ln(0.124 + 0.215) + ln(0.646 + 0.219) = −0.714
̂ − P∪H ) − ln(LR
̂ − 𝐻)) =
𝑉𝑎𝑟(ln(LR
π
̂+
= (𝑇𝑃+𝐹𝑁)π̂+−+(π̂+
−−
π
̂−
̂+
−−+π
−+
0.215
(123+40)0.124(0.124+0.215)
+ (𝐹𝑃+𝑇𝑁)π̂−−+(π̂−
)
−−
=
̂−
−− +π
−+ )
0.129
+ (63+138)646(0.646+0.129)=0.0327
Por lo tanto, la relación de los coeficientes de probabilidad negativos es de
̂ −P∪H ) − ln(LR
̂ + 𝐻)) = exp(−0,174) = 0,49. La relación es de 0,49 con
exp(Ln(LR
95% IC 0,14 a 0,84. Ninguno de estos intervalos de confianza incluye el valor de1. La
disminución de la LR+ favorece el uso de la prueba individual mientras que la
disminución de la LR− favorece el uso de la prueba combinada. Para la enfermedad HSIL,
las estimaciones correspondientes son 0.88 (IC 95% 0.78 a 0.98) y 0.48 (CI 95% 0.23 a
1.04). Así, hay una compensación en las proporciones de probabilidad para ambos niveles
de la enfermedad y de ahí se tiene que considerar la compensación en el verdadero
positivo esperado y falso positivo adicionales.
Conclusión
Estas dos pruebas diagnósticas (PAP Y HVP) están disponibles para determinar la
existencia de una lesión intra epitelial escamosa de bajo grado LSIL o lesión intra epitelial
escamosa de alto grado HSIL, el centro del asunto es identificar si cada una de las pruebas
individuales funciona mejor. Nuestro enfoque abordó el problema en términos de una
comparación directa entre el rendimiento diagnóstico de dos test (en paralelo) y uno de
los dos en solitario. Las razones de verosimilitud de la prueba combinada se compararon
con los de una prueba individual para evaluar su rendimiento diagnóstico relativo. Puesto
que las razones de verosimilitud son una función de sensibilidad y especificidad, que
tienen en cuenta la compensación que se produce en estas medidas cuando se combinan
las pruebas.
55
Lo anterior muestra que utilizando una prueba diagnóstica combinada (para este caso en
paralelo) un resultado positivo de cualquiera de ellas se considera diagnóstico de la
enfermedad, en este problema se evidencio un aumento en la sensibilidad y disminución
de la especificidad cuando se combinaron las pruebas, lo que sugiere que si lo que se
desea es tener mayor rendimiento diagnostico estimando la enfermedad (un individuo
enfermo que da en el test positivo) es útil la combinación, pero si lo que se desea es
aumentar el poder diagnostico estimando la no presencia de la enfermedad (que un sujeto
este sano cuando el test arroja negativo) se deben utilizar los test individuales.
3.2.2
Uso de la ecografía Doppler (DU) y la neumoplastimografía ocular
(OPG) combinadas o por separado para el diagnóstico de la estenosis
carotidea grave.
La estenosis de las carótidas es un estrechamiento de tales vasos sanguíneos que todas
las personas sufren a lo largo de la vida; sin embargo un estrechamiento excesivo de tales
vasos, pérdida de más del 75% de su luz, es un problema especialmente grave puesto que
pone en serio riesgo a la persona de sufrir accidentes cerebrales graves. La determinación
rigurosa de la presencia de una estenosis importante (como se ha dicho superior al 75%)
se hace mediante una angiografía cerebral prueba que es considerada un gold standard y
que tiene el inconveniente del trabajo con material radiactivo en una zona tan sensible
como el cerebro. Por ello antes que usar esa prueba se han desarrollado otras pruebas que
no son invasivas y que no resultan tan potencialmente peligrosas para el paciente. La
primera es el uso de la ecografía Doppler para la determinación de la presencia o no de la
estenosis grave, DU, que concluye en un resultado binario que proporciona un observador
experto en su uso. La otra es una prueba, valorada por un experto, que se denomina
neumoplastimografía ocular, OPG, que determina en otras zonas regadas por las carótidas
el déficit de riego; es también una prueba de resultado binario. Pues bien en el artículo de
(Utility of combining two diagnostic test, Browiak Dale y Reed JF en 1991) se emplearon
análisis de 538 carótidas, correspondientes a 269 pacientes sospechosos de estenosis de
carótidas grave, a las que se les midió con el gold standard y con los dos tests citados.
Los resultados obtenidos aparecen en la tabla siguiente:
56
Tabla 6 Datos originales apartado 3 Utility of combining two diagnostic test, Browiak
Dale y Reed JF en 1991, pag 174
Estenosis<75%
Estenosis>=75%
DU+OPG+
10
158
DU+OPG18
30
DU-OPG+
53
22
DU-OPG241
6
Teniendo en cuenta estos resultados se desea determinar si es mejor usar una prueba de
las dos o si es mejor usar la combinación de ambas y en qué condiciones eso es mejor.
El problema se resolverá bajo la suposición de que los resultados de la pareja de carótidas
provenientes del mismo paciente o son independientes o están débilmente relacionados,
cosa que es la que ocurre en esta ocasión.
Tabla 7 Resultados reorganizados según tabla B1 Assessing the gain in diagnostic
performance when combining two diagnostic tests Petra Macaskill y Colls, Statist. Med.
2002, pag 2543
Resultados del test DU O OPG para estenosis grave
OPG
Positivo (T=1)
Negativo ( T=0) Total
DU
D=1
D=0
Presencia( D=1)
+
158
30
10
18
216
Ausencia ( D=0)
-
22
6
53
241
322
180
36
63
259
538
Total
La tabla 3.8 muestra las estimaciones para los parámetros sensibilidad, especificidad,
razones de verosimilitud y OR`s, en las que se utilizaron la tabla B1 para el cálculo de
cada uno de ellos.
Aunque el odds ratio para DU individual (70.5) es menor que para la prueba
combinada para el umbral de la enfermedad (104.1), la prueba combinada cae en la región
donde hay un equilibrio en las razones de verosimilitud (figura 3.7 (a)). En así como, la
prueba combinada tiene una menor verosimilitud (0.04) negativa que DU individual
(0.14), pero también una menor razón de verosimilitud positiva (3.86 vs 10.01), se
presenta la misma situación con OPG, mayores sensibilidades para la prueba combinada,
menores especificidades, menores razones de verosimilitud tanto positiva como negativa
y mayores OR`s (La tabla de cálculo se encuentra en el apéndice B1).
57
Tabla 8 Estimación de la sensibilidad, especificidad, razones de verosimilitud y odds
ratio para DU, OPG y la prueba combinada DU ∪ OPG en el umbral de la enfermedad.
Test
DU
OPG
DU ∪ OPG
n
538
538
538
Se
0.87
0.74
0.97
Sp
0.91
0.88
0.75
LR+
10.01
6.07
3.86
LR- OR
0.14 70.5
0.3 20.56
0.04 104.1
Figura 7 Razones de verosimilitud por la sola prueba (DU) y combinado prueba
DU∪OPG (a); (b) para la sola prueba (OPG) y combinado DU∪OPG (la
enfermedad=estenosis grave)
(a)
(b)
La clasificación cruzada de los resultados para el OPG y la prueba combinada para
la detección de estenosis grave, se tiene π
̂+
̂+
̂+
+ + = 0.870; π
− + =0,102 y π
−−. =0,028 para los
216 pacientes que dieron positivo. Para los restantes 322 sujetos que dieron negativo, se
tiene que π
̂−
̂−
̂−
+ + =0,087; π
− + =0,165 y π
− − = 0,748. De estas proporciones observadas, se
puede calcular la diferencia en el registro de las razones de verosimilitud positiva
mediante la ecuación (3.37) como:
̂ + DU ∪ OPG) − ln(LR
̂ +𝑂𝑃𝐺) =
Ln(LR
= ln(π
̂+
̂+
̂−
̂−
̂+
̂−
++ + π
−+ ) − ln(π
++ + π
−+ ) − ln(π
++ ) + ln(π
++ )=-0.952
58
De la ecuación (3.38), la varianza de esta estimación es
̂ + P∪H ) − ln(LR
̂ + 𝐻)) =
𝑉𝑎𝑟(ln(LR
π
̂+
π
̂−
−+
−+
=
+
= 0.0254
+
+
+
−
(𝑇𝑃 + 𝐹𝑁)π
̂++ (π
̂− + + π
̂++ ) (𝐹𝑃 + 𝑇𝑁)π
̂++ (π
̂−
̂−
−+ + π
++ )
Por lo tanto, la relación de los coeficientes de probabilidad positivos es de
̂ +P∪H ) − ln(LR
̂ + 𝑃)) = exp(−0,952) = 0,39 con 95% IC 0,074 a 0,699.
exp(Ln(LR
Para la razón de verosimilitud negativa de las ecuaciones (3.40) y (3.41),
̂ − P∪H ) − ln(LR
̂ −H) =
Ln(LR
= ln(π
̂+
̂−
̂+
̂+
̂−
̂−
−− ) − ln(π
−− ) − ln(π
−− + π
−− + π
−+ ) =-1.342
∓ ) + ln(π
̂ − P∪H ) − ln(LR
̂ − 𝐻)) =
𝑉𝑎𝑟(ln(LR
=
π
̂+
π
̂−
−+
−+
+
= 0.132
+
+
+
−
(𝑇𝑃+𝐹𝑁)π
̂ −− (π
̂ −−+π
̂ −+)
(𝐹𝑃+𝑇𝑁)π
̂ −− (π
̂−
̂−
−− +π
−+ )
Por lo tanto, la relación de los coeficientes de probabilidad negativos es de
̂ −P∪H ) − ln(LR
̂ + 𝐻)) = exp(−1,342) = 0,261. La relación es de 0,261 con
exp(Ln(LR
95% IC -0,45 a 0,973. Como en el problema anterior ninguno de estos intervalos de
confianza incluye el valor de 1(incluso el LR- contiene al cero). La disminución de la
LR+ favorece el uso de la prueba individual mientras que el hecho que la LR− ni aumente
ni disminuya dice que cualquiera de las dos pruebas la individual (OPG) o la combinada
(DU o OPG) se pueden utilizar.
Conclusión
De manera similar que en el problema anterior se evidencia que la combinación de
DU-OPG mejora la probabilidad de determinar el estado de la enfermedad de la arteria
carótida del paciente (debido a que aumenta la sensibilidad), sin embargo si lo que se
desea es el otro predictor, es decir que mejore la probabilidad de detectar los sujetos sanos
es evidente que se debe tener los test individuales.
Lo anterior sugiere que en el caso de dos pruebas de diagnóstico que son discordantes,
el desacuerdo puede ser eliminado combinando las pruebas de manera que se aumenta la
sensibilidad.
59
3.2.3
¿Debería complementarse el uso de la tira radiactiva para la
determinación de la infección urinaria con una tinción de GRAM para
conseguir un aumento de la precisión diagnóstica? Ese resultado ¿es
el mismo en niños que en adultos?
En las consultas de atención primaria se usa una prueba muy rápida e inocua, que no
es un gold standard, para la determinación de si un paciente con síntomas sufre una
infección urinaria, que es la denominada prueba de la tira radiactiva (TR). El Gold
standard de la infección urinaria es el urocultivo para el que se tarda en tener un resultado
más de 10 días. Por esto y porque la TR tiene baja sensibilidad/especificidad en
determinadas situaciones se plantea el problema de emplear una prueba cuyo resultado
tarda un día que es la denominada tinción de GRAM. Tanto la TR como GRAM son
pruebas de resultado binario. En (Evaluación de la tira reactiva para el diagnóstico de
infección urinaria en niños y adultos, de Cristina Latorre, Manuela Noguero y Aurea Mir)
se ha realizado un estudio en el que a una muestra de niños a otra muestra de adultos se
les ha aplicado tanto el gold standard como las dos pruebas obteniéndose las tablas que
figuran a continuación.
Tabla 9 Datos de los tests para la determinación de la Infección urinaria. Niños y
Adultos
Datos de los tests para la determinación de la Infección urinaria. Niños
TR+GRAM+ TR+GRAM- TR-GRAM+ TR-GRAMNo Infección
21
190
7
255
Infección
50
7
12
5
Datos de los tests para la determinación de la Infección urinaria.
Adultos
TR+GRAM+ TR+GRAM- TR-GRAM+ TR-GRAMNo Infección
7
215
3
283
Infección
27
2
3
1
Con estos datos y aplicando la metodología descrita se contestaran las preguntas del título
del apartado.
60
Caso 1 Niños (GRAM VS (GRAM ∩ 𝑻𝑹) (APENDICE C1)
Las ecuaciones que rigen el cálculo para la regla de "la conjunción" son muy similares a
las mencionadas en el problema anterior. Para comparar las razones de verosimilitud
positiva, tenemos la ecuación (3.42) y calculando las probabilidades desde la tabla 3
(𝛾++ + = 0.676 𝛾++ − =0.162, 𝛾−+− = 0.162, 𝛾+− + = 0.044, 𝛾+− − = 0.015 𝑦 𝛾−− − = 0.941 )
̂ + G∩TR ) − ln(LR
̂ +𝐺) =
Ln(LR
+
− )
+
−
= ln(𝛾̂++
) − ln(𝛾̂++
−ln(𝛾̂++
+ 𝛾̂±+) + ln(𝛾̂++
+ 𝛾̂±−) = 0.546
̂ + G∩TR⁄LR
̂ +G = 1.727
Entonces LR
y por las razones de verosimilitud negativa, las fórmulas correspondientes
̂ − G∩TR ) − ln(LR
̂ −𝐺) =
Ln(LR
+
−
+
− )
= ln(𝛾̂−−
+ 𝛾̂++−) − ln(𝛾̂−−
+ 𝛾̂+−−) − ln(𝛾̂−−
) + ln(𝛾̂−−
=0.748
̂ − G∩TR⁄LR
̂ −G = 2.11
Entonces LR
Por otro lado se evidencia que al combinar los dos test en serie GRAM Y TR para niños
disminuye la sensibilidad y se incrementa la especificidad (Ver Apéndice C1), lo que
sugiere que se incrementa el poder para discriminar sanos cuando el test es positivo, pero
no se evidencia la enfermedad.
Caso 2 Niños (TR VS (GRAM ∩ 𝑻𝑹) (APENDICE C2)
Al igual que en el caso 1. Para comparar las razones de verosimilitud positiva, tenemos
la ecuación (3.42) y calculando las probabilidades desde la tabla 3
̂ +G∩TR ) − ln(LR
̂ +𝑇𝑅) =
Ln(LR
+
− )
+
−
= ln(𝛾̂++
) − ln(𝛾̂++
−ln(𝛾̂++
+ 𝛾̂±+) + ln(𝛾̂++
+ 𝛾̂±−) = 2.6
̂ + G∩TR⁄LR
̂ +TR = 14
Entonces LR
61
y por las razones de verosimilitud negativa, las fórmulas correspondientes
̂ −G∩TR ) − ln(LR
̂ −𝑇𝑅) =
Ln(LR
+
−
+
− )
= ln(𝛾̂−−
+ 𝛾̂++−) − ln(𝛾̂−−
+ 𝛾̂+−−) − ln(𝛾̂−−
) + ln(𝛾̂−−
=-0.1
̂ − G∩TR⁄LR
̂ −TR = 0.9
Entonces LR
̂ − G∩TR⁄LR−𝑇𝑅<1 que la TR.
En este caso, se prefiere la prueba combinada si LR
Caso 3 Adultos (GRAM VS (GRAM ∩ 𝑻𝑹) (APENDICE C3)
Para comparar las razones de verosimilitud positiva, se tiene la ecuación (3.42) y
calculando las probabilidades desde la tabla 3
̂ + G∩TR ) − ln(LR
̂ +𝐺) =
Ln(LR
+
− )
+
−
= ln(𝛾̂++
) − ln(𝛾̂++
−ln(𝛾̂++
+ 𝛾̂±+) + ln(𝛾̂++
+ 𝛾̂±−) = 0.72
̂ + G∩TR⁄LR
̂ +G = 2.06
Entonces LR
y por las razones de verosimilitud negativa, las fórmulas correspondientes
̂ − G∩TR ) − ln(LR
̂ −𝐺) =
Ln(LR
+
−
+
− )
= ln(𝛾̂−−
+ 𝛾̂++−) − ln(𝛾̂−−
+ 𝛾̂+−−) − ln(𝛾̂−−
) + ln(𝛾̂−−
=0.78
̂ − G∩TR⁄LR
̂ −G = 2.19
Entonces LR
La sensibilidad (Ver Apéndice C3) para adultos es mayor por lo que no se ve afectada
con mayor valor en comparación que para los niños, pero la prueba combinada se
convierte en específica (0.99).
Caso 4 Adultos (TR VS (GRAM ∩ 𝑻𝑹) (APENDICE C4)
Al igual que en el caso 1. Para comparar las razones de verosimilitud positiva, tenemos
la ecuación (3.42) y calculando las probabilidades desde la tabla 3
̂ +G∩TR ) − ln(LR
̂ +𝑇𝑅) =
Ln(LR
+
− )
+
−
= ln(𝛾̂++
) − ln(𝛾̂++
−ln(𝛾̂++
+ 𝛾̂±+) + ln(𝛾̂++
+ 𝛾̂±−) = 3.85
̂ + G∩TR⁄LR
̂ +TR = 47.09
Entonces LR
62
y por las razones de verosimilitud negativa, las fórmulas correspondientes
̂ −G∩TR ) − ln(LR
̂ −𝑇𝑅) =
Ln(LR
+
−
+
− )
= ln(𝛾̂−−
+ 𝛾̂++−) − ln(𝛾̂−−
+ 𝛾̂+−−) − ln(𝛾̂−−
) + ln(𝛾̂−−
=-0.04
̂ − G∩TR⁄LR
̂ −TR = 0.96
Entonces LR
Conclusión:
La sensibilidad de la tira reactiva (TR) y del tinción de Gram fue superior en las orinas
obtenidas de adultos que en las de niños. La especificidad de las pruebas combinadas para
los niños y adultos aumento de manera significativa, un poco más en los adultos que en
los niños. La tira reactiva es un buen método para descartar una infección urinaria en
niños y adultos. Tanto en niños como en adultos la prueba combinada se prefiere respecto
a la prueba de tira radioactiva (TR).
En adultos tanto sensibilidad como la especificidad se incrementaron (mas la
especificidad) en los test combinados (aumento bastante en el test combinado respecto a
la tira radioactiva) respecto a cada test individual. El valor predictivo positivo de la tira
radioactiva es un poco mayor en niños que en adultos, mientras que para la tinción de
GRAM fue mayor en adultos que en niños. Así mismo, el valor predictivo negativo de
las dos pruebas es un poco mayor (no significativo) en adultos que en niños. Por último,
La tira radioactiva es poco específica tanto en niños como en adultos, con respecto a la
tinción de GRAM, esta última es más específica en adultos que en niños.
63
CAPITULO IV
PROTOCOLO DE ANÁLISIS DE LOS PROBLEMAS
PRESENTADOS
La sensibilidad total (a veces llamado "sensibilidad neta") y precisión total (a
veces llamado "precisión neta") para las dos pruebas en la combinación se puede
obtener usando conceptos de probabilidad.
Las pruebas en paralelo (A ∪ 𝐵) muestran un resultado positivo de cualquiera de
ellas se considera diagnóstico de la enfermedad, se hacen importantes cuando se
necesita un diagnóstico rápido, (Ej.: pacientes hospitalizados o en urgencias),
normalmente aumentan la sensibilidad y disminuyen la especificidad.
Las pruebas en serie (A ∩ 𝐵)) sólo consideran el diagnóstico de enfermedad
cuando todas las pruebas dan positivas, cuando no se precisa una evaluación
rápida, cuando alguna de las pruebas tiene un riesgo elevado, aumentan la
especificidad y disminuyen la sensibilidad.
Surgen así, algunas normas que permiten aplicar cada una de las combinaciones
de los test binarios, es decir:
64
La combinación de test en serie son especialmente útiles cuando se requiere una
prueba muy específica pero sólo.
Dos test de diagnóstico se aplican en serie si ambas pruebas deben ser positivas a
fin de apuntar la acción (el resultado combinado se llama "positivo").
Las combinaciones de test en paralelo son útiles cuando se requiere una prueba
muy sensible pero sólo se dispone de pruebas relativamente insensibles que miden
diferentes fenómenos clínicos. Es menos probable que la enfermedad se pase por
alto, pero también hay más falsos positivos, pero se complica teniendo en cuenta
que el tratamiento de algunos pacientes se hace complejo sin la enfermedad.
Dos pruebas, ya sean idénticas o diferentes, se dice que se debe aplicar en paralelo
si un resultado positivo en una de las pruebas es suficiente para solicitar un trabajo
de diagnóstico (es decir, el resultado se llama "positivo"). Dos pruebas de
tamizaje, ya sean idénticas o diferentes, se dice que se debe aplicar en paralelo si
un resultado positivo en una de las pruebas es suficiente para solicitar un trabajo
de diagnóstico (es decir, el resultado se llama "positivo").
Es así, que a manera de conclusión las pruebas en paralelo con dos test
diagnósticos nos dan dos posibilidades de identificar a cada caso. Para pruebas en
paralelo se da mayor sensibilidad.
Las pruebas de los modelos serie con dos test diagnósticos nos ofrece dos
posibilidades para identificar cada no-caso. Para las pruebas de los modelos serie
tiene mayor especificidad.
En todos los casos los LR+ fueron superiores a 1, esto es para niños y adultos en
la tira radioactiva, la tinción de GRAM y la combinación de las dos, mientras que
las LR- tuvieron un valor menor que 1, lo que nos muestra que tanto para niños
como para adultos la probabilidad de que al ser el test positivo es mayor en
pacientes con la enfermedad que sin la enfermedad y que la probabilidad de que
al salir el test negativo es mayor en pacientes sin la condición respecto a los
pacientes enfermos.
65
El enfoque abordado en este documento abordo los problemas (de manera
particular) en términos de una comparación directa entre el rendimiento
diagnóstico de las combinaciones en serie o en paralelo de test diagnósticos para
variables dicotómicas pruebas realizadas en los mismos sujetos. Las razones de
verosimilitud de la prueba combinada fueron comparadas con los de una prueba
individual para evaluar su rendimiento diagnóstico relativo. Puesto que las
razones de verosimilitud son una función de sensibilidad y especificidad, que
tienen en cuenta la compensación que se produce en estas medidas cuando se
combinan las pruebas. También proporcionan una base clínicamente relevante
para comparar las pruebas porque LR es igual al cociente de las probabilidades de
la enfermedad en el caso de un resultado positivo de pruebas pre y post-test, y
LR− es el ratio de análogo de la enfermedad asociado con un resultado negativo
de la prueba.
Para terminar, se evidencia que el método de comparación de las máximas
verosimilitudes es un poco limitado, ya que sólo puede ser usado para tasar si la
prueba individual es superior o inferior a la prueba combinada, mostrando que la
prueba individual tiene LR− inferior que el combinado ‘la una o la otra’ prueba
positiva. Sin embargo, el complemento de este resultado permite que LR para la
prueba combinada sea más alto o más abajo que para la prueba individual. De ahí,
este método no puede dar una respuesta definitiva en cuanto a si la prueba
combinada es superior a la prueba diagnóstica individual.
66
67
CAPITULO V REFERENTES BIBLIOGRAFICOS
Agresti, A. (1990). Categorical Data Analysis. New York: Wiley.
Biggerstaff, B. (2000). Comparing diagnostic tests: a simple graphic using likelihood
ratios. Stat Med 19(5), 649-663.
Castaldo, J., Nicholas, G., Ge, W., & Reed, J. (1989). Duplex ultrasound and ocular
pneumoplethysmography. Neurol. 46, 518.
Feinstein, A. (1975). On the sensitivity, specificity and discrimination of diagnostic
tests. En A. Feinstein, Clinical biostatistics (págs. 17: 104-16.). Clin Pharmacol
Ther .
Fleiss, J. (1981). Statistical Methods for Rates and Proportions. New York: Willey.
Gee, W. (1982). Carotid physiology with ocular pneumoplethysmography. Stroke 13,
666-673.
Jimenez, A. E. (2008). Inferencia exacta y asintotica para parametros d etest
diagnosticos discretos en presencia de verificacion parcial. Granada, España:
Editorial Universidad de Granada.
Kotz, S., & NL, J. (1972). Distributions in Statistics: Continuous Multivariate
Distributions. New York: Wiley.
Macaskill y Colls, P. (2002). Assessing the gain in diagnostic performance when
combining two diagnostics test. Statistics in medicine, 2527 - 2546.
Maguire, W. (1996). Modeling Boolean Decision Rules Applied to Multiple-observer
Decision Strategies. Medical Decision Making, 50-57.
Marin Jimenez, A. E. (2008). Inferencia exacta y asintotica para parametros de test
diagnosticos discretos en presencia de verificacion parcial. Granada: Editor de
la Universidad de Granada.
Montero, M. A. (2010). Intervalos de confianza y contrastes de hipotesis para
parametros de test diagnosticos binarios. Granada, Andalucia, España.
Salech y Cols, F. (2008). Estudios que evalúan un test diagnostico, interpretando sus
resultados. Revista de Medicina, Chile, 136: 1203-1208.
Simel, D., Samsa, G., & Matchar, D. (1991). Likelihood ratios with con_dence: sample
size estimation for diagnostic test studies. Journal of Clinical Epidemiology ,
44(8): 763-770.
68
APENDICE A
Uso de las pruebas pap y vph en combinación (pap ∪ 𝑽𝑷𝑯)
A1. Resultados del test Pap para HSIL
Estado de la
enfermedad
Positivo
(T=1)
Presencia( D=1)
70
10
80
Ausencia ( D=0)
122
162
284
192
172
364
Negativo ( T=0)
Total
Calculo de los parámetros
Se
0.88
Sp
0.57
LR+
2.04
LR-
0.22
OR
9.30
A2. Resultados del test pap para LSIL o HSIL
Estado de
Positivo Negativo
la
Total
(T=1)
( T=0)
enfermedad
Presencia
( D=1)
Ausencia
( D=0)
145
41
186
47
131
178
192
172
Calculo de los parámetros
Se
0.78
Sp
0.74
LR+
2.95
LR-
0.30
OR
9.86
364
69
A3. Resultados del test HPV para HSIL
Estado de la
enfermedad
Positivo
(T=1)
Negativo
( T=0)
Total
Presencia( D=1)
60
20
80
Ausencia ( D=0)
103
181
284
163
201
Calculo de los
parámetros
Se
0.75
364
Sp
0.64
LR+
2.07
LR-
0.39
OR
5.27
A4. Resultados del test HPV para HSIL O LSIL
Estado de la Positivo Negativo
enfermedad (T=1)
( T=0)
Total
Presencia
( D=1)
123
63
186
Ausencia
( D=0)
40
138
178
163
201
Calculo de los
parámetros
Se
0.66
364
Sp
0.78
LR+
2.94
LR-
0.44
OR
6.74
70
A5. Resultados del test PAP O HPV para HSIL
Positivo Negativo (
HVP
Total
(T=1)
T=0)
PAP
D=1
D=0
Presencia( D=1)
+
54
16
75
47
192
Ausencia ( D=0)
-
6
4
28
134
172
60
20
103
181
364
Total
Calculo de los
parámetros
Se
0.95
Sp
0.47
LR+
1.80
LR-
0.11
OR
16.97
A 6. Resultados del test PAP O HPV para HSIL o LSIL
Positivo Negativo
HVP
Total
(T=1)
( T=0)
PAP
Presencia( D=1)
Ausencia (
D=0)
Total
105 40
24
23
192
18
23
16 115
172
123 63
40 138
364
Se
0.88
Sp
0.65
LR+
2.48
LR-
0.19
OR
12.94
71
Apéndice B
Uso de la ecografía Doppler (DU) y la neumoplastimografía ocular (OPG)
combinadas o por separado para el diagnóstico de la estenosis carotidea grave.
Resultados del test DU O OPG para diagnosticar estenosis carotidea grave
OPG
Positivo (T=1)
Negativo ( T=0) Total
DU
Presencia(
158
30
10
18
216
D=1)
Ausencia (
22
6
53
241
322
D=0)
Total
180
36
63
259
538
Calculo de los parámetros
Se
DU o OPG
0.97
Sp
0.75
LR+
3.86
LR-
0.04
OR
104.14
DU
Parámetros
Probabilidades
Se
Sp
LR+
LROR
0.87
0.91
10.01
0.14
70.50
OPG
0.74
0.88
6.07
0.30
20.56
π
̂+
++
π
̂+
-+
π
̂+
-π
̂-+ +
π
̂-- +
π
̂-- -
0.870
0.102
0.028
0.087
0.165
0.748
72
Apéndice C
¿Debería complementarse el uso de la tira radiactiva para la determinación de la
infección urinaria con una tinción de GRAM para conseguir un aumento de la
precisión diagnóstica? Ese resultado ¿es el mismo en niños que en adultos?
C 1. Resultados del test GRAM Y TR para infección urinaria Niños
Positivo
(T=1)
Negativo (
T=0)
Presencia( D=1)
50
12
21
7
90
Ausencia ( D=0)
7
5
190
255
457
Total
57
17
211
262
547
TR
Total
GRAM
Parámetros
combinados en serie
Parametros
individuales
Se
Sp
LR+
LROR
Test
Se
0.65
0.97
24.44
0.36
67.09
GRAM TR
0.84 0.77
Sp
LR+
LROR
0.94
14.15
0.17
82.11
Probabilidade
s
0.676
0.162
0.162
0.044
0.015
0.941
0.55
1.73
0.41
4.16
73
C2. Resultados del test TR Y GRAM para infección urinaria Niños
GRAM
Positivo (T=1)
TR
Negativo ( T=0)
D=1
Total
D=0
Presencia( D=1)
+
50
7
21
190
268
Ausencia ( D=0)
-
12
5
7
255
279
62
12
28
445
547
Total
Probabilidades
+
π
̂+ +
0.676
+
π
̂- +
0.095
+
π
̂- 0.230
π
̂+ +
0.044
π
̂- +
0.402
π
̂- 0.554
74
C3. Resultados del test GRAM Y TR para infección urinaria Adultos
TR
Positivo (T=1)
Negativo ( T=0)
Tota
l
GRAM
Presencia( D=1)
27
3
7
3
40
Ausencia ( D=0)
2
1
215
283
501
Total
29
4
222
286
541
Parametros
combinados en serie
Parametros
individuales
Se
Sp
LR+
LROR
Test
Se
Sp
LR+
LROR
33
0.80
0.99
97.21
0.20
479.42
GRAM
0.91
0.98
47.09
0.09
508.00
508
Probabilidades
0.818
0.091
0.091
0.014
TR
0.88
0.57
2.06
0.21
9.78
0.061023622
0.980
75
C4. Resultados del test GRAM Y TR para infección urinaria Adultos
GRM
Positivo (T=1)
Negativo ( T=0)
Total
TR
Presencia(
D=1)
27
2
7
215
251
Ausencia (
D=0)
1
1
3
283
288
Total
28
3
10
498
539
31
Probabilidades
π
̂+
0.871
++
+
π
̂- +
0.065
+
π
̂- 0.065
π
̂+ +
0.014
π
̂- +
0.423
π
̂- 0.563
508
76
Descargar