REYNALDO CARVAJAL ORTIZ CAPITULO 4 DISTRIBUCION NORMAL, PRUEBA TAMIZ Y TEOREMA DE BAYES 4.1. CURVA NORMAL El primer matemático que descubrió la función de probabilidad Normal fue Abraham de Moivre (1.667-1754), quien dedujo en 1.733 la distribución como forma límite de la Binomial (1) ; sin embargo su trabajo quedó en el anonimato. Posteriormente, en el siglo XVIII con el auge de los juegos de azar empezaron a estudiar modelos matemáticos para estimar probabilidades a priori de éxito (Laplace, Pascal, Chevalier de More). Por ese tiempo los matemáticos Laplace y Gauss, efectuando mediciones astronómicas, iniciaron trabajos acerca del error accidental cometido en la medición de magnitudes para variables aleatorias continuas y establecieron la Ley Normal de los errores(2) debido a la observación. La distribución Normal también se denomina curva de campana, curva de gauss ó curva de Error; esta última acepción se debe a que las pequeñas variaciones observadas (errores) entre infinidad de mediciones obtenidas de idéntica manera, se distribuyen normalmente alrededor del verdadero valor de la cantidad. 72 REYNALDO CARVAJAL ORTIZ Hoy día la curva Normal es la distribución de probabilidad más importante y familiar por las siguientes razones: En primer lugar, empíricamente se ha observado que muchas variables tales como: peso, talla, presión sanguínea, niveles séricos de ácido úrico, valores de hemoglobina, glicemia, colesterol, puntajes de exámenes, cociente intelectual, etc., siguen aproximadamente su forma. En segundo lugar, es la base fundamental de la Inferencia Estadística Paramétrica; esto es, en el Muestreo Aleatorio la distribución de los promedios muestrales, de todas las posibles muestras de igual tamaño siguen una Curva Normal independientemente de la forma de la Población de origen, alrededor de . (siempre y cuando el tamaño de muestra n sea suficientemente grande, n>30). Por último, la mayoría de las distribuciones de probabilidad tanto continuas como discretas, convergen a la Distribución Normal; por tal motivo la Curva Normal se puede utilizar como una excelente aproximación para el cálculo rápido de probabilidades cuando el fenómeno que se estudia sigue una Distribución Hipergeométrica, Binomal, de Poisson, etc. 4.1.1. Características generales Está definida por el promedio aritmético y la desviación estándar ; de forma acampanada y simétrica alrededor de , es una distribución continua de probabilidad, lo cual permite el cálculo de áreas entre dos puntos ubicados debajo la Curva; estas áreas expresan la probabilidad de ocurrencia de valores entre dichos puntos. 73 REYNALDO CARVAJAL ORTIZ Teóricamente sus ramas oscilan desde menos infinito (- ) hasta más infinito (+) y su ecuación matemática se rige por la fórmula siguiente: - ½ (x - /)2 1 Y= donde: , e = costantes e , = Parámetros 2 4.1.2. Cálculo de probabilidades El cálculo de la probabilidad de ocurrencia entre dos puntos X 1, X2, bajo la curva exige la “Integración Matemática” de la función dada anteriormente para , conocidos. Sin embargo para evitar complicados y complejos procedimientos matemáticos se han establecido tablas de probabilidad de una Curva Normal estándar centrada alrededor de cero ( = ) y con una desviación estándar igual a uno (=1). De esta forma cualquier curva con y conocidos siempre es posible referirla a la Tabla de Probabilidades (o valores de Z) con solo cambiar la escala. (Ver apéndice 1) Para el cambio de escala se emplea la transformación Z: Xi - si se conoce y Z= Xi - X Z= si se conoce X y S S 74 REYNALDO CARVAJAL ORTIZ 4.1.3. Cálculo de probabilidades para una distribución de datos En este caso es necesario definir y y el intervalo sobre el cual se van a estimar probabilidades. Ejemplo: Asumiendo que los niveles de glucosa en personas clínicamente sanas siguen aproximadamente una Distribución Normal con =80 mg/100 ml y =7 mg/100 ml; calcular la probabilidad de encontrar individuos sanos con valores de glucosa superiores o iguales a 101 mg/100 ml. Como = 80 =7 Xi = 101: Xi - entonces: Z = 101 - 80 = = 3.0 7 La tabla 1 (apéndice 1) muestra que el valor de probabilidad entre Z = 0 y Z =3.0 es igual a 0.49865. Por lo tanto, la probabilidad pedida será: 0.5000 – 0.49865 = 0.00135 Conclusión: es muy poco probable (0.135%) que una persona sana tomada aleatoriamente de esa Población presente un valor de Glucosa mayor o igual a 101 mg/100 ml. 75 REYNALDO CARVAJAL ORTIZ 4.2. PRUEBAS DIAGNOSTICAS En el área de Salud, empíricamente se ha observado que muchos fenómenos biológicos tienden a distribuirse en forma de curva normal, por ejemplo : valores de hemoglobina, glicemia, colesterol, ácido úrico, etc. Esta tendencia se presenta a menudo tanto en poblaciones “sanas” como en poblaciones de “enfermos”; además, resultados de extensas encuestas muestran como estas curvas generalmente se superponen. De otro lado, frecuentemente se quiere evaluar la bondad de un test o prueba diagnóstica para identificar grupos de alto riesgo en la población general (Tamizaje o Screening). Las pruebas tamiz o de detección se justifican cuando la enfermedad que se investiga es causa importante de morbimortalidad, son de bajo costo y existe tratamiento disponible para prevenir la morbimortalidad en los casos positivos identificados precozmente. Para construir dichas pruebas es necesario tener en cuenta dos criterios : a. Una variable separadora que está asociada con una enfermedad dada, por ejemplo : niveles de ácido úrico en personas con gota y sin gota, niveles de glucosa en personas diabéticas y no diabéticas, peso corporal en personas hipoteroideas y no hipoteroideas, diámetro (mm) de induración en niños con TBC o sin TBC, niveles de colesterol en personas con o sin enfermedad coronaria, etc. 76 REYNALDO CARVAJAL ORTIZ b. Un criterio de positividad ( Norma ) para CLASIFICAR “sanos” (-) y “enfermos” (+). Con base en lo anterior es posible describir un método que muestre la aplicación de la distribución normal en la evaluación de pruebas tamiz. 4.3. RIESGO DE ERROR Asumiendo que los valores obtenidos por un test en la población de “sanos” (-) son sistemáticamente inferiores a los encontrados en la población de “enfermos” (+), es posible establecer en un punto crítico (norma ) a partir del cual se clasifiquen como “personas sanas” (-) todas aquellas cuyo resultado del test, presente valores inferiores a la norma y “personas enfermas” quienes tengan valores iguales o superiores a ella. Gráficamente se tiene : ESTADO REAL DE LAS POBLACIONES Sanos Enfermos (-) (+) Norma Sanos según la Norma (Test Negativo) Variable Separadora Enfermos según la Norma (Test Positivo) 77 REYNALDO CARVAJAL ORTIZ De esta forma surgen dos tipos de error : 4.3.1. Error Tipo I ( ) : Consiste en considerar una persona como “enferma” (+) cuando realmente está “sana” (-). Se denomina también frecuencia de Falsos Positivos. 4.3.2. Error Tipo II ( ) : Considerar una persona como “sana” (-) cuando realmente está “enferma” (+) o frecuencia de Falsos Negativos. El grado de superposición existente entre las poblaciones determina la relación entre y . De esta forma, en la medida en que estos errores sean muy pequeños el test o prueba aplicada (glucosa, ácido úrico, etc.) indica gran poder de discriminación, esto es, separa negativos de positivos. En el caso de que la superposición sea muy grande, debe descartarse la aplicación del test como método selectivo. Se debe por lo tanto, intentar aplicar otro sistema de medición capaz de reducir al mínimo dicha superposición. Gran poder de discriminación Poco poder de discriminación 78 REYNALDO CARVAJAL ORTIZ 4.4. SENSIBILIDAD Y ESPECIFICIDAD DEL TEST. Con base en la norma establecida se puede determinar : 4.4.1. Sensibilidad: Es la capacidad que tiene el test para clasificar como positiva a la persona realmente enferma evitando de esta forma la presencia de falsos negativos ( ). Por ejemplo, si una prueba es sensible en un 98%, esto significa que por cada cien enfermos ya diagnosticados por métodos comunes, detecta 98: ESTADO REAL DE LAS POBLACIONES (-) (+) Especificidad Sensibilidad F- F+ Norma Variable Separadora 4.4.2. Especificidad : Es la capacidad que tiene el test para clasificar como negativa (-) a la persona que está realmente sana evitando la presencia de falsos positivos (). Por ejemplo, si un test es específico en un 97%, significa que por cada 100 personas sanas (o sin la enfermedad investigada) detecta 97. 79 REYNALDO CARVAJAL ORTIZ 4.5. APLICACIÓN DE LA DISTRIBUCION NORMAL EN LA SELECCIÓN DE DONANTES DE SANGRE Uno de los problemas crónicos que se presentan en los bancos de sangre de los hospitales es la transmisión del virus de la hepatitis que hacen los donadores de sangre a los pacientes que necesitan una transfusión. Prince y Gershon9 afirman que resultados empíricos de extensas encuestas entre personas sanas y personas que tienen un daño hepatocelular comprobado revelan que para ambas poblaciones, el logaritmo de los valores de la transaminasa sérica glutamato-piruvato (T.P.G.S.) sigue aproximadamente una curva normal y puede resultar considerablemente elevada antes y después del curso clínico de la hepatitis vírica Ictérica, así como también, durante el curso de la hepatitis viral anictérica. Para la población de personas exentas de cualquier lesión hepatocelular (sanos) el logaritmo (base 10) de la T.P.G.S. presenta un valor promedio = 1.25 con una desviación estándar = 0.12, mientras que en la población de enfermos estos valores =1.55 y = 0.13. El propósito es el de utilizar esta información y encontrar un valor crítico (o norma) para el T.P.G.S. en el tamizaje (screening) de sangre de poblaciones donde no se sabe si el donador es una persona sana o tiene un daño hepatocelular. De esta forma, la sangre de un donador potencial cuyo log, T.P.G.S. sea mayor o igual que la norma establecida sería rechazado por el banco de sangre del hospital; en caso contrario se aceptaría para una transfusión. 80 REYNALDO CARVAJAL ORTIZ Si se establece como criterio aceptar la sangre del 95.45% de los donadores sanos el valor crítico o norma será igual a 1.4528 : ESTADO REAL DE LA POBLACIÓN (-) (+) Especificidad 95.45% Sensibilidad 77. 34% 22.66% 0.9 1.0 1.1 1.2 1.3 4.55% 1.4 1.5 1.6 1.7 1.8 1.9 2.0 Log. T.P.G.S. Variable Separadora 1.4528 Sanos según norma Enfermos según norma Los resultados obtenidos muestran que el test posee una sensibilidad aceptable (77.34%), alta especificidad (95.45%), alta frecuencia de falsos negativos, esto es, conduce a aceptar la sangre del 22.66% de donantes que han tenido daño hepatocelular y baja frecuencia de falsos positivos (4.55%). 81 REYNALDO CARVAJAL ORTIZ 4.6. CUADRO DE CUATRO CASILLAS ASOCIADO A LA DISTRIBUCIONES OBTENIDAS. Considerando : a. = Total de personas enfermas detectadas por el test como positivas (bien clasificadas) b. = Total de personas sanas detectadas por el test como positivas (Falsos positivos) c. = Total de personas enfermas detectadas por el test como negativas (Falsos negativos) d. = Total de personas sanas detectadas por el test como negativas (bien clasificadas) a + c = Población de personas realmente enfermas b + d = Población de personas realmente sanas a + b = Población de personas “enfermas” según test c + d = Población de personas “sanas” según test. Es posible llevar los resultados contenidos a un cuadro de cuatro casillas : (-) RESULTADO DEL TEST TOTAL (+) ( -) ESTADO REAL (+) (-) a b (F+) c (F-) d a+b b +d (+) TOTAL a+b c+d N d a c Norma b variable Separadora 82 REYNALDO CARVAJAL ORTIZ y estimar : (1) Sensibilidad = a / (a + b) (2) Especificidad = d / (b + d) 4.7. (3) Falsos negativos = c (4) Falsos positivos = b VALOR PREDICTIVO DE UN TEST Cuando se aplica un test a una comunidad dada es importante determinar cuantos de todos los que el test detecta como positivos (a + c) son realmente enfermos (a) o también cuantos de todos los que el test detecta como negativos (c + d) son realmente sanos (d). Esto implica calcular : 4.7.1. Valor Predictivo del Test Positivo: Es la probabilidad condicional de estar realmente enfermo cuando el resultado del test es positivo. Considerando los eventos : (-) (+) E = Estar realmente enfermo a + T = Resultado del test (positivo) Entonces : b Falsos positivos P(E/ T+) = Valor predictivo del test positivo = a/(a + b) Un test con un alto valor predictivo positivo tiene muy poca probabilidad de incluir falsos positivos (Error ). 83 REYNALDO CARVAJAL ORTIZ 4.7.2. Valor Predictivo del test negativo : Es la probabilidad condicional de estar realmente sano cuando el resultado del test es negativo: (-) (+) Si : S = Estar realmente sano d c - T = Resultado del test (negativo) Entonces : Falsos Negativos P(S/ T - ) = Valor predictivo del test negativo = d / (c + d) Un test con alto valor predictivo negativo tiene muy poca probabilidad de incluir falsos negativos (Error ). 4.8. TEOREMA DE BAYES PARA EL CALCULO DEL VALOR PREDICTIVO El calculo del valor predictivo de un test implica la aplicación del teorema de Bayes. Una forma sencilla para describir el método, es empleando un Diagrama de Arbol. Utilizando la notación dada en los numerales 5 y 6 se tiene : T+ a E c a+c Tb+d b T+ Estas dos rutas conducen a un resultado de test positivo S d T- 84 REYNALDO CARVAJAL ORTIZ Por lo tanto el valor predictivo del Test positivo será igual a : P(E) P(T+/E) P(E/T+) = P(E) P(T+/E) + P (S) P(T+/S) Reemplazando según el cuadro de 4 casillas : (a + c ) / N x a / (a + c) a p(E/T+) = = (a + c) / N x a / (a + c) + (b +d) / N x b/ (b+d) a+b En términos de sensibilidad y especificidad quedará : (a + c ) / N ( Sensibilidad) + p(E/T ) = (a + c ) / N ( Sensibilidad) + ( b + d ) / N x ( 1 – Especificidad) Para la aplicación del test en una comunidad dada (programa tamiz ) es necesario tener un estimativo de la prevalencia de la enfermedad investigativa (a + c ) / N . De esta forma T+ Rutas que conducen a un resultado de Test positivo E T - T + S T - 85 REYNALDO CARVAJAL ORTIZ Valor Predictivo del Test Positivo = P(E/T+) (Prevalencia) (Sensibilidad) P(E/T+) = (Prevalencia) (Sensibilidad) + (1-prevalencia) (1-especificidad) De igual manera se procede para estimar el valor predictivo del test negativo, esto es : Valor Predictivo del Test Negativo = P(S/T -) (1-Prevalencia) (Especificidad) P(S/T -) = (1-Prevalencia) (Especificidad) + (Prevalencia) (1-Sensabilidad) Considerando nuevamente los resultados obtenidos para log. TPGS y asumiendo que se va aplicar el test en una comunidad donde existe una prevalencia de hepatitis del 12%, el valor predictivo del test será igual a : (0.12) (0.7734) Valor Predictivo test positivo = = 69.9% (0.12) (0.7734) + (0.88) (0.455) (0.88) (0.9545) Valor Predictivo test negativo = = 96.9% (0.88) (0.9545) + (0.12) (0.2266) 86 REYNALDO CARVAJAL ORTIZ En una población de 1000 donadores de sangre se esperarían los resultados siguientes : DONADORES Enfermos Sanos Total Rechazada 93 40 133 Aceptada 27 840 867 120 880 1000 Sangre Total Los datos muestran claramente como la prueba del log. T.P.G.S. reduce la prevalencia de hepatitis observada en la comunidad (12%) a solo 3.1% (27/867) entre los donadores con sangre aceptada por el banco. También se aprecia que rechaza un 30.1% (40/133) de donadores sanos. Esta situación sugiere que se debe tener presente también la relación costo-beneficio para el establecimiento de una prueba tamiz. Los cálculos obtenidos anteriormente (3.1% y 30.1%) son respectivamente los falsos negativos y los falsos positivos obtenidos al aplicar la prueba tamiz: Falsos negativos = P(E/T -) =1- (Valor Predictivo del Test Negativo) = 3.1% Esto significa que por cada 100 donadores con sangre aceptada mediante la prueba, 3 son realmente enfermos (Falsos negativos ) Falsos positivos = P(S/T +) = 1- (Valor Predictivo del Test Positivo) = 30.1% 87 REYNALDO CARVAJAL ORTIZ Por lo tanto, cuando en una comunidad determinada se aplica un test para tamizaje (screening) con el objeto de detectar grupos de alto riesgo, es necesario tener muy en cuenta su sensibilidad, especificidad y la prevalencia de la enfermedad. A continuación se detallan valores predictivos (%) de un test para diferentes prevalencias: SENSIBILIDAD (90%), ESPECIFICIDAD (95%) Prevalencia de la Enfermedad (%) Valor Predictivo 0.1 1.0 10 50 Test positivo 1.76 15.38 66.67 94.74 Falsos positivos 98.24 84.62 33.33 5.26 Test negativo 99.99 99.89 98.84 90.48 Falsos negativos 0.001 0.11 1.16 9.52 Observe que a medida que la prevalencia de la enfermedad aumenta el valor predictivo del test positivo se hace mas fuerte. 88 REYNALDO CARVAJAL ORTIZ 4.9. TALLER SOBRE CURVA NORMAL, PRUEBAS DIAGNOSTICAS (TAMIZ) Y TEOREMA DE BAYES. SITUACION DE REFERENCIA PARA LAS PREGUNTAS 1 A 10 Asuma que el logaritmo de los valores de la Transaminasa pirúvica glutámica sérica (TPGS) sigue aproximadamente una Distribución Normal tanto en 6.003 personas enfermas (con hepatitis) como en 7.500 personas sanas (sin Hepatitis). LOGARITMO TPGS Enfermos Sanos Promedios 1.7 1.3 D. Estándar 0.1 0.1 1) Realizar un bosquejo de ambas distribuciones. 2) Estimar la norma que deje una frecuencia relativa igual al 3% de falsos positivos. 3) Con base en dicha norma calcular la probabilidad de falsos negativos. 4) Suponga que se toma como prueba Tamiz el Log TPGS y se aplica en una población donde la prevalencia de Hepatitis es de 5%. Estimar el valor predictivo del test positivo y el valor predictivo del test negativo. 5) Estimar la norma que deje una frecuencia de falsos negativos igual 1%. Estime luego, La probabilidad de falsos positivos. Además estime el valor predictivo del test positivo y el valor predictivo del test negativo para cada una de las prevalencias siguientes: 1%, 5%, 10%, 20%, 30%. Realice una tabla incluyendo falsos positivos, falsos negativos y saque una buena conclusión. 6) El valor crítico (o Norma) a partir del cual el procedimiento del Tamizaje rechazaría la sangre del 95.05% de los donadores enfermos es igual a: ( ) 1.865 ( ) 1.465 ( ) 1.535 ( ) 1.135 ( ) NINGUNA DE LAS ANTERIORES 89 REYNALDO CARVAJAL ORTIZ 7) Con dicho punto crítico, la probabilidad de rechazar la sangre de un donador sano será igual a: ( ) .0405 ( ) .0495 ( ) .4906 ( ) .0094 ( ) NINGUNA DE LAS ANTERIORES 8) Si se considera como una norma aceptar la sangre de donadores cuyo valor del Log TPGS sea menor o igual a 1.45, entonces el número de Falsos Negativos es igual a: ( ) 501 ( ) 401 ( ) 3249 ( ) 2600 ( ) NINGUNA DE LAS ANTERIORES 9) Con la norma establecida de 1.45 la sensibilidad del Test será igual a: ( ) 93.32% ( ) 92.25% ( ) 99.38% ( ) 99.47% ( ) NINGUNA DE LA ANTERIORES 10) Si se aumenta la norma de 1.45 a 1.65 entonces: ( ) Aumenta Falsos Negativos y la Sensibilidad. ( ) Disminuye Falsos Positivos y la Especificidad. ( ) Aumenta la Sensibilidad y los Falsos Positivos. ( ) Aumenta la Especificidad y los Falsos Negativos. ( ) NINGUNA DE LAS ANTERIORES 90 REYNALDO CARVAJAL ORTIZ SITUACION DE REFERENCIA PARA LAS PREGUNTAS 11 A 14 Un investigador desarrolla una Prueba Exploratoria para Cáncer. Al aplicarla a 60 personas con Cáncer diagnosticado observa que obtiene 6 Falsos Negativos. Al aplicar dicha prueba en 70 personas libres de Cáncer, el número de Falsos Positivos es de 14. 11) Si se toma al azar un individuo de un numeroso grupo de personas donde la Prevalencia de Cáncer es de 1.5% y al aplicarle la Prueba Exploratoria, ésta dá positiva, entonces la probabilidad de que dicho individuo tenga realmente Cáncer es igual a: ( ) .0187 ( ) .0135 ( ) .0641 ( ) .1970 ( ) NINGUNA DE LAS ANTERIORES 12) Si el Tamizaje (Screening) se realiza en una población donde la Prevalencia de Cáncer es de 20% entonces la probabilidad de declarar a una persona sana cuando realmente tiene Cáncer es igual a: ( ) .0200 ( ) .9696 ( ) .6400 ( ) .0303 ( ) NINGUNA DE LAS ANTERIORES 13) Con la información dada en la pregunta 11, el valor predictivo del Test Negativo será igual a: ( ) .7880 ( ) .9981 ( ) .0015 ( ) .0019 ( ) NINGUNA DE LAS ANTERIORES 91 REYNALDO CARVAJAL ORTIZ 14) Con la información dad en la pregunta No. 12, la probabilidad de acertar en la predicción de que una persona tenga Cáncer, será igual a: ( ) .5294 ( ) .1800 ( ) .4706 ( ) .1600 ( ) NINGUNA DE LAS ANTERIORES 4.10. BIBLIOGRAFIA 1. Armitage, P. Statistical Methods in Medical Research. New York, Wiley, 1971. 2. Burr W. Irving. Applied Statistical Methods. New York, Academic Press, Inc. 1974 3. Colimon, K.M. Fundamentos de Epidemiología. Medellín, Colimon, 1978. 4. Colton Theodore. Estadística en Medicina. España, Salvat, 1979. 5. Guerrero, González, Medina. Epidemiología. Bogotá, Fondo Educativo Interamericano, 1981. 6. Prince A.M., and Gershon R.K. The use of serum enzyme Determinations to detect anicteric hepatitis. Transfusión 5: 120, 1965. 92