BASES PARA REALIZAR LECTURA CRITICA DE LA LITERATURA MEDICA Autor: Marina Khoury INTRODUCCIÓN En su tarea asistencial como médico seguramente se formula preguntas sobre los pacientes que está atendiendo. Esas preguntas son en realidad, problemas a resolver. Justamente la definición de Problema es “una cuestión que se trata de aclarar o solucionar”. Por lo tanto, una pregunta que no se ha respondido es un “problema”. Ud. puede optar por diferentes maneras para solucionarlo o buscar respuesta: INTUICION: “me parece que esa es la solución”. ANALOGIA: se basa en la experiencia personal. Ejemplo: “a un paciente parecido le hice esta intervención y le fue bien, por lo tanto a este paciente le debería pasar lo mismo…” PRUEBA Y ERROR: se ponen a prueba sucesivamente distintas alternativas hasta que se encuentra la que solucione el problema. Ejemplo: “ese tratamiento no anduvo, probemos este otro y si no anda, probaremos un tercero….”. Puede ser útil en determinadas ocasiones, pero no es sistemático y puede resultar ineficiente al basarse en el azar. INVESTIGACION: La investigación es la aplicación del método científico al estudio de problemas concretos. Puede utilizar resultados de sus propias investigaciones o de otros. Muchas veces será difícil determinar qué forma utilizó para contestar la pregunta, sin duda la mayoría de las veces será una combinación de varios de los anteriores. Los resultados de la investigación se transforman en “evidencia” que puede ser utilizada para tomar decisiones clínicas. El problema es que poder analizar críticamente la literatura científica requiere de entrenamiento. Intentaremos que incorpore los conocimientos básicos como para poder tomar decisiones fundamentadas en evidencias. El tiempo es un punto cada vez más precioso, principalmente en lo cotidiano de la medicina. La agenda de los especialistas en salud dificulta que lean todos los artículos relacionados con su disciplina. Sólo para dar un ejemplo, existen cerca de 20 publicaciones periódicas enfocadas en medicina interna que producen cerca de 6 mil estudios de importancia práctica anualmente. Para actualizarse un médico precisaría leer cerca de 17 artículos todos los días del año. Esta tendencia a la creciente y continua información publicada más allá de beneficiar, podría instalar una situación caótica. Esta demostrado que la práctica de la medicina y la velocidad de cambio del conocimiento generan cada vez mas necesidad de que esta información este disponible en el momento de tomar decisiones en una forma sencilla y accesible. El médico asistencial requiere de una metodología que permita identificar preguntas puntuales, seleccionar artículos adecuados para contestarlas y descartar rápidamente aquellos con errores metodológicos que determinen que los resultados no sean adecuados para tomar decisiones para un paciente. El problema es que poder analizar críticamente la literatura científica requiere de entrenamiento. OBJETIVOS Al finalizar el capítulo se espera que esté en condiciones de: 1. Enumerar las características del método científico. 2. Identificar diferentes tipos de diseños de estudios. 3. Describir las principales ventajas y limitaciones del método estadístico. 4. Aplicar una metodología que permita eliminar estudios estadísticos con importantes errores metodológicos. 5. Definir Medicina Basada en la Evidencia. 6. Redactar preguntas clínicas en forma adecuada. 7. Efectuar búsquedas bibliográficas orientadas a la pregunta que la origina. 8. Analizar artículos sobre tratamiento o prevención. 9. Analizar artículos sobre pronóstico. 10. Analizar un artículo sobre daño. 11. Analizar una revisión sistemática. TEMARIO 1.Introducción al método científico y diseños de estudios. 2.Introducción a Medicina Basada en la Evidencia. La pregunta clínica y la búsqueda bibliográfica. 3. Evaluación crítica de los artículos: intervenciones, pronóstico, daño y diagnóstico. 4. Evaluación crítica de revisiones sistemáticas. PRIMER PARTE: Introducción al método científico y diseños de estudios Autores: Marina Khoury1. Francisco Caamaño2 1. Médica. Concurrente del Centro de Investigaciones Epidemiológicas. Academia Nacional de Medicina. Buenos Aires. Argentina. 2. Farmacéutico. Docente de Metodología de la Investigación. Departamento de Medicina Preventiva y Salud Pública. Facultad de Medicina. Universidad de Santiago. España. METODO ESTADÍSTICO Cuando se realiza una investigación utilizando método estadístico, en realidad se intenta conocer lo que puede pasar en una población pero abordando sólo una parte de la misma que denominamos muestra. Podemos decir que entre los pasos (camino) de la investigación estadística se incluyen: 1) redactar objetivos y elegir un diseño apropiado para contestarlo 2) definir la población blanco u objetivo (es la población a la que se “apunta” con las conclusiones del estudio) 3) tomar una muestra “representativa” de dicha población 4) realizar las mediciones para obtener datos 5) analizar los datos y sacar conclusiones basadas en los resultados obtenidos con ese análisis Puede utilizar es esquema para identificar los pasos descritos: Método Estadístico OBJETIVO POBLACION MUESTRA Validez Interna Validez Externa RESULTADOS CONCLUSIONES Se intenta indagar qué pasa en esa población definida (que tiene características desconocidas), sin tener que estudiar a todos sus componentes. Por ejemplo, si quisiera conocer las características clínicas de cada uno de los pacientes con enfermedad celíaca del mundo, no sería posible estudiar a cada uno de ellos. La única solución es estudiar a un subconjunto de la población (que denominamos muestra) y, con los resultados de la misma tratar de “adivinar” qué pasa en toda la población. Parecerá raro el presentarlo como adivinación pero es sólo a título ilustrativo dado que las conclusiones no otorgan “certezas” sino sólo una baja probabilidad de error. Si se estudia una muestra, los valores que obtendremos no serán exactamente iguales a los de la población. Si la población en estudio fuera de tamaño conocido y se estudiaran a todos menos uno, igual habría una diferencia. Las diferencias entre la verdad en la población y los resultados de una muestra se denominan “errores”. Cuando se utiliza método estadístico, tenemos que estar conscientes que se pueden cometer errores al momento de extraer conclusiones. Pero hay que diferenciar entre error sistemático (sesgo) y error aleatorio. El error aleatorio es un resultado equivocado debido al azar. Es el precio que se paga por estudiar a una muestra en lugar de toda la población. Las variaciones son impredecibles, es decir que el error se puede dar hacia cualquier dirección. El tamaño del error se reduce aumentando el tamaño de la muestra. Es inevitable, ya que sólo desaparece si se estudia a toda la población. Se controla calculando un tamaño adecuado para la muestra en la planificación del estudio y calculando estadísticas, como intervalos de confianza y pruebas de significación, en la etapa de análisis de datos. El error sistemático o sesgo es un resultado equivocado debido a un defecto en la planificación de la investigación. Es un error evitable, si se lo sospecha. Los resultados se distorsionan hacia una determinada dirección. El aumento del tamaño de la muestra no tiene efecto sobre el mismo. Los sesgos más importantes se cometen por mala elección de la población en estudio, errores de muestreo y errores de medición. Se controlan diseñando correctamente el estudio. Ejemplo: Se realizaron 2 estudios muy bien diseñados para conocer la prevalencia de hipertensión en la población de una determinada ciudad. Los resultados fueron 10% en uno y 30% en el otro. Casualmente se realizó un estudio en toda la población de esa ciudad y el resultado fue que la prevalencia de hipertensión era de 20%. A qué se debió la diferencia? Al azar, que se puede equivocar para cualquier lado (imprevisible) y es inevitable. Hubo un tercer estudio en el mismo lugar y con el mismo objetivo que dio por resultado 40% de prevalencia de hipertensión. Cuando revisaron los métodos utilizados se dieron cuenta que el tensiómetro que habían utilizado para el estudio no había sido calibrado. Lo revisaron y llegaron a la conclusión que medía 15mmHg. de más justamente por estar mal calibrado. A qué se debió la diferencia de este estudio con la verdad en la población? A un sesgo de medición que es sistemático (los resultados se distorsionan hacia un lado, a más en este ejemplo), es evitable (había que calibrar el tensiómetro) y no se modifica aumentando el tamaño de la muestra (si se hubiera realizado el estudio en toda la población con ese tensiómetro el error se mantenía). Cuando tratamos de definir “Validez” en términos generales, decimos que una herramienta es válida cuando mide lo que pretende medir. Cuando nos referimos a la validez de un estudio, el concepto es similar pero tiene aspectos específicos que debemos tener en cuenta. Se denomina “Validez Interna” a la “Verdad dentro del estudio”. Un estudio presenta validez interna si las conclusiones son aplicables a los individuos estudiados porque los resultados no se deben a errores en el diseño, ejecución y/o análisis de los datos. Es decir, cuando se minimizó la probabilidad de sesgos. En el ejemplo del estudio con un tensiómetro sin calibrar hablamos de ausencia de validez interna. El estudio no es apto para sacar conclusiones adecuadas. Se denomina “Validez externa” a la “Verdad más allá del estudio” (Generalizabilidad). Un estudio presenta validez externa si las conclusiones pueden extrapolarse a la población en la que se desea aplicar los resultados (Población blanco u objetivo) de la investigación. La validez externa es solamente evaluable si el estudio tiene validez interna. DISEÑOS EPIDEMIOLÓGICOS Los diseños epidemiológicos se podrían definir como pasos ó el método de recolección de datos para la describir ó analizar un problema de salud en la comunidad. Existen múltiples clasificaciones de diseños epidemiológicos. Podríamos afirmar que hay tantas clasificaciones de diseños como autores de epidemiología o metodología de la investigación existen dado que cada uno presenta alguna variante. La que vamos a presentar es una de las clasificaciones epidemiológicas más “clásicas” y sólo por eso la elegimos. Se ha clasificado a los diseños epidemiológicos de acuerdo a su objetivo en: Estudios Descriptivos: el objetivo es identificar o describir características de una posible población. No tienen una hipótesis inicial pero por el contrario son grandes generadores de hipótesis. Dentro de este grupo se encuentran: los reporte de casos (case report), las series de casos, los estudios ecológicos y los estudios transversales descriptivos (Ejemplos: Encuestas – “Surveys”). Estudios Analíticos: El objetivo suele estar relacionado con analizar una hipótesis determinada para lo cual se comparan dos o más grupos. Dentro de esta última categoría se reconoce una subclasificación de acuerdo al comportamiento del investigador. De este modo distinguimos entre estudios experimentales, en los cuales el investigador interviene directamente provocando la exposición de los sujetos y estudios observacionales, en los que el investigador únicamente observa los efectos de las exposiciones que se producen naturalmente. Se presenta la clasificación de diseños epidemiológicos en el siguiente cuadro: Según Objetivo DESCRIPTIVOS ANALITICOS Según el comportamiento Tipos de Estudios del investigador Series de casos OBSERVACIONALES Estudios Ecológicos Estudios Transversales descriptivos Estudios de Cohorte OBSERVACIONALES Estudios de Casos y Controles Estudios Transversales analíticos Ensayos Clínicos Controlados EXPERIMENTALES Ensayos de Campo Ensayos Comunitarios El paradigma de la investigación científica es el experimento ya que existe un gran control sobre las condiciones en las que se produce la exposición, lo cual permitirá tener mayor “seguridad” (no hay seguridad con método estadístico) al intentar establecer una relación causal. Pero las limitaciones impuestas por la ética y el costo restringen, a menudo, la investigación experimental. Probablemente no exista ninguna limitación ética para someter a un grupo de pacientes a un nuevo antihipertensivo que, presumimos, mejorará su calidad de vida; pero, difícilmente se podrá admitir que sometamos a un grupo de sujetos al consumo de tabaco para determinar experimentalmente su relación con el cáncer de lengua. Por el contrario, en los estudios observacionales, el investigador utiliza los grupos de sujetos que de forma natural se generan en la sociedad: hay personas que fuman y personas que no fuman; o hay mujeres que reciben terapia hormonal substitutiva y que no; o existen hombres con cáncer de pulmón y hombres sin cáncer de pulmón. La duda, la gran duda que siempre tendremos ante un estudio observacional es si los grupos son comparables: ¿las características de las mujeres que tratadas con terapia hormonal substitutiva son iguales a las no tratadas? Dentro de los estudios experimentales distinguimos a los ensayos clínicos controlados (los sujetos participantes están enfermos), los ensayos de campo (los sujetos son sanos), y los ensayos comunitarios (en los que la exposición se asigna a un conjunto de sujetos: ciudades, regiones). Por su parte, dentro de los estudios observacionales distinguimos los estudios de cohorte (los grupos se forman en base a la presencia o ausencia de la exposición) y los estudios de casos y controles (los grupos de sujetos se forman de acuerdo a la presencia o ausencia de la enfermedad). A continuación se describen algunos de los diseños más utilizados en investigación clínica. Ensayos clínicos controlados En un ensayo clínico controlado una muestra de sujetos con la condición de interés y generalmente sin el evento que se intenta comparar, se distribuyen en por lo menos dos grupos: a uno se la administra la intervención en estudio (expuestos) y al otro, que no recibe la intervención en estudio (no expuestos), a veces se le administra otra intervención o placebo. Ensayos Clínicos Controlados Pacientes con la condición y Evento negativos Intervención Muestra Incidencia en Expuestos =RR Incidencia en No Intervención No Expuestos Asignación a grupos Reclutamiento Resultados Seguimiento Ejemplo: Para analizar si el uso de corticoides es efectivo para reducir la mortalidad en pacientes con distress respiratorio del adulto se realizó un ensayo clínico controlado en el cual pacientes con distress (condición) fueron asignados a recibir corticoides (intervención) o placebo (comparación) y luego del seguimiento durante la internación se registró la situación final (evento=muerte). En el caso del ejemplo, es muy claro que el evento es un “nuevo caso” dado que ningún individuo podría haber ingresado si ya había fallecido. Pero en ciertos eventos como por ejemplo: “insuficiencia renal”, deberíamos estar en condiciones de decir que es un “nuevo caso” sólo si al ingreso al estudio se midió que no tenía el evento. Este aspecto es importante porque, como puede apreciar en el gráfico se calcula la incidencia del evento en ambos grupos. Incidencia es la proporción de individuos que desarrollan el evento durante el tiempo de observación. ¿Cuál es la utilidad de conocer la incidencia de una enfermedad o evento? La incidencia me dice cuál es la probabilidad que una persona hoy sin el evento lo desarrolle dentro del período de tiempo definido por el sólo hecho de pertenecer a esa población. Ejemplo: si en un estudio para evaluar si el uso de medias elásticas es útil para disminuir el riesgo de Trombosis Venosa Profunda (TVP) en pacientes en ARM se informó una incidencia de TVP a los 7 días del 2% en el grupo control y 1% en el grupo tratado, Ud. sabrá que, si sus pacientes en ARM son similares a los del estudio tienen un riesgo del 2% de desarrollar TVP dentro de la semana si no se realiza intervención alguna. Aprovechamos para comentar que la forma habitual de informar los resultados es utilizando el Riesgo Relativo (RR). RR es el cociente entre la incidencia del evento en los expuestos y la incidencia en los no expuestos. (observe la figura) En los ensayos clínicos controlados donde se espera menor cantidad de eventos en los expuestos al tratamiento el RR debiera dar un resultado menor que 1 (Ej: RR= 0,5). Estos conceptos se verán con más profundidad más adelante. El ensayo clínico controlado es un diseño experimental dado que es el investigador quien decide (por sí mismo o por azar) si cada individuo va a estar expuesto o no a la intervención en estudio. Cuando los grupos se forman utilizando el azar los ensayos clínicos controlados se denominan aleatorizados (o randomizados). En esencia, es un verdadero experimento. El propósito de un experimento de laboratorio es la creación de circunstancias en las que únicamente se varía un factor, lo cual permite asociar el cambio observado a ese único factor que se ha modificado, por ejemplo, en física, el cambio de temperatura, presión o volumen. No obstante, en ciencias biomédicas no intervienen únicamente tres propiedades controlables sino un número muy superior de factores. La variabilidad de los individuos es la regla y no la excepción. Debemos tener en cuenta un par de cuestiones. Primero, que no existen dos individuos iguales (variabilidad interindividual). Esto significa que no hay dos individuos que ante un mismo estímulo respondan de manera idéntica. Es por eso que se necesita investigar un número “adecuado” de sujetos, de forma que la respuesta medida es en realidad la "respuesta media" de los sujetos que hemos estudiado. Segundo, que existen variaciones en el estado de la salud de los sujetos que son cíclicas o enfermedades que son autolimitadas. Por eso es que se hace necesario el disponer de un “grupo control” al que no se administra el tratamiento. Así podremos tener la “seguridad” (con método estadístico no hay seguridad, sólo baja probabilidad de error), de que la diferencia observada en la incidencia del evento de interés (outcome) entre ambos grupos se debe solo y únicamente a la intervención. Reflexionemos sobre un punto importante que puede causar confusiones. Se habrá dado cuenta que al grupo de no intervención (o comparación) lo denominamos “grupo control”. Este detalle hace que muchos lectores confundan un ensayo clínico controlado con un “Estudio de Casos y Controles”. Es importante resaltar que el hecho de tener un grupo control sólo implica que hay un grupo contra el cual se comparan los resultados pero no implica un diseño Caso-Control. Como verá más adelante este último diseño tiene características particulares. Estudios de cohorte Los estudios de cohorte se pueden considerar ensayos clínicos en los que la condición de expuestos o no expuestos de los sujetos no la decide el investigador, si no que son los mismos sujetos los que han elegido su exposición. Esta elección puede ser directamente tomada por ellos o, en ocasiones por sus médicos. Así el investigador, que ingresa cuando los grupos ya están formados, se limita a observar la evolución de los sujetos para comparar la incidencia del evento de interés en expuestos y no expuestos. De esta manera se puede considerar a los estudios de cohorte como un ensayo clínico que empiezan un poco más tarde cuando ha finalizado la asignación a los grupos y por tanto los expuestos y no expuestos están ya definidos. Estudios de Cohorte FR+ Poblacion Evento Muestra Negativos =RR FR- Presente Incidencia Expuestos Seguimiento Incidencia No Expuestos Futuro Por lo tanto, en un estudio de cohorte, un grupo de personas libres de enfermedad, algunas expuestas al factor a investigar y otras no expuestas son seguidos a lo largo del tiempo. La incidencia de la enfermedad (casos nuevos aparecidos durante ese período) se compara en los dos grupos. Ejemplo: Para analizar si la condición de ser diabético se asocia con mayor riesgo de morir en pacientes con neumonía grave adquirida en la comunidad (NGAC) se realizó un estudio de cohorte en el cual se incluyeron pacientes con NGAC (condición) algunos de ellos eran diabéticos (expuestos) y otros no (no expuestos) y luego del seguimiento durante la internación se registró la situación final (evento=muerte). Nuevamente notará que en estos estudios la forma habitual de informar los resultados es el RR. En casos donde se espera que los expuestos presenten más eventos el RR será mayor que 1 y se intentará identificar un factor de riesgo (FR). Para que pueda entender las terminologías utilizadas en la literatura sería bueno aclarar que algunos autores lo llaman factor pronóstico cuando la población estudiada tiene una condición determinada (enfermos) y sólo se refieren a factor de riesgo cuando la población estudiada es “sana”. Ejemplo: El tabaquismo es un factor de riesgo para enfermedad coronaria en población general y un valor <8 del score de Glasgow al ingreso es un factor pronóstico en pacientes con accidente cerebrovascular. Por otro lado, en los estudios en los que se espera que los expuestos presenten menos eventos el RR será menor que 1 y se estará buscando un factor de protección (FP). Resumiendo: RR > 1: indica que la exposición es a un FR para el evento. RR < 1: indica que la exposición es un FP para el evento. RR = 1: indica que no hay relación entre la exposición y el evento. Los estudios de cohorte no son eficientes para estudiar la relación entre un factor de riesgo y una enfermedad que tenga una incidencia muy baja, ya que esto implicaría seguir a un número muy elevado de sujetos durante un período de tiempo prolongado. Estudios de casos y controles En los estudios de casos y controles se compara la exposición a la que estuvieron sometidas un grupo de personas enfermas (casos) con la exposición sufrida por un grupo de personas sanas (controles). Por lo tanto, el criterio para seleccionar la población en estudio es la presencia o la ausencia de la enfermedad, y no la exposición como en los estudios de cohorte. En los estudios de casos y controles se parte del evento y se va hacia atrás en la línea del tiempo, en la búsqueda de la presencia o ausencia de una o varias exposiciones sospechosas; por lo que la secuencia temporal del estudio es la inversa a la secuencia natural de la enfermedad, de ahí que algunos autores denominen a estos estudios como retrospectivos. Estudios de Casos y Controles FR- FR+ FR+ FR- Pasado Poblacion Muestra Evento Positivos Poblacion Muestra Evento Negativos Presente Generalmente se recolectan todos los casos que se producen en un período de tiempo. Los controles deben ser lo más parecido a los casos pero evento negativos, es decir que es recomendable que provengan de la misma población hipotética de la que surgen los casos. O dicho de otra forma, los controles han de ser seleccionados entre los que, de haber desarrollado la enfermedad, serían considerados como casos. Ejemplo: Para analizar si el uso de dietiletilbestrol durante el embarazo de la madre aumenta el riesgo de tumor de células claras de vagina en niñas menores de 12 años se realizó un estudio de casos y controles en el cual se estudió a un grupo de niñas menores de 12 años con tumor de células claras de vagina (Casos) y por otro lado a otro grupo de niñas que habían nacido en el mismo hospital y en la misma fecha pero que no habían desarrollado dicho tumor (Controles). En ambos grupos se interrogó a la madre con la intención de averiguar si había recibido dietiletilbestrol durante el embarazo de la niña (exposición). En los estudios de casos y controles no es posible calcular incidencia del evento y tampoco prevalencia (ver el significado más adelante) porque la relación caso/control la decide el investigador. Como no es posible calcular incidencia, tampoco es posible calcular RR por lo que la manera habitual de presentar los resultados en estos estudios es utilizando Razón de Productos Cruzados ó Razón de Momios ó, en inglés, Odds Ratios (OR) que es una aproximación al RR. Los estudios de casos y controles son muy sensibles a sesgos por la características de definir 2 poblaciones en lugar de 1 (genera grupos no comparables). Sin embargo, son útiles cuando la frecuencia del evento es baja y hace improbable la realización de un estudio de cohorte. Cuando la frecuencia del evento en la población es baja el OR permite estimar (aproximarse) el RR de manera muy adecuada. Estudios transversales (de corte transversal) Los estudios transversales se caracterizan por realizar una única medición de las características de interés en los individuos. Pueden ser descriptivos o analíticos. Uno de los diseños transversales descriptivos habituales son estudios donde el objetivo es estimar una prevalencia. Prevalencia se refiere a la proporción de individuos de una población que tienen el evento en un momento determinado sin importar si son casos nuevos o antiguos. ¿Cuál es la utilidad de conocer la prevalencia de una enfermedad o evento? La prevalencia me dice cuál es la probabilidad que un individuo esté enfermo por el solo hecho de pertenecer a una población. Ejemplo: Si le comentan que un paciente varón de 70 años con antecedente de hipertensión, tabaquismo y dislipemia hace 6 meses que refiere dolor precordial opresivo al caminar 2 cuadras y que cede con el reposo. Para Ud.: ¿Cuál es la probabilidad que el paciente tenga enfermedad coronaria? Seguramente pensó un número superior al 95%. ¿De dónde salió? De la prevalencia de enfermedad coronaria en población de varones de 70 años y con esos antecedentes. De alguna manera, si estudiara con cinecoronariografía a 100 varones con las mismas características 95 o más tendrían enfermedad coronaria. En este caso es importante comentar que para considerar válidos a estudios de este tipo resulta muy importante poder identificar la población que se intenta estudiar y posteriormente tomar una muestra representativa de la misma. Es decir, en estudios de prevalencia es fundamental utilizar una muy buena técnica de muestreo. Volveremos sobre este tema más adelante. Los diseños transversales analíticos estudian la relación entre una serie de variables en una población (o en una muestra) y la presencia de una determinada característica (p. ej. una enfermedad, un hábito, actitudes, etc.). La mayor peculiaridad de este tipo de estudios, y que sirve para diferenciarlos de otros tipos de diseños, es que todas las variables se valoran simultáneamente o en un corto periodo de tiempo. El hecho que se midan simultáneamente todas las variables da lugar a su nombre, ya que se realiza un corte transversal en el tiempo y valoramos todas las variables conjuntamente. A diferencia de los estudios de cohorte y de casos y controles, en los que existe secuencia temporal entre la exposición y el evento, en los estudios transversales esto no existe. Por tanto, al no existir secuencia temporal, se dificulta aún más el establecimiento de relaciones causales. Ejemplo: si se quiere analizar la relación entre el consumo de analgésicos y el riesgo de trastornos renales, y se elabora un estudio transversal se medirá simultáneamente el consumo de analgésicos y la presencia de trastornos renales (TR). Si se encuentra una relación entre consumo de analgésicos y TR, esta asociación se puede deber a que los analgésicos aumentan el riesgo de TR o a que las personas que padecen TR consumen más analgésicos debido al dolor. Los estudios transversales, a pesar de esta importante limitación son muy frecuentes en la bibliografía ya que: 1. Pueden ser muy útiles como primera aproximación a un problema de salud, que posteriormente se a analizará con mas profundidad con un estudio de cohorte. 2. También son utilizados cuando la variable de exposición es constante en el tiempo (grupo sanguíneo, sexo, fecha de nacimiento, raza, características genéticas, antecedentes familiares de una enfermedad) ya que con este tipo de variables es igual si la medida es simultánea con el evento ya que son previas al mismo y constantes para un individuo. 3. Para realizar estudios meramente descriptivos: proporción de sujetos que presentan una determinada característica en un momento dado (por ejemplo: proporción de vacunados contra hepatitis B, proporción de fumadores, proporción de personal de enfermería que utiliza guantes al extraer muestras de sangre). Similitudes entre los diseños epidemiológicos y distintas formas de mostrar imágenes: Estudio Transversal: Fotografía, ya que es una imagen fija en el tiempo de lo que ocurre. Se valoran todas las variables en un mismo momento. Estudio de Cohorte: Vídeo mostrando las imágenes en la misma secuencia en la que ocurrieron: hacia delante. Así partimos de la exposición y vamos hacia delante en el tiempo para valorar la presencia del evento. Estudio de Casos y Controles: Vídeo mostrando las imágenes en secuencia inversa a la que ocurrieron: hacia atrás. Así partimos del evento y vamos hacia atrás en el tiempo para valorar la exposición. Informes de casos y casos en serie Se presentan como descripción de procesos poco frecuentes en la población. Hay 2 variantes de este tipo de informes. La primera se suele presentar como la descripción de uno (case report) ó varios casos (menos de 30) que se informan individualmente. Es común que se presente una tabla en la cual se describen las características de cada caso en particular. Este tipo de informes no utiliza método estadístico. Notará en material y métodos que no suelen tener criterios de inclusión ni de exclusión sino una simple descripción de la muestra. El objetivo de informe, incluso puede ser simplemente “dar a conocer nuestra experiencia en...”. La segunda variante se trata de una serie de casos pero que realizan un seguimiento. Son útiles para identificar problemas de salud de nueva aparición, estudiar la historia natural de una enfermedad, nuevos efectos de tratamientos aplicados e incluso para identificar posibles factores de riesgo. En algunos casos bien diseñados las series de casos se parecen mucho a un estudio de cohorte pero sin el estudio específico de una exposición. Es decir un único grupo y no expuesto y no expuesto que se comparan. PASOS PARA REALIZAR UNA LECTURA CRITICA La lectura crítica se basará en identificar posibles fuentes de sesgo por un lado (validez) e interpretar los resultados estadísticos, por el otro. Para evaluar críticamente un estudio con método estadístico (importante: sólo es útil para método estadístico) puede analizar si los autores cumplieron con los pasos propuestos anteriormente, para lo cual requerirá: 1º) Identificar el o los objetivos y evaluar su coherencia con el diseño realizado 2º) Identificar la población blanco 3º) Analizar la representatividad de la muestra 4º) Evaluar si las mediciones son adecuadas 5º) Interpretar los resultados y conclusiones. Los 4 primeros puntos se relacionan con analizar la validez del estudio y en el 5 solamente se evalúa la probabilidad de error por azar. 1º) Identificar el o los objetivos y evaluar su coherencia con el diseño realizado Un objetivo es una frase que inicia con un verbo en infinitivo en la que el investigador expresa qué información se busca y en quienes. En general, si el artículo no posee un apartado específico para objetivos, los mismos se encuentran en el último párrafo de la introducción. Si no están allí, deberá leer la introducción entera, si a pesar de ello no pudo encontrar un objetivo será tiempo de descartar el artículo. Si encuentra un objetivo hay que evaluar si los mismos son precisos. Es decir, si leyendo el objetivo, puede interpretar qué información buscaban los autores y en quienes se podrían aplicar las conclusiones del estudio. Si no puede comprender qué quería estudiar el autor confíe en su sentido común y descarte el artículo. Es frecuente, cuando no entendemos, pensar que nosotros no sabemos lo suficiente. El lenguaje científico debe ser simple de tal manera que pueda interpretarse fácilmente. Si no puede entender el objetivo de un estudio los responsables son los autores. Si un objetivo es específico1 orienta directamente al diseño del estudio. Incluso leyendo solamente el verbo inicial se puede imaginar qué tipo de estudio esperaría. Por ejemplo: objetivos que comienzan con “identificar”, “estimar” ó “describir” hacen pensar en estudios descriptivos, mientras que verbos como “analizar” indican que se va a testear una hipótesis y lo lógico es pensar en un estudio analítico. Podrá evaluar si el diseño elegido por los autores es adecuado al objetivo. También le recomiendo elegir leer sólo aquellos diseños que mejor se adaptan a estudiar el problema que lo llevó a buscar información. Ejemplo: si está buscando información sobre la eficacia de un tratamiento y se encuentra con 2 estudios de casos y controles, 6 estudios de cohorte y 1 ensayo clínica controlado aleatorizado: ¿Leería los observacionales? Posiblemente lo correcto sea elegir leer sólo el ensayo clínico. Es interesante comentar que cada vez más frecuentemente se coloca el diseño en el título del informe científico. 2º) Identificar la población blanco Población blanco u objetivo es aquella sobre la que se quiere aplicar (generalizar) los resultados de una investigación. Si el informe científico no posee un apartado especial que se denomine población o sujetos de investigación, generalmente se la puede encontrar en el primer párrafo de material y métodos. Si no la encuentra allí ni en todo material y métodos, será buen momento para descartar el artículo. La población blanco se define utilizando criterios de inclusión y de exclusión. Los criterios de inclusión son las características específicas que mejor definen a la población blanco. Dichas características pueden ser clínicas (diagnósticos, complicaciones, etc...) o demográficas (edad, sexo, raza, etc..). Los criterios de exclusión se utilizan por 2 motivos principales:1) para controlar variables: se utilizan para dejar fuera del estudio a algunos individuos con ciertas características que podrían modificar los resultados. 2) por motivos éticos: es por esta razón que en la mayoría de los ensayos clínicos se excluye a embarazadas, deficientes mentales y menores de edad cuando no son la población específicamente en estudio. Se deberá preguntar si la población definida, acorde a los criterios de inclusión y exclusión, es coherente con la identificada en el objetivo. Ejemplo de ausencia de coherencia entre la población del objetivo con la población blanco: Imagine que está leyendo un estudio en el siguiente objetivo: “Analizar si la ausencia de fiebre se relaciona con mayor riesgo de morir en pacientes con neumonía severa adquirida en la comunidad (NGAC)”. Sólo con sentido común lo que Ud. se espera que los investigadores realicen es tomar una muestra de una población de pacientes con NGAC y que compare la mortalidad en el grupo con fiebre versus el grupo sin fiebre. Si continúa leyendo y los autores describen como criterios de inclusión a pacientes con NGAC y fiebre (todos los individuos de la muestra van a tener fiebre) será lógico pensar que no es coherente la población del objetivo con la descripta en métodos. 3º) Analizar la representatividad de la muestra Un aspecto fundamental es analizar el sitio donde se realizó el estudio (ámbito). Este aspecto está relacionado con lo que se denomina “Población accesible” que es el subconjunto de la Población Blanco que se encuentra disponible para el investigador. Se define agregando a los criterios anteriores las características geográficas y temporales (dónde y cuándo se tomó la muestra). A los fines de la redacción del trabajo pueden haberlas colocado como criterios de inclusión. Es importante resaltar que de acuerdo al lugar en el que se realiza la investigación, puede ocurrir que la población accesible no sea “valida” para sacar conclusiones sobre toda la 1 Los informes científicos pueden tener objetivos generales que explicitan lo que se espera lograr con el estudio en términos de conocimiento y objetivos específicos que son la descomposición y secuencia lógica del objetivo general y de alguna manera son un anticipo del diseño de la investigación. población blanco. En este caso, posiblemente las conclusiones queden limitadas a la población accesible y/o a poblaciones muy similares a la población accesible. En otras palabras podemos decir que el estudio no tiene suficiente validez externa. Ejemplo: el objetivo del estudio es “Estimar la proporción de pacientes con neumonía adquirida en la comunidad (NAC) que presentan fracaso del primer tratamiento antibiótico”. El estudio se realizó utilizando pacientes con NAC internados en un centro de alta complejidad que recibe muchas derivaciones. Pregunta: ¿Esa población accesible le parece representativa de la población blanco a la que se pretende extrapolar los resultados? Posiblemente las conclusiones sirvan para saber la proporción de pacientes “internados” con NAC que presentan fracaso en el primer tratamiento antibiótico en el centro en cuestión o, a lo sumo, en centros de alta complejidad similares al del estudio, pero sería poco recomendable extender las conclusiones a toda la población de pacientes con NAC. Limitaciones en estudios estadísticos se refiere a posibles errores que no pudieron evitarse con la metodología utilizada pero que a pesar de ello se pueden utilizar las conclusiones en determinadas circunstancias. Es decir es un sesgo que no invalida totalmente el estudio sólo limita las conclusiones. Es frecuente encontrar en la discusión una frase que diga: “las limitaciones del presente estudio son las siguientes...”. Ud. puede leer: “Los sesgos que no pudimos evitar son los siguientes...”. Muchas veces los estudios se realizan en centros de salud específicos que presentan poblaciones accesibles “seleccionadas” de acuerdo a las características propias del mismo. No es lo mismo pacientes en una sala de primeros auxilios, en un hospital de baja complejidad que en uno de alta complejidad. Siempre deberá establecer qué tan diferentes serán los individuos del estudio respecto a sus propios pacientes. Otro aspecto a tener en cuenta para evaluar la representatividad de la muestra es cómo se tomó la misma. En estudios clínicos la forma más frecuente es lo que se denomina “Muestra Consecutiva” que incluye a “todos” los sujetos que cumplen con los criterios de definición de población durante el período de tiempo y en el lugar o lugares donde se realizó el estudio. Ejemplo: Una muestra consecutiva de pacientes con crisis asmáticas que consultan al servicio de emergencias de un hospital incluirá a “todos” los que cumplan con la definición establecida para crisis asmática que se atendieron durante el período de tiempo que duró el estudio. Si sólo se ingresaron los primeros 2 pacientes de cada día, esa muestra no es consecutiva. Es una muestra seleccionada porque podría ocurrir que los 2 primeros presenten diferentes características al resto de los pacientes y es posible fuente de sesgo. Las muestras consecutivas se consideran válidas para sacar conclusiones porque de alguna manera, intentan incorporar a la totalidad de la población accesible. Cuando no se estudia a toda la población accesible, el requisito básico para la representatividad de una muestra es que debe ser tomada al azar, utilizando “Muestreo Aleatorio”. De alguna manera, implica utilizar algún método que se parezca a un sorteo. Los autores deben describir la técnica que utilizaron para lograr una muestra aleatoria (Ej: tablas de números aleatorios que se relacionaron con número de historia clínica ó número de documento). En los estudios que buscan conocer una prevalencia la definición de la población y el muestreo aleatorio se convierten en aspectos fundamentales para aceptar la validez del estudio. Un error habitual en estudios con muestreo aleatorio es utilizar la sustitución de individuos cuando no pueden ubicar al que salió sorteado. Esto es metodológicamente incorrecto. Ejemplo: Los autores buscaban estimar la prevalencia de tabaquismo en los médicos del hospital XX. La población blanco era entonces “todos los médicos del hospital XX”. Ahora bien, como era lógico, los investigadores buscaron en “Personal” un listado de médicos del hospital. Se les otorgó una lista ordenada por servicios con 400 profesionales “rentados” que se convirtió en la población accesible a los investigadores. Si había profesionales no rentados, quedaron fuera de la muestra. Este aspecto ya limitaba las conclusiones del estudio (perdieron validez externa). Para obtener una muestra de 120 profesionales que eran los necesarios para su estudio, los autores realizaron un muestreo aleatorio simple (sorteo) para decidir cuáles de los 400 iban a buscar para encuestar. Identificaron de esta manera a 120 profesionales que denominaremos “muestra teórica”. Cuando fueron a buscar a los elegidos por azar resultó que 10 de ellos ya no trabajaban en el hospital XX. Para lograr el número adecuado los investigadores simplemente los reemplazaron por el siguiente de la lista de 400 profesionales. La “muestra real” obtenida de esta manera fue metodológicamente incorrecta porque utilizaron sustitución (perdieron validez interna). El método correcto era prever que un porcentaje de la muestra teórica no iba a poder encuestarse. Por lo tanto, si hubieran elegido por sorteo un número mayor a 120 para la muestra teórica de tal manera que la muestra real fuera lo más cercano al número calculado a pesar que algunos profesionales no fueran encontrados, la metodología habría sido correcta. De todas formas, si la muestra real es menos del 80% de la teórica la validez interna se ve afectada. Un elemento muy importante en las encuestas es la tasa de respuesta. Todos los invitados a participar serían la muestra teórica, pero no todos contestaron la encuesta, la muestra real es más chica. Si los autores no informan la tasa de respuesta ó la misma es menor al 60% debería provocar que Ud. descarte el artículo que está leyendo. 4º) Evaluar si las mediciones son adecuadas En un estudio con método estadístico se realizan mediciones de variables en los individuos de la muestra. Las Variables son propiedades que miden diferente en los integrantes de una Población. Es suficiente con que en diferentes individuos de una población una propiedad pueda admitir al menos 2 posibilidades (valores) para que sea considerada variable. Por lo tanto, el hecho que una propiedad sea variable o constante está relacionado con la definición de población. Ejemplo: Si la población en estudio es “niños de ambos sexos, entre 2 y 12 años con diarrea aguda”: la propiedad sexo es una variable porque puede adoptar al menos 2 valores diferentes en los individuos de la población (femenino o masculino). Pero si se cambia la definición de población a “niñas entre 2 y 12 años con diarrea aguda” la propiedad sexo se transforma en constante puesto que sólo admite un valor en dicha población (femenino). Los investigadores registran dos tipos de variables las que está estudiando (suelen ser las nombradas en el objetivo) y otras que no se están estudiando pero, por estar relacionadas con ellas podrían modificar los resultados y por eso debe “controlarlas”. Para toda variable que se registra en un estudio los autores deben describir con qué método, técnica o definición lo realizaron. Si no encuentra la descripción de las técnicas o definiciones que utilizaron los autores para medir las variables en el apartado “material y métodos” será buen momento para descartar el artículo. Se debería pedir que los instrumentos de medición utilizados sean confiables2 y validos3. Si una medición no es reproducible, si cada vez que mido al mismo individuo me da un valor muy diferente no es posible sacar conclusiones para la población con las mediciones que obtuve en la muestra. Si el instrumento no es válido, ¿cómo interpreto los resultados? Algo similar ocurre con las definiciones. Definir es aclarar lo que una cosa es. Explicar el significado de un término. Generalmente se requiere que un término teórico como insuficiencia cardíaca, por ejemplo, sea definido. Un término teórico es aquel que designa objetos pertenecientes a teorías científicas y que admite ser observado sólo indirectamente. Para poder observarlo necesitamos de reglas de correspondencia que permitan asociar lo teórico con lo empírico (lo observable directamente). Desde el punto de vista de la definición, estas reglas se denominan “definiciones operacionales”. No cualquier definición es apta para realizar mediciones. Ejemplo: lea las siguientes definiciones de Insuficiencia cardíaca: a) Reducción de la función cardíaca de tal modo que las necesidades metabólicas de los tejidos no se cubren durante el ejercicio o, en estados más graves, en reposo. b) Historia personal de disnea de esfuerzo con la presencia de al menos 2 de los siguientes signos:1) Edema 2 Se considera que un instrumento de medición es confiable cuando es reproducible la medición. Se establece realizando varias mediciones en el mismo individuo. Se suele informar como la variabilidad intra y extraobservador. 3 Se considera que un instrumento de medición es válido si mide lo que pretende medir. Se suele informar la sensibilidad y especificidad del método. Si el método está aceptado por la comunidad científica como método de referencia (Gold Standard) es válido. de miembros inferiores. 2) Ingurgitación yugular. 3) Rales crepitantes bilaterales. 4) Tercer ruido. La definición (a) corresponde a una definición por connotación convencional4. Es útil en el marco de la docencia de estados patológicos puesto que corresponde a la explicación según la teoría fisiopatológica vigente, pero no como regla para medir insuficiencia cardíaca en individuos de una muestra en una investigación. La definición (b) es una definición operacional. Permite traducir un término teórico en observaciones empíricas. Este es el tipo de definición que se debe utilizar para medir variables. Si medita sobre el tema se dará cuenta que la mayoría de los criterios diagnósticos en ciencias de la salud son definiciones operacionales. Si las variables que encuentra en material y métodos se miden con instrumentos no validados o las definiciones que utilizan no son operacionales, sería conveniente que descarte el estudio. 5º) Interpretar los resultados y conclusiones. Ya explicamos que al utilizar método estadístico se pretende conocer lo que está pasando en una determinada población pero abordando un subconjunto de la misma que denominamos muestra. El análisis de los datos obtenidos en las mediciones de las variables permite obtener resultados. Ejemplo: para estimar prevalencia de tabaquismo en población de médicos del hospital XX se obtuvo una muestra aleatoria en la cual se midió la situación de fumador mediante una encuesta (las respuestas de los profesionales fueron los datos obtenidos). El análisis de todos los datos permitió obtener el siguiente resultado: “el 50% de los entrevistados fumaba”. El resultado en una muestra puede ser por azar (recuerde el error aleatorio), para poder realmente hablar de la población lo que se requiere es saber en cuánto se pudieron equivocar los autores sólo por azar o, dicho de otra manera cuál es la probabilidad de cometer un error para el tamaño de muestra que utilizaron. Si recuerda las características del error aleatorio observará que el mismo disminuía al aumentar el tamaño de la muestra. Por lo tanto es lógico pensar que con “muestras grandes”5 la probabilidad de error es baja. Para poder realizar el “salto” de los resultados en la muestra a lo esperado en la población es que se requiere de análisis estadístico. Es decir, para poder extraer conclusiones6 sobre la población. Los procesos más frecuentemente utilizados son la estimación y la inferencia. Estimar el valor de una determinada propiedad o variables en la población blanco es casi “adivinar” lo que está pasando con la misma utilizando la información de la muestra. Para aplicar esta metodología es necesario que la muestra sea representativa de la población y que el muestreo sea aleatorio. El método de estimación habitualmente utilizado es informar intervalos de confianza (antiguamente se informaba el error estándar). Los intervalos de confianza se calculan utilizando fórmulas para un nivel de confianza elegido por los investigadores que frecuentemente es del 95%. El intervalo se construye sumando y restando al valor obtenido en la muestra un valor que refleja cuánto error puede haber sólo por azar. Lo podemos asimilar a una manera “matemática” de realizar 100 investigaciones habiendo efectuado sólo una. Esto quiere decir que, para un nivel de confianza de 95%, los valores del intervalo obtenido se relaciona con el siguiente concepto: Si se realizaran 100 investigaciones del mismo problema tomando muestras del mismo tamaño de la misma población, 95 de esas 100 veces el valor obtenido en las muestras se encontrarán dentro del intervalo. Por lo que la interpretación final sería: tengo 95% de confianza que el verdadero valor de la población se encuentra en algún lugar dentro del intervalo (tengo un 5% de probabilidades de que esté fuera del mismo o, dicho de otra forma 5% de probabilidad de error). En el calculo se incluye el error estándar que es mayor cuanto menor es el tamaño de la muestra. Es decir que, a mayor tamaño de la muestra más pequeño será el intervalo. Se puede calcular para diferentes estadísticas (Ej: proporciones o porcentajes, promedios ó medias, etc..). La fórmula para cada uno es diferente pero la 4 Se denominan definiciones por connotación convencional cuando se llega a un acuerdo (convención) de cuál es el significado aceptado para la comunidad científica. 5 El tamaño adecuado para la muestra se debe calcular previo a realizar el estudio y debe especificarse en material y métodos del informe. El “grande” o “chico” de una muestra no tiene un número mágico que sirva para cualquier estudio. 6 Conclusiones son la respuesta al objetivo sobre la base de los resultados. interpretación es siempre igual. Acorde a los resultados de la muestra tiene un 95% de confianza que el valor que se intenta estimar en la población se encuentra en alguno de los comprendidos dentro del intervalo. Ejemplo: Se realizó un estudio para estimar la mortalidad intrahospitalaria en pacientes internados con Neumonía adquirida en la comunidad (NAC). En la muestra el resultado fue 5% de mortalidad. Se calculó el Intervalo de confianza para el 95% y el resultado fue 4%-6%. Interpretación: se puede afirmar con 95% de confianza que el verdadero valor de mortalidad en esta población se encuentra en algún valor comprendido entre 4 y 6%. Es importante resaltar que el “ancho” del intervalo será importante al momento de decidir si es útil la información del estudio. Al analizar un intervalo de confianza deberá preguntarse si el resultado es “clínicamente útil”. Ejemplo: Se realizó un estudio para estimar la mortalidad intrahospitalaria en pacientes internados con Neumonía adquirida en la comunidad (NAC). En la muestra el resultado fue 5% de mortalidad. Se calculó el Intervalo de confianza para el 95% y el resultado fue 0,000001%-60%. Interpretación: se puede afirmar con 95% de confianza que el verdadero valor de mortalidad en esta población se encuentra en algún valor comprendido entre 0,000001% y 60%. Seguramente esto Ud. Ya lo sabía sin necesidad de leer el artículo. Inferencia es el proceso de formular conclusiones sobre la población a partir de los datos de una muestra cuando se relacionan variables, por ejemplo cuando se comparan diferentes grupos. Cuando se comparan 2 ó más grupos ya sabemos que los resultados pueden ser diferentes sólo por azar. Ejemplo: Se encontró un 23% de complicaciones en el grupo I y un 40% en el grupo II. Sólo con esos resultados: ¿Podemos afirmar que es mejor el grupo I?. La respuesta es NO porque necesito saber cuál es la probabilidad que la diferencia sea por azar. Los autores del estudio le informan esa probabilidad al aplicar test estadístico y calcular un valor de “p”. “p” es la probabilidad que la diferencia encontrada entre los grupos en la muestra se deba al azar. Cuando la probabilidad de azar es alta, se decide adjudicar al azar la diferencia y verá que le informas “diferencias estadísticamente no significativas”. Ejemplo: Se encontró un 23% de complicaciones en el grupo I y un 40% en el grupo II. (p=0,49). Significa que tengo 49% de probabilidades que la diferencia se deba al azar. Por lo que la conclusión será que la diferencia es estadísticamente no significativa. Cuando la probabilidad de azar es tan baja que hace lógicamente difícil adjudicar a él la diferencia, se toma la decisión que la “diferencia es estadísticamente significativa” lo cual significa que adjudica dicha diferencia entre los grupos a diferencias que provienen de la población (no del azar). Ejemplo: Se encontró un 23% de complicaciones en el grupo I y un 40% en el grupo II. (p=0,0001). Significa que tengo 0,01% de probabilidades que la diferencia se deba al azar. Por lo que la conclusión será que la diferencia es estadísticamente significativa (la probabilidad que se deba al azar es mínima). Ahora, ¿cuándo es baja la probabilidad de azar? Los investigadores deben decidir el punto de corte que denominan “nivel de significación” y, que habitualmente es 0,05. De tal manera que los valores de “p” inferiores a ese valor se consideran “significativos”. En algunos casos pueden elegir un nivel de significación de 0,01. Generalmente la decisión de qué punto de corte utilizan debiera basarse en cuánto daño se puede provocar si se toma una decisión equivocada. SEGUNDA PARTE: Introducción a Medicina Basada en la Evidencia. La pregunta clínica y la búsqueda bibliográfica. Autores: Marina Khoury1.Marcelo García Dieguez2. 1. Médica. Concurrente del Centro de Investigaciones Epidemiológicas. Academia Nacional de Medicina. Buenos Aires. Argentina. 2. Médico. Hospital “Dr. Felipe Glasman” de la Asociación Medica de Bahía Blanca. Bahía Blanca. Argentina. Antes de leer el presente capitulo le sugerimos contestar estas preguntas y volver sobre ellas luego de terminar 1.-Cuando tiene dudas sobre sus enfermos que método de obtención de información utiliza (ordenar de los mas usados a los menos usados Lee libros de texto generales Lee libros de texto especializados Recurre a su archivo bibliográfico Realiza pedidos bibliográficos en la biblioteca realiza pedidos bibliográficos a otros colegas consulta la opinión a otros colegas 2.- Ud. accede a revistas medicas (puede marcar mas de una respuesta) A Recibir suscripciones propias B Leer periódicamente algunas en una biblioteca C Fotocopias de artículos QUÉ ES MEDICINA BASADA EN LA EVIDENCIA? La Medicina Basada en la Evidencia (MBE); en Ingles, Evidence Based Medicine (EBM), representa el uso racional, explícito, juicioso, y actualizado de la mejor evidencia científica aplicada al cuidado y manejo de pacientes individuales. La práctica de MBE requiere la integración de la experiencia clínica individual con la mejor evidencia clínica externa derivada de los estudios de investigación sistemática. Esta integración resulta de un delicado balance entre estos dos tipos de experiencia. Sin experiencia clínica, la práctica médica corre el riesgo de ser sólo un proceso de decisiones automatizadas basadas en la evidencia externa, y sin esta última, la práctica médica se vuelve rápidamente obsoleta, en perjuicio del paciente. La " práctica basada en la evidencia" pretende cuidar aplicando la integración de: - la habilidad para la práctica profesional (la experiencia profesional) - la mejor evidencia externa (investigación) - la elección del propio paciente (preferencias/valores de los pacientes). Este modelo básicamente prescriptivo más que descriptivo de cómo se toman las decisiones. La mayor parte de los estudios muestran que las preferencias de los médicos tienen la mayor preponderancia en las decisiones. Enfrentados a pacientes críticos con similares circunstancias diferentes médicos toman diferentes decisiones. Un modelo recientemente propuesto por Guyatt y Haynes insiste sobre el peso de las preferencias del pacientes y las circunstancias y el estado clínico como los dos elementos a contrastar con al evidencia de investigación. La experiencia clínica seria el factor para integrar estos elementos: Estado clínico y circunstancias Experiencia clínica Preferencias del paciente Evidencia Externa La práctica de MBE es un proceso de aprendizaje continuo y de disciplina personal que se origina en la necesidad de responder preguntas relacionadas al diagnóstico, pronóstico y tratamiento, y a otros aspectos clínicos importantes inherentes al manejo de los pacientes. La metodología de “Medicina Basada en la Evidencia” puede resumirse en los siguientes pasos: 1. Transformar la información requerida en preguntas que puedan ser respondidas. 2. Definir una estrategia de búsqueda de información. 3. Evaluar en forma crítica la validez y aplicabilidad de los artículos recuperados. 4. Aplicar los resultados de la búsqueda en la práctica asistencial. Una de las ventajas principales de la estrategia es que brinda información científica válida con ahorro de tiempo. La MBE provee los instrumentos necesarios para vencer estas limitaciones mediante la búsqueda sistemática de literatura, la evaluación crítica de los artículos relevantes y la decisión de cómo la evidencia puede aplicarse a pacientes particulares. La MBE debe aplicarse dentro del contexto de buen juicio clínico que facilite el manejo de pacientes individuales que pueden ser diferentes de aquellos pacientes randomizados en estudios de investigación. Las principales limitaciones de la MBE se pueden resumir en los siguientes puntos: • No toda la información publicada está disponible • No todos los problemas tienen suficiente evidencia para ser respondidos • El profesional requiere de entrenamiento para dominar la metodología. ¿Qué “NO ES” MBE? En base a la experiencia de “medicina basada en la evidencia” se puede aclarar que cosas “NO ES” una práctica basada en la evidencia: • No es una vieja fórmula imposible de practicar: requiere convicción el implementarla pero es posible de lograr. • No es un “libro de cocina": Porque requiere un abordaje que integre la mejor evidencia externa con la experiencia clínica individual. La decisión no puede quedar esclavizada a una receta cuando se trata del cuidado de un paciente en particular. La evidencia clínica externa puede informar, pero nunca puede reemplazar, la experiencia clínica individual, y esta última es la que decide si la evidencia externa se aplica al paciente. Por otro lado, cualquier pauta externa debe integrarse con la experiencia clínica individual decidiendo cómo se adapta la misma al estado clínico del paciente y sus preferencias y así debe aplicarse. • No es una fórmula para disminuir costos: Algunos temen que la práctica basada en la evidencia será secuestrada por financiadores y gerentes para recortar costos en el cuidado de la salud. Éste no sólo sería un mal uso de la misma sino que haría pensar en errores por sus consecuencias financieras. La práctica basada en la evidencia identifica y aplica las intervenciones más eficaces para optimizar la calidad y cantidad de vida de los pacientes individuales; esto puede aumentar en lugar de disminuir los costos en salud. • No es exclusivamente ensayos clínicos aleatorizados: Involucra la búsqueda de la mejor evidencia externa disponible para contestar nuestras preguntas clínicas. No todas las preguntas se pueden responder con ensayos clínicos y a veces la mejor evidencia puede surgir del reporte de un solo caso o de la investigación básica pero cumplen con la función de ayudar a la toma de decisiones. LA PREGUNTA CLÍNICA El primer paso de la estrategia consiste en formular bien una pregunta. Esto consiste en convertir las necesidades de información que surgen durante el encuentro clínico en una pregunta, simple y claramente definida, que nos permita encontrar los documentos que satisfagan nuestro interrogante. Una buena pregunta debe cumplir ciertas características: • Ser relevante al problema que se maneja. • Estar armada para facilitar el enfoque de la búsqueda. • Facilitar una respuesta precisa. ¿Se hacen estas preguntas los médicos?. Diferentes investigaciones han mostrado que las preguntas surgen con frecuencia si uno se lo propone. La proporción es tan variable como 1 pregunta cada 15 pacientes hasta 1 pregunta cada 1 ó 2 pacientes en la atención ambulatoria, y 5 preguntas por paciente en internación. Se requiere de entrenamiento para reconocer cuando surgen y para saber cómo articularlas con el fin de mejorar la práctica clínica. El médico debe estar listo para reconocer las brechas de conocimiento mientras asiste una situación de salud. Debe cambiar la ansiedad o miedo a la incertidumbre por la generación de sus dudas en formas de preguntas que puedan ser respondidas por los resultados de investigaciones previas. Pueden surgir en cualquier momento del ejercicio de la profesión. La mayoría de las preguntas se refieren a • Hallazgos clínicos: ¿Cuál es el significado de un hallazgo del examen físico o el interrogatorio? • Etiología o Daño: ¿El cuadro que presentó el paciente puede deberse a la medicación que recibió? • Manifestaciones clínicas de una enfermedad: ¿Cuán frecuentemente una enfermedad determina la presencia de un trastorno? • Pruebas Diagnósticas: ¿Cómo seleccionar e interpretar un test diagnóstico? • Pronóstico: ¿Cómo anticipar la evolución natural de la enfermedad de los pacientes? • Terapéutica: ¿Cómo seleccionar tratamientos más útiles que dañinos? • Prevención: ¿ Cómo reducir la probabilidad de una enfermedad? Hay preguntas de conocimiento básico sobre una enfermedad o situación. Estas preguntas de tipo general tienen dos componentes:. 1. Un interrogante (quién, qué, cuándo, cómo, por qué) con un verbo. 2. Afección, aspecto de una situación. Por ejemplo: "¿Qué enfermedades se relacionan con el hepatocarcinoma?" Estas preguntas cubren un amplio rango de conocimientos. En la práctica diaria nuestras preguntas son generalmente más "actuales", son preguntas específicas. Se refieren a un conocimiento específico de manejo del problema del paciente o situación de salud. La "Anatomía" de este tipo de pregunta incluye: 1. Sujeto (población). 2. Intervención principal o Exposición (siempre se relaciona directamente con lo que genera el interrogante). 3. Comparación si corresponde. 4. Resultados clínicos de interés (Evento). Por ejemplo: "¿Pacientes con hepatitis crónica activa (sujeto) tratados con droga X (intervención) comparado contra Placebo (comparación) tienen menor probabilidad de desarrollar hepatocarcinoma (resultado o evento)?". Este tipo de pregunta cumple con las características de facilitar la estrategia de búsqueda como veremos más adelante y de tener fácil respuesta (SI o NO). ¿Cómo lograr una buena pregunta clínica? Puede ayudar que preste atención a los temas más relevantes. No es raro que la primer pregunta que se nos plantee sea amplia y contenga en realidad varios interrogantes en una única frase. Siempre evite la "pregunta detrás de la pregunta". Pregúntese si el interrogante tiene una única respuesta o una lista de posibilidades. Por ejemplo: "¿Debo mantener la anticoagulación de mi paciente después de los tres meses? Al leer esta pregunta se nos ocurre que hay varias preguntas detrás: ¿comparado contra qué? ¿Para evitar qué? En realidad es mejor formularla de la siguiente manera: "¿En pacientes con trombosis venosa proximal, la anticoagulación por un periodo de tres meses comparado con periodos mayores de tratamiento tiene diferencia en la prevención de Tromboembolismo de Pulmón por sobre el riesgo de sangrado? Piense a qué aspecto está orientada su pregunta (terapéutica, diagnóstico, pronóstico o daño) y no deje de revisar si todos los 4 componentes están (sujeto, intervención, comparación y resultado) y si son adecuados a sus necesidades. Ejemplo: Analicemos los componentes de la pregunta anterior: "¿En pacientes con trombosis venosa proximal, la anticoagulación por un periodo de tres meses comparado con periodos mayores de tratamiento tiene diferencia en la prevención de Tromboembolismo de Pulmón por sobre el riesgo de sangrado?. Podemos identificar los cuatro componentes? Población: “pacientes con trombosis venosa proximal” Intervención: anticoagulación por un periodo de tres meses Comparación: anticoagulación por periodos mayores a tres meses Resultados: prevención de tromboembolismo de pulmón y riesgo de sangrado. A qué aspecto está orientada la pregunta?: Esta pregunta es de terapéutica. Siempre que realice preguntas de terapéutica piense en resultados relevantes para sus pacientes. No es igual preguntarse si un antihipertensivo logra normalizar la presión en pacientes hipertensos moderados que preguntarse si logra reducir la mortalidad en dicho grupo. Si le entregan 15 estudios que comparan la presión arterial luego de 6 meses de seguimiento en grupo tratado contra el control y 2 artículos que le presentan lo mismo pero además la mortalidad luego de 6 años de seguimiento: va a leer los 17 artículos o elige leer sólo los 2 últimos? Recuerde que buscará información para una mejor práctica clínica y la lectura crítica comienza con la búsqueda bibliográfica. En otras palabras si hace una pregunta que incluya un resultado clínicamente relevante como mortalidad y utiliza esa pregunta como base para la búsqueda bibliográfica, de alguna manera está diciendo que sólo va a leer artículos que evaluaron mortalidad y dejará de lado aquellos que evaluaron resultados intermedios exclusivamente (como la normalización de la presión). Ejemplo: busquemos los componentes de esta pregunta: “En pacientes con disnea súbita es útil el centellograma V/Q para el diagnóstico de tromboembolismo pulmonar (TEP) comparado con la Arteriografía Pulmonar?” Población: Pacientes con diseña súbita Intervención o Exposición: Centellograma V/Q Comparación: Arteriografía Pulmonar Resultado: diagnóstico de TEP. A qué aspecto está orientada la pregunta?: En este caso la pregunta la clasificamos como de diagnóstico. Puede ser de utilidad reconocer que el componente “Intervención principal o Exposición” siempre se relaciona directamente con lo que genera el interrogante. Se podría considerar el “corazón de la pregunta”. En el ejemplo de terapéutica la duda está acentuada en el tiempo de la anticoagulación, en la pregunta sobre diagnóstico sobre la utilidad del centello, etc... Ejemplo: Si analizamos la siguiente pregunta: “En pacientes con neumonía severa adquirida en la comunidad (NACS), el hecho de ser diabético le aumenta el riesgo de morir durante la internación?” En este caso los componentes serán: Población: Pacientes con NACS Intervención o exposición: ser diabetico Comparación: “no diabético”. Resultado: mortalidad o muerte intrahospitalaria. (puede buscar sinónimos del resultado que identificó). A qué aspecto está orientada la pregunta?: Esta pregunta es de pronóstico. En ocasiones como en el ejemplo anterior la comparación no está explícita en la pregunta pero es lógico comparar contra la “no exposición” al factor que genera el interrogante. Ejemplo: Suponga que ayer le indicó un antibiótico X a un paciente internado por NACS y varias horas después de la primer dosis el paciente presenta un cuadro eritrodérmico. Ud. Se pregunta: Será el antibiótico X el motivo del cuadro que presenta el paciente?. Este medicamento puede ser la causa (etiología) de este daño?. El razonamiento es lógico pero hay preguntas detrás de la pregunta. Qué le parece redactarla así: En pacientes con NACS el recibir el antibiótico X se asocia con Eritrodermia? Busquemos los componentes: Población: Pacientes con NACS Intervención o exposición: antibiótico X Comparación: “no recibir el antibiótico X”. Resultado: eritrodermia. En este caso la pregunta es de etiología o daño. Cuando la comparación de una pregunta que tiene una droga como intervención no es explícita deberá decidir si quiere poner “placebo” como grupo comparación. Eso deberá decidirlo acorde a la pregunta que está realizando y ver si realmente quiere identificar estudios que compararon contra placebo exclusivamente. ¿Qué pasa si surgen muchas preguntas? Todo paciente con una enfermedad no podrá presentar una o más preguntas en cada dominio, cómo hacer en estas circunstancias, pruebe los siguientes: 1°¿Cuál es la mas importante para mi paciente en este momento? 2°¿Qué es lo que debo hacer primero? 3°¿Que repuesta ayudará más a mi paciente? 4°¿Qué pregunta puedo contestar en el tiempo que dispongo? 5°¿Qué pregunta se ha repetido con mayor frecuencia en mi práctica? Después de practicar lo suficiente será sencillo seleccionar sólo las preguntas relevantes. EJERCICIO Para aplicar los conceptos hasta aquí recibidos le sugerimos analizar el caso que se presenta y elaborar una serie de preguntas clínicas: Una mujer de 65 años es transferida a su unidad de cuidados intensivos porque tienen una neumonía severa. Se presenta estable pero su frecuencia respiratoria es de 32 por minuto y su saturación de oxigeno es de solo 87% con una FIO2 de 0.65. No tiene antecedentes cardiacos o respiratorios. Ud empieza a considerar que hacer si desarrolla una insuficiencia respiratoria aguda. Una eventualidad posible considerando su evolución desfavorable en las ultimas horas. Ud. tiene experiencia en el uso de ventilación no invasiva a presión positiva (NPPV) en exacerbación de pacientes pulmonares crónicos. Ud. recuerda varios debates en el ultimo congreso al que asistió sobre su aplicación en neumonía severa, edema cardiogénico y síndrome de distress respiratorio. Se plantea iniciar esta metodología en este paciente y lo comenta con su staff que le propone discutir sus beneficios”. Redacte una de las preguntas clínicas siguiendo la guía de contenidos de las flechas : Población (pacientes) Exposición o Intervención Control o Comparación Resultado ( outcome) DEFINIR LA ESTRATEGIA DE BÚSQUEDA Es la parte crítica donde se puede ahorrar o perder mucho tiempo. Debiera responderse estas 3 preguntas: ¿Dónde Buscar? ¿Cómo Buscar? y ¿Que Buscar? • ¿Dónde Buscar? IMPORTANTE: Dónde buscar información requiere decidir la mejor fuente acorde a la pregunta. Es posible que una pregunta en la que sólo pueda identificar 2 componentes sea el resultado de un tema muy nuevo sobre el que se ha investigado poco o de un tema sobre el que Ud. sabe poco. En el primer caso se trata de un tema “caliente” y posiblemente requiera de una búsqueda computarizada para lograr información. En el segundo caso, un buen libro de texto como fuente de información posiblemente responda muy bien su pregunta básica, al mismo tiempo que generará nuevas preguntas más completas que finalmente podrá responder con una búsqueda computarizada. Las fuentes de información pueden ser variadas, desde preguntar a un colega, leer un libro de texto impreso, consultar versiones electrónicas de libros de texto clásicos o actualizables, conseguir revistas médicas relacionadas con le especialidad hasta la búsqueda de artículos en una base de datos computarizada. En este punto puede ser de importancia dar una serie de definiciones que le ayudarán a interpretar la información presentada: • • • Artículo Primario: Informe científico que presenta los resultados de una investigación realizada por los autores del mismo. Los informes de estudios de Cohorte, de casos y controles o ensayos clínicos serían artículos primarios. Artículos Secundarios: Publicación en la cual el o los autores basan su escrito en un artículo primarios consultados sin tener datos propios provenientes de una investigación. Revisión: una revisión se podría considerar un informe de una investigación bibliográfica. Los autores consultan artículos primarios sobre un tema y los resumen de determinada manera. Hay dos tipos de revisiones las narrativas y las sistemáticas. o Las revisiones sistemáticas resumen la evidencia científica (en contraste con revisiones narrativas que mezclan opiniones y evidencia) son útiles para médicos que intentan tomar las decisiones óptimas. Estas revisiones pueden dirigirse a preguntas de tratamiento, causalidad, diagnóstico, o pronóstico. Se realiza siguiendo un protocolo de investigación con una pregunta clínica que no pudo ser respondida en investigaciones previas. Meta-análisis: Revisión sistemática en la que los resultados de los estudios identificados en la búsqueda sistemática se combinan en un resumen numérico único (método cuantitativo) que puede contestar la pregunta original. Overview: Revisión sistemática en la que los resultados de los estudios identificados en la búsqueda sistemática no se combinan en un resumen numérico único, sólo se comentan los artículos y se generan recomendaciones con una metodología cualitativa. o Las revisiones narrativas con investigaciones NO sistemáticas, NO reproducibles que permite comparar y analizar los resultados de varios estudios “preferidos o seleccionados” por el autor. Respecto de los libros suelen ser las fuentes usuales para la respuesta de preguntas básicas. Dan información muy amplia sobre fisiopatología, diagnósticos diferenciales, enfoques diagnósticos y terapéuticas disponibles. Tienen a favor que son fáciles de ubicar y de usar. Tienen la limitación de la posibilidad de estar desactualizados, especialmente en temas de terapéutica. En este sentido se recomienda revisar las fechas de las referencias bibliográficas, y preferir las modalidades actualizables como el UpToDate y Scientific American Medicine, que citan información de publicaciones más recientes mas frecuentemente. Los contenidos de estas fuentes podemos considerarlas revisiones narrativas. Respecto a revistas con publicaciones primarias que exponen artículos originales, existe una amplia variedad. El tema es que tener acceso a todas las relevantes para la especialidad y poder consultarlas en forma completa resulta poco práctico. Imagine buscar la respuesta a su pregunta revisando el índice de las revistas elegidas publicadas en el último año, o hacer búsquedas electrónicas en la página de internet de cada revista por separado. Realmente podría resultar poco práctico. Otra fuente de información de acceso sencillo por tratarse de información resumida y seleccionada son las conocidas como revistas secundarias. Se caracterizan por revisar entre 50 y 70 revistas por semana en busca de artículos que pasen el filtro de revisores críticos calificados. Esta selección se limita a artículos relevantes, además agregan resúmenes “mas informativos” con comentarios de expertos clínicos. Es habitual que sus contenidos se acumulen además en bases de datos. En esta línea están la revista Bandolier (en internet: http://www.jr2.ox.ac.uk/bandolier/), las revistas de resúmenes como: ACP Journal Club (en internet: http://www.acpjc.org/) Evidence Based Medicine (en internet: http://www.acponline.org/journals/redirectebm.html) y Evidence-Based Practice (http://jfp.msu.edu/ebp.htm). Con la denominación de Best-Evidence, estuvo disponible en formato electrónico la colección completa y conjunta de las dos primeras revistas, actualmente accesible a través de la web como ACP JOURNAL CLUB ONLINE. No podemos dejar de mencionar Internet como fuente de información. La tendencia a usar motores de búsqueda genéricos atraído por la multiplicidad de respuestas es frecuente. Esta fuente de recursos merece algunas consideraciones y la mas importante es cómo separar las fuentes confiables de las que no lo son. Varias organizaciones y autores han publicado criterios que permiten evaluar la información relativa a la salud en Internet. La mayor parte de los criterios se refieren al contenido, el diseño, la autoría, financiación o productores, fuentes de información y actualización. Aun no hay acuerdo en un instrumento ampliamente aceptado para este tipo de evaluación pero sugerimos concentrarse en ver los autores de la información y la institución que la produce, así como la fuente de financiación en busca de conflictos de interés. Ejemplo: resulta más “confiable” si una reconocida sociedad científica presenta la información en su página Web. La fecha de última actualizacón y las fuentes también son muy importantes. Internet es una forma de acceder a los buscadores (bases de datos), sociedades científicas y artículos a texto completo. Revistas Full Text en Internet Sumemos algunas direcciones para localizar textos completos en forma gratuita: Highwire Press (Stanford University). http://intl.highwire.org/ 220 sitios con 189.272 artículos full text gratis. The Free Medical Journal Site. http://freemedicaljournals.com/ 360 sitios ordenados por especialidad. WISDOM proyect Sheffield U. NHS http://www.shef.ac.uk/uni/projects/wrp/journ.html Cambiando en la dirección: "index" en lugar de "journ" para ver toda las posibilidades. Quizá estas direcciones le sean de utilidad luego que ha realizado una búsqueda en las bases de datos correspondientes y busca textos completos para leer. Las bases de datos computarizadas almacenan información sobre artículos (la mayoría de las veces publicados en revistas indizadas) y cuentan con “campos” y “registros”. Cada artículo ingresado a una determinada base es un registro. Los campos de la base serían los títulos de la información disponible de cada registro. Para que resulte algo más familiar, imagine cada base de datos como una planilla de Excel. A modo de ejemplo se presenta un registro de una supuesta base de datos: codigo del registro título 14633329 A novel rabbit model for the evaluation of biomaterial associated urinary tract infection. Autores Cita Fung LC y col. Can J Urol. 2003 Oct;10(5):200712. Año de publicación Abstract 2003 OBJECTIVES: It was the objective of this study to establish an animal model which simulates the conditions of a biomaterial associated bacterial urinary tract infection. METHODS: The curled portion of polyurethane double pig-tail ureteric stents, pre-coated with P. aeruginosa,were inserted transurethrally into the bladder in eight rabbits. Eight control animals received sterile stent material. Microbiology studies of the stent, bladder tissue, and urine, as well as bladder histopathology were evaluated. RESULTS: P. aeruginosa was recovered from all stent, bladder, and urine specimens in the P. aeruginosa precoated stent group, and no P. aeruginosa was present in any of the control specimens (p=0.0002). The controls only developed minimal bladder inflammation, whereas the bladders of the P. aeruginosa pre-coated stent group were significantly more inflamed (p<0.01). CONCLUSIONS: This rabbit model was easy to manipulate, low in maintenance requirements, and had pathophysiologically distinct end points, suitable for the assessment of biomaterial associated urinary tract infections. En cada columna se observan los campos de la base (generalmente son muchos más) y en cada fila veríamos un registro. Las bases no tienen campos de texto completo, esta es la razón porque de las búsquedas la mayoría de las veces obtiene como máximo un abstract (resumen). En ocasiones hay links que permiten conectarse con el lugar donde puede encontrar el texto completo. Entre las bases de datos más conocidas se encuentran: MedLine: es un producto de la National Library of Medicine de Estados Unidos. Esta institución se fundó en 1836, como Biblioteca de Medicina del Ejército. Sus contribuciones más importantes el catálogo indizado de la Biblioteca y el Index Medicus (AIM), ambos iniciados en 1879. La National Library of Medicine (NLM), con más de 5 millones de volúmenes, es actualmente la mayor biblioteca médica del mundo. En 1966 se abrió a la consulta on-line el antiguo repertorio bibliográfico Index Medicus con el nombre de MEDLINE, que recopila, además, las referencias del International Nursing Index, y el Index to Dental Literatura. Todas las bases de datos producidas por la NLM presentan una estructura interna dividida en campos indizados y combinables entre sí que facilitan la búsqueda; MEDLINE sigue el mismo esquema y nos permite buscar en todos los campos. No todos los buscadores permiten especificar el campo de interés para la búsqueda. Como normalmente lo que se pretende es encontrar información sobre un tema determinado, la mejor herramienta a usar es el Tesauro. El Tesauro es una relación de todos los descriptores o palabras-clave que se utilizan para indexar los artículos. En el caso de MEDLINE, el tesauro se conoce como “campo MeSH” por Medical Subject Headings (encabezados médicos). Los revisores de la NLM previo a ingresar el artículo a la base “eligen” del tesauro los términos MESH que mejor describen de qué trata el artículo. En Internet hay varios accesos gratuitos a Medline. Se recomienda el buscador de la NLM denominado Pubmed: http://www.ncbi.nlm.nih.gov/PubMed/ Hay un link a esta dirección en http://www.pubmed.com En la primer pantalla de Pubmed la modalidad de búsqueda es una sola “texto libre” que significa que busca por igual en todos los campos de la base. Esto podría explicar por qué recupera demasiados artículos cuando utiliza esta interfase. Por ejemplo: si eligió como palabra clase “Neurology” incluirá a todos los números de la revista con ese nombre. En Pubmed el Tesauro se encuentra en el MeSH Database (ingreso por la columna de la izquierda en cualquier pantalla de Pubmed). De tal manera que si realiza una búsqueda desde el MeSH Database le estará solicitando al programa que busque en el campo MESH. Al hacer esto es poco probable que recupere artículos que hablen del tema que está buscando de una manera secundaria y es más probable que recupere estudios específicos de la temática. Además de MEDLINE, la NLM produce una serie de bases de datos especializadas en otras áreas de la medicina; algunas de ellas ya se han comentado en el párrafo anterior, otras son AIDSLINE, que hace referencia exclusiva al sida, AGELINE a geriatría, TOXLINE a toxicología, o CANCERLIT a oncología. Biblioteca Cochrane: La biblioteca COCHRANE es una fuente de información electrónica creada por la “Colaboración Cochrane”, cuyo objetivo es proporcionar de forma rápida y simple las mejores evidencias necesarias para la toma de decisiones en la practica. La misión de la Colaboración Cochrane es "Preparar, desarrollar y mantener revisiones sistemáticas" además de actualizar los Ensayos Clínicos Aleatorios (ECA) , en todos lo niveles de cuidados de salud. Se inició en abril de 1996, es accesible vía Internet, en versiones CD-ROM y disquete, el acceso a la biblioteca, de momento, es pago de una cuota o suscripción anual. Se actualiza de forma acumulativa cada tres meses. Está compuesta actualmente por cuatro bases de datos, junto a otro tipo de información adicional. -Base de datos Cochrane de revisiones sistemáticas. -Base de datos de resúmenes de revisiones de evaluación de la efectividad. -Registro Cochrane de ensayos clínicos controlados. -Base de datos de metodología sobre las revisiones sistemáticas. La Colaboración cuenta con más de 10 centros distribuidos en todo el mundo, en España está representada por el Centro Cochrane Iberoamericano con sede en Barcelona. La Biblioteca Cochrane tiene periodicidad trimestral y se actualiza en los meses de enero, abril, junio y octubre. Podemos considerarla simultáneamente una publicación periódica y una base de datos. Por un lado su periodicidad, la indización en Medline la convierte en una publicación periódica, su presentación electrónica, un potente motor de búsqueda y una extensa base de datos de estudios clínicos randomizados publicados a texto completo la convierten en una base interesante de consulta de revisiones sistemáticas de calidad asegurada. La Biblioteca Cochrane ayuda a una actualización rápida y eficiente de los profesionales de la salud. Es una de las más importantes bibliotecas de medicina basada en evidencia del mundo - la Biblioteca Cochrane - está disponible gratuitamente para los países de América Latina vía Internet, por un acuerdo entre Cochrane y la Organización Panamericana de la Salud (OPS) a través del Centro Latino Americano y del Caribe de Información en Ciencias de la Salud (BIREME). Desde Argentina puede accederse a través de la Biblioteca Virtual en Salud en http://www.bvs.org.ar Su acceso al sitio regional es desde http://cochrane.bireme.br La Colaboración Cochrane pasó a congregar, en 1992 en Gran Bretaña, los esfuerzos de millares de científicos de la salud del mundo y seleccionar las mejores evidencias existentes para dar respuestas. En 1996 fue fundado el Centro Cochrane de Brasil en la UNIFESP, con la finalidad de ayudar a divulgar evidencias para mejores decisiones en salud. El acceso a la Biblioteca Cochrane por la Biblioteca Virtual en Salud (BVS) es libre para todos los profesionales de la salud y de la información de la región de América Latina y el Caribe, resultado de un contrato firmado entre BIREME y el Update Software (UK), con apoyo de la Colaboración Cochrane y el Centro Cochrane de Brasil. BIREME desarrolló un sitio propio de búsqueda para la Biblioteca Cochrane, trilingüe (portugués, español, e inglés) agregó links para revisiones sistemáticas traducidas al español e implementó una opción de búsqueda que posibilita la recuperación de documentos de acuerdo con su relevancia y consistencia (alta, media y baja). Para mayor información contactarse con Caty Iannello, Coordinadora del Proyecto Biblioteca Virtual en Salud - Argentina, caty@arg.ops-oms.org, Teléfonos (54 11) 4312-5301 int. 224 o Patricia Camargo, Funcionaria de Prensa BIREME, patricia@bireme.br, Teléfonos (55-11) 5576 9824. Lilacs (Literatura Latinoamericana y del Caribe en Ciencias dela Salud) Base cooperativa del Sistema BIREME de literatura latinoamericana publicada en la Región desde 1982. Reúne alrededor de 670 revistas desde 1982. Si su pregunta está relacionada con patologías regionales (Ejemplo: Chagas, Leishmaniasis o tuberculosis no relacionada con HIV) es recomendable que revise LILACS seguramente va a encontrar más “evidencia” que en otras bases de datos. El numero de revistas argentinas supera el centenar y muchas poseen el vinculo a la pagina web que ofrece su texto completo. En Internet acceso gratuito por BIREME: http://www.bireme.br/iah2/homepagee.htm En esta dirección también puede realizar búsquedas en Medline en castellano. Embase: producida por el grupo Elsevier, que indexa 3.500 revistas de 70 países distintos. Las diferencias más significativas con MEDLINE se centra en distinta cobertura geográfica. EMBASE contiene mayor número de revistas europeas que MEDLINE -un 53% del total-. En cuanto al número de revistas españolas, aunque MEDLINE tiene 93 en su catálogo, sólo 32 de ellas siguen publicándose, mientras que de las 91 de EMBASE, 81 están aún en el mercado. Ambas bases recogen las revistas más utilizadas (JAMA, New England, etc...). La cobertura de las especialidades médicas es también distinta, siendo en muchos casos recomendable la consulta a ambas bases de datos si se quiere obtener una bibliografía completa. EMBASE hace especial hincapié en la información sobre medicamentos, apartado muy minoritario en MEDLINE. En Internet no hay acceso gratuito a EMBASE. Acceso por mail: http://mailbase.ac.uk/lisls-a-e/chest-embase/ CRD: Centro de revisión y diseminación de la Universidad de York. La dirección de internet es http://nhscrd.york.ac.uk/welcome.html. Aquí puede consultar las bases de datos especializadas DARE y NHS EDD y HTA. DARE (Database of Abstracts of Reviews of Effects) contiene resúmenes ampliados de revisiones sistemáticas con comentarios de los revisores que realizan una evaluación crítica del trabajo al final. NHSEED (NHS Economic Evaluation Database) cuenta con evaluaciones económicas y HTA (Health Technology Assessment Database) se orienta a evaluación de tecnologías. Existen meta-buscadores que buscan simultáneamente en varios sitios a la vez. Ej: TRIP en Internet: http://www.tripdatabase.com Una salvedad importante es que casi toda la información de alta calidad actualmente disponible está en idioma inglés. Las bases de datos que se describen no son todas las disponibles, le sugerimos visitar esta dirección de la Universidad Autónoma de Madrid donde podrá encontrar un directorio de bases de datos de ciencias de la salud: http://biblioteca.uam.es/paginas/Medicina/enl_med-bases.html Como resumen orientativo se puede usar un método de jerarquización conocido como “4s” que tiene en su base a los estudios originales, seguido de los estudios de revisión, sinopsis de estudios seleccionados, para terminar con los sistemas de decisión asistido por computadora. Para la solución de problemas de la practica se sugiere ir de arriba hacia abajo: Sistemas Sistemas de decisión asistidos por computadora Sinopsis Resúmenes en revistas basadas en la evidencia Síntesis Revisiones sistemáticas Estudios Artículos originales • ¿Cómo Buscar? Vamos a describir cómo buscar artículos primarios en forma computarizada con orientación al uso de Medline. Una buena estrategia de búsqueda implica haber construido una pregunta clínica adecuada. A partir de la misma, se sugiere realizar los siguientes pasos: 1. Listar palabras claves: De cada uno de los cuatro componentes saldrán palabras claves para la búsqueda. Se recomienda pensar en posibles sinónimos para cada una. En el componente Población, pensar alguna característica que debería estar ausente. Ejemplo: Se encuentra frente a un paciente con Sarcoma de Kaposi (que frecuentemente se asocia al SIDA) pero es HIV negativo. La población que le interesa es negativa para SIDA. 2. Traducirlas si fuera necesario. Indispensable si va a buscar en Medline. 3. Decidir uso del operador lógico "OR": Cuando listó palabras que son sinónimos, lo correcto es unirlas con este operador. Cuando utiliza “OR” el motor de búsqueda va a recuperar los artículos que digan una u otra o ambas palabras unidas por este operador lógico. Ejemplo: "Acute Miocardial Infarction" OR AIM. Se recuperarán artículos que digan sólo "Acute Miocardial Infarction", se recuperarán los que sólo digan IAM y los que tengan ambos términos. Note que a pesar que "Acute Miocardial Infarction" tiene más de una palabra lo consideramos un único término. El uso de comillas permite identificar términos formados por varias palabras y es un recurso que puede utilizar cuando realiza las búsquedas. Para evitar tener que identificar todos los posibles sinónimos de una palabra es que se sugiere el uso de tesauro en Medline. Los téminos MESH son único para cada definición. Por ejemplo: si Ud está buscando información sobre “Accidente Cerebrovascular” seguramente se le ocurrirá que uno de los términos en inglés sería “stroke”. Sin embargo, Stroke no es un término MESH, para indexar artículos de este tema los revisores utilizan “cerebrovascular accident”. Esto significa que aunque los autores denominaran Stroke a la patología que estaban presentando, en el campo MESH aparecerá como “cerebrovascular accident”. El usar en la búsqueda términos MESH ahorra mucho tiempo al evitar la búsqueda de todos los sinónimos posibles. Sin embargo, no elimina este trabajo. Hay palabras que no son sinónimos exactamente pero pueden serlo para la pregunta que Ud. formuló. Por ejemplo: SIDA y HIV no son sinónimos (cada una tienen su definición) pero para su pregunta puede ser que le interesen tanto artículos que hablen de uno, de otro o de ambos por lo que se comportan como sinónimos. 4. Decidir uso del operador lógico "NOT": Para excluir las características de la población que deben estar ausente es correcto usar "NOT". Ejemplo: siguiendo el ejemplo dado anteriormente, la búsqueda correcta incluiría la combinación de “Kaposi NOT AIDS”. De esta manera recuperaría artículos que digan Kaposi solamente. Los que digan Kaposi y AIDS en el mismo artículos no serán incluidos. 5. Unir los diferentes componentes de la pregunta con el operador lógico "AND". Al unir dos términos con AND el resultado será recuperar artículo que tengan ambos. Si aparece uno solo de los términos, ese artículo no será recuperado. Utilice el esquema, redacte la pregunta en el área violeta y a partir de la misma realice el listado de palabras claves en los rectángulos inferiores. RETOME EL CASO CLINICO CON EL QUE ELABORO SU PREGUNTA CLINICA Y SELECCIONE LAS PALABRAS CLAVES Y LOS OPERADORES PARA COMBINARLOS ANATOMIA DE LA PREGUNTA CLINICA Y ESTRATEGIA PARA LA BUSQUEDA BIBLIOGRAFICA 1. Redacte una pregunta clínica siguiendo la guía de contenidos de las flechas: Población (pacientes) Exposición o Intervención Control o Comparación Resultado (outcome) 2. Realice una lista de palabras claves relacionadas con cada contenido anterior. ---------------------------------- ---------------------------------- ---------------------------------- ---------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- --------------------------------- 3. Elija los operadores lógicos adecuados para combinarlas. ¿Qué Buscar? Qué buscar surge de la pregunta que se planteó. La lectura crítica comienza desde la búsqueda bibliográfica. Le va a interesar leer estudios con diseños que aporten la mejor evidencia al tipo de pregunta que formuló. La idea es recuperar de la búsqueda los artículos más relevantes. Si se publican miles para su tema no querrá perder tiempo leyendo cartas de lectores, por ejemplo. Puede sumar a las palabras claves ya seleccionadas las que definan el diseño que le interesa (Tabla X) Tabla X: Estudios que contribuyen a contestar preguntas clínicas. Examen Clínico Prospectivo, comparación ciega con “regla de oro” Prueba diagnóstica Prospectivo, comparación ciega con “regla de oro” Pronóstico Estudios de cohorte > Casos y Control > Serie de caso Terapéutica Trabajos controlados randomizados Etiología / Daño Estudios de cohorte > Casos y Control > Serie de caso Prevención Estudios de cohorte > Casos y Control > Serie de caso Costo Análisis económico • • • • • Si su pregunta es sobre Terapéutica, buscaría inicialmente una revisión sistemática (meta-análisis) o un ensayo clínico. La mejor estrategia sería iniciar la búsqueda de un meta-análisis en la Colaboración Cochrane. Si su pregunta es de pronóstico, posiblemente le interese encontrar un estudio con seguimiento (Cohorte). Si su pregunta es sobre un método de Diagnóstico, le va a interesar compararlo contra el test de referencia para tener los valores de sensibilidad y especificidad. Si su pregunta es de Etiología o Daño, dado que la frecuencia de eventos adversos suele ser muy baja, posiblemente sólo pueda esperar encontrar un buen estudio de Casos y Controles. Las guías clínicas y las revisiones sistemáticas o metanálisis pueden contribuir a contestar preguntas de diferente índole. Posiblemente le resulte difícil decidir cómo hacer esto pero no se preocupe, un filtro metodológico lo puede hacer por Ud. ¿Qué es un Filtro Metodológico? Son estrategias de búsqueda diseñada por expertos bibliotecarios que busca seleccionar determinados diseños. Se adosan a la estrategia elegida por el interesado en realizar la búsqueda bibliográfica de tal manera que “filtran” los estudios a aquellos que aportan mejor evidencia para la pregunta formulada. Ej: Filtro metodológico para estudios diagnósticos: "sensitivity and specificity" [mh] OR "sensitivity" [tw] OR ("diagnosis" [sh] OR "diagnostic use" [sh] OR "specificity" [tw]). Como puede apreciar, incorpora palabras como Sensibilidad y Especificidad a la búsqueda. Los filtros tienen a favor que presentan mejores resultados que la estrategia que puede construir un médico asistencial. Además se puede elegir maximizar sensibilidad de la búsqueda (implica que no se escapa ningún artículo importante pero puede recuperar algunos de baja calidad) o maximizar especificidad de la búsqueda (recupera menos artículos pero de mejor calidad). ¿Cómo buscar con Filtros en Internet? Un lugar donde puede buscar facilmente con filtros es en el "Clinical Queries" de PubMed. Sólo requiere que pueda clasificar su pregunta (terapéutica, diagnóstico, etiología o pronóstico), maximizar sensibilidad o especificidad y colocar las palabras claves (Subject Search) que identificó (inicie con las 2 más importantes). http://www.ncbi.nlm.nih.gov/entrez/query/static/clinical.html Otro sitio donde fácilmente se accede a filtros en Internet es la página “RafaBravo”. Se ingresa con la dirección especificada abajo pero termina buscando en PubMed. Es más amigable porque está en castellano. Tiene filtros para buscar revisiones sistemáticas, guías de práctica clínica y para preguntas de tratamiento, diagnóstico, pronóstico, etiología, examen físico y reacciones adversas. http://www.infodoctor.org/rafabravo/pubmedes.html La manera más eficiente de responder preguntas específicas es comenzar con un recurso de MBE “prefiltrado”. La Cochrane Library, Best Evidence, Clinical Evidence, son actualizados regularmente con estudios clínicos de buena calidad metodológica. Para preguntas de tipo general son de utilidad las versiones electrónicas de libros de texto como UpToDate y Scientific American Medicine que proveen información general de diversos temas, así como respuestas a preguntas específicas. Si la estrategia fue correcta, conseguirá menos de 10 artículos que pueda leer para decidir la repuesta a su pregunta: ¡SUERTE! Ahora vuelva a reflexionar sobre nuestra encuesta inicial 1.-Cuando tenga dudas sobre sus enfermos que método de obtención de información intentará utilizar (ordenar de los mas usados a los menos usados Lee libros de texto generales Lee libros de texto especializados Recurre a su archivo bibliográfico Realiza pedidos bibliográficos en la biblioteca realiza pedidos bibliográficos a otros colegas consulta la opinión a otros colegas Revise sus respuestas iniciales TERCER PARTE: Evaluación de artículos Autor: Marina Khoury1. 1. Médica. Concurrente del Centro de Investigaciones Epidemiológicas. Academia Nacional de Medicina. Buenos Aires. Argentina. A. CÓMO EVALUAR EN FORMA CRÍTICA LA EVIDENCIA Una vez que el médico ha identificado estudios relevantes utilizando técnicas de búsqueda de información ya descriptas, debe tomar la decisión de creer o no en esa información. También debe decidir cómo aplicarla con exactitud y eficacia al cuidado del paciente. Esto implica comprender la magnitud del impacto de un tratamiento, la utilidad relativa de diferentes pruebas diagnósticas, el grado de importancia de los determinantes pronósticos de una patología, etc. Evaluar de manera crítica los documentos encontrados implica determinar su validez (cercanía a la realidad) y utilidad (aplicabilidad clínica) Para decidir si un artículo es apto para ser aplicado en la práctica asistencial, debemos considerar entonces: • ¿Es válida la evidencia del estudio? En otras palabras, se evitaron aceptablemente posibles sesgos en el estudio? Se evalúa la validez interna del mismo. Para cambiar una conducta médica, una intervención terapéutica, preventiva o diagnóstica no sólo se debe haber evaluado en un estudio válido sino que debe haber demostrado, además, su utilidad. La magnitud del impacto de la supuesta intervención o exposición a un factor se puede evaluar respondiendo la pregunta: • ¿Los resultados del estudio son importantes? En este punto es donde corresponde reflexionar sobre la significación estadística de los resultados. Sin embargo, no debiera dejarse de lado la significación clínica de los mismo. Ejemplo: Una diferencia en la mortalidad donde en el grupo tratado fallecieron un 2% de los pacientes y en el grupo control murieron un 3% puede informarse con una “p” significativa si el estudio es de gran cantidad de pacientes. La pregunta sería: ¿es clínicamente significativa esa diferencia?. Aún la mejor evidencia dará un resultado cuantitativo relacionado con la pregunta. Este resultado es información que ayuda a la toma de decisión clínica pero no debe tomarse como "la decisión en sí misma". Para aplicar los resultados válidos e importantes de un artículo en un paciente, debemos preguntar: • ¿Se pueden aplicar los resultados del estudio al cuidado de mi paciente? En cierta forma este aspecto se relaciona con la validez externa del estudio y con las preferencias de los pacientes. Los interrogantes relacionados con validez externa tienen que ver con la definición de población y la descripción de las técnicas del estudio. Ejemplos: - ¿Es el paciente que generó la pregunta similar a los del estudio? ¿El paciente cumple con los criterios de inclusión y exclusión? Recordar evaluar en forma personalizada pensando aquellas intervenciones o estudios que el paciente tiene contraindicados. - ¿Las técnicas que se utilizaron son reproducibles en mi medio? ¿Las técnicas que se utilizaron en el estudio son parecidas a las que se realizan en mi lugar de trabajo? ¿Dispongo de personal capacitado para realizarlas? Es fundamental que la práctica lleve a adaptar los estudios científicos al paciente y no al revés. B. EVALUACIÓN CRÍTICA DE ESTUDIOS CON INTERVENCIONES: Las intervenciones pueden ser de tratamiento o preventivas (tamizaje o screening) y el diseño clínico que mejor estudia intervenciones es un ensayo clínico controlado. B.1. Ensayos clínicos controlados: El ensayo clínico controlado es, en esencia, un experimento. El objeto de un experimento es la creación de circunstancias en las que únicamente se varía un factor manteniendo constante (controladas) el resto de las propiedades, lo cual nos permitirá asociar el cambio observado a ese único factor que se ha modificado. Ocurre, no obstante, que en las ciencias biomédicas jugamos con un número elevado de propiedades y que la variabilidad es la regla y no la excepción. Debemos tener en cuenta tres aspecto importantes. Primero, que no existen dos individuos iguales (variabilidad interindividual). Esto significa que no hay dos individuos que ante un mismo estímulo respondan de manera idéntica. Por ello, se necesita investigar un número “adecuado” de sujetos, de forma que la respuesta medida es en realidad la "respuesta promedio" de los sujetos que hemos estudiado. Segundo, que existen variaciones en el estado de la salud de los sujetos que son cíclicas o enfermedades que son autolimitadas (carácter cíclico o autolimitado de las enfermedades). Esto es, las enfermedades por si solas pueden mejorar y empeorar en un período de tiempo sin que medie intervención alguna. Se hace necesario por tanto disponer de un “grupo control” al que no administraremos el tratamiento. Y tercero, que parte del cambio observado no se debe al efecto farmacológico del fármaco (o de otra intervención), sino al efecto psicológico conjunto que tiene el consumo de la forma farmacéutica (o de otra intervención) y la presencia del médico (efecto placebo y heterosugestión). Resulta necesario, por tanto, que al grupo control se le administre una sustancia farmacológicamente inactiva o bien otro tratamiento, lo cual inducirá también efecto placebo; y este grupo control sea tratado con igual atención por el médico, lo cual inducirá también heterosugestión. Así y solo así podremos tener la “seguridad” (en ciencia no hay seguridad) de que la diferencia observada entre ambos grupos se debe solo y únicamente al factor que los diferenciaba. Y este factor no es la administración de la forma farmacéutica, la cual se ha administrado a ambos grupos, sino el consumo del principio activo que únicamente ha ingerido un grupo. Por tanto, en un ensayo clínico controlado para evaluar una forma farmacéutica los sujetos deben ser, como mínimo, distribuidos en dos grupos: A uno se la administrará la forma farmacéutica que contiene el principio activo, y al otro se le administrará idéntica forma farmacéutica la cual no contendrá principio activo o podrá contener el principio activo del tratamiento de referencia. Y ambos grupos deberán ser atendidos por el médico durante toda la duración del ensayo de idéntico modo. Comparabilidad de los grupos al inicio del ensayo. La distribución de los sujetos en los dos grupos debe garantizar que ambos sean comparables en términos estadísticos. Esto es, no deben existir diferencias significativas en la distribución de variables básicas como edad, sexo, antecedentes patológicos, etc... (sobre todo con aquellas que se relacionan con las variables en estudio) entre los grupos. Todas y cada una de las variables que se nos puedan ocurrir deben estar balanceadas entre ambos grupos. Para ello, el único método que garantiza que ambos grupos sean comparables por todas y cada una de las variables que potencialmente pudieran afectar al tratamiento es la distribución al azar de los sujetos (Aleatorización). Importante: No confundir “aleatorización” con “Muestreo aleatorio”. En los ensayos clínicos, las muestras suelen ser consecutivas (no hay muestreo) pero para asignar a los diferentes grupos de tratamiento se utiliza el azar (aleatorización). La asignación al azar de los sujetos en los grupos es la principal fortaleza de los estudios experimentales frente a los restantes diseños epidemiológicos, en los que NUNCA podremos tener la seguridad de que los grupos sean comparables. Además debemos tener en cuenta que no es suficiente con la aleatorización de los sujetos para la formación de los grupos, sino que es también necesario que el número de sujetos aleatorizados sea “grande” para garantizar que la aleatorización funcione. En muestras pequeñas los grupos obtenidos como resultado de una aleatorización pueden ser no comparables sólo por azar. Antes de avanzar, nos tendremos que detener en el concepto de “variable” en el marco de una investigación con método estadístico. Las Variables son propiedades que miden diferente en los integrantes de una Población. Es decir, una propiedad que no es constante. Los valores posibles que puede tener una propiedad pueden ser nombres (categorías) o números. Es suficiente con que en diferentes individuos de una población una propiedad pueda admitir al menos 2 posibilidades (valores) para que sea considerada variable. Respecto al problema en estudio, las variables se pueden clasificar en: Variables en Estudio: son aquellas sobre las que se busca información. Cuando el problema está correctamente planteado, la/s variable/s en estudio se puede/n deducir a punto de partida del objetivo. Variables Irrelevantes: son aquellas que al estado actual del conocimiento no tienen relación con el problema en estudio. Por ejemplo: si alguien estudia la relación entre tabaquismo y cáncer de pulmón, seguramente variables como el color de ojos o cuánto calza la persona se pueden considerar “irrelevantes” para el problema. Variables Intervinientes: son aquellas variables que al estado actual de los conocimientos, sin ser las variables en estudio, tienen relación con el problema planteado. Por lo tanto son aquellas que pueden modificar los resultados de la investigación (fuentes de sesgo). Para evitar esto el investigador debe identificarlas para poder controlarlas. Hay dos tipos de variables a controlar que conviene describir: confundidor y modificador de efecto. Confundidor. Dada una relación entre una exposición o intervención -posible factor de riesgo (FR)- y un evento (E), se considera factor confundidor (FC) a un tercer elemento que se asocia con la exposición en la población seleccionada al mismo tiempo que se comporta como factor de riesgo para el evento. Figura: El Confundidor (FC) se asocia al factor de riesgo (FR) y al Evento (E) Ejemplo: En un estudio donde se intenta evaluar si el tomar café (FR) se asocia en enfermedad coronaria (E) el tabaquismo se comportaría como un factor de confusión, dado que hay una relación entre tabaquismo y enfermedad coronaria (Relación FC-E) y es posible que las personas que fuman tomen más café (relación FCFR). Si no se controla tabaquismo, puede resultar que las conclusiones no sean válidas porque se cometería un sesgo por confundidor. Modificador de efecto o Interacción. Dada una relación entre una exposición y un evento, se considera Modificador de Efecto (ME) a un tercer elemento que puede no asociarse con la exposición en la población seleccionada pero se asocia con el evento. La presencia del modificador de efecto provoca que la expresión del evento tenga diferente frecuencia. Figura: En el estudio de un factor de riesgo (FR) el modificador de efecto (ME) puede hacer que el evento (E) se presente en diferentes grados según esté presente o no. Ejemplo: En un estudio donde se evaluaba si un tratamiento hormonal (hormona femenina) era útil para mejorar una lesión cutánea, se evaluó el efecto en todo el grupo (mujeres y varones en conjunto) cuando era lógico esperar que las mujeres respondieran mejor que los hombres por las características del medicamento. Se obtuvo la conclusión que el tratamiento no es efectivo. Sin embargo, si se hubiera analizado a los grupos de mujeres y varones por separado se podría haber observado que el tratamiento era efectivo en las mujeres pero no en los hombres. Hay diferentes formas de controlar estas variables: 1. Durante la planificación se puede utilizar la restricción, es decir ponerlas como criterios de exclusión al definir la Población Blanco. De esta manera se transforman en constantes para el estudio. En el ejemplo anterior: si se define como criterio de exclusión el tabaquismo, esta propiedad queda controlada porque en la muestra se comporta como constante (ninguno fuma). 2. La estratificación de la muestra también permite controlar confundidores y modificadores de efecto. Se incluyen grupos (estratos) definidos por el valor de una variable y se analizan los datos en cada grupo por separado. En el ejemplo anterior si se toma una muestra estratificada por tabaquismo, se analizará por separado a los tabaquistas de los no tabaquistas y, en cada estrato la situación se comporta como constante por lo que queda controlada. 3. La aleatorización es otra forma de controlar el efecto de variables de confusión. Lo interesante es que funciona para las conocidas y las desconocidas. Si todas las variables tienen una distribución similar en los diferentes grupos en estudio, la relación Factor de confusión-Factor de exposición no existe y por lo tanto el confundidor queda controlado. La aleatorización protege del sesgo de selección al independizar del investigador, la asignación a los grupos de intervención. El sesgo de selección en este caso daría por resultados grupos no comparables. Los “Ensayos Clínicos Controlados no Aleatorizados” son sensibles a cometer sesgos de selección. En material y métodos los autores deben describir la técnica de aleatorización. Para lograr sus fines, la aleatorización tiene que ser efectuada con un método seguro e “impredecible”. Esto significa que los investigadores no puedan anticipar a qué grupo va a ingresar el paciente previo a la incorporación. La inclusión de los participantes debe registrarse antes de aleatorizar. Por ejemplo: Ud. pertenece a un grupo de investigación que está llevando adelante un ensayo clínico y cree sinceramente que la intervención en estudio es beneficiosa. Se está utilizando asignación alternada (uno intervención / uno placebo). El último paciente que ingresó presentó una cefalea típica de la intervención en estudio. Por lo tanto, Ud. ya sabe que el próximo paciente a ingresar va a ir a la rama placebo (la técnica fue predecible). Le toca ingresar a un pacientes que cumple los criterios de población objetivo y resulta ser una persona muy querida por Ud. y cree se podría beneficiar si recibe la intervención. ¿Podrá incorporarlo igual sabiendo que va a recibir placebo? Los métodos de asignación predecibles generan sesgos de selección. Importante: • Métodos predecibles o violables: arrojar moneda / bolilla color / asignación alternada / fecha nacimiento / N° historia clínica / N° documento. • Métodos impredecibles y seguros: sobre opaco cerrado / sobre opaco cerrado y 3ª persona / tratamientos numerados / computadora local / Fax/Telex / Teléfono. • Métodos especiales de aleatorización: Aleatorización en bloques: se asigna igual cantidad a cada grupo pero en grupos pequeños (bloques de 4, 6, 8, etc..) Asegura similar cantidad de participantes en cada grupo no importa en qué momento se detenga el estudio. Aleatorización Estratificada: Generalmente los estratos se definen de acuerdo a variables pronósticas con fuerte influencia sobre la variable de resultado. Asegura que los grupos estén balanceados por esa variable. Permite analizar los resultados por subgrupos. Además de la aleatorización de los sujetos, será necesario administrar al grupo control una forma farmacéutica idéntica, aunque inactiva o con el fármaco de referencia, y que el paciente no sepa si está siendo tratado con el principio activo o con el placebo o fármaco de referencia, esta técnica de enmascaramiento se denomina simple ciego. De este modo, al comenzar el ensayo podremos tener la “seguridad” de que ambos grupos son comparables. Comparabilidad de los grupos durante el ensayo. Si el equipo médico (médicos, personal de enfermería, técnicos de laboratorio…) conoce si el sujeto está siendo tratado con principio activo o con placebo podrían consciente o inconscientemente mostrar un distinto comportamiento según el sujeto formase parte de uno u otro grupo (periodicidad en las revisiones, pruebas diagnósticas solicitadas o distinto trato con el sujeto). Este distinto comportamiento será percibido por los sujetos produciendo distinta heterosugestión, y así durante el ensayo los grupos perderían su comparabilidad. Tanto el grupo con la intervención en estudio como el o los grupos control debieran recibir el mismo seguimiento, sólo deben diferenciarse por la intervención en estudio. Esto permite evitar "co-intervenciones" que podrían ser motivo de diferencias entre los grupos pero no debidas a la intervención evaluada. Ejemplo: si al grupo con la intervención la enfermera lo visita más seguido o se le realizan más estudios o controles que al grupo control, se están realizando co-intervenciones que pueden determinar mejores resultados en dicho grupo no relacionadas con la intervención en estudio. Para evitar esto el equipo médico no debe saber a que grupo están asignados los sujetos lo cual asegurará que todos los sujetos reciban durante todo el ensayo exactamente las mismas atenciones, esta técnica de enmascaramiento se conoce como doble ciego. No obstante, pueden existir situaciones en las que en la práctica el enmascaramiento no tiene sentido o es infructuoso. Los procedimientos quirúrgicos no se enmascaran fácilmente o no es ético hacerlo. El sabor o los efectos indeseables de los medicamentos constituyen un indicio para el paciente o para el médico, o para ambos. En estos casos es útil que otro evaluador, que no está involucrado en el seguimiento de los sujetos y que ignora la medicación administrada, realice "a ciegas" la evaluación de la respuesta, esta técnica de enmascaramiento se denomina triple ciego. Para asegurar que se mantiene la comparabilidad de los grupos es muy importante un seguimiento completo de los individuos ingresados. Las pérdidas en el seguimiento atentan contra la validez interna del estudio. Pérdidas diferentes en los grupos introducen sesgo de selección. Se acepta que no debería perderse más de 20% de los reclutados. El seguimiento es independiente del cumplimiento del tratamiento o “adherencia” a la intervención (en inglés: compliance) que los investigadores deben registrar de manera adecuada. Una baja adherencia al tratamiento puede determinar resultados no significativos en el estudio aunque la droga tenga el efecto estudiado. El objetivo del estudio. Los Ensayos clínicos controlados y aleatorizados generalmente evalúan la "Eficacia" de una intervención. También pueden medir "Efectividad". Eficacia: Es el efecto de la intervención en “situaciones ideales” o de laboratorio. El contexto de un ensayo clínico controlado aleatorizado se considera una situación ideal dado que los participantes están más atendidos y evaluados que en situaciones asistenciales habituales. Efectividad: Es el efecto de la intervención en condiciones operacionales (en la vida real). Aunque no se plantee como un objetivo siempre que se evalúe eficacia o efectividad de una intervención los investigadores deberán registrar los posibles eventos adversos de la intervención, si es posible, evaluar la “seguridad” de la intervención. Las decisiones de utilizar una intervención deben basarse en valorar riesgo/beneficio. Si el estudio no incluye los riesgos es imposible de valorar la ecuación. Algunos autores diferencian entre ensayos clínicos Explicatorios y Pragmáticos. • Ensayos Clínicos Explicatorios: Se denominan de esta manera a aquellos que evalúan eficacia generalmente de una intervención seleccionada. Los Ensayos Clínicos que miden eficacia son los diseños que más criterios de exclusión suelen tener (Población muy seleccionada). Esto incrementa la validez interna del estudio aunque tiene la desventaja de sacrificar validez externa. • Ensayos Clínicos Pragmáticos: Se trata de estudios que evalúan efectividad. Generalmente evalúan Intervenciones complejas. Definen poblaciones más "Reales"(poco seleccionadas). Los Ensayos Clínicos que miden efectividad suelen tener pocos criterios de exclusión. Buscan optimizar la validez externa. Diseños Hay diferentes tipos de diseños de ensayos clínicos controlados. El más reconocido es el de "grupos paralelos" (Ver Figura 1). Los grupos logrados por la aleatorización se mantienen durante todo el estudio. Puede haber un período de “pre-inclusión” (run in) previo a la aleatorización donde se realizan mediciones basales y se evalúa adherencia al tratamiento. Una estrategia para aumentar la validez interna es que si en el período de "run in" la adherencia es baja, el pacientes se excluye y no ingresa a la aleatorización. No siempre se puede utilizar período de “pre-inclusión”, no es apto para patologías infecciosas agudas, por ejemplo. El "Diseño Cruzado" (Ver Figura 2) se caracteriza por el cruce de los pacientes. Los que inicialmente recibieron la intervención, pasan a recibir la intervención control y viceversa. Ambos grupos reciben los dos tratamientos, pero en distinto orden. El orden se asigna aleatoriamente. Previo al cruce suele haber un período de lavado ("Wash out") para eliminar el efecto de la medicación. Este diseño es aplicable sólo a patologías crónicas que se controlan pero no se curan. Ejemplo: Para intervenciones con efectos transitorios como tratamientos analgésicos, hipolipemiante, etc... En el diseño con “retiro de una rama” (Withdrawal), los sujetos de investigación reciben la intervención en estudio en un período de inclusión ( “lead in”), aquellos que responden a la intervención, son asignados al azar al grupo intervención o el control. Este diseño no es apto para medir eficacia dado que cuantifica el efecto de la intervención pero sólo en el grupo que responde. Es un diseño adecuado cuando se evalúan efectos adversos dado que sólo reciben la medicación aquellos que más se benefician. El "Diseño factorial" (Ver Figura 3) permite probar más de una hipótesis en el mismo estudio. Cuando se intenta evaluar la eficacia de dos o más drogas solas o combinadas puede ser el de elección. Se efectúan aleatorizaciones sucesivas. Ejemplo: Primero se aleatoriza a tratamiento A o placebo. Luego, en cada grupo se aleatoriza a tratamiento B o placebo. Un grupo control contemporáneo puede recibir placebo, otro tratamiento o ninguna intervención pero siempre los resultados serán más válidos que si el grupo control no es seguido en el mismo tiempo. Los estudios con “controles históricos” tienen la limitación de la falta de control de co-intervenciones. Es interesante comentar que, de acuerdo al objetivo del estudio, puede ser adecuado utilizar aleatorizaciones a nivel grupal. Hay intervenciones que no pueden evaluarse aleatorizando individuos, fundamentalmente cuando producen un "efecto grupal", más que individual. Algunos ejemplos de intervenciones con “efecto grupal”: Introducción de guías de práctica clínica, Intervención para reducir polución ambiental, Intervenciones educacionales, etc... En ese caso, pueden aleatorizarse grupos (Ej: hospitales, comunidades, etc...). B.2. Guías de evaluación crítica de estudios sobre tratamiento o prevención 1. ¿SON VALIDOS LOS RESULTADOS DEL ESTUDIO? a. GUIAS PRIMARIAS a.1. ¿LA ASIGNACION DE PACIENTES FUE ALEATORIZADA? La importancia de la aleatorización (randomización) es que asegura, si el tamaño de la muestra es suficientemente grande, que los determinantes conocidos y desconocidos de resultados son distribuidos uniformemente entre los grupos. Controla posibles sesgos de selección que podrían cometerse si el o los médicos tratantes decidieran qué intervención realizar. a.2. ¿FUE EL SEGUIMIENTO LO SUFICIENTEMENTE LARGO Y COMPLETO? El tiempo apropiado dependerá de la variable de resultado a comparar. Se debe comparar con el tiempo en el que se estima aparecerán los eventos. Ejemplo: puede ser suficiente 7 días si el evento es el desarrollo de insuficiencia renal aguda luego de un estudio con contraste iodado o resultar insuficiente si es de un año cuando el evento en estudio es infarto en un estudio de factores de riesgo para enfermedad coronaria. Cada paciente que entró en el ensayo debe ser incluido en el análisis. Si esto no se hace, o si un número sustanciales de pacientes se informan como "pérdidas de seguimiento", la validez del estudio será cuestionable. Las pérdidas de seguimiento no se deben considerar que pueden ser causadas por el azar. Generalmente la pérdida de seguimiento se relaciona directamente con el evento en estudio. Estos pacientes a menudo tienen pronóstico diferente de aquellos que completan el seguimiento. Pueden perderse porque sufrieron los eventos adversos (muerte) o porque están bien (y no volvió a la clínica para ser evaluado). Los lectores pueden decidir cuando la pérdida es excesiva. En algunos ensayos con resultados positivos (diferencias significativas) se recalculan las estadísticas bajo la asunción que todos los pacientes que se perdieron del grupo tratamiento evolucionaron mal, y todos los perdidos del grupo control evolucionaron bien (el peor escenario). Si las conclusiones del ensayo no cambian, entonces la pérdida no era excesiva. Si las conclusiones cambian, la fuerza de la inferencia se debilita (es decir, menos confianza puede ponerse en los resultados del estudio). En este caso, la pérdida de seguimiento fue significativa no importa que fuera inferior al 20% de la muestra. a.3. ¿LOS PACIENTES FUERON ANALIZADOS EN LOS GRUPOS A LOS QUE FUERON ALEATORIZADOS? Como en la práctica de rutina, los pacientes en los ensayos aleatorizados se olvidan a veces de tomar su medicina o incluso negarse al tratamiento. Tales pacientes que nunca realmente recibieron su tratamiento asignado: ¿deben excluirse del análisis para la eficacia? Las personas que no toman su medicación (baja adherencia) presentan diferente evolución que los pacientes dóciles, incluso cuando reciben placebo. Excluyendo a los pacientes no-dóciles puede destruirse la comparación imparcial proporcionada por la aleatorización (randomización). El análisis recomendado es utilizando la técnica “por Intención de tratar” (Intention to treat). Se compara la incidencia del evento en los individuos aleatorizados a recibir la intervención experimental, con la incidencia en los individuos aleatorizados a recibir la intervención control, independientemente que algunos del grupo intervención no hayan recibido la intervención o hayan recibido la intervención control, algunos del grupo control hayan recibido la intervención y de las pérdidas en el seguimiento. Preserva los grupos tal cual fueron aleatorizados para mantener la comparabilidad de los grupos. Cualquier cambio en los grupos puede introducir sesgo porque se pierde el beneficio de control de confundidores dados por la aleatorización. b. GUIAS SECUNDARIAS b.1. ¿ESTABAN LOS PACIENTES, SUS MEDICOS Y PERSONAL DEL ESTUDIO CIEGOS AL TRATAMIENTO? Si los pacientes, los médicos, u otro personal del estudio que esté midiendo las respuestas al tratamiento conocen a qué grupo pertenecen, es probable que tengan una opinión sobre la eficacia de la intervención y esto puede modificar otros aspectos del tratamiento sistemáticamente. Esto reduce nuestra confianza en los resultados del estudio. Cuando en ciertos casos que los pacientes y/o los médicos no pueden cumplir el ciego (Ej.: tratamientos quirúrgicos), usted debe valorar si los investigadores han minimizado el sesgo enmascarando a aquellos que evalúan los resultados clínicos. b.2. ¿ERAN LOS GRUPOS COMPARABLES AL INICIO DEL ESTUDIO? A los lectores les gustaría saber que los grupos tratamiento y control eran similares al momento de la aleatorización para todos factores conocidos que podrían modificar los resultados clínicos de interés. Generalmente las características basales se encuentran en la “Tabla 1” en el apartado de resultados donde se comparan los grupos obtenidos por azar. El problema aquí no es si hay diferencias estadísticamente significativas entre los grupos (en un ensayo aleatorizado uno sabe por adelantado que cualquier diferencia que ocurrió fue por casualidad) sino la magnitud de estas diferencias. Es importante evaluar si las diferencias son clínicamente significativas. Si son grandes (clínicamente diferentes), la validez del estudio puede comprometerse. No todo está perdido, hay técnicas estadísticas que permiten el ajuste del resultado. De acuerdo con esto, los lectores deben buscar documentación de similitud para las características basales pertinentes, y si las diferencias fueron sustanciales, debe notar si los investigadores realizaron un análisis que ajustó para variables no balanceadas. b.3. ¿APARTE DE LA INTERVENCIÓN EXPERIMENTAL, HUBO ALGUNA DIFERENCIA EN EL TRATAMIENTO RECIBIDO? Si un grupo recibiera un seguimiento más íntimo, los eventos podrían ser más probablemente informados, o puede tratarse a los pacientes con otras terapias que no están en estudio. Las intervenciones dignósticas o terapéuticas diferentes al tratamiento bajo estudio se comportan como “co-intervenciones” y son un problema serio cuando no se utiliza la técnica del doble ciego, o cuando la elección de tratamientos del grupo control es a discreción de los médicos tratantes. 2. ¿CUALES SON LOS RESULTADOS? 2.1. ¿SON IMPORTANTES LOS EFECTOS DEL TRATAMIENTO? ¿CUAL FUE LA MAGNITUD DEL EFECTO DEL TRATAMIENTO? La medida fundamental que se utiliza para presentar los resultados de eficacia en los ensayos clínicos es el riesgo relativo (RR). Recuerde: Incidencia en Expuestos RR = Incidencia en No Expuestos El RR (En inglés, RR, relative risk o risk ratio) mide la fuerza de asociación entre la intervención y el evento elegido para medir la eficacia (Ej: muerte, infarto, internación, etc...). El grupo expuesto en este caso será el que recibe la intervención y el no expuesto será el grupo control. El RR como razón no tiene unidades y puede tomar valores que van de cero a infinito: • Los valores entre 0 y 0.999 implican que la incidencia en los expuestos es menor que en los no expuestos. Por lo tanto el consumo del fármaco protege de la enfermedad. La exposición, el principio activo, constituye un factor protector. Por ejemplo, si la proporción de eventos en el grupo experimental es 10 % y la proporción de eventos en el grupo control es 30 %, el riesgo relativo otorgado por la intervención terapéutica es 10/30 = 0,33. Para interpretar mejor el efecto de la intervención se utiliza la reducción de riesgo relativo (en Inglés, RRR, relative risk reduction). Se calcula de la siguiente manera: RRR = (1-RR)*100 Del ejemplo anterior, 1 – 0,33=0, 67; multiplicado por 100 da 67 %. ¿Cómo se interpreta? El grupo con la intervención presentó 67% menos eventos, en términos relativos, que el grupo control. La RRR puede dar una impresión favorable de la efectividad de un tratamiento que parece muy beneficioso. Debe ser cuidadoso porque una RRR elevada puede tener un impacto absoluto pobre. Para evaluar el impacto real debe observarse también la reducción del riesgo absoluto (RRA. En inglés, ARR, absolute risk reduction o risk difference). La RRA es la diferencia absoluta en las tasas de eventos entre los grupos evaluados: RRA = Incidencia en no expuestos – Incidencia en expuestos Continuando con el ejemplo anterior donde la incidencia en no expuesto fue de 30% y la de los expuestos 10%, 30 - 10 = 20%. En términos absolutos el grupo expuesto presentó 20% menos de eventos. Esta medida de riesgo (RRA) también puede obtenerse multiplicando el RR por el riesgo inicial o basal (incidencia en los no expuestos). • El RR puede también tomar el valor 1, esto ocurre cuando la incidencia en expuestos y la incidencia en no expuestos es la misma. Esto significa que no existe asociación. El fármaco no protege de la enfermedad ni la agrava. • El RR puede tomar valores superiores a 1 cuando la incidencia en expuestos en mayor que la incidencia en no expuestos. Esto significa que el fármaco no solo no protege de la enfermedad sino que la facilita. En este caso hablamos de factor de riesgo o posiblemente, en las intervenciones, de eventos adversos. 2.2. ¿CUAL FUE LA PRECISION DE LA ESTIMACION DEL EFECTO DEL TRATAMIENTO? La verdadera reducción de riesgo nunca puede conocerse; todo lo que tenemos es la estimación proporcionada por los resultados de ensayos clínicos controlados rigurosos. El RR calculado de la manera antes descripta, corresponde a la muestra de sujetos en la que se realizó el estudio. Debemos tener en cuenta que el ensayo clínico se ha realizado sobre una muestra de pacientes. Para estimar lo que ocurrirá en la población debe calcularse un intervalo de confianza a la estimación del RR. Para hablar de lo que ocurrirá en la población total de enfermos de donde procede la muestra debemos tener en consideración el error de muestreo. Así, no podremos saber “exactamente” lo que ocurrirá sino que deberemos asumir una probabilidad de error en su determinación (generalmente se asume un error del 5%), y por tanto determinaremos una medida con un intervalo de confianza para el 95%. Esto significa que hay un 95% de posibilidades de que el valor del RR en la población se sitúe dentro de ese intervalo calculado. Ejemplos para la interpretación del intervalo de confianza del RR: RR= 0,4 (IC95%: 0.2; 0.6) En la muestra, utilizando la reducción de riesgo relativo, los tratados presentaron un 60% menos de eventos que los no tratados. En la población la reducción de eventos se encontraría entre el 80 y el 40%, con 95% de confianza. Por tanto, el tratamiento constituye un factor protector. RR=3 (IC95%: 2;4) En la muestra, por cada evento entre los no tratados con el fármaco hubo 3 evento entre los tratados. En la población por cada evento entre los no tratados con el fármaco habría entre 2 y 4 eventos entre los tratados. Por lo tanto, el tratamiento constituye un factor de riesgo (o efecto adverso en el caso de intervenciones). RR=2 (IC95%: 1-3 ) En la muestra, por cada evento entre los no tratados con el fármaco hubo 2 eventos entre los tratados. En la población, por cada evento en los que no tratados con el fármaco habría entre 1 y 3 eventos en los tratados. Es decir que en la población puede haber una relación 1:3 ó 1:2 pero podría ser 1:1. Si por cada evento en los no tratados esperamos un evento en los tratados, el riesgo es el mismo en ambos grupos. Por tanto, no podemos afirmar que el tratamiento resulte factor de riesgo ni un factor protector. Cuando el intervalo de confianza del RR incluye el “1” se dice que no existe asociación entre la exposición y la enfermedad. Es decir, que la diferencia es estadísticamente “No significativa”. En este caso si bien en la muestra los expuestos presentaron mayor riesgo no se puede decir que esto suceda en la población. RR=0.6 (IC95%: 0.2-1 ) En la muestra, utilizando la reducción de riesgo relativo, los tratados presentaron un 60% menos eventos que los no tratados. En la población, con 95% de confianza, podemos decir que la reducción de eventos se encontraría entre el 80 y el 0%. Un RR=1 equivale a una RRR=0%. Si por cada evento en los no tratados esperamos un evento en los tratados, el riesgo es el mismo en ambos grupos. Por tanto, no podemos afirmar que el tratamiento resulte protector, ni factor de riesgo tampoco. Nuevamente, cuando el intervalo de confianza del RR incluye el “1” se dice que no existe asociación entre la exposición y la enfermedad. Es decir, que la diferencia es estadísticamente “No significativa”. Nota: realmente es poco probable que el límite del intervalo de confianza dé exactamente “1” pero si el intervalo “incluye” la unidad es no significativo. Ejemplos: RR = 2 (IC95%: 0.9-3.1); RR = 0.6 (IC95%: 0.11.1) 3. ¿LOS RESULTADOS ME AYUDARAN AL CUIDADO DE MIS PACIENTES? 3.1. ¿ES MI PACIENTE DIFERENTE A LOS PACIENTES DEL ESTUDIO? El primer enfoque para estar seguro que usted puede aplicar los resultados al paciente particular que generó la pregunta es evaluar si su paciente cumple con los criterios de inclusión y de exclusión utilizados en el estudio. Si el paciente cumple los criterios de inclusión, y no viola ningún criterio de exclusión, los resultados son aplicables porque ese paciente es igual a los que ingresaron al estudio. El problema es que esta situación suele ser infrecuente. ¿Qué hacer? Un acercamiento bueno, es el que aplica criterios de inclusión rígidamente y criterios de exclusión preguntando si algunos son tan importantes, tratando de explicar la razón por la que los resultados no deben aplicarse al paciente. Muchas veces no se encontrará esa razón, y a menudo usted podrá generalizar los resultados con confianza. Por ejemplos: Si el paciente cumple criterios de inclusión y no tiene criterios de exclusión puede aplicar la intervención. Si el paciente no cumple los criterios de inclusión no debe aplicar la intervención. Si el paciente cumple los criterios de inclusión pero tiene algún criterio de exclusión responda las siguientes preguntas: -¿Hay alguna alternativa de tratamiento válida para el paciente que haya demostrado eficacia en pacientes similares? Si existe, aplique la alternativa. Si no, continúe con las preguntas. -¿El criterio de exclusión que posee el paciente, es una contraindicación del tratamiento? Si la respuesta es si, no se puede aplicar. Si la respuesta es no, pase a la siguiente pregunta. -¿Hay alguna explicación biológica por la cual se justifica pensar que la característica en cuestión puede resultar en diferencias significativas en la respuesta a la intervención? Si la respuesta es si, es cuestionable la utilización de la intervención. Si la respuesta es no, podrá aplicar el tratamiento. Lo importante de este tipo de aplicación es que tiene que tener en cuenta que la intervención no fue probada en pacientes iguales al suyo y que puede no ser eficaz en este grupo. Es por eso que se justifica sólo si no hay otra alternativa válida. 3.2. ¿SE CONSIDERARON TODOS LOS RESULTADOS CLINICAMENTE IMPORTANTES? Algunos estudios informan resultados intermedios y no resultados finales de una intervención. Por ejemplo para evaluar un hipolipemiante con el propósito de controlar el colesterol pero secundariamente reducir el riesgo cardiovascular, si se informan sólo los resultados sobre la disminución del colesterol, este será un resultado intermedio. El resultado final será posiblemente un evento coronario y, más importante aún si se reporta mortalidad (global y por causa cardiaca). 3.3. ¿EL VALOR DEL BENEFICIO DEL TRATAMIENTO SUPERA EL DAÑO POTENCIAL Y LOS COSTOS? Si los resultados del artículo son generalizables a su paciente y sus resultados son importantes, las próximas preocupaciones serán si los beneficios del tratamiento merecen el esfuerzo que usted y su paciente deben emprender. Una reducción del 25% en el riesgo de muerte puede parecer bastante impresionante, pero el impacto en su paciente y la práctica puede ser mínima. Esto se debe a que son cifras relativas. La diferencia de riesgo absoluta es superior para ver la significación clínica del efecto, sin embargo es poco utilizada. Se utiliza un concepto llamado "número necesario para tratar" (NNT) que se calcula en base a la RRA. • NNT (En inglés, NNT, number needed to treat). También se lo refiere como NTTB (Numero Necesario para Tratar y Beneficiar): Es el número de pacientes que necesitan ser tratados para lograr un resultado beneficioso adicional. Informa la cantidad de pacientes que debieran recibir tratamiento para evitar un evento. Se calcula de la siguiente forma: NNT = 100/RRA (en %) Continuando con el ejemplo dado en RRA donde la incidencia en no expuestos fue de 30% y la de los expuestos 10%. La RRA fue 20%. El NNT = 100/20= 5. ¿Cómo se interpreta? Se necesita tratar a 5 pacientes durante el tiempo de seguimiento que reporte el estudio para evitar 1 evento. Es práctico porque fácilmente se puede comparar con la tasa de eventos adversos y así evaluar relación Riesgo / Beneficio de la intervención. Ejemplo: En un estudio se evaluó un nuevo tratamiento para prevenir infartos en personas de riesgo. Si el NNT fue de 500 y el artículo describe el desarrollo de anemia aplástica severa en el 0,4% de la rama intervención. ¿El tratamiento resulta más beneficioso que perjudicial?. Piense: para evitar un infarto se requiere tratar a 500 pacientes y el 0,4% de 500 es 2. El resultado en 500 pacientes tratados sera haber evitado 1 infarto pero provocando 2 anemias aplásticas. C. EVALUACIÓN CRÍTICA DE ESTUDIOS SOBRE PRONOSTICO Cuando hablamos de pronóstico, entendemos que se intenta predecir la evolución de una enfermedad u otra circunstancia luego de su comienzo. La historia natural de una enfermedad es el desarrollo que se observa en ausencia de intervención. En la actualidad es difícil que los pacientes no reciban intervención alguna. Por este motivo es que se habla, en general, de la evolución clínica de la enfermedad, considerando el cuidado clínico básico que realizan los profesionales. El procedimiento para estudiar la evolución natural o clínica de la enfermedad es la “Observación”. Los diseños más útiles para evaluar pronóstico son estudios con seguimiento en pacientes que no reciben intervenciones específicas. C.1. Riesgo Riesgo es la Probabilidad que un "Evento" ocurra en una Población determinada en un período de tiempo definido. Incidencia es la medida de riesgo más utilizada dado que mide la proporción de nuevos casos de la enfermedad que surgen en una población en un período de tiempo determinado. Informa la probabilidad que una persona hoy sana o evento negativa, desarrolle la enfermedad (evento) en un período de tiempo determinado por pertenecer a una población definida. Los estudios prospectivos con seguimiento de pacientes en los que se excluyen a los individuos con el evento al inicio del estudio son los que informan incidencia. Ejemplo: Para estimar "Incidencia" de infecciones intrahospitalarias: se deberá realizar el seguimiento de pacientes desde su internación hasta que presente síntomas de infección o hasta el alta. De esta manera estará seguro que son nuevos casos. Realiza un estudio de seguimiento. Si bien el evento de interés la mayoría de las veces se trata de algo negativo o no deseado como una enfermedad, complicación, secuelas, muerte. En ocasiones el evento puede ser algo positivo, por ejemplo: en estudios de parejas con problemas de fertilidad un "embarazo" pueden ser el evento de interés y resulta algo positivo. Esta aclaración es para resaltar que el modelo es el mismo para estudiar eventos deseados o no deseados. Formas de calcular incidencia: • Incidencia acumulada: Es el número de casos nuevos en relación a la población expuesta para un período determinado. Se la utiliza cuando el tiempo de seguimiento es corto (ej: tiempo de internación) o cuando todos los individuos del estudio fueron seguidos por igual período de tiempo (Ej.:2 años). • Densidad de Incidencia: Esta medida de incidencia se calcula en función al tiempo de seguimiento aportado por los individuos del estudio. Es el numero de nuevos casos que ocurren por unidad de población-tiempo. Ejemplo: La incidencia del estudio fue de 10 casos por cada 1000 personas-año de seguimiento. Se calcula con un cociente donde el numerador contiene el número de nuevos casos y el denominador es la suma de tiempos de seguimiento de los individuos estudiados. Esta forma es muy practica para informar resultados cuando los tiempos de seguimiento no son uniformes para todos los participantes. El valor de una incidencia de un estudio es un resultado muestral, para estimar la incidencia en la población se requiere de los intervalos de confianza. Si se elige el nivel de confianza de 95%, los valores del intervalo obtenido se interpretan de la siguiente manera: en algún punto comprendido entre sus límites se encuentra el verdadero valor de la variable en la población con una certeza del 95 %. Ejemplo: Se intenta conocer la incidencia acumulada de accidente cerebro vascular al año en una población de hipertensos severos. El resultado en la muestra fue 5%. (IC95%:2,5-7,5). Se interpreta que tenemos 95% de confianza que el verdadero valor de dicha incidencia en la población está en algún punto entre 2,5 y 7,5%. Lo que significa que tenemos menos del 5% de probabilidades que el valor poblacional sea menor que 2,5 o mayor que 7,5%. Análisis Actuariales o de Supervivencia Se denominan Análisis de Supervivencia porque fueron pensados para la variable "Tiempo a la muerte" pero en realidad la técnica se aplica para cualquier variable dicotómica (dos valores posibles: SI / NO, PRESENTE / AUSENTE, etc...) en la que el tiempo a la misma resulta de interés principal (Ej: Tiempo a la recaída, Tiempo a la enfermedad, etc...). Ejemplos de preguntas que pueden analizarse con técnicas actuariales o de supervivencia: Cuánto tiempo transcurre hasta la recaída en pacientes con linfoma no Hodgkin de alto grado que recibieron el esquema quimioterápico NN? La variable es tiempo a la recaída. Cuál es el tiempo de supervivencia en pacientes en hemodiálisis por insuficiencia renal crónica terminal? La variable es tiempo a la muerte. Cuál es la probabilidad de seroconversión HIV en pacientes hemofílicos? La variables sería tiempo a la seroconversión. Esta técnica tiene la ventaja de poder aplicarse aún cuando los individuos de la muestra tengan diferentes tiempos de seguimiento. Cuando un individuo de la muestra fue perdido del seguimiento y hasta el momento de la última evaluación no había presentado el evento de interés, aporta información con los datos que se disponen. Estas observaciones "incompletas" (presencia de datos "Censados o Censurados") son características de los análisis actuariales y las diferencian de cualquier otro método estadístico. Requisitos metodológicos necesarios para poder aplicar estas técnicas: Punto de partida definido: debe elegirse un punto de partida que sea objetivo y aplicable en forma homogénea para todos los participantes y para un momento similar en la historia de la enfermedad. Es fundamental cuando el punto de partida es previo al ingreso del paciente al estudio. Entonces, las fechas de la primer internación, del inicio de tratamiento, etc... pueden ser inicios objetivos y aplicables de igual manera a todos. Por otro lado, el inicio de los síntomas puede ser lo suficientemente vago como para ser considerado un punto de partida apropiado. Punto Final claro y definido: sabemos que debe ser una variable dicotómica. Si se trata de muerte, no hay dudas que es un punto final definido, pero puede elegirse otra variable. La metodología no acepta episodios múltiples, períodos de exacerbación o remisión o lesiones múltiples. Hay dos características distintivas de este tipo de análisis. La primera es que los pacientes pueden incluirse en el estudio en tiempos diferentes y al final de estudio fueron observados por diferentes períodos de tiempo (En el ejemplo: año calendario). Esto requiere que para el análisis se homogenice el inicio y que el ingreso al estudio se transforme en tiempo cero para todos (En el ejemplo: años de seguimiento). 1990 Año Calendario 1991 1992 1993 1994 vivo Pte. A vivo Fallecido Fallecido 1 Años de seguimiento 2 3 4 Pte.B 5 vivo vivo Pte.C Fallecido Pte.D Fallecido La segunda es que al momento de finalizar el estudio se desconocen los puntos finales de algunos pacientes (Ej: Paciente B). Estas observaciones “incompletas” se denominan datos “Censados o Censurados”. Generalmente se informa la mediana del tiempo de seguimiento (los tiempos de seguimiento tienen distribución asimétrica con una cola larga a la derecha por lo que no corresponde informar media) y la mediana del tiempo de supervivencia. Existen 2 formas ampliamente utilizadas para informar los resultados de este tipo de estudios: las tablas de vida y el método de Kaplan-Meier. La principal diferencia es que en el primer caso los cálculos de probabilidad se realizan para períodos de tiempo fijos y en el segundo caso, los cálculos se realizan cada vez que se registra un evento (muerte). Ejemplos: Curva con Tabla de vida donde los periodos de tiempo se definieron con intervalos de 30 días. Proportion Surviving 1 .8 .6 .4 0 100 200 seguim 300 400 Con el método de Kaplan-Meier el cálculo de la función de supervivencia se realiza sólo cuando ocurre un evento. La probabilidad de supervivencia se recalcula cada vez que se presenta una muerte: Kaplan-Meier survival estimate 1.00 0.75 0.50 0.25 0.00 0 5 10 15 analysis time La estimación de la probabilidad de supervivencia en cada tiempo debería acompañarse con intervalos de confianza sobre la curva que se grafican como líneas verticales (en el gráfico se intenta ejemplificar intervalos de confianza a los 3, 6 y 9 meses de seguimiento). Muchos pacientes tienen poco tiempo de seguimiento pero los que tienen mucho tiempo de seguimiento son menos, esto explica porqué los intervalos de confianza son más anchos en las partes más bajas de la curva (el tamaño de la muestra en esos puntos es menor). C.2. Factores de riesgo y factores pronóstico: Un "Factor de Riesgo" es una variable que cuando está presente aumenta la probabilidad que un evento ocurra en una población "sana". Es decir que la presencia del factor se relaciona con mayor probabilidad de enfermar. Un "Factor Pronóstico" es una variable que cuando está presente aumenta la probabilidad que un evento ocurra en una población "enferma" (una patología en particular). Es decir que la presencia del factor se relaciona con mayor probabilidad de muerte, secuelas o complicaciones. Los estudios Analíticos Observacionales evalúan esta relación entre 2 tipos de variables: - el "Evento". - el "Factor de Riesgo" ó "Factor Pronóstico". Hay diferentes diseños utilizados para analizar factores de riesgo y factores pronósticos: Estudios de Cohorte: La característica de este estudio es que toma a una población (Cohorte) que al ingreso al estudio suelen ser "evento negativa". La ventaja principal es que permite estimar incidencia (puede estar seguro que son "nuevos casos" si ninguno tenía el evento al inicio) en expuestos y no expuestos al factor en estudio y por lo tanto permite calcular Riesgo Relativo. Se clasifica a los participantes en por lo menos 2 grupos: los expuestos al factor y los no expuestos. La exposición es independiente del investigador que sólo “observa” la realidad sin modificar nada. La limitación más importante es que son caros, llevan mucho tiempo y pueden perder gran parte de la muestra inicial durante el seguimiento. Estas limitaciones se observan sobre todo en los estudios de factores de riesgo dado que se parte población sana donde la incidencia de eventos es menor. Si las pérdidas de seguimientos son superiores al 20% hace que las conclusiones del trabajo no puedan extrapolarse a la población blanco u objetivo definida en el estudio. Presentación de Resultados en estudios de Cohorte: Riesgo Relativo (RR): (Incidencia en Expuestos / Incidencia en No Expuestos). La interpretación se resume a: Si el RR es mayor que 1: se considera un factor de riesgo Si el RR es menor que 1: se considera un factor de protección Si el RR = 1: no hay asociación entre el factor y el evento. En este caso hubo un evento en los expuestos por cada evento en los no expuestos. La incidencia fue la misma en ambos grupos. El principal problema de los estudios observacionales es que no logran grupos comparables (no hay aleatorización). Por este motivo, no se logra controlar a los confundidores en el diseño y deben controlarse en el análisis. Se suelen presentar datos ajustados cuando se trate de un confundidor y resultados en diferentes subgrupos definidos por la variable a controlar si se trata de un modificador de efecto (análisis estratificado). Cuando los confundidores no son muchos, se realiza el ajuste del RR mediante una técnica denominada Mantel-Haenszel. Cuando las variables a controlar son numerosas, se suele realizar análisis estadístico multivariable. En general lo que se utiliza cuando el evento es dicotómico es “Regresión Logística Múltiple”. Informa OR ajustados (no RR ajustados) y es por este motivo que muchos estudios de Cohorte informan OR en lugar de Riesgo Relativo. Tanto el RR como el OR ajustado informa cuántos eventos en los expuestos al factor en relación con los no expuestos se esperan cuando las variables que se utilizaron para el ajustar se mantienen constantes. Análisis Actuariales o de Supervivencia En estudios donde se evalúan posibles factores de riesgo o pronósticos y la variable de resultado es el “tiempo al evento”, nuevamente corresponde utilizar técnicas actuariales. Ejemplos de preguntas: El tiempo de supervivencia es mayor en pacientes que reciben transplante de médula ósea luego de la primer remisión que los que no lo realizan en pacientes con leucemia linfática aguda. El tiempo hasta un nuevo episodio sintomático es mayor en quienes reciben la droga XX que los que no lo hacen en pacientes con esclerosis múltiple luego del síntoma inicial. Ejemplo: Se comparan curvas de Kaplan-Meier en varones (male=1) y mujeres (male=0). Kaplan-Meier survival estimates, by maled 1.00 0.75 maled 1 0.50 0.25 maled 0 0.00 0 5 10 15 analysis time Para evaluar si la diferencia entre ambos grupos es significativa, se puede calcular un valor de “p” realizando “logrank test”. Se trata de una prueba estadística no paramétrica en la que se evalúa cuál es la probabilidad que las diferencias en la distribuciones de eventos en el tiempo se deban al azar. El valor de “p” nos informa cuál es la probabilidad que la diferencia entre las curvas se deba al azar. También puede corresponder realizar ajuste para posibles confundidores. En estos casos donde la variable de resultado es el “tiempo al evento” se suele utilizar un análisis multivariable que se denomina Análisis de regresión de Cox. El análisis de Cox informa Hazard Ratios (HR) ajustados que se interpretan como riesgos relativos. Estudios de Casos y Controles: En los estudios de casos y controles se compara la exposición a la que estuvieron sometidas un grupo de personas enfermas (casos) con la exposición sufrida por un grupo de personas sanas (controles). Por tanto, el criterio para seleccionar la población estudio es la presencia o la ausencia de la enfermedad, y no la exposición como en los estudios de cohorte. Son útiles cuando la frecuencia del evento es muy baja y hace imposibles realizar un estudio con seguimiento. La principal limitación del diseño es encontrar los controles válidos que deben ser lo más parecidos a los casos excepto por ser evento negativos. Cuando no se cumple este requerimiento suelen cometerse sesgos importantes. Generalmente se recogen todos los casos que se producen en un período de tiempo. Los controles han de provenir de la misma población hipotética de la que surgen los casos. O dicho de otra forma, los controles han de ser seleccionados entre los que, de haber desarrollado la enfermedad, serían considerados como casos. Tienen la desventaja que no hay certezas sobre que realmente la exposición anteceda al evento aunque se pregunte si había exposición previo al conocimiento de la enfermedad (podría ser que la enfermedad o evento ya existiera en forma subclínica). En el estudio de casos y controles se deben recoger los datos sobre las exposiciones objeto de interés, tanto para los casos como para los controles, con igual técnica. En los estudios de casos y controles la valoración de la exposición, de la “causa”, se realiza una vez que ya ha aparecido el efecto, ya que los grupos se forman en base en la presencia / ausencia del evento o enfermedad. Y como la “causa” siempre ha de preceder al efecto, se ha de valorar la exposición en un momento anterior a la aparición del efecto y, por tanto, también anterior a la realización de la entrevista. Una de las principales limitaciones de los estudios de Caso/Control se encuentra en el sesgo de recuerdo o de memoria. Éste surge cuando se preguntan por exposiciones en ventanas etiológicas muy alejadas del momento del diagnostico de la enfermedad en enfermedades graves (cáncer) o que supone un grave trauma psicológico (malformaciones congénitas). En estas dos últimas circunstancias los casos realizan un esfuerzo mucho mayor que los controles sanos para recordar las exposiciones. Además, la presencia o magnitud del sesgo, para una misma enfermedad, varía en función de las exposiciones, de manera que no es predecible antes de empezar el estudio. Este sesgo se produce fundamentalmente por la condición de sanos de los controles. Por ello, una forma de evitar este sesgo es seleccionar como controles a personas sanas con respecto a la enfermedad de interés, pero que sean enfermos de otras patologías y, de ser posible, con el mismo grado de gravedad. Si el interés está en el estudio de los FR de un determinado cáncer, se puede tomar como controles a enfermos de otro cáncer. Sin embargo, este tipo de abordaje siempre presenta el inconveniente de que la enfermedad de los controles puede estar relacionada, positiva o negativamente, con la exposición de interés, con lo que podremos introducir un nuevo sesgo. Otro de los aspectos a tener en cuenta a la hora de valorar la exposición es la subjetividad del entrevistador. Si un investigador (o grupo de investigadores) destina recursos, tiempo y esfuerzo a al realización de un estudio es para obtener resultados positivos: o sea, existe relación entre el FR y la enfermedad. Por ello, el investigador a la hora de entrevistar sobre la exposición a los casos posiblemente lo haga con más insistencia que a los controles, aunque sea de forma inconsciente. Para evitar este sesgo, es útil que el entrevistador se encuentre ciego respecto a la pertenencia del sujeto que entrevista al grupo de casos o de controles. Estos estudios no permiten calcular incidencia ni prevalencia del evento. Sólo se puede calcular la prevalencia del factor de riesgo en los que tienen el evento (casos) y en los que no (controles). Por esta razón es que al momento de analizar los datos no se puede calcular riesgo relativo (RR). Se utiliza un estimador del riesgo relativo denominado razón de productos cruzados ú odds ratio (OR). La forma de interpretar los resultados es leerlo como si fuera un RR. Al igual que en el caso de los estudios de cohorte, se suelen informar OR ajustados por técnica de Mantel-Haenszel o por regresión logística múltiple. Estudios de Corte Tranversal: Son estudios en los que se mide en el mismo momento la presencia del factor y la del evento. Tienen la desventaja que, como no permite establecer temporalidad, puede considerarse como factor de riesgo una variable que en realidad es consecuencia del evento. El hecho que se midan simultáneamente todas las variables da lugar a su nombre, ya que se realiza un corte transversal en el tiempo y valoramos todas las variables conjuntamente. A diferencia de los estudios de cohortes y de CC, en los que existe secuencia temporal entre la exposición y el efecto, en los estudios transversales esta no existe. Por lo tanto, se dificulta el establecimiento de relaciones causales. Así, si queremos analizar la relación entre el consumo de analgésicos y el riesgo de trastornos renales, y elaboramos un estudio transversal mediremos simultáneamente el consumo de analgésicos y la presencia de trastornos renales (TR). Si observamos una relación entre consumo de analgésicos y TR, esta relación se puede deber a que los analgésicos aumenten el riesgo de TR o a que las personas al padecer TR, debido al dolor, consuman más analgésicos. Los resultados de la asociación se informan como OR. C.2. Guía para la evaluación crítica de un artículo sobre pronostico 1. ¿SON VALIDOS LOS RESULTADOS DEL ESTUDIO? a. GUIAS PRIMARIAS a.1. ¿FUE UNA MUESTRA REPRESENTATIVA Y BIEN DEFINIDA DE PACIENTES EN UN MOMENTO SIMILAR EN EL CURSO DE LA ENFERMEDAD? Esta guía aborda dos problemas relacionados. Hasta qué punto están bien definidos los individuos en estudio, y si son representativos de la población subyacente. Los autores deben describir y especificar su criterio para establecer que el paciente tiene el desorden de interés y cómo seleccionaron su muestra. Varios sesgos relacionados con la definición de población deben tenerse en cuenta. El "Sesgo de Selección" se comete cuando los individuos de la muestra presentan alguna característica que los hacen no representativos de toda la población de interés inicial. Ejemplo: si se estudian pacientes de un centro de referencia con alta derivación de casos problemas, no será representativo de toda la población sino del espectro más grave de la misma. El segundo problema es si los pacientes están todos en un punto similar, bien definido en el curso de su enfermedad. Los autores deben proporcionar una descripción clara de la fase de enfermedad en la que los pacientes entraron en el estudio. a.2. ¿FUE EL SEGUIMIENTO COMPLETO Y LO SUFICIENTEMENTE PROLONGADO? La presencia de un factor pronóstico a menudo precede el desarrollo de un evento por un período largo, los investigadores deben seguir a los pacientes por mucho tiempo hasta descubrir los resultados de interés. Con suerte, los investigadores tendrán éxito siguiendo a todos los pacientes, pero éste a menudo no es el caso. Normalmente no se pierden pacientes por razones aleatorias. Los pacientes pueden no volver porque han sufrido eventos de interés para el estudio. Recíprocamente, pacientes que se sienten completamente saludables pueden no volver para la evaluación porque se sienten bien. ¿Bajo qué circunstancias la pérdida compromete la validez de un estudio? Es importante que usted considere la relación entre la proporción de pacientes que están perdidos y la proporción de pacientes que han sufrido el resultado adverso de interés. Cuanto mayor es el número de pacientes cuyo destino es desconocido respecto al número que ha sufrido un evento, mayor amenaza a la validez presenta el estudio. b. GUIAS SECUNDARIAS b.1. ¿FUERON OBJETIVOS Y NO SESGADOS LOS RESULTADOS UTILIZADOS? Los investigadores deben proporcionar una definición clara de resultados adversos antes del inicio del estudio. Los resultados pueden variar entre los que son objetivos y de fácil medición (muerte), a aquellos que requieren algún juicio subjetivo (infarto), a los que requieren considerable subjetividad, y puede ser a menudo difícil de medir (invalidez, calidad de vida). Para minimizar el sesgo, el individuo encargado de medir los resultados no debe saber si el paciente tenía un potencial factor pronóstico. Esto no siempre es posible, y para los eventos inequívocos como la muerte puede no ser necesario. b.2. ¿SE LLEVO A CABO UN AJUSTE PARA LOS FACTORES PRONOSTICOS MAS IMPORTANTES? Al comparar dos grupos de pacientes, los investigadores deben considerar si sus características clínicas son similares, y deben ajustar el resultado para cualquier diferencia importante. En el estudio de Framingham informaron que la proporción de ACV en pacientes con fibrilación auricular y enfermedad reumática cardiaca era 41 por 1000 persona-años de seguimiento, que era muy similar a la proporción descripta para pacientes con fibrilación auricular pero sin enfermedad reumática. Sin embargo, los pacientes con enfermedad reumática eran más jóvenes que aquellos que no la tenían. Una vez ajustados los resultados para edad, sexo e hipertensión, los investigadores encontraron que la frecuencia de ACV era 6 veces mayor en los pacientes con enfermedad reumática y fibrilación auricular que en pacientes con fibrilación auricular que no tenía enfermedad reumática. 2. ¿CUALES SON LOS RESULTADOS? 2.1. ¿CUAL ES LA MAGNITUD DE LA PROBABILIDAD DE UN EVENTO EN UN PERIODO ESPECIFICADO DE TIEMPO? Los estudios con seguimiento podrán estimar la incidencia de eventos dicotómicos como muerte y recaída (valores posibles son "si" o "no") Los resultados cuantitativos de los estudios de riesgo son el número de eventos que ocurren con el tiempo, generalmente expresados como "Incidencia". Las maneras de informar dicho riesgo es diferente según el diseño del estudio. Cuando todos los individuos del estudio fueron seguidos durante igual período de tiempo se informará la "incidencia acumulada". Cuando los individuos del estudio fueron seguidos por diferentes períodos de tiempo se informará la "densidad de incidencia". Cuando se evalúa la exposición a un posible factor de riesgo y se compara el riesgo de los expuestos con el de los no expuestos se pueden utilizar Riesgo Relativo (RR) para informar los resultados. El RR puede calcularse si el diseño permite calcular incidencia como en estudios de Cohorte pero no es posible hacerlo en otros diseños como en casos y controles. En este último caso, se puede encontrar informado el Odds Ratio. En estudios actuariales donde se analiza la variable “tiempo al evento” puede encontrar informado la relación de riesgo o peligro (En ingles: Hazard Ratio ó HR). El HR resume la relación entre la proporción de eventos de 2 grupos diferentes (expuestos y no expuesto) en estudios de seguimiento y se interpreta exactamente igual que un riesgo relativo. A diferencia de los ensayos clínicos aleatorizados donde es posible lograr el control de confundidores con el diseño, los estudios observacionales deben controlar a los mismos mediante el análisis estadístico. En estos casos se informan RR, OR ó HR ajustados por las variables correspondientes. Para ajustar por otros factores o variables suele utilizarse técnicas multivariables como la Regresión Logística Múltiple (informa OR ajustado) o el análisis de regresión múltiple por el método de Cox (informa HR ajustados). 2.2. ¿SON PRECISAS LAS ESTIMACIONES? Los intervalos de confianza darán el rango de valores del Riesgo relativo o del Hazard Ratio esperables en la población para el nivel de confianza especificado. Si se eligió confianza del 95%, significa que tendremos un 5% de probabilidad que el valor real esté fuera del rango definido dentro del intervalo. Cuanto más anchos los intervalos de confianza menos precisas serán las estimaciones del riesgo. 3. ¿LOS RESULTADOS ME AYUDARAN AL CUIDADO DE MIS PACIENTES? 3.1. ¿LOS PACIENTES DEL ESTUDIO ERAN SIMILARES AL MIO? Los autores deben describir a los pacientes del estudio con bastante detalle para permitir la comparación con sus pacientes. El artículo debe listar las características clínicas importantes de los pacientes, junto con las definiciones usadas para estas características. 3.2. ¿CONDUCIRAN LOS RESULTADOS DIRECTAMENTE A SELECCIONAR O EVITAR UN TRATAMIENTO? Sabiendo el curso clínico esperado de la condición de su paciente pueden ayudarle a juzgar si el tratamiento debe ofrecerse. Por ejemplo, la warfarina disminuye el riesgo de ACV en pacientes con fibrilación auricular no reumática. Sin embargo, en un estudio la frecuencia de ACV en pacientes menores de 60 años con fibrilación auricular sin desórdenes cardiopulmonares asociados era del 1.3% a los 15 años. Probablemente los riesgos del tratamiento a largo plazo en este grupo de pacientes pesan más que los beneficios. 3.3. ¿LOS RESULTADOS SON UTILES PARA TRANQUILIZAR O ACONSEJAR A MIS PACIENTES? Aun cuando el resultado no lo lleva a prescribir una terapia eficaz, todavía puede ser clínicamente útil. Un resultado válido, preciso y generalizable es muy útil para tranquilizar a un paciente o pariente. D. EVALUACIÓN CRÍTICA DE ESTUDIOS SOBRE ETIOLOGÍA O DAÑO En ocasiones la pregunta se relaciona con saber si un tratamiento o una exposición al medio ambiente anterior o actual ha causado algún daño o puede causarlo. La pregunta se relaciona con si la exposición es la causa del evento. Para dar marco a analizar este tipo de pregunta es importante recordar los principios aceptados para fortalecer hipótesis de relación causa-efecto en estudios estadísticos. D.1. Criterios de causalidad de Bradford-Hill. • Secuencia temporal lógica La exposición debe preceder claramente al efecto. Los Ensayos clínicos y los estudios de Cohorte prospectivas logran este criterio. • Fuerza de la asociación Cuánto más fuerte resulta la asociación, más probable que la relación sea causal. Corresponde evaluar la magnitud de las medidas de asociación (Riesgo Relativo- Odds Ratio-Hazard Ratio) • Evidencia experimental Se logra al comparar grupos expuesto y no expuestos en un ensayo clínico aleatorizado. No siempre es posible obtener estas evidencias, incluso por razones éticas. • Relación dosis-respuesta Debe existir una relación evidente entre la magnitud de la exposición y la del efecto. Algunos realizan una correlación entre dosis recibidas y riesgo de enfermar. Otros realizan una correlación entre años de tratamiento y probabilidad de enfermar. • Fundamento biológico Si no existe una explicación fisiopatológica que justique la asociación es más difícil de pensar que la misma no se deba al azar. Si hay evidencias de estudios in vitro y/o animales puede ayudar a fortalecer la hipótesis. • Consistencia de la asociación La asociación ha sido observada en diferentes estudios procedentes de diferentes autores y comunidades. Cuando los resultados de diferentes investigaciones coinciden en la dirección de la asociación es menos probable que se deba a un resultado por azar. • Especificidad de la asociación Diferentes estudios aportan similares evidencias de un mismo efecto para una exposición en particular. De los criterios de Bradford-Hill, es imprescindible que se cumplan: - temporalidad - fuerza - fundamento biológico Los restantes sirven para reforzar la sugerencia de causalidad. Dado que el diseño del estudio determina los grupos de comparación, se revisan los diseños básicos por separado: Ensayos Clínicos aleatorizados Un ensayo aleatorizado es un verdadero experimento en que se asignan los pacientes, por un mecanismo aleatorio, al agente causal o alternativa (otro agente o ninguna exposición en absoluto). Raramente se hacen los ensayos aleatorizados para estudiar las posibles exposiciones nocivas, pero si un ensayo aleatorizado biendiseñado demuestra una relación importante entre agente y un evento adverso, los médicos pueden estar seguros de los resultados. Estudios de Cohorte Cuando no es factible o no es ético asignar a los pacientes al azar a un agente causal, los investigadores deben encontrar una alternativa a un ensayo aleatorizado. En un estudio de cohorte, el investigador identifica grupos expuestos y no-expuestos de pacientes y entonces los sigue en el tiempo, mientras supervisa la ocurrencia del resultado. Se impone documentar las características de los grupo expuestos y no-expuestos y demostrar si son comparables o usar técnicas estadísticas para ajustar los resultados. Estudios de caso-control Cuando el resultado de interés o es muy raro o toma un tiempo largo para desarrollarse, los estudios de cohorte tampoco pueden ser factibles. Los investigadores pueden usar un diseño alternativo. Se identifican los casos (pacientes que ya han desarrollado el resultado de interés). Eligen controles (personas que no tienen el resultado de interés), pero similares a los casos con respecto al determinantes importante de resultado como la edad, sexo y condiciones médicas coexistentes. Los investigadores pueden evaluar entonces retrospectivamente la frecuencia relativa de exposición al agente nocivo entre los casos y controles. Como con los estudios de cohorte, los estudios caso-control son susceptibles de sesgos por características no medidas. Por consiguiente, la fuerza de la inferencia que puede deducirse de los resultados puede estar limitada. Series de casos Las series del caso y registros oficiales de casos no proporcionan ningún grupo de la comparación, son estudios descriptivos y es por consiguiente incapaz de satisfacer los requisitos del primer criterio primario de la guía. Sin embargo, de vez en cuando estos estudios demuestran resultados dramáticos que asignan un cambio inmediato en la conducta del médico (por ejemplo: la talidomida). Los médicos no deben deducir las conclusiones sobre la causa y relaciones de efecto de las series del caso, pero deben reconocer que los resultados pueden generar preguntas para organismos de control e investigadores clínicos. D.2. Guía para la lectura crítica de estudios sobre daño o etiología 1.¿SON VALIDOS LOS RESULTADOS DEL ESTUDIO? a. GUIAS PRIMARIAS a.1. ¿SE HAN UTILIZADO GRUPOS DE COMPARACIÓN CLARAMENTE IDENTIFICADOS, QUE ERAN SIMILAR RESPECTO AL DETERMINANTE IMPORTANTE DE RESULTADO, APARTE DEL QUE SE INVESTIGA? En un estudio que identifica una exposición posiblemente nociva, la elección de grupos de comparación tiene una influencia enorme en la credibilidad de los resultados. El diseño del estudio determina los grupos de comparación, un ensayo clínico randomizado es el que mejor cumple este requisito. Sin embargo es el diseño menos frecuente. Se recomienda revisar las características de los grupos comparados (tabla 1) para identificar posibles factores que requieran ajuste. a.2. ¿SE MIDIERON LAS EXPOSICIONES Y RESULTADOS DE LA MISMA MANERA EN LOS GRUPOS COMPARADOS? En los estudios de caso-control, la medida de la exposición es un problema importante. Los pacientes con leucemia, cuando se preguntó por la exposición a solventes, los casos probablemente recordaran la exposición mejor que los controles (Sesgo de recuerdo). Se debe insistir sobre si los investigadores usaron estrategias como el ciego de la hipótesis del estudio para entrevistadores, para minimizar el sesgo. La oportunidad de la exposición también debe ser similar entre los casos y controles. En Ensayos Clínicos y estudios de cohorte, la determinación del resultado es un problema importante. Una posible explicación para el riesgo aumentado podría ser que médicos, conscientes de un posible riesgo, investiguen más diligentemente y por consiguiente descubran enfermedad que podría pasar inadvertida de otra manera (o descubre la enfermedad más temprano). Esto podría producir un "Sesgo de vigilancia". a.3. ¿HA SIDO EL SEGUIMIENTO SUFICIENTEMENTE LARGO Y COMPLETO? El tiempo apropiado dependerá de la variable de resultado a comparar. Se debe comparar con el tiempo en el que se estima aparecerán los eventos. Cada paciente que inició el seguimiento debería haberse evaluado al final del estudio. Si un número sustancial de pacientes se informan como "pérdidas de seguimiento", la validez del estudio será cuestionable. Recuerde que estos pacientes a menudo tienen pronóstico diferente de aquellos que completan el seguimiento. b. GUIAS SECUNDARIAS b.1. ¿ES CORRECTA LA RELACIÓN TEMPORAL? ¿La exposición al agente precede el resultado adverso? Puede ocurrir que lo que parece un factor nocivo en realidad se indica a pacientes que ya tienen alguna característica que podría considerarse el evento. b.2. ¿HAY UN GRADIENTE DOSIS-RESPUESTA? Podemos atribuir con mayor seguridad un resultado adverso a una exposición particular si, a medida que aumenta la cantidad o la duración de la exposición al agente aumenta el riesgo del resultado adverso. 1. ¿CUALES SON LOS RESULTADOS? 2.1. ¿CUÁN FUERTE ES LA ASOCIACIÓN ENTRE LA EXPOSICIÓN Y EL RESULTADO? La manera más común de expresar una asociación entre la exposición y el resultado es el riesgo relativo o hazard ratio. El riesgo relativo no es aplicable a diseños de caso-control por lo que se utiliza Odds Ratio que es un estimador del riesgo relativo. Dado que los ensayos clínicos controlados aleatorizados presentan mayor control de posibles sesgos se acepta que un RR>1 es suficiente para determinar la asociación. En diseños observacionales es imposible controlar todas las variables por lo que hay una sugerencia de considerar significativa la asociación cuando el RR>3 en estudios de Cohorte ó cuando el OR>4 en estudios Caso-Control. 1.2. ¿CUÁN PRECISA ES LA ESTIMACIÓN DEL RIESGO? En un estudio en que los investigadores han mostrado una asociación entre una exposición y un resultado adverso, el límite más bajo de la estimación de riesgo relativo (intervalo de confianza) proporciona una estimación mínima de la fuerza de la asociación. En un estudio dónde los investigadores no demuestran una asociación (“estudio negativo”), el límite superior del intervalo de confianza del riesgo relativo le dice al médico cuán grande puede ser el efecto adverso, a pesar del fracaso para demostrar una asociación estadísticamente significativa. 2. ¿CUALES SON LAS IMPLICANCIAS PARA MI PRACTICA CLINICA? 3.1. ¿LOS RESULTADOS SON APLICABLES A MI PRÁCTICA CLÍNICA? Si los resultados del estudio son válidos para la población que se estudió, usted tiene que decidir entonces si puede extrapolar los resultados a los pacientes en su propia práctica. ¿Sus pacientes son similares a aquellos descritos en el estudio con respecto a la morbilidad, edad, raza u otros factores potencialmente importantes? ¿Hay diferencias importantes clínicamente en los tratamientos o exposiciones entre sus pacientes y los pacientes estudiados? 3.2. ¿CUÁL ES LA MAGNITUD DEL RIESGO? El riesgo relativo y el Odds Ratio no nos dicen la frecuencia con la que el problema ocurre, sólo que el efecto observado ocurre más a menudo en el grupo expuesto. Para contestar este punto sería recomendable utilizar el equivalente al NNT pero llamado Número Necesario para Dañar (NNTD). NNTD (en Ingles NNH, number needed to harm) es el número de pacientes mínimo que, si recibiesen el tratamiento experimental, se tendría un efecto adverso adicional comparado con el tratamiento convencional o control. Cálculo: 1/diferencia de riesgo absoluta. 3.3. ¿DEBO INTENTAR DETENER LA EXPOSICIÓN? Después de evaluar la evidencia sobre si una exposición es nociva, determinar las acciones subsecuentes puede no ser simple. La decisión clínica es simple cuando la probabilidad y la magnitud del daño son grandes. La decisión clínica también es fácil cuando una alternativa aceptable por evitar el riesgo está disponible. Aun cuando la evidencia es relativamente débil, la disponibilidad de una alternativa puede producir una decisión clara. E. EVALUACION CRITICA DE ESTUDIOS SOBRE METODOS DE DIAGNÓSTICO: Cuando solicita un test diagnóstico en medicina, en realidad está tratando de clasificar a un individuo como sano o enfermo respecto a una determinada patología. Pero desgraciadamente no existe el test perfecto. Aún los test considerados “Gold Standard” pueden tener falsos positivos y falsos negativo. Definición: PATRON DE ORO (GOLD STANDARD) es el método que mejor clasifica “enfermos” y “sanos” respecto a un determinado diagnostico. Posee una adecuada certeza para establecer un diagnóstico por lo que la comunidad científica lo acepta como un estándar contra el cual un nuevo test puede ser comparado. La convención establece que en el marco de una investigación aquel individuo que posee un resultado positivo del gold standard está enfermo y el que tiene un resultado negativo está sano para la patología en cuestión. Es importante remarcar que un estudio puede ser gold standard para un determinado diagnóstico y no para otros. Cada enfermedad o condición tiene su propio Gold standard y el “sano” que diagnosticamos con un resultado negativo implica que no tiene esa patología pero puede estar enfermo de otra cosa. E1. Valores Normales de un test Recuerde que cuando se determinan los “valores de referencia” (límites de valores para considerar que el resultado es normal) de un método de diagnóstico que se mide en forma numérica (ejemplo: glucemia en mg%) en realidad se utilizan probabilidades. Dentro de los límites establecidos es muy probable que esté sano y fuera de los límites es poco probable (pero no imposible) que esté sano. Para elegir esos valores generalmente se estudia a un número importante de personas “sanas” y, si la variable tiene distribución simétrica se puede utilizar las “bandas de confianza” según las cuales con la media mas/menos dos desvíos estándar se encontrará al 95 por ciento de la población. Ejemplo: la media fue de 100 y el desvío estándar fue de 10 = los valores de referencia serán 80 a 120. Al aplicarlo en la práctica significa que se considerará patológico a valores menores de 80 ó mayores de 120 porque hay menos de 5% de probabilidad de pertenecer a una población “sana” si los valores está por fuera de dicho rango. Pero con esta manera estadística de elegir un valor de corte ya sabemos que desde el principio hay un grupo de personas normales que quedan por fuera (5%). De allí surgen los falsos positivos de un test. Al mismo tiempo, los enfermos pueden tener una distribución que se superpone con la de los sanos, como se puede ver en la figura: Sanos Falsos Negativo Punto de corte Falsos Positivos Allí podemos observar los falsos negativos de un test. La función clasificatoria de los exámenes diagnósticos hace que se identifiquen categorías pero al medir conceptos "vagos", donde los límites de uno y otro se superponen y hace que la clasificación no sea perfecta. Para poder utilizarlos necesitamos saber cuánto error se puede cometer al utilizar el método y por ello es necesario conocer las características del método. E2. Características de los métodos de Diagnóstico Para poder evaluar si un test es utilizable en la práctica debemos analizar su confiabilidad y validez: • Confiabilidad ó Precisión: es el grado en que el método de diagnóstico obtiene casi el mismo valor cuando se realizan mediciones repetidas en el mismo individuo. Es una medida relacionada con la reproducibilidad de las mediciones. • Validez ó Exactitud: es el grado en que el resultado de la medición con el método de diagnóstico representa lo que se quiere medir. En el caso de métodos de diagnóstico, representa la capacidad de clasificar correctamente enfermos y sanos respecto a una patología. Importante: un método que no es confiable tampoco es válido. Medidas de Precisión Lo más importante es entender que cuando se habla de precisión estamos refiriéndonos a mediciones repetidas en el mismo individuo. Por ejemplo un solo paciente es examinado 10 veces por el mismo médico quien registra su presión arterial. Los 10 valores serán similares pero no exactamente iguales. La diferencia se debe a la variabilidad propia del individuo, la variabilidad del observador (médico) y la variabilidad del instrumento (tensiómetro). Es habitual que los estudios informen la confiabilidad de algún método de diagnóstico cuando miden la variabilidad intra-observador o Inter-observador. Ejemplo: Un ecografista realiza el mismo estudio 2 veces a cada uno de los individuos de la muestra. Se mide la variabilidad intra-observador y se busca decir que las mediciones realizadas por ese ecografista son reproducibles. Dos médicos diferentes realizan palpación hepática para establecer presencia de hepatomegalia a un grupo de pacientes. Se busca evaluar la concordancia entre ambos observadores y se mide como la variabilidad interobservador. Los test estadísticos que se aplican para medir precisión depende de la escala de medición que admite el método de diagnóstico. Para evaluar variabilidad intra o interobservador de un método registrado en escala nominal se calcula el Indice Kappa. Cuando se comparan 2 o más mediciones en un mismo individuo, es esperable que algunas coincidan sólo por azar. El índice Kappa permite calcular la concordancia observada más allá de la esperada sólo por azar. Si la concordancia absoluta es mayor al 90% la misma es óptima y no hace falta calcular Kappa pero con valores de concordancia absoluta menores de 90% se recomienda utilizar Kappa. Ejemplo: 0 1 En general se acepta que valores de Kappa menores de 0,4 representan baja concordancia, entre 0,4 y 0,6 es regula, entre 0,6 y 0,8 es buena y más de 0,8 es óptima. Validez de un Método de Diagnóstico Cuando se quiere conocer las características operativas de un nuevo método de diagnóstico, la situación ideal es compararlo contra el estándar de referencia (Gold Standard). El estudio ideal es un Corte transversal en cual la población de individuos en estudio esté formada por algunos que tienen y otros no tienen la patología en estudio. Se construye una tabla de doble entrada para comparar en nuevo método contra el Gold Standard (GS). Los elementos básicos de la misma son los siguientes: • Verdaderos positivos: aquellos en quienes el test resulta positivo y la enfermedad está presente (a). • Falsos positivos: aquellos en quienes el test resulta positivo y la enfermedad no está presente (b). • Falsos negativos: aquellos en quienes el test resulta negativo y la enfermedad está presente (c). • Verdaderos negativos: aquellos en quienes el test resulta negativo y la enfermedad no está presente (d). Tabla de 2 x 2 GS Positivo TEST POSITIVO VP TEST NEGATIVO FN GS Negativo FP a b c d VN Introduccion a la Investigacion Clinica Las medidas de validez se expresan como sensibilidad y especificidad del método. • Sensibilidad: es la probabilidad de un resultado positivo del test en los enfermos (GS positivo). Note que la sensibilidad informa como se comporta el método en los enfermos solamente. Tablas de 2 x 2 GS Positivo TEST POSITIVO GS Negativo a b c d TEST NEGATIVO S=a/a+c Introduccion a la Investigacion Clinica • Especificidad: probabilidad de un resultado negativo del test en un sano (GS negativo). La especificidad informa como se comporta el test en los sanos. Tablas de 2 x 2 GS Positivo TEST POSITIVO TEST NEGATIVO GS Negativo a b c d E=d/b+d Introduccion a la Investigacion Clinica También se puede incluir como medidas complementarias a la Sensibilidad y Especifidad a las siguientes: • Tasa de falsos negativos: Proporción de personas con test negativo sobre el total de enfermos (c/a+c ó 1-sensibilidad) • Tasa de falsos positivos: Proporción de personas con test positivo sobre el total de sanos (b/b+d ó 1-especificidad) En caso de comparar las características de diferentes métodos pero donde ninguno de ellos es el estándar de referencia, no es metodológicamente correcto calcular sensibilidad y especificidad del método en evaluación. Se puede informar el grado de concordancia (Ej: Kappa) o el grado de discordancia entre los métodos. El tema es que si bien la sensibilidad nos informa como se comporta el test en un enfermo, en la práctica un test muy sensible nos sirve para detectar sanos. Ejemplo: sabemos que tenemos un test que es 99% sensible y 50% específico. Podemos armar una tabla de 2 x 2 si suponemos que tenemos 100 enfermos (GS positivo) y 100 sanos (GS negativo). Si es 99% sensible, de los 100 enfermos: 99 van a dar verdadero postivo y 1 falso negativo. Si es 50% específico, de los 100 sanos 50 van a tener un resultado verdadero negativo y 50 van a resultar falsos positivos. Ver la tabla. Si en un paciente el resultado da positivo la probabilidad de un falso positivo es alta (99/99+50) pero si el resultado es negativo, la probabilidad de un resultado falso negativo es baja (1/1+50). Un test con características parecidas es la VDRL para diagnóstico de Sífilis. La conclusión es que si la VDRL da positiva Ud. No podrá afirmar que el paciente tiene sífilis y va a pedir otro test más específico (fta-abs) para confirmar. Si la VDRL da negativa generalmente no se hacen más estudios porque la probabilidad de un falso negativo es baja. Importante: UN TEST MUY SENSIBLE AYUDA A IDENTIFICAR SANOS!!! La regla mnemotécnica SENEX puede serle de utilidad: Frente a un test muy SEnsible un resultados Negativo me Excluye o aleja el diagnóstico. Tablas de 2 x 2 GS Positivo TEST POSITIVO 99 TEST NEGATIVO 1 S=99% GS Negativo 50 a b c d 50 S E N E X E=50% Introduccion a la Investigacion Clinica Por otro lado, la especificidad que me dice como se comporta el test en los sanos, suele ser útil para confirmar enfermos. Ejemplo: sabemos que tenemos un test que es 99% específico y 50% sensible. Podemos armar una tabla de 2 x 2 si suponemos que tenemos 100 enfermos (GS positivo) y 100 sanos (GS negativo). Si es 50% sensible, de los 100 enfermos: 50 van a dar verdadero positivo y 50 falsos negativos. Si es 99% específico, de los 100 sanos 99 van a tener un resultado verdadero negativo y 1 va a resultar falso positivo. Ver la tabla. Si en un paciente el resultado da negativo la probabilidad de un falso negativo es alta (99/99+50) pero si el resultado es positivo, la probabilidad de un resultado falso positivo es baja (1/1+50). Importante: UN TEST MUY ESPECIFICO AYUDA A IDENTIFICAR ENFERMOS!!! La regla mnemotécnica ESPIN puede serle de utilidad: Frente a un test muy ESpecífico un resultados Positivo me INcluye el diagnóstico. Tablas de 2 x 2 GS Positivo TEST POSITIVO 50 TEST NEGATIVO 50 S=50% GS Negativo 1 a b c d 99 E S P I N E=99% Introduccion a la Investigacion Clinica E3. Modelo Umbral Para decidir realizar o no una prueba diagnóstica, se utilizan probabilidades. • La probabilidad pretest es la probabilidad de un paciente de tener una patología por el hecho de pertenecer a una población (se estima con la prevalencia). En las tablas de 2 x 2 la fórmula es = a+c/a+b+c+d. • La probabilidad post-test es la probabilidad de estar enfermo dado que pertenece a una población y además tiene un resultado de un método de diagnóstico. Si el test es positivo, la probabilidad post-test será mayor que la probabilidad pre-test. Si el resultado es negativo, la probabilidad post-test será menor que la pre-test. Podemos adjudicar valor a estas probabilidades, donde 0 es certeza de no enfermedad y 1 es certeza de enfermedad. Cuando se decide tratar a un paciente es porque pasó el “umbral de tratamiento” que es la probabilidad aceptada que justifica iniciar el mismo. Cuando no se puede obtener más información (no se puede realizar un método de diagnóstico), se puede utilizar la "probabilidad umbral de tratamiento" (Ver Figura 1), para determinar si tratar o no tratar. Cuando se puede conseguir más información, se puede utilizar las "probabilidades umbral de los tests" (Ver Figura 2) para decidir si ordenar o no un estudio complementario. El espacio entre ambos umbrales determina las situaciones en que más beneficia el realizar un estudio complementario. El método ideal a aplicar es aquel que permita pasar el umbral de tratamiento si el resultado es positivo (Ver Figura 3) y pasar el umbral del test si da negativo (Ver Figura 4). E4. ¿Cómo Calcular la Probabilidad Post-test? La probabilidad post-test se puede calcular con los valores predictivos • Valor predictivo positivo (VPP): la probabilidad de enfermedad dado un resultado positivo del test. Tablas de 2 x 2 GS Positivo TEST POSITIVO GS Negativo a b c d TEST NEGATIVO VPP= a/a+b Introduccion a la Investigacion Clinica • Valor negativo predictivo (VPN): la probabilidad de no encontrar enfermedad dado un resultado negativo del test. Tablas de 2 x 2 GS Positivo TEST POSITIVO TEST NEGATIVO GS Negativo a b c d VPN = d/c+d Introduccion a la Investigacion Clinica El problema es que los valores predictivos se modifican según la prevalencia. Es relativamente fácil de entender si vemos que la fórmula incluye enfermos y sanos. Si se modifica la relación enfermo/sano (prevalencia) se modifican los valores predictivos. Además nuestros pacientes no presentan siempre la misma prevalencia. Aunque así fuera y la prevalencia fuera constante en nuestro medio de trabajo, la misma es igual a la de los pacientes del estudio? Para evitar estos problemas es que se ideó una manera de calcular la probabilidad post-test que no se modifica con la prevalencia: utilizando Likelihood Ratio o relaciones de probabilidad. • Relación de probabilidad (LR, del inglés, Likelihood ratio): la relación de probabilidad entre un resultado de un test diagnóstico en los pacientes con la enfermedad y la probabilidad del mismo resultado en los pacientes libres de esa enfermedad. • • Coeficiente de probabilidades del test positivo: Relación entre la probabilidad de que el test resulte positivo en pacientes con la enfermedad y la probabilidad de que resulte positivo en personas sin la enfermedad LR(+) = (sensibilidad/ 1- especificidad) Coeficiente de probabilidades del test negativo: Relación entre la probabilidad de que el test resulte negativo en pacientes con la enfermedad y la probabilidad de que resulte negativo en personas sin la enfermedad LR(-) = (1-sensibilidad/especificidad) Los LRs indican hasta qué punto un resultado positivo o negativo modificará la probabilidad pre-test. Un LR de 1 indica que la probabilidad post-test es exactamente igual que la probabilidad pre-test. LRs mayor que 1 (positivos) aumenta la probabilidad que el diagnóstico esté presente. LRs menores de 1 (negativos) disminuyen la probabilidad del diagnóstico. Si uno conoce la prevalencia exacta de la enfermedad en cuestión como así también la sensibilidad y la especificidad, la probabilidad que un determinado paciente tenga o no tenga la enfermedad pueden calcularse. El cálculo de probabilidad pos-test mediante el uso de LRs puede hacerse sin la necesidad de fórmulas usando el Nomograma de Fagan: anclando el extremo de una regla en la probabilidad pre-test y pasando por el LR correspondiente, se obtiene la probabilidad pos-test en la columna de la derecha, que corresponde al valor predictivo. Probabilidad Pre examen Likelihood Ratio Probabilidad Post examen El nomograma propuesto por Fagan hace todas las conversiones. La primera columna de este nomograma representa la probabilidad pre-test, la segunda columna representa el LR, la tercera muestra la probabilidad post-test. Usted obtiene la probabilidad post-test fijando una regla en la probabilidad pre-test y girándola hasta que se alinee con el LR para el resultado de la prueba observado. E5. Guia de Lectura Critica para Artículos sobre Métodos de Diagnóstico Tal como en otro tipo de preguntas, para decidir si un artículo es apto para ser aplicado en la práctica asistencial, debemos considerar responder las tres preguntas básicas: • ¿Es válida la evidencia del estudio? • ¿Los resultados del estudio son importantes? • ¿Se pueden aplicar los resultados del estudio al cuidado de mi paciente? 1. ¿LOS RESULTADOS DE ESTE ARTICULO SON VALIDOS? A. GUIAS PRIMARIAS ¿HABÍA UNA COMPARACIÓN INDEPENDIENTE Y CIEGA CONTRA EL ESTÁNDAR DE REFERENCIA (GOLD STANDARD)? La exactitud de una prueba de diagnóstico se determina mejor comparándola a la "verdad". De acuerdo con esto, los lectores deben asegurarse que se utilizó una referencia apropiada (como la biopsia, cirugía, autopsia, o al menos un seguimiento prolongado) y que se realizó a cada paciente, junto con la prueba bajo la investigación. También es importante que el profesional que realiza el test en estudio desconozca el resultado del test de referencia así como que el profesional que realiza el test de referencia desconozca el resultado del test en estudio (ciego). ¿SE INCLUYÓ UN ESPECTRO APROPIADO DE PACIENTES? Una prueba diagnóstica es muy útil si distingue entre desórdenes o estados que podrían confundirse con la patología en estudio. Casi cualquier prueba puede distinguir el saludable del muy afectado; esta habilidad no nos dice nada sobre la utilidad clínica de una prueba. Si se calcula la sensibilidad de un test en un grupo de enfermos con estadios avanzados de la enfermedad (espectro de pacientes reducido a muy enfermos), la misma será artificialmente alta. Por otro lado, si se calcula especificidad en personas muy sanas (espectro reducido de sanos) la misma será artificialmente alta. Los “sanos” con falsos positivos son más frecuentes en personas que tienen otras enfermedades (reacciones cruzadas). El verdadero, pragmático valor de una prueba se establece sólo en un estudio que se realizó con un espectro de pacientes parecido a su práctica clínica. Cuidado al utilizar estudios realizados en otros ámbitos. No sería recomendable extrapolar resultados de estudios en atención primaria a pacientes de terapia intensiva. B. GUIAS SECUNDARIAS ¿INFLUYERON LOS RESULTADOS DEL EXAMEN OBJETIVO DE LA EVALUACIÓN EN LA DECISIÓN DE REALIZAR EL ESTÁNDAR DE REFERENCIA? Es importante que se realice a todos los individuos de la muestra ambos tests (el estudiado y el gold standad) y que la realización o no de cualquiera de ellos no dependa del resultado del otro. Cuando esto no se realiza de dicha manera se establece una situación conocida como "Sesgo de verificación" o "Sesgo de orientación diagnóstica". Por ejemplo: cuando pacientes con probable enfermedad coronaria y ergometría positiva tuvieran más probabilidad de realizar una angiografía coronaria que aquellos con pruebas de ejercicio negativas. ¿SE DESCRIBIERON LOS MÉTODOS PARA LLEVAR A CABO EL EXAMEN CON EL SUFICIENTE DETALLE COMO PARA PERMITIR SU REPRODUCCIÓN? Si los autores han concluido que se debe usar una prueba diagnóstica, deben decirle cómo usarla. Esta descripción debe cubrir todos los aspectos importantes en la preparación del paciente (la dieta, drogas ser evitado, precauciones después de la prueba), la realización de la prueba (la técnica, posibilidad de dolor), y el análisis e interpretación de sus resultados. Sería interesante que los autores informen datos sobre la confiabilidad del test en estudio ya sea calculadas especialmente durante el mismo o disponibles en otras publicaciones. 2. ¿CUALES SON LOS RESULTADOS? ¿SE PRESENTAN LOS COCIENTES DE PROBABILIDAD (LIKELIHOOD RATIOS) DE LOS RESULTADOS DE LA PRUEBA O SE INCLUYEN LOS DATOS NECESARIOS PARA SU CÁLCULO? La utilidad clínica de una prueba de diagnóstico está determinada por la exactitud con que identifica el desorden designado. Un estudio que compara contra el Gold Standard informará como mínimo la sensibilidad y especificidad del test. Con estos datos Ud. Podrá calcular los LRs. ¿CUÁN GRANDE ES UN LR, Y CUÁN PEQUEÑO ES? LRs >10 o < 0.1 generan grandes cambios en la probabilidad; LRs de 5-10 y 0.1-0.2 generan cambios moderados; LRs de 2-5 y 0.5-0.2 generan pequeños (pero a veces importantes) cambios; y LRs de 1-2 y 0.5-1 alteran la probabilidad en pequeño grado (y raramente importante). ¿ES PRECISA LA ESTIMACION? Tal como vimos en casos anteriores la forma de evaluar la precisión en la estimación de un resultado más utilizada es el cálculo de los intervalos de confianza. Los autores deben informar como mínimo los intervalos de confianza de la sensibilidad y la especificidad, aunque a veces verá informado el de los LRs. Si está leyendo un estudio donde la sensibilidad fue del 85% pero el IC95% dio 45-99%: ¿le parece clínicamente útil saber que tiene un 95% de confianza que la sensibilidad del test en la población se encuentra entre 45 y 99%? El ancho del intervalo debe ser clínicamente útil. 3. ¿LOS RESULTADOS ME AYUDARAN A CUIDAR A MIS PACIENTES? ¿SERÁ LA REPRODUCIBILIDAD DEL ESTUDIO SATISFACTORIA EN MI ÁMBITO? El valor de cualquier prueba depende de su habilidad de rendir el mismo resultado cuando se aplica a los pacientes habituales. La baja reproducibilidad puede ser el resultado de problemas con la propia prueba (ej, variaciones en los reactivos, en los equipos, etc..). Una segunda causa para que los resultados de la prueba difieran en los pacientes habituales se presenta siempre que una prueba requiera interpretación (ej, la magnitud de elevación del segmento St-en un electrocardiograma). El lugar donde Ud. Practica su profesión: ¿posee la técnica y el personal adecuados? ¿LOS RESULTADOS SON APLICABLES A MI PACIENTE? El problema aquí es que si la prueba tendrá la misma exactitud entre sus pacientes como se informó en el papel. Las propiedades de la prueba pueden cambiar con una mezcla diferente de severidad de la enfermedad o una distribución diferente de condiciones (espectro de pacientes) Cuando los pacientes con el desorden designado tienen enfermedad severa, los LR se presentarán un valor alejado de 1 (la sensibilidad aumenta). Si los pacientes son todos leves, los LR se acercan al valor 1 (la sensibilidad disminuye). ¿El paciente que está tratando proviene de un ámbito similar al que estudiaron los investigadores? ¿LOS RESULTADOS MODIFICARÁN MI TRATAMIENTO? El último criterio para la utilidad de una prueba diagnóstica es si agrega información que por otra parte no esté disponible, y si esta información lleva un cambio que es finalmente beneficioso para el paciente. Para esto se utiliza la técnica de los umbrales. Dado un determinado diagnóstico, habrá una probabilidad bajo la cual no interesará realizar más estudios porque se considera que el diagnóstico se ha descartado. Ejemplo: una mujer de 25 años consulta por dolor precordial punzante y disnea que se presenta luego de haber discutido con su novio. La probabilidad pre-test que se trate de enfermedad coronaria es tan baja que ni se plantea realizar estudios para descartar esta probabilidad (no alcanza el umbral del test). Habrá situaciones donde la probabilidad es lo suficientemente alta como para decir tratamiento sin más estudios (umbral de tratamiento). Ejemplo: varón de 65 años con antecedente de hipertensión, tabaquismo y dislipemia que presenta dolor precordial opresivo frente a moderados esfuerzos que cede con el reposo. La probabilidad pre-test es lo suficientemente elevada como para prácticamente asegurar que tiene enfermedad coronaria. Si le solicita estudios será para estadificar la enfermedad pero no necesita estudios para decidir tratarla. En situaciones donde la probabilidad se encuentra entre ambos umbrales es donde más se beneficia con el uso de estudios complementarios. CUARTA PARTE: Evaluación de revisiones sistemáticas. La Real Academia Española define revisión como la acción de revisar y ésta última como someter algo a nuevo examen para corregirlo, enmendarlo o repararlo. Dentro de la investigación por revisión de publicaciones se reconocen dos tipos diferentes: sistemática y narrativa. La revisión narrativa es una investigación NO reproducible, NO sistemática que permite comparar y analizar los resultados de varios estudios “preferidos o seleccionados por el autor”. La diferencia entre revisión sistemática y narrativa está dada porque en esta última falta un protocolo que defina los pasos que siguió el revisor para actualizar el tópico. Por ejemplo, ¿Qué estrategia se utilizó para la búsqueda bibliográfica? ¿Cómo se hizo la selección de estudios a ser incluidos en la revisión?¿Qué métodos se usaron para determinar la validez de los estudios? Una revisión sistemática es una investigación reproducible y sistemática que permite comparar y analizar los resultados de varios estudios. Son consideradas estudios secundarios. Son estudios pormenorizados, selectivos y críticos que tratan de analizar e integrar la información esencial de los estudios primarios de investigación sobre un tema de salud específico. Pasos en la realización de una revisión sistemática Al momento de realizar una revisión sistemática hay una serie de etapas que se deben cumplir: 1. Definir la pregunta. 2. Establecer los criterios de elegibilidad de los estudios (criterios de inclusión y exclusión). 3. Formular el plan de búsqueda de la literatura. 4. Recuperar los artículos que cumplen criterios previamente establecidos. 5. Valorar en forma crítica la calidad de los estudios. 6. Combinar los resultados. 7. Formular conclusiones y recomendaciones. Requisitos de una revisión para ser considerada sistemática Para que un artículo sea considerado como una revisión sistemática debe cumplir con todos los siguientes requisitos: • Especificación previa del problema. Toda revisión debe tener un objetivo que incluye una pregunta específica. Si repasa los componentes de una pregunta específica son cuatro: intervención o exposición, resultado, comparación y población. Ejemplo7: Se realizó una revisión sistemática donde la pregunta fue: ¿Es útil el uso de regímenes de mantenimiento con tres o cuatro antirretrovirales (intervención) comparado con regímenes de mantenimiento con dos antirretrovirales (comparación) en pacientes con infección por VIH que recibieron un tratamiento inicial con tres o cuatro antirretrovirales exitoso (población) para disminuir la carga viral en el plasma (resultado)? • 7 Criterios explícitos de elegibilidad para identificar de manera objetiva los estudios que se adecuan a la cuestión de interés. Los criterios se eligen en función de la pregunta, por lo que suelen clasificarse según los elementos de la misma en: o Tipo de participantes: se relaciona con la población especificada en la pregunta Rutherford GW, Sangani PR, Kennedy, GE. Régimen de mantenimiento con tres o cuatro medicamentos antirretrovirales versus régimen de mantenimiento con dos medicamentos antirretrovirales para la infección por VIH (Cochrane Review). In: The Cochrane Library, Issue 4, 2004. Oxford: Update Software. o o o Tipo de intervención (y a veces de comparación) Tipo de medida de resultado Tipo de estudio: según el tipo de pregunta (tratamiento, pronóstico, diagnóstico, daño) se establece qué artículos primarios generan mejor evidencia para responderla, por lo que se busca exclusivamente un diseño en particular. En caso de tratamiento generalmente se limita la inclusión de artículos a aquellos que describen ensayos clínicos controlados aleatorizados. Siguiendo el mismo ejemplo: Los criterios de elegibilidad para los estudios que describieron los autores fueron: 1. “Tipos de estudios: Ensayos controlados aleatorios en los cuales los adultos infectados por VIH que habían completado con éxito el tratamiento de inducción con tres o cuatro medicamentos antirretrovirales fueron asignados al azar para continuar con el régimen de tratamiento inicial con tres o cuatro medicamentos o a un régimen de mantenimiento de reducción con dos medicamentos antirretrovirales. El tratamiento de inducción exitoso se definió de distintas maneras en cada estudio con diferentes valores de corte de ARN indetectable; el mayor valor de corte utilizado fue 500 copias/ml. 2. Tipos de participantes: Adultos mayores de 18 años, con infección por VIH que habían recibido tratamiento de inducción exitoso. 3. Tipos de intervenciones: Las intervenciones en las cuales los regímenes de mantenimiento antirretroviral que contienen los mismos medicamentos utilizados en el tratamiento inicial estándar se compararon con los regímenes de mantenimiento que contienen menos medicamentos luego de un tratamiento de inducción exitoso (definido como la supresión de la carga viral en el plasma a un nivel inferior a 500 copias/ml) para la infección por VIH. 4. Tipos de medidas de resultados: carga viral de VIH en el plasma.” • Elaboración de un protocolo que establezca los criterios de selección de los estudios y todos los métodos a utilizar. Para el ejemplo: Los protocolos de la Colaboración Cochrane se publican primero, antes que esté realizada la revisión sistemática, por lo que seguro se publicó el protocolo correspondiente a esta cita. • Búsqueda rigurosa de todos los datos relevantes. La búsqueda debe ser exhaustiva para lo cual se debe consultar en la mayor cantidad de fuentes disponibles. La estrategia de búsqueda debe estar descrita en el protocolo y utilizar criterios amplios. Para el ejemplo: Los autores describen la fuente y metodología para buscar los estudios en la siguiente frase: “Se realizaron búsquedas de ensayos aleatorios y revisiones relevantes en las siguientes bases de datos electrónicas: 1. MEDLINE desde 1982 hasta mayo del 2003, y se utilizaron las siguientes palabras clave: human immunodeficiency virus, antiretroviral therapy, maintenance therapy, zidovudine, lamivudine, indinavir, stavudine, saquinivir, nelfinavir, didanosine, zalcitabine, ritonavir, AIDS, anti-HIV agents, HIV infection y HIV seropositivity. 2. AIDSLINE desde 1982 hasta mayo del 2003, y se utilizaron las siguientes palabras clave: antiretroviral therapy, maintenance therapy, zidovudine, lamivudine, indinavir, stavudine, saquinivir, nelfinavir, didanosine, zalcitabine, ritonavir, anti-HIV agents. 3. La base de datos Cochrane de revisiones sistemáticas, la Database of Abstracts of Reviews of Effectiveness y el registro Cochrane de ensayos clínicos en la última edición de la Cochrane Library. 4. AIDSTRIALS, un registro especializado de ensayos actuales y que se completaron que mantiene la National Library of Medicine de EE.UU., desde 1982 hasta mayo del 2003. También se revisaron los resúmenes de congresos relevantes, incluyendo las International Conferences on AIDS, las Conferences on Retroviruses and Opportunistic Infections y las Interscience Conferences on Antimicrobial Agents and Chemotherapy, registrados en AIDSLINE. Se realizaron búsquedas en todas las listas de referencia de todos los artículos de revisión y primarios identificados.” • Evaluación crítica de los estudios que satisfacen los criterios de elegibilidad, debe haber un informe de la calidad de los artículos encontrados. Se recomienda que sean al menos dos revisores independientes e informar las discordancias entre los diferentes evaluadores. Es adecuado que se enmascaren los autores del trabajo, los resultados y la revista que publica el artículo. Es mejor utilizar escalas disponibles que pueden ser cualitativas (Ejemplo: Guías de JAMA) o cuantitativas (Ejemplo: Chalmers, Jadad) dado que esta valoración resulta fácilmente reproducible. Si se utiliza una escala propia es recomendable describirla con detalle e informar, además, la confiabilidad y validez de la misma. En el ejemplo se encuentra el resultado de la evaluación crítica en la siguiente frase: “El ensayo ACTG 343 (Havlir 1998) utilizó una asignación al azar centralizada y por lo tanto la asignación tuvo un ocultamiento apropiado (grado A). El ensayo fue a doble ciego (grado A); los 309 pacientes asignados tuvieron seguimiento hasta el final del ensayo (grado A). Todos los análisis fueron realizados según la intención de tratar (intentionto-treat) (grado A). El estudio Trilege (Flandre 2002) no explicó cómo se realizó el ocultamiento de la asignación (grado B). El estudio fue abierto (open-label) (grado B); los 279 pacientes asignados tuvieron seguimiento hasta la finalización del ensayo (grado A). Todos los análisis fueron realizados sobre la base de intención de tratar (intention-to-treat) (grado A). El estudio ADAM (Reijers 1998) no explicó cómo se realizó el ocultamiento de la asignación (grado B). El estudio fue abierto (open-label) (grado B). El ensayo se terminó de manera precoz cuando se dispuso de los resultados de otros estudios y se realizó un análisis prematuro del estudio y una finalización temprana de la asignación al azar. De los 31 pacientes asignados, 25 completaron al menos 26 semanas. El seguimiento puede considerarse bueno porque no hubo pérdidas (grado A). El resumen MIRO (Clumeck 1999), no proporcionó detalles del esquema de asignación al azar (grado C). Fue un estudio abierto (open-label) (grado B) y utilizó análisis del tipo intención de tratar (intention-to-treat analysis) (grado A). Todos tenían mediciones basales objetivas y medidas de resultado objetivas y confiables.” • Extracción de los datos relevantes de los estudios: implica informar (generalmente en una tabla) las características de los artículos encontrados. En el ejemplo: la descripción se realizó en el texto en la siguiente frase: “Descripción de los estudios: Se identificaron cuatro estudios que cumplían los criterios de inclusión. Tres fueron publicados. (Havlir, 1998; Flandre, 2002; Reijers, 1998), y uno era un resumen (Clumeck, 1999). Havlir (1998) informó acerca del estudio 343 del AIDS Clinical Trials Group, que fue un ensayo controlado aleatorio a doble ciego con 309 adultos infectados por VIH, y que se llevó a cabo desde agosto de 1997 hasta el 5 de enero de 1998. Se reclutaron 509 pacientes adultos con más de 200 células CD4+/ul y con una carga viral en plasma de más de 1000 copias/ml para que recibieran tratamiento de inducción con indinavir, lamivudina y zidovudina durante seis meses. Ningún paciente había recibido tratamiento previo con inhibidores de la proteasa y 104 pacientes (20%) habían recibido tratamiento previo con zidovudina durante más de seis meses. Los pacientes que habían completado la fase de inducción (=309) y tenían menos de 200 copias de ARN del VIH por mililitro en las semanas 16, 20 y 24 del tratamiento de inducción, fueron asignados al azar a uno de los tres brazos: tratamiento de inducción continuado, monoterapia con indinavir, y zidovudina más lamivudina. El punto final del estudio primario fue el fracaso para mantener la supresión viral, definida como un aumento en el nivel de ARN del VIH en el plasma de al menos 200 copias/ml. El estudio terminó temprano debido a diferencias significativas en la supresión viral entre los tres brazos........... ...........Clumeck (1999) informó acerca del estudio MIRO, un ensayo controlado aleatorio abierto (open-label) con 40 adultos infectados por VIH. Se incluyeron 85 pacientes con un recuento de CD4+ superior a 100 células/ul y al menos 5000 copias/ml de ARN del VIH para que recibieran tratamiento de inducción durante cuatro meses con dos inhibidores de la transcriptasa inversa análogos de los nucleósidos, y o indinavir, o ritonavir más saquinivir. Ningún paciente había recibido tratamiento previo con inhibidores de la proteasa y 52 (61%) habían sido tratados con un inhibidor de la transcriptasa inversa análogo de los nucleósidos. Los pacientes (n=40) con menos de 400 copias/ml de ARN del VIH luego de 12 semanas de tratamiento fueron asignados para continuar con la tratamiento inicial con inhibidores de la proteasa o a suspender el tratamiento con inhibidores de la proteasa. El punto final del estudio primario fue el fracaso para mantener la supresión viral, definida como un aumento de ARN del VIH en el plasma de al menos 400 copias/ml.” ¿Para qué sirven las revisiones sistemáticas? Resulta difícil al médico asistencial poder leer toda la información que se publica para poder tomar decisiones basadas en la evidencia. Los diferentes aspectos de un tema específico suelen estar dispersos en diversas fuentes de información. Una revisión sistemática permite agruparlos en una fuente común con una visión rigurosa y actualizada. Se reconocen diversos objetivos que un investigador persigue al realizar una revisión sistemática: • poder guiar decisiones y dirigir futuras investigaciones, • definir nuevas preguntas para futuras investigaciones (generar hipótesis), y asistir en la planificación de futuros estudios, • resolver conflictos generados por resultados diferentes obtenidos por diversos estudios realizados, • analizar los resultados que no fueron parte de los objetivos del trabajo original, • investigar variaciones en el tratamiento en distintas situaciones en diferentes subgrupos, • mejorar la precisión en la estimación del tamaño del efecto, en casos de realizarse un meta-análisis, • investigar la presencia y el tamaño del sesgo de publicación, • investigar la heterogeneidad de los datos, y • estimar resultados durante un análisis de costo-efectividad. Como puede apreciar muchos de estos objetivos no se relacionan con generar información que ayude a tomar decisiones. No es casualidad, entonces, que muchas revisiones sistemáticas lleguen a la conclusión que se requiere de más investigación para contestar la pregunta. A pesar de todo, esta conclusión le ayuda al médico asistencial a tomar decisiones sabiendo que no hay evidencia adecuada, significa que deberá decidir basándose en su experiencia profesional y buen juicio clínico. ¿Qué es un Meta-análisis? Existen dos formas de revisiones sistemáticas: "cuantitativa o meta-análisis" y "cualitativa u overview". Las diferencias están dadas fundamentalmente por el uso de métodos estadísticos en el meta-análisis, que permiten la combinación y análisis cuantitativos de los resultados obtenidos en cada estudio. El meta-análisis ha sido definido como "el análisis estadístico de una colección amplia de resultados de estudios individuales con el propósito de integrar sus hallazgos". Un meta-análisis es, entonces, una revisión sistemática en la cual se combinan los resultados de varios estudios que examinan la misma pregunta y combina estadísticamente los resultados de trabajos previos. Cuando un investigador inicia una revisión sistemática no sabe si va a poder realizar un meta-análisis. Para decidir si se puede realizar hay que realizar previamente un análisis de homogeneidad de los datos y evaluar el sesgo de publicación (ver más adelante). Si los datos lo permiten, realizará el meta-análisis y, si no finalizará presentando simplemente una revisión sistemática. En los meta-análisis se trata de resumir en un valor numérico toda la evidencia relacionada a un tópico específico. Se trata de resolver los conflictos generados por diferentes resultados en varios estudios publicados. No es infrecuente la falta de consenso o acuerdo respecto a un tratamiento al momento de la toma de decisiones. Actualmente los profesionales de la salud no cuentan con recursos de tiempo y material adecuados para mantenerse actualizados o poder definir los objetivos de una investigación y encuentran en el meta-análisis una síntesis basada en la mejor evidencia que lo ayuda a definir conductas. Nuevamente, se trata de información que ayuda a tomar decisiones pero no son decisiones en sí mismas. Ventajas de las revisiones sistemáticas y meta-análisis • Detecta y explora las contradicciones aparentes en los resultados de diferentes estudios. Cuando se necesita conocer la respuesta a una pregunta y no hay tiempo o medios económicos para realizar un nuevo ensayo clínico que resuelva el problema, una revisión sistemática es un medio más rápido y menos costoso. • Facilita las decisiones menos subjetivas y reduce sesgos atribuibles al investigador. • Obliga a pensar sistemáticamente acerca de los métodos, resultados, categorizaciones, poblaciones e intervenciones. • El meta-análisis da un resultado global que representa el tamaño del efecto de un tratamiento o la tendencia en su efecto protector o de riesgo e ilustra el carácter de la relación entre las variables. • El meta-análisis al combinar estudios incrementa la potencia estadística, mejora la precisión en la estimación de la magnitud del efecto. • Las revisiones sistemáticas pueden servir como base para un consenso disminuyendo las críticas habituales de falta de un marco objetivo de recolección y revisión de la evidencia. Limitaciones de las revisiones sistemáticas y meta-análisis • La calidad de una revisión sistemática estaría determinada por la calidad de los estudios identificados. • Los estudios incluidos en una revisión sistemática pueden haber incluido diferentes criterios de selección, de tratamiento, de medidas de efectos, etc que limitan la interpretación y generalización de los resultados. • Varios factores pueden contribuir a establecer una conclusión errónea si no son estrictamente evaluados y comparados especialmente al realizar un meta-análisis. Por ejemplo, el tamaño de la muestra, la metodología utilizada para el análisis estadístico, la selección de las variables que se van a utilizar para medir los resultados. • El meta-análisis puede ser muy sensible frente a algunas decisiones metodológicas en la realización de la revisión, esto es que los resultados finales que han sido obtenidos pueden cambiar si sólo se consideran aquellos estudios con ciertas y determinadas características; por ejemplo, la población, el tipo de diseño de estudios, la intervención o resultados medidos. Si tomamos por ejemplo, el tamaño de la muestra, es una variable que con frecuencia se asocia con la posibilidad de error sistemático. Si bien un meta-análisis puede reducir el error por azar en el muestreo, aumentando el tamaño de la muestra al combinar varios estudios, podría ocurrir que el número total de sujetos no sea suficiente para determinar la validez del meta-análisis. • Hay numerosas formas por las cuales se pueden introducir sesgos en las revisiones y meta-análisis de ensayos clínicos controlados aleatorizados. Pueden reflejar sesgos de publicación. Es sabido que los estudios "negativos" o que no muestran diferencias significativas son más difíciles de publicar que los estudios positivos o que muestran resultados con diferencias estadísticamente positivas. Esto determina que los resultados de los meta-análisis pueden estar influenciados por el sesgo de publicación y es necesario ver si esto tiene importancia cuando el meta-análisis muestra diferencias significativas entre los grupos de tratamientos. • Entre los ensayos clínicos controlados aleatorizados (ECR) publicados, aquellos con resultados significativos tienen mas probabilidad de ser publicados en ingles, mas probabilidad de ser citados y de ser publicados mas de una vez, lo que significa que mas probablemente serán identificados e incluidos en revisiones. • La heterogeneidad o variabilidad de los estudios es considerada por algunos autores como una limitación. La heterogeneidad de poblaciones, intervenciones y medidas de resultados pueden persistir a pesar de los estrictos criterios de selección. Recomendaciones del QUOROM El QUOROM fue un consenso entre epidemiólogos, clínicos, editores de revistas e investigadores que propuso una lista de pautas para escribir revisiones sistemáticas y meta-análisis (M.A.) para publicar. Hay especificaciones para cada apartado del informe que intentaremos resumir: • Título: especificar que se trata de una revisión sistemática. • Resumen: estructurado con los siguientes títulos: 1. Objetivo: que explicite la pregunta clínica 2. Fuentes de datos. 3. Métodos de la revisión: criterios de selección, métodos de validación, síntesis de datos cuantitativos con el detalle necesario para su replicación. 4. Resultados: Estudios incluidos y excluidos, hallazgos cualitativos y cuantitativos, análisis de subgrupos. 5. Conclusión. • Introducción: Explicitar el problema clínico y la racionalidad de la intervención y la revisión. • Métodos: 1. De búsqueda: detallados y con sus restricciones. 2. Evaluación de validez: enmascaramiento o ceguera, calidad de artículos identificados. 3. Características de los estudios con su heterogeneidad. 4. Síntesis de datos cuantitativos: manejo de datos ausentes, heterogeneidad, análisis por subgrupos y sesgo de publicación. • Resultados: debe incluir los siguientes puntos: 1. Flujograma: ECR potencialmente detectados para inclusión ⇓ ⇒ ECR excluidos y sus razones ECR retenidos para evaluación detallada ⇓ ⇒ ECR excluidos y sus razones ECR potencialmente apropiados para el M.A. ⇓ ⇒ ECR excluidos del M.A. y sus razones ECR incluidos en el M.A. ⇓ ⇒ ECR retirados según sus desenlaces y sus razones ECR con información utilizable según desenlace • 2. Características de los estudios: edad, tamaño de muestra, intervención, dosis, duración del seguimiento. 3. Datos cuantitativos: concordancia con criterios de selección y validación. Presentar los datos para cada grupo en cada estudio. Presentar cada desenlace y los valores necesarios para calcular los intervalos de confianza según intención de tratar. Discusión: Resumir los hallazgos. Discutir las inferencias clínicas basadas en los criterios de validez. Interpretar los resultados a la luz de toda la evidencia disponible. Describir los sesgos en la revisión. Sugerir agenda de investigación futura. Guía de Lectura Critica de una Revisión Sistemática A.¿ SON VALIDOS LOS RESULTADOS DE LA INVESTIGACION? Criterios primarios 1.¿La pregunta se ha formulado correctamente? En este punto debemos establecer si se puede identificar en la pregunta los cuatro componentes básico y si la podemos clasificar (tratamiento, pronóstico, diagnóstico, daño). 2.¿Los criterios de selección utilizados para la inclusión y exclusión de artículos y documentos fueron apropiados? ¿Los criterios elegidos tuvieron en cuenta los elementos básicos y derivan de la pregunta?: o Tipo de participantes o Tipo de intervención (y de comparación) o Tipo de medida de resultado o Tipo de estudio: para revisiones sistemáticas de cuestiones terapéuticas deben utilizarse sólo ensayos clínicos controlados Si el principal problema que aborda una revisión no está claro a partir del título o del resumen, y no se utiliza el tipo adecuado de estudios, como sugieren Oxman y col, probablemente sea buena idea dejar de leer y pasar al siguiente artículo de revisión. Criterios secundarios 3. ¿Cuál es la probabilidad de haber omitido artículos relevantes? Una búsqueda global y no sesgada de la literatura es una de las diferencias principales entre una revisión sistemática y una revisión narrativa. a) ¿Cuáles fueron las fuentes examinadas? Es importante que los autores lleven a cabo una búsqueda completa de los estudios que cumplan sus criterios de inclusión. Es necesario que los autores indiquen las bases de datos consultadas (idealmente Cochrane Library, Medline y Embase). La búsqueda realizada exclusivamente por medios electrónicos es insuficiente y debería hacerse un seguimiento de las referencias de los estudios identificados y contactar con expertos para la identificación de estudios no publicados. Si está leyendo una revisión sistemática que consultó sólo en Medline y artículos en inglés: ¿cuántos artículos relevantes pudo haber dejado afuera? b) ¿Se estableció una estrategia de búsqueda? ¿Cuál? La recuperación de artículos de las bases de datos bibliográficos electrónicas puede variar mucho en función de la estrategia de búsqueda utilizada. Es preciso que los autores especifiquen cómo han identificado los artículos seleccionados. ¿Los descriptores (DeCS ó MeSH) elegidos fueron los adecuados?¿Qué artículos pudieron haber quedado afuera con la estrategia elegida? c)¿Qué artículos pudieron haberse omitido? Además de las fuentes y la estrategia de búsqueda es recomendable que los autores informen cómo se evaluó el “sesgo de publicación”. Se denomina de esta manera al hecho que muchos estudios realizados no llegan a publicarse nunca porque los autores no los presentan o porque los editores los rechazan. Es más frecuente que no se publiquen artículos negativos (donde los resultados fueron estadísticamente no significativos) y que se publiquen estudios con resultados positivos con el riesgo que esto comporta de sobrestimación de la eficacia. Hay diferentes métodos de evaluar la presencia de sesgo de publicación y los autores de una revisión sistemática deben informar alguno. La inclusión de estudios no publicados disminuye las posibilidades de sesgo de publicación. 4.¿Se analizó la validez de los estudios incluidos? Este punto es trascendental dado que la calidad de la revisión sistemática depende fundamentalmente de la validez de los artículos encontrados. Es importante conocer la calidad de los estudios primarios incluidos en la revisión porque la revisión de expertos no garantiza la validez de la investigación publicada. Las diferencias metodológicas de los estudios pueden explicar importantes diferencias entre los resultados (los estudios menos rigurosos tienen tendencia a sobreestimar la efectividad de las intervenciones terapéuticas). 5.¿Las evaluaciones de la validez de los estudios fueron reproducibles? No existe una única forma correcta de evaluar la validez de los estudios, pero sí existen multitud de métodos para valorarla y debe utilizarse alguno de ellos. Recuerde que se recomienda que se realice en forma enmascarada por dos evaluadores y que se informe la concordancia y la forma de resolver el desacuerdo. 6.¿Los resultados de los estudios fueron similares entre sí? La mayor parte de las revisiones documentan diferencias importantes, de un estudio a otro, en el tipo de pacientes, exposiciones, resultados y métodos de investigación. Es necesario que el lector sepa cuándo estos factores son tan diferentes como para que no tenga sentido integrar los resultados ya hacer un meta-análisis. ¿Se evaluó la heterogeneidad de los datos? Un criterio para decidir combinar los resultados cuantitativamente es si los estudios parecen medir la misma magnitud del efecto. Los revisores deben de haber analizado estas posibles diferencias mediante las llamadas “pruebas de homogeneidad”. Homogeneidad significa que los resultados de cada estudio individual son matemáticamente compatibles con los resultados de los otros estudios primarios. Cuanto más homogénea es una prueba, más probable es que las posibles diferencias sean fruto de la casualidad. Por otra lado, cuando existe “heterogeneidad” estadísticamente significativa deja de tener sentido integrar los resultados. Cuando la heterogeneidad de los resultados de varios estudios es significativa, se recomienda no realizar el metaanálisis. Combinar resultados heterogéneos en el análisis puede llevar a conclusiones erróneas. B.¿CUÁLES SON LOS RESULTADOS? 1. ¿Cuáles fueron los resultados generales de la revisión? a) ¿Responden a los objetivos de la revisión? b) ¿Se acercan a los esperados? 2.¿Cuál fue la precisión para los resultados hallados? Cualquier resultado numérico, por más preciso y "estadísticamente significativo" que sea, debe situarse en el contexto de la pregunta a la que la revisión pretende dar respuesta. Un buen meta-análisis debe ser más fácil de entender que el conjunto de ensayos clínicos que contiene. Debe sintetizar los datos relevantes de los estudios primarios incluidos (criterios de inclusión, tamaños de muestra, características de los pacientes, características fundamentales de los ensayos clínicos, resultados principales y secundarios). Respecto a la presentación de resultados de los meta-análisis podemos decir que incluyen tablas o gráficos con la estimación puntual y el intervalo de confianza, para cada estudio como para la combinación global (resultado del meta-análisis). Ejemplo: con el mismo ejemplo citado anteriormente. En la figura podemos ver la representación gráfica de un meta-análisis, con la medida de efecto (odds ratio) para cada uno de los 4 ensayos clínicos y global para el conjunto de los mismos (total). La conclusión de los autores fue la siguiente: “Los cuatro estudios sugieren enfáticamente que la disminución del número de medicamentos antirretrovirales, y especialmente de los inhibidores de la proteasa, luego de un tratamiento de inducción exitoso por VIH-1, no tiene éxito. El punto final primario medido por los cuatro estudios fue la reaparición de ARN del VIH en el plasma, un punto final intermedio que supuestamente se correlaciona con riesgo de progresión clínica y muerte”. Volviendo a la figura: La línea horizontal correspondiente a cada uno de los ensayos nos muestra el riesgo relativo de la reaparición del ARN en los pacientes aleatorizados a recibir tratamiento con menor número de antirretrovirales, en comparación con los aleatorizados a recibir tratamiento con 3 ó 4 drogas. La "mancha" (cuadrado) en medio de cada línea horizontal es la estimación puntual de la diferencia entre los 2 grupos. El tamaño de la mancha es proporcional al tamaño de la muestra del estudio individual. El ancho de la línea horizontal representa el intervalo de confianza del 95%, lo que indica la precisión del resultado. La línea vertical en el centro del gráfico representa la "línea de efecto nulo", con un odds ratio igual a 1. En caso de que la línea horizontal (intervalo de confianza) se cruce con la línea vertical, esto puede significar que, o bien no existen diferencias entre los tratamientos, o que el tamaño de la muestra es insuficiente para detectar dichas diferencias. Cada uno de los estudios individuales tiene su odds ratio y su intervalo de confianza, pero el diamante de la parte inferior de las líneas horizontales representa la suma de los odds ratio de todos los ensayos, con un nuevo intervalo de confianza mucho más estrecho o preciso. Si el diamante sobrepasara claramente la línea de efecto nulo, los resultados son estadísticamente no significativos. Es decir, no podríamos afirmar que un tratamiento es mejor que otro. Cuanto más estrecho sea el diamante, más preciso será el resultado final, y cuanto más alejado esté de la línea de efecto nulo, más a favor estará que el resultado no se debe al azar. Quedaría por explicar la columna del peso (“weight”). En la misma se puede observar en cuánto aportó cada estudio individual al resultado global. Sería importante saber que, por ejemplo, un estudio de baja calidad aporta un 80% al resultado global. En este caso quizá el uso de ese resultados no sea tan fácil comparado a un meta-análisis donde un estudio de buena calidad aporta el 60% al resultado final. Complementario a esta idea está el concepto de análisis de sensibilidad. Como en otros estudios secundarios es recomendable que los autores realicen un análisis de sensibilñidad para evaluar si los resultados del metaanálisis son “robustos”. Para explicar en términos simples se trata de preguntarse “¿Qué pasa con los resultados si....?”. Ejemplo: ¿qué pasa si hago el meta-análisis utilizando sólo estudios con buena calidad?¿Qué pasa si hago el meta-análisis con estudios de baja calidad exclusivamente?¿Qué pasa si analizo sólo a subgrupos más graves? ¿Qué pasa si analizo subgrupos más leves?, etc... Si los autores del metaanálisis realizaron varios análisis de sensibilidad y todos los resultados fueron similares, podemos decir que las conclusiones son “robustas” y más confiables que si no cumplieron con esta característica. C.¿LOS RESULTADOS MEJORARAN LA ATENCIÓN DE MIS PACIENTES? 1.¿Los resultados son aplicables a mis pacientes? El uso de la mejor de las evidencias no puede pasar por encima del conocimiento personal del paciente. Es necesario conocer sus características individuales y preferencias. Por muy significativo que sea el resultado final del meta-análisis, esto no significa que se deba ofrecer indiscriminadamente el tratamiento a todo aquel individuo que tenga la enfermedad o manifestación. El clínico debe decidir cómo va a influir este resultado numérico en la atención a un paciente en particular. Cuando se lee críticamente una revisión sistemática hay que evaluar la validez externa de los ensayos clínicos que contiene. ¿Están descritas las características de los pacientes incluidos en los estudios primarios?, ¿son parecidos a los nuestros? COMENTARIO FINAL Intentamos presentar una serie de elementos que le permitan analizar críticamente los estudios clínicos más frecuentes. El tema es extenso y posiblemente complicado dado que la lógica que se emplea en estas investigaciones es un tanto diferente al razonamiento clínico habitual. A pesar de ello esperamos que los conceptos y metodologías descritos le sean de utilidad. Recuerde, sin embrago, que los resultados de investigaciones son sólo elementos que ayudan a tomar decisiones pero no son decisiones en sí mismas. Una “p” significativa implica sólo una decisión estadística no una decisión clínica. Nada puede reemplazar la experiencia del profesional y su buen juicio clínico. La “evidencia” es sólo un complemento. ¡¡¡MUCHA SUERTE!!! Direcciones en Internet para profundizar algunos conceptos: http://www.infodoctor.org/rafabravo/mbepasos.htm http://www.fisterra.com/mbe/ http://www.cche.net/che/home.asp http://www.cebm.net/ BIBLIOGRAFÍA 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. Hulley SB, Cummings: Diseño de la Investigación Clínica. Un Enfoque Epidemiológico. Barcelona, España. Doyma. 1993. Polit D, Hungler B: Investigación científica en ciencias de la salud. México. Interamericana-McGrawHill. 1994. Rothman KJ. Causal inference. Chesnut Hill, Massachusets: Epidemiolology Resources Inc, 1988. Haynes RB, McKibbon KA, Fitzgerald D, Guyatt GH, Walker CJ, Sackett DL. How to keep up with the medical literature: I. Why try to keep up and how to get started. Ann Intern Med. 1986; 105: 149 53. Evidence Based Medicine Working Group. Evidence-based medicine. A new approach to teaching the practice of medicine. JAMA 1992; 268:2420-5. Guyatt GH, Sackett DL, Cook DJ for The Evidence Based Medicine Group. Users' guides to the medical literature. I. How to get start. JAMA. 1993; 270: 2598 601. Sackett DL, Haynes BR, Guyatt GH, Tugwell P . Epidemiología Clínica. Ciencia Básica para la Medicina Clínica. 2a. Ed. Buenos Aires: Editorial Médica Panamericana, 1994. Greenhalagh T. How to read a paper: the basics of evidence based medicine. London: BMJ Publishing Group, 1997. Sackett D et al Evidence Based Medicine: how to teach and practice EBM. 2nd Ed Edimburgh, Churchill Livingston Publishers. 2000. Castiglia VC: Principios de investigación biomédica. Buenos Aires. Estudio de Proyectos Científicos. 1995. Klimovsky G: Las desventuras del conocimiento científico. Buenos Aires. A-Z Editora. 1994. Pineda EB, Alvarado EL, Canales FH: Metodología de la Investigación. Manual para el desarrollo de personal de salud. 2da. Edición. Serie PALTEX para ejecutores de Programas de Salud Nro.35. OPS. 1994. Love HJ, Barnett O. Understanding and using the Medical Subject Headings (MeSH) vocabulary to perform lietrature searches. JAMA 1994; 271:1103-8. McKibbon KA, Walker Dilks CJ. Beyond ACP Journal Club: how to harness Medline to solve clinical problems [Editorial]. ACP J Club 1994; 120(suppl 2): A10-12. Dickersin K, Scherer R, Lefebvre C. Identifying relevant studies for systematic review. BMJ 1994; 309:286-9. Haynes RB, McKibbon KA, Fitzgerald D, Guyatt GH, Walker CJ, Sackett DL. How to keep up with the medical literature: I. Why try to keep up and how to get started. Ann Intern Med. 1986; 105: 149 53. Evidence Based Medicine Working Group. Evidence-based medicine. A new approach to teaching the practice of medicine. JAMA 1992; 268:2420-5. Guyatt GH, Sackett DL, Cook DJ for The Evidence Based Medicine Group. Users' guides to the medical literature. I. How to get start. JAMA. 1993; 270: 2598 601. Greenhalagh T. How to read a paper: the basics of evidence based medicine. London: BMJ Publishing Group, 1997. Sackett D et al Evidence Based Medicine: how to teach and practice EBM. 2nd Ed Edimburgh, Churchill Livingston Publishers. 2000. Mas Vilardeli T, Jordá Olives. La base de datos MEDLINE. JANO 1997. Augustovski F: Información Digital. Una brújula con los recursos más útiles. Evidencia en Atención Primaria. Volumen 3. Julio-Agosto Año 2000. Gagliardi A, Jaded A. Examination of instruments used to rate quality of health information on the internet: chronicle of a voyage with an unclear destination BMJ 2002;324:569–73 Haynes RB, Guyatt GH. Clincal expertise in the era of evidence-based medicine and patient choice. ACP Journal Club 2002; 136:A11-A13 Haynes RB. Of studies, synthesis, synopses, and systems: the “4s” evolution of services for finding current best evidence. ACP Journal Club 2001134:A11-A13 Rosenberg W, Donald A. Evidence based medicine: an approach to clinical problem-solving. BMJ 1995;310:1122-6. Sackett DL, Rosenberg W, Muir JA, Haynes RB, Richardson WS. Evidence based medicine: what it is and what it isn't. BMJ 1996;312:71-2. Bonfill X. La Colaboración Cochrane. Jano 1997;52(1204):63-5. Oxman AD, Sackett DL and Guyatt GH. Users' guides to the medical literature. I. How to get started. JAMA 1993; 270: 2093-2095, 30. Pagano M, Gauvreau K: Principles of Biostatistics. Duxbury Press. 1993. 31. Colton T: Estadística en Medicina. Salvat Editores SA. 1979. 32. Mulrow CD, Oxman AD, editores. Cochrane Collaboration Handbook (updated September 1997). En: The Cochrane Library (database on disk and CD-ROM). The Cochrane Collaboration. Oxford: Update Software, 1994; 4. 33. Dickersin K, Scherer R, Lefebvre C. Identifying relevant studies for systematic reviews. BMJ 1994; 309: 1286-1291. 34. Chalmers TC, Celano P, Sacks HS, Smith H. Bias in teatment assignment in controlled trials. N Engl J Med 1983; 309: 1358-1361. 35. Egger M., Smith G., and Rourke K. Rationale, potentials and promise of systematic reviews. In: Systematic Reviews in Health Care. Meta-analysis in context, edited by Egger M., Smith G., and Altman D., London:BMJ, 2001, p. 3-19. 36. Ortiz Z. meta-análisis como método básico en la investigación científica y en la práctica diaria. Boletín Academia Nacional de Medicina 1997; 75, 469-475. 37. Naylor D. Meta-analysis of Controlled Clinical Trials. J Rheumatol 1989; 16 (4): 42426. 38. Dickersin K. The existence of publication bias and risks factors for its occurence. JAMA 1990; 263 (10): 1385-1389. 39. Thompson S. Why sources of heterogeneity in meta-analysis should be investigated?. BMJ 1994; 309: 1351-5. 40. Chalmers I. Applying overviews and meta-analysis at the bedside: Discussion. J Clin Epidemiol 1995, 48 (1): 67-70. 41. QUOROM. Lancet 354:1896-900,1999.