ANÁLISIS ESTADÍSTICO EN UN ENSAYO CLÍNICO: DETERMINACIÓN DEL TAMAÑO MUESTRAL, INTERPRETACIÓN DE RESULTADOS FC 5 ETAPAS DEL ANÁLISIS ESTADÍSTICO ANTES DE EMPEZAR EL ENSAYO (DISEÑO) -Definición de variable principal y variables secundarias. -Cálculo del tamaño de la muestra. DURANTE LA REALIZACIÓN DEL ENSAYO -Recogida de datos. -Análisis intermedios. AL FINAL DEL ENSAYO -Comparación de las características basales. -Análisis de la variable principal y las secundarias: ·variables continuas. ·variables discretas. ·análisis de supervivencia. -Tipos de análisis: ·test de significación estadística. ·intervalos de confianza. -Efecto relativo vs. efecto absoluto. -Análisis por intención de tratar vs. análisis por protocolo. -Análisis de subgrupos. Antes de empezar: 1. DEFINICIÓN DE VARIABLES Se reconocen variables principales y secundarias. VARIABLE PRINCIPAL La variable principal viene definida por el objetivo principal del estudio; por ello ha de ser adecuada para medir el objetivo principal. Es recomendable que exista sólo una variable principal, ya que la existencia de varias dificulta mucho el diseño del estudio; por otro lado, cuantas más variables se manejen, mayor probabilidad que la significación encontrada en alguno sea por azar. Se pueden usar variables subrogadas, que se relacionan con la principal y se ven más rápido o con mayor facilidad. Ej.: sea un fármaco, siendo el objetivo disminución de la mortalidad; se puede usar la variable subrogada TA, ya que por otros estudios se sabe que la disminución de la TA se relaciona con disminución de mortalidad. Y para demostrar disminución de TA se necesitan 100 pacientes durante 6 meses, mientras que para demostrar disminución de mortalidad se necesitan 2000 pacientes durante 5 años (datos ficticios). Pero al final habrá que realizar un estudio para demostrar disminución de mortalidad. VARIABLES SECUNDARIAS Las secundarias serán tantas como se quieran para evaluar los objetivos secundarios. Existen objetivos secundarios porque hacen más interesante la inversión del tiempo y el dinero en el estudio. Se construye un estudio para un objetivo y se aprovecha la estructura para, con poco gasto extra, estudiar otras cosas. Estos objetivos suelen ser planteamientos de hipótesis que darán lugar a futuros estudios. Pero no se puede olvidar que los objetivos secundarios no justifican nunca el estudio. Ej.: un estudio que valora el comportamiento de un antiagregante vs. AAS para la prevención del ictus; se ve que ambos son iguales en este aspecto, pero se ve que el antiagregante tiene menos efectos dañinos para el estómago. Para demostrar esto habrá que hacer otro ensayo donde esto sea la variable principal. TIPOS DE VARIABLES CUALITATIVAS, DISCRETAS O CATEGÓRICAS A su vez pueden ser: ·dicotómicas o binarias: sí/no. Ej. mortalidad/curación. ·ordinales: no hay igual distancia entre los diferentes valores. Ej. remisión completa/remisión parcial/no cambio/progresión (ej. en un cáncer). CUANTITATIVAS O CONTINUAS Escala igual para todas y se puede medir a diferentes puntos de la escala. Hay igual distancia entre los valores. Ej. TA, Tª, peso… En ellas se puede medir la diferencia (TAantes-TAdespués), la razón (TAantes/TAdespués) o el porcentaje de cambio ((TAantesTAdespués)/TAantes · 100). TIEMPO DE SUPERVIVENCIA O TIEMPO HASTA LA RECAÍDA Es una variable continua pero se estudia aparte. Mucho uso en pacientes con cáncer: hasta que el paciente se muere o hasta que el cáncer progresa. 2. CÁLCULO DEL TAMAÑO DE LA MUESTRA ¿POR QUÉ ES NECESARIO CALCULAR EL TAMAÑO DE LA MUESTRA ANTES DE EMPEZAR EL ESTUDIO? Aunque el cálculo que se hace es siempre teórico y sujeto a error, este error es siempre menor que si se asume un tamaño por simple azar. Si nuestra muestra es insuficiente no será capaz de detectar efectos clínicos relevantes (será científicamente inútil). Si es excesiva estaremos derrochando el tiempo y el dinero, aparte de que éticamente no es correcto exponer a un tratamiento que a priori no se sabe su utilidad a más pacientes de lo estrictamente necesario. PARÁMETROS DE LOS QUE DEPENDE EL TAMAÑO DE LA MUESTRA Los 4 primeros son las más imp. MAGNITUD DEL EFECTO QUE QUEREMOS DETECTAR () Si queremos demostrar pequeñas diferencias, hará falta un gran tamaño muestral, y viceversa. Martín-Luna 187: en un ejemplo de tramposos y honrados, si queremos realizar un test de honradez, sería la mínima diferencia importante; en el ejemplo que pone: pudiera no importarnos declarar honrados a todos aquellos tramposos q usen una moneda tan poco trucada cuya probabilidad de cara sea inferior al 55%. Pero deseamos q nuestro test detecte a los fulleros del tipo p>55. La diferencia 0’55-0’50 = 0’05 es la magnitud del test. VARIABILIDAD DE LA VARIABLE PRINCIPAL Cuanto más variante sea la variable inicial, mayor tamaño muestral necesitamos. ERROR TIPO I O ERROR Probabilidad de tener un falso positivo. Está estipulado en 0,05 (5%). El valor p<0,05 está previamente definido. Se da un valor tan bajo porque estamos hablando de la probabilidad de considerar válido un fármaco cuando realmente no lo sea. ERROR TIPO II O ERROR Probabilidad de obtener un falso negativo. Se considera adecuado 0,2 ó 0,1. Teóricamente es menos relevante, ya que define la probabilidad de considerar no adecuado un fármaco que realmente sí es válido. En este caso, la casa comercial se encarga de realizar otro estudio hasta comprobar la eficacia de su fármaco. OBJETIVO DEL ESTUDIO Y LA VARIABLE PRINCIPAL. Depende de: PODER ESTADÍSTICO Es la probabilidad de detectar una diferencia cuando realmente exista. Se define como 1-, siendo pues el 80 ó 90%. Detecta los verdaderos positivos. Martín-Luna: siguiendo con el ejemplo de tramposos, podríamos desear que un 90% de los fulleros del tipo p= 0’55 sean detectados por el test siendo éste significativo. Esto quiere decir que la potencia o poder estadístico es del 90% para p=0’55 o que el error beta es del 10%. Así, no me importa calificar de honrados a un 10% de los fulleros p=0’55. Esto tb implica que si p>0’55, la potencia será mayor y el error beta disminuirá. Así, sentadas las bases y obtenemos el valor de n. Si recordamos que todo aumento de n ocasiona una disminución de beta, la esencia del problema consiste en ir aumentando n hasta lograr que el valor p) –para un valor p prefijado 0’55sea tan pequeño como se desee. Obviamente, ct más exigentes seamos con las condiciones iniciales alfa, beta y la magnitud, mayor tamaño muestral necesitaremos. PROPORCIÓN DE PACIENTES EN LOS DISTINTOS GRUPOS Los tamaños muestrales pueden ser iguales (1:1) o distintos (2:1, 3:1); estos últimos requieren muestras mayores, pero pueden ser interesantes. P. ej. un nuevo fármaco, en el grupo que lo toma se pone mayor muestra para ver también los efectos secundarios, etc. PROPORCIÓN DE PÉRDIDAS (d) Se calculan a priori por estudios previos o definidos por el investigador. Las pérdidas no valen para estudio principal al final. Para calcularlas se multiplica el tamaño muestral por 1/(1-d). FÓRMULAS PARA EL CÁLCULO DEL TAMAÑO MUESTRAL Estas fórmulas incluyen los parámetros comentados, según el tipo de variables y el tipo de estudio. Existen programas informáticos, incluso gratuitos en internet, que calculan el tamaño muestral en multitud de condiciones, con fórmulas que pueden llegar a ser muy complejas. En general son todas (variabilidad / magnitud ) x Factor. VARIABLES CUALITATIVAS (DICOTÓMICAS) Chi cuadrado. n p1 ·(100 p1 ) p2 ·(100 p2 ) · f ( , ) , donde ( p2 p1 ) 2 ·el numerador mide la variabilidad. ·el denominador mide la magnitud. ·f(,) es el factor que considera y . Factor estadístico para de 0,05 y de 0,2 ó 0,1, que es 7,9 ó 10,5, respect. ·n = nº de pacientes por cada brazo de tratamiento. ·p1 = porcentaje de éxito esperado con el tratamiento habitual. ·p2 = porcentaje de éxito esperado con el tratamiento nuevo. VARIABLES CUANTITATIVAS t de Student. 2s 2 n · f ( , ) (m2 m1 ) 2 , donde ·el numerador mide la variabilidad. ·el denominador mide la magnitud. ·f(,) es el factor que considera y . Factor estadístico para de 0,05 y de 0,2 ó 0,1, que es 7,9 ó 10,5, respect. ·n = nº de pacientes por cada brazo de tratamiento. ·s = desviación estándar de la respuesta. ·m1 = respuesta esperada con el tratamiento habitual. ·m2 = respuesta esperada con el tratamiento nuevo. ESTUDIOS DE EQUIVALENCIA TERAPÉUTICA (ENSAYOS NEGATIVOS) Es el caso de los genéricos. Cuando se quiere sacar al mercado un genérico hay que demostrar que es igual al fármaco que ya existe. En este punto nos encontramos con un problema: en estadística es imposible demostrar que dos tratamientos son iguales. Por ello, lo que se hace es demostrar que no son diferentes con una probabilidad <0,05. Así: n 2 p·(100 p) · f ( , ) d2 , donde ·en el numerador solo hay una “p” porque se consideran iguales. ·el denominador mide la diferencia clínicamente relevante. ·f(,) es el factor que considera y . Factor estadístico para de 0,05 y de 0,2 ó 0,1, que es 7,9 ó 10,5, respect. ·n = nº de pacientes por cada brazo de tratamiento. ·p = porcentaje de éxito esperado con el tratamiento habitual. ·d = diferencia clínicamente relevante. Ejemplo: ensayo clínico de un nuevo antibiótico comparado con cefuroxima en neumonía: p = 85%; d = 10%; = 0,05; = 0,2. n = 202. Pérdidas: 15% n = 238. Para los genéricos se suele admitir una diferencia no mayor del 10-20% con el original como válido. DURANTE EL ESTUDIO: 3. RECOGIDA DE DATOS: Se recogen datos sobre: ·el tratamiento. ·factores pronósticos que puedan afectar a los resultados (edad, sexo, reza, etc.). ·datos de respuesta al tratamiento, incluyendo efectos secundarios (variables principal y secundarios). 4. ANÁLISIS INTERMEDIOS Estos análisis se suelen realizar en los ensayos en fase III, comparando con el fármaco antiguo. JUSTIFICACIÓN -Problema ético: son estudios (fase III) sobre muchos pacientes, ¿hay que esperar a que todo el mundo se exponga? No, el análisis se comienza cuando la muestra sea razonable. -Razones económicas: puede ser que nos ahorremos la mitad del estudio. -Razones prácticas: comprueba la buena marcha del ensayo y si es necesaria alguna modificación. INCONVENIENTES Aumenta el riesgo de cometer un error tipo I (falso positivo) porque, mientras más estudios se hacen sobre una muestra, más probabilidades hay de que la diferencia sea debida el azar. Por esto deben estar previstos en el protocolo del estudio y hacer pocos y sólo para la variable principal. Para no alterar el curso del estudio se debe mantener la confidencialidad de los resultados. Existe un comité de estudio, independiente de los investigadores; así no se descubre el doble ciego. Para que el azar no aumente las probabilidades de encontrar una diferencia se realiza lo que se llama una penalización estadística, esto es, se considera que se necesita una p<0,01 para la significación de estos análisis. AL FINAL DEL ESTUDIO: 5. COMPARACIÓN DE LAS CARACTERÍSTICAS BASALES Lo primero es comprobar que los dos grupos son homogéneos, esto es, que solo difieren en la variable que se mide y no en otras. En el caso de tener factores pronósticos diferentes en los dos grupos puede ser necesario hacer algún ajuste estadístico para compararlos. PRESENTACIÓN DE RESULTADOS CONFORME A LA ESTADÍSTICA DESCRIPTIVA Las variables cualitativas se expresan en porcentajes. Para las cuantitativas se utilizan: ·la media y desviación estándar o error estándar. ·la mediana y el rango. ·el intervalo de confianza. COMPARACIÓN DE LAS VARIABLES DEL ESTUDIO Comparar las variables principales y secundarias entre ambos grupos. Ejemplo de Comparación de las características basales: • metoprolol vs placebo después de IAM placebo N 697 Hombres 76,2% Edad (M ± SEM) 60,0 ± 0,3 IAM previo 22,7% HTA 29,7% Signos ECG de IAM 47,8% Mortalidad (90 días) 8,9% metoprolol 698 75,5% 60,0 ± 0,3 21,2% 29,1% 49,9% 5,7% Otro ejemplo: Representación gráfica de los resultados Vemos como presentar los resultados como intevalo de confianza es más correcto que hacerlo por DS o Error estandar. 6. TEST DE SIGNIFICACIÓN ESTADÍSTICA OBJETIVO Rechazar la hipótesis nula (H0) de no diferencia entre los tratamientos: ·calculan la probabilidad (p) de que la diferencia observada sea explicada por el azar. ·cuanto menor sea esta probabilidad, mayor será lo evidencia en contra de H0 (significativo si <0,05). · la p sólo indica que no interviene el azar, pero un p muy significativa no indica que la variable es más o menos diferente. La magnitud es la que da la diferencia. El intervalo de confianza sí mide la diferencia de magnitud. VARIABLES CUALITATIVAS -Comparación de 2 o más porcentajes: chi cuadrado. -Pequeño tamaño de muestra: test exacto de Fisher. VARIABLES CUANTITATIVAS -Comparación de 2 medias: t de Student para muestras independientes o para muestras pareadas. -Comparación de más de 2 medias: ANOVA seguido de comparaciones a posteriori entre grupos. -Comparación de medias obtenidas en diferentes momentos de tiempo: ANOVA para medidas repetidas. VARIABLES CUANTITATIVAS CUANDO NO SIGUEN UNA DISTRIBUCIÓN NORMAL (<30 PACIENTES) -Transformación de los datos para normalizados. -Pruebas no paramétricas: test de Wilcoxon o U de Mann-Withney, test de KruskallWallis. 7. AJUSTE PARA FACTORES PRONÓSTICOS Cuando los dos grupos de comparación difieren en algún factor pronóstico deberemos usar otras pruebas de significación estadística: -Para respuestas cuantitativas: regresión múltiple o análisis de covarionza (ANCOVA). -Para respuestas cualitativas: regresión logística, test de Mantel-Haenszel. La desigualdad entre factores pronósticos es más frecuente cuando la asignación del tratamiento no es aleatorio o el tamaño de la muestra es pequeño. 8. ANÁLISIS DE SUPERVIVENCIA -Curva de supervivencia: método de Kaplan-Meier. -Pruebas estadísticas: Iogrank o Mantel-Cox, test de Breslow. 9. INTERPRETACIÓN DE LOS RESULTADOS INTERPRETACIÓN DE LOS TEST DE SIGNIFICACIÓN ESTADÍSTICA Simplemente evalúan cómo es de fuerte la evidencia de que un tratamiento sea superior a otro. A pesar de que p<0,05 existe 1 probabilidad entre 20 de que ese tratamiento realmente no sea mejor que el otro (falso positivo). Si p>0,05 no quiere decir que los dos tratamientos sean iguales. Cuanto menor sea la p, mayor será la evidencia de que la diferencia observada sea real, pero no nos indica la magnitud de esa diferencia. Significación estadística no es lo mismo que relevancia clínica. Ej.: estudio con 10.000 pacientes con neumonía; curación con cefuroxima: 85%; curación con el nuevo antibiótico: 86%; p=0,03 significación estadística; diferencia de curación = 1% no relevancia clínica. Nota: recalcar que la p lo que indica es la fuerza de la evidencia, no que ésta sea clínicamente significativa. Recordar que en estadística no se puede concluir nunca que 2 supuestos son iguales. Recordar que p>0,05 lo que indica es no estadísticamente significativo, no que sean iguales. Todo ello nos lleva a considerar como más adecuados para el estudio los intervalos de confianza. INTERPRETACIÓN DE LOS INTERVALOS DE CONFIANZA Estiman la magnitud de la mejoría de un tratamiento respecto a otro, por lo que es preferible a los tests de significación. Nos dan una idea de cuál será el valor real en una población futura de pacientes. La amplitud del intervalo depende del tamaño de la muestra y de la desviación estándar. IC 95%: nos indica el intervalo dentro del cual estará incluido el valor real con un 95% de probabilidades: IC 95% = valor observado ± 1,96 · error estándar. Relacionado con el test de significación estadística: significativo si los 2 límites del intervalo van en el mismo sentido (no incluye el 0). Ej. metoprolol vs. placebo en IAM; mortalidad con metoprolol: 5,70%; mortalidad con placebo: 8,9%; diferencia entre grupos: 3,2%; p = 0,023 significación estadística; IC95% = 0,4% - 6,0% significación estadística porque el intervalo no incluye el 0, pero el efecto real puede ser muy pequeño o muy grande. Nota: la idea es que añaden a la significación estadística la posible relevancia clínica, ya que se puede medir si la diferencia clínica es o no aceptable. CUANTIFICAR EL EFECTO: ABSOLUTO vs. RELATIVO EJEMPLO 1 Muertos Vivos Total 40 658 698 Metoprolol 62 635 697 Placebo 102 1293 1395 Total *Riesgo relativo (RR) = incidencia en expuestos/incidencia en no expuestos. En el ejemplo: RR = (40/698)/(62/697) = 5,7%/8,9% = 0,64. *Reducción del riesgo = (incidencia en no expuestos – incidencia en expuestos)/incidencia en no expuestos. = 36% En el ejemplo: (8,9–5,7)/8,9 = 36%. Nos indica que un paciente tratado con metoprolol tiene una probabilidad de morir a los 90 días un 36% inferior. *Beneficio absoluto: incidencia en no expuestos – incidencia en expuestos. En el ejemplo: 8,9–5,7 = 3,2%. Número de vidas salvadas por cada 1000 pacientes tratados: 32. *NNT: nº de pacientes que necesitamos tratar para salvar una vida o para evitar un evento. Es 100/diferencia absoluta. En el ejemplo: 100/3,2% = 31. EJEMPLO 2 Placebo Metoprolol MORTALIDAD 40% 20% Pacientes de alto riesgo 4% 2% Pacientes de bajo riesgo *Riesgo relativo: en los dos tipos de pacientes se observa una reducción del riesgo de un 50%. *Beneficio absoluto (diferencia de riesgo): 20% y 2% respect. RR BA (DR) Pacientes de alto riesgo 20/40 = 0,5 40–20 = 20% Pacientes de bajo riesgo 2/4 = 0,5 4–2 = 2% *Nº de vidas salvadas por cada 1000 pacientes tratados: ·pacientes de alto riesgo: 200. ·pacientes de bajo riesgo: 20. *NNT: ·pacientes de alto riesgo: 100/20 = 5. ·pacientes de bajo riesgo: 100/2 = 50. *El efecto absoluto es un mejor indicador del efecto real de un tratamiento en un grupo de pacientes concretos. El beneficio absoluto, la cuantificación en NNT y el nº de vidas salvadas por cada 1000 pacientes tratados es lo que al final se usa para la realización de programas generales de salud pública, etc., ya que nos permite cuantificar el costo/beneficio del fármaco. ¡¡¡SEGURO QUE CAE EN EXAMEN EL CONCEPT DE NNT!!! ANÁLISIS POR INTENCIÓN DE TRATAR vs. ANÁLISIS POR PROTOCOLO El ANÁLISIS POR INTENCIÓN DE TRATAR o según la asignación aleatoria es más adecuado. El ANÁLISIS POR PROTOCOLO o de casos válidos es el que solo tiene en cuenta los pacientes que completan el estudio de acuerdo al protocolo. En el análisis por intención de tratar se incluyen los que se han salido (ej. los que se curan y no vuelven, los que abandonan por efectos secundarios…); por esto se considera que es más adecuado el análisis por intención de tratar que por protocolo, sobre todo en los ensayos en fase III (muchos pacientes, fármaco en el mercado). EJEMPLO Un ensayo empieza con 400 pacientes, 200 con tto. A y 200 con tto. B. Del brazo del tto. A se van 40 (quedan 160). Curan 80. Del brazo del tto. B se van 10 (quedan 190). Curan 75. En el análisis por intención de tratar se ve que A tiene un éxito del 40% y B del 37,5%. La diferencia de riesgo es de 2,5% (rango desde –7% a 12%). En el análisis por protocolo se ve que A tiene un éxito del 50% y B del 39,5%. La diferencia de riesgo es de 10,5% (rango desde 0,1% a 20,9%). *Se ve claramente que el análisis por intención de tratar es más exigente. ANÁLISIS DE SUBGRUPOS El análisis de unos subgrupos concretos de acuerdo a unos criterios concretos expuestos de antemano es lícito. Al aumentar el nº de análisis aumenta la probabilidad de cometer un error tipo I. Cualquier análisis o comparación adicional es siempre de carácter exploratorio, es decir, sirve para generar hipótesis, no para confirmarlas. EL PROBLEMA DE LA MULTIPLICIDAD DE ANÁLISIS (RIESGO DE HACER MUCHOS ANÁLISIS) La realización de múltiples tests de significación estadística incrementa la probabilidad de falsos positivos: ·múltiples tratamientos. ·análisis de subgrupos. ·múltiples objetivos. ·análisis intermedios. ·medidas repetidas. Nº de tests repetidos al nivel de 5% 1 2 3 4 5 10 20 Nivel global de significación 0,05 0,08 0,11 0,13 0,14 0,19 0,25 Nivel de significación requerido para mantener el 5% 0,05 0,029 0,022 0,018 0,16 0,0106 0,0075 Ya se comento la importancia de no realizar muchos estudios sobre la muestra porque aumentaba la probabilidad de falsos positivos. También en los análisis intermedios se consideró la posibilidad de una penalización estadistíca. En esta línea está este punto del tema. Conforme se repiten estudios sobre datos acumulados hay que disminuir el nivel de significación para mantener el 5% requerido. Intuitivamente se ve que si se maneja un margen del 5%, en 100 estudios, 5 darían resultados positivos por azar; por ello, si se realizan varios estudios, hay que disminuir el nivel para que al final se mantenga ese 5% requerido.