19/11/2013 Regresión de Cox Javier Zamora Unidad de Bioestadística Clínica. IRYCIS 1 Objetivos del análisis de supervivencia • Estimar e interpretar las curvas de i i y/o / riesgo. i supervivencia • Comparar curvas de supervivencia, por ejemplo, entre dos tratamientos, o entre dos, o más, grupos de pacientes. • Evaluar la relación de la supervivencia con otras, más de una, variables pronósticas. 2 1 19/11/2013 Comparar curvas de supervivencia ¿es distinta la supervivencia entre hombres y mujeres? j ? 0.00 0.25 0 0.50 0.75 1.00 Supervivencia del paciente 0 36 Number at risk sexorec = varon 599 sexorec = mujer 272 72 381 188 108 144 180 Meses de supervivencia 220 114 113 49 Varon 46 23 216 252 14 5 0 3 Mujer 3 Comparar curvas 1.00 Supervivencia del paciente 0.75 0 . sts test sexorec 0.25 0.50 failure _d: d: analysis time _t: estpac == 1 tpopac 0.00 Log-rank test for equality of survivor functions 0 36 Number at risk sexorec = varon 599 sexorec = mujer 272 72 381 188 108 144 180 Meses de supervivencia 220 114 Varon 113 49 46 23 216 252 14 5 0 3 Mujer sexorec varon mujer Total Events observed Events expected 160 55 145.68 69.32 215 215.00 chi2(1) = Pr>chi2 = 4.38 0.0365 Dos problemas: Cuantificar la diferencia Hombres y mujeres pueden ser distintos respecto a otro factor 4 2 19/11/2013 Análisis multivariante • El análisis multivariante (modelos de regresión) permite solucionar ambos problemas: – Cuantifica el “efecto” – Ajusta el efecto por otras variables de confusión • En supervivencia (variable tiempo a …) se usa, sobre todo, el modelo de Cox • Alternativas: – diseño experimental – diseño estratificado – índice de propensión 5 Modelos de regresión • Otros modelos asumen distintas formas para la función de supervivencia (Weibull (Weibull, exponencial exponencial, gamma, ...) planteando el modelo de regresión para los parámetros de las funciones. • Pero el más popular, por su sencillez y facilidad para interpretar los coeficientes, es el denominado modelo d l de d riesgo i proporcional i l o modelo d l de d Cox C 6 3 19/11/2013 Modelo de Cox h(t, X ) = h0 (t )ea1X1+...+ak X k h0(t): riesgo cuando todas las variables Xi son 0, o riesgo basal, que es variable con el tiempo. o, equivalentemente HR é h(t , X ) ù ú = a1X1 + ... + ak Xk ln ê êë h 0(t) úû El logaritmo del riesgo relativo es una función lineal de las variables independientes, pero no del tiempo. 7 Interpretación de i i es el logaritmo del riesgo relativo cuando Xi aumenta una unidad, manteniéndose constantes las demás variables. eai es el riesgo relativo cuando Xi aumenta una unidad, manteniéndose constantes las demás variables. Notar q que,, por p lo tanto,, el modelo implica p que q este riesgo g relativo es constante; implica también efectos multiplicativos. El modelo no depende de cómo sea h0(t). 8 4 19/11/2013 Modelo de Cox (stcox) 9 Ejemplo: efecto del sexo del receptor . stcox sexorec failure _d: analysis time _t: estpac == 1 tpopac Iteration 0: log likelihood Iteration 1: log likelihood Iteration 2: log likelihood Iteration 3: log likelihood Refining estimates: Iteration 0: log likelihood = -1386.7767 = -1384.508 = -1384.4995 = -1384.4995 = -1384.4995 Cox regression -- Breslow method for ties No. of subjects = No. of failures = Time at risk = Log likelihood = 1400 215 95555.1 -1384.4995 _t Haz. Ratio sexorec .7222307 Std. Err. .1129156 HR z -2.08 Number of obs = 1400 LR chi2(1) Prob > chi2 = = 4 55 4.55 0.0328 P>|z| [95% Conf. Interval] 0.037 .5316143 .9811948 2: 1: 10 5 19/11/2013 Otros factores: tiempo en diálisis (tpodial) Efecto por cada mes en diálisis (tpodial) p stcox tpodial _t Haz. Ratio tpodial 1.005767 Std. Err. .0020393 z 2.84 P>|z| [95% Conf. Interval] 0.005 1.001778 1.009772 ¿Cuál es el efecto por año en diálisis? Efecto año = 1.005767 12 = 1.071 => 7% incremento de riesgo por año . lincom 12*tpodial, eform ( 1) 12*tpodial = 0 _t exp(b) (1) 1.071438 Std. Err. .0260691 z 2.84 P>|z| [95% Conf. Interval] 0.005 1.021542 1.12377 11 Entendiendo los coeficientes Efecto por mes en diálisis (tpodial). ¿Cuál es el efecto por año en diálisis? _t t H Haz. R ti Ratio tpodial 1.005767 stcox Std Err. Std. E z P | | P>|z| [95% Conf. C f Interval] I t l] .0020393 2.84 0.005 1.001778 P>|z| [95% Conf. Interval] 0.005 .0017761 1.009772 tpodial, nohr _t Coef. tpodial .0057501 HR = Std. Err. .0020276 z 2.84 .0097241 h(t, X ) = ea1X1+...+ak X k = e12´0.0057501 = 1.071 7% h0 (t ) 12 6 19/11/2013 Otros factores: necrosis tubular aguda(nta) Efecto de sufrir la necrosis tubular aguda (NTA SI == 1; NO == 2 ) _t t Haz Ratio Haz. nta .6918164 Std Err. Std. Err .0971976 z -2.62 P>|z| [95% Conf. Conf Interval] 0.009 .5252914 .9111323 Cambiando la referencia se mejora la interpretación stcox 1.nta _t Haz. Ratio 1.nta 1.44547 Std. Err. .2030831 z P>|z| [95% Conf. Interval] 2.62 0.009 1.097535 1.903705 13 Varios factores de riesgo juntos . stcox sexorec nta tpodial failure _d: analysis time _t: estpac == 1 tpopac Iteration 0: log likelihood Iteration 1: log likelihood Iteration 2: log likelihood Iteration 3: log likelihood Refining estimates: Iteration 0: log likelihood = -1309.9978 = -1302.3059 = -1302.0865 = -1302.086 = -1302.086 Cox regression -- Breslow method for ties No. of subjects = No. of failures = Time at risk = Log likelihood = 1292 204 92197.9 -1302.086 _t Haz. Ratio sexorec nta tpodial .7478907 .7375194 1.005049 Std. Err. .1204898 .1085278 .0021111 z -1.80 -2.07 2.40 Number of obs = 1292 LR chi2(3) Prob > chi2 = = 15.82 0.0012 P>|z| [95% Conf. Interval] 0.071 0.039 0.016 .5453865 .5527351 1.00092 1.025586 .9840787 1.009195 14 7 19/11/2013 Estimación de los coeficientes • Los coeficientes se estiman por máxima verosimilitud • Los suelen L paquetes t estadísticos t dí ti l usar la l aproximación de Peto (buena si en cada tiempo di<ni) • Los coeficientes estimados son asintóticamente normales con varianzas conocidas Estimación de los coeficientes e IC 95% stcox 1.nta, nohr _t Coef. 1.nta .3684347 Std. Err. .1404962 z 2.62 P>|z| [95% Conf. Interval] 0.009 .0930671 .6438022 Contrastes estadísticos mediante la prueba de Wald ( ˆí a) w = ˆ ˆi ) var( H0: i = a H1: i a 2 w 2 Generalmente a = 0 ; (e0=1) IC (1-)% ˆ ˆ ) ˆi z / 2EE( I eˆi z / 2EE( ˆI ) ˆ 16 8 19/11/2013 Bondad de ajuste. Evaluación del modelo completo • Contraste con el logaritmo del cociente de verosimilitudes i ilit d (LCV) o llog. likelihood lik lih d ratio ti . stcox tpodial sexorec nta, noshow nolog Cox regression -- Breslow method for ties No. of subjects = No. of failures = Time at risk = Log likelihood = 1292 204 92197.9 -1302.086 _t Haz. Ratio tpodial sexorec nta 1.005049 .7478907 .7375194 Std. Err. .0021111 .1204898 .1085278 z 2.40 -1.80 -2.07 Number of obs = 1292 LR chi2(3) Prob > chi2 = = 15.82 0.0012 P>|z| [95% Conf. Interval] 0.016 0.071 0.039 1.00092 .5453865 .5527351 1.009195 1.025586 .9840787 17 Comparación entre modelos (LCV) • La prueba del logaritmo del cociente de i ilit d (LCV) puede d usarse para verosimilitudes comparar modelos • Procedimiento: – Se ajustan ambos modelos – Se guardan las estimaciones – Se comparan 18 9 19/11/2013 Comparación entre modelos (LCV) • Guardamos estimaciones (x 2 modelos): – Statistics Postestimation Manage estimation results Store in memory (nombre1) • Se comparan – Statistics Postestimation Tests Likelihood‐ratio test (nombre1 nombre2) Víctor Abraira 19 Almacenamos estimaciones (estimates store) 20 10 19/11/2013 Comparamos estimaciones (lrtest) 21 Ejemplo . stcox tpodial sexorec nta, noshow nolog Cox regression -- Breslow method for ties No. of subjects = No. of failures = Time at risk = Log likelihood = 1292 204 92197.9 -1302.086 _t Haz. Ratio tpodial sexorec nta 1.005049 .7478907 .7375194 7375194 Std. Err. .0021111 .1204898 .1085278 1085278 z 2.40 -1.80 -2.07 -2 07 Number of obs = 1292 LR chi2(3) Prob > chi2 = = 15.82 0.0012 P>|z| [95% Conf. Interval] 0.016 0.071 0.039 0 039 1.00092 .5453865 .5527351 5527351 1.009195 1.025586 .9840787 9840787 22 11 19/11/2013 Ejemplo . stcox sexorec nta if e(sample), noshow nolog Cox regression -- Breslow method for ties No. of f subjects = No. of failures = Time at risk = Log likelihood 1292 204 92197.9 = -1304.6515 _t Haz. Ratio sexorec nta .7434032 .6897839 Std. Err. .1196886 .0992346 z -1.84 -2.58 Number of f obs = 1292 LR chi2(2) Prob > chi2 = = 10.69 0.0048 P>|z| [95% Conf. Interval] 0.066 0.010 .5422259 .5203031 1.019222 .9144705 23 Ejemplo . lrtest ( modelo_3var) ( modelo_2var) Likelihood-ratio test (Assumption: modelo_2var modelo 2var nested in modelo_3var) modelo 3var) LR chi2(1) = Prob > chi2 = 5.13 0.0235 0 0235 . estimates stats mo* Model Obs ll(null) ll(model) df AIC BIC modelo_3var modelo_2var 1292 1292 -1309.998 -1309.998 -1302.086 -1304.652 3 2 2610.172 2613.303 2625.664 2623.631 Note: N=Obs used in calculating BIC; see [R] BIC note 24 12 19/11/2013 Comparación modelos • Se puede hacer con el logaritmo del cociente de d verosimilitudes i ilit d (LCV), (LCV) pero es más á sencillo ill usar la opcion “test parameters” que usa el test de Wald, no el del LCV. • Ambos test son asintóticamente equivalentes. Unidad de Bioestadística Clínica 25 Comparación de modelos (testparm) . testparm tpodial ( 1) tpodial = 0 chi2( 1) = Prob > chi2 = 5.75 0.0165 26 13 19/11/2013 Supervivencia estimada por Cox El modelo de Cox también se puede poner como S(t ) = S0 (t )expp(b X +...+b X ) 1 1 k k S0(t) es la supervivencia basal, pero estimada con todos los datos Kaplan-Meier survival estimates 0 0.00 .25 0.25 0.50 Survival .5 .7 75 0.75 1 1.00 Cox proportional hazards regression 0 100 200 300 0 100 200 300 analysis time analysis time varón mujer sexorec = varon sexorec = mujer 27 Supervivencia estimada con Cox 28 14 19/11/2013 Sesión práctica modelos de Cox (univar) • Archivo “curso_supervivencia” • Construir sendos modelos de Cox para analizar el efecto sobre la supervivencia del injerto • • • • • Sexo del receptor (sexorec) Edad del receptor (edadr) Necrosis tubular aguda (nta) Tiempo en diálisis (tpodial) en años Grupo de tratamiento (Gtrata) Unidad de Bioestadística Clínica 29 Variables indicadoras (dummy) Modelos de regresión de Cox 15 19/11/2013 Ejemplo • Se quiere comparar la supervivencia a una cierta intervención quirúrgica en 3 hospitales. hospitales • Se sigue en cada hospital a una muestra aleatoria de pacientes intervenidos y se obtienen los siguientes tiempos (en meses): – Hosp p A ((0): ) – Hosp B (1): – Hosp C (2): 1,, 3,, 7,, 8*,, 12,, 12,, 15* 2, 2, 3, 8, 10, 10, 12*, 15 1, 1, 3, 7, 10*, 12, 12, 14, 15* 31 Ejemplo • Se puede analizar con Cox, pero se estaría asumiendo “multiplicatividad” • Si codificamos – Hospital A = 0 – Hospital B = 1 – Hospital C = 2 • El HR para el Hospital C con respecto al A es el cuadrado del HR del B. ¿Es razonable esta asunción? 32 16 19/11/2013 Ejemplo mortalidad hospitales 0.0 00 0.25 0.50 0.75 1.00 Kaplan-Meier survival estimates 0 5 10 15 analysis time hospital = A hospital = C hospital = B 33 Ejemplo mortalidad hospitales No. of subjects = No. of failures = Time at risk = Log likelihood = 24 19 195 -48.881504 _t Haz. Ratio hospital 1.021303 Std. Err. .2842076 z 0.08 Number of obs = 24 LR chi2(1) Prob > chi2 = = 0 01 0.01 0.9396 P>|z| [95% Conf. Interval] 0.940 .5919469 1.762084 34 17 19/11/2013 Variables “dummy” • La solución es la misma que en los otros modelos de regresión; crear tantas variables como categorías menos 1, denominadas variables indicadoras con el siguiente esquema: 35 Variables “dummy” Hospital A Hospital B Hospital C A 1 0 0 B 0 1 0 C 0 0 1 Si dejamos fuera la variable A usamos como referencia ese Hospital æ h(t ) ö ÷÷ = a B + a C ... 1 2 çè h0 (t ) ÷÷ø El modelo queda: ln çç ¿Qué significan los coeficientes? 36 18 19/11/2013 Variables “dummy” Hospital A Hospital B Hospital C A 1 0 0 B 0 1 0 C 0 0 1 æ h( t ) ö ÷÷ = a B + a C + ... ln çç 1 2 çè h0 (t ) ÷ø÷ Hos A Hos. Hos. B h(t ) l ln 0 h0 (t ) h(t ) ln 1 h0 (t ) h(t) = h0(t) e 1 HR Hos. B respecto al A e2 HR Hos. C respecto al A 37 Ejemplo • Analizar los datos del ejemplo con regresión d C d variables i bl "dummy" "d " de Cox, usando 38 19 19/11/2013 Variables indicadoras en Stata 39 Ejemplo con variables indicadoras No. of subjects = No. of failures = Time at risk = Log likelihood = 24 19 195 -48.710913 _t Haz. Ratio hospital 1 2 1.378235 1.074779 Std. Err. .8103021 .6304629 z 0.55 0.12 Number of obs = 24 LR chi2(2) Prob > chi2 = = 0.35 0.8407 P>|z| [95% Conf. Interval] 0.585 0.902 .4353903 .3404132 4.362827 3.393376 40 20 19/11/2013 Otro ejemplo (hospitales_2.dta) • Datos también de mortalidad de 3 hospitales 1.00 Kaplan-Meier survival estimates Log-rank test for equality of survivor functions 0.75 hospital Events observed Events expected 8 12 9 12.26 4.55 12.19 29 29.00 0.50 A B C 0.25 Total 16.13 0.0003 0.00 0 chi2(2) = Pr>chi2 = 0 5 10 15 analysis time hospital = A hospital = C hospital = B 41 Analizado con Cox at s Sine dummy 5 5 Log likelihood = _t Haz. Ratio hospital 1.044992 Con dummy Time at risk Log likelihood LR chi2(1) Prob > chi2 -101.72914 Std. Err. .2123082 z 0.22 P>|z| 0.829 = = 0.05 0.8284 [95% Conf. Interval] .701741 1.556143 525 = LR chi2(2) Prob > chi2 -96.074439 _t Haz. Ratio hospital 1 2 4.239841 1.119338 Std. Err. 1.96597 .5454527 z 3.12 0.23 = = 11.36 0.0034 P>|z| [95% Conf. Interval] 0.002 0.817 1.708662 .4306962 10.52066 2.90905 . testparm 1.hospital 2.hospital ( 1) ( 2) 1.hospital = 0 2.hospital = 0 chi2( 2) = Prob > chi2 = 12.84 0.0016 42 21 19/11/2013 Cambiar la referencia: b#.hospital Log likelihood = LR chi2(2) Prob > chi2 -96.074439 _t t Haz. Ratio hospital 1 2 4.239841 1.119338 = = 11.36 0.0034 Std. Err. z P>|z| [95% Conf. Interval] 1.96597 .5454527 3.12 0.23 0.002 0.817 1.708662 .4306962 10.52066 2.90905 HR con respecto al nivel hospital = 0 (Hospital A) Si cambiamos la referencia al hospital B stcox b1.hospital p Log likelihood = LR chi2(2) Prob > chi2 -96.074439 _t Haz. Ratio hospital 0 2 .2358579 .2640046 Std. Err. .1093649 .1192954 z -3.12 -2.95 = = 11.36 0.0034 P>|z| [95% Conf. Interval] 0.002 0.003 .0950511 .1088881 .5852531 .6400925 43 Práctica • Utilizando los datos de la cohorte de t l t renales: l transplantes – Analizar el efecto del tratamiento mediante Kaplan‐Meier y mediante el modelo de Cox. – Valorar la adecuación de usar variables indicadoras. 44 22