5. Modelos de regresión

Anuncio
PROFESOR: LUIS E. NIETO BARAJAS 5. Modelos de regresión  En el análisis de tiempos de falla, es común suponer que el riesgo de presentar la falla está en función de una serie de covariables o variables explicativas inherentes a cada individuo. Es decir, la población bajo estudio no es homogénea y es necesario reconocer las diferencias entre los individuos como parte del análisis.  Existen varios modelos que incorporan variables explicativas para el análisis de tiempos de falla. Estos modelos se conocen como modelos de regresión de supervivencia. Los principales modelos son dos: Modelo de vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos de vida acelerada  Sea Ti el tiempo de falla del individuo i y suponga que X i '  X 1i , X 2i , , X pi  es un vector de p covariables correspondientes al mismo individuo i, i1,…,n.  El modelo de vida acelerada se puede definir en términos de la v.a. Ti o en términos de la función de riesgo hi(t). En términos de la v.a., el modelo de vida acelerada se define como Ti 
T0
x i , 
86
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS donde '  1 , p  en un vector de dimensión p de coeficientes de regresión, , es una función que liga las covariables con el tiempo de fallo y T0 es un tiempo de fallo base.  Se puede observar que el modelo de vida acelerada especifica que el efecto de la covariable es multiplicativo en t. Es decir, la covariable altera la tasa en la que un individuo envejece o rejuvenece en el tiempo. Un individuo con tiempo de fallo t bajo x00, tendría un tiempo de fallo t x i ,  bajo xi.  La función , tiene por lo general una forma paramétrica y debe satisfacer la condición 0,   1 . La forma más común es x i ,   e xi ' . Nota que para que se satisfaga la condición el vector de covariables no debe de incluir constante.  De manera alternativa, el modelo de vida acelerada se puede ver como un modelo de regresión log‐lineal, i.e., log Ti   0  x i '    0 donde  0  Elog T0  y  0  log T0   0 es una v.a. con media cero y distribución independiente de xi.  Las implicaciones del modelo de vida acelerada en las funciones de riesgo y de supervivencia son las siguientes. Sea h0(t), f0(t) y S0(t) las funciones de 87
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS riesgo, densidad y de supervivencia, respectivamente, para el tiempo base T0. Entonces, haciendo el cambio de variable, la función de densidad para el tiempo Ti es 

fi t   e xi ' f0 e xi ' t . Integrando la función de densidad de t a , la función de supervivencia es 

Si t   S 0 e xi ' t . Finalmente ala función de riesgo es 

hi t   e xi 'h0 e xi ' t .  Si h0(t) tiene una forma paramétrica específica, el modelo de vida acelerada en completamente paramétrico, en cambio, si h0(t) se deja sin especificar, el modelo es semiparamétrico y se requieren de procesos de inferencia específicos para este caso.  Por lo general, el modelo de vida acelerado, se considera completamente paramétrico especificando la distribución de los errores mediante un miembro de la familia de log‐localización y escala.  Recordemos que si T es una variable de tiempo de falla y YlogT es una v.a. con distribución de localización y escala, entonces T tiene una distribución de log‐localización‐escala. Es decir, sea Y0 una v.a. con distribución con soporte en los reales con media cero y varianza uno. Entonces Yi  ai  bY0 tiene una función de supervivencia  y  ai 
S*i y ai ,b   S*0 
 ,  b 
88
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS y Ti  e Yi tienen función de supervivencia  log t  ai 
Si t ai ,b   S*0 
  b

Si tomamos ai  ax i    0  x i '  en la especificación anterior obtenemos el modelo de vida acelerada con  0  bY0 una v.a. con media cero y varianza b2. Si ax i    0 , el efecto del vector de covariables es desacelerar el tiempo, mientras que si ax i    0 , el efecto es de acelerar el tiempo.  Consideremos algunos casos específicos del modelo de vida acelerada completamente paramétrico. 89
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS o T0 Weibull (o valor extremo para Y0logT0). Como distribución de log  
localización y escala, este modelo se obtiene cuando S*0 z   exp  e z . Es este caso la función de supervivencia para Ti de vida acelerada es 



Si t   exp  t1 / be ai / b  exp  t1 / be 0 / be xi ' / b . La función de riesgo acumulado es de la forma Hi t    log Si t   t1 / b e ai / b . Finalmente derivando obtenemos la función de riesgo 1
1
hi t   t1 / b1e ai / b  e xi ' / be 0 / b t1 / b1 . b
b
Por otro lado, partiendo de la distribución de riesgo Weibull base 

h0 t   t 1 y tomando hi t   e xi 'h0 e xi ' t como en la definición del riesgo de vida acelerada obtenemos hi t   e xi ' t 1 . Si tomamos   b 1 y   e 0 / b llegamos a la misma expresión anterior, pero con parametrizaciones diferentes. o Notemos que para el modelo Weibull de vida acelerada el efecto de las covariables no afecta directamente el tiempo, sino que representa únicamente un efecto multiplicativo “constante” sobre la función de riesgo base, i.e., hi t   e xi ' h0 t  , *
con *   . 90
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS o T0 log‐logístico (o logístico para Y0logT0). Como distribución de log 

localización y escala, este modelo se obtiene cuando S*0 z   1 1  e z . La función de supervivencia para Ti de vida acelerada es S i t  
1
1 t
1 / b ai / b
e
. Haciendo álgebra obtenemos que la función de riesgo para Ti es b 1 t1 / b1e ai / b
. hi t  
1  t1 / b e ai / b
Alternativamente, si partimos de la función de riesgo log‐logística base 

h0 t   t 1 1  t  obtenemos que la función de riesgo para Ti es e xi ' t 1
. hi t  
1  e xi ' t 
Si tomamos   b 1 y   e 0 / b obtenemos la misma expresión anterior, pero con parametrizaciones diferentes.  La inferencia para este tipo de modelos de vida acelerada paramétricos se hace por máxima verosimilitud, como en el caso de los modelos de log localización y escala.  Sean ti , i , x i  , i1,…,n un conjunto de observaciones independientes, que incluyen los tiempos de fallo o de censura, indicador de censura por la derecha y conjunto de variables explicativas. Sea logTi   ai  b log T0  , con ai   0  x i '  un modelo de vida acelerada. Es recomendable que las variables explicativas estén centradas en cero para mejorar la 91
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS interpretación del intercepto. La función de verosimilitud para  0 , ,b  es de la forma i
 1  log ti   0  x i '   *  log ti   0  x i '  
L 0 , ,b     f0* 
 S 0 

b
b

 

i1 bt i
n
1i
.  La forma de la verosimilitud anterior depende de la elección particular de S0*, ya sea valor extremo, logístico o normal. En cualquier caso los estimadores se obtienen numéricamente. Estimación por intervalo de los parámetros y pruebas de hipótesis se obtiene con teoría asintótica usando la aproximación normal asintótica para los EMV’s o la distribución asintótica ji‐cuadrada para menos dos veces el logaritmo de la estadística cociente de verosimilitudes generalizado.  El comando survreg de la librería survival del paquete R obtiene estos estimadores para las distintas opciones de familias S0*.  Además de estimar los parámetros del modelo de vida acelerada, es de interés la estimación de los cuantiles. Sea y p x  el cuantil de orden p del logaritmo de un tiempo de fallo con vector de covariables x, entonces, y p x   ax   bw p , donde w p  S*0
1
1  p  es el cuantil de orden p de una variable Y0. El estimador puntual máximo verosímil es ŷ p x   âx   b̂w p y estimación por intervalo se puede hacer suponiendo normalidad asintótica. 92
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS  Los modelos de vida acelerada son particularmente útiles cuando los tiempos de fallo de diferentes individuos varían en órdenes de magnitud. Es decir, en escala logarítmica de los tiempos de fallo, las funciones de densidad y de supervivencia de los individuos tienen la misma forma, pero están separados por una distancia ai  a j . En aplicaciones de confiabilidad en ingeniería, los tiempos de falla son acelerados por calentamiento, voltaje u otro tipo de estrés.  EJEMPLO: Tiempos de supervivencia de leucemia. Feigl & Zelen (1965) estudiaron datos de tiempos de supervivencia de 33 pacientes con leucemia. Los tiempos de supervivencia están dados en semanas desde el diagnóstico y adicionalmente hay dos covariables: conteo de glóbulos blancos (WBC) al momento del diagnóstico y un indicador sobre las características de los glóbulos blancos, (AG=1) positivo o (AG=0) negativo. Los datos se presentan más abajo. Gráficas de diagnóstico inicial son logti vs. wbc ó log(wbc) y gráficas de caja y brazos para la logti y cada valor de la covariable AG. 93
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS  EJEMPLO: Falla de fluido de aislamiento. Nelson (1972) presenta los resultados de un experimento en donde especímenes de cierto fluido de aislamiento fueron sujetos a estrés de voltaje constante con distintos niveles. Se registró el tiempo de falla de cada espécimen. En particular se desea estimar la distribución de falla a un voltaje “normal” de 20 kV. Gráficas de diagnóstico sugeridas para el modelo Weibull son 

log  log Ŝ j t  vs. logt, para j1,…,7 los siete distintos niveles de voltaje. Adicionalmente, para verificar la relación lineal con la variable explicativa se sugiere graficar logTi vs. log(voltaje). 94
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS 5.2 Modelos de riesgos proporcionales  El modelo de riesgos proporcionales fue introducido por Cox (1972) y ha sido el modelo más utilizado en análisis de tiempos de fallo en presencia de covariables. Este modelo también es conocido como modelo de regresión de riesgos multiplicativos.  Sea Ti el tiempo de falla del individuo i y suponga que X i '  X 1i , X 2i , , X pi  es un vector de p covariables correspondientes al mismo individuo i, i1,…,n.  El modelo de riesgos proporcionales se definió originalmente en términos de la función de riesgo de la siguiente manera hi t   x i , . h0 t  95
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS donde '  1 , p  en un vector de dimensión p de coeficientes de regresión, , es una función que liga las covariables con el tiempo de fallo y h0 es una función de riesgo base.  La función , debe satisfacer la condición 0,   1 . La forma más común es x i ,   e xi ' . La condición anterior supone que xi no contiene intercepto.  Usando la función liga anterior, en escala logarítmica, el cociente de la función de riesgo del individuo i con respecto al riesgo base es  h t  
log  i   x i '  ,  h 0 t  
el cual tiene forma lineal en los parámetros.  El nombre de riesgos proporcionales se debe al hecho de que el cociente de las funciones de riesgo de dos individuos, digamos i y j, hi t 
x x '
 e i j (riesgo relativo) hi t 
es una constante en el tiempo cuyo valor depende de la diferencia en los valores de las covariables de los dos individuos. En particular, si x1i1 y x1j0 representan tratamiento y placebo respectivamente, y todas las demás covariables se mantienen constante, entonces e 1 es el riesgo de presentar la falla con el tratamiento relativo a presentar la falla con placebo. 96
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS  El modelo de riesgos proporcionales implica que las funciones de supervivencia y de densidad para el individuo i son, respectivamente Si t   S 0 t expxi '  , y fi t   e xi 'h0 t S 0 t exp xi '  , donde S 0 t   exp H0 t  es la función de supervivencia base y H0 t    h0 udu es la función de riesgo acumulado base. t
0
 Una consecuencia del supuesto de proporcionalidad entre los riesgos de dos individuos con covariables xi y xj, es que las funciones de riesgo no se intersectan y una debe de estar completamente por arriba de la otra. Lo mismo ocurre con las funciones de supervivencia. Este comportamiento se puede observar en la siguiente gráfica 97
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS  Cuando h0 se especifica de manera paramétrica, el modelo de riesgos proporcionales es completamente paramétrico, mientras que si h0 se deja sin especificar, el modelo se convierte en semiparamétrico. A diferencia del modelo de vida acelerada, el caso semiparamétrico en el modelo de riesgos proporcionales es el más común en las aplicaciones.  Una característica del modelo de riesgos proporcionales es que si S0(t) es miembro de una familia paramétrica específica, por lo general Si(t) no es miembro de la misma familia.  Veamos algunos ejemplos del modelo de riesgos proporcionales completamente paramétricos. o Riesgo base Weibull: Sea h0 t   t 1 , entonces la función de riesgo para un individuo i con covariables xi es hi t   e xi ' t 1 

Lo que implica que Ti  Weibull  , e xi ' . Si comparamos este modelo de riesgos proporcionales Weibull con el modelo de vida acelerada Weibull nos damos cuenta que se trata del mismo modelo, pero con distinto vector de parámetros *   . El modelo Weibull es el único modelo paramétrico que es a la vez de vida acelerada y de riesgos proporcionales. 98
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS 

o Riesgo base log‐logístico: Sea h0 t   t 1 1  t  , entonces la función de riesgo para un individuo i con covariables xi es 

hi t   e xi ' t  1 1  t  . Esta nueva función de riesgo no pertenece a la misma familia. o Riesgo base log‐normal: Sea S 0 t   1   log t      , entonces la función de supervivencia para un individuo i con covariables xi es S i t   1   log t     exp xi '  . La forma analítica de Si(t) no es simple pero se puede manipular numéricamente. o Riesgo base gamma: Sea S 0 t   1  Igt,  , entonces la función de supervivencia para el individuo i con covariables xi es Si t   1  Igt, exp xi '  .  La inferencia para los modelos de riesgos proporcionales paramétricos se hace por máxima verosimilitud.  Sean ti , i , x i  , i1,…,n un conjunto de observaciones independientes, que incluyen los tiempos de fallo o de censura, indicador de censura por la derecha y conjunto de variables explicativas. Sean h0 t ,   y S 0 t ,   las funciones de riesgo base y de supervivencia base parametrizadas por (,). La función de verosimilitud para ,  ,   es de la forma 99
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS n

i

L,  ,     e h0 ti  ,   S 0 ti  ,  
xi '
exp xi ' i
. i1
 La forma explicita de la función de verosimilitud anterior depende de la elección de h0. En cualquier caso, los EMV’s se obtienen numéricamente e inferencias para los parámetros más allá de estimación puntual se basan en resultados asintóticos. ESTIMACIÓN SEMIPARAMÉTRICA DEL MODELO DE RIESGOS PROPORCIONALES  El modelo de riesgos proporcionales semiparamétrico surge cuando la función de riesgo base h0(t) se considera como un parámetro desconocido. En este caso es necesario hacer inferencia para ,h0 t  .  El parámetro de interés más importante del modelo es  y h0(t) es considerado parámetro de ruido. En presencia de parámetros de ruido existen dos técnicas muy útiles de inferencia: la verosimilitud parcial, introducida por Cox (1972, 1975) y la verosimilitud marginal (Kalfleisch & Sprott, 1970).  Suponga que los datos consisten de un vector de observaciones T  T1 , , Tn  de la densidad f t , , donde  es el vector de parámetros de interés y  es un parámetro de ruido, por lo general de dimensión infinita o muy grande, como es el caso de la función de riesgo base en nuestro modelo de riesgos proporcionales. 100
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS  Suponga ahora que los datos T son transformados en un conjunto de variables A 1 ,B1 , A m ,Bm de forma uno a uno, y sean A  j  A 1 , , A j  y B  j  B1 , ,B j  . Suponga que la función de densidad conjunta de A 
m

,B m  se puede escribir como el producto de una verosimilitud marginal y otra condicional 


f t ,   f b m  am  , ,  f am   . El segundo factor de la expresión anterior es llamado verosimilitud marginal, e incluso en modelo complicados, no dependerá de  y puede ser usada para realizar inferencias sobre . Noten que el primer factor por lo general depende de  y de , por lo que parte de la información se perderá al usar únicamente el segundo factor.  Un segundo enfoque para estimar  es el descomponer la densidad 

conjunta de A m  ,B m  como m

 
m

f t ,    f b j b  j1  , a j1  , ,   f a j b  j , a j1  ,  . j1
j1
El segundo término es llamado verosimilitud parcial. Nuevamente observamos que parte de la información de los datos sobre  se perderá si únicamente se usa el segundo término.  Sean t(1)  t(2)   t(D) los tiempos de fallo observados de manera exacta ordenados. Sea x ( j) la covariable asociada al individuo cuyo tiempo de fallo es t( j) . Definimos el conjunto de riesgo Rt( j)  como el conjunto de 101
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS todos los individuos que están en riesgo justo antes de t( j) . Sin entrar en detalles, si Aj especifica la información de los individuos que fallan y Bj la información de las censuras y de las covariables en [t( j1) , t( j) ) , se puede demostrar que la verosimilitud parcial para  es D
pL   
j1
h( j) t( j) 
hi t( j) 
( j) 
iRt
. Expresando esta verosimilitud parcial en términos de las covariables y la función de riesgo base, tenemos expx ( j) '  
D
pL    
j1
iRt( j) expx i ' 
, la cual no depende de h0(t). Vale la pena notar que el numerador depende sólo de la información del individuo que falla, mientras que el denominador usa información de todos los individuos que aún no han experimentado el fallo, incluyendo aquellos que se censurarán después.  Esta verosimilitud parcial es tratada como cualquier otra verosimilitud. Se saca logaritmo, se deriva, se iguala a cero y se obtienen los estimadores máximo verosímiles parciales de . Recuerden que como  es un vector de dimensión p, se tendrán que obtener p derivadas parciales y se tendrán que resolver p ecuaciones simultáneas. La mayoría de los paquetes estadísticos obtienen estos estimadores de manera numérica mediante el uso de algoritmos de Newton‐Raphson. 102
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS  Pruebas de hipótesis e intervalos de confianza para  se pueden obtener notando que ̂ el estimador máximo verosímil parcial tiene una distribución asintótica normal con media  y matriz de varianzas y 
1
covarianzas estimadas I. ˆ . La prueba de hipótesis más común para H0 :   0 se basa en la normalidad asintótica y es llamada prueba de 
  

'
Wald. La estadística de prueba es W  ˆ   0 I. ˆ ˆ   0 tal que W   2(p) si H0 es verdadera y para un tamaño de muestra grande.  Otras estadísticas de prueba se basan en menos dos veces el cociente de verosimilitudes parciales generalizado, cuya distribución asintótica es una ji‐cuadrada con p grados de libertad.  Vale la pena notar que en presencia de empates (múltiples individuos con el mismo tiempo de falla), es necesario hacer un ajuste a la verosimilitud parcial que reconozca la naturaleza discreta de las observaciones.  Si las funciones base son también de interés, es posible estimar H0(t) y S0(t). Breslow (1974) propuso un estimador para la función de riesgo acumulado generalizando el estimador de Nelson‐Aalen. Este estimador se justifica mediante procesos de conteo. La forma del estimador es: 

i


Ĥ0 t     n
, x j 'ˆ 
i:ti  t  Yj t i e

 j1
103
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS donde Yi t   I. ti  t  es una v.a. indicadora. Cuando ˆ  0 este estimador se reduce al estimador Nelson‐Aalen. Finalmente, usando la relación continua entre las funciones de riesgo acumulado y la de supervivencia Ŝ 0 t   exp Ĥ0 t . Cuando ˆ  0 , este estimador no se reduce al estimador Kaplan‐Meier, sino al estimador conocido como Fleming‐Harrington.  Es posible obtener intervalos de confianza para los estimadores anteriores calculando el error estándar y usando normalidad asintótica.  Vale la pena mencionar que el modelo de riesgos proporcionales, como lo propuso originalmente Cox, permite la incorporación de covariables dependientes del tiempo. Es decir, variables explicativas cuyo valor va cambiando conforme avanza el tiempo de supervivencia.  EJEMPLO. Tiempos de remisión. Los siguientes datos consisten en tiempos de remisión para 40 pacientes con leucemia asignados aleatoriamente a los tratamientos A o B.  EJEMPLO. Pacientes con cáncer de mama. Se desarrolló un estudio para determinar si los pacientes originalmente clasificados como “nodo linfático negativo” se podían clasificar de una mejor manera mediante un 104
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS nuevo procedimiento. 45 pacientes con un mínimo de 10 años de seguimiento fueron seleccionados. De los 45, 9 fueron inmunoperoxidasa positivo y los restante 36 fueron negativos. Se registraron los tiempos de supervivencia, desde el diagnóstico, en meses. 5.3 Validación de supuestos y ajuste del modelo  AJUSTE DEL MODELO. Una vez que un modelo de regresión de supervivencia ha sido ajustado, es necesario validar los supuestos del modelo a la luz de los datos y verificar sensibilidad de las conclusiones en cambios en los modelos o los datos. Hay varias formas de hacer esta validación: 1. Mediante las gráficas empíricas de de ajuste usando el estimador KM de la función de supervivencia. 2. Expansión del modelo agregando más parámetros que representen modificaciones a las especificaciones actuales. La necesidad de un 105
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS parámetro extra se puede validar mediante pruebas de hipótesis. Por ejemplo: o Agregando más covariables, o interacciones de las covariables actuales o términos no lineales. o Permitir que el parámetro b en un modelo de vida acelerado sea función de x. o Permitir interacciones de las covariables con el tiempo mediante la inclusión de covariables dependientes del tiempo (en el modelo de riesgos proporcionales). o Expandir la familia base S0* a que sea más general con más parámetros.  ANÁLISIS DE RESIDUOS. Es común en análisis de regresión hacer un análisis de residuos para validación de los supuestos del modelo. Si un modelo de regresión es ajustado a variables independientes ti , i , x i  , i1,…,n, 

entonces los residuos êi  g ti , x i , ˆ deben de tener ciertas propiedades si el modelo es correcto, como independencia con la misma distribución. o Modelo de vida acelerada. En este caso nuestros parámetros de interés 

son  0 , ,b  . Si ˆ 0 ˆ ,b̂ denotan los EMV’s entonces los residuos definidos como 106
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS zi 
log ti  âi
, i1,..,n b̂
con âi  ˆ 0  x i ' ˆ deberían de parecer una m.a. de S0*. Nótese que estos residuos sólo existen para observaciones exactas. Par el caso de observaciones censuradas se sugiere hacer una corrección z iadj  iẑ  1  i EZ i Z i  ẑ i  donde Zi es una v.a. con función de supervivencia S0*. Gráficas de zi o z iadj vs. covariables deberían de mostrar un patrón constante. Gráficas de zi o ziadj vs. âi apoyarían el supuesto del parámetro b constante. Finalmente gráficas de probabilidad de zi o z iadj con respecto a la distribución base S0* apoyarían el supuesto paramétrico. o Modelo de riesgos proporcionales (y otros modelos de regresión). Una 

forma genérica de definir los residuos es êi  g ti , x i , ˆ . Por ejemplo, ei  FTi x i ,  o ei  STi x i ,  tienen una distribución U(0,1). Una transformación equivalente que es muy útil en análisis de supervivencia es ei  HTi x i , . Dado que HTi x i ,    log STi x i ,  , los ei’s obtenidos con la función de riesgo acumulado son v.a.’s independientes con distribución Exp(1). Definir los residuos ajustados para datos censurados es simple si vemos que ei  Exp1 entonces Eei ei  êi   êi  1 , por lo tanto 

êi  Ĥ Ti x i , ˆ y êiadj  êi  1  i . 107
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS 

Nótese que Ĥ t x i , ˆ  Ĥ0 t e xi ' para el modelo de riesgos proporcionales, ˆ
con Ĥ0 t  el estimador de Breslow. Los residuos êi son llamados residuos de Cox‐Snell. Para verificar que una muestra de residuos êi siguen una distribución Exp(1), se calcula la función de riesgo acumulada empírica (estimador Nelson‐Aalen) de los residuos y se compara con la función de riesgo acumulado de un modelo Exp(1) que es Ht   t . Por lo tanto si el modelo de riesgos proporcionales ajusta los datos, la gráfica del estimador Nelson‐Aalen de los residuos debe de ser una línea recta que pasa por el origen. 108
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS 5.4 Comparación de curvas de supervivencia  En análisis de supervivencia es de interés probar si dos tratamientos dan lugar a curvas de supervivencia distintas. Si la diferencia entre tratamientos está parametrizada por un modelo de regresión semiparamétrico, probar la diferencia entre curvas de supervivencia es quivalente a realizar una prueba de hipótesis sobre el parámetro que cuantifica la diferencia.  En un contexto general, fuera de modelos paramétricos, es de interés probar H0 : S1 t   S2 t  , o equivalentemente H0 : h1 t   h2 t  .  De manera introductoria, supongamos que un individuo puede presentar su evento de fallo dentro de cierta ventana de tiempo t (fija). En este caso, podemos dividir a los individuos de ambas poblaciones en aquellos que presentaron su evento de fallo en un momento anterior o igual a t y aquellos que no. Esta información se puede representar en una tabla de contingencia: Num. Fallas Num. No fallas Pob. 1 a b n1 Pob. 2 c d n2 m1 m2 n 109
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS o Sea p1P(falla | Pob. 1) y p2P(falla | Pob. 1). La hipótesis de interés se puede escribir como H0 : p1  p2 . o Prueba exacta de Fisher: Sea A la v.a. que da lugar a la observación “a” de la celda (1,1). Considerando m1, m2, n1, n2 cantidades fijas, bajo H0, A tienen una distribución hipergeométrica de la siguiente forma:  n1  n2 
 

a  m1  a 

PA  a 
,  n 
 
 m1 
con media y varianza dadas por EA  
nnmm
n1m1
y VarA   12 2 1 2 . n
n n  1
Podemos definir la estadística de prueba 2
 a  EA  
 , W  



Var
A


la cual bajo H0 tiene una distribución asintótica  2(1) . La región de rechazo 

sería RR  w   2(1), . o Prueba de log‐rangos . Sean t1,t2,…,tk, kn1+n2 los k tiempos de fallo observados para la muestra combinada de las dos poblaciones. Suponga que para cada tj, j1,…,k obtenemos valores n1j, n2j, m1j y m2j. Entonces para probar la hipótesis H0 : p1 j  p2 j para j1,…,k, construimos la estadística W de la siguiente manera: 110
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS 2

 k
  a j  EA j  

 j1
W
 . k
  j1 Var A j  


Aunque los componentes de la suma no sean independientes, bajo H0, W tiene una distribución asintótica  (21) . La región de rechazo es 

RR  w  2(1), . La estadística W es también conocida como estadística Mantel‐Haenszel (1959). o Existe una versión más general de la prueba para comparar curvas de supervivencia que permite ponderar la contribución de cada observación. La estadística de prueba es j1 Wt j d j1  Yj1 Y 
, Y
Y d
k
2 Y





W
t
1

d
j1 j Y
j
Y
Y 1
dj
k
Z
j
j1
j1
j
j
j
i
j
donde d j1 y d j2 son el número de fallos en el tiempo tj de la muestra combinada, Yj1 y Yj2 son el número de individuos en riesgo al tiempo tj, para las poblaciones 1 y 2 respectivamente; d j  d j1  d j2 ; Yj  Yj1  Yj2 .  La estadística Z, bajo H0, tiene una distribución asintótica normal estándar. Con esta estadística es posible hacer pruebas de una sola cola para probar que una curva de supervivencia es mayor a otra, o de dos colas para probar diferencias en cualquier sentido. 111
Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS  Opciones para la función de ponderación son: Wt j   1 con la que se obtiene la prueba de log‐rangos, Wt j   Yj con la que se obtiene una generalización de la prueba de Mann‐Whitney‐Wilcoxon. o Esta prueba se puede calcular en R con la librería survival mediante el comando survdiff. 112
Análisis de Supervivencia 
Descargar