comparación de dos modelos de regresión en fiabilidad

Anuncio
UNIVERSIDAD DE GRANADA
Departamento de Estadística e Investigación Operativa
FACULTAD DE CIENCIAS
MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA
COMPARACIÓN DE DOS MODELOS DE
REGRESIÓN EN FIABILIDAD
Antonio Jesús López Montoya
2011
MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA:
COMPARACIÓN DE DOS MODELOS DE
REGRESIÓN EN FIABILIDAD
Trabajo de Investigación realizado por Antonio J. López Montoya
Vº Bº
Dra. Dª Mª Luz Gámiz Pérez
Dra. Dª Mª Dolores Martínez Miranda
Departamento de Estadística e Investigación Operativa
Facultad de Ciencias
Universidad de Granada
Octubre, 2011
ii
Índice general
Comparación de dos modelos de regresión en fiabilidad
Índice general
Introducción general
1
1. Introducción al análisis de regresión mediante la función de riesgo
7
1.1. Una revisión de los modelos de regresión para datos de vida . . . . . . . .
2. Modelo de riesgos proporcionales de Cox (CPH)
7
11
2.1. Modelo de riesgos proporcionales de Cox (CPH) . . . . . . . . . . . . . . .
11
2.2. Modelo de riesgos proporcionales estratificado . . . . . . . . . . . . . . . .
15
2.3. Estudio de residuos en los modelos de regresión para datos de vida . . . . .
16
2.3.1. Residuos de Cox-Snell . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.3.2. Residuos de martingala . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.3.3. Residuos score
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.3.4. Residuos deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.3.5. Residuos de Schoenfeld . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.4. Ajuste del modelo de CPH para nuestros datos . . . . . . . . . . . . . . . .
23
2.4.1. Interpretación de los coeficientes del modelo . . . . . . . . . . . . .
25
2.4.2. Verificación de los supuestos del modelo de CPH . . . . . . . . . . .
28
2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
3. Modelo de tiempo de vida acelerada (AFT)
3.1. Modelo de tiempo de vida acelerada (AFT)
41
. . . . . . . . . . . . . . . . .
41
3.2. Estimación del modelo AFT paramétrico . . . . . . . . . . . . . . . . . . .
44
3.3. Validación del modelo AFT paramétrico . . . . . . . . . . . . . . . . . . .
45
3.3.1. Mediante gráficos quantile-quantile plot (Q-Q plot) . . . . . . . . .
46
iii
iv
Índice general
3.3.2. Mediante el criterio de información de Akaike (AIC) . . . . . . . . .
47
3.3.3. Mediante el gráfico de los Residuos de Cox-Snell . . . . . . . . . . .
47
3.4. Ajuste del modelo AFT paramétrico para nuestros datos . . . . . . . . . .
49
3.4.1. Validación del modelo . . . . . . . . . . . . . . . . . . . . . . . . .
53
3.4.2. Elección e interpretación del modelo más apropiado . . . . . . . . .
66
3.5. Modelo semi-paramétrico AFT para datos censurados . . . . . . . . . . . .
67
3.5.1. Estimador de Buckley-James . . . . . . . . . . . . . . . . . . . . . .
67
3.5.2. Estimador de mínimos cuadrados para datos censurados . . . . . .
71
3.6. Ajuste del modelo semi-paramétrico AFT para nuestros datos . . . . . . .
75
3.6.1. Estimador de Buckley-James . . . . . . . . . . . . . . . . . . . . . .
75
3.6.2. Estimador de mínimos cuadrados para datos censurados . . . . . .
80
3.7. Comparación entre los modelos de CPH y AFT en análisis de supervivencia
86
3.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
Apéndice
90
A. Detalle del software utilizado
91
B. Códigos de las funciones utilizadas
95
C. Futuras líneas de investigación: Regresión Isotónica
115
C.1. Estimador de mínimos cuadrados ponderados de Stute . . . . . . . . . . . 115
Bibliografía
119
Comparación de dos modelos de regresión en fiabilidad
Introducción general
Introducción del trabajo
Los sistemas de abastecimiento de agua presentan el problema del envejecimiento de
su infraestructura y del aumento en el costo de mantenimiento de los mismos. El enfoque
clásico reactivo utilizado por la mayoría de la empresas no es (obviamente) la mejor manera
de gestionar estos servicios públicos esenciales, desde el punto de vista de la calidad y de la
disponibilidad. Los enfoques proactivos requieren información y modelos para evaluar los
riesgos, predecir las mejores acciones a tomar y las mejoras de previsiones de abastecimiento
de agua de la red. La necesidad de los modelos proactivos es incluso mayor en los países
desarrollados, con fuertes restricciones económicas, que en los países avanzados.
Se han realizado numerosos estudios que han requerido un gran esfuerzo con el fin de
modelar, analizar y pronosticar la evolución de estas infraestructuras. Numerosos estudios
como los de Andreou (1987), Andreou et al. (1987a,b), Eisenbeis (1994), Gustafson &
Clancy (1999), entre otros han demostrado que el patrón de fracaso depende en gran parte
del historial de fallos de la tubería. De hecho, el número de fallos anteriores se convierte
con frecuencia en el primer factor de influencia en el pronóstico de supervivencia de las
tuberías.
En países como Alemania o Noruega se han realizado numerosos e importantes avances con las investigaciones de Herz (1996,1998) y Sagrov et al. (2001), respectivamente.
En Alemania el método KANEW fue propuesto por Herz (1996,1998), demostrando una
innovadora aproximación a través del uso de modelos de supervivencia de cohortes y de un
análisis de la infraestructura del stock existente. Debt et al. (1998), aplicaron el modelo
KANEW para un suministro de agua británico y cuatro alemanes.
1
2
Introducción general
En Noruega, el método Aquarel (fiabilidad de redes de abastecimiento de agua) ha sido
propuesto por el grupo SINTEF, Trondheim. Sagrov et al (2001), presentaron el método,
basado en un análisis estadístico de frecuencias de fallo utilizando un proceso no homogéneo
de Poisson.
El modelo AssetMap (INSA, Lyon, Francia), presentado por Malandain (1999) y Malandain et al. (1999), es uno de los modelos más importantes. Estos autores han analizado
la infraestructura de un suministro de agua en la ciudad de Lyon, basando su trabajo en
un análisis estadístico de las tasas de fallo utilizando modelos de regresión de Poisson.
Mailhot et al. (2000), presentaron una metodología formal para calcular estimaciones
paramétricas para varios modelos estadísticos, especialmente para bases de datos pequeñas
de tiempos de fallo. Esta metodología fue aplicada para Chicoutimi (Canada). Utilizando
las distribuciones exponencial y Weibull, se utilizaron cuatro modelos. De igual forma, los
datos de la instalación fueron significativos como factores influyentes.
Igualmente, Christodoulou & Deligianni (2010), probaron que entre los componentes
más importantes de las estrategias de gestión sostenible de las redes de distribución de
agua es la capacidad de integrar el análisis de riesgos y gestión de activos de los sistemas
de apoyo de decisiones. Para lograr esto, Christodoulou & Deligianni (2010), utilizaron un
neuroborroso marco de decisión. Otra técnica encontrada en la literatura es en los trabajos
de Park et al. (2008), que utilizaron log-linear ROCOF y el proceso de ley de potencia con
el modelo de la razón de fallo y estimar el tiempo de reemplazo económicamente óptimo
de las tuberías individuales.
Recientemente, Debón et al. (2010), compararon el riesgo asociado para diferentes modelos estadísticos de supervivencia utilizando las curvas ROC, utilizando una base de datos
similar a la de este trabajo.
El contenido de este trabajo viene estructurado de la siguiente forma: A continuación
hemos realizado una breve introducción y descripción de los datos disponibles para la realización de nuestro trabajo. En el Capítulo 1, vamos a realizar una rápida visión del análisis
de regresión mediante la función de riesgo. En el Capítulo 2, vamos a definir, justificar y
ajustar el modelo de riesgos proporcionales de Cox (CPH) para nuestra base de datos. En
el Capítulo 3, definiremos y realizaremos el ajuste con el modelo de tiempo de vida aceleraComparación de dos modelos de regresión en fiabilidad
Introducción general
3
da (AFT) paramétrico, para tres de las distribuciones más importantes en el campo de la
fiabilidad y la supervivencia, seguidamente veremos un par de métodos de estimación semiparamétricos para el (AFT) como son el método de Buckley-James y el método de mínimos
cuadrados para datos censurados. Finalmente en los Apéndices podremos ver algunos de
los detalles más relevantes de este trabajo, como son los packages específicos utilizados en
este trabajo, también podemos ver los algoritmos de nuestro trabajo en lenguaje R, así
como las futuras líneas de investigación derivadas de este trabajo.
Descripción de los datos
En el desarrollo de nuestro trabajo de investigación, hemos tenido acceso a unos datos
reales de una empresa de suministros de agua de una ciudad española de tamaño medio.
La empresa de suministros de agua nos ha proporcionado acceso a una base de datos que
contiene información sobre los tramos de tubería que conforman la red. La base de datos
contiene 655 entradas correspondientes a cada una de las filas. Entre otras covariables, las
entradas contienen su identificación del tramo, y las covariables como son el tiempo de vida
de la tubería según el diámetro de la tubería, la longitud del tramo recto de tubería, el
material de la tubería que son dos, uralita y fundición dúctil, la presión, el tráfico rodado y
una covariable que depende exclusivamente del momento de instalación de la tubería, a la
cual llamaremos x80, que será una covariable de tipo dummy que nos marcará el valor de 1 si
la tubería fue instalada después de 1980 y 0 en otro caso. Mediante la longitud y el diámetro
(dimensiones físicas) creamos la nueva covariable llamada volumen, que es el volumen del
tramo de la tubería que debemos estudiar según nos exigen los recientes avances en el campo
de la ingeniería. La mayoría de las covariables anteriores se nos presentan en unidades del
sistema internacional y las que no lo estén serán transformadas al mismo. Tenemos una
tasa de censura alta, casi del 51 %. Por otra parte, no se ha tenido consideración del hecho
de que una sección de tubería pueda fallar más de una vez porque la estructura de la
base de datos no está preparada para considerar esto. Algunos errores menores han sido
corregidos antes de utilizar la base de datos, con frecuencia esto significa la pérdida de
las correspondientes entradas de fallo. Uno de los mayores problemas que tiene la base
Comparación de dos modelos de regresión en fiabilidad
4
Introducción general
de datos es la falta de fiabilidad de los datos en las secciones más antiguas. Debido a la
falta de fiabilidad de los datos más antiguos, sólo se han considerado las tuberías que han
sido instaladas después de 1940. De acuerdo con la base de datos, se han empleado dos
tipos de material diferentes como se dijo antes, la fundición dúctil y la uralita. La base
de datos también recoge las condiciones del tráfico del área de instalación de las tuberías,
considerando tres tipos de tráfico: de acera, tránsito normal y tránsito pesado.
Necesitamos una condición más en la censura para poder aplicar los modelos, especialmente que la censura sea independiente y no informativa, que asuma que la verosimilitud
para observaciones censuradas no dependan de β cono se vio en los estudios de Fleming et
al. (2002).
Por otra parte, dado que sólo tenemos el año en el cual se produce el fallo, el tiempo
viene calculado en número de años, y por lo tanto, los fallos iguales a 0 representan un
problema cuando al operarlos tengamos que aplicar el logaritmo, por lo que resolveremos
ese problema sustituyendo por 1/365, en el supuesto de que las tuberías hayan durado por
lo menos un día.
Para que el lector pueda hacerse una idea de nuestra base de datos, seguidamente se
muestra, una visión reducida de la misma
> datos<-as.data.frame(ejm1.dat)
> datos
tiempo estado
longitud diametro material presion trafico
volumen x80
1
39
0 110.17946
60
Ur
39.56
1 0.0311525084
0
2
34
1
39.66266
50
Ur
39.92
1 0.0077877451
0
3
3
1
40.49931
300
FD
23.91
2 0.2862727532
1
4
28
1 150.00080
60
Ur
34.23
1 0.0424117270
0
5
34
0 406.48347
50
FD
29.99
2 0.0798128427
0
6
29
1 126.58286
60
Ur
55.70
2 0.0357904605
0
7
14
1 175.34133
100
FD
69.88
2 0.1377127585
1
8
38
1 491.01819
50
Ur
21.32
1 0.0964111962
0
9
16
0 541.82355
100
FD
28.55
2 0.4255472211
1
10
29
1
80
Ur
19.84
1 0.0487064583
0
96.89842
Comparación de dos modelos de regresión en fiabilidad
Introducción general
11
19
12
2
1
13
5
1 400.15783
100
FD
89.18
2 0.3142832248
1
31.00838
50
Ur
72.33
1 0.0060884812
1
1
1 122.11244
100
FD
55.95
2 0.0959068861
1
14
4
0 161.92403
100
Ur
52.10
2 0.1271748358
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
654
28
1 383.45194
60
Ur
32.56
1 0.1084184818
0
655
20
0 388.49797
150
FD
38.64
2 0.6865325823
1
Comparación de dos modelos de regresión en fiabilidad
6
Introducción general
Comparación de dos modelos de regresión en fiabilidad
Capítulo 1
Introducción al análisis de regresión
mediante la función de riesgo
1.1.
Una revisión de los modelos de regresión para datos
de vida
La descripción física de los procesos de deterioro de un sistema puede requerir la consideración de varios factores (endógenos y exógenos) que son comúnmente referidos como
variables o covariables explicativas. La inclusión de este tipo de información en el modelo
de deterioro puede ser tratado de varias formas por lo que, proponemos estudiar los diferentes modelos de regresión para los datos de tiempos de vida. Hay una amplia literatura
que trata los modelos semi-paramétricos que se refieren a la relación entre covariables y
tiempos de vida (ver, por ejemplo, los libros de Andersen et al. (1993), Klein & Moeschberger (1997), Kleinbaum & Klein (2005), Martinussen & Scheike (2006) o Therneau &
Grambsch (2000)), y el interesante y último libro de Gámiz et al., (2011).
En este capítulo, se ha adoptado una estrategia común: la dependencia de la información
auxiliar se gestiona a través de la función de riesgo como en Wang (2009). En otras palabras,
el riesgo instantáneo de fallo de un dispositivo en particular será formulado en términos de
las características que describen al sujeto. En consecuencia, definimos la función de riesgo
condicionada mediante la siguiente definición.
Definición 1: (Función de riesgo condicionada) Sea T una variable aleatoria que indica
el tiempo de vida de un dispositivo o sistema. Sea X = (X1 , X2 , . . . , Xp )T un vector de p
7
8
Introducción al análisis de regresión mediante la función de riesgo
covariables con función de densidad φX , la función de riesgo condicionada de T dado X
viene definida de la forma:
P [t < T ≤ t + ∆ | T > t, X = x]
.
∆→0
∆
λ(t; x) = lı́m
(1.1)
Dada una t > 0 y dada x, la función de riesgo puede ser escrita como la razón de la
función de densidad condicionada f (t; x) entre la función de supervivencia condicionada
S(t; x) = 1 − F (t; x), esto es
λ(t; x) =
f (t; x)
, para S(t; x) > 0.
S(t; x)
Todos los métodos incluidos en este trabajo tienen en cuenta la censura, que implica
una drástica limitación en los métodos tradicionales aplicados en problemas estadísticos
estándar. La presencia de censura a la derecha es probablemente la característica más
común en los conjuntos de datos en fiabilidad y supervivencia, e implica la terminación
de la observación del sistema de vida debido a otras causas como el fallo natural al que
el sistema esta sujeto. Vamos a formalizar las condiciones bajo las cuales se establecen los
métodos presentados.
Hipótesis 1: (Modelo de censura aleatoria a la derecha (RCM)) Consideramos que
tenemos una muestra formada por n observaciones del tipo {(Y1 , δ1 , X1 ), (Y2 , δ2 , X2 ), . . . ,
(Yn , δn , Xn )}, con Yi = mı́n{Ti , Ci } para cada i = 1, 2, . . . , n, donde
T1 , T2 , . . . , Tn son realizaciones independientes de una variable aleatoria tiempo de
vida T ;
C1 , C2 , . . . , Cn son realizaciones independientes de una variable aleatoria de censura
C;
δ1 , δ2 , . . . , δn son observaciones de la variable aleatoria δ = I[Y = T ] donde Y =
mı́n{T, C}. Esta variable se denomina normalmente como indicador de censura.
X1 , X2 , . . . , Xn , son observaciones de un vector aleatorio de covariables X;
Para un valor del vector de covariables específico x, tenemos que T y C son condicionalmente independientes dado X = x.
Comparación de dos modelos de regresión en fiabilidad
Introducción al análisis de regresión mediante la función de riesgo
9
La censura a la derecha sucede después de que un sujeto haya entrado en el estudio, y
se encuentre a la derecha del último tiempo de supervivencia conocido. De este modo, el
tiempo de supervivencia con censura a la derecha es menor que el real, ya que desconocemos
el tiempo de supervivencia. Un ejemplo de censura a la derecha es habitual en estudios
médicos en los sujetos que están todavía vivos al final del estudio o se perdieron durante el
seguimiento sólo tienen tiempo de seguimiento que son denominados tiempos de censura.
Sólo los sujetos que han muerto tienen tiempo de supervivencia real.
La censura aleatoria a la derecha es un caso particular de lo que se llama hipótesis de
censura independiente, que quiere decir que, condicionada a las covariables, los elementos
censurados son representativos de los que están aún en situación de riesgo en ese instante.
En otras palabras, las tasas de fracaso de los individuos en riesgo son las mismas que si no
hubiera sido censurado, y por lo tanto, condicionadas a las covariables, los elementos no
están siendo censurados por un mayor o menor riesgo de fallo. Para discutir este asunto
con más detalle, ver Kalbfleisch & Prentice (2002), pgs.12-13.
Bajo el supuesto de RCM, si denotamos por F (·; x), G(·; x) y H(·; x) la función de distribución condicionada de T, C y Y , respectivamente, dado X = x, tenemos que H(·; x) =
1 − (1 − F (·; x))(1 − G(·; x)).
Suponemos también que la censura no informativa está implícita en nuestro modelo.
Con esto, queremos decir que la función de distribución del tiempo de censura no contiene
ninguna información sobre la función de tiempo de vida desconocida. Bajo una aproximación paramétrica, esto quiere decir que la distribución de censura no implica ningún
parámetro desconocido del modelo. En consecuencia, la parte de la función de verosimilitud que implica probabilidades calculadas en términos de la función de distribución G(·; x)
es ignorada en el procedimiento de estimación.
En un esquema muestral con truncamiento, sólo aquellos individuos que verifican cierta
condición definida de antemano son observados por el investigador.
En estudios de supervivencia, el tipo más común de truncamiento, es el truncamiento por la izquierda que ocurre cuando los sujetos comienzan a ser observados a edades
aleatorias, esto es, el origen del tiempo de vida precede al origen del estudio. En tal caso,
aquellos sujetos en los que el fallo tiene lugar antes del inicio del estudio serán ignorados
Comparación de dos modelos de regresión en fiabilidad
10
Introducción al análisis de regresión mediante la función de riesgo
por el investigador.
El tipo de truncamiento a la izquierda más habitual ocurre cuando los sujetos entran a
estudio a edades aleatorias (no necesariamente cuando se inicia el proceso para la ocurrencia
del suceso de interés) y son seguidos a partir de este tiempo de entrada con retraso hasta
que el suceso ocurre o hasta que el sujeto es censurado a la derecha. En este caso, todos
los sujetos que experimentan el suceso de interés antes de la entrada en estudio no serán
conocidos por el investigador, para el truncamiento a la izquierda, estos individuos no son
considerados en el estudio.
Posiblemente, el modelo más estudiado de todos los modelos semi-paramétricos para la
función de riesgo condicionada es el Modelo de Riesgos Proporcionales de Cox (CPH), ver
Cox (1972), que supone proporcionalidad en las funciones de riesgo de dos elementos definidos mediante diferentes grupos de covariables. Esta hipótesis puede, en muchos casos, ser
muy restrictiva. Por lo tanto, existen varias alternativas que recientemente se han propuesto para modelizar datos de supervivencia donde la hipótesis de riesgos proporcionales no se
mantiene. Los más populares en el campo de la fiabilidad son el Modelo Aditivo de Aalen,
ver Aalen (1980) y el Modelo de Tiempo de Vida Acelerada (AFT), ver Lawless (1982).
La situación menos informativa surge cuando no se considera la estructura en la función
(1.1), lo que nos lleva a modelos de riesgo no paramétricos. Dado un vector de covariables,
la estimación no paramétrica de la tasa de riesgo puede ser abordada de varias maneras.
La aproximación más usual es suavizando (dado un vector de covariables) el estimador
de Nelson-Aalen (1978) en dos direcciones, primero en la variable argumento de tiempo y
después en las covariables. Otras aproximaciones han desarrollado un estimador de la tasa
de riesgo condicionada como la razón de los estimadores no paramétricos de una densidad
condicionada y una función de supervivencia.
Comparación de dos modelos de regresión en fiabilidad
Capítulo 2
Modelo de riesgos proporcionales de
Cox (CPH)
2.1.
Modelo de riesgos proporcionales de Cox (CPH)
En la investigación biomédica, el conocimiento de los factores que determinan el pronóstico de los pacientes es de gran importancia clínica. En la mayoría de los casos, la variable
respuesta representa, en cierto sentido, un tiempo de supervivencia (por ejemplo, el tiempo
que transcurre antes de la ocurrencia de un evento particular de interés), y por lo tanto se
formula un modelo de regresión con el fin de determinar la relación entre el tiempo y un
conjunto de covariables explicativas. El modelo de CPH, ver Cox (1972), es el modelo utilizado por la mayoría de las aplicaciones en el campo de la Bioestadística y generalmente, en
los estudios de fiabilidad y supervivencia. En nuestro contexto de fiabilidad, el tiempo de
supervivencia se interpreta como el tiempo transcurrido antes del fallo en un determinado
dispositivo (sistema o componente), y el objetivo es evaluar este tiempo en términos de las
características particulares del dispositivo.
Sea T la variable aleatoria tiempo de fallo y X = (X1 , . . . , Xp )T un vector p-dimensional
de covariables o de variables explicativas que describe un sistema en particular o un sistema en términos de factores exógenos (como la temperatura y la presión o, en general,
las condiciones que describen el entorno externo en el que el dispositivo funciona) y/o características endógenas (tales como el tamaño, en el sentido de dimensión física, tipo de
material del cual está hecho el dispositivo, etc.).
11
12
Modelo de riesgos proporcionales de Cox
El modelo básico supone que la función tasa de riesgo del tiempo de fallo de un sistema
con vector de covariables dadas por X viene expresada por la relación
λ(t; X) = λ0 (t)Ψ(β T X)
(2.1)
donde λ0 (t) es una función de riesgo no especificado; β T = (β1 , . . . , βp ) es un vector de
parámetros p-dimensional; y Ψ(·) es una función conocida. El modelo no toma ninguna
forma paramétrica en particular para λ0 (t), conocida como la función de riesgo base. Esta
función representa el riesgo de un sistema con vector de covariables igual a cero (a condición
de que Ψ(0) = 1), conocido como sistema base. En este modelo, no se hace ningún supuesto
sobre la distribución del tiempo de fallo de la población base. Por lo que, este es un modelo
semi-paramétrico en el sentido de que se asume una forma paramétrica para el efecto de
las covariables. De hecho, un modelo común para Ψ(β T X) es
Ψ(β T X) = exp(β T X) = exp
à p
X
!
βj Xj
.
(2.2)
j=1
Básicamente, el modelo asume que existe una relación proporcional entre las funciones de
riesgo de tiempos de fallo correspondientes a diferentes elementos. En otras palabras, si
consideramos dos dispositivos definidos respectivamente por los vectores de covariables X1
y X2 . La relación de las funciones de riesgo correspondientes vienen dadas por Klein &
Moeschberger (1997), de la forma
1
λ(t; X )
=
λ(t; X2 )
λ0 (t) exp
à p
X
!
βj Xj1
j=1
λ0 (t) exp
à p
X
"
! = exp
βj Xj2
p
X
¡
¢
2
βj Xj1 − Xj
#
(2.3)
j=1
j=1
que es constante en el tiempo. La razón de riesgos en (2.3) se refiere, en contextos de
Bioestadística, como el riesgo relativo de un individuo con factor de riesgo X1 del acontecimiento de interés (muerte o recaída, por ejemplo) en comparación con un individuo con
factor de riesgo X2 . También vamos a adoptar, en nuestro contexto, la denominación de
riesgo relativo para la cantidad dada en (2.3).
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
13
El interés principal es hacer inferencia sobre el vector de parámetros β, que representa
el logaritmo del riesgo relativo,Z y la función de riesgo base λ0 (t) o la función de riesgo base
t
acumulativa, esto es, Λ0 (t) =
λ0 (u) du.
0
Asumimos que tenemos n observaciones independientes de la forma (Yi , δi , Xi ), i =
1, 2, . . . , n, bajo el supuesto de RCM. Esto es, Yi son tiempos de vida censurados a la
derecha, que suponemos que están ordenados; δi es el indicador de censura, que nos dice
si una observación está censurada o no (δi = 1 si ha ocurrido el fallo en Yi y δi = 0 si el
tiempo de vida es censurado a la derecha); y Xi es un vector de covariables explicativas.
La estimación del parámetro β se ha basado tradicionalmente en la formulación de una
verosimilitud condicionada o parcial, donde el riesgo base se entiende como un parámetro
de ruido, que en general, no es estimado, ya que el objetivo es evaluar el efecto que cada
factor tiene sobre el riesgo de fallo.
Vamos a definir el proceso de riesgo como D(t) = I[Y ≥ t], como se indica en Martinussen & Scheike (2006). La verosimilitud parcial se obtiene como el producto, extendido a
todos los sujetos del ejemplo, de la probabilidad condicionada que un sujeto con covariables
Xi falle en el tiempo Yi , dado que uno de los sujetos en riesgo en Yi falle en este tiempo,
esto es
P [de que un sujeto i falle en Yi | a que haya un fallo en Yi ] =
P [de que un sujeto i falle en Yi | a que esté en situación de riesgo en Yi ]
=
=
P [de que ocurra un fallo en Yi | a que esté en situación de riesgo en Yi ]
£
¤
£
¤
(2.4)
λ0 (Yi ) exp β T Xi
exp β T Xi
λ(Yi |Xi )
= n
= n
= n
.
X
X
X
£ T ¤
£ T ¤
Dj (Yi )λ(Yi |Xj )
Dj (Yi )λ0 (Yi ) exp β Xj
Dj (Yi ) exp β Xj
j=1
j=1
j=1
donde Dj (t) = I[Yj ≥ t]. La verosimilitud parcial viene entonces, dada de la forma
δi

n 
Y


P L(β) =
n
X
i=1 


exp[β T Xi ]

£ T ¤

Dj (Yi ) exp β Xj
(2.5)
j=1
La flexibilidad del modelo (2.1) se encuentra en el término no paramétrico, λ0 (t), la función
de riesgo base. La estimación procedente de este término se basa en una verosimilitud resComparación de dos modelos de regresión en fiabilidad
14
Modelo de riesgos proporcionales de Cox
tringida (profile likelihood ), que se construye mediante la fijación de un valor del parámetro
de regresión β en la expresión anterior (2.5), se maximiza el logaritmo natural de dicha
expresión con respecto a λ0 , para obtener una estimación de λ0 . Por lo tanto, obtenemos
una verosimilitud restringida máximo verosímil de λ0 (Yi ) como
b0i =
λ
δi
n
X
£
T
Dj (Yi ) exp β Xj
¤
.
(2.6)
j=1
Este estimador de la tasa de riesgo base nos lleva al siguiente estimador de la tasa de
riesgo acumulativo correspondiente conocido como el estimador de Breslow (1975), que
viene dado por la expresión
b 0 (t) =
Λ
X
i:Yi ≤t
δi
n
X
£
T
Dj (Yi ) exp β Xj
¤
.
(2.7)
j=1
En la literatura reciente, existe un extenso número de libros especializados que incluyen un extensivo y comprensivo tratamiento del modelo de riesgos proporcionales de Cox
(1972). Recomendamos particularmente el libro de Klein & Moeschberger (1997), donde
todos los métodos representados están debidamente representados por medio de numerosos
ejemplos prácticos en el contexto de las aplicaciones biomédicas.
Aunque tradicionalmente es en el campo de la Bioestadística donde es aplicado más
comúnmente el modelo de riesgos proporcionales, este método ha logrado progresivamente
más y más prestigio en el campo de la ingeniería y la fiabilidad, y como consecuencia
de esto, el número de artículos que ilustran el uso de este tipo de modelos bajo diferentes
características ha ido en incremento en la literatura reciente sobre los modelos de fiabilidad.
Como ejemplo, podemos citar a Carrion et al. (2011), que presenta una sencilla aplicación
del modelo de riesgos proporcionales para tratar el estudio de la rotura de tuberías en un
sistema de red de suministro de agua.
La relevancia de este modelo depende fuertemente de que, paralelamente al desarrollo
de los importantes resultados teóricos en estos últimos años, hay algoritmos implementados
en programas estadísticos gratuitos. La mayoría de los paquetes estadísticos cuentan con
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
15
funciones para facilitar el ajuste del modelo de CPH en aplicaciones reales. El entorno estadístico R, es actualmente el software líder en este sentido y en particular el survival package
que proporciona varias funciones y bases de datos para el análisis de la supervivencia.
2.2.
Modelo de riesgos proporcionales estratificado
Como vimos en la sección anterior, hay casos en que puede violarse la presunción de
riesgos proporcionales para alguna covariable. En tal caso, puede ser posible estratificar
esa covariable y utilizar el modelo de riesgos proporcionales dentro de cada estrato y considerando las otras covariables. En este caso, los sujetos en el estrato j-ésimo tienen una
función de riesgo base arbitraria λ0j (t) y el efecto de otras covariables explicativas sobre la
función de riesgo puede ser representado por un modelo de riesgos proporcionales en ese
estrato de la forma
λj (t; X) = λ0j (t) exp(β T X),
j = 1, . . . , p.
(2.8)
En este modelo, los coeficientes de regresión se supone que son los mismos en todos los
estratos, aunque las funciones de riesgo base pueden ser diferentes y no relacionadas en
absoluto.
Las pruebas de estimación y de hipótesis descritas anteriormente, donde la función de
log-verosimilitud parcial (ln P L) viene dada por
ln P L(β) = [ln P L1 (β)] + [ln P L2 (β)] + · · · + [ln P Lp (β)] ,
(2.9)
donde ln P Lj (β) es la log-verosimilitud parcial utilizando sólo los datos de los sujetos en
el estrato j-ésimo. Los sumandos de la expresión (2.9) se calculan directamente mediante
la suma de cada una de las log-verosimilitudes en cada estrato. La ln P L(β) es, por tanto,
maximizada con respecto a β utilizando un método apropiado.
Un supuesto clave en el uso del modelo de estratificación de riesgos proporcionales es
que las covariables están actuando de manera similar en la función de riesgo base en cada
estrato. Esto se puede comprobar utilizando una prueba de razón verosimilitud, que encajan
en el modelo estratificado, que supone que las β’s son comunes a cada estrato, y obtenemos
Comparación de dos modelos de regresión en fiabilidad
16
Modelo de riesgos proporcionales de Cox
la log-verosimilitud parcial, ln P L(β). Usando sólo los datos del j-ésimo estrato, se puede
ajustar un modelo de riesgos proporcionales y obtener el estimador βj y la log-verosimilitud
parcial ln P Lj (βj ). La log-verosimilitud bajo el modelo, con covariables distintas para cada
p
X
ln P Lj (βj ). La razón de verosimilitud para la prueba chiuno de los p estratos es
j=1
cuadrado
de las β’s es la misma#para cada estrato y viene calculada mediante la expresión
"
p
X
−2 ln P L(β) −
ln P Lj (βj ) para una muestra lo suficientemente grande y sigue una
j=1
distribución chi-cuadrado con (p − 1)s grados de libertad bajo la hipótesis nula que dice
que βj = βk con k 6= j.
Para construir el test de Wald, calculamos el modelo con las distintas β’s en cada estrato
ajustando distintos modelos de riesgos proporcionales para cada estrato. Las estimaciones
procedentes de los distintos estratos son asintóticamente independientes porque la matriz de
información del modelo combinado es una matriz diagonal en bloques. Se construye el test
de Wald usando una matriz de contraste adecuada. Este método de contraste es equivalente
a contrastar la interacción entre una covariable de estratificación y las covariables en un
modelo de riesgos proporcionales estratificado.
2.3.
Estudio de residuos en los modelos de regresión para datos de vida
Una de las ventajas que han surgido del enfoque de estos tipos de análisis de datos de
tiempos de vida es la posibilidad de efectuar análisis de residuos Anderson et al. (1993),
Fleming & Harrington. (1991), Therneau & Gramsch. (2000), Therneau et al. (1990).
Los residuos se pueden utilizar para:
1. Descubrir la forma funcional apropiada de un predictor continuo.
2. Identificar los sujetos que están pobremente predichos por el modelo.
3. Identificar los puntos o datos de influencia.
4. Verificar el supuesto de riesgo proporcional.
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
17
Existen cinco tipos de residuos de interés en el modelo de CPH: Los residuos de CoxSnell, los de martingala, los de deviance, los de score y los de Schoenfeld. De estos cinco
residuos pueden derivarse otros dos: los dfbetas y los residuos escalados de Schoenfeld.
Antes de pasar al análisis de los cinco tipos de residuos, veamos previamente el siguiente
modelo descrito de forma equivalente a la mostrada anteriormente descrita por Andersen
et al (1993). Consideramos un conjunto de n sujetos independientes de tal manera que
el proceso de conteo Ni ≡ {Ni (t), t ≥ 0} para el i-ésimo sujeto es el número de eventos
observados hasta el tiempo t. La trayectoria muestral de los Ni son funciones con saltos
de tamaño +1 y con Ni (0) = 0. Suponemos que la función de intensidad para Ni (t) viene
dada por la expresión
αi (t) = Di (t)dΛ (t; Xi (t)) = Di (t) exp(β T Xi (t))dΛ0 (t),
(2.10)
donde Di (t) es un proceso 0 − 1 que indica si el i-ésimo sujeto esta en riesgo en el tiempo
t, β es un vector de coeficientes de regresión, Xi (t) es un vector p-dimensional de procesos
de las covariables, y Λ0 (t) es la función de riesgo base acumulativa cuya estimación viene
dada de la forma
n
X
Z
t
b 0 (t) =
Λ
0
i=1
n
X
dNi (s)
´.
Dj (s) exp βbT Xj (s)
³
j=1
Como vemos esta expresión sigue un cierto paralelismo con la expresión (2.7), que es el
estimador de Breslow.
Existen varias familias de modelos de supervivencia que encajan en este marco. La
generalización del modelo de CPH dada por Andersen & Gill (1984), surge cuando Λ0 (t)
no está completamente especificada. Tenemos la restricción adicional de que Di (t) = 1 hasta
el primer evento o censura, y 0 para el modelo de CPH. Con la forma paramétrica Λ0 (t) = t
se tiene un modelo de Poisson, o una exponencial si esta restringido a un solo evento por
sujeto, y Λ0 (t) = tp un modelo de Weibull. Nuestra atención se centrará principalmente
en el modelo de Andersen & Gill (1982) y el modelo de CPH, sin embargo, los métodos
que se desarrollaron en gran parte se aplican tanto a los casos paramétricos como a los
semi-paramétricos.
Comparación de dos modelos de regresión en fiabilidad
18
Modelo de riesgos proporcionales de Cox
2.3.1.
Residuos de Cox-Snell
Si un analista está interesado en evaluar el ajuste global del modelo planteado, los
residuos más comunes utilizados por este tipo de análisis son los de Cox-Snell, desarrollados
por Cox & Snell (1968) y mejorados por Klein & Moeschberger (1997). Si el modelo de
CPH dado por (2.1) se mantiene, entonces las estimaciones del tiempo de supervivencia del
modelo planteado, vienen dadas por un estimador de la función de supervivencia Sbi (t), debe
ser muy similar al verdadero valor de Si (t) Collett (1994) y también Klein & Moeschberger
(1997). Para evaluar esto, se calcularon los residuos de Cox-Snell, que vienen definidos de
la forma
³
´
b 0 (ti )
rcsi = exp βbT Xi Λ
Un resultado importante demostrado por Cox & Snell (1968), Collett (1994) y Klein &
Moeschberger (1997), es que, si el modelo apropiado se ajusta bien a los datos, entonces los
rcsi , tendrán para cada i un valor exp(1), es decir, distribución exponencial con razón o tasa
de riesgo igual a 1. Para probar si los residuos de Cox-Snell están o no aproximadamente
distribuidos de forma exponencial, tenemos que construir su gráfico de residuos. La lógica
de este método es sencilla. Si los residuos de Cox-Snell están, de hecho, distribuidos de
forma exponencial, entonces una estimación de la tasa de riesgo basada en rcsi cuando se
dibuja contra rcsi debería tender a una linea recta que pasa por el origen con pendiente
igual a 1. Esto es, si dibujamos Λr (rcsi ) contra rcsi , debería tender a una linea recta que
pasa por el origen con pendiente igual a 1, si el modelo planteado se ajusta bien a los datos.
En este caso, Λr (rcsi ) puede ser considerada como la tasa de riesgo para los residuos de
Cox-Snell.
2.3.2.
Residuos de martingala
Según Barlow & Prentice (1988), definimos estos residuos como la diferencia entre el
proceso de conteo y la integral de la función de intensidad
Z t
Mi (t) = Ni (t) −
Di (s) exp(β T Xi (s))dΛ0 (s),
i = 1, . . . , n.
0
Despreciando los perjuicios de medibilidad e integrabilidad Mi (·) será un tipo de martingala específica; ver, por ejemplo Gill (1984). Sea β estimada por el estimador de máxima
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
19
verosimilitud parcial βb y el riesgo acumulado Λ0 por el estimador del riesgo base de Breslow
(1974), definido en (3.8).
Por lo que el residuo de martingala viene estimado de la forma
Z
t
ci (t) = Ni (t) − E
bi (t) = Ni (t) −
M
³
´
b 0 (s),
Di (s) exp βbT Xi (s) dΛ
0
ci como abreviatura de M
ci (∞). El residuo puede ser interpretado, para cada t, como
con M
la diferencia en el intervalo [0, t] del número de eventos observados menos los esperados
proporcionados por el modelo, o por exceso de muertes. Los residuos poseen algunas de
n
X
ci (t) = 0 para cualquier t, y
M
las propiedades reminiscentes de los modelos lineales:
h
i
ci ] = cov M
ci , M
cj = 0 asintóticamente.
E[M
i=1
Para el modelo de CPH con covariables independientes del tiempo, donde ti denota el
tiempo de observación para el sujeto i y δi el estado final, este residuo se reduce a una
expresión más simple de la forma
³
´
ci = δi − exp βbT Xi Λ
b 0 (ti )
M
es útil saber que la expresión anterior puede ponerse en función de los residuos de Cox-Snell
tratados anteriormente, como
ci = δi − rcs
M
i
Los residuos de martingala son muy asimétricos y con una cola muy larga hacia la
derecha, particularmente para datos de supervivencia para un solo evento. Estos residuos
se usan para estudiar la forma funcional de una covariable en particular.
Comparación de dos modelos de regresión en fiabilidad
20
Modelo de riesgos proporcionales de Cox
2.3.3.
Residuos score
Para el modelo semi-paramétrico derivado de (2.10) cuando Λ0 no está especificada, la
derivada de la log-verosimilitud parcial con respecto a βj puede ser escrita de la forma
¯
n Z ∞
X
©
ª
∂ ln P L ¯¯
=
Xij (s) − X j (b, s) dNi (s)
¯
∂βj β=b
i=1 0
n Z ∞
X
©
ª
ci (s)
=
Xij (s) − X j (b, s) dM
(2.11)
=
i=1
n
X
0
P Lij (b, ∞),
i=1
donde
n
X
X j (b, s) =
¡
¢
Di (s) exp bT Xi (s) Xij (s)
i=1
n
X
¡
¢
Di (s) exp bT Xi (s)
(2.12)
i=1
es una media ponderada de las covariables sobre el riesgo establecido en el tiempo s. La
segunda igualdad en (2.11) se obtiene de la definición del estimador de Breslow Λ0 , cuando
b ·) como el proceso score, y P Lij (β,
b ∞) como el residuo
evaluamos β = b. Definimos P Lij (β,
score del i-ésimo sujeto y de la j-ésima variable. De la definición de βb los residuos score
sumarán cero.
Los residuos score se utilizan para verificar la influencia individual y para la estimación
robusta de la varianza, también son un ejemplo de la amplia clase de martingalas que
hay para transformar los residuos, todo esto viene ampliamente discutido por Barlow &
Prentice (1988). Ellos encontraron un diagnóstico útil de la influencia de cada sujeto en las
estimaciones de los parámetros y en la evaluación de los supuestos del modelo, tales como
el de riesgos proporcionales.
2.3.4.
Residuos deviance
ci , particularmente en el caso
Una deficiencia importante en los residuos de martingala M
del modelo de CPH, es su asimetría. En este caso, se tiene un valor máximo de +1, pero un
mínimo de −∞. Es necesaria una transformación para lograr una distribución que posea
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
21
una forma más normal, sobre todo cuando se ha evaluado la precisión de las predicciones
para unos sujetos en particular. Una de estas transformaciones viene motivada por los
residuos deviance hallados en la literatura de los modelos lineales de McCullagh & Nelder
(1983). En estos estudios se define la deviance como D = 2{ln likelihood(saturated) −
b donde un modelo saturado es un modelo en donde la β es completamente
ln likelihood(β)},
arbitraria, es decir, es aquel que tiene igual número de parámetros que de observaciones.
En nuestro modelo el parámetro de ruido es la función de riesgo base Λ0 . Sea hi el sujeto
individual estimado por β; se asume que la deviance es independiente del tiempo y que Λ0
es conocida, entonces tenemos
³
³
´´i
X ½Z h ¡
¡ T ¢¢
T
b
D =2 sup
ln exp hi Xi − ln exp β Xi
dNi (s) −
h
¾
Z
h
³
´i
¡ T ¢
T
b
− Di (s) exp hi Xi − exp βi Xi dΛ0 (s) .
Debido a la separación de los términos, podemos maximizar separadamente con respecto a
cada hi . Mediante un simple multiplicador de Lagrange, este valor máximo de hi satisface
Z ∞
Z ∞
¡ T ¢
Di (s) exp hi Xi dΛ0 (s) =
dNi (s).
0
Sea
0
Z
t
ci (t) = Ni (t) −
M
³
´
exp βbT Xi dΛ0 (s),
0
por ejemplo el residuo de martingala con β estimado y Λ conocido. Sustituyendo da
³
´



T
Z
b
exp
β
X
X
i
fi + ln 
M
´  dNi (s)
³
D = −2
T
b
exp hi Xi
(2.13)
Ã
"
!#
X
f
fi + Ni (∞) ln Ni (∞) − Mi
M
= −2
.
Ni (∞)
el paso anterior requiere una factorización de la forma
Z
³
´
³
´Z
T
T
b
b
Di (s) exp β Xi dΛ0 (s) = exp β Xi
Di (s)dΛ0 (s)
que no es válida para X dependientes del tiempo.
Comparación de dos modelos de regresión en fiabilidad
22
Modelo de riesgos proporcionales de Cox
Para una densidad Gaussiana el parámetro de ruido σ se cancela en la desviación, pero
fi por M
ci en la
no aquí. Las estimaciones de los resultados de Λ0 en la sustitución de M
fórmula. El residuo de deviance viene dado por la expresión
³ ´ r h
³
´i
ci ∗ −2 M
ci + δi ln δi − M
ci
di = signo M
ci = 0. Los
Hay que tener en cuenta que el residuo de deviance será cero sí y sólo sí M
residuos de deviance se utilizan para la detección de valores atípicos (outliers).
2.3.5.
Residuos de Schoenfeld
Los residuos de Schoenfeld (1982), se definen como la matriz:
Uij (β) = Xij (ti ) − X j (β, ti )
donde i y ti son los sujetos y el tiempo de ocurrencia del evento respectivamente.
Bajo el supuesto de riesgos proporcionales, los residuos de Schoenfeld siguen un patrón
aleatorio, por lo tanto, son útiles en la evaluación de la tendencia en el tiempo o de la falta de
proporcionalidad. Therneau & Gramsch (2000), consideran que los coeficientes de regresión
vienen dados mediante funciones dependientes del tiempo de la forma β(t) = β +θg(t), para
una función de suavizado g(t). Debido a que las covariables son dependientes del tiempo,
la regresión lineal generalizada de los residuos de Schoenfeld en función del tiempo da una
pendiente distinta de cero, esto indica la violación del supuesto de riesgos proporcionales,
ya que la hipótesis nula de presunción de riesgos proporcionales nos dice que θ = 0, es
decir, que el modelo se ajusta bien. Al igual que cualquier tipo de regresión, se recomienda
mirar la gráfica de la recta de regresión, además de realizar los test de que la pendiente
no sea cero. En resumen podemos decir que los residuos de Schoenfeld son útiles para la
verificación del supuesto de riesgos proporcionales en el modelo de CPH.
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
2.4.
23
Ajuste del modelo de CPH para nuestros datos
Para la realización del ajuste se va a utilizar en todos los casos el programa estadístico
R, es un programa gratuito donde vienen implementadas la mayoría de las funciones en el
ámbito estadístico. Para más información ver el Apéndice A.
Vamos a ajustar el modelo de CPH para los datos del estudio,
> ## Realizamos la regresión de Cox
> # volumen=longitud(m)*(diametro(m)/2)^2*pi=m3; suponemos que los
tramos son rectos
> # hacemos log(volumen) para centrar la variable
> cox1<-coxph(Surv(tiempo,
estado)~material+presion+trafico+log(volumen)+x80, data=datos)
> cox1
Call:
coxph(formula = Surv(tiempo, estado) ~ material + presion + trafico +
log(volumen) + x80, data = datos)
coef exp(coef) se(coef)
z
p
materialUr
-0.6265
0.534 0.17086 -3.67 0.00025
presion
0.0054
1.005 0.00587 0.92 0.36000
trafico
-0.1871
0.829 0.11840 -1.58 0.11000
log(volumen) 0.0869
1.091 0.03962 2.19 0.02800
x80
4.3487
77.378 0.36400 11.95 0.00000
Likelihood ratio test=253
on 5 df, p=0
n= 655, number of events= 324
Figura 2.1: Ajuste del modelo de CPH.
En estas salidas la significación de modelo puede verificarse sólo a través del método de la
razón de verosimilitud. Una salida más completa se presenta mediante la ejecución de la
sentencia summary(cox1), por lo que:
Comparación de dos modelos de regresión en fiabilidad
24
Modelo de riesgos proporcionales de Cox
> ## Una salida más completa sería mediante la sentencia
> summary(cox1)
Call:
coxph(formula = Surv(tiempo, estado) ~ material + presion + trafico +
log(volumen) + x80, data = datos)
n= 655, number of events= 324
coef exp(coef) se(coef)
z Pr(>|z|)
materialUr
-0.626531 0.534443 0.170856 -3.667 0.000245
presion
0.005402 1.005416 0.005869 0.920 0.357343
trafico
-0.187057 0.829397 0.118399 -1.580 0.114133
log(volumen) 0.086941 1.090832 0.039616 2.195 0.028191
x80
4.348707 77.378312 0.363997 11.947 < 2e-16
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
materialUr
presion
trafico
log(volumen)
x80
***
*
***
’ 1
exp(coef) exp(-coef) lower .95 upper .95
0.5344
1.87111
0.3824
0.747
1.0054
0.99461
0.9939
1.017
0.8294
1.20570
0.6576
1.046
1.0908
0.91673
1.0093
1.179
77.3783
0.01292
37.9127
157.926
Concordance= 0.711 (se = 0.02 )
Rsquare= 0.32
(max possible= 0.995 )
Likelihood ratio test= 252.6 on 5 df,
Wald test
= 196.9 on 5 df,
Score (logrank) test = 479.9 on 5 df,
p=0
p=0
p=0
Figura 2.2: Ajuste completo del modelo de CPH.
Realizamos un nuevo ajuste con las covariables más significativas como son las covariables material y x80. Si consideramos que en el volumen se encuentran implícitamente la
longitud y el diametro, estratificando la covariable material con la función strata() y
aplicando el log() a la covariable volumen para centrar los datos, tenemos
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
25
> ## Realizamos de nuevo la regresión de Cox con las variables más
significativas
> cox2<-coxph(Surv(tiempo, estado)~log(volumen)+strata(material)+x80,
data=datos, method='breslow')
> summary(cox2)
Call:
coxph(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material)
+
x80, data = datos, method = "breslow")
n= 655, number of events= 324
coef exp(coef) se(coef)
z Pr(>|z|)
log(volumen) 0.09317
1.09765 0.03948 2.36
0.0183 *
x80
4.03705 56.65921 0.39054 10.34
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
log(volumen)
x80
exp(coef) exp(-coef) lower .95 upper .95
1.098
0.91104
1.016
1.186
56.659
0.01765
26.354
121.814
Concordance= 0.61 (se = 0.025 )
Rsquare= 0.193
(max possible= 0.991 )
Likelihood ratio test= 140.1 on 2 df,
Wald test
= 111.3 on 2 df,
Score (logrank) test = 137.5 on 2 df,
p=0
p=0
p=0
Figura 2.3: Ajuste del modelo con las covariables significativas.
2.4.1.
Interpretación de los coeficientes del modelo
Podemos concluir que el modelo es aceptable para cualquiera de los tres criterios (test de
razón de verosimilitud, test de Wald y test de Score o logrank).
¯
¯
¯ coef ¯
¯
¯
Estos coeficientes estimados, se consideran significativos cuando el cociente z = ¯
s.e.(coef ) ¯
en valor absoluto, es superior a 2, ya que para muestras grandes este cociente se distribuye
según una ley Normal (prueba de Wald).
En nuestro caso tenemos que a la covariable log(volumen) le sucede lo anterior
log(volumen) ⇒ |z| = |2.36| → p = 0.0183 < 0.05 ⇒ es estadísticamente significativa y a
la otra covariable también x80 ⇒ |z| = |10.34| → p = 2 · 10−16 << 0.05 ⇒
es estadísticamente significativa.
Comparación de dos modelos de regresión en fiabilidad
26
Modelo de riesgos proporcionales de Cox
Como es común en técnicas de supervivencia, la estimación de los efectos de las cova-
riables son analizadas desde el punto de vista de la razón de riesgo del tiempo de vida o
duración de la tubería. La razón de riesgo es la probabilidad de que una tubería que no ha
fallado hasta el instante t, empezara a romperse a lo largo del intervalo de tiempo consecutivo. Mientras que en nuestro caso, la función de riesgo λ(t) nos mide la razón de riesgo
de que una tubería pueda romperse condicionada al hecho de que no se rompa hasta el
instante t. La hipótesis principal es que la razón de riesgo en todos los casos es un múltiplo
de una razón de riesgo base inespecífica λ0 (t).
En la Figura 2.3 podemos ver el ajuste del modelo reducido final para nuestros datos,
este ajuste nos proporcionan los valores de los coeficientes para cada covariable, la exponencial del valor de cada coeficiente (que nos expresa el efecto correspondiente de cada
covariable en la razón de riesgo), el error estándar y el p-valor de cada coeficiente.
El significado de un valor positivo para un correspondiente β, por ejemplo a la covariable
volumen, puede interpretarse como que la razón de riesgo al fallo (rotura) es mayor en
las tuberías que presentan un mayor volumen que en las de menor volumen. Vamos a
interpretar los β mediante sus exp(β) de la forma 1 − exp(β) en %, por lo que, tenemos:
Para la covariable volumen, el incremento en el riesgo de fallo (rotura) para el incremento de 1 m3 de volumen es del 9.8 %.
Para la covariable x80, el incremento en el riesgo de fallo (rotura) para las tuberías
instaladas antes de 1980 es del 5566 %.
Otra forma de interpretar estos coeficientes sería:
Como la covariable x80 es binaria, el valor de exp(coef ) representa el riesgo de rotura
estimado para las tuberías que tengan esas características (instaladas después de 1980) con
respecto a las otras (antes de ese año), el exp(coef ) nos indicará:
La covariable x80 ⇒ exp(coef ) = 56.7 el modelo supone que el efecto de la covariable
x80 sobre el riesgo de rotura es aproximadamente 57 veces mayor para las tuberías
que se construyeron antes de 1980.
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
27
Como la covariable volumen es cuantitativa, el valor de exp(coef ) representa el aumento o disminución del riesgo de rotura según varíe el volumen: log(volumen)
⇒ exp(coef ) = 1.1, en este caso lo que tiene sentido es establecer el aumento del
riesgo que va de una tubería con x m3 de volumen a otra con (x + 10) m3 de volumen, cuando el volumen aumente en 10 m3 esto implicará que el riesgo de rotura se
multiplica por exp(10 · β) = exp(10 · 0.09317) = 2.538.
Cabe destacar que en nuestros datos no se ha tenido en cuenta el truncamiento por la
izquierda, es probable que debido a esto el efecto de la covariable x80 nos salga tan elevado
(57 veces mayor). En estudios posteriores (Futuras líneas de investigación) sería conveniente
tenerlo en cuenta.
Comparación de dos modelos de regresión en fiabilidad
28
Modelo de riesgos proporcionales de Cox
2.4.2.
Verificación de los supuestos del modelo de CPH
Podemos obtener la función y gráficas de supervivencia y de riesgo acumulado del
modelo de CPH, de la forma:
> ## Gráfica de la Supervivencia estimada para el material
> plot(survfit(Surv(tiempo,estado)~material,data=datos), xlab='años',
ylim=c(0, 1), ylab='Supervivencia',lty = 1:4, col = 2:5, main="Curvas
de Supervivencia para el material")
> legend("topright", legend=c("material=FD","material=Ur"), lty=1:4,
col=c("red","green"))
Figura 2.4: Gráfico de la función de supervivencia para los dos tipos de materiales.
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
29
y para la función de riesgo acumulado tenemos
> ## Gráfica del riesgo estimado para el material ##
> plot(survfit(Surv(tiempo,estado)~material,data=datos), fun="cumhaz",
xlab='años', ylim=c(0, 4), ylab='Riesgo acumulado', lty = 1:4, col =
2:5, main="Curvas de riesgo acumulado para el material")
> legend("topright", legend=c("material=FD","material=Ur"), lty=1:4,
col=c("red","green"))
>
Figura 2.5: Gráfico de la función de riesgo acumulado para los dos tipos de materiales.
Como podemos ver en las gráficas anteriores, las curvas de los dos materiales se cruzan,
por lo que existen evidencias de que el material no cumple la proporcionalidad de riesgos.
Comparación de dos modelos de regresión en fiabilidad
30
Modelo de riesgos proporcionales de Cox
Las pruebas y los diagnósticos gráficos para riesgos proporcionales se puede basar en
los residuos vistos anteriormente, como son los residuos de Schoenfeld, scores y deviances.
Con mayor comodidad, la función cox.zph calcula la prueba de riesgos proporcionales
para cada covariable, mediante la correlación de los correspondientes residuos escalados
de Schoenfeld con una transformación adecuada del tiempo (por defecto se basa en la
estimación de Kaplan-Meier (1958), de la función de supervivencia.)
Vamos a probar el supuesto de riesgos proporcionales de nuestro ajuste del modelo de
regresión de CPH:
> ## Supuesto de Riesgos Proporcionales
> cox.zph(cox2)
rho chisq
p
log(volumen) 0.0436 0.637 0.425
x80
-0.0123 0.047 0.828
GLOBAL
NA 0.693 0.707
Figura 2.6: Salidas de la prueba de verificación de riesgos proporcionales.
Por lo que, no existen evidencias significativas al 5 % de que se viole el supuesto de riesgos
proporcionales para ninguna de las dos covariables ni globalmente.
Comprobación de la hipótesis global de riesgos proporcionales: Residuos de
Cox-Snell
Después de ajustar el modelo, tenemos que calcular los residuos de Cox-Snell con el
fin de evaluar el ajuste del modelo de riesgos proporcionales. Si el modelo es correcto y
la estimación de los β’s son cercanas a los valores reales, entonces estos residuos deberían
tratarse como una muestra censurada de observaciones de una distribución exponencial.
Hemos calculado el estimador de Nelson-Aalen de la tasa de riesgo acumulado de los
residuos de Cox-Snell. Si una distribución exponencial ajusta a los datos, entonces, este
estimador debería aproximadamente describir una línea de pendiente igual a 1.
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
Calculamos los residuos de Cox-Snell para nuestro ajuste de la forma
> ## Residuos de Cox-Snell ##
> estado<-datos$estado
> mresi<-residuals(cox2, type="martingale")
> csresi<-estado-mresi
> hazard.csresi<-survfit(Surv(csresi,estado)~1,type="flemingharrington")
> plot(hazard.csresi$time,-log(hazard.csresi$surv), xlab='residuos de
Cox-Snell', ylab='riesgo acumulado',lty = 1:4,
+
main="Representación de los residuos de Cox-Snell")
> lines(c(0,5),c(0,5))
Figura 2.7: Salidas de los residuos de Cox-Snell.
La gráfica de la Figura 2.7 nos sugiere que este modelo ajusta muy bien a los datos.
Comparación de dos modelos de regresión en fiabilidad
31
32
Modelo de riesgos proporcionales de Cox
Comprobación de la hipótesis de riesgos proporcionales por covariables: Residuos escalados de Schoenfeld
Ahora estamos interesados en evaluar la hipótesis de riesgos proporcionales del modelo
de CPH, examinando si el impacto de una o más covariables sobre el riesgo de rotura
puede variar con el tiempo. Por ejemplo, las tuberías de agua hechas de un tipo particular
de material pueden degradarse con el tiempo, en el sentido de que el correspondiente
coeficiente β puede no ser constante, es decir que β(t). Si, por el contrario, la hipótesis
de riesgos proporcionales se mantiene, una gráfica de β(t) frente al tiempo describirá una
línea horizontal.
Calculamos los residuos escalados de Schoenfeld para nuestro caso de la forma
> ## Residuos de Schoenfeld ##
> plot(cox.zph(cox2),var=1, main="Betas para log(volumen)")
Figura 2.8: Salidas de los residuos escalados de Schoenfeld para log(volumen).
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
33
> plot(cox.zph(cox2),var=2, main="Betas para x80")
Figura 2.9: Salidas de los residuos escalados de Schoenfeld para x80.
Como podemos apreciar en las Figuras 2.8 y 2.9 no hay coeficientes dependientes del
tiempo admisibles en nuestro caso. La gráfica de la covariable x80 presenta una mejor forma
que la de la covariable log(volumen), por lo que podemos contrastar nuestros cálculos
numéricos.
La dependencia del tiempo del coeficiente del material queda captada por el modelo
estratificado en el que se considera λU r (t) y λF D (t).
Comparación de dos modelos de regresión en fiabilidad
34
Modelo de riesgos proporcionales de Cox
Comprobación de la influencia sobre cada observación en el modelo: Residuos
dfbeta
Otro uso de los residuos que se nos presenta es el de determinar la influencia de cada
observación en el modelo ajustado. Hemos calculado, por medio de los residuos dfbeta, que
están implementados en R, el cambio aproximado en el k-ésimo coeficiente (es decir, la
k-ésima covariable) si la observación i-ésima se elimina del conjunto de datos y se vuelve a estimar el modelo sin esta observación. Para cada covariable, se ha representado la
observación (en orden de tiempo de fallo registrado) por el cambio de escala aproximada
(dividiendo por el error estándar del coeficiente) del coeficiente después de la eliminación
de la observación del modelo. Si la supresión de una observación hace que el coeficiente
incremente, el residuo dfbeta es negativo y viceversa.
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
Calculamos los residuos dfbeta para nuestro caso de la forma
>
>
>
>
+
+
+
+
## Residuos dfbeta ##
dfbeta <- residuals(cox2, type="dfbetas")
par(mfrow=c(2,2))
for (j in 1:2){
plot(dfbeta[,j], ylab=names(coef(cox2))[j])
abline(h=0, lty=2, col='black')
lines(c(0,0),c(0,0))
}
Figura 2.10: Salidas de los residuos dfbeta para log(volumen).
Comparación de dos modelos de regresión en fiabilidad
35
36
Modelo de riesgos proporcionales de Cox
Figura 2.11: Salidas de los residuos dfbeta para x80.
En las Figuras 2.10 y 2.11 se nos muestran los residuos dfbeta del modelo. Como vemos
estos residuos están centrados con respecto al origen, y no presentan patrones definidos. Se
nos presentan dos datos demasiados alejados del origen correspondientes a los dos diámetros más grandes presentes en nuestros datos, a excepción de esto no se aprecia ninguna
irregularidad en las gráficas.
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
37
Comprobación de la existencia de outliers en el modelo: Residuos de deviance
Los residuos tipo deviance pueden generarse a través de la sentencia
>
>
>
+
>
## Residuos de deviance ##
devresi <- resid(cox2, type="deviance")
plot(cox2$linear.predictor, devresi, ylab="Residuos de Deviance",
main='Residuos de deviance')
abline(h=0,lty=2, col='black')
Figura 2.12: Salidas de los residuos de deviance.
En las Figura 2.12 se nos muestran los residuos de deviance estratificados para los dos tipos
de material, no apreciamos patrones definidos ni tampoco apreciamos residuos alejados del
origen.
Comparación de dos modelos de regresión en fiabilidad
38
Modelo de riesgos proporcionales de Cox
Comprobación de la forma funcional de las covariables del modelo: Residuos
de martingala
Los residuos tipo martingala pueden generarse a través de la sentencia
> mres<-residuals(cox2, type=c("martingale"))
>
plot(datos[,1], mres, xlab=c("log(volumen)")[1],
+
ylab="Residuos martingale", main="Residuos de Martingala")
>
abline(h=0, lty=2)
>
lines(lowess(datos[,1], mres, iter=0))
Figura 2.13: Salidas de los residuos de martingala para log(volumen).
En la Figura 2.13 se nos muestran los residuos de martingala para la covariable volumen,
en la que podemos ver claramente una tendencia curva decreciente, estos residuos presentan
claramente una forma funcional definida. La forma funcional en la que hemos introducido
esta covariable en el modelo no es la adecuada, deberíamos elegir otro modelo más flexible,
el cual se estudiará en las futuras líneas de investigación, ver Apéndice C.
Comparación de dos modelos de regresión en fiabilidad
Modelo de riesgos proporcionales de Cox
2.5.
39
Conclusiones
Se han estudiado las propiedades de fiabilidad de una red de suministro de agua instalada en una ciudad de tamaño medio en la costa mediterránea española. Este estudio es
válido para cualquier otro sistema de suministro de agua que posea características similares, y el objetivo principal es utilizar herramientas cuantitativas para dirigir estos sistemas
con el objetivo de evaluar su estado actual tan bien como la previsión del comportamiento
de sus infraestructuras en el futuro.
Se han utilizado métodos semi-paramétricos adaptados a las características particulares
de la base de datos con la que se ha trabajado. En particular, la muestra de datos que se
ha utilizado en el estudio viene caracterizada por la presencia de censura a la derecha. Se
ha considerado que esta opción es bastante interesante debido a que su implementación
mediante métodos computacionales es bastante fácil.
El análisis muestra la influencia de algunos factores que afectan a la supervivencia de
las tuberías, como son las dimensiones físicas (volumen), el material, la presión, el tráfico
rodado y una covariable que depende del tiempo de instalación de la tubería. Las tuberías
que presentan menos fallos presentan características, como la disminución del volumen de
la tubería, o que su material sea de fundición dúctil, así como que la tubería fuese instalada
después de 1980.
El análisis de los residuos ha llevado a validar el modelo de forma general. Principalmente la hipótesis de riesgos proporcionales global se ha verificado utilizando los residuos
de Cox-Snell, mostrando un buen ajuste. Seguidamente los residuos de Schoenfeld nos indican un buen ajuste para cada covariable en el modelo de CPH. Finalmente los residuos de
martingala para el volumen nos indica que la forma funcional en la que hemos introducido
la covariable volumen no es la apropiada, se debería de utilizar un modelo más flexible.
Comparación de dos modelos de regresión en fiabilidad
40
Modelo de riesgos proporcionales de Cox
Comparación de dos modelos de regresión en fiabilidad
Capítulo 3
Modelo de tiempo de vida acelerada
(AFT)
3.1.
Modelo de tiempo de vida acelerada (AFT)
El modelo de vida acelerada Lawless (1982), relaciona linealmente el logaritmo del
tiempo de vida T con el vector de covariables X. Específicamente se puede escribir como
ln T = ψ(X) + ε,
(3.1)
donde ε es un término de error aleatorio y ψ es una función desconocida. Este modelo forma
parte de la familia de modelos de regresión de la función de riesgo. De hecho, tenemos la
siguiente secuencia de igualdades
P [T > t] = P [ln T > ln t] = P [ε > ln (t exp(−ψ(X)))] =
= P [T0 > t exp(−ψ(X))]
(3.2)
donde es conveniente introducir la variable aleatoria no negativa T0 = exp(ε). Mirando la
relación entre T y T0 , es cierto que
Λ(t) = Λ0 (t exp(−ψ(X))),
donde Λ0 es la función de riesgo acumulado correspondiente a T0 . Esta última ecuación
puede ser escrita en términos de las funciones de riesgo correspondientes, entonces, si
llamamos Ψ(X) = exp(−ψ(X)), tenemos
λ(t) = λ0 (tΨ(X))Ψ(X),
41
42
Modelo de tiempo de vida acelerada
que establece que el modelo de vida acelerada no mantiene proporcionalidad entre las
tasas de riesgo (excepto cuando tenemos un modelo de regresión de Weibull, que es cuando
λ0 (t) = αγtγ−1 , para un α= “parámetro de escala” y γ= “parámetro de forma” adecuada),
proporcionando así una alternativa interesante para el modelo de riesgos proporcionales de
Cox (1972). De hecho en algunos casos, constituye una opción de modelo más atractivo
que el modelo de riesgos proporcionales, debido a su directa interpretación física.
En relación a este tipo de modelos, las pruebas de vida acelerada se utilizan cada vez
más en las industrias de fabricación. La prueba de vida acelerada es un método que consiste
en exponer a los elementos del proceso a un mayor estrés que el que soportarían durante
su uso normal. El objetivo principal es inducir un fallo temprano y la motivación para
hacer esto se encuentra en el hecho de que, cuando la vida media de un dispositivo se
mide en décadas (por ejemplo) en condiciones normales de uso, sería necesario esperar
muchos años para establecer el grado de fiabilidad de estos dispositivos. Los avances en la
tecnología actual son hoy en día tan rápidos que un dispositivo en particular puede llegar a
ser obsoleto antes de que sus propiedades de fiabilidad puedan ser determinadas mediante
pruebas en condiciones normales de uso.
Las condiciones de uso de un sistema vienen normalmente expresadas en términos llamados factores de estrés, como la temperatura, voltaje, humedad y presión. Las pruebas
de vida acelerada son llevadas a cabo a altos niveles de estos factores (niveles significativamente más altos que en condiciones normales) para obligar a reducir los tiempos de fallo
del sistema. El objetivo consiste en deducir las propiedades de fiabilidad del sistema en un
nivel normal de estrés basándose en la observación de su comportamiento en un nivel de
estrés acelerado. Para llevar esto a cabo, es esencial utilizar un modelo que represente la
relación directa entre tiempo de vida y estrés, lo que hace que el modelo de tiempo de fallo
acelerado sea la mejor opción.
En el enfoque semi-paramétrico, el modelo puede suponer una relación física interpretable entre los tiempos de vida y los niveles de estrés, sin hacer ninguna suposición sobre
la distribución de los tiempos de vida. Se considera la posibilidad de un vector de estrés
p-dimensional X = (X1 , X2 , . . . , Xp )T . Sea T0 el tiempo de fallo aleatorio en un nivel de uso
normal, con S0 como la función de supervivencia correspondiente. Sea T , por otra parte,
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
43
el tiempo de vida del nivel de estrés acelerado y especificado por el vector X. De acuerdo
con (3.2) tenemos
S(t) = S0 (t exp(ψ(X))) = S0 (tΨ(X)).
(3.3)
El objetivo principal es estimar S0 a partir de las observaciones de los tiempos de vida en
los niveles de estrés acelerado. La función Ψ(X) se denomina factor aceleración.
La mayoría de los modelos de tiempos de vida acelerada adoptan una función lineal en
las covariables que se consideran constantes, que lleva al siguiente modelo semi-paramétrico
en una escala logarítmica de tiempos de vida
ln T = β T X + ε,
(3.4)
donde ε se supone que tiene una distribución con parámetro de localización 0 y parámetro
de escala σ. Como casos especiales a menudo consideramos distribuciones Lognormales
o Weibull. Con este enfoque, el logaritmo del tiempo de vida se considera que tiene una
distribución con parámetro de localización µ(X) = β T X y el parámetro de escala σ, donde
los parámetros desconocidos son estimados de los datos proporcionados por la prueba
acelerada. En consecuencia el parámetro de localización del logaritmo del tiempo, µ, es
una función lineal de la variable de estrés que podría ser transformada previamente con
respecto a determinados argumentos físicos considerados en la formulación de modelos
como el modelo de Arrhenius, el modelo de la potencia inversa y el modelo exponencial,
que son ampliamente utilizados en apuntes prácticos. Utilizando estas aproximaciones y en
el caso particular de una única covariable, se podría expresar el modelo de la forma
µ
¶
u − β0 + β1 x
e
e
S(u; x, β0 , β1 , σ) = S0
,
(3.5)
σ
donde Se y Se0 (·/σ) son las funciones de supervivencia respectivas de ln T y εe = ln T0 .
Por lo general, el objetivo principal es estimar un percentil específico de la distribución
del tiempo de vida en condiciones de uso, por ejemplo x0 , que puede denotarse como tπ (x0 ),
para 0 < π < 1. Por ejemplo, el interés suele centrarse en la mediana del tiempo de vida.
Lo anterior se puede expresar de la forma:
tπ (x0 ) = β0 + β1 x0 + u
eπ σ,
Comparación de dos modelos de regresión en fiabilidad
(3.6)
44
Modelo de tiempo de vida acelerada
siendo u
eπ el percentil correspondiente en la distribución dada por Se0 . El problema de la
inferencia se reduce entonces a obtener los estimadores adecuados βb0 , βb1 y σ
b. Estos modelos
han sido estudiados con detalle en Nelson (1990) y Meeker & Escobar (1998).
Aunque la mayoría de los trabajos en estos temas expresan el modelo de tiempo de vida
acelerada en términos de la media y determinan que la media del logaritmo del tiempo de
supervivencia se relaciona linealmente con las covariables, el sesgo causado por la censura
sugiere un procedimiento más robusto, y por lo tanto la mediana ofrece una alternativa
más conveniente. El modelo de regresión de la mediana con censura ha recibido recientemente mucha atención, véase por ejemplo, los trabajos de Ying et al. (1995), Yang (1999),
Honoré, Khan & Powell (2002), Cho & Hong (2008), Zhao & Chen (2008), y Wang & Wang
(2009). Para una presentación completa de la teoría de regresión de cuantiles con datos no
censurados, véase a Koenker (2005).
3.2.
Estimación del modelo AFT paramétrico
La función de supervivencia de Ti puede expresarse mediante la función de supervivencia
de εi , donde (ε = σεi ), de la forma
Si (t) = P (Ti ≥ t) = P (ln Ti ≥ ln t) =
= P (β1 X1i + β2 X2i + · · · + βp Xpi + σεi ≥ ln t) =
µ
¶
¶
µ
ln t − βXi
ln t − βXi
= P εi ≥
= Sεi
=
σ
σ
µ
¶
ln t − µ(Xi )
= Sεi
σ
(3.7)
El modelo de tiempo de vida acelerada se ajusta utilizando el método de la máxima verosimilitud. La verosimilitud de n observaciones de tiempos de vida, t1 , t2 , . . . , tn vienen dadas
por la expresión
L(µ, σ) =
n
Y
[fi (ti )]δi [Si (ti )]1−δi ,
i=1
donde fi (ti ) y Si (ti ) son la función de densidad y de supervivencia respectivamente para el
i-ésimo individuo en el tiempo ti y δi es el indicador de censura para la i-ésima observación.
Utilizando la ecuación (3.7), se puede demostrar que la función de log-verosimilitud viene
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
45
dada por la expresión
ln L(µ, σ) =
n
X
[−δi ln(σti + δi ln fεi (zi ) + (1 − δi ) ln Sεi (zi ))],
i=1
donde zi = (ln ti − β1 X1i − β2 X2i − · · · − βp Xpi )/σ. La estimación máximo verosímil de
los parámetros desconocidos, µ, σ, β1 , β2 , . . . , βp , que pueden hallarse maximizando esta
función utilizando el método de Newton-Raphson, que es el mismo método que se utilizó
para maximizar la verosimilitud parcial en el modelo de CPH.
En la literatura reciente, se han propuesto varias aproximaciones para la estimación y la
inferencia del AFT. Los enfoques clásicos semi-paramétricos para el modelo AFT que hacen
hincapié en la estimación de los parámetros de regresión son el modelo de Buckley & James
(1979), el estimador de rangos, ver Jin, Lin, Wei & Ying (2003), el estimador de mínimos
cuadrados para datos censurados, ver Jin et al. (2006) o el estimador de mínimos cuadrados
ponderados de Stute (1999). A pesar de los avances teóricos, todas estas aproximaciones
son numéricamente complicadas y difíciles de implementar, especialmente cuando tenemos
un gran número de covariables.
3.3.
Validación del modelo AFT paramétrico
Los métodos gráficos pueden utilizarse para validar si una distribución paramétrica
ajusta a los datos de supervivencia. En concreto si el tiempo sigue una distribución exponencial, una gráfica de ln[− ln S(t)] frente a ln t debería de mostrar una línea recta con
pendiente igual a la unidad. Si las gráficas no son del todo rectas entonces se mantiene
la hipótesis de riesgos proporcionales pero no lo hace para el modelo de Weibull. Si las
líneas para dos grupos son rectas pero no paralelas, la hipótesis del modelo de Weibull
es compatible, pero se violan las hipótesis de CPH y de AFT. La hipótesis del modelo
Loglogistico puede evaluarse gráficamente dibujando ln[(1 − S(t))/S(t)] frente a ln t. Si
la distribución de la función de supervivencia es loglogística, entonces el resultado de la
gráfica puede resultar ser una línea recta. Para la distribución Lognormal, la gráfica de
Φ−1 [1 − S(t)] frente a ln t debería ser lineal. Todas estas gráficas se basan en la hipótesis
de que la muestra se escoge de una población homogénea, lo que implica que no se han
Comparación de dos modelos de regresión en fiabilidad
46
Modelo de tiempo de vida acelerada
tenido en cuenta ciertas covariables. Por lo que estos métodos gráficos no son muy fiables
en la práctica. Existen otros métodos para validar el ajuste del modelo.
3.3.1.
Mediante gráficos quantile-quantile plot (Q-Q plot)
Un método inicial para evaluar la fuerza de un modelo AFT es hacer las gráficas Q-Q
plot. Para cualquier valor de p en el intervalo (0, 100), el p-ésimo percentil es
µ
t(p) = S
−1
100 − p
100
¶
.
Sea t0 (p) y t1 (p) el percentil p-ésimo estimado de la función de supervivencia de dos
grupos de datos de supervivencia. Los percentiles para los dos grupos pueden expresarse
de la forma
µ
t0 (p) =
S0−1
100 − p
100
¶
µ
,
t1 (p) =
S1−1
100 − p
100
¶
,
donde S0 (t) y S1 (t) es la función de supervivencia para los dos grupos. Por lo que podemos
obtener
S1 [t1 (p)] = S0 [t0 (p)].
En el modelo AFT, S1 (t) = S0 (t/η), y entonces
S1 [t1 (p)] = S0 [t1 (p)/η].
Por tanto, tenemos
t0 (p) = η −1 t1 (p)
Los percentiles de las distribuciones de supervivencia para los dos grupos pueden ser
estimados mediante las respectivas estimaciones de Kaplan-Meier de las funciones de supervivencia. Una gráfica de los percentiles de la función de supervivencia estimada de
Kaplan-Meier para un grupo frente a otro debería dar una linea aproximadamente recta
a través del origen si el modelo AFT es apropiado. La pendiente de esta línea será una
estimación del factor aceleración η −1 .
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
3.3.2.
47
Mediante el criterio de información de Akaike (AIC)
Podemos utilizar pruebas o criterios estadísticos para comparar todos estos modelos de
AFT. Los modelos anidados pueden compararse utilizando el test de razón de verosimilitud.
El modelo exponencial, el modelo de Weibull y el modelo Lognormal están anidados a
través del modelo gamma. Para comparar los modelos que no están anidados, el criterio de
información de Akaike (AIC) puede utilizarse en lugar del test de razón de verosimilitudes,
que viene definido como
AIC = −2l + 2(k + c),
donde l es la log-verosimilitud, k es el número de covariables en el modelo y c es el número
de parámetros auxiliares del modelo específico. La componente 2(k + c) puede considerarse
como una penalización si los parámetros no predictivos están en el modelo. Los valores más
pequeños del AIC indican un modelo mejor. Pero hay un problema en el uso del AIC en que
no hay pruebas estadísticas formales para comparar diferentes valores del AIC. Cuando dos
modelos presentan un AIC con valores similares, la elección del modelo puede ser difícil y
la verificación de modelos externos o los resultados anteriores pueden ser requeridos para
juzgar la verosimilitud relativa de los modelos en lugar de confiar sólo en los valores del
AIC .
3.3.3.
Mediante el gráfico de los Residuos de Cox-Snell
Las gráficas de los residuos pueden utilizarse para validar la bondad de ajuste del
modelo. Los procedimientos basados en los residuos en el modelo AFT son particularmente
relevantes (como ya se vio) en el modelo de CPH. Una de las gráficas más utilizadas se
basan en la comparación de la distribución de los residuos de Cox-Snell con la distribución
exponencial unitaria exp(1). Los residuos de Cox-Snell para el i-ésimo individuo con tiempos
observados ti se definen de la forma
h
i
b i |Xi ) = − ln S(t
b i |Xi ) ,
rcsi = H(t
donde ti es el tiempo de supervivencia observado para el individuo i, Xi es el vector con los
b i ) es la función de supervivencia estimada
valores de la covariable para el individuo i, y S(t
Comparación de dos modelos de regresión en fiabilidad
48
Modelo de tiempo de vida acelerada
en el modelo ajustado. De la ecuación (3.7), la función de supervivencia estimada para el
i-ésimo individuo viene dada por
µ
Sbi (t) = Sεi
ln t − µ
b(Xi )
σ
b
¶
,
donde µ
byσ
b son los estimadores máximos verosímiles de µ y σ respectivamente, Sεi (ε) es
la función de supervivencia de εi en el modelo AFT, y
rsi =
ln t − µ
b(Xi )
,
σ
b
son los llamados residuos estandarizados.
Los residuos de Cox-Snell pueden aplicarse en cualquier modelo paramétrico. Podemos
obtener la forma correspondiente de los residuos en el modelo AFT. Por ejemplo, bajo el
modelo Weibull, donde Sεi (ε) = exp(−eε ), los residuos de Cox-Snell vienen entonces dados
por la expresión
h
i
b i ) = − ln Sε (rs ) = exp(rs ).
rcsi = − ln S(t
i
i
i
Si el modelo es apropiado, la gráfica de ln(− ln S(rcsi )) frente a ln rcsi es una línea recta
con pendiente unitaria a través del origen.
Estos residuos nos llevan a los residuos de deviance para un modelo AFT en particular.
Puede utilizarse una gráfica de los residuos de deviance frente al tiempo de supervivencia
o variables explicativas para validar si hay tiempos particulares, o valores particulares de
las variables explicativas, para los que el modelo no ajusta bien.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
3.4.
49
Ajuste del modelo AFT paramétrico para nuestros
datos
Vamos a realizar el ajuste del modelo AFT mediante la función survreg del package
estadístico R. Comenzamos realizando el ajuste con todas las covariables supuestamente
influyentes presentes en nuestra base de datos, considerando el modelo de Weibull.
## Ajuste del modelo de vida acelerada para la distribución weibull ##
aftm1<-survreg(formula=Surv(tiempo,
estado)~longitud+diametro+material+presion+trafico+x80,
data = datos, dist="weibull")
summary(aftm1)
Call:
survreg(formula = Surv(tiempo, estado) ~ longitud + diametro +
material + presion + trafico + x80, data = datos, dist =
"weibull")
Value Std. Error
z
p
(Intercept) 3.679350
0.083412 44.110 0.00e+00
longitud
-0.000176
0.000194 -0.908 3.64e-01
diametro
-0.000302
0.000214 -1.414 1.57e-01
materialUr
0.138444
0.038623
3.585 3.38e-04
presion
-0.001169
0.001302 -0.897 3.69e-01
trafico
0.033382
0.027578
1.210 2.26e-01
x80
-0.722222
0.043004 -16.794 2.68e-63
Log(scale) -1.468342
0.043026 -34.127 2.98e-255
Scale= 0.23
Weibull distribution
Loglik(model)= -1336.6
Loglik(intercept only)= -1453.7
Chisq= 234.1 on 6 degrees of freedom, p= 0
Number of Newton-Raphson Iterations: 9
n= 655
Figura 3.1: Ajuste del modelo AFT para todas las covariables.
Como vemos, se nos presentan covariables significativas como el material y el x80, covariables significativas al igual que nos salieron en el modelo de CPH, por lo que haremos
será ajustar el modelo considerando el volumen (compuesto por longitud y diametro)
y también la ajustaremos para tres de las distribuciones más comunes en el análisis de
supervivencia y fiabilidad para estos datos, que son, la distribución Weibull, la Lognormal
y la Loglogística.
Comparación de dos modelos de regresión en fiabilidad
50
Modelo de tiempo de vida acelerada
Para el modelo con distribución Weibull tenemos el ajuste
> ###### Re-ajuste del modelo de vida acelerada con weibull ######
> aftm2<-survreg(formula=Surv(tiempo,
estado)~log(volumen)+strata(material)+x80, data = datos,
dist="weibull")
> summary(aftm2)
Call:
survreg(formula = Surv(tiempo, estado) ~ log(volumen) +
strata(material) +
x80, data = datos, dist = "weibull")
Value Std. Error
z
p
(Intercept)
3.6589
0.03003 121.85 0.00e+00
log(volumen) -0.0241
0.00725 -3.33 8.83e-04
x80
-0.7364
0.04114 -17.90 1.21e-71
material=FD -0.7738
0.09014 -8.58 9.15e-18
material=Ur -1.8037
0.04493 -40.15 0.00e+00
Scale:
material=FD material=Ur
0.461
0.165
Weibull distribution
Loglik(model)= -1280.2
Loglik(intercept only)= -1343.2
Chisq= 125.95 on 2 degrees of freedom, p= 0
Number of Newton-Raphson Iterations: 7
n= 655
Figura 3.2: Ajuste del modelo AFT con distribución Weibull.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
Para el modelo con distribución Lognormal tenemos el ajuste
> ## Re-ajuste del modelo de vida acelerada con lognormal ##
> aftm3<-survreg(formula=Surv(tiempo,
estado)~strata(material)+log(volumen)+x80, data = datos,
dist="lognormal")
> summary(aftm3)
Call:
survreg(formula = Surv(tiempo, estado) ~ strata(material) +
log(volumen) +
x80, data = datos, dist = "lognormal")
Value Std. Error
z
p
(Intercept)
3.6180
0.04144 87.3 0.00e+00
log(volumen) -0.0185
0.00977 -1.9 5.76e-02
x80
-0.8773
0.05370 -16.3 5.33e-60
material=FD -0.2165
0.07738 -2.8 5.15e-03
material=Ur -1.3771
0.04408 -31.2 3.02e-214
Scale:
material=FD material=Ur
0.805
0.252
Log Normal distribution
Loglik(model)= -1330.6
Loglik(intercept only)= -1421.5
Chisq= 181.79 on 2 degrees of freedom, p= 0
Number of Newton-Raphson Iterations: 5
n= 655
Figura 3.3: Ajuste del modelo AFT con distribución Lognormal.
Comparación de dos modelos de regresión en fiabilidad
51
52
Modelo de tiempo de vida acelerada
Y para el modelo con distribución Loglogística tenemos el ajuste
> ## Re-ajuste del modelo de vida acelerada con loglogístico ##
> aftm4<-survreg(formula=Surv(tiempo,
estado)~strata(material)+log(volumen)+x80, data = datos,
dist="loglogist")
> summary(aftm4)
Call:
survreg(formula = Surv(tiempo, estado) ~ strata(material) +
log(volumen) +
x80, data = datos, dist = "loglogist")
Value Std. Error
z
p
(Intercept)
3.5838
0.03511 102.07 0.00e+00
log(volumen) -0.0246
0.00837 -2.93 3.36e-03
x80
-0.7836
0.04907 -15.97 2.09e-57
material=FD -0.8974
0.09247 -9.70 2.89e-22
material=Ur -2.0779
0.05055 -41.11 0.00e+00
Scale:
material=FD material=Ur
0.408
0.125
Log logistic distribution
Loglik(model)= -1295.1
Loglik(intercept only)= -1368.9
Chisq= 147.7 on 2 degrees of freedom, p= 0
Number of Newton-Raphson Iterations: 5
n= 655
Figura 3.4: Ajuste del modelo AFT con distribución Loglogístico.
Como podemos ver en los tres casos tenemos las mismas covariables significativas, aunque
a simple vista podemos apreciar que hay alguno de ellos en el que los p-valores salen mucho
menores (más significativos) que otros, como son los modelos con distribución de Weibull
y Loglogística.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
53
Podemos comparar los tres modelos paramétricos anteriores de la forma
> anova(aftm2, aftm3, aftm4, test = "Chi")
Terms Resid.
los del modelo weibull
los del modelo lognor
los del modelo loglogís
Df
650
650
650
-2*LL
2560.375
2661.245
2590.202
Test Df
Deviance P(>|Chi|)
NA
NA
NA
0 -100.86941
NA
0
71.04307
NA
Figura 3.5: Comparación entre modelos paramétricos.
Como podemos ver, el modelo paramétrico que posee una menor -2*LL es el de la distribución de Weibull, este es ligeramente mejor que los otros.
3.4.1.
Validación del modelo
Vamos a validar el modelo como se ha explicado en teoría, de cuatro formas diferentes,
mediante la función de supervivencia, utilizando los gráficos QQPlots, mediante el criterio
de información de Akaike y utilizando las gráficas de los residuos de Cox-Snell.
Gráficos basados en la función de supervivencia
Realizaremos tres gráficos útiles con el fin de comprobar si la distribución de Weibull,
Lognormal y Loglogística son las adecuadas. Ambos se basan en las funciones de supervivencia. Si la distribución de Weibull es válida, vamos a esperar un patrón lineal en el
primer gráfico. Del mismo modo, si los tiempos de supervivencia siguen una distribución
Lognormal o Loglogística, la tendencia de los puntos en la segunda y tercera gráfica debería
ser lineal. Para realizar esto recurriremos a la función LIN.AFT(), para más detalle acerca
del algoritmo ver el Apéndice B.
Comparación de dos modelos de regresión en fiabilidad
54
Modelo de tiempo de vida acelerada
> ### ajuste aft ###
> p1<-survfit(Surv(tiempo, estado)~material,data=datos)
> ### graficas de valoración de modelos mediante la función de
supervivencia ####
> par(mfrow=c(1,3))
> LIN.AFT(p1, dist="weibull")
> LIN.AFT(p1, dist="lognormal")
> LIN.AFT(p1, dist="loglogistic")
Figura 3.6: Comparación mediante la función de supervivencia entre los tres modelos.
Como podemos ver las distribuciones que mejor se aproximan a una línea recta son las de
Weibull y Loglogística para el tipo de material tUr (uralita). Como puede apreciarse, la
gráfica del modelo con la distribución Lognormal no sigue para ninguno de los dos tipos
de materiales la linealidad esperada.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
55
Mediante los gráficos QQPlots
Vamos a realizar el gráfico QQPlot para enfrentar los cuantiles de las dos categorías del
material, o sea tUr y tFD (uralita y fundación dúctil) para ver la apropiación del modelo.
Para ver el código del programa ir al Apéndice B.
> #### QQPlot para el material con datos censurados a la derecha ####
Figura 3.7: Gráfico QQPlot para ambos materiales.
Si el modelo AFT fuese apropiado para la covariable material, la recta ajustada a los puntos
“cuantiles tFD” frente a “cuantiles tUr” debería pasar por el origen y la pendiente de la
recta daría una estimación del factor de aceleración. En este caso la recta de regresión que
estimamos con la orden lm() no pasa por el origen por lo tanto podemos sospechar que un
modelo de tiempo de vida acelerada de la forma tU r = φtF D, no es apropiado. Por esto
parece ser una buena decisión considerar los dos grupos de material por separado y ajustar
Comparación de dos modelos de regresión en fiabilidad
56
Modelo de tiempo de vida acelerada
en cada grupo un modelo de tiempo de vida acelerada considerando como factor de riesgo
el volumen.
Vamos a realizar los gráficos de (zi , ei ) para probar la adecuación del modelo supuesto,
siendo ei el i-ésimo residuo estándar ordenado y zi el cuantil estándar correspondiente de
cualquiera de las distribuciones de Weibull, Loglogística o Lognormal. Si el modelo bajo
estudio es apropiado, los puntos de la gráfica (zi , ei ), debería ser una recta con pendiente
aproximada a la bisectriz del primer cuadrante.
Para realizar lo anterior, vamos a utilizar la función qq.reg.resid.r(), para más
información al respecto ver el Apéndice B.
Separamos como hemos dicho antes, los datos en dos, según el material sea uralita o
fundición dúctil, y realizamos los QQPlots correspondientes:
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
> ### QQPlot para el material tUr ###
> fitweib1<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull",
data=tUr)
> fitlognorm1<-survreg(Surv(tiempo, estado)~log(volumen),
dist="lognormal", data=tUr)
> fitloglog1<-survreg(Surv(tiempo, estado)~log(volumen),
dist="loglogist", data=tUr)
>
> par(mfrow=c(1,3))
> qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitweib1,
"qweibull","Valores estremos estandar (cuantiles)")
[1] "qq.reg.resid:done"
> qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitlognorm1,
"qnorm","Normal estandar (cuantiles)")
[1] "qq.reg.resid:done"
> qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitloglog1,
"qlogis","Logística (cuantiles)")
[1] "qq.reg.resid:done"
>
Figura 3.8: Gráficos QQPlots de (zi , ei ) para el material tUr.
Comparación de dos modelos de regresión en fiabilidad
57
58
Modelo de tiempo de vida acelerada
Como podemos apreciar los datos que mejor se ajustan a la recta que pasa por el origen son
los del modelo con distribución de Weibull seguido por el de la distribución Loglogística,
aunque las tres en general presenta una forma adecuada para el material tUr.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
Si realizamos lo mismo pero en este caso con el material fundición dúctil tenemos:
> ### para el material tFD ###
> fitweib2<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull",
data=tFD)
> fitlognorm2<-survreg(Surv(tiempo, estado)~log(volumen),
dist="lognormal", data=tFD)
> tFD2<-tFD[-163,]
> fitloglog2<-survreg(Surv(tiempo, estado)~log(volumen),
dist="loglogist", data=tFD)
>
> par(mfrow=c(1,3))
> qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitweib2,
"qweibull","Valores estremos estandar (cuantiles)")
[1] "qq.reg.resid:done"
> qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitlognorm2,
"qnorm","Normal estandar (cuantiles)")
[1] "qq.reg.resid:done"
> qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitloglog2,
"qlogis","Logística (cuantiles)")
[1] "qq.reg.resid:done"
>
Figura 3.9: Gráficos QQPlots de (zi , ei ) para el material tFD.
Comparación de dos modelos de regresión en fiabilidad
59
60
Modelo de tiempo de vida acelerada
Apreciamos una similitud con respecto al otro material en la comparación de cada modelo, o
sea, apreciamos también que el modelo con distribuciones de Weibull y Loglogística ajustan
mejor los datos que el Lognormal, aunque en general los tres presentan buena forma.
Mediante el criterio de información de Akaike (AIC)
Como se explicó en teoría, cuanto menor sea el valor de este estadístico, mejor será el
modelo.
En el entorno R, este criterio viene implementado por la función extractAIC, ver
Venables & Ripley (2002), y nos proporciona las siguientes salidas:
> ### criterio de información de AIC ###
>
> extractAIC(aftm2)
[1]
5.000 2570.375
> extractAIC(aftm3)
[1]
5.000 2671.245
> extractAIC(aftm4)
[1]
5.000 2600.202
Figura 3.10: AIC del modelo AFT para las tres distribuciones.
Como podemos ver, el menor de los estadísticos corresponde al ajuste aftm2 que corresponde al modelo con distribución de Weibull, seguido muy de cerca por el ajuste aftm4 que
corresponde al modelo con la distribución Loglogística. Esto corrobora nuestra validación
anterior mediante los QQPlots arrojando conclusiones similares.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
61
También podemos validar con el AIC conjuntamente, la adecuación del modelo paramétrico AFT con distribución de Weibull junto con el de CPH, ya que consideramos el de
Weibull un modelo anidado al de Cox, por lo que
> ###### Criterio de información de AIC para modelo de Weibull y #####
####################### para el modelo PH de Cox #####################
>
> extractAIC(aftm2)
[1]
5.000 2570.375
> extractAIC(cox2)
[1]
2.000 2978.588
Figura 3.11: AIC para el modelo con distribución de Weibull y para el modelo de PH de
Cox.
Como podemos apreciar el menor de los dos valores de los AIC corresponde al modelo AFT
con distribución de Weibull.
Mediante el gráfico de los residuos de Cox-Snell
Para realizar esta validación operaremos de la siguiente forma, primero realizaremos los
residuos de Cox-Snell para las tres distribuciones de Weibull, Lognormal y Loglogística.
Después separaremos los datos en función de los materiales y realizando las gráficas de
los residuos de Cox-Snell enfrentados al riesgo acumulado en cada caso, de esta forma
realizaremos una valoración global del modelo. Para ver el algoritmo en R que implementa
los siguientes gráficos ver Apéndice B.
Comparación de dos modelos de regresión en fiabilidad
62
Modelo de tiempo de vida acelerada
> #### Residuos de Cox-Snell para los datos ####
Figura 3.12: Gráficos de residuos de los datos para las tres distribuciones.
Como podemos ver la recta a través del origen que mejor ajusta a los datos de los tres
modelos es la del modelo con distribución de Weibull.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
63
Ahora realizaremos lo mismo separando los datos en función de los materiales, para la
distribución de Weibull tenemos
> ############# Residuos para el modelo weibull ###############
Figura 3.13: Gráficos de residuos para la distribución de Weibull.
Comparación de dos modelos de regresión en fiabilidad
64
Modelo de tiempo de vida acelerada
Para la distribución Lognormal tenemos
> ############## Residuos para el modelo lognormal ###############
Figura 3.14: Gráficos de residuos para la distribución Lognormal.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
65
Y para la distribución Loglogística
> ############## Residuos para el modelo loglogístico ################
Figura 3.15: Gráficos de residuos para la distribución Loglogística.
Como podemos apreciar, la recta a través del origen que mejor ajusta a los datos de los
tres modelos es la del modelo con distribución de Weibull para el material tUr (uralita),
seguido muy de cerca por el modelo con la distribución Loglogística que también presenta
un buen ajuste para los datos. Podemos decir que para ambos materiales el modelo con
distribución de Weibull es el que mejor ajusta a los datos o sea el más apropiado.
Comparación de dos modelos de regresión en fiabilidad
66
Modelo de tiempo de vida acelerada
3.4.2.
Elección e interpretación del modelo más apropiado
Según lo visto anteriormente, hemos decidido elegir el modelo paramétrico AFT con
distribución de Weibull como el más apropiado para nuestros datos ya que en todos los
casos de validación que se han visto (ya sea global o estratificado por material), los test así
nos lo han corroborado. Por lo que finalmente nos quedaremos con el modelo cuyo ajuste
es:
> ###### Re-ajuste del modelo de vida acelerada con weibull ######
> aftm2<-survreg(formula=Surv(tiempo,
estado)~log(volumen)+strata(material)+x80, data = datos,
dist="weibull")
> summary(aftm2)
Call:
survreg(formula = Surv(tiempo, estado) ~ log(volumen) +
strata(material) +
x80, data = datos, dist = "weibull")
Value Std. Error
z
p
(Intercept)
3.6589
0.03003 121.85 0.00e+00
log(volumen) -0.0241
0.00725 -3.33 8.83e-04
x80
-0.7364
0.04114 -17.90 1.21e-71
material=FD -0.7738
0.09014 -8.58 9.15e-18
material=Ur -1.8037
0.04493 -40.15 0.00e+00
Scale:
material=FD material=Ur
0.461
0.165
Weibull distribution
Loglik(model)= -1280.2
Loglik(intercept only)= -1343.2
Chisq= 125.95 on 2 degrees of freedom, p= 0
Number of Newton-Raphson Iterations: 7
n= 655
Figura 3.16: Ajuste del modelo AFT con distribución de Weibull.
Es importante destacar que en los modelos de vida acelerada la interpretación de los
coeficientes β del modelo es diferente de los del modelo de CPH. El efecto de las covariables
(volumen, x80 y material) se analizan a partir del punto de vista del tiempo de fallo.
Vamos a aplicar la distribución de Weibull en el AFT ya que es el más apropiado en
nuestro caso debido seguramente a sus buenas propiedades en este tipo de análisis.
En la tabla anterior podemos ver en el ajuste, los valores de cada coeficiente de las
covariables , la exponencial de cada β, nos expresa el efecto de la correspondiente variable
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
67
en el tiempo de fallo, el error estándar y el p-valor para cada uno de los coeficientes
El significado de los coeficientes β negativos puede interpretarse, por ejemplo, para el
volumen con un β negativo, como el tiempo de fallo es más pequeño en las tuberías con
mayor volumen que en las de menor volumen. Por el contrario si el coeficiente β fuese
positivo para el volumen diríamos que el tiempo de fallo es mayor en las tuberías con
mayor volumen. En nuestro caso tenemos todas los coeficientes de las covariables con β
negativos. Vamos a interpretar los β mediante sus exp(β) de la forma 1 − exp(β) en %.
por lo que tenemos:
Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3
de volumen es del 2.4 %.
Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas
antes de 1980 es del 52.11 %.
Para la covariable material tenemos que, para la uralita la disminución del tiempo
de fallo es del 83.53 % y para la fundición dúctil tenemos que la disminución del
tiempo de fallo es del 53.87 %.
Como hemos visto en este caso la forma de interpretar los coeficientes es diferente a la del
modelo de CPH.
3.5.
3.5.1.
Modelo semi-paramétrico AFT para datos censurados
Estimador de Buckley-James
El modelo de regresión lineal, junto con el estimador de mínimos cuadrados, tiene un
papel fundamental en el análisis de datos. Para datos de tiempo potencialmente censurados,
el estimador de mínimos cuadrados no se puede calcular porque los tiempos de fallo son
desconocidos para las observaciones censuradas. Una serie de autores Miller (1976), Buckley
& James (1979), Koul et al (1981), ampliaron el principio de mínimos cuadrados para dar
cabida a la censura. El estimador de Miller, requiere que tanto el tiempo de censura como el
Comparación de dos modelos de regresión en fiabilidad
68
Modelo de tiempo de vida acelerada
de fallo satisfagan al modelo de regresión, mientras que el estimador de Koul et al. (1981),
requiere que el tiempo de censura es independiente de las covariables. Miller & Halpern
(1982) encontraron que el estimador de Buckley-James es más fiable que los de Miller y
Koul et al.
En 1979 Buckley & James propusieron un estimador de mínimos cuadrados modificado.
Las propiedades teóricas del estimador de Buckley-James fueron investigadas por numerosos científicos como Ritov (1990) y Lai & Ying (1991). A pesar de los avances teóricos, el
modelo, en la práctica, es rara vez utilizado debido a su complejidad numérica. La función
de estimación del estimador de Buckley-James no es ni continua ni monótona y sus raíces
pueden no existir, ver James & Smith (1984). Como resultado de sus débiles requerimientos
en el mecanismo de censura y su comparable eficiencia con el clásico estimador de mínimos
cuadrados, el estimador de Buckley-James es una elección natural para el modelo de tiempo de vida acelerada. Aunque el algoritmo iterativo de Buckley & James presenta algunos
inconvenientes: Primero, no se garantiza la convergencia del algoritmo. Segundo, incluso si
el algoritmo convergiese, no está claro que nos lleve a un estimador consistente ya que los
resultados teóricos fueron establecidos basándose en la hipótesis de linealidad local. Además, la matriz de covarianzas del estimador de Buckley-James es difícil de obtener porque
implica a la función de riesgo no especificada del término del error no observado, que puede
no estar bien estimado mediante estimación no paramétrica con datos no censurados. La
dificultad numérica se incremente a la par que lo hacen las covariables del modelo.
Un paso clave en el algoritmo iterativo de Buckley-James es el estimador inicial. Como
se muestra en Ritov y Lai & Ying, la función de estimación a nivel local es asintóticamente
lineal.
Recordando el modelo de tiempo de vida acelerada visto anteriormente (AFT), suponemos que tenemos una muestra aleatoria de n sujetos. Para i = 1, . . . , n, sea Ti y Ci el
tiempo de fallo y el tiempo de censura respectivamente para el i-ésimo sujeto, y sea Xi
el correspondiente p-vector de covariables. Como es habitual, suponemos que Ti y Ci son
independientes condicionadas a Xi . Los datos consisten en (Tei , δi , Xi ) con i = 1, . . . , n,
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
69
donde Tei = mı́n(Ti , Ci ), δi = I[Ti ≤ Ci ] y siendo I[·] la función indicadora.
½
1 si Ti ≤ Ci
δi =
.
0 si Ti > Ci
Si ponemos Yi = ln Ti . El modelo de regresión lineal semi-paramétrico toma la forma
Yi = XiT β + εi
(3.8)
donde β es un p-vector de parámetros de regresión desconocidos, y ²i con i = 1, . . . , n,
son los términos de error independiente con una común pero completamente inespecificada función de distribución. La ecuación (3.8) es la comúnmente llamada AFT o modelo
de vida acelerada (Cox & Oakes (1984) y Kalbfleisch & Prentice (2002)). Este modelo es
intuitivamente atractivo, ya que proporciona una caracterización directa de los efectos de
las covariables en el tiempo de fallo. Se puede reemplazar la log-transformación del tiempo
de fallo en (3.8) por una transformación diferente.
Para datos no censurados, el estimador clásico de mínimos cuadrados se obtiene minimizando la función objetivo
n
1X
(Yi − α − XiT β)2
n i=1
(3.9)
con respecto a α y β, donde α es la media de la distribución del error. La minimización de
(3.9) nos proporciona la siguiente expresión para la estimación de β
n
X
(Xi − X)(Yi − XiT β) = 0,
(3.10)
i=1
n
1X
Xi . Por supuesto, el estimador resultante posee una forma simple y su
n i=1
matriz de covarianzas puede ser fácilmente estimada.
donde X =
Con presencia de censura, los valores de Ti asociados con δi = 0 son desconocidos,
por lo que (3.10) no puede ser utilizada directamente para estimar a β. Buckley & James
modificaron la expresión (3.10) mediante la sustitución de cada Yi con E[Yi |Tei , δi , Xi ] que
se aproxima de la forma
Z

Ybi (β) = δi Yei + (1 − δi ) 

∞
udFbβ (u)
ei (β)
1 − Fbβ (ei (β))


+ XiT β 
,
Comparación de dos modelos de regresión en fiabilidad
70
Modelo de tiempo de vida acelerada
donde Yei = ln Tei , ei (β) = Yei − XiT β y Fbβ es el estimador de Kaplan-Meier de F basada en
los datos transformados (ei (β), δi ) con i = 1, . . . , n, esto es



Y 
1 −
Fbβ (t) = 1 −
n

X
i:ei (β)<t 
δi
I [ej (β) ≥ ei (β)]


.


(3.11)
j=1
Definimos
n
X
U (β, b) =
(Xi − X)(Ybi (b) − XiT β),
i=1
o
n
³
´
X
U (β, b) =
(Xi − X) Ybi (b) − Y (b) − (Xi − X)T β ,
i=1
n
1Xb
donde Y (b) =
Yi (b). Entonces el estimador de Buckley-James βbBJ es la raíz de la
n i=1
ecuación U (β, β) = 0. Es fácil ver que U (β, β) no es ni continua ni monótona en β. De este
modo resulta difícil de calcular el estimador, especialmente cuando β es multidimensional.
Podemos hacer algún comentario sobre el modelo:
1. Se deduce de los cálculos anteriores de que existen dos requisitos que se deben de
cumplir si se quiere utilizar el modelo de Buckley-James:
a) El modelo es lineal en los coeficientes
b) La distribución de los residuos no debería depender de los valores de las covariables (homocedasticidad).
La comprobación de estos supuestos bajo censura puede resultar muy difícil, y
en algunos casos imposible.
2. Ya hemos mencionado anteriormente que, además de lo visto en el punto (1.a) anterior, no se realizan más hipótesis con respecto a la distribución residual. Esta es
la principal diferencia entre el modelo de Buckley-James y los modelos de tiempo de
vida acelerada paramétricos.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
71
3. Debido a la naturaleza discreta de la función de distribución Fbβ (u) el modelo no
siempre converge, sino que puede oscilar entre dos o más valores. El promedio de estos
valores se toma como la estimación de un coeficiente de regresión. Las oscilaciones
son generalmente insignificantes en la práctica.
Una vez que decidimos no utilizar el modelo de CPH para un problema dado, existen
todavía muchas opciones que pueden ser consideradas, antes que el modelo de BuckleyJames, como son la familia de modelos paramétricos de tiempo de vida acelerada que se
han tratado anteriormente.
3.5.2.
Estimador de mínimos cuadrados para datos censurados
En el 2006, Jin et al., desarrollaron un nuevo procedimiento de estimación basado
en el principio de mínimos cuadrados a través de rigurosas justificaciones teóricas. El
nuevo procedimiento nos lleva a una clase de estimadores consistentes y asintóticamente
normales. Además, el nuevo procedimiento estima también a la matriz de covarianzas de
los estimadores consistentes a través de una aproximación por remuestreo.
Siguiendo con los estudios de Buckley & James, podemos “linealizar” la función de
estimación primeramente fijando un valor b y entonces resolviendo la ecuación U (β, b) = 0
para β. Esta operación nos lleva a β = L(b) donde
" n
#−1 " n
#
³
´
X
X
β = L(b) =
(Xi − X)⊗2
(Xi − X) Ybi (b) − Y (b) .
i=1
i=1
donde a⊗0 = 1, a⊗1 = a y a⊗2 = aaT . Siguiendo este procedimiento se llega a un algoritmo
iterativo simple
³
´
b
b
β(m) = L β(m−1) ,
m≥1
(3.12)
Se puede demostrar a través de los estudios de Lai & Ying (1991), que L(b) es asintóticamente lineal en b. De este modo, si elegimos un estimador consistente de β0 como valor
inicial en (3.12), entonces, para cualquier m fijado, βb(m) debería también ser consistente.
Además, se espera que βb(m) sea normal asintóticamente hablando si el estimador inicial es
asintóticamente normal.
Comparación de dos modelos de regresión en fiabilidad
72
Modelo de tiempo de vida acelerada
Un estimador inicial asintóticamente normal y consistente de βb0 puede ser obtenido por
el método rank-based de Jin et al.,(2003). Establecemos al estimador inicial βb(0) como el
estimador de tipo Gehan, de Gehan E.A. (1965), βb(G) , que puede ser calculado minimizando
la función convexa
n X
n
X
δi (ei (β) − ej (β))− ,
i=1 j=1
donde a− = I [a < 0] |a|. Esta minimización es un simple problema de programación lineal (Jin et al.,(2003)). Dado βb(0) , la iteración en (3.12) implica cálculos triviales de los
estimadores de mínimos cuadrados.
Se puede demostrar que, para cada m fijada, βb(m) es asintóticamente normal y consistente. Además, βb(m) es asintóticamente una combinación lineal del estimador de Gehan βbG
y del estimador de Buckley-James βbBJ en que
¡
¢m
¡
¡
¢m ¢
¡
¢
βb(m) = I − D−1 A βbG + I − I − D−1 A
βbBJ + op n−1/2
(3.13)
n
¢⊗2
1 X¡
es la matriz pendiente de la
donde I es la matriz identidad, D = lı́m
Xi − X
n→∞ n
i=1
función de estimación de mínimos cuadrados para datos no censurados, y A es la matriz
pendiente de la función estimada de Buckley-James.
Cuando el nivel de la censura se reduce a cero la matriz A se aproxima a D. Entonces
el primer término en el lado derecho de la ecuación (3.13) se vuelve insignificante y cada
βb(m) aproxima al estimador de mínimos cuadrados. Si el algoritmo iterativo dado en (3.12)
converge, entonces el límite resuelve exactamente la ecuación original de Buckley-James.
Incluso si la secuencia iterativa no converge, los estimadores siguen siendo consistentes y
asintóticamente normales. En términos de una gran muestra el comportamiento caracterizado por (3.13), se puede demostrar que, si la función de riesgo λ(y) del error de distribución
es no decreciente en y, como es el caso en particular con las distribuciones Normal, Logística y doble exponencial, cuando la matriz D − A es definida no-negativa, que implica que
m
(I − D−1 A) se aproxima a 0 o βb(m) se aproxima a βbBJ cuando m tiende a ∞.
Se deduce que de (3.13) tenemos que βb(m) es asintóticamente normal. Dado que las
matrices de covarianza están limitadas, tanto a βbG como a βbBJ implican a la función de
riesgo desconocida λ(·), la limitación de la matriz de covarianzas βb(m) también lo hace. De
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
73
este modo, desarrollamos un procedimiento de remuestreo para aproximar la distribución
de βb(m) .
Sea βbG∗ minimizada de la forma
n X
n
X
Zi Zj δi (ei (β) − ej (β))− ,
i=1 j=1
donde Zi con i = 1, . . . , n, son variables aleatorias independientes y positivas con E[Zi ] =
var[Zi ] = 1. Esto es una leve modificación del trabajo de Jin et al. (2003). Además definimos
L∗ (b) =
" n
X
Zi (Xi − X)⊗2
#−1 " n
X
i=1
#
³
´
∗
Zi (Xi − X) Ybi∗ (b) − Y (b) ,
i=1
donde
Z

Ybi∗ (b) = δi Yei + (1 − δi ) 

∞
ei (b)
udFbb∗ (u)
1 − Fbb∗ (ei (b))


+ XiT b
,

Fbb∗ (t)

Y 

1 −
=1−
n

X
i:ei (b)<t 
Zi δ i
Zj I [ej (b) ≥ ei (b)]


,


j=1
n
1 X b∗
∗
∗
y Y (b) =
Y (b). Finalmente, definimos la secuencia iterativa βb(0)
= βbG∗ y βb(m)
=
n i=1 i
L∗ (βb∗
) con m ≥ 1.
∗
(m−1)
∗
Como hemos dicho antes, el valor inicial βb(0)
del proceso iterativo de βbG∗ , que es el minimi-
zador de
n X
n
X
i=1 j=1
¯
¯
n X
n
¯
¯
X
¯
¯
T
Zi Zj δi |ei (β) − ej (β)| + ¯M − β
Zk Zl δk (Xl − Xk )¯ ,
¯
¯
k=1 l=1
donde M es un número especificado de antemano extremadamente grande.
∗
∗
Para la muestra aleatoria dada (Zi , . . . , Zn ), el proceso de iteración βb(k)
= L∗ (βb(k−1)
)
nos conduce a βb∗ con 1 ≤ k ≤ m. Mediante la generación de muestras aleatorias de
(k)
Comparación de dos modelos de regresión en fiabilidad
74
Modelo de tiempo de vida acelerada
∗
(Zi , . . . , Zn ) repetidamente de N tiempos, podemos obtener N realizaciones de βb(m)
, de∗
notadas por βb(m),j con j = 1, . . . , N . Para cada m ≥ 1, la matriz de covarianzas de βb(m)
puede ser estimada de la forma
N
1 X b∗
∗
∗
∗
s =
(β(m),j − β (m) )(βb(m),j
− β (m) )T
N − 1 j=1
2
∗
donde β (m) =
N
1 X b∗
β
, para más detalles ver Jin et al., (2006).
N j=1 (m),j
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
3.6.
3.6.1.
75
Ajuste del modelo semi-paramétrico AFT para nuestros datos
Estimador de Buckley-James
Vamos a realizar este ajuste mediante la sentencia bj() del paquete Design del entorno
R, ver Stare et al., (2001). Se realiza simplemente con la sentencia:
> ###### Buckley-James ######
> buckley<-bj(formula=Surv(tiempo,
estado)~presion+trafico+log(volumen)+strata(material)+x80,
+
data = datos,
+
link="ident", method="fit", x=TRUE, y=TRUE)
> buckley
Buckley-James Censored Data Regression
bj(formula = Surv(tiempo, estado) ~ presion + trafico + log(volumen) +
strata(material) + x80, data = datos, link = "ident", method =
"fit",
x = TRUE, y = TRUE)
Discrimination
Indexes
Obs
655
Events 324
Regression d.f. 5
sigma
7.3581
d.f.
318
Coef
Intercept
31.3019
presion
-0.0033
trafico
0.9369
volumen
-0.4265
material=material=Ur
5.9602
x80
-18.2700
g
S.E.
Wald Z
2.5599 12.23
0.0385 -0.09
0.8274
1.13
0.2875 -1.48
1.1849
5.03
1.3612 -13.42
7.965
Pr(>|Z|)
<0.0001
0.9311
0.2575
0.1380
<0.0001
<0.0001
Figura 3.17: Ajuste del modelo de Buckley-James.
Comparación de dos modelos de regresión en fiabilidad
76
Modelo de tiempo de vida acelerada
Realizando el mismo ajuste pero eliminando las covariables que menos significativas nos
han salido como son la presion y el trafico tenemos:
> #### Buckley-James reducido ####
> buckleyred<-bj(formula=Surv(tiempo,
estado)~log(volumen)+strata(material)+x80,
+
data = datos,
+
link="ident", method="fit", x=TRUE, y=TRUE)
> buckleyred
Buckley-James Censored Data Regression
bj(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) +
x80, data = datos, link = "ident", method = "fit", x = TRUE,
y = TRUE)
Discrimination
Indexes
Obs
655
Events 324
Regression d.f. 3
sigma
7.3360
d.f.
320
Coef
Intercept
32.7504
volumen
-0.3818
material=material=Ur
5.7153
x80
-18.2203
g
S.E.
Wald Z
1.5495 21.14
0.2820 -1.35
1.1610
4.92
1.3511 -13.49
7.853
Pr(>|Z|)
<0.0001
0.1758
<0.0001
<0.0001
Figura 3.18: Ajuste del modelo de Buckley-James con las covariables significativas.
De nuevo se nos presenta el caso en el que la covariable volumen no es significativa por lo
que focalizaremos nuestra atención en las covariables material y x80, por lo que tendremos
nuevamente el ajuste:
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
77
> #### Buckley-James reducido final ####
> buckleyfin<-bj(formula=Surv(tiempo, estado)~strata(material)+x80,
+
data = datos,
+
link="ident", method="fit", x=TRUE, y=TRUE)
> buckleyfin
Buckley-James Censored Data Regression
bj(formula = Surv(tiempo, estado) ~ strata(material) + x80, data =
datos,
link = "ident", method = "fit", x = TRUE, y = TRUE)
Discrimination
Indexes
Obs
655
Events 324
Regression d.f. 2
sigma
7.2892
d.f.
321
Coef
Intercept
34.2339
material=material=Ur
5.8957
x80
-18.3271
g
S.E.
Wald Z
1.0939 31.30
1.1535
5.11
1.3332 -13.75
7.575
Pr(>|Z|)
<0.0001
<0.0001
<0.0001
Figura 3.19: Ajuste final del modelo de Buckley-James con las covariables significativas.
Vamos a realizar un nuevo ajuste sin considerar la presion ni el trafico, separando de
igual forma que en el caso paramétrico el material en tUr y en tFD, para observar el ajuste
a ver que conclusiones podemos obtener. Por lo que tendremos:
Comparación de dos modelos de regresión en fiabilidad
78
Modelo de tiempo de vida acelerada
> ##### Ajuste de Buckley-James para tUr #####
> buckley2<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data =
tUr,
+
link="ident", method="fit", x=TRUE, y=TRUE )
> print.bj(buckley2)
Buckley-James Censored Data Regression
bj(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tUr,
link = "ident", method = "fit", x = TRUE, y = TRUE)
Discrimination
Indexes
Obs
492
Events 246
Regression d.f. 2
sigma
7.2692
d.f.
243
Coef
Intercept 36.9755
volumen
-0.6870
x80
-19.1622
S.E.
1.3981
0.3355
2.2478
Wald Z
26.45
-2.05
-8.52
g
2.707
Pr(>|Z|)
<0.0001
0.0406
<0.0001
Figura 3.20: Ajuste del modelo de Buckley-James para tUr.
Podemos interpretar el efecto de las covariables de este modelo, de la forma:
Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3
de volumen es del 49.69 %.
Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas
antes de 1980 es del 99 %.
Volvemos a hacer hincapié en el hecho de que la covariable x80 nos da un valor tan elevado
probablemente debido al efecto de no haber considerado el truncamiento por la izquierda.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
79
Ahora considerando el material tFD tenemos el ajuste de la forma
> ##### Ajuste de Buckley-James para tFD #####
> buckley4<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data =
tFD,
+
link="log", method="fit", x=TRUE, y=TRUE )
> print.bj(buckley4)
Buckley-James Censored Data Regression
bj(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tFD,
link = "log", method = "fit", x = TRUE, y = TRUE)
Discrimination
Indexes
Obs
163
Events 78
Regression d.f. 2
sigma
0.6587
d.f.
75
Coef
Intercept 3.6503
volumen
0.0056
x80
-1.1162
S.E.
Wald Z
0.2095 17.43
0.0458 0.12
0.1523 -7.33
g
gr
0.550
1.733
Pr(>|Z|)
<0.0001
0.9021
<0.0001
Figura 3.21: Ajuste del modelo de Buckley-James para tFD.
Como podemos apreciar en este caso, la covariable volumen no nos ha salido significativa,
por lo que para este caso tendremos que considerar sólo la covariable x80. Nuevamente se
nos presenta un ajuste de la forma
Comparación de dos modelos de regresión en fiabilidad
80
Modelo de tiempo de vida acelerada
> buckley6<-bj(formula=Surv(tiempo, estado)~x80, data = tFD,
+
link="log", method="fit", x=TRUE, y=TRUE )
> print.bj(buckley6)
Buckley-James Censored Data Regression
bj(formula = Surv(tiempo, estado) ~ x80, data = tFD, link = "log",
method = "fit", x = TRUE, y = TRUE)
Discrimination
Indexes
Obs
163
Events 78
Regression d.f. 1
sigma
0.6548
d.f.
76
g
gr
0.545
1.725
Coef
S.E.
Wald Z Pr(>|Z|)
Intercept 3.6347 0.1091 33.30 <0.0001
x80
-1.1143 0.1487 -7.49 <0.0001
Figura 3.22: Re-ajuste del modelo de Buckley-James para tFD.
Como podemos apreciar, no se nos presenta un buen ajuste para el tipo de material fundición dúctil (tFD), la única covariable significativa para este caso es la covariable que
depende del año de instalación de la tubería (x80).
3.6.2.
Estimador de mínimos cuadrados para datos censurados
Vamos a realizar este ajuste de mínimos cuadrados mediante la sentencia lss() del
paquete lss del entorno R, ver Huang & Jin (2007). Pasamos directamente a realizar el
ajuste a las covariables que nos han salido significativas en los casos anteriores
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
81
> ### Ajuste de mínimos cuadrados para los datos ###
> mcuad4<-lss(formula=Surv(tiempo, estado)~strata(material)+log(volumen)+x80,
data=datos,
+
trace=T, mcsize=500, gehanonly=F, maxiter=50,
+
tolerance=0.001, cov = T, na.action = na.exclude)
betag:
Iteration:
Beta:
Iteration:
Beta:
Iteration:
Beta:
Iteration:
Beta:
Iteration:
Beta:
6.7811440
-0.3755889 -17.6720616
1
6.0074328 -0.3838247 -18.0615900
2
5.8017504 -0.3833769 -18.1618404
3
5.738189 -0.382689 -18.199581
4
5.7235912 -0.3824344 -18.2114342
5
5.718821 -0.382359 -18.215878
Converged. Criteria Satisfied:
0.001
Call:
lss(formula = Surv(tiempo, estado) ~ strata(material) + log(volumen) +
x80, data = datos, trace = T, mcsize = 500, maxiter = 50,
tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude)
Number of Observations:
Number of Events:
324
Number of Censored: 331
Number of Iterations: 5
Resampling Number: 500
655
Gehan Estimator:
Estimate Std. Error
Z value
Pr(>|Z|)
strata(material)material=Ur
6.7811440
1.020232
6.646671 2.997957e-11
log(volumen)
-0.3755889
0.287801 -1.305030 1.918826e-01
x80
-17.6720616
1.214418 -14.551875 0.000000e+00
Gehan Covariance Matrix:
strata(material)material=Ur log(volumen)
x80
strata(material)material=Ur
1.04087261 -0.03615938 0.58613997
log(volumen)
-0.03615938
0.08282939 -0.07715294
x80
0.58613997 -0.07715294 1.47481149
Least-Squares Estimator:
Estimate Std. Error
Z value
Pr(>|Z|)
strata(material)material=Ur
5.718821 1.1156563
5.125970 2.960092e-07
log(volumen)
-0.382359 0.2800622 -1.365265 1.721699e-01
x80
-18.215878 1.2713900 -14.327530 0.000000e+00
LSE Covariance Matrix:
strata(material)material=Ur log(volumen)
x80
strata(material)material=Ur
1.24468902 -0.01941822 0.86823722
log(volumen)
-0.01941822
0.07843483 -0.07453969
x80
0.86823722 -0.07453969 1.61643247
Figura 3.23: Ajuste del modelo de mínimos cuadrados con las covariables significativas.
Comparación de dos modelos de regresión en fiabilidad
82
Modelo de tiempo de vida acelerada
Al igual que en caso anterior vamos a separar de igual forma que en el caso paramétrico
el material en tUr y en tFD. Por lo que tendremos:
> ### Ajuste de mínimos cuadrados para el material tUr ###
> mcuad1<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tUr,
+
trace=T, mcsize=500, gehanonly=F, maxiter=50,
+
tolerance=0.001, cov = T, na.action = na.exclude)
betag:
-0.687385 -18.818601
Iteration: 1
Beta:
-0.6873417
Iteration: 2
Beta:
-0.6880548
Iteration: 3
Beta:
-0.6880696
Iteration: 4
Beta:
-0.6880649
-19.0569426
-19.1349082
-19.1627678
-19.1744265
Converged. Criteria Satisfied:
0.001
Call:
lss(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tUr,
trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001,
gehanonly = F, cov = T, na.action = na.exclude)
Number of Observations:
Number of Events:
246
Number of Censored: 246
Number of Iterations: 4
Resampling Number: 500
492
Gehan Estimator:
Estimate Std. Error
Z value
Pr(>|Z|)
log(volumen) -0.687385 0.3015323 -2.27964 0.02262905
x80
-18.818601 1.6775807 -11.21770 0.00000000
Gehan Covariance Matrix:
log(volumen)
x80
log(volumen)
0.09092170 -0.06861122
x80
-0.06861122 2.81427716
Least-Squares Estimator:
Estimate Std. Error
Z value
Pr(>|Z|)
log(volumen) -0.6880649 0.2833069 -2.428691 0.01515344
x80
-19.1744265 1.7166712 -11.169540 0.00000000
LSE Covariance Matrix:
log(volumen)
x80
log(volumen)
0.08026280 -0.06445246
x80
-0.06445246 2.94695991
Figura 3.24: Ajuste del modelo de mínimos cuadrados para tUr.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
83
Considerando el estimador de Gehan o el de mínimos cuadrados dados en las salidas del
ajuste anterior podemos interpretar el efecto de las covariables de este modelo, de la forma:
Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3
de volumen es del 49.74 %.
Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas
antes de 1980 es del 99 %.
Como podemos ver, las conclusiones y los resultados son casi idénticos a los del modelo de
Buckley-James. Volvemos a hacer hincapié en el hecho de que la covariable x80 nos da un
valor tan elevado probablemente debido al efecto de no haber considerado el truncamiento
por la izquierda.
Comparación de dos modelos de regresión en fiabilidad
84
Modelo de tiempo de vida acelerada
Para el material tFD tenemos el ajuste
> ### Ajuste de mínimos cuadrados para el material tFD ###
> mcuad2<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tFD,
+
trace=T, mcsize=500, gehanonly=F, maxiter=50,
+
tolerance=0.001, cov = T, na.action = na.exclude)
betag:
0.328691 -17.486119
Iteration:
Beta:
Iteration:
Beta:
Iteration:
Beta:
Iteration:
Beta:
Iteration:
Beta:
1
0.2783885
2
0.2715742
3
0.2707383
4
0.2704592
5
0.2703833
-17.6186183
-17.6311282
-17.6369316
-17.6398482
-17.6413343
Converged. Criteria Satisfied:
0.001
Call:
lss(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tFD,
trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001,
gehanonly = F, cov = T, na.action = na.exclude)
Number of Observations:
Number of Events:
78
Number of Censored: 85
Number of Iterations: 5
Resampling Number: 500
163
Gehan Estimator:
Estimate Std. Error
Z value Pr(>|Z|)
log(volumen)
0.328691 0.5083365
0.6466011 0.5178902
x80
-17.486119 1.6056723 -10.8902163 0.0000000
Gehan Covariance Matrix:
log(volumen)
x80
log(volumen)
0.2584060 -0.2080217
x80
-0.2080217 2.5781836
Least-Squares Estimator:
Estimate Std. Error
Z value Pr(>|Z|)
log(volumen)
0.2703833 0.5369633
0.5035414 0.6145837
x80
-17.6413343 1.7085912 -10.3250760 0.0000000
LSE Covariance Matrix:
log(volumen)
x80
log(volumen)
0.2883296 -0.2789458
x80
-0.2789458 2.9192840
Figura 3.25: Ajuste del modelo de mínimos cuadrados para tFD.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
85
Como podemos ver la covariable volumen no nos sale significativa en este caso, por lo que
la eliminaremos la covariable volumen
> ## Ajuste de mínimos cuadrados sólo con x80 para el material tFD ##
> mcuad3<-lss(formula=Surv(tiempo, estado)~x80, data=tFD,
+
trace=T, mcsize=500, gehanonly=F, maxiter=50,
+
tolerance=0.001, cov = T, na.action = na.exclude)
betag:
-17
Iteration: 1
Beta: -17.38947
Iteration: 2
Beta: -17.47548
Iteration: 3
Beta: -17.52001
Iteration: 4
Beta: -17.54307
Iteration: 5
Beta: -17.55501
Converged. Criteria Satisfied:
0.001
Call:
lss(formula = Surv(tiempo, estado) ~ x80, data = tFD, trace = T,
mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F,
cov = T, na.action = na.exclude)
Number of Observations:
Number of Events:
78
Number of Censored: 85
Number of Iterations: 5
Resampling Number: 500
163
Gehan Estimator:
Estimate Std. Error
Z value Pr(>|Z|)
[1,]
-17
1.592271 -10.67658
0
Gehan Covariance Matrix:
[,1]
[1,] 2.535327
Least-Squares Estimator:
Estimate Std. Error
Z value Pr(>|Z|)
[1,] -17.55501
1.67535 -10.47841
0
LSE Covariance Matrix:
[,1]
[1,] 2.806798
Figura 3.26: Ajuste del modelo de mínimos cuadrados sólo con la covariable x80 para tFD.
Comparación de dos modelos de regresión en fiabilidad
86
Modelo de tiempo de vida acelerada
Al igual que en el modelo de Buckley-James, no se nos presenta un buen ajuste para el
tipo de material fundición dúctil (tFD), la única covariable significativa para este caso es
la covariable que depende del año de instalación de la tubería (x80).
3.7.
Comparación entre los modelos de CPH y AFT en
análisis de supervivencia
Como ya dijimos anteriormente, en el análisis de supervivencia, en general se nos van a
presentar observaciones censuradas, los métodos estadísticos usuales no pueden aplicarse a
estos tipos de datos. Como consecuencia, encontramos métodos específicos en la literatura
estadística para los datos de supervivencia. Si consideramos modelos de regresión los más
utilizados mundialmente son el modelo de CPH y el modelo de AFT.
El primero de estos y sus diversas generalizaciones se utiliza principalmente en campos
como el de la Medicina y la Bioestadística, mientras la otra alternativa (AFT), se utiliza
principalmente en teoría de la fiabilidad y en experimentos industriales.
El modelo de CPH se utiliza principalmente cuando la estimación y la inferencia sobre
los parámetros de interés son posibles sin asumir ningún tipo de función de riesgo base, esto
es, no es necesario especificar una distribución de supervivencia para modelar los efectos de
las covariables explicativas sobre la variable explicada. Sin embargo, este modelo se basa
en la hipótesis de riesgos proporcionales y quizás dicha hipótesis puede no mantenerse en
algunos estudios de supervivencia. Si esta hipótesis no se mantiene, no debemos utilizar el
modelo estándar de Cox ya que esto nos puede suponer la presencia de un gran sesgo y la
pérdida de poder en la estimación, todo esto puede verse en los trabajos de Abrahamowicz
et al. (1996) y Hess (1994). La mayoría de las técnicas de evaluación de la bondad de
ajuste en modelos de regresión de riesgos proporcionales y de los métodos de detección
de la violación del supuesto de riesgos proporcionales, pueden encontrarse en los estudios
de Nagelgerke et al. (1984), Wei (1984), Kay (1977), Hess (1995), Moreau et al. (1985),
Kooperberg et al. (1995) entre otros. En los años noventa varios métodos flexibles fueron
propuestos para tener en cuenta la suposición de no-proporcionalidad de riesgos como los
de Abrahamowicz et al. (1996), Hess (1994), Kooperberg et al. (1995), Gray (1992).
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
87
Por otro lado, si consideramos los modelos de AFT, estos, pueden ser de bastante
interés porque se pueden escribir especificando una relación directa entre el logaritmo del
tiempo de supervivencia y las covariables explicativas, en el mismo sentido que el modelo
de regresión lineal múltiple. Sin embargo, su principal desventaja es que por lo general
la estimación de estos modelos se realiza asumiendo una distribución para el tiempo de
supervivencia o duración, que en la mayoría de los casos es desconocida.
La distribución semi-paramétrica en los modelos de AFT con una distribución de error
desconocida ha sido ampliamente estudiada en la literatura para datos censurados. En
particular, existen dos métodos que han recibido especial atención. Uno de ellos es el
estimador de Buckley-James que ajusta observaciones censuradas utilizando el estimador
de Kaplan-Meier. El otro método es el conocido estimador de rangos que viene motivado
por la función score de la verosimilitud parcial, ver por ejemplo, Prentice (1978), Buckley
& James (1979), Ritov (1990), Tsiatis (1990), Wei, Yin & Lin (1990) y Ying (1993) entre
otros.
Teniendo en cuenta que el modelo de CPH es el modelo principal de elección para los
datos de supervivencia, tal vez la pregunta es “¿Por qué no utilizar el modelo de CPH?”.
Presentamos aquí tres razones: Las razones principales para el uso del modelo de BackleyJames son:
1. El supuesto básico del modelo de CPH, o sea la proporcionalidad de los riesgos, no
siempre se cumple. A pesar de los excelentes diagnósticos que hay disponibles para
el modelo de CPH, este hecho es a menudo pasado por alto, probablemente porque
las alternativas involucran cálculos complejos.
2. Los resultados del ajuste con el modelo de CPH no permiten su uso con fines de
predicción. Para ser capaces de predecir esto, se necesita estimar el riesgo base, del
cual, no siempre se dispone.
3. Los resultados de los ajustes del modelo de CPH son a veces difíciles de explicar con
estadísticos y a consecuencia de esto tenemos que dar menos información directa de
los resultados del ajuste lineal en el tiempo o con el log-tiempo.
Comparación de dos modelos de regresión en fiabilidad
88
Modelo de tiempo de vida acelerada
Sin embargo, el modelo de Buckley-James no es ampliamente usado en la práctica, principalmente debido a las dificultades en el cálculo de los estimadores semi-paramétricos
mencionados antes, incluso en situaciones donde el número de covariables es relativamente
pequeño (Jin et al., (2003)). Para las covariables de grandes dimensiones, estos modelos
son aún más difíciles de aplicar, o sus versiones regularizadas, especialmente cuando la
selección de variables es necesaria junto con la estimación.
Una metodología bastante interesante es la propuesta de Stute (1999), que puede utilizarse para estimar modelos de regresión lineales con observaciones censuradas. Esta propuesta tiene buenas propiedades teóricas estudiadas también por Stute (1993) y (1996a) y
parece ser un modelo interesante para su uso en el análisis de supervivencia. El modelo propuesto por Stute puede ser considerado como un modelo de AFT, pero con la característica
importante que nos permite estimar y hacer inferencia sobre los parámetros del modelo,
sin suponer la distribución de la variable tiempo de vida, por lo general desconocida. Por lo
tanto, se evita el problema de asumir una distribución de probabilidad específica, y desde
este punto de vista, se podría considerar una importante alternativa al modelo CPH.
Además, este modelo presenta varias ventajas al compararlo con el modelo de CPH:
No se necesita la verificación de la hipótesis de riesgos proporcionales.
Modeliza directamente el efecto de las covariables explicativas sobre la supervivencia,
por lo que la interpretación de los resultados es más clara y más fácil (en términos de
efectos sobre el tiempo de supervivencia, como en los modelos estadísticos clásicos,)
no como en los modelos de CPH, donde modelizamos el efecto de las covariables
en una probabilidad condicionada. Además, mediante el uso de esta metodología se
puede estimar la vida media residual de un sujeto que ya ha sobrevivido hasta el
tiempo t.
Es fácil de evaluar y puede extenderse para considerar situaciones más complejas,
como, por ejemplo, las interacciones entre las covariables y el tiempo de supervivencia
o considerar los efectos no paramétricos de algunas covariables o de covariables con
parámetros dependientes del tiempo.
Comparación de dos modelos de regresión en fiabilidad
Modelo de tiempo de vida acelerada
89
Por lo tanto, puede ser de interés para comparar, bajo ciertas condiciones, la mejora de la
propuesta de Stute basada en el modelo semi-paramétrico de AFT. Dicha propuesta queda
pendiente en futuras líneas de investigación, ver Apéndice C.
3.8.
Conclusiones
El modelo de regresión de CPH es el modelo mayoritariamente utilizado para analizar
el pronóstico de los factores en la investigación biomédica. Esto se debe probablemente al
hecho de que este modelo nos permite estimar y hacer inferencia sobre los parámetros sin
la presunción de ninguna distribución para los tiempos de vida, que a menudo suele ser
desconocida. Sin embargo, este modelo requiere el cumplimiento de la proporcionalidad
de riesgos, que no siempre se satisface para los datos. En estas situaciones, los modelos
de tiempos de vida acelerada AFT proporcionan una herramienta alternativa para ajustar
los datos. Además, bajo estos modelos podemos medir de forma directa el efecto de las
covariables explicativas sobre el tiempo de supervivencia y no sobre el concepto de razón de
riesgo que es la razón de dos probabilidades condicionadas, como hacíamos en el modelo de
CPH. Esta característica permite una interpretación de los resultados ya que los parámetros
miden el efecto de la covariable correspondiente con respecto a la media del tiempo de vida.
Realizados todos los cálculos necesarios para las valoraciones de ambos modelos se
puede concluir que las tuberías que tienen menos tendencia al fallo poseen las siguientes
características, como la disminución del volumen de la tubería, o que su material sea de
fundición dúctil, así como que la tubería fuese instalada después de 1980, como ya se
contrastó en el modelo de CPH.
Se han comparado dos modelos diferentes, el modelo semi-paramétrico de CPH y el
modelo paramétrico de tiempo de vida acelerada. Especialmente, el modelo de CPH y el
paramétrico de tiempo vida acelerada para tres de las distribuciones más comunes en el
ámbito de la fiabilidad y la supervivencia, como son la distribución de Weibull, la Lognormal
y la Loglogística.
Si tratamos el modelo de AFT mediante estimadores semi-paramétricos, se piensa que
el estimador de Buckley-James para el ajuste de modelos lineales para datos censurados
Comparación de dos modelos de regresión en fiabilidad
90
Modelo de tiempo de vida acelerada
es una alternativa viable al modelo de CPH, y su uso puede ser mejor si se dispone de un
software adecuado. Sin embargo, la mejora del estimador de Buckley-James bajo censura
no ha sido aún lo suficientemente investigada, por lo que tenemos que tenerlo en cuenta
en nuestro caso. En teoría, se nos presentan dos estimadores, el de Gehan y el de mínimos
cuadrados, ambos son utilizados muy a menudo en el análisis de regresión lineal para datos
no censurados. El test de Wald para los coeficientes de regresión proporciona una guía de
ayuda para la selección de covariables en el modelo. Por otra parte, la manera de validar
la bondad de ajuste para este tipo de modelos de regresión lineal, es un tema aún abierto
que requiere de más investigación.
La comparación nos ha llevado a elegir al modelo de tiempo de vida acelerada
paramétrico con distribución de Weibull como el modelo que mejor ajusta a los
datos, según todos los criterios de bondad de ajuste mencionados en este trabajo. Además
nos va a interesar más la capacidad predictiva de este modelo en estudios posteriores.
Comparación de dos modelos de regresión en fiabilidad
Apéndice A
Detalle del software utilizado
Todo el análisis estadístico se ha llevado a acabo utilizando el software R, que se encuentra disponible gratuitamente en:
http://www.r-project.org/
Se emplearon específicamente:
survival: Es un package de R para el análisis de supervivencia, específicamente de
este paquete se han utilizado la función Surv() empleada para crear un objeto de
tipo supervivencia (una variable). Hemos empleado también la función survfit(),
esta función permite crear curvas de supervivencia utilizando el método de KaplanMeier (opción por defecto) o de Fleming y Harrington. También permite predecir
la función de supervivencia para modelos de Cox, o un modelo de tiempo de vida
acelerada. Utilizamos la función survreg() que permite ajustar modelos de regresión
paramétricos en análisis de supervivencia. Éstos son modelos localización y escala para transformaciones de la variable tiempo. Las distribuciones que se pueden modelar
directamente a través de la función survreg son la Weibull, la exponencial, la Normal, la Lognormal, la Logística y la Loglogística. Utilizamos la función strata(), que
es una función especial usada en el contexto del modelo de supervivencia de Cox y en
AFT. Esta función identifica las variables de estratificación cuando ellas aparecen a
la derecha de una fórmula. También se ha utilizado la función coxph(), utilizada para
ajustar un modelo de riesgos proporcionales, en este trabajo se ha utilizado específicamente para obtener el modelo de riesgos proporcionales de Cox. Hemos utilizado
91
92
Apéndice: Detalle del software utilizado
la función cox.zph() para verificar el supuesto de riesgos proporcionales del modelo
de Cox. Para más información sobre el package survival ver:
http://cran.r-project.org/web/packages/survival/survival.pdf
Design: Sirve para realizar modelos de regresión, gráficos, pruebas, validaciones, predicciones. Design es una colección de alrededor de 180 funciones que ayudan en el
tema de los modelos de regresión, especialmente en el campo de la Bioestadística
y la Epidemiología. También contiene nuevas funciones para modelos de regresión
binarios y logísticos y también posee una buena implementación para el modelo de
regresión múltiple de Buckley-James para datos censurados a la derecha e implementa una estimación de la máxima verosimilitud para modelos lineales y logísticos. El
package Design trabaja con casi cualquier modelo de regresión y está especialmente
creado para trabajar con modelos de regresión logísticos, con el modelo de Cox, con
el modelo de tiempo de vida acelerada, con modelos lineales ordinarios, con el método de Buckley-James y con el método de mínimos cuadrados generalizados para
observaciones especialmente correlacionadas. En nuestro trabajo, hemos utilizado especialmente este package para el uso de la función bj() para el cálculo del estimador
de Buckley-James Para más información sobre el package Design ver:
http://cran.r-project.org/web/packages/Design/Design.pdf
eha: Se utiliza este package de R para el análisis de los eventos históricos en general:
En el muestreo de los conjuntos en riesgo en la regresión de Cox, las selecciones en
el diagrama de Lexis y en el bootstrapping. El ajuste de riesgos proporcionales paramétricos con truncamiento a la izquierda y censura a la derecha para las familias de
distribución más comunes, los riesgos constantes a trozos, y los modelos discretos. El
modelo de regresión de AFT para datos truncados a la izquierda y censurados a la
derecha. La regresión binaria y de Poisson para datos agrupados, los efectos fijos y
aleatorios con el bootstrapping. En nuestro caso, el package eha nos propone alguna
extensión de la función coxph(). El package eha también nos propone una implementación alternativa del modelo de AFT, en particular con la función aftreg().
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Detalle del software utilizado
93
Para más información sobre el package eha ver:
http://cran.r-project.org/web/packages/eha/eha.pdf
emplik: Se utiliza este package de R para realizar pruebas de razón de verosimilitud empírica para el análisis de riesgos/cuantiles/medias para datos censurados y/o
truncados, también para casos de regresión. Este package implementa una solución alternativa para el estimador de Buckley-James mediante la función BJnoint sin tener
en cuenta el término independiente. Para más información sobre el package emplik
ver:
http://cran.r-project.org/web/packages/emplik/emplik.pdf
rms: Se utiliza este package de R para los modelos de regresión, pruebas de diagnóstico, estimaciones, validaciones, gráficos, predicciones, y la composición tipográfica
mediante el almacenamiento de los atributos de diseño en el ajuste. Éste package es
un conjunto de 229 funciones que ayudan a optimizar en la temática de los modelos
de regresión. También contiene funciones para modelos de regresión logística binaria
y ordinal, para el método de regresión múltiple de Buckley-James para datos con
censura a la derecha, y tiene una implementación penalizada del estimador máximo
verosímil para modelos lineales logísticos y ordinales. Éste package funciona con casi cualquier modelo de regresión, pero fue creado especialmente para trabajar con
regresión logística binaria u ordinal, la regresión de Cox, el modelo de tiempo de vida acelerada, los modelos lineales ordinarios, el método de Buckley-James, mínimos
cuadrados generalizados para observaciones en serie o especialmente correlacionadas, modelos lineales generalizados y regresión de cuantiles. Este package nos brinda
una solución alternativa para el cálculo del estimador de Buckley-James sin tener en
cuenta el término independiente. Para más información sobre el package rms ver:
http://cran.r-project.org/web/packages/rms/rms.pdf
lss: Se utiliza este package de R, básicamente para realizar el ajuste por mínimos
cuadrados del modelo AFT con datos censurados a la derecha, con la función con el
Comparación de dos modelos de regresión en fiabilidad
94
Apéndice: Detalle del software utilizado
mismo nombre lss() como se ha hecho en nuestro trabajo. Para más información
sobre el package lss ver:
http://cran.r-project.org/web/packages/lss/lss.pdf
quantreg: Este package de R sirve para poder implementar el modelo de regresión
de cuantiles condicionado para datos censurados. Se ha utilizado para el cálculo de
la función quantile(). Para más información sobre el package quantreg ver:
http://cran.r-project.org/web/packages/quantreg/quantreg.pdf
Comparación de dos modelos de regresión en fiabilidad
Apéndice B
Códigos de las funciones utilizadas
####################################################################
######################### TRABAJO FIN DE MASTER ####################
####################################################################
####################################################################
######################## MODELO SEMI-PARAMETRICO ###################
####################################################################
###################### Modelo de Regresion de Cox ##################
#### Pasamos la base de datos del .txt al R ####
ejm1.dat<-read.table("C:/Users/Antonio Jesus
Lopez/Desktop/UNIVERSIDAD/MASTER EN ESTADISTICA APLICADA/TRABAJO DE
INVESTIGACION/Datos_Tuberia/tuberias.txt",header=TRUE)
#### Pasamos la variable volumen a m3 ####
ejm1.dat$volumen<-ejm1.dat$volumen/1000 ejm1.dat
#### Muestra las covariables que tenemos ####
95
96
Apéndice: Códigos de las funciones utilizadas
names(ejm1.dat)
#### Covertimos los datos en forma de dataframe ####
datos<-as.data.frame(ejm1.dat) tUr<-datos[datos$material=="Ur",]
#selecciono las tuberias de uralita
tFD<-datos[datos$material=="FD",] #selecciono las tuberias de
#fundicion ductil
#### Realizamos la regresion de Cox ####
# volumen=longitud(m)*(diametro(m)/2)^2*pi=m3; suponemos que los
#tramos son rectos x80<-1 si se instalo despues de 1980, 0 en otro
#caso hacemos log(volumen) para centrar la variable
cox1<-coxph(Surv(tiempo,estado)~material+presion+trafico+log(volumen)+x80,
data=datos)
cox1
#### Una salida mas completa seria mediante la sentencia ####
summary(cox1)
#### Realizamos de nuevo la regresion de Cox con las variables
#### mas significativas ####
cox2<-coxph(Surv(tiempo, estado)~log(volumen)+strata(material)+x80,
data=datos, method=’breslow’)
summary(cox2)
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
#### Funcion de Supervivencia ajustada mediante el modelo de Cox ###
summary(survfit(cox2))
#### Grafica de la Supervivencia estimada para el material ####
plot(survfit(Surv(tiempo,estado)~material,data=datos), xlab=’anos’,
ylim=c(0, 1),
ylab=’Supervivencia’,lty = 1:4, col = 2:5,
main="Curvas de Supervivencia para el material")
legend("topright", legend=c("material=FD","material=Ur"), lty=1:4,
col=c("red","green"))
#### Grafica del riesgo estimado para el material ####
plot(survfit(Surv(tiempo,estado)~material,data=datos), fun="cumhaz",
xlab=’anos’, ylim=c(0, 4), ylab=’Riesgo acumulado’, lty = 1:4,
col = 2:5, main="Curvas de riesgo acumulado para el material")
legend("topright", legend=c("material=FD","material=Ur"), lty=1:4,
col=c("red","green"))
#### Supuesto de Riesgos Proporcionales ####
cox.zph(cox2)
################################################################
################### Analisis de los residuos ###################
################################################################
#### Residuos de Cox-Snell ####
Comparación de dos modelos de regresión en fiabilidad
97
98
Apéndice: Códigos de las funciones utilizadas
estado<-datos$estado mresi<-residuals(cox2, type="martingale")
csresi<-estado-mresi
hazard.csresi<-survfit(Surv(csresi,estado)~1,type="fleming-harrington")
plot(hazard.csresi$time,-log(hazard.csresi$surv), xlab=’residuos de
Cox-Snell’, ylab=’riesgo acumulado’,lty = 1:4, main="Representacion
de los residuos de Cox-Snell") lines(c(0,5),c(0,5))
#### Residuos de martingala ####
mres<-residuals(cox2, type=c("martingale"))
plot(datos[,1], mres, xlab=c("log(volumen)")[1], ylab="Residuos martingale",
main="Residuos de Martingala")
abline(h=0, lty=2)
lines(lowess(datos[,1], mres, iter=0))
#### Residuos escalados de Schoenfeld ####
plot(cox.zph(cox2),var=1, main="Betas para log(volumen)")
plot(cox.zph(cox2),var=2, main="Betas para x80")
#### Residuos dfbeta ####
dfbeta <- residuals(cox2, type="dfbetas") par(mfrow=c(2,2))
for (j in 1:2){
plot(dfbeta[,j], ylab=names(coef(cox2))[j])
abline(h=0, lty=2, col=’black’)
lines(c(0,0),c(0,0)) }
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
99
#### Residuos de deviance ####
devresi <- resid(cox2, type="deviance")
plot(cox2$linear.predictor, devresi, ylab="Residuos de Deviance",
main=’Residuos de deviance’)
abline(h=0,lty=2, col=’black’)
####################################################################
########################### MODELO PARAMETRICO #####################
####################################################################
################# MODELO DE TIEMPO DE VIDA ACELERADA AFT ###########
####################################################################
####################################################################
#### Ajuste del modelo de vida acelerada para la distribucion de
#### Weibull ####
aftm1<-survreg(formula=Surv(tiempo,estado)~longitud+diametro+material+
presion+trafico+x80, data = datos, dist="weibull")
summary(aftm1)
#### Re-ajuste del modelo de vida acelerada con Weibull ####
aftm2<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80,
data = datos, dist="weibull")
summary(aftm2)
Comparación de dos modelos de regresión en fiabilidad
100
Apéndice: Códigos de las funciones utilizadas
#### Re-ajuste del modelo de vida acelerada con lognormal ####
aftm3<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80,
data = datos, dist="lognormal")
summary(aftm3)
#### Re-ajuste del modelo de vida acelerada con loglogistico ####
aftm4<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80,
data = datos, dist="loglogist")
summary(aftm4)
####################################################################
####################### Validacion de los modelos AFT ##############
####################################################################
#### Comparacion entre modelos mediante -2*LL ####
anova(aftm2, aftm3, aftm4, test = "Chisq")
#### Validacion mediante la funcion de supervivencia ####
LIN.AFT<-function(survfit.obj,dist="weibull",ylim=c(-3,1)) {
## Utiliza estimaciones de K-M para comprobar hipotesis de idoneidad
## para el modelo parametrico AFT.
## strata
creara lineas rectas mas o menos paralelas bajo el modelo
## AFT con una distribucion correcta
n<-cumsum(survfit.obj$strata)
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
101
logt<-log(survfit.obj$time)
if (dist=="weibull" | dist=="exponential")
{Sinv<-log(-log(survfit.obj$surv));ylab="ln(-ln(S))"}
else if (dist=="lognormal") {Sinv<-qnorm(1-survfit.obj$surv);
ylab="z(1-S)"}
else if (dist=="loglogistic") {Sinv<-log(1/survfit.obj$surv - 1);
ylab="ln(1/S - 1)"}
else stop("distribucion no reconocida por esta funcion")
plot(logt[1:n[1]],Sinv[1:n[1]],xlab="log(time)",ylab=ylab,ylim=ylim,
main=dist)
for (i in 2:length(n)) {
ind<-(n[i-1]+1):n[i]
points(logt[ind],Sinv[ind],pch=i)
}
legend(min(logt),max(ylim),names(survfit.obj$strata),pch=1:length(n))
}
#### ajuste AFT para este caso ####
p1<-survfit(Surv(tiempo, estado)~material,data=datos)
### graficas de valoracion de modelos mediante la funcion de
#supervivencia ####
par(mfrow=c(1,3))
LIN.AFT(p1, dist="weibull")
LIN.AFT(p1, dist="lognormal")
Comparación de dos modelos de regresión en fiabilidad
102
Apéndice: Códigos de las funciones utilizadas
LIN.AFT(p1, dist="loglogistic")
### Weibull QQPlot para datos censurados a la derecha ###
n<-length(p1$surv) splt<-sum((1:(n-1))*(p1$surv[-n]<p1$surv[-1]))
ap<-p1$surv[1:splt] bp<-p1$surv[(splt+1):n] at<-p1$time[1:splt]
bt<-p1$time[(splt+1):n] max.c<-max(min(ap),min(bp))
times<-(1-max.c)*((0:99)/100)+max.c q1<-c() q2<-c() for (i in 1:100)
{
q1[i]<-at[(abs(ap-times[i]))==(min(abs(ap-times[i])))]
q2[i]<-bt[(abs(bp-times[i]))==(min(abs(bp-times[i])))]
}
plot(q1,q2, main="Q-QPlot para el material", xlab="cuantiles de
tFD", ylab="cuantiles de tUr")
myline.fit <- lm(q2~q1)
abline(myline.fit, col="blue")
####################################################################
###### Criterio de informacion de AIC para comparar ################
############ los tres modelos parametricos #########################
####################################################################
####################################################################
extractAIC(aftm2) #distribucion de Webull
extractAIC(aftm3) #distribucion Lognormal
extractAIC(aftm4) #distribucion Loglogistica
####################################################################
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
###### Criterio de informacion de AIC para modelo de Weibull y #####
####################### para el modelo PH de Cox ###################
####################################################################
extractAIC(aftm2) #modelo AFT con dist. de Weibull
extractAIC(cox2)
#modelo de PH de Cox
####################################################################
########################## Funcion para QQPlots ####################
####################################################################
##=====================================================================
qq.reg.resid.r<-function(data,time,status,fit,quantile,xlab){
##=====================================================================
## Objetivo : Para modelos de regresion parametricos, esto construye
## la qq-plot de los residuos ordenados e_i=(y_i-yhat_i)/sigmahat
#frente a los cuantiles estandar log-parametricos z_i de cualquiera
## de las distribuciones "Weibull", "lognormal" o "loglogistica".
##--------------------------------------------------------------------## NOTA:
Esto tambien se puede utilizar para el ajuste de una sola
## muestra de los tiempos de supervivencia de un modelo parametrico.
## Puesto que no hay covariables, recuerde escribir survreg (Surv
#(...,...)~ 1, dist ="...", =...) datos con el fin de estimar el
#coeficiente mu.
##--------------------------------------------------------------------## Argumentos:
data = data.frame time = nombre del tiempo de
#supervivencia de la variable en data.frame status = nombre de la
##variable estado en data.frame ## fit = un objeto survreg quantile
#= "qweibull", "qnorm" o "qlogis" ## xlab = "escriba su etiqueta"
#p.e., "valores extremos estandar (cuantiles)"
Comparación de dos modelos de regresión en fiabilidad
103
104
Apéndice: Códigos de las funciones utilizadas
##--------------------------------------------------------------------##=====================================================================
temp<-data temp$time<-time temp$status<-status
temp$ei<-(log(temp$time)-predict(fit,type="lp"))/fit$scale
temp<-temp[order(temp$ei), ] con<-abs(min(temp$ei))+.00001
temp$ei<-temp$ei+con
km.fit<-survfit(Surv(ei,status)~1,data=temp,type="kaplan-meier")
temp$km.surv<-summary(km.fit,times=temp$ei)$surv if (quantile ==
"qweibull") { zi<-as.numeric(qweibull(1-temp$km.surv,1,1))
k<-nrow(temp) for (i in 1:k){
if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-log(zi[i])
} temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) {
surv.max.1<-max(temp$km.surv[temp$status==1])
d<-1-surv.max.1
surv.pu<-1-d/2
temp$zi[i]<-log(qweibull(1-surv.pu,1,1))}
} for (i in 1:k){ if (temp$zi[i]==Inf) {
d<-min(temp$km.surv[temp$km.surv > 0])
surv.pl<-d/2
temp$zi[i]<-log(qweibull(1-surv.pl,1,1))}
} }
if (quantile == "qnorm"){ zi<-as.numeric(qnorm(1-temp$km.surv,0,1))
k<-nrow(temp) for (i in 1:k){
if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-zi[i]
} temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) {
surv.max.1<-max(temp$km.surv[temp$status==1])
d<-1-surv.max.1
surv.pu<-1-d/2
temp$zi[i]<-qnorm(1-surv.pu,0,1)}
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
105
} for (i in 1:k){ if (temp$zi[i]==Inf) {
d<-min(temp$km.surv[temp$km.surv > 0])
surv.pl<-d/2
temp$zi[i]<-qnorm(1-surv.pl,0,1)}
} } if (quantile == "qlogis") {
zi<-as.numeric(qlogis(1-temp$km.surv,0,1)) k<-nrow(temp) for (i in
1:k){
if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-zi[i]
} temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) {
surv.max.1<-max(temp$km.surv[temp$status==1])
d<-1-surv.max.1
surv.pu<-1-d/2
temp$zi[i]<-qlogis(1-surv.pu,0,1)}
} for (i in 1:k){ if (temp$zi[i]==Inf) {
d<-min(temp$km.surv[temp$km.surv > 0])
surv.pl<-d/2
temp$zi[i]<-qlogis(1-surv.pl,0,1)}
} }
temp$ei<-temp$ei-con
##print(temp) plot(temp$zi,temp$ei,xlab=xlab,ylab="Residuos
ordenados ei",type="n",
xlim=c(min(temp$zi),max(temp$zi)),ylim=c(min(temp$ei),max(temp$ei)+.15))
points(temp$zi[temp$status==0],temp$ei[temp$status==0],pch=".",cex=3)
points(temp$zi[temp$status==1],temp$ei[temp$status==1],pch="o",cex=1)
lines(temp$zi[temp$status==1],temp$ei[temp$status==1],lty=1,lwd=1)
k<-nrow(temp) for(i in 1:k) { if (temp$status[i]==0)
arrows(temp$zi[i],temp$ei[i],temp$zi[i],temp$ei[i]+.15,code=2,length=.12,
lwd=2.01)}
abline(a=0,b=1,lty=4,lwd=2) usr<-par("usr")
Comparación de dos modelos de regresión en fiabilidad
106
Apéndice: Códigos de las funciones utilizadas
arrows(.9*usr[1]+.1*usr[2],.07*usr[3]+.93*usr[4],.9*usr[1]+.1*usr[2],
.07*usr[3]+.93*usr[4]+.15,
code=2,length=.09,lwd=2.01)
text(.8*usr[1]+.2*usr[2],.05*usr[3]+.95*usr[4],"
=
Censurados")
points(.9*usr[1]+.1*usr[2],.11*usr[3]+.89*usr[4],pch="o")
text(.79*usr[1]+.21*usr[2],.1*usr[3]+.90*usr[4], "
= No
censurados")
on.exit()
"qq.reg.resid:done" }
##=====================================================================
#### Para el material tUr ####
fitweib1<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull",
data=tUr)
fitlognorm1<-survreg(Surv(tiempo, estado)~log(volumen),
dist="lognormal", data=tUr)
fitloglog1<-survreg(Surv(tiempo, estado)~log(volumen),
dist="loglogist", data=tUr)
par(mfrow=c(1,3))
qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitweib1, "qweibull",
"Valores estremos estandar (cuantiles)")
qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitlognorm1, "qnorm",
"Normal estandar (cuantiles)")
qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitloglog1, "qlogis",
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
"Logistica (cuantiles)")
#### Para el material tFD ####
fitweib2<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull",
data=tFD)
fitlognorm2<-survreg(Surv(tiempo, estado)~log(volumen),
dist="lognormal", data=tFD)
#### Para que no falle ####
tFD2<-tFD[-163,]
fitloglog2<-survreg(Surv(tiempo, estado)~log(volumen),
dist="loglogist", data=tFD2)
par(mfrow=c(1,3))
qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitweib2, "qweibull",
"Valores estremos estandar (cuantiles)")
qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitlognorm2, "qnorm",
"Normal estandar (cuantiles)")
#### Para que no falle (le quitamos la ultima fila a tUr) ####
qq.reg.resid.r(tFD2, tFD2$tiempo, tFD2$estado, fitloglog2, "qlogis",
"Logistica (cuantiles)")
Comparación de dos modelos de regresión en fiabilidad
107
108
Apéndice: Códigos de las funciones utilizadas
####################################################################
############### Residuos de Cox-Snell para los datos ###############
####################################################################
par(mfrow=c(3,1))
#### Residuos para el modelo de Weibull ####
aft.w<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80,
data=datos, dist="weibull")
mu.i<-aft.w$linear.predictors
r.cs.i<-exp((log(datos$tiempo)-mu.i)/aft.w$scale)
fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull",
xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.")
lines(c(0,5),c(0,5))
#### Residuos para el modelo Lognormal ####
aft.ln<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80,
data=datos, dist="lognormal")
mu.i<-aft.ln$linear.predictors
res.i<-(log(datos$tiempo)-mu.i)/aft.ln$scale
ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui)
fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal",
xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.")
lines(c(0,5),c(0,5))
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
109
#### Residuos para el modelo Loglogistico ####
aft.log<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80,
data=datos,dist="loglogistic")
mu.i<-aft.log$linear.predictors
res.i<-(log(datos$tiempo)-mu.i)/aft.log$scale
ui<-1-plogis(res.i,location=0,scale=1) r.cs.i<--log(ui)
fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistic",
xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.")
lines(c(0,5),c(0,5))
####################################################################
##################### Residuos para el modelo weibull ##############
####################################################################
dev.off()
#### Para el material tUr ####
par(mfrow=c(1,2))
aft.w<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="weibull")
mu.i<-aft.w$linear.predictors
r.cs.i<-exp((log(tUr$tiempo)-mu.i)/aft.w$scale)
fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull para tUr",
xlab="Residuos de Cox-Snell",
ylab="Funcion de riesgo acumulado")
lines(c(0,5),c(0,5),col="blue")
#### Para el material tFD ####
aft.w<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="weibull")
Comparación de dos modelos de regresión en fiabilidad
110
Apéndice: Códigos de las funciones utilizadas
mu.i<-aft.w$linear.predictors
r.cs.i<-exp((log(tFD$tiempo)-mu.i)/aft.w$scale)
fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull para tFD",
xlab="Residuos de Cox-Snell",
ylab="Funcion de riesgo acumulado")
lines(c(0,5),c(0,5), col="red")
####################################################################
#################### Residuos para el modelo lognormal #############
####################################################################
#### Para el material tUr ####
par(mfrow=c(1,2))
aft.ln<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="lognormal")
mu.i<-aft.ln$linear.predictors
res.i<-(log(tUr$tiempo)-mu.i)/aft.ln$scale
ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui)
fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal para tUr",
xlab="Residuos de Cox-Snell",
ylab="Funcion de riesgo acumulado")
lines(c(0,5),c(0,5), col="blue")
#### Para el material tFD ####
aft.ln<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="lognormal")
mu.i<-aft.ln$linear.predictors
res.i<-(log(tFD$tiempo)-mu.i)/aft.ln$scale
ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui)
fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal para tFD",
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
111
xlab="Residuos de Cox-Snell",
ylab="Funcion de riesgo acumulado")
lines(c(0,5),c(0,5), col="red")
####################################################################
################## Residuos para el modelo loglogistico ############
####################################################################
#### Para el material tUr ####
par(mfrow=c(1,2))
aft.log<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="loglogistic")
mu.i<-aft.log$linear.predictors
res.i<-(log(tUr$tiempo)-mu.i)/aft.log$scale
ui<-1-plogis(res.i,location=0,scale=1)
r.cs.i<--log(ui)
fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistico para tUr",
xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado")
lines(c(0,5),c(0,5), col="blue")
### para el material tFD ###
aft.log<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="loglogistic")
mu.i<-aft.log$linear.predictors
res.i<-(log(tFD$tiempo)-mu.i)/aft.log$scale
ui<-1-plogis(res.i,location=0,scale=1)
r.cs.i<--log(ui)
fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington")
plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistico para tFD",
xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado")
lines(c(0,5),c(0,5), col="red")
Comparación de dos modelos de regresión en fiabilidad
112
Apéndice: Códigos de las funciones utilizadas
####################################################################
####################################################################
##################### modelos semi-parametricos bajo AFT ###########
####################################################################
####################################################################
#### Buckley-James ####
buckley<-bj(formula=Surv(tiempo,estado)~presion+trafico+log(volumen)+
strata(material)+x80, data = datos,
link="ident", method="fit", x=TRUE, y=TRUE)
buckley
#### Buckley-James reducido ####
buckleyred<-bj(formula=Surv(tiempo,estado)~x80+strata(material)+
log(volumen), data = datos,
link="ident", method="fit", x=TRUE, y=TRUE)
buckleyred
#### Buckley-James reducido final ####
buckleyfin<-bj(formula=Surv(tiempo, estado)~strata(material)+x80,
data = datos,link="ident", method="fit", x=TRUE, y=TRUE)
buckleyfin
####################################################################
################### Ajuste de Buckley-James para tUr ###############
####################################################################
buckley2<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data =
tUr,link="ident", method="fit", x=TRUE, y=TRUE )
print.bj(buckley2)
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Códigos de las funciones utilizadas
#### Para dibujar los residuos el modelo no debe tener ####
buckley3<-bj(formula=Surv(tiempo, estado)~log(volumen), data = tUr,
link="ident", method="fit", x=TRUE, y=TRUE )
rbj1<-residuals.bj(buckley2, type=c("censored.normalized"))
par(mfrow=c(2,3))
bjplot(buckley3)
####################################################################
################### Ajuste de Buckley-James para tFD ###############
####################################################################
buckley4<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data =
tFD,link="log", method="fit", x=TRUE, y=TRUE )
print.bj(buckley4)
#### Re-ajuste de Buckley-James para tFD ####
buckley6<-bj(formula=Surv(tiempo, estado)~x80, data = tFD,
link="log", method="fit", x=TRUE, y=TRUE )
print.bj(buckley6)
#### Para dibujar los residuos el modelo no debe tener ####
buckley5<-bj(formula=Surv(tiempo, estado)~log(volumen), data = tFD,
link="ident", method="fit", x=TRUE, y=TRUE )
rbj2<-residuals.bj(buckley4, type=c("censored.normalized"))
par(mfrow=c(2,3))
bjplot(buckley5)
####################################################################
######## Ajuste de minimos cuadrados para AFT con datos censurados #
Comparación de dos modelos de regresión en fiabilidad
113
114
Apéndice: Códigos de las funciones utilizadas
####################################################################
#### Ajuste de minimos cuadrados para los datos ####
mcuad4<-lss(formula=Surv(tiempo,estado)~strata(material)+
log(volumen)+x80,data=datos,trace=T, mcsize=500,
gehanonly=F, maxiter=50,tolerance=0.001, cov = T,
na.action = na.exclude)
mcuad4
#### Ajuste de minimos cuadrados para el material tUr ####
mcuad1<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tUr,
trace=T, mcsize=500, gehanonly=F, maxiter=50,
tolerance=0.001, cov = T, na.action = na.exclude)
mcuad1
#### Ajuste de minimos cuadrados para el material tFD ####
mcuad2<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tFD,
trace=T, mcsize=500, gehanonly=F, maxiter=50,
tolerance=0.001, cov = T, na.action = na.exclude)
mcuad2
#### Ajuste de minimos cuadrados solo con x80 para el material tFD #
mcuad3<-lss(formula=Surv(tiempo, estado)~x80, data=tFD,
trace=T, mcsize=500, gehanonly=F, maxiter=50,
tolerance=0.001, cov = T, na.action = na.exclude)
mcuad3
Comparación de dos modelos de regresión en fiabilidad
Apéndice C
Futuras líneas de investigación:
Regresión Isotónica
C.1.
Estimador de mínimos cuadrados ponderados de
Stute
En el marco del modelo de AFT, en el que
ln T = Xγ + ε
(C.1)
donde X = [X1 , . . . , Xp ], γ = (β1 , . . . , βp )T y γj = −βj para j = 1, . . . , p. En la mayoría de
las situaciones, la estimación de este modelo se lleva a cabo mediante la presunción de una
distribución para el tiempo de supervivencia o duración y maximizando la log-verosimilitud.
los modelos de regresión paramétricos comúnmente utilizados en el análisis de supervivencia (estos son, el modelo exponencial, el Weibull, el Lognormal, el Loglogístico o el
gamma) pueden considerarse en el modelo AFT. Además, los modelos de regresión exponencial y Weibull pueden ser considerados como casos particulares de los modelos de CPH
y AFT.
Desafortunadamente, debido al efecto de la censura, el tiempo de vida real T no siempre
es observable y en su lugar se observa
Yi = mı́n(Ti , Ci ),
½
1 si Ti ≤ Ci
δi =
0 si Ti > Ci
donde C1 , . . . , Cn son los valores de la variable de censura C, que se supone independiente
115
116
Apéndice: Regresión Isotónica
del tiempo de supervivencia o duración de la variable T , y δi es un indicador de que si Ti
ha sido observada o no.
En el marco de los modelos AFT, Stute (1993), presentó una nueva metodología que
requiere unas hipótesis muy generales y donde los estimadores se pueden obtener utilizando
los mínimos cuadrados ponderados, es decir, utilizando el modelo AFT (C.1), bajo la
suposición de que E[ε | X] = 0. Aquí, la relación entre las covariables y el tiempo de
supervivencia o duración, o alguna transformación monótona de esta, como, por ejemplo,
la logarítmica, que se considera lineal. Bajo este modelo, el estimador de γ minimiza
n
X
£
¤2
Win ln Y(i) − X[i] γ
(C.2)
i=1
donde el ln Y(i) es el valor i-ésimo ordenado de la variable de respuesta observada ln Y , X[i]
es la covariable asociada a ln Y(i) y Win son los pesos de Kaplan-Meier. Estos pesos pueden
ser calculados utilizando la expresión
δ[1]
W1n = Fbn (ln Y(1) ) − Fbn (ln Y(0) ) =
n
Win = Fbn (ln Y(i) ) − Fbn (ln Y(i−1) ) =
¸δ[j]
i−1 ·
Y
δ[i]
n−j
n − i + 1 j=1 n − j + 1
con i = 2, . . . , n.
(C.3)
donde Fbn es el estimador de Kaplan-Meier (1958) de la función de distribución F para la
variable T y δ[i] es el valor δ asociado a ln Y(i) . Estos pesos pueden ser también calculados
utilizando la redistribución del algoritmo apropiado presentado por Efron (1967). De este
modo, después de calcular los pesos W[in] , la minimización de (C.2) conduce al estimador
de γ dado por
¡
¢−1 T
γ
b = XT W X
X W ln Y
¡
¢T
donde ln Y = ln Y(1) , . . . , ln Y(n) , W es una matriz diagonal con los pesos de Kaplan-
Meier ver Pepe & Fleming (1989), en su diagonal principal y X se define como antes.
Stute (1993 y 1996a) realizó estudios de consistencia para este estimador y su distribución
normal asintótica. Como la varianza asintótica tiene una expresión muy difícil de calcular,
Stute (1996b), propuso el uso de un simple estimador de Jackknife. Una de las ventajas del
Comparación de dos modelos de regresión en fiabilidad
Apéndice: Regresión Isotónica
117
planteamiento de Stute es que el coste computacional es relativamente insensible al número
de covariables y considerablemente menor que el de la estimación de Buckley-James y la
estimación por rangos. Esto es especialmente valioso para los datos con un número alto de
covariables.
El análisis llevado a cabo sobre nuestros datos nos lleva a la conclusión de que la forma
funcional en que algunas de las covariables consideradas es introducida en los modelos no
es la adecuada. Concretamente las variables X1 = longitud y X2 = diametro, que se han
introducido en el modelo a través de la transformación f (X1 , X2 ) = ln(π/2 ∗ X1 ∗ X22 ).
Este es el diagnóstico que, sobre los modelos ajustados, hemos establecido a la vista de
determinados gráficos de residuos como son los residuos de martingalas que presentamos
en la Figura 2.13.
Ante esta situación sugerimos la formulación de un modelo más flexible como puede ser
el siguiente
ln T = φ (Z1 . . . , Zq ; X1 , . . . , Xp ) + ²
donde no asumimos ninguna forma funcional para la variable ² y modelizamos la función
de las covariables mediante
φ (Z1 . . . , Zq ; X1 , . . . , Xp ) = β0 + β1 Z1 + . . . + βq Zq + f1 (X1 ) + . . . + fp (Xp )
De manera que consideramos un modelo semi-paramétrico, en el que las variables de tipo
cualitativo (a los que denominamos factores, Zj ) se introcuden en el modelo a través de
una función lineal desconocida y las variables cuantitativas (covariables, Xk ) se introducen
mediante una función cuya forma funcional no especificamos.
Puesto que trabajamos con datos filtrados (censurados y/o truncados) el procedimiento
de estimación que proponemos también se basa en el criterio de mínimos cuadrados ponderados, tal como se sugiere en Stute (C.2), es decir, buscamos el mínimo de la siguiente
expresión
S(φ) =
n
X
Win (ln Yi − φ (Xi1 , . . . , Xip , Zi1 , . . . , Ziq ))2 ,
i=1
donde los pesos Win se definen análogamente al estimador de Stute, teniendo en cuenta,
en su caso, el truncamiento a la izquierda, es decir, Fbn es el estimador producto-límite de
la función de distribución propuesto por Tsai, Jewell & Wang (1987).
Comparación de dos modelos de regresión en fiabilidad
118
Apéndice: Regresión Isotónica
Por otra parte, dada la naturaleza del problema que estamos manejando, necesitamos
que las funciones fj sean monótonas (todas o algunas de ellas, además elegimos el sentido
de la monotonía en cada caso) de manera que imponemos en nuestro modelo de tiempo
de vida acelerada esta condición así que proponemos enfrentar el problema usando técnicas de regresión isotónica. En otras palabras, en el modelo anterior se supone que cada
componente no paramétrica (o algunas de ellas) es una función monótona de la covariable
correspondiente. Este trabajo supondría una extensión de trabajos recientes sobre estimación isotónica en modelos con estructura aditiva, ver por ejemplo Cheng (2009) y Mammen
& Kyusang (2007), al caso de datos sujetos a esquemas muestrales con censura a la derecha
y truncamiento por la izquierda.
Comparación de dos modelos de regresión en fiabilidad
Bibliografía
[1] Aalen, O.O. (1978). Nonparametric inference for a family of counting processes. Annals. of Statistics, 6, 701–726.
[2] Aalen, O.O. (1980). A Model for Non-parametric Regression Analysis of Counting
Processes. In Lecture Notes in Statistics 2 (eds. W. Klonecki et al), pp. 1–25. New
York: Springer-Verlag.
[3] Abrahamowicz M., Mackenzie T., Esdaile J.M. (1996). Time-dependent hazard ratio:
modelling and hypothesis testing with application in Lupus Nephritis. Journal of the
American Statistical Association 91, 1432–1439.
[4] Andersen, P.K., Borgan, O., Gill, R.D. & Keiding, N. (1993). Statistical models based
on counting processes. Springer-Verlag, New York.
[5] Andersen, P.K., Gill, R.D. (1982). Cox’s regression model for counting processes: a
large sample study. Annals of Statistics 10, 1100–1120.
[6] Andreou, S. (1987). Maintenance decisions for deteriorating water pipelines. J. Pipelines 7, 21–31.
[7] Andreou S.A., Marks, D.H. & Clark R.M. (1987a). A new methodology for modelling
break failure patterns in deteriorating water distribution systems: Theory. Adv. Water
Resour 10, 2–10.
[8] Andreou S.A., Marks, D.H. & Clark R.M. (1987b). A new methodology for modelling
break failure patterns in deteriorating water distribution systems: Applications. Adv.
Water Resour 10, 11–20.
119
120
Bibliografía
[9] Barlow, W.E. & Prentice, R.L. (1988). Residuals for relative risk regression. Biometrika 75, 65–74,
[10] Breslow, N.E. (1975). Analysis of survival data under the proportional hazards model.
International Statistics Review 43, 45–58,
[11] Breslow, N.E. (1974). Covariance analysis of censored survival data. Biometrics 30,
89–99. Lecture Notes in Math. 876, 1–72.
[12] Buckley, J. & James, I. (1979). Linear regression with censored data. Biometrika 66,
429–436.
[13] Carrión, A., Solano, H., Gámiz, M.L. & Debón, A.: Evaluation of the Reliability of a
Water Supply Network from Right-Censored and Left-Truncated Break Data, Water
Resources Management, (DOI 10.1007/s11269-010-9587-y).
[14] Cheng, W. (2009). Semiparametric isotonic regression. Journal of Statistical Planning
and Inference, 139, 1980–1991.
[15] Cho, H.J. & Hong, S.-M. (2008). Median Regression Tree for Analysis of Censored
Survival Data. IEEE Transactions on Systems. Man, and Cybernetics-Part A: Systems
and Humans, 38 (3), 715–726.
[16] Christodoulou, S. & Deligianni, A. (2010). A neurofuzzy decision framework for the
management of water distribution networks. Water Resour Manag 24, 139–156.
[17] Collett, D. (1994). Modelling Survival Data in Medical Research. London: Chapman
and Hall.
[18] Cox, D.R. (1972). Regression models and life-tables (with discussion). Journal of the
Royal Statistical Society, Series B, 34, 187–220.
[19] Cox, D.R. & Oakes, D. (1984). Analysis of Survival Data. London: Chapman and
Hall.
Comparación de dos modelos de regresión en fiabilidad
Bibliografía
121
[20] Cox, D.R. & Snell, E.J. (1968). A general definition of residuals (with discussion).
J.R. Statist. Soc. B 30, 248–275.
[21] Crowley, J. & Hu, M. (1977). Covariance analysis of heart transplant survival data.
Journal of the American Statistical Association, 72, 27–36.
[22] Debón, A., Carrión, A., Cabrera, E. & Solano, H. (2010). Comparing risk of failure
models in water supply networks using ROC curves. Reliab. Eng. Syst. Saf. 95, 43–48.
[23] Debt, A.K., Hasit, Y., Grablutz, J.F.M. & Herz R.K. (1998). Quantifying future rehabilitation and replacement needs of water mains. AWWA Research Foundation, Denver.
[24] Efron, B. (1967). The two sample problem with censored data. Proceedings of the
Fifth Berkeley Symposium on Mathematical Statistics and Probability, 4, 831–853.
[25] Eisenbeis, P. (1994). Modélisation statistique de la prévision des défaillances sur les
conduites d’eau potable. Ph.D. thesis, University Louis Pasteur of Strasbourg, collection Etudes Cemagref no. 17.
[26] Fleming, T. R., & Harrington, D. P. (1991). Counting Processes and Survival Analysis.
Wiley, New York.
[27] Fleming, T. & Harriton, D. (2002). Counting processes and survival analysis. New
York: Wiley.
[28] Gámiz, M.L., Kulasekera, K.B., Limnios, N., & Lindquist, B.H. (2011). Applied Nonparametric Statistic in Reliability. Springer Series in Reliability Engineering.
[29] Gehan, E.A. (1965). A generalized Wilcoxon test for comparing arbitrarily singlecensored samples. Biometrika 52, 203–223.
[30] Gill, R.D. (1984). Understanding Cox’s regression model: a martingale approach. J.
Amer. Statist. Assoc. 79, 441–447,
Comparación de dos modelos de regresión en fiabilidad
122
Bibliografía
[31] Gray, R.J. (1992). Flexible methods for analyzing survival data using splines, with
application to breast cancer prognosis. Journal of the American Statistical Association,
87, 942–951.
[32] Gustafson, J.M. & Clancy, D.V. (1999). Modelling the occurrence of breaks in cast
iron water mains using methods of survival analysis. In: Proceedings of the AWWA
annual conference, Chicago.
[33] Harrington, D.P. & Fleming T.R. (1982).A class of rank procedures for censored survival data. Biometrika 52, 203–223.
[34] Herz, R.K. (1996). Ageing processes and rehabilitation needs of drinking water distribution networks. J. Water Supply Res Technol Aquan 45, 221–231.
[35] Herz, R.K. (1998). Exploring rehabilitation needs and strategies for water distribution
networks. J. Water Supply Res Technol Aquan 45, 275–283.
[36] Hess, K.R. (1994). Assessing time-by-covariate interactions in proportional hazards
regression models using cubic spline functions. Statistics in Medicine, 13, 1045–1062.
[37] Hess, K.R. (1995). Graphical methods for assessing violations of the proportional hazards assumption in Cox regression. Statistics in Medicine 14, 1707–1723.
[38] Honoré, B., Khan, S. & Powell, J.L. (2002). Quantile regression under random censoring. Journal of Econometrics, 109, 67–105.
[39] Hosmer, D.W. & Lemeshow, S. (1999). Applied survival analysis: Regression modeling
of time to event data. New York: John Wiley and Sons, Inc.
[40] Huang, L. & Jin, Z. (2007). LSS: An S-Plus/R program for the accelerated failure
time model to right censored data based on least-squares principle. Comput. Methods
Programs Biomed. 86, 45–50.
[41] James I.R. & Smith P.J. (1984) Consistency Results for Linear Regression with Censored Data. Ann. Statist. Volume 12, 2, 590–600.
Comparación de dos modelos de regresión en fiabilidad
Bibliografía
123
[42] Jin, Z., Lin, D.Y., Wei, L.J. & Ying, Z. (2003). Rank-based inference for the accelerated
failure time model. Biometrika, 90, 341–353.
[43] Jin, Z., Lin D.Y. & Ying, Z. (2006). On least-squares regression with censored data.
Biometrika, 93, 147–161.
[44] Kaplan, E.L. & Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53, 457–481.
[45] Kay, R. (1977). Proportional hazard regression models and the analysis of censored
survival data. Appl. Statist. 26, 227–237.
[46] Kalbfleisch, J. D. & Prentice, R. L. (2002). The Statistical Analysis of Failure Time
Data. Wiley.
[47] Klein, M. & Moeschberger, W. (1997). Survival Analysis. Techniques for censored and
truncated data. Springer Verlag, New York.
[48] Kleinbaum, D.G. & Klein, M. (2005). Survival Analysis: A self-learning text. Springer.
[49] Koenker, R. (2005). Quantile Regression. Cambridge University Press.
[50] Kooperberg. C., Stone, C.J. & Truong, Y.K. (1995). Hazard regression. Journal of
the American Statistical Association, 90, 78–94.
[51] Koul, H., Susarla, V. & Van Ryzin, J. (1981). Regression analysis with randomly
right-censored data. Ann. Statist.9, 1276–1288.
[52] Lai, T.L. & Ying, Z. (1991). Large sample theory of a modified Buckley-James estimator for regression analysis with censored data. Ann. Statist. 10, 1370–1402.
[53] Lawless J.F. (1982). Statistical Models and Methods for Lifetime Data Analysis. Wiley,
New York.
[54] Lin, D.Y. & Geyer, C.J. (1992). Computational methods for semiparametric linear
regression with censored data. J.Comp. Graph. Statist. 1, 77–90.
Comparación de dos modelos de regresión en fiabilidad
124
Bibliografía
[55] Mailhot, A., Duchesne, S., Musso, E. & Villeneuve, J.P. (2000). Modélisation de
l’évolution de l’état structural des réseaux d’égout: application à une municipalité
du Québec. Can. J. Civ. Eng. 27, 65–72.
[56] Malandain, J. (1999). Modélisation de l’état de santé des réseaux de distribution d’eau
pour l’organisation de la maintenance. Etude du patrimoine de l’agglomération de
Lyon. Ph. D. Disertationt no. 99 ISAL 0040. Institut National des Sciences Appliquées
de Lyon, Laboratoire URGC/Hydrologie Urbaine, 206 p.
[57] Malandain, J., Le Gauffre, P. & Miramond, M. (1999). Modeling the aging of water
infraestructure. In: Proceedings of the 13th EJSW, Dresden University of Technology.
[58] Mammen, E. y Kyusang, Y. (2007). Additive Isotone Regression. IMS Lecture Notes,
Vol. 55, 179–195
[59] Marks, D.H., et al. (1985). Predicting urban water distribution maintenance strategies:
a case study of New Haven Connecticut. US Environmental Protection Agency (Cooperative Agreement R8 1 0558-01-0).
[60] Martinussen, T. & Scheike, T.H. (2006). Dynamic Regression Models for Survival
Data. Springer.
[61] Meeker, W.Q. & Escobar, L.A. (1998). Statistical Methods for Reliability Data. Wiley,
New York.
[62] McCullagh, P. & Nelder, J.A. (1983). Generalized Linear Models. Chapman and Hall,
London.
[63] Miller, R.G. (1976). Least squares regression with censored data. Biometrika 63, 449–
464.
[64] Miller, R.G. & Halpern, J. (1982). Regression with censored data. Biometrika 69,
521–531.
[65] Moreau, T., O’Quigley, J., Mesbah, M. (1985). A global goodness-of-fit statistics for
the proportional hazards model. Applied Statistics, 3, 212–218.
Comparación de dos modelos de regresión en fiabilidad
Bibliografía
125
[66] Nagelgerke, N.J.D., Oosting J. & Hart A.A.M. (1984). A simple test for goodness of
fit of Cox’s proportional hazards model. Biometrics, 40, 483–486.
[67] Nelson, W. (1990). Accelerated Testing: Statistical Models, Test Plans, and Data
Analyses. Wiley, New York.
[68] Park, S., Kim, B.J. & Im G.C. (2008). Modeling of water main failure rates using the
log-linear ROCOF and the power law process. Water Resour Manag 22, 1311–1324.
[69] Pepe M.S. & Fleming TR. (1989). Weighted Kaplan-Meier Statistics: A Class of Distance Tests for Censored Survival Data. Biometrika, 45, 497–507.
[70] Prentice, R.L. (1978). Linear rank tests with right censored data. Biometrika 65, 167–
179.
[71] Ritov, Y. (1990). Estimation in a linear regression model with censored data. Ann.
Statist. 18, 303–328.
[72] Sagrov, S. Köning, A. et al. (2001) Evaluation of UtilNets-a decision support systems
for water mains rehabilitation. In: Proceedings of the IWA international conference
in Brno, Czech Republic.
[73] Schoenfeld, D. (1982). Partial residuals for the proportional hazards regression model.
Biometrika, 69, 239–241.
[74] Sigurdsson, H., Baldetorp, B., Borg, A., Dalberg, M., Fernö, M., Killander, D., &
Olsson, H. (1990). Indicators of prognosis in node-negative breast cancer. New England
Journal of Medicine 322, 1045–1053.
[75] Stare, J., Harrell, F.E. & Heinzl, H. (2001). BJ: an S-plus program ti fit linear regression models to censored data using the Buckley-James method. Comput. Methods
Programs Biomed. 64, 45–52.
[76] Stute, W. (1999). Nonlinear censored regression. Statistica Sinica, 9, 1089–1102.
Comparación de dos modelos de regresión en fiabilidad
126
Bibliografía
[77] Stute, W. (1993). Consistent estimation under random censorship when covariables
are present. Journal of Multivariate Analysis, 45, 89–103.
[78] Stute, W. (1996a). Distributional convergence under random censorship when covariables are present. Scandinavian Journal of Statistics, 23, 461–471.
[79] Stute, W. (1996b). The jackknife estimate of variance of a Kaplan-Meier integral.
Annals of Statistics, 24, 2679–2704.
[80] Therneau, T.M. & Gramsch, P.M. (2000). Modeling survival data. Extending the Cox
model. Springer.
[81] Therneau, T., Gramsch, P. & Fleming, T. (1990). Martingale based residual for survival models. Biometrika, 77, 147–160.
[82] Tsai, W.Y., Jewel, N.P. & Wang, M.C. (1987). A note on the product-limit estimator
under right censoring and left truncation. Biometrika, 74, 883–886.
[83] Tsiatis, A.A. (1990). Estimating regression parameters using linear rank tests for censored data. Ann. Statist. 18, 354–372.
[84] Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. New York:
Springer (4th ed).
[85] Wang, J.L. (2003). Smoothing hazard rates. Encyclopedia of Biostatistics.
[86] Wang, H.J. & Wang, L. (2009). Locally weighted censored quantile regression. Journal
of the American Statistical Association, to appear.
[87] Wei, J. (1984). Testing goodness of fit for proportional hazards model with censored
observations., Journal of the American Statistical Association, 79, 649–652.
[88] Wei, L.J. (1992). The accelerated failure time model: a useful alternative to the Cox
regression model in survival analysis. Statistics in Medicine, 11, 1871–1879.
[89] Wei, L.J., Ying, Z. and Lin, D.Y. (1990). Linear regression analysis of censored survival data based on rank tests., Biometrika, 77, 845–851.
Comparación de dos modelos de regresión en fiabilidad
Bibliografía
127
[90] Yang, S. (1999). Censored median regression using weighted empirical survival and
hazard functions. Journal of the American Statistical Association, 94 (445), 137–145.
[91] Ying, Z.L. (1993). A large sample study of rank estimation for censored regression
data. Annals of Statistics, 21, 76–99.
[92] Ying, Z., Jung, S.H. & Wei, L.J. (1995). Survival analysis with median regression
models. Journal of the American Statistical Association, 90 (429), 178–184.
[93] Zhao, Y. & Chen, F. (2008). Empirical likelihood inference for censored median regression model via nonparametric kernel estimation. Journal of Multivariate Analysis,
99, 215–231.
Comparación de dos modelos de regresión en fiabilidad
Descargar