UNIVERSIDAD DE GRANADA Departamento de Estadística e Investigación Operativa FACULTAD DE CIENCIAS MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA COMPARACIÓN DE DOS MODELOS DE REGRESIÓN EN FIABILIDAD Antonio Jesús López Montoya 2011 MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA: COMPARACIÓN DE DOS MODELOS DE REGRESIÓN EN FIABILIDAD Trabajo de Investigación realizado por Antonio J. López Montoya Vº Bº Dra. Dª Mª Luz Gámiz Pérez Dra. Dª Mª Dolores Martínez Miranda Departamento de Estadística e Investigación Operativa Facultad de Ciencias Universidad de Granada Octubre, 2011 ii Índice general Comparación de dos modelos de regresión en fiabilidad Índice general Introducción general 1 1. Introducción al análisis de regresión mediante la función de riesgo 7 1.1. Una revisión de los modelos de regresión para datos de vida . . . . . . . . 2. Modelo de riesgos proporcionales de Cox (CPH) 7 11 2.1. Modelo de riesgos proporcionales de Cox (CPH) . . . . . . . . . . . . . . . 11 2.2. Modelo de riesgos proporcionales estratificado . . . . . . . . . . . . . . . . 15 2.3. Estudio de residuos en los modelos de regresión para datos de vida . . . . . 16 2.3.1. Residuos de Cox-Snell . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.2. Residuos de martingala . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.3. Residuos score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.4. Residuos deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.5. Residuos de Schoenfeld . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4. Ajuste del modelo de CPH para nuestros datos . . . . . . . . . . . . . . . . 23 2.4.1. Interpretación de los coeficientes del modelo . . . . . . . . . . . . . 25 2.4.2. Verificación de los supuestos del modelo de CPH . . . . . . . . . . . 28 2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3. Modelo de tiempo de vida acelerada (AFT) 3.1. Modelo de tiempo de vida acelerada (AFT) 41 . . . . . . . . . . . . . . . . . 41 3.2. Estimación del modelo AFT paramétrico . . . . . . . . . . . . . . . . . . . 44 3.3. Validación del modelo AFT paramétrico . . . . . . . . . . . . . . . . . . . 45 3.3.1. Mediante gráficos quantile-quantile plot (Q-Q plot) . . . . . . . . . 46 iii iv Índice general 3.3.2. Mediante el criterio de información de Akaike (AIC) . . . . . . . . . 47 3.3.3. Mediante el gráfico de los Residuos de Cox-Snell . . . . . . . . . . . 47 3.4. Ajuste del modelo AFT paramétrico para nuestros datos . . . . . . . . . . 49 3.4.1. Validación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.4.2. Elección e interpretación del modelo más apropiado . . . . . . . . . 66 3.5. Modelo semi-paramétrico AFT para datos censurados . . . . . . . . . . . . 67 3.5.1. Estimador de Buckley-James . . . . . . . . . . . . . . . . . . . . . . 67 3.5.2. Estimador de mínimos cuadrados para datos censurados . . . . . . 71 3.6. Ajuste del modelo semi-paramétrico AFT para nuestros datos . . . . . . . 75 3.6.1. Estimador de Buckley-James . . . . . . . . . . . . . . . . . . . . . . 75 3.6.2. Estimador de mínimos cuadrados para datos censurados . . . . . . 80 3.7. Comparación entre los modelos de CPH y AFT en análisis de supervivencia 86 3.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Apéndice 90 A. Detalle del software utilizado 91 B. Códigos de las funciones utilizadas 95 C. Futuras líneas de investigación: Regresión Isotónica 115 C.1. Estimador de mínimos cuadrados ponderados de Stute . . . . . . . . . . . 115 Bibliografía 119 Comparación de dos modelos de regresión en fiabilidad Introducción general Introducción del trabajo Los sistemas de abastecimiento de agua presentan el problema del envejecimiento de su infraestructura y del aumento en el costo de mantenimiento de los mismos. El enfoque clásico reactivo utilizado por la mayoría de la empresas no es (obviamente) la mejor manera de gestionar estos servicios públicos esenciales, desde el punto de vista de la calidad y de la disponibilidad. Los enfoques proactivos requieren información y modelos para evaluar los riesgos, predecir las mejores acciones a tomar y las mejoras de previsiones de abastecimiento de agua de la red. La necesidad de los modelos proactivos es incluso mayor en los países desarrollados, con fuertes restricciones económicas, que en los países avanzados. Se han realizado numerosos estudios que han requerido un gran esfuerzo con el fin de modelar, analizar y pronosticar la evolución de estas infraestructuras. Numerosos estudios como los de Andreou (1987), Andreou et al. (1987a,b), Eisenbeis (1994), Gustafson & Clancy (1999), entre otros han demostrado que el patrón de fracaso depende en gran parte del historial de fallos de la tubería. De hecho, el número de fallos anteriores se convierte con frecuencia en el primer factor de influencia en el pronóstico de supervivencia de las tuberías. En países como Alemania o Noruega se han realizado numerosos e importantes avances con las investigaciones de Herz (1996,1998) y Sagrov et al. (2001), respectivamente. En Alemania el método KANEW fue propuesto por Herz (1996,1998), demostrando una innovadora aproximación a través del uso de modelos de supervivencia de cohortes y de un análisis de la infraestructura del stock existente. Debt et al. (1998), aplicaron el modelo KANEW para un suministro de agua británico y cuatro alemanes. 1 2 Introducción general En Noruega, el método Aquarel (fiabilidad de redes de abastecimiento de agua) ha sido propuesto por el grupo SINTEF, Trondheim. Sagrov et al (2001), presentaron el método, basado en un análisis estadístico de frecuencias de fallo utilizando un proceso no homogéneo de Poisson. El modelo AssetMap (INSA, Lyon, Francia), presentado por Malandain (1999) y Malandain et al. (1999), es uno de los modelos más importantes. Estos autores han analizado la infraestructura de un suministro de agua en la ciudad de Lyon, basando su trabajo en un análisis estadístico de las tasas de fallo utilizando modelos de regresión de Poisson. Mailhot et al. (2000), presentaron una metodología formal para calcular estimaciones paramétricas para varios modelos estadísticos, especialmente para bases de datos pequeñas de tiempos de fallo. Esta metodología fue aplicada para Chicoutimi (Canada). Utilizando las distribuciones exponencial y Weibull, se utilizaron cuatro modelos. De igual forma, los datos de la instalación fueron significativos como factores influyentes. Igualmente, Christodoulou & Deligianni (2010), probaron que entre los componentes más importantes de las estrategias de gestión sostenible de las redes de distribución de agua es la capacidad de integrar el análisis de riesgos y gestión de activos de los sistemas de apoyo de decisiones. Para lograr esto, Christodoulou & Deligianni (2010), utilizaron un neuroborroso marco de decisión. Otra técnica encontrada en la literatura es en los trabajos de Park et al. (2008), que utilizaron log-linear ROCOF y el proceso de ley de potencia con el modelo de la razón de fallo y estimar el tiempo de reemplazo económicamente óptimo de las tuberías individuales. Recientemente, Debón et al. (2010), compararon el riesgo asociado para diferentes modelos estadísticos de supervivencia utilizando las curvas ROC, utilizando una base de datos similar a la de este trabajo. El contenido de este trabajo viene estructurado de la siguiente forma: A continuación hemos realizado una breve introducción y descripción de los datos disponibles para la realización de nuestro trabajo. En el Capítulo 1, vamos a realizar una rápida visión del análisis de regresión mediante la función de riesgo. En el Capítulo 2, vamos a definir, justificar y ajustar el modelo de riesgos proporcionales de Cox (CPH) para nuestra base de datos. En el Capítulo 3, definiremos y realizaremos el ajuste con el modelo de tiempo de vida aceleraComparación de dos modelos de regresión en fiabilidad Introducción general 3 da (AFT) paramétrico, para tres de las distribuciones más importantes en el campo de la fiabilidad y la supervivencia, seguidamente veremos un par de métodos de estimación semiparamétricos para el (AFT) como son el método de Buckley-James y el método de mínimos cuadrados para datos censurados. Finalmente en los Apéndices podremos ver algunos de los detalles más relevantes de este trabajo, como son los packages específicos utilizados en este trabajo, también podemos ver los algoritmos de nuestro trabajo en lenguaje R, así como las futuras líneas de investigación derivadas de este trabajo. Descripción de los datos En el desarrollo de nuestro trabajo de investigación, hemos tenido acceso a unos datos reales de una empresa de suministros de agua de una ciudad española de tamaño medio. La empresa de suministros de agua nos ha proporcionado acceso a una base de datos que contiene información sobre los tramos de tubería que conforman la red. La base de datos contiene 655 entradas correspondientes a cada una de las filas. Entre otras covariables, las entradas contienen su identificación del tramo, y las covariables como son el tiempo de vida de la tubería según el diámetro de la tubería, la longitud del tramo recto de tubería, el material de la tubería que son dos, uralita y fundición dúctil, la presión, el tráfico rodado y una covariable que depende exclusivamente del momento de instalación de la tubería, a la cual llamaremos x80, que será una covariable de tipo dummy que nos marcará el valor de 1 si la tubería fue instalada después de 1980 y 0 en otro caso. Mediante la longitud y el diámetro (dimensiones físicas) creamos la nueva covariable llamada volumen, que es el volumen del tramo de la tubería que debemos estudiar según nos exigen los recientes avances en el campo de la ingeniería. La mayoría de las covariables anteriores se nos presentan en unidades del sistema internacional y las que no lo estén serán transformadas al mismo. Tenemos una tasa de censura alta, casi del 51 %. Por otra parte, no se ha tenido consideración del hecho de que una sección de tubería pueda fallar más de una vez porque la estructura de la base de datos no está preparada para considerar esto. Algunos errores menores han sido corregidos antes de utilizar la base de datos, con frecuencia esto significa la pérdida de las correspondientes entradas de fallo. Uno de los mayores problemas que tiene la base Comparación de dos modelos de regresión en fiabilidad 4 Introducción general de datos es la falta de fiabilidad de los datos en las secciones más antiguas. Debido a la falta de fiabilidad de los datos más antiguos, sólo se han considerado las tuberías que han sido instaladas después de 1940. De acuerdo con la base de datos, se han empleado dos tipos de material diferentes como se dijo antes, la fundición dúctil y la uralita. La base de datos también recoge las condiciones del tráfico del área de instalación de las tuberías, considerando tres tipos de tráfico: de acera, tránsito normal y tránsito pesado. Necesitamos una condición más en la censura para poder aplicar los modelos, especialmente que la censura sea independiente y no informativa, que asuma que la verosimilitud para observaciones censuradas no dependan de β cono se vio en los estudios de Fleming et al. (2002). Por otra parte, dado que sólo tenemos el año en el cual se produce el fallo, el tiempo viene calculado en número de años, y por lo tanto, los fallos iguales a 0 representan un problema cuando al operarlos tengamos que aplicar el logaritmo, por lo que resolveremos ese problema sustituyendo por 1/365, en el supuesto de que las tuberías hayan durado por lo menos un día. Para que el lector pueda hacerse una idea de nuestra base de datos, seguidamente se muestra, una visión reducida de la misma > datos<-as.data.frame(ejm1.dat) > datos tiempo estado longitud diametro material presion trafico volumen x80 1 39 0 110.17946 60 Ur 39.56 1 0.0311525084 0 2 34 1 39.66266 50 Ur 39.92 1 0.0077877451 0 3 3 1 40.49931 300 FD 23.91 2 0.2862727532 1 4 28 1 150.00080 60 Ur 34.23 1 0.0424117270 0 5 34 0 406.48347 50 FD 29.99 2 0.0798128427 0 6 29 1 126.58286 60 Ur 55.70 2 0.0357904605 0 7 14 1 175.34133 100 FD 69.88 2 0.1377127585 1 8 38 1 491.01819 50 Ur 21.32 1 0.0964111962 0 9 16 0 541.82355 100 FD 28.55 2 0.4255472211 1 10 29 1 80 Ur 19.84 1 0.0487064583 0 96.89842 Comparación de dos modelos de regresión en fiabilidad Introducción general 11 19 12 2 1 13 5 1 400.15783 100 FD 89.18 2 0.3142832248 1 31.00838 50 Ur 72.33 1 0.0060884812 1 1 1 122.11244 100 FD 55.95 2 0.0959068861 1 14 4 0 161.92403 100 Ur 52.10 2 0.1271748358 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654 28 1 383.45194 60 Ur 32.56 1 0.1084184818 0 655 20 0 388.49797 150 FD 38.64 2 0.6865325823 1 Comparación de dos modelos de regresión en fiabilidad 6 Introducción general Comparación de dos modelos de regresión en fiabilidad Capítulo 1 Introducción al análisis de regresión mediante la función de riesgo 1.1. Una revisión de los modelos de regresión para datos de vida La descripción física de los procesos de deterioro de un sistema puede requerir la consideración de varios factores (endógenos y exógenos) que son comúnmente referidos como variables o covariables explicativas. La inclusión de este tipo de información en el modelo de deterioro puede ser tratado de varias formas por lo que, proponemos estudiar los diferentes modelos de regresión para los datos de tiempos de vida. Hay una amplia literatura que trata los modelos semi-paramétricos que se refieren a la relación entre covariables y tiempos de vida (ver, por ejemplo, los libros de Andersen et al. (1993), Klein & Moeschberger (1997), Kleinbaum & Klein (2005), Martinussen & Scheike (2006) o Therneau & Grambsch (2000)), y el interesante y último libro de Gámiz et al., (2011). En este capítulo, se ha adoptado una estrategia común: la dependencia de la información auxiliar se gestiona a través de la función de riesgo como en Wang (2009). En otras palabras, el riesgo instantáneo de fallo de un dispositivo en particular será formulado en términos de las características que describen al sujeto. En consecuencia, definimos la función de riesgo condicionada mediante la siguiente definición. Definición 1: (Función de riesgo condicionada) Sea T una variable aleatoria que indica el tiempo de vida de un dispositivo o sistema. Sea X = (X1 , X2 , . . . , Xp )T un vector de p 7 8 Introducción al análisis de regresión mediante la función de riesgo covariables con función de densidad φX , la función de riesgo condicionada de T dado X viene definida de la forma: P [t < T ≤ t + ∆ | T > t, X = x] . ∆→0 ∆ λ(t; x) = lı́m (1.1) Dada una t > 0 y dada x, la función de riesgo puede ser escrita como la razón de la función de densidad condicionada f (t; x) entre la función de supervivencia condicionada S(t; x) = 1 − F (t; x), esto es λ(t; x) = f (t; x) , para S(t; x) > 0. S(t; x) Todos los métodos incluidos en este trabajo tienen en cuenta la censura, que implica una drástica limitación en los métodos tradicionales aplicados en problemas estadísticos estándar. La presencia de censura a la derecha es probablemente la característica más común en los conjuntos de datos en fiabilidad y supervivencia, e implica la terminación de la observación del sistema de vida debido a otras causas como el fallo natural al que el sistema esta sujeto. Vamos a formalizar las condiciones bajo las cuales se establecen los métodos presentados. Hipótesis 1: (Modelo de censura aleatoria a la derecha (RCM)) Consideramos que tenemos una muestra formada por n observaciones del tipo {(Y1 , δ1 , X1 ), (Y2 , δ2 , X2 ), . . . , (Yn , δn , Xn )}, con Yi = mı́n{Ti , Ci } para cada i = 1, 2, . . . , n, donde T1 , T2 , . . . , Tn son realizaciones independientes de una variable aleatoria tiempo de vida T ; C1 , C2 , . . . , Cn son realizaciones independientes de una variable aleatoria de censura C; δ1 , δ2 , . . . , δn son observaciones de la variable aleatoria δ = I[Y = T ] donde Y = mı́n{T, C}. Esta variable se denomina normalmente como indicador de censura. X1 , X2 , . . . , Xn , son observaciones de un vector aleatorio de covariables X; Para un valor del vector de covariables específico x, tenemos que T y C son condicionalmente independientes dado X = x. Comparación de dos modelos de regresión en fiabilidad Introducción al análisis de regresión mediante la función de riesgo 9 La censura a la derecha sucede después de que un sujeto haya entrado en el estudio, y se encuentre a la derecha del último tiempo de supervivencia conocido. De este modo, el tiempo de supervivencia con censura a la derecha es menor que el real, ya que desconocemos el tiempo de supervivencia. Un ejemplo de censura a la derecha es habitual en estudios médicos en los sujetos que están todavía vivos al final del estudio o se perdieron durante el seguimiento sólo tienen tiempo de seguimiento que son denominados tiempos de censura. Sólo los sujetos que han muerto tienen tiempo de supervivencia real. La censura aleatoria a la derecha es un caso particular de lo que se llama hipótesis de censura independiente, que quiere decir que, condicionada a las covariables, los elementos censurados son representativos de los que están aún en situación de riesgo en ese instante. En otras palabras, las tasas de fracaso de los individuos en riesgo son las mismas que si no hubiera sido censurado, y por lo tanto, condicionadas a las covariables, los elementos no están siendo censurados por un mayor o menor riesgo de fallo. Para discutir este asunto con más detalle, ver Kalbfleisch & Prentice (2002), pgs.12-13. Bajo el supuesto de RCM, si denotamos por F (·; x), G(·; x) y H(·; x) la función de distribución condicionada de T, C y Y , respectivamente, dado X = x, tenemos que H(·; x) = 1 − (1 − F (·; x))(1 − G(·; x)). Suponemos también que la censura no informativa está implícita en nuestro modelo. Con esto, queremos decir que la función de distribución del tiempo de censura no contiene ninguna información sobre la función de tiempo de vida desconocida. Bajo una aproximación paramétrica, esto quiere decir que la distribución de censura no implica ningún parámetro desconocido del modelo. En consecuencia, la parte de la función de verosimilitud que implica probabilidades calculadas en términos de la función de distribución G(·; x) es ignorada en el procedimiento de estimación. En un esquema muestral con truncamiento, sólo aquellos individuos que verifican cierta condición definida de antemano son observados por el investigador. En estudios de supervivencia, el tipo más común de truncamiento, es el truncamiento por la izquierda que ocurre cuando los sujetos comienzan a ser observados a edades aleatorias, esto es, el origen del tiempo de vida precede al origen del estudio. En tal caso, aquellos sujetos en los que el fallo tiene lugar antes del inicio del estudio serán ignorados Comparación de dos modelos de regresión en fiabilidad 10 Introducción al análisis de regresión mediante la función de riesgo por el investigador. El tipo de truncamiento a la izquierda más habitual ocurre cuando los sujetos entran a estudio a edades aleatorias (no necesariamente cuando se inicia el proceso para la ocurrencia del suceso de interés) y son seguidos a partir de este tiempo de entrada con retraso hasta que el suceso ocurre o hasta que el sujeto es censurado a la derecha. En este caso, todos los sujetos que experimentan el suceso de interés antes de la entrada en estudio no serán conocidos por el investigador, para el truncamiento a la izquierda, estos individuos no son considerados en el estudio. Posiblemente, el modelo más estudiado de todos los modelos semi-paramétricos para la función de riesgo condicionada es el Modelo de Riesgos Proporcionales de Cox (CPH), ver Cox (1972), que supone proporcionalidad en las funciones de riesgo de dos elementos definidos mediante diferentes grupos de covariables. Esta hipótesis puede, en muchos casos, ser muy restrictiva. Por lo tanto, existen varias alternativas que recientemente se han propuesto para modelizar datos de supervivencia donde la hipótesis de riesgos proporcionales no se mantiene. Los más populares en el campo de la fiabilidad son el Modelo Aditivo de Aalen, ver Aalen (1980) y el Modelo de Tiempo de Vida Acelerada (AFT), ver Lawless (1982). La situación menos informativa surge cuando no se considera la estructura en la función (1.1), lo que nos lleva a modelos de riesgo no paramétricos. Dado un vector de covariables, la estimación no paramétrica de la tasa de riesgo puede ser abordada de varias maneras. La aproximación más usual es suavizando (dado un vector de covariables) el estimador de Nelson-Aalen (1978) en dos direcciones, primero en la variable argumento de tiempo y después en las covariables. Otras aproximaciones han desarrollado un estimador de la tasa de riesgo condicionada como la razón de los estimadores no paramétricos de una densidad condicionada y una función de supervivencia. Comparación de dos modelos de regresión en fiabilidad Capítulo 2 Modelo de riesgos proporcionales de Cox (CPH) 2.1. Modelo de riesgos proporcionales de Cox (CPH) En la investigación biomédica, el conocimiento de los factores que determinan el pronóstico de los pacientes es de gran importancia clínica. En la mayoría de los casos, la variable respuesta representa, en cierto sentido, un tiempo de supervivencia (por ejemplo, el tiempo que transcurre antes de la ocurrencia de un evento particular de interés), y por lo tanto se formula un modelo de regresión con el fin de determinar la relación entre el tiempo y un conjunto de covariables explicativas. El modelo de CPH, ver Cox (1972), es el modelo utilizado por la mayoría de las aplicaciones en el campo de la Bioestadística y generalmente, en los estudios de fiabilidad y supervivencia. En nuestro contexto de fiabilidad, el tiempo de supervivencia se interpreta como el tiempo transcurrido antes del fallo en un determinado dispositivo (sistema o componente), y el objetivo es evaluar este tiempo en términos de las características particulares del dispositivo. Sea T la variable aleatoria tiempo de fallo y X = (X1 , . . . , Xp )T un vector p-dimensional de covariables o de variables explicativas que describe un sistema en particular o un sistema en términos de factores exógenos (como la temperatura y la presión o, en general, las condiciones que describen el entorno externo en el que el dispositivo funciona) y/o características endógenas (tales como el tamaño, en el sentido de dimensión física, tipo de material del cual está hecho el dispositivo, etc.). 11 12 Modelo de riesgos proporcionales de Cox El modelo básico supone que la función tasa de riesgo del tiempo de fallo de un sistema con vector de covariables dadas por X viene expresada por la relación λ(t; X) = λ0 (t)Ψ(β T X) (2.1) donde λ0 (t) es una función de riesgo no especificado; β T = (β1 , . . . , βp ) es un vector de parámetros p-dimensional; y Ψ(·) es una función conocida. El modelo no toma ninguna forma paramétrica en particular para λ0 (t), conocida como la función de riesgo base. Esta función representa el riesgo de un sistema con vector de covariables igual a cero (a condición de que Ψ(0) = 1), conocido como sistema base. En este modelo, no se hace ningún supuesto sobre la distribución del tiempo de fallo de la población base. Por lo que, este es un modelo semi-paramétrico en el sentido de que se asume una forma paramétrica para el efecto de las covariables. De hecho, un modelo común para Ψ(β T X) es Ψ(β T X) = exp(β T X) = exp à p X ! βj Xj . (2.2) j=1 Básicamente, el modelo asume que existe una relación proporcional entre las funciones de riesgo de tiempos de fallo correspondientes a diferentes elementos. En otras palabras, si consideramos dos dispositivos definidos respectivamente por los vectores de covariables X1 y X2 . La relación de las funciones de riesgo correspondientes vienen dadas por Klein & Moeschberger (1997), de la forma 1 λ(t; X ) = λ(t; X2 ) λ0 (t) exp à p X ! βj Xj1 j=1 λ0 (t) exp à p X " ! = exp βj Xj2 p X ¡ ¢ 2 βj Xj1 − Xj # (2.3) j=1 j=1 que es constante en el tiempo. La razón de riesgos en (2.3) se refiere, en contextos de Bioestadística, como el riesgo relativo de un individuo con factor de riesgo X1 del acontecimiento de interés (muerte o recaída, por ejemplo) en comparación con un individuo con factor de riesgo X2 . También vamos a adoptar, en nuestro contexto, la denominación de riesgo relativo para la cantidad dada en (2.3). Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 13 El interés principal es hacer inferencia sobre el vector de parámetros β, que representa el logaritmo del riesgo relativo,Z y la función de riesgo base λ0 (t) o la función de riesgo base t acumulativa, esto es, Λ0 (t) = λ0 (u) du. 0 Asumimos que tenemos n observaciones independientes de la forma (Yi , δi , Xi ), i = 1, 2, . . . , n, bajo el supuesto de RCM. Esto es, Yi son tiempos de vida censurados a la derecha, que suponemos que están ordenados; δi es el indicador de censura, que nos dice si una observación está censurada o no (δi = 1 si ha ocurrido el fallo en Yi y δi = 0 si el tiempo de vida es censurado a la derecha); y Xi es un vector de covariables explicativas. La estimación del parámetro β se ha basado tradicionalmente en la formulación de una verosimilitud condicionada o parcial, donde el riesgo base se entiende como un parámetro de ruido, que en general, no es estimado, ya que el objetivo es evaluar el efecto que cada factor tiene sobre el riesgo de fallo. Vamos a definir el proceso de riesgo como D(t) = I[Y ≥ t], como se indica en Martinussen & Scheike (2006). La verosimilitud parcial se obtiene como el producto, extendido a todos los sujetos del ejemplo, de la probabilidad condicionada que un sujeto con covariables Xi falle en el tiempo Yi , dado que uno de los sujetos en riesgo en Yi falle en este tiempo, esto es P [de que un sujeto i falle en Yi | a que haya un fallo en Yi ] = P [de que un sujeto i falle en Yi | a que esté en situación de riesgo en Yi ] = = P [de que ocurra un fallo en Yi | a que esté en situación de riesgo en Yi ] £ ¤ £ ¤ (2.4) λ0 (Yi ) exp β T Xi exp β T Xi λ(Yi |Xi ) = n = n = n . X X X £ T ¤ £ T ¤ Dj (Yi )λ(Yi |Xj ) Dj (Yi )λ0 (Yi ) exp β Xj Dj (Yi ) exp β Xj j=1 j=1 j=1 donde Dj (t) = I[Yj ≥ t]. La verosimilitud parcial viene entonces, dada de la forma δi n Y P L(β) = n X i=1 exp[β T Xi ] £ T ¤ Dj (Yi ) exp β Xj (2.5) j=1 La flexibilidad del modelo (2.1) se encuentra en el término no paramétrico, λ0 (t), la función de riesgo base. La estimación procedente de este término se basa en una verosimilitud resComparación de dos modelos de regresión en fiabilidad 14 Modelo de riesgos proporcionales de Cox tringida (profile likelihood ), que se construye mediante la fijación de un valor del parámetro de regresión β en la expresión anterior (2.5), se maximiza el logaritmo natural de dicha expresión con respecto a λ0 , para obtener una estimación de λ0 . Por lo tanto, obtenemos una verosimilitud restringida máximo verosímil de λ0 (Yi ) como b0i = λ δi n X £ T Dj (Yi ) exp β Xj ¤ . (2.6) j=1 Este estimador de la tasa de riesgo base nos lleva al siguiente estimador de la tasa de riesgo acumulativo correspondiente conocido como el estimador de Breslow (1975), que viene dado por la expresión b 0 (t) = Λ X i:Yi ≤t δi n X £ T Dj (Yi ) exp β Xj ¤ . (2.7) j=1 En la literatura reciente, existe un extenso número de libros especializados que incluyen un extensivo y comprensivo tratamiento del modelo de riesgos proporcionales de Cox (1972). Recomendamos particularmente el libro de Klein & Moeschberger (1997), donde todos los métodos representados están debidamente representados por medio de numerosos ejemplos prácticos en el contexto de las aplicaciones biomédicas. Aunque tradicionalmente es en el campo de la Bioestadística donde es aplicado más comúnmente el modelo de riesgos proporcionales, este método ha logrado progresivamente más y más prestigio en el campo de la ingeniería y la fiabilidad, y como consecuencia de esto, el número de artículos que ilustran el uso de este tipo de modelos bajo diferentes características ha ido en incremento en la literatura reciente sobre los modelos de fiabilidad. Como ejemplo, podemos citar a Carrion et al. (2011), que presenta una sencilla aplicación del modelo de riesgos proporcionales para tratar el estudio de la rotura de tuberías en un sistema de red de suministro de agua. La relevancia de este modelo depende fuertemente de que, paralelamente al desarrollo de los importantes resultados teóricos en estos últimos años, hay algoritmos implementados en programas estadísticos gratuitos. La mayoría de los paquetes estadísticos cuentan con Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 15 funciones para facilitar el ajuste del modelo de CPH en aplicaciones reales. El entorno estadístico R, es actualmente el software líder en este sentido y en particular el survival package que proporciona varias funciones y bases de datos para el análisis de la supervivencia. 2.2. Modelo de riesgos proporcionales estratificado Como vimos en la sección anterior, hay casos en que puede violarse la presunción de riesgos proporcionales para alguna covariable. En tal caso, puede ser posible estratificar esa covariable y utilizar el modelo de riesgos proporcionales dentro de cada estrato y considerando las otras covariables. En este caso, los sujetos en el estrato j-ésimo tienen una función de riesgo base arbitraria λ0j (t) y el efecto de otras covariables explicativas sobre la función de riesgo puede ser representado por un modelo de riesgos proporcionales en ese estrato de la forma λj (t; X) = λ0j (t) exp(β T X), j = 1, . . . , p. (2.8) En este modelo, los coeficientes de regresión se supone que son los mismos en todos los estratos, aunque las funciones de riesgo base pueden ser diferentes y no relacionadas en absoluto. Las pruebas de estimación y de hipótesis descritas anteriormente, donde la función de log-verosimilitud parcial (ln P L) viene dada por ln P L(β) = [ln P L1 (β)] + [ln P L2 (β)] + · · · + [ln P Lp (β)] , (2.9) donde ln P Lj (β) es la log-verosimilitud parcial utilizando sólo los datos de los sujetos en el estrato j-ésimo. Los sumandos de la expresión (2.9) se calculan directamente mediante la suma de cada una de las log-verosimilitudes en cada estrato. La ln P L(β) es, por tanto, maximizada con respecto a β utilizando un método apropiado. Un supuesto clave en el uso del modelo de estratificación de riesgos proporcionales es que las covariables están actuando de manera similar en la función de riesgo base en cada estrato. Esto se puede comprobar utilizando una prueba de razón verosimilitud, que encajan en el modelo estratificado, que supone que las β’s son comunes a cada estrato, y obtenemos Comparación de dos modelos de regresión en fiabilidad 16 Modelo de riesgos proporcionales de Cox la log-verosimilitud parcial, ln P L(β). Usando sólo los datos del j-ésimo estrato, se puede ajustar un modelo de riesgos proporcionales y obtener el estimador βj y la log-verosimilitud parcial ln P Lj (βj ). La log-verosimilitud bajo el modelo, con covariables distintas para cada p X ln P Lj (βj ). La razón de verosimilitud para la prueba chiuno de los p estratos es j=1 cuadrado de las β’s es la misma#para cada estrato y viene calculada mediante la expresión " p X −2 ln P L(β) − ln P Lj (βj ) para una muestra lo suficientemente grande y sigue una j=1 distribución chi-cuadrado con (p − 1)s grados de libertad bajo la hipótesis nula que dice que βj = βk con k 6= j. Para construir el test de Wald, calculamos el modelo con las distintas β’s en cada estrato ajustando distintos modelos de riesgos proporcionales para cada estrato. Las estimaciones procedentes de los distintos estratos son asintóticamente independientes porque la matriz de información del modelo combinado es una matriz diagonal en bloques. Se construye el test de Wald usando una matriz de contraste adecuada. Este método de contraste es equivalente a contrastar la interacción entre una covariable de estratificación y las covariables en un modelo de riesgos proporcionales estratificado. 2.3. Estudio de residuos en los modelos de regresión para datos de vida Una de las ventajas que han surgido del enfoque de estos tipos de análisis de datos de tiempos de vida es la posibilidad de efectuar análisis de residuos Anderson et al. (1993), Fleming & Harrington. (1991), Therneau & Gramsch. (2000), Therneau et al. (1990). Los residuos se pueden utilizar para: 1. Descubrir la forma funcional apropiada de un predictor continuo. 2. Identificar los sujetos que están pobremente predichos por el modelo. 3. Identificar los puntos o datos de influencia. 4. Verificar el supuesto de riesgo proporcional. Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 17 Existen cinco tipos de residuos de interés en el modelo de CPH: Los residuos de CoxSnell, los de martingala, los de deviance, los de score y los de Schoenfeld. De estos cinco residuos pueden derivarse otros dos: los dfbetas y los residuos escalados de Schoenfeld. Antes de pasar al análisis de los cinco tipos de residuos, veamos previamente el siguiente modelo descrito de forma equivalente a la mostrada anteriormente descrita por Andersen et al (1993). Consideramos un conjunto de n sujetos independientes de tal manera que el proceso de conteo Ni ≡ {Ni (t), t ≥ 0} para el i-ésimo sujeto es el número de eventos observados hasta el tiempo t. La trayectoria muestral de los Ni son funciones con saltos de tamaño +1 y con Ni (0) = 0. Suponemos que la función de intensidad para Ni (t) viene dada por la expresión αi (t) = Di (t)dΛ (t; Xi (t)) = Di (t) exp(β T Xi (t))dΛ0 (t), (2.10) donde Di (t) es un proceso 0 − 1 que indica si el i-ésimo sujeto esta en riesgo en el tiempo t, β es un vector de coeficientes de regresión, Xi (t) es un vector p-dimensional de procesos de las covariables, y Λ0 (t) es la función de riesgo base acumulativa cuya estimación viene dada de la forma n X Z t b 0 (t) = Λ 0 i=1 n X dNi (s) ´. Dj (s) exp βbT Xj (s) ³ j=1 Como vemos esta expresión sigue un cierto paralelismo con la expresión (2.7), que es el estimador de Breslow. Existen varias familias de modelos de supervivencia que encajan en este marco. La generalización del modelo de CPH dada por Andersen & Gill (1984), surge cuando Λ0 (t) no está completamente especificada. Tenemos la restricción adicional de que Di (t) = 1 hasta el primer evento o censura, y 0 para el modelo de CPH. Con la forma paramétrica Λ0 (t) = t se tiene un modelo de Poisson, o una exponencial si esta restringido a un solo evento por sujeto, y Λ0 (t) = tp un modelo de Weibull. Nuestra atención se centrará principalmente en el modelo de Andersen & Gill (1982) y el modelo de CPH, sin embargo, los métodos que se desarrollaron en gran parte se aplican tanto a los casos paramétricos como a los semi-paramétricos. Comparación de dos modelos de regresión en fiabilidad 18 Modelo de riesgos proporcionales de Cox 2.3.1. Residuos de Cox-Snell Si un analista está interesado en evaluar el ajuste global del modelo planteado, los residuos más comunes utilizados por este tipo de análisis son los de Cox-Snell, desarrollados por Cox & Snell (1968) y mejorados por Klein & Moeschberger (1997). Si el modelo de CPH dado por (2.1) se mantiene, entonces las estimaciones del tiempo de supervivencia del modelo planteado, vienen dadas por un estimador de la función de supervivencia Sbi (t), debe ser muy similar al verdadero valor de Si (t) Collett (1994) y también Klein & Moeschberger (1997). Para evaluar esto, se calcularon los residuos de Cox-Snell, que vienen definidos de la forma ³ ´ b 0 (ti ) rcsi = exp βbT Xi Λ Un resultado importante demostrado por Cox & Snell (1968), Collett (1994) y Klein & Moeschberger (1997), es que, si el modelo apropiado se ajusta bien a los datos, entonces los rcsi , tendrán para cada i un valor exp(1), es decir, distribución exponencial con razón o tasa de riesgo igual a 1. Para probar si los residuos de Cox-Snell están o no aproximadamente distribuidos de forma exponencial, tenemos que construir su gráfico de residuos. La lógica de este método es sencilla. Si los residuos de Cox-Snell están, de hecho, distribuidos de forma exponencial, entonces una estimación de la tasa de riesgo basada en rcsi cuando se dibuja contra rcsi debería tender a una linea recta que pasa por el origen con pendiente igual a 1. Esto es, si dibujamos Λr (rcsi ) contra rcsi , debería tender a una linea recta que pasa por el origen con pendiente igual a 1, si el modelo planteado se ajusta bien a los datos. En este caso, Λr (rcsi ) puede ser considerada como la tasa de riesgo para los residuos de Cox-Snell. 2.3.2. Residuos de martingala Según Barlow & Prentice (1988), definimos estos residuos como la diferencia entre el proceso de conteo y la integral de la función de intensidad Z t Mi (t) = Ni (t) − Di (s) exp(β T Xi (s))dΛ0 (s), i = 1, . . . , n. 0 Despreciando los perjuicios de medibilidad e integrabilidad Mi (·) será un tipo de martingala específica; ver, por ejemplo Gill (1984). Sea β estimada por el estimador de máxima Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 19 verosimilitud parcial βb y el riesgo acumulado Λ0 por el estimador del riesgo base de Breslow (1974), definido en (3.8). Por lo que el residuo de martingala viene estimado de la forma Z t ci (t) = Ni (t) − E bi (t) = Ni (t) − M ³ ´ b 0 (s), Di (s) exp βbT Xi (s) dΛ 0 ci como abreviatura de M ci (∞). El residuo puede ser interpretado, para cada t, como con M la diferencia en el intervalo [0, t] del número de eventos observados menos los esperados proporcionados por el modelo, o por exceso de muertes. Los residuos poseen algunas de n X ci (t) = 0 para cualquier t, y M las propiedades reminiscentes de los modelos lineales: h i ci ] = cov M ci , M cj = 0 asintóticamente. E[M i=1 Para el modelo de CPH con covariables independientes del tiempo, donde ti denota el tiempo de observación para el sujeto i y δi el estado final, este residuo se reduce a una expresión más simple de la forma ³ ´ ci = δi − exp βbT Xi Λ b 0 (ti ) M es útil saber que la expresión anterior puede ponerse en función de los residuos de Cox-Snell tratados anteriormente, como ci = δi − rcs M i Los residuos de martingala son muy asimétricos y con una cola muy larga hacia la derecha, particularmente para datos de supervivencia para un solo evento. Estos residuos se usan para estudiar la forma funcional de una covariable en particular. Comparación de dos modelos de regresión en fiabilidad 20 Modelo de riesgos proporcionales de Cox 2.3.3. Residuos score Para el modelo semi-paramétrico derivado de (2.10) cuando Λ0 no está especificada, la derivada de la log-verosimilitud parcial con respecto a βj puede ser escrita de la forma ¯ n Z ∞ X © ª ∂ ln P L ¯¯ = Xij (s) − X j (b, s) dNi (s) ¯ ∂βj β=b i=1 0 n Z ∞ X © ª ci (s) = Xij (s) − X j (b, s) dM (2.11) = i=1 n X 0 P Lij (b, ∞), i=1 donde n X X j (b, s) = ¡ ¢ Di (s) exp bT Xi (s) Xij (s) i=1 n X ¡ ¢ Di (s) exp bT Xi (s) (2.12) i=1 es una media ponderada de las covariables sobre el riesgo establecido en el tiempo s. La segunda igualdad en (2.11) se obtiene de la definición del estimador de Breslow Λ0 , cuando b ·) como el proceso score, y P Lij (β, b ∞) como el residuo evaluamos β = b. Definimos P Lij (β, score del i-ésimo sujeto y de la j-ésima variable. De la definición de βb los residuos score sumarán cero. Los residuos score se utilizan para verificar la influencia individual y para la estimación robusta de la varianza, también son un ejemplo de la amplia clase de martingalas que hay para transformar los residuos, todo esto viene ampliamente discutido por Barlow & Prentice (1988). Ellos encontraron un diagnóstico útil de la influencia de cada sujeto en las estimaciones de los parámetros y en la evaluación de los supuestos del modelo, tales como el de riesgos proporcionales. 2.3.4. Residuos deviance ci , particularmente en el caso Una deficiencia importante en los residuos de martingala M del modelo de CPH, es su asimetría. En este caso, se tiene un valor máximo de +1, pero un mínimo de −∞. Es necesaria una transformación para lograr una distribución que posea Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 21 una forma más normal, sobre todo cuando se ha evaluado la precisión de las predicciones para unos sujetos en particular. Una de estas transformaciones viene motivada por los residuos deviance hallados en la literatura de los modelos lineales de McCullagh & Nelder (1983). En estos estudios se define la deviance como D = 2{ln likelihood(saturated) − b donde un modelo saturado es un modelo en donde la β es completamente ln likelihood(β)}, arbitraria, es decir, es aquel que tiene igual número de parámetros que de observaciones. En nuestro modelo el parámetro de ruido es la función de riesgo base Λ0 . Sea hi el sujeto individual estimado por β; se asume que la deviance es independiente del tiempo y que Λ0 es conocida, entonces tenemos ³ ³ ´´i X ½Z h ¡ ¡ T ¢¢ T b D =2 sup ln exp hi Xi − ln exp β Xi dNi (s) − h ¾ Z h ³ ´i ¡ T ¢ T b − Di (s) exp hi Xi − exp βi Xi dΛ0 (s) . Debido a la separación de los términos, podemos maximizar separadamente con respecto a cada hi . Mediante un simple multiplicador de Lagrange, este valor máximo de hi satisface Z ∞ Z ∞ ¡ T ¢ Di (s) exp hi Xi dΛ0 (s) = dNi (s). 0 Sea 0 Z t ci (t) = Ni (t) − M ³ ´ exp βbT Xi dΛ0 (s), 0 por ejemplo el residuo de martingala con β estimado y Λ conocido. Sustituyendo da ³ ´ T Z b exp β X X i fi + ln M ´ dNi (s) ³ D = −2 T b exp hi Xi (2.13) à " !# X f fi + Ni (∞) ln Ni (∞) − Mi M = −2 . Ni (∞) el paso anterior requiere una factorización de la forma Z ³ ´ ³ ´Z T T b b Di (s) exp β Xi dΛ0 (s) = exp β Xi Di (s)dΛ0 (s) que no es válida para X dependientes del tiempo. Comparación de dos modelos de regresión en fiabilidad 22 Modelo de riesgos proporcionales de Cox Para una densidad Gaussiana el parámetro de ruido σ se cancela en la desviación, pero fi por M ci en la no aquí. Las estimaciones de los resultados de Λ0 en la sustitución de M fórmula. El residuo de deviance viene dado por la expresión ³ ´ r h ³ ´i ci ∗ −2 M ci + δi ln δi − M ci di = signo M ci = 0. Los Hay que tener en cuenta que el residuo de deviance será cero sí y sólo sí M residuos de deviance se utilizan para la detección de valores atípicos (outliers). 2.3.5. Residuos de Schoenfeld Los residuos de Schoenfeld (1982), se definen como la matriz: Uij (β) = Xij (ti ) − X j (β, ti ) donde i y ti son los sujetos y el tiempo de ocurrencia del evento respectivamente. Bajo el supuesto de riesgos proporcionales, los residuos de Schoenfeld siguen un patrón aleatorio, por lo tanto, son útiles en la evaluación de la tendencia en el tiempo o de la falta de proporcionalidad. Therneau & Gramsch (2000), consideran que los coeficientes de regresión vienen dados mediante funciones dependientes del tiempo de la forma β(t) = β +θg(t), para una función de suavizado g(t). Debido a que las covariables son dependientes del tiempo, la regresión lineal generalizada de los residuos de Schoenfeld en función del tiempo da una pendiente distinta de cero, esto indica la violación del supuesto de riesgos proporcionales, ya que la hipótesis nula de presunción de riesgos proporcionales nos dice que θ = 0, es decir, que el modelo se ajusta bien. Al igual que cualquier tipo de regresión, se recomienda mirar la gráfica de la recta de regresión, además de realizar los test de que la pendiente no sea cero. En resumen podemos decir que los residuos de Schoenfeld son útiles para la verificación del supuesto de riesgos proporcionales en el modelo de CPH. Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 2.4. 23 Ajuste del modelo de CPH para nuestros datos Para la realización del ajuste se va a utilizar en todos los casos el programa estadístico R, es un programa gratuito donde vienen implementadas la mayoría de las funciones en el ámbito estadístico. Para más información ver el Apéndice A. Vamos a ajustar el modelo de CPH para los datos del estudio, > ## Realizamos la regresión de Cox > # volumen=longitud(m)*(diametro(m)/2)^2*pi=m3; suponemos que los tramos son rectos > # hacemos log(volumen) para centrar la variable > cox1<-coxph(Surv(tiempo, estado)~material+presion+trafico+log(volumen)+x80, data=datos) > cox1 Call: coxph(formula = Surv(tiempo, estado) ~ material + presion + trafico + log(volumen) + x80, data = datos) coef exp(coef) se(coef) z p materialUr -0.6265 0.534 0.17086 -3.67 0.00025 presion 0.0054 1.005 0.00587 0.92 0.36000 trafico -0.1871 0.829 0.11840 -1.58 0.11000 log(volumen) 0.0869 1.091 0.03962 2.19 0.02800 x80 4.3487 77.378 0.36400 11.95 0.00000 Likelihood ratio test=253 on 5 df, p=0 n= 655, number of events= 324 Figura 2.1: Ajuste del modelo de CPH. En estas salidas la significación de modelo puede verificarse sólo a través del método de la razón de verosimilitud. Una salida más completa se presenta mediante la ejecución de la sentencia summary(cox1), por lo que: Comparación de dos modelos de regresión en fiabilidad 24 Modelo de riesgos proporcionales de Cox > ## Una salida más completa sería mediante la sentencia > summary(cox1) Call: coxph(formula = Surv(tiempo, estado) ~ material + presion + trafico + log(volumen) + x80, data = datos) n= 655, number of events= 324 coef exp(coef) se(coef) z Pr(>|z|) materialUr -0.626531 0.534443 0.170856 -3.667 0.000245 presion 0.005402 1.005416 0.005869 0.920 0.357343 trafico -0.187057 0.829397 0.118399 -1.580 0.114133 log(volumen) 0.086941 1.090832 0.039616 2.195 0.028191 x80 4.348707 77.378312 0.363997 11.947 < 2e-16 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ materialUr presion trafico log(volumen) x80 *** * *** ’ 1 exp(coef) exp(-coef) lower .95 upper .95 0.5344 1.87111 0.3824 0.747 1.0054 0.99461 0.9939 1.017 0.8294 1.20570 0.6576 1.046 1.0908 0.91673 1.0093 1.179 77.3783 0.01292 37.9127 157.926 Concordance= 0.711 (se = 0.02 ) Rsquare= 0.32 (max possible= 0.995 ) Likelihood ratio test= 252.6 on 5 df, Wald test = 196.9 on 5 df, Score (logrank) test = 479.9 on 5 df, p=0 p=0 p=0 Figura 2.2: Ajuste completo del modelo de CPH. Realizamos un nuevo ajuste con las covariables más significativas como son las covariables material y x80. Si consideramos que en el volumen se encuentran implícitamente la longitud y el diametro, estratificando la covariable material con la función strata() y aplicando el log() a la covariable volumen para centrar los datos, tenemos Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 25 > ## Realizamos de nuevo la regresión de Cox con las variables más significativas > cox2<-coxph(Surv(tiempo, estado)~log(volumen)+strata(material)+x80, data=datos, method='breslow') > summary(cox2) Call: coxph(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) + x80, data = datos, method = "breslow") n= 655, number of events= 324 coef exp(coef) se(coef) z Pr(>|z|) log(volumen) 0.09317 1.09765 0.03948 2.36 0.0183 * x80 4.03705 56.65921 0.39054 10.34 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 log(volumen) x80 exp(coef) exp(-coef) lower .95 upper .95 1.098 0.91104 1.016 1.186 56.659 0.01765 26.354 121.814 Concordance= 0.61 (se = 0.025 ) Rsquare= 0.193 (max possible= 0.991 ) Likelihood ratio test= 140.1 on 2 df, Wald test = 111.3 on 2 df, Score (logrank) test = 137.5 on 2 df, p=0 p=0 p=0 Figura 2.3: Ajuste del modelo con las covariables significativas. 2.4.1. Interpretación de los coeficientes del modelo Podemos concluir que el modelo es aceptable para cualquiera de los tres criterios (test de razón de verosimilitud, test de Wald y test de Score o logrank). ¯ ¯ ¯ coef ¯ ¯ ¯ Estos coeficientes estimados, se consideran significativos cuando el cociente z = ¯ s.e.(coef ) ¯ en valor absoluto, es superior a 2, ya que para muestras grandes este cociente se distribuye según una ley Normal (prueba de Wald). En nuestro caso tenemos que a la covariable log(volumen) le sucede lo anterior log(volumen) ⇒ |z| = |2.36| → p = 0.0183 < 0.05 ⇒ es estadísticamente significativa y a la otra covariable también x80 ⇒ |z| = |10.34| → p = 2 · 10−16 << 0.05 ⇒ es estadísticamente significativa. Comparación de dos modelos de regresión en fiabilidad 26 Modelo de riesgos proporcionales de Cox Como es común en técnicas de supervivencia, la estimación de los efectos de las cova- riables son analizadas desde el punto de vista de la razón de riesgo del tiempo de vida o duración de la tubería. La razón de riesgo es la probabilidad de que una tubería que no ha fallado hasta el instante t, empezara a romperse a lo largo del intervalo de tiempo consecutivo. Mientras que en nuestro caso, la función de riesgo λ(t) nos mide la razón de riesgo de que una tubería pueda romperse condicionada al hecho de que no se rompa hasta el instante t. La hipótesis principal es que la razón de riesgo en todos los casos es un múltiplo de una razón de riesgo base inespecífica λ0 (t). En la Figura 2.3 podemos ver el ajuste del modelo reducido final para nuestros datos, este ajuste nos proporcionan los valores de los coeficientes para cada covariable, la exponencial del valor de cada coeficiente (que nos expresa el efecto correspondiente de cada covariable en la razón de riesgo), el error estándar y el p-valor de cada coeficiente. El significado de un valor positivo para un correspondiente β, por ejemplo a la covariable volumen, puede interpretarse como que la razón de riesgo al fallo (rotura) es mayor en las tuberías que presentan un mayor volumen que en las de menor volumen. Vamos a interpretar los β mediante sus exp(β) de la forma 1 − exp(β) en %, por lo que, tenemos: Para la covariable volumen, el incremento en el riesgo de fallo (rotura) para el incremento de 1 m3 de volumen es del 9.8 %. Para la covariable x80, el incremento en el riesgo de fallo (rotura) para las tuberías instaladas antes de 1980 es del 5566 %. Otra forma de interpretar estos coeficientes sería: Como la covariable x80 es binaria, el valor de exp(coef ) representa el riesgo de rotura estimado para las tuberías que tengan esas características (instaladas después de 1980) con respecto a las otras (antes de ese año), el exp(coef ) nos indicará: La covariable x80 ⇒ exp(coef ) = 56.7 el modelo supone que el efecto de la covariable x80 sobre el riesgo de rotura es aproximadamente 57 veces mayor para las tuberías que se construyeron antes de 1980. Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 27 Como la covariable volumen es cuantitativa, el valor de exp(coef ) representa el aumento o disminución del riesgo de rotura según varíe el volumen: log(volumen) ⇒ exp(coef ) = 1.1, en este caso lo que tiene sentido es establecer el aumento del riesgo que va de una tubería con x m3 de volumen a otra con (x + 10) m3 de volumen, cuando el volumen aumente en 10 m3 esto implicará que el riesgo de rotura se multiplica por exp(10 · β) = exp(10 · 0.09317) = 2.538. Cabe destacar que en nuestros datos no se ha tenido en cuenta el truncamiento por la izquierda, es probable que debido a esto el efecto de la covariable x80 nos salga tan elevado (57 veces mayor). En estudios posteriores (Futuras líneas de investigación) sería conveniente tenerlo en cuenta. Comparación de dos modelos de regresión en fiabilidad 28 Modelo de riesgos proporcionales de Cox 2.4.2. Verificación de los supuestos del modelo de CPH Podemos obtener la función y gráficas de supervivencia y de riesgo acumulado del modelo de CPH, de la forma: > ## Gráfica de la Supervivencia estimada para el material > plot(survfit(Surv(tiempo,estado)~material,data=datos), xlab='años', ylim=c(0, 1), ylab='Supervivencia',lty = 1:4, col = 2:5, main="Curvas de Supervivencia para el material") > legend("topright", legend=c("material=FD","material=Ur"), lty=1:4, col=c("red","green")) Figura 2.4: Gráfico de la función de supervivencia para los dos tipos de materiales. Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 29 y para la función de riesgo acumulado tenemos > ## Gráfica del riesgo estimado para el material ## > plot(survfit(Surv(tiempo,estado)~material,data=datos), fun="cumhaz", xlab='años', ylim=c(0, 4), ylab='Riesgo acumulado', lty = 1:4, col = 2:5, main="Curvas de riesgo acumulado para el material") > legend("topright", legend=c("material=FD","material=Ur"), lty=1:4, col=c("red","green")) > Figura 2.5: Gráfico de la función de riesgo acumulado para los dos tipos de materiales. Como podemos ver en las gráficas anteriores, las curvas de los dos materiales se cruzan, por lo que existen evidencias de que el material no cumple la proporcionalidad de riesgos. Comparación de dos modelos de regresión en fiabilidad 30 Modelo de riesgos proporcionales de Cox Las pruebas y los diagnósticos gráficos para riesgos proporcionales se puede basar en los residuos vistos anteriormente, como son los residuos de Schoenfeld, scores y deviances. Con mayor comodidad, la función cox.zph calcula la prueba de riesgos proporcionales para cada covariable, mediante la correlación de los correspondientes residuos escalados de Schoenfeld con una transformación adecuada del tiempo (por defecto se basa en la estimación de Kaplan-Meier (1958), de la función de supervivencia.) Vamos a probar el supuesto de riesgos proporcionales de nuestro ajuste del modelo de regresión de CPH: > ## Supuesto de Riesgos Proporcionales > cox.zph(cox2) rho chisq p log(volumen) 0.0436 0.637 0.425 x80 -0.0123 0.047 0.828 GLOBAL NA 0.693 0.707 Figura 2.6: Salidas de la prueba de verificación de riesgos proporcionales. Por lo que, no existen evidencias significativas al 5 % de que se viole el supuesto de riesgos proporcionales para ninguna de las dos covariables ni globalmente. Comprobación de la hipótesis global de riesgos proporcionales: Residuos de Cox-Snell Después de ajustar el modelo, tenemos que calcular los residuos de Cox-Snell con el fin de evaluar el ajuste del modelo de riesgos proporcionales. Si el modelo es correcto y la estimación de los β’s son cercanas a los valores reales, entonces estos residuos deberían tratarse como una muestra censurada de observaciones de una distribución exponencial. Hemos calculado el estimador de Nelson-Aalen de la tasa de riesgo acumulado de los residuos de Cox-Snell. Si una distribución exponencial ajusta a los datos, entonces, este estimador debería aproximadamente describir una línea de pendiente igual a 1. Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox Calculamos los residuos de Cox-Snell para nuestro ajuste de la forma > ## Residuos de Cox-Snell ## > estado<-datos$estado > mresi<-residuals(cox2, type="martingale") > csresi<-estado-mresi > hazard.csresi<-survfit(Surv(csresi,estado)~1,type="flemingharrington") > plot(hazard.csresi$time,-log(hazard.csresi$surv), xlab='residuos de Cox-Snell', ylab='riesgo acumulado',lty = 1:4, + main="Representación de los residuos de Cox-Snell") > lines(c(0,5),c(0,5)) Figura 2.7: Salidas de los residuos de Cox-Snell. La gráfica de la Figura 2.7 nos sugiere que este modelo ajusta muy bien a los datos. Comparación de dos modelos de regresión en fiabilidad 31 32 Modelo de riesgos proporcionales de Cox Comprobación de la hipótesis de riesgos proporcionales por covariables: Residuos escalados de Schoenfeld Ahora estamos interesados en evaluar la hipótesis de riesgos proporcionales del modelo de CPH, examinando si el impacto de una o más covariables sobre el riesgo de rotura puede variar con el tiempo. Por ejemplo, las tuberías de agua hechas de un tipo particular de material pueden degradarse con el tiempo, en el sentido de que el correspondiente coeficiente β puede no ser constante, es decir que β(t). Si, por el contrario, la hipótesis de riesgos proporcionales se mantiene, una gráfica de β(t) frente al tiempo describirá una línea horizontal. Calculamos los residuos escalados de Schoenfeld para nuestro caso de la forma > ## Residuos de Schoenfeld ## > plot(cox.zph(cox2),var=1, main="Betas para log(volumen)") Figura 2.8: Salidas de los residuos escalados de Schoenfeld para log(volumen). Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 33 > plot(cox.zph(cox2),var=2, main="Betas para x80") Figura 2.9: Salidas de los residuos escalados de Schoenfeld para x80. Como podemos apreciar en las Figuras 2.8 y 2.9 no hay coeficientes dependientes del tiempo admisibles en nuestro caso. La gráfica de la covariable x80 presenta una mejor forma que la de la covariable log(volumen), por lo que podemos contrastar nuestros cálculos numéricos. La dependencia del tiempo del coeficiente del material queda captada por el modelo estratificado en el que se considera λU r (t) y λF D (t). Comparación de dos modelos de regresión en fiabilidad 34 Modelo de riesgos proporcionales de Cox Comprobación de la influencia sobre cada observación en el modelo: Residuos dfbeta Otro uso de los residuos que se nos presenta es el de determinar la influencia de cada observación en el modelo ajustado. Hemos calculado, por medio de los residuos dfbeta, que están implementados en R, el cambio aproximado en el k-ésimo coeficiente (es decir, la k-ésima covariable) si la observación i-ésima se elimina del conjunto de datos y se vuelve a estimar el modelo sin esta observación. Para cada covariable, se ha representado la observación (en orden de tiempo de fallo registrado) por el cambio de escala aproximada (dividiendo por el error estándar del coeficiente) del coeficiente después de la eliminación de la observación del modelo. Si la supresión de una observación hace que el coeficiente incremente, el residuo dfbeta es negativo y viceversa. Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox Calculamos los residuos dfbeta para nuestro caso de la forma > > > > + + + + ## Residuos dfbeta ## dfbeta <- residuals(cox2, type="dfbetas") par(mfrow=c(2,2)) for (j in 1:2){ plot(dfbeta[,j], ylab=names(coef(cox2))[j]) abline(h=0, lty=2, col='black') lines(c(0,0),c(0,0)) } Figura 2.10: Salidas de los residuos dfbeta para log(volumen). Comparación de dos modelos de regresión en fiabilidad 35 36 Modelo de riesgos proporcionales de Cox Figura 2.11: Salidas de los residuos dfbeta para x80. En las Figuras 2.10 y 2.11 se nos muestran los residuos dfbeta del modelo. Como vemos estos residuos están centrados con respecto al origen, y no presentan patrones definidos. Se nos presentan dos datos demasiados alejados del origen correspondientes a los dos diámetros más grandes presentes en nuestros datos, a excepción de esto no se aprecia ninguna irregularidad en las gráficas. Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 37 Comprobación de la existencia de outliers en el modelo: Residuos de deviance Los residuos tipo deviance pueden generarse a través de la sentencia > > > + > ## Residuos de deviance ## devresi <- resid(cox2, type="deviance") plot(cox2$linear.predictor, devresi, ylab="Residuos de Deviance", main='Residuos de deviance') abline(h=0,lty=2, col='black') Figura 2.12: Salidas de los residuos de deviance. En las Figura 2.12 se nos muestran los residuos de deviance estratificados para los dos tipos de material, no apreciamos patrones definidos ni tampoco apreciamos residuos alejados del origen. Comparación de dos modelos de regresión en fiabilidad 38 Modelo de riesgos proporcionales de Cox Comprobación de la forma funcional de las covariables del modelo: Residuos de martingala Los residuos tipo martingala pueden generarse a través de la sentencia > mres<-residuals(cox2, type=c("martingale")) > plot(datos[,1], mres, xlab=c("log(volumen)")[1], + ylab="Residuos martingale", main="Residuos de Martingala") > abline(h=0, lty=2) > lines(lowess(datos[,1], mres, iter=0)) Figura 2.13: Salidas de los residuos de martingala para log(volumen). En la Figura 2.13 se nos muestran los residuos de martingala para la covariable volumen, en la que podemos ver claramente una tendencia curva decreciente, estos residuos presentan claramente una forma funcional definida. La forma funcional en la que hemos introducido esta covariable en el modelo no es la adecuada, deberíamos elegir otro modelo más flexible, el cual se estudiará en las futuras líneas de investigación, ver Apéndice C. Comparación de dos modelos de regresión en fiabilidad Modelo de riesgos proporcionales de Cox 2.5. 39 Conclusiones Se han estudiado las propiedades de fiabilidad de una red de suministro de agua instalada en una ciudad de tamaño medio en la costa mediterránea española. Este estudio es válido para cualquier otro sistema de suministro de agua que posea características similares, y el objetivo principal es utilizar herramientas cuantitativas para dirigir estos sistemas con el objetivo de evaluar su estado actual tan bien como la previsión del comportamiento de sus infraestructuras en el futuro. Se han utilizado métodos semi-paramétricos adaptados a las características particulares de la base de datos con la que se ha trabajado. En particular, la muestra de datos que se ha utilizado en el estudio viene caracterizada por la presencia de censura a la derecha. Se ha considerado que esta opción es bastante interesante debido a que su implementación mediante métodos computacionales es bastante fácil. El análisis muestra la influencia de algunos factores que afectan a la supervivencia de las tuberías, como son las dimensiones físicas (volumen), el material, la presión, el tráfico rodado y una covariable que depende del tiempo de instalación de la tubería. Las tuberías que presentan menos fallos presentan características, como la disminución del volumen de la tubería, o que su material sea de fundición dúctil, así como que la tubería fuese instalada después de 1980. El análisis de los residuos ha llevado a validar el modelo de forma general. Principalmente la hipótesis de riesgos proporcionales global se ha verificado utilizando los residuos de Cox-Snell, mostrando un buen ajuste. Seguidamente los residuos de Schoenfeld nos indican un buen ajuste para cada covariable en el modelo de CPH. Finalmente los residuos de martingala para el volumen nos indica que la forma funcional en la que hemos introducido la covariable volumen no es la apropiada, se debería de utilizar un modelo más flexible. Comparación de dos modelos de regresión en fiabilidad 40 Modelo de riesgos proporcionales de Cox Comparación de dos modelos de regresión en fiabilidad Capítulo 3 Modelo de tiempo de vida acelerada (AFT) 3.1. Modelo de tiempo de vida acelerada (AFT) El modelo de vida acelerada Lawless (1982), relaciona linealmente el logaritmo del tiempo de vida T con el vector de covariables X. Específicamente se puede escribir como ln T = ψ(X) + ε, (3.1) donde ε es un término de error aleatorio y ψ es una función desconocida. Este modelo forma parte de la familia de modelos de regresión de la función de riesgo. De hecho, tenemos la siguiente secuencia de igualdades P [T > t] = P [ln T > ln t] = P [ε > ln (t exp(−ψ(X)))] = = P [T0 > t exp(−ψ(X))] (3.2) donde es conveniente introducir la variable aleatoria no negativa T0 = exp(ε). Mirando la relación entre T y T0 , es cierto que Λ(t) = Λ0 (t exp(−ψ(X))), donde Λ0 es la función de riesgo acumulado correspondiente a T0 . Esta última ecuación puede ser escrita en términos de las funciones de riesgo correspondientes, entonces, si llamamos Ψ(X) = exp(−ψ(X)), tenemos λ(t) = λ0 (tΨ(X))Ψ(X), 41 42 Modelo de tiempo de vida acelerada que establece que el modelo de vida acelerada no mantiene proporcionalidad entre las tasas de riesgo (excepto cuando tenemos un modelo de regresión de Weibull, que es cuando λ0 (t) = αγtγ−1 , para un α= “parámetro de escala” y γ= “parámetro de forma” adecuada), proporcionando así una alternativa interesante para el modelo de riesgos proporcionales de Cox (1972). De hecho en algunos casos, constituye una opción de modelo más atractivo que el modelo de riesgos proporcionales, debido a su directa interpretación física. En relación a este tipo de modelos, las pruebas de vida acelerada se utilizan cada vez más en las industrias de fabricación. La prueba de vida acelerada es un método que consiste en exponer a los elementos del proceso a un mayor estrés que el que soportarían durante su uso normal. El objetivo principal es inducir un fallo temprano y la motivación para hacer esto se encuentra en el hecho de que, cuando la vida media de un dispositivo se mide en décadas (por ejemplo) en condiciones normales de uso, sería necesario esperar muchos años para establecer el grado de fiabilidad de estos dispositivos. Los avances en la tecnología actual son hoy en día tan rápidos que un dispositivo en particular puede llegar a ser obsoleto antes de que sus propiedades de fiabilidad puedan ser determinadas mediante pruebas en condiciones normales de uso. Las condiciones de uso de un sistema vienen normalmente expresadas en términos llamados factores de estrés, como la temperatura, voltaje, humedad y presión. Las pruebas de vida acelerada son llevadas a cabo a altos niveles de estos factores (niveles significativamente más altos que en condiciones normales) para obligar a reducir los tiempos de fallo del sistema. El objetivo consiste en deducir las propiedades de fiabilidad del sistema en un nivel normal de estrés basándose en la observación de su comportamiento en un nivel de estrés acelerado. Para llevar esto a cabo, es esencial utilizar un modelo que represente la relación directa entre tiempo de vida y estrés, lo que hace que el modelo de tiempo de fallo acelerado sea la mejor opción. En el enfoque semi-paramétrico, el modelo puede suponer una relación física interpretable entre los tiempos de vida y los niveles de estrés, sin hacer ninguna suposición sobre la distribución de los tiempos de vida. Se considera la posibilidad de un vector de estrés p-dimensional X = (X1 , X2 , . . . , Xp )T . Sea T0 el tiempo de fallo aleatorio en un nivel de uso normal, con S0 como la función de supervivencia correspondiente. Sea T , por otra parte, Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 43 el tiempo de vida del nivel de estrés acelerado y especificado por el vector X. De acuerdo con (3.2) tenemos S(t) = S0 (t exp(ψ(X))) = S0 (tΨ(X)). (3.3) El objetivo principal es estimar S0 a partir de las observaciones de los tiempos de vida en los niveles de estrés acelerado. La función Ψ(X) se denomina factor aceleración. La mayoría de los modelos de tiempos de vida acelerada adoptan una función lineal en las covariables que se consideran constantes, que lleva al siguiente modelo semi-paramétrico en una escala logarítmica de tiempos de vida ln T = β T X + ε, (3.4) donde ε se supone que tiene una distribución con parámetro de localización 0 y parámetro de escala σ. Como casos especiales a menudo consideramos distribuciones Lognormales o Weibull. Con este enfoque, el logaritmo del tiempo de vida se considera que tiene una distribución con parámetro de localización µ(X) = β T X y el parámetro de escala σ, donde los parámetros desconocidos son estimados de los datos proporcionados por la prueba acelerada. En consecuencia el parámetro de localización del logaritmo del tiempo, µ, es una función lineal de la variable de estrés que podría ser transformada previamente con respecto a determinados argumentos físicos considerados en la formulación de modelos como el modelo de Arrhenius, el modelo de la potencia inversa y el modelo exponencial, que son ampliamente utilizados en apuntes prácticos. Utilizando estas aproximaciones y en el caso particular de una única covariable, se podría expresar el modelo de la forma µ ¶ u − β0 + β1 x e e S(u; x, β0 , β1 , σ) = S0 , (3.5) σ donde Se y Se0 (·/σ) son las funciones de supervivencia respectivas de ln T y εe = ln T0 . Por lo general, el objetivo principal es estimar un percentil específico de la distribución del tiempo de vida en condiciones de uso, por ejemplo x0 , que puede denotarse como tπ (x0 ), para 0 < π < 1. Por ejemplo, el interés suele centrarse en la mediana del tiempo de vida. Lo anterior se puede expresar de la forma: tπ (x0 ) = β0 + β1 x0 + u eπ σ, Comparación de dos modelos de regresión en fiabilidad (3.6) 44 Modelo de tiempo de vida acelerada siendo u eπ el percentil correspondiente en la distribución dada por Se0 . El problema de la inferencia se reduce entonces a obtener los estimadores adecuados βb0 , βb1 y σ b. Estos modelos han sido estudiados con detalle en Nelson (1990) y Meeker & Escobar (1998). Aunque la mayoría de los trabajos en estos temas expresan el modelo de tiempo de vida acelerada en términos de la media y determinan que la media del logaritmo del tiempo de supervivencia se relaciona linealmente con las covariables, el sesgo causado por la censura sugiere un procedimiento más robusto, y por lo tanto la mediana ofrece una alternativa más conveniente. El modelo de regresión de la mediana con censura ha recibido recientemente mucha atención, véase por ejemplo, los trabajos de Ying et al. (1995), Yang (1999), Honoré, Khan & Powell (2002), Cho & Hong (2008), Zhao & Chen (2008), y Wang & Wang (2009). Para una presentación completa de la teoría de regresión de cuantiles con datos no censurados, véase a Koenker (2005). 3.2. Estimación del modelo AFT paramétrico La función de supervivencia de Ti puede expresarse mediante la función de supervivencia de εi , donde (ε = σεi ), de la forma Si (t) = P (Ti ≥ t) = P (ln Ti ≥ ln t) = = P (β1 X1i + β2 X2i + · · · + βp Xpi + σεi ≥ ln t) = µ ¶ ¶ µ ln t − βXi ln t − βXi = P εi ≥ = Sεi = σ σ µ ¶ ln t − µ(Xi ) = Sεi σ (3.7) El modelo de tiempo de vida acelerada se ajusta utilizando el método de la máxima verosimilitud. La verosimilitud de n observaciones de tiempos de vida, t1 , t2 , . . . , tn vienen dadas por la expresión L(µ, σ) = n Y [fi (ti )]δi [Si (ti )]1−δi , i=1 donde fi (ti ) y Si (ti ) son la función de densidad y de supervivencia respectivamente para el i-ésimo individuo en el tiempo ti y δi es el indicador de censura para la i-ésima observación. Utilizando la ecuación (3.7), se puede demostrar que la función de log-verosimilitud viene Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 45 dada por la expresión ln L(µ, σ) = n X [−δi ln(σti + δi ln fεi (zi ) + (1 − δi ) ln Sεi (zi ))], i=1 donde zi = (ln ti − β1 X1i − β2 X2i − · · · − βp Xpi )/σ. La estimación máximo verosímil de los parámetros desconocidos, µ, σ, β1 , β2 , . . . , βp , que pueden hallarse maximizando esta función utilizando el método de Newton-Raphson, que es el mismo método que se utilizó para maximizar la verosimilitud parcial en el modelo de CPH. En la literatura reciente, se han propuesto varias aproximaciones para la estimación y la inferencia del AFT. Los enfoques clásicos semi-paramétricos para el modelo AFT que hacen hincapié en la estimación de los parámetros de regresión son el modelo de Buckley & James (1979), el estimador de rangos, ver Jin, Lin, Wei & Ying (2003), el estimador de mínimos cuadrados para datos censurados, ver Jin et al. (2006) o el estimador de mínimos cuadrados ponderados de Stute (1999). A pesar de los avances teóricos, todas estas aproximaciones son numéricamente complicadas y difíciles de implementar, especialmente cuando tenemos un gran número de covariables. 3.3. Validación del modelo AFT paramétrico Los métodos gráficos pueden utilizarse para validar si una distribución paramétrica ajusta a los datos de supervivencia. En concreto si el tiempo sigue una distribución exponencial, una gráfica de ln[− ln S(t)] frente a ln t debería de mostrar una línea recta con pendiente igual a la unidad. Si las gráficas no son del todo rectas entonces se mantiene la hipótesis de riesgos proporcionales pero no lo hace para el modelo de Weibull. Si las líneas para dos grupos son rectas pero no paralelas, la hipótesis del modelo de Weibull es compatible, pero se violan las hipótesis de CPH y de AFT. La hipótesis del modelo Loglogistico puede evaluarse gráficamente dibujando ln[(1 − S(t))/S(t)] frente a ln t. Si la distribución de la función de supervivencia es loglogística, entonces el resultado de la gráfica puede resultar ser una línea recta. Para la distribución Lognormal, la gráfica de Φ−1 [1 − S(t)] frente a ln t debería ser lineal. Todas estas gráficas se basan en la hipótesis de que la muestra se escoge de una población homogénea, lo que implica que no se han Comparación de dos modelos de regresión en fiabilidad 46 Modelo de tiempo de vida acelerada tenido en cuenta ciertas covariables. Por lo que estos métodos gráficos no son muy fiables en la práctica. Existen otros métodos para validar el ajuste del modelo. 3.3.1. Mediante gráficos quantile-quantile plot (Q-Q plot) Un método inicial para evaluar la fuerza de un modelo AFT es hacer las gráficas Q-Q plot. Para cualquier valor de p en el intervalo (0, 100), el p-ésimo percentil es µ t(p) = S −1 100 − p 100 ¶ . Sea t0 (p) y t1 (p) el percentil p-ésimo estimado de la función de supervivencia de dos grupos de datos de supervivencia. Los percentiles para los dos grupos pueden expresarse de la forma µ t0 (p) = S0−1 100 − p 100 ¶ µ , t1 (p) = S1−1 100 − p 100 ¶ , donde S0 (t) y S1 (t) es la función de supervivencia para los dos grupos. Por lo que podemos obtener S1 [t1 (p)] = S0 [t0 (p)]. En el modelo AFT, S1 (t) = S0 (t/η), y entonces S1 [t1 (p)] = S0 [t1 (p)/η]. Por tanto, tenemos t0 (p) = η −1 t1 (p) Los percentiles de las distribuciones de supervivencia para los dos grupos pueden ser estimados mediante las respectivas estimaciones de Kaplan-Meier de las funciones de supervivencia. Una gráfica de los percentiles de la función de supervivencia estimada de Kaplan-Meier para un grupo frente a otro debería dar una linea aproximadamente recta a través del origen si el modelo AFT es apropiado. La pendiente de esta línea será una estimación del factor aceleración η −1 . Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 3.3.2. 47 Mediante el criterio de información de Akaike (AIC) Podemos utilizar pruebas o criterios estadísticos para comparar todos estos modelos de AFT. Los modelos anidados pueden compararse utilizando el test de razón de verosimilitud. El modelo exponencial, el modelo de Weibull y el modelo Lognormal están anidados a través del modelo gamma. Para comparar los modelos que no están anidados, el criterio de información de Akaike (AIC) puede utilizarse en lugar del test de razón de verosimilitudes, que viene definido como AIC = −2l + 2(k + c), donde l es la log-verosimilitud, k es el número de covariables en el modelo y c es el número de parámetros auxiliares del modelo específico. La componente 2(k + c) puede considerarse como una penalización si los parámetros no predictivos están en el modelo. Los valores más pequeños del AIC indican un modelo mejor. Pero hay un problema en el uso del AIC en que no hay pruebas estadísticas formales para comparar diferentes valores del AIC. Cuando dos modelos presentan un AIC con valores similares, la elección del modelo puede ser difícil y la verificación de modelos externos o los resultados anteriores pueden ser requeridos para juzgar la verosimilitud relativa de los modelos en lugar de confiar sólo en los valores del AIC . 3.3.3. Mediante el gráfico de los Residuos de Cox-Snell Las gráficas de los residuos pueden utilizarse para validar la bondad de ajuste del modelo. Los procedimientos basados en los residuos en el modelo AFT son particularmente relevantes (como ya se vio) en el modelo de CPH. Una de las gráficas más utilizadas se basan en la comparación de la distribución de los residuos de Cox-Snell con la distribución exponencial unitaria exp(1). Los residuos de Cox-Snell para el i-ésimo individuo con tiempos observados ti se definen de la forma h i b i |Xi ) = − ln S(t b i |Xi ) , rcsi = H(t donde ti es el tiempo de supervivencia observado para el individuo i, Xi es el vector con los b i ) es la función de supervivencia estimada valores de la covariable para el individuo i, y S(t Comparación de dos modelos de regresión en fiabilidad 48 Modelo de tiempo de vida acelerada en el modelo ajustado. De la ecuación (3.7), la función de supervivencia estimada para el i-ésimo individuo viene dada por µ Sbi (t) = Sεi ln t − µ b(Xi ) σ b ¶ , donde µ byσ b son los estimadores máximos verosímiles de µ y σ respectivamente, Sεi (ε) es la función de supervivencia de εi en el modelo AFT, y rsi = ln t − µ b(Xi ) , σ b son los llamados residuos estandarizados. Los residuos de Cox-Snell pueden aplicarse en cualquier modelo paramétrico. Podemos obtener la forma correspondiente de los residuos en el modelo AFT. Por ejemplo, bajo el modelo Weibull, donde Sεi (ε) = exp(−eε ), los residuos de Cox-Snell vienen entonces dados por la expresión h i b i ) = − ln Sε (rs ) = exp(rs ). rcsi = − ln S(t i i i Si el modelo es apropiado, la gráfica de ln(− ln S(rcsi )) frente a ln rcsi es una línea recta con pendiente unitaria a través del origen. Estos residuos nos llevan a los residuos de deviance para un modelo AFT en particular. Puede utilizarse una gráfica de los residuos de deviance frente al tiempo de supervivencia o variables explicativas para validar si hay tiempos particulares, o valores particulares de las variables explicativas, para los que el modelo no ajusta bien. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 3.4. 49 Ajuste del modelo AFT paramétrico para nuestros datos Vamos a realizar el ajuste del modelo AFT mediante la función survreg del package estadístico R. Comenzamos realizando el ajuste con todas las covariables supuestamente influyentes presentes en nuestra base de datos, considerando el modelo de Weibull. ## Ajuste del modelo de vida acelerada para la distribución weibull ## aftm1<-survreg(formula=Surv(tiempo, estado)~longitud+diametro+material+presion+trafico+x80, data = datos, dist="weibull") summary(aftm1) Call: survreg(formula = Surv(tiempo, estado) ~ longitud + diametro + material + presion + trafico + x80, data = datos, dist = "weibull") Value Std. Error z p (Intercept) 3.679350 0.083412 44.110 0.00e+00 longitud -0.000176 0.000194 -0.908 3.64e-01 diametro -0.000302 0.000214 -1.414 1.57e-01 materialUr 0.138444 0.038623 3.585 3.38e-04 presion -0.001169 0.001302 -0.897 3.69e-01 trafico 0.033382 0.027578 1.210 2.26e-01 x80 -0.722222 0.043004 -16.794 2.68e-63 Log(scale) -1.468342 0.043026 -34.127 2.98e-255 Scale= 0.23 Weibull distribution Loglik(model)= -1336.6 Loglik(intercept only)= -1453.7 Chisq= 234.1 on 6 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 9 n= 655 Figura 3.1: Ajuste del modelo AFT para todas las covariables. Como vemos, se nos presentan covariables significativas como el material y el x80, covariables significativas al igual que nos salieron en el modelo de CPH, por lo que haremos será ajustar el modelo considerando el volumen (compuesto por longitud y diametro) y también la ajustaremos para tres de las distribuciones más comunes en el análisis de supervivencia y fiabilidad para estos datos, que son, la distribución Weibull, la Lognormal y la Loglogística. Comparación de dos modelos de regresión en fiabilidad 50 Modelo de tiempo de vida acelerada Para el modelo con distribución Weibull tenemos el ajuste > ###### Re-ajuste del modelo de vida acelerada con weibull ###### > aftm2<-survreg(formula=Surv(tiempo, estado)~log(volumen)+strata(material)+x80, data = datos, dist="weibull") > summary(aftm2) Call: survreg(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) + x80, data = datos, dist = "weibull") Value Std. Error z p (Intercept) 3.6589 0.03003 121.85 0.00e+00 log(volumen) -0.0241 0.00725 -3.33 8.83e-04 x80 -0.7364 0.04114 -17.90 1.21e-71 material=FD -0.7738 0.09014 -8.58 9.15e-18 material=Ur -1.8037 0.04493 -40.15 0.00e+00 Scale: material=FD material=Ur 0.461 0.165 Weibull distribution Loglik(model)= -1280.2 Loglik(intercept only)= -1343.2 Chisq= 125.95 on 2 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 7 n= 655 Figura 3.2: Ajuste del modelo AFT con distribución Weibull. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada Para el modelo con distribución Lognormal tenemos el ajuste > ## Re-ajuste del modelo de vida acelerada con lognormal ## > aftm3<-survreg(formula=Surv(tiempo, estado)~strata(material)+log(volumen)+x80, data = datos, dist="lognormal") > summary(aftm3) Call: survreg(formula = Surv(tiempo, estado) ~ strata(material) + log(volumen) + x80, data = datos, dist = "lognormal") Value Std. Error z p (Intercept) 3.6180 0.04144 87.3 0.00e+00 log(volumen) -0.0185 0.00977 -1.9 5.76e-02 x80 -0.8773 0.05370 -16.3 5.33e-60 material=FD -0.2165 0.07738 -2.8 5.15e-03 material=Ur -1.3771 0.04408 -31.2 3.02e-214 Scale: material=FD material=Ur 0.805 0.252 Log Normal distribution Loglik(model)= -1330.6 Loglik(intercept only)= -1421.5 Chisq= 181.79 on 2 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 5 n= 655 Figura 3.3: Ajuste del modelo AFT con distribución Lognormal. Comparación de dos modelos de regresión en fiabilidad 51 52 Modelo de tiempo de vida acelerada Y para el modelo con distribución Loglogística tenemos el ajuste > ## Re-ajuste del modelo de vida acelerada con loglogístico ## > aftm4<-survreg(formula=Surv(tiempo, estado)~strata(material)+log(volumen)+x80, data = datos, dist="loglogist") > summary(aftm4) Call: survreg(formula = Surv(tiempo, estado) ~ strata(material) + log(volumen) + x80, data = datos, dist = "loglogist") Value Std. Error z p (Intercept) 3.5838 0.03511 102.07 0.00e+00 log(volumen) -0.0246 0.00837 -2.93 3.36e-03 x80 -0.7836 0.04907 -15.97 2.09e-57 material=FD -0.8974 0.09247 -9.70 2.89e-22 material=Ur -2.0779 0.05055 -41.11 0.00e+00 Scale: material=FD material=Ur 0.408 0.125 Log logistic distribution Loglik(model)= -1295.1 Loglik(intercept only)= -1368.9 Chisq= 147.7 on 2 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 5 n= 655 Figura 3.4: Ajuste del modelo AFT con distribución Loglogístico. Como podemos ver en los tres casos tenemos las mismas covariables significativas, aunque a simple vista podemos apreciar que hay alguno de ellos en el que los p-valores salen mucho menores (más significativos) que otros, como son los modelos con distribución de Weibull y Loglogística. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 53 Podemos comparar los tres modelos paramétricos anteriores de la forma > anova(aftm2, aftm3, aftm4, test = "Chi") Terms Resid. los del modelo weibull los del modelo lognor los del modelo loglogís Df 650 650 650 -2*LL 2560.375 2661.245 2590.202 Test Df Deviance P(>|Chi|) NA NA NA 0 -100.86941 NA 0 71.04307 NA Figura 3.5: Comparación entre modelos paramétricos. Como podemos ver, el modelo paramétrico que posee una menor -2*LL es el de la distribución de Weibull, este es ligeramente mejor que los otros. 3.4.1. Validación del modelo Vamos a validar el modelo como se ha explicado en teoría, de cuatro formas diferentes, mediante la función de supervivencia, utilizando los gráficos QQPlots, mediante el criterio de información de Akaike y utilizando las gráficas de los residuos de Cox-Snell. Gráficos basados en la función de supervivencia Realizaremos tres gráficos útiles con el fin de comprobar si la distribución de Weibull, Lognormal y Loglogística son las adecuadas. Ambos se basan en las funciones de supervivencia. Si la distribución de Weibull es válida, vamos a esperar un patrón lineal en el primer gráfico. Del mismo modo, si los tiempos de supervivencia siguen una distribución Lognormal o Loglogística, la tendencia de los puntos en la segunda y tercera gráfica debería ser lineal. Para realizar esto recurriremos a la función LIN.AFT(), para más detalle acerca del algoritmo ver el Apéndice B. Comparación de dos modelos de regresión en fiabilidad 54 Modelo de tiempo de vida acelerada > ### ajuste aft ### > p1<-survfit(Surv(tiempo, estado)~material,data=datos) > ### graficas de valoración de modelos mediante la función de supervivencia #### > par(mfrow=c(1,3)) > LIN.AFT(p1, dist="weibull") > LIN.AFT(p1, dist="lognormal") > LIN.AFT(p1, dist="loglogistic") Figura 3.6: Comparación mediante la función de supervivencia entre los tres modelos. Como podemos ver las distribuciones que mejor se aproximan a una línea recta son las de Weibull y Loglogística para el tipo de material tUr (uralita). Como puede apreciarse, la gráfica del modelo con la distribución Lognormal no sigue para ninguno de los dos tipos de materiales la linealidad esperada. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 55 Mediante los gráficos QQPlots Vamos a realizar el gráfico QQPlot para enfrentar los cuantiles de las dos categorías del material, o sea tUr y tFD (uralita y fundación dúctil) para ver la apropiación del modelo. Para ver el código del programa ir al Apéndice B. > #### QQPlot para el material con datos censurados a la derecha #### Figura 3.7: Gráfico QQPlot para ambos materiales. Si el modelo AFT fuese apropiado para la covariable material, la recta ajustada a los puntos “cuantiles tFD” frente a “cuantiles tUr” debería pasar por el origen y la pendiente de la recta daría una estimación del factor de aceleración. En este caso la recta de regresión que estimamos con la orden lm() no pasa por el origen por lo tanto podemos sospechar que un modelo de tiempo de vida acelerada de la forma tU r = φtF D, no es apropiado. Por esto parece ser una buena decisión considerar los dos grupos de material por separado y ajustar Comparación de dos modelos de regresión en fiabilidad 56 Modelo de tiempo de vida acelerada en cada grupo un modelo de tiempo de vida acelerada considerando como factor de riesgo el volumen. Vamos a realizar los gráficos de (zi , ei ) para probar la adecuación del modelo supuesto, siendo ei el i-ésimo residuo estándar ordenado y zi el cuantil estándar correspondiente de cualquiera de las distribuciones de Weibull, Loglogística o Lognormal. Si el modelo bajo estudio es apropiado, los puntos de la gráfica (zi , ei ), debería ser una recta con pendiente aproximada a la bisectriz del primer cuadrante. Para realizar lo anterior, vamos a utilizar la función qq.reg.resid.r(), para más información al respecto ver el Apéndice B. Separamos como hemos dicho antes, los datos en dos, según el material sea uralita o fundición dúctil, y realizamos los QQPlots correspondientes: Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada > ### QQPlot para el material tUr ### > fitweib1<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull", data=tUr) > fitlognorm1<-survreg(Surv(tiempo, estado)~log(volumen), dist="lognormal", data=tUr) > fitloglog1<-survreg(Surv(tiempo, estado)~log(volumen), dist="loglogist", data=tUr) > > par(mfrow=c(1,3)) > qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitweib1, "qweibull","Valores estremos estandar (cuantiles)") [1] "qq.reg.resid:done" > qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitlognorm1, "qnorm","Normal estandar (cuantiles)") [1] "qq.reg.resid:done" > qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitloglog1, "qlogis","Logística (cuantiles)") [1] "qq.reg.resid:done" > Figura 3.8: Gráficos QQPlots de (zi , ei ) para el material tUr. Comparación de dos modelos de regresión en fiabilidad 57 58 Modelo de tiempo de vida acelerada Como podemos apreciar los datos que mejor se ajustan a la recta que pasa por el origen son los del modelo con distribución de Weibull seguido por el de la distribución Loglogística, aunque las tres en general presenta una forma adecuada para el material tUr. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada Si realizamos lo mismo pero en este caso con el material fundición dúctil tenemos: > ### para el material tFD ### > fitweib2<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull", data=tFD) > fitlognorm2<-survreg(Surv(tiempo, estado)~log(volumen), dist="lognormal", data=tFD) > tFD2<-tFD[-163,] > fitloglog2<-survreg(Surv(tiempo, estado)~log(volumen), dist="loglogist", data=tFD) > > par(mfrow=c(1,3)) > qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitweib2, "qweibull","Valores estremos estandar (cuantiles)") [1] "qq.reg.resid:done" > qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitlognorm2, "qnorm","Normal estandar (cuantiles)") [1] "qq.reg.resid:done" > qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitloglog2, "qlogis","Logística (cuantiles)") [1] "qq.reg.resid:done" > Figura 3.9: Gráficos QQPlots de (zi , ei ) para el material tFD. Comparación de dos modelos de regresión en fiabilidad 59 60 Modelo de tiempo de vida acelerada Apreciamos una similitud con respecto al otro material en la comparación de cada modelo, o sea, apreciamos también que el modelo con distribuciones de Weibull y Loglogística ajustan mejor los datos que el Lognormal, aunque en general los tres presentan buena forma. Mediante el criterio de información de Akaike (AIC) Como se explicó en teoría, cuanto menor sea el valor de este estadístico, mejor será el modelo. En el entorno R, este criterio viene implementado por la función extractAIC, ver Venables & Ripley (2002), y nos proporciona las siguientes salidas: > ### criterio de información de AIC ### > > extractAIC(aftm2) [1] 5.000 2570.375 > extractAIC(aftm3) [1] 5.000 2671.245 > extractAIC(aftm4) [1] 5.000 2600.202 Figura 3.10: AIC del modelo AFT para las tres distribuciones. Como podemos ver, el menor de los estadísticos corresponde al ajuste aftm2 que corresponde al modelo con distribución de Weibull, seguido muy de cerca por el ajuste aftm4 que corresponde al modelo con la distribución Loglogística. Esto corrobora nuestra validación anterior mediante los QQPlots arrojando conclusiones similares. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 61 También podemos validar con el AIC conjuntamente, la adecuación del modelo paramétrico AFT con distribución de Weibull junto con el de CPH, ya que consideramos el de Weibull un modelo anidado al de Cox, por lo que > ###### Criterio de información de AIC para modelo de Weibull y ##### ####################### para el modelo PH de Cox ##################### > > extractAIC(aftm2) [1] 5.000 2570.375 > extractAIC(cox2) [1] 2.000 2978.588 Figura 3.11: AIC para el modelo con distribución de Weibull y para el modelo de PH de Cox. Como podemos apreciar el menor de los dos valores de los AIC corresponde al modelo AFT con distribución de Weibull. Mediante el gráfico de los residuos de Cox-Snell Para realizar esta validación operaremos de la siguiente forma, primero realizaremos los residuos de Cox-Snell para las tres distribuciones de Weibull, Lognormal y Loglogística. Después separaremos los datos en función de los materiales y realizando las gráficas de los residuos de Cox-Snell enfrentados al riesgo acumulado en cada caso, de esta forma realizaremos una valoración global del modelo. Para ver el algoritmo en R que implementa los siguientes gráficos ver Apéndice B. Comparación de dos modelos de regresión en fiabilidad 62 Modelo de tiempo de vida acelerada > #### Residuos de Cox-Snell para los datos #### Figura 3.12: Gráficos de residuos de los datos para las tres distribuciones. Como podemos ver la recta a través del origen que mejor ajusta a los datos de los tres modelos es la del modelo con distribución de Weibull. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 63 Ahora realizaremos lo mismo separando los datos en función de los materiales, para la distribución de Weibull tenemos > ############# Residuos para el modelo weibull ############### Figura 3.13: Gráficos de residuos para la distribución de Weibull. Comparación de dos modelos de regresión en fiabilidad 64 Modelo de tiempo de vida acelerada Para la distribución Lognormal tenemos > ############## Residuos para el modelo lognormal ############### Figura 3.14: Gráficos de residuos para la distribución Lognormal. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 65 Y para la distribución Loglogística > ############## Residuos para el modelo loglogístico ################ Figura 3.15: Gráficos de residuos para la distribución Loglogística. Como podemos apreciar, la recta a través del origen que mejor ajusta a los datos de los tres modelos es la del modelo con distribución de Weibull para el material tUr (uralita), seguido muy de cerca por el modelo con la distribución Loglogística que también presenta un buen ajuste para los datos. Podemos decir que para ambos materiales el modelo con distribución de Weibull es el que mejor ajusta a los datos o sea el más apropiado. Comparación de dos modelos de regresión en fiabilidad 66 Modelo de tiempo de vida acelerada 3.4.2. Elección e interpretación del modelo más apropiado Según lo visto anteriormente, hemos decidido elegir el modelo paramétrico AFT con distribución de Weibull como el más apropiado para nuestros datos ya que en todos los casos de validación que se han visto (ya sea global o estratificado por material), los test así nos lo han corroborado. Por lo que finalmente nos quedaremos con el modelo cuyo ajuste es: > ###### Re-ajuste del modelo de vida acelerada con weibull ###### > aftm2<-survreg(formula=Surv(tiempo, estado)~log(volumen)+strata(material)+x80, data = datos, dist="weibull") > summary(aftm2) Call: survreg(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) + x80, data = datos, dist = "weibull") Value Std. Error z p (Intercept) 3.6589 0.03003 121.85 0.00e+00 log(volumen) -0.0241 0.00725 -3.33 8.83e-04 x80 -0.7364 0.04114 -17.90 1.21e-71 material=FD -0.7738 0.09014 -8.58 9.15e-18 material=Ur -1.8037 0.04493 -40.15 0.00e+00 Scale: material=FD material=Ur 0.461 0.165 Weibull distribution Loglik(model)= -1280.2 Loglik(intercept only)= -1343.2 Chisq= 125.95 on 2 degrees of freedom, p= 0 Number of Newton-Raphson Iterations: 7 n= 655 Figura 3.16: Ajuste del modelo AFT con distribución de Weibull. Es importante destacar que en los modelos de vida acelerada la interpretación de los coeficientes β del modelo es diferente de los del modelo de CPH. El efecto de las covariables (volumen, x80 y material) se analizan a partir del punto de vista del tiempo de fallo. Vamos a aplicar la distribución de Weibull en el AFT ya que es el más apropiado en nuestro caso debido seguramente a sus buenas propiedades en este tipo de análisis. En la tabla anterior podemos ver en el ajuste, los valores de cada coeficiente de las covariables , la exponencial de cada β, nos expresa el efecto de la correspondiente variable Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 67 en el tiempo de fallo, el error estándar y el p-valor para cada uno de los coeficientes El significado de los coeficientes β negativos puede interpretarse, por ejemplo, para el volumen con un β negativo, como el tiempo de fallo es más pequeño en las tuberías con mayor volumen que en las de menor volumen. Por el contrario si el coeficiente β fuese positivo para el volumen diríamos que el tiempo de fallo es mayor en las tuberías con mayor volumen. En nuestro caso tenemos todas los coeficientes de las covariables con β negativos. Vamos a interpretar los β mediante sus exp(β) de la forma 1 − exp(β) en %. por lo que tenemos: Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3 de volumen es del 2.4 %. Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas antes de 1980 es del 52.11 %. Para la covariable material tenemos que, para la uralita la disminución del tiempo de fallo es del 83.53 % y para la fundición dúctil tenemos que la disminución del tiempo de fallo es del 53.87 %. Como hemos visto en este caso la forma de interpretar los coeficientes es diferente a la del modelo de CPH. 3.5. 3.5.1. Modelo semi-paramétrico AFT para datos censurados Estimador de Buckley-James El modelo de regresión lineal, junto con el estimador de mínimos cuadrados, tiene un papel fundamental en el análisis de datos. Para datos de tiempo potencialmente censurados, el estimador de mínimos cuadrados no se puede calcular porque los tiempos de fallo son desconocidos para las observaciones censuradas. Una serie de autores Miller (1976), Buckley & James (1979), Koul et al (1981), ampliaron el principio de mínimos cuadrados para dar cabida a la censura. El estimador de Miller, requiere que tanto el tiempo de censura como el Comparación de dos modelos de regresión en fiabilidad 68 Modelo de tiempo de vida acelerada de fallo satisfagan al modelo de regresión, mientras que el estimador de Koul et al. (1981), requiere que el tiempo de censura es independiente de las covariables. Miller & Halpern (1982) encontraron que el estimador de Buckley-James es más fiable que los de Miller y Koul et al. En 1979 Buckley & James propusieron un estimador de mínimos cuadrados modificado. Las propiedades teóricas del estimador de Buckley-James fueron investigadas por numerosos científicos como Ritov (1990) y Lai & Ying (1991). A pesar de los avances teóricos, el modelo, en la práctica, es rara vez utilizado debido a su complejidad numérica. La función de estimación del estimador de Buckley-James no es ni continua ni monótona y sus raíces pueden no existir, ver James & Smith (1984). Como resultado de sus débiles requerimientos en el mecanismo de censura y su comparable eficiencia con el clásico estimador de mínimos cuadrados, el estimador de Buckley-James es una elección natural para el modelo de tiempo de vida acelerada. Aunque el algoritmo iterativo de Buckley & James presenta algunos inconvenientes: Primero, no se garantiza la convergencia del algoritmo. Segundo, incluso si el algoritmo convergiese, no está claro que nos lleve a un estimador consistente ya que los resultados teóricos fueron establecidos basándose en la hipótesis de linealidad local. Además, la matriz de covarianzas del estimador de Buckley-James es difícil de obtener porque implica a la función de riesgo no especificada del término del error no observado, que puede no estar bien estimado mediante estimación no paramétrica con datos no censurados. La dificultad numérica se incremente a la par que lo hacen las covariables del modelo. Un paso clave en el algoritmo iterativo de Buckley-James es el estimador inicial. Como se muestra en Ritov y Lai & Ying, la función de estimación a nivel local es asintóticamente lineal. Recordando el modelo de tiempo de vida acelerada visto anteriormente (AFT), suponemos que tenemos una muestra aleatoria de n sujetos. Para i = 1, . . . , n, sea Ti y Ci el tiempo de fallo y el tiempo de censura respectivamente para el i-ésimo sujeto, y sea Xi el correspondiente p-vector de covariables. Como es habitual, suponemos que Ti y Ci son independientes condicionadas a Xi . Los datos consisten en (Tei , δi , Xi ) con i = 1, . . . , n, Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 69 donde Tei = mı́n(Ti , Ci ), δi = I[Ti ≤ Ci ] y siendo I[·] la función indicadora. ½ 1 si Ti ≤ Ci δi = . 0 si Ti > Ci Si ponemos Yi = ln Ti . El modelo de regresión lineal semi-paramétrico toma la forma Yi = XiT β + εi (3.8) donde β es un p-vector de parámetros de regresión desconocidos, y ²i con i = 1, . . . , n, son los términos de error independiente con una común pero completamente inespecificada función de distribución. La ecuación (3.8) es la comúnmente llamada AFT o modelo de vida acelerada (Cox & Oakes (1984) y Kalbfleisch & Prentice (2002)). Este modelo es intuitivamente atractivo, ya que proporciona una caracterización directa de los efectos de las covariables en el tiempo de fallo. Se puede reemplazar la log-transformación del tiempo de fallo en (3.8) por una transformación diferente. Para datos no censurados, el estimador clásico de mínimos cuadrados se obtiene minimizando la función objetivo n 1X (Yi − α − XiT β)2 n i=1 (3.9) con respecto a α y β, donde α es la media de la distribución del error. La minimización de (3.9) nos proporciona la siguiente expresión para la estimación de β n X (Xi − X)(Yi − XiT β) = 0, (3.10) i=1 n 1X Xi . Por supuesto, el estimador resultante posee una forma simple y su n i=1 matriz de covarianzas puede ser fácilmente estimada. donde X = Con presencia de censura, los valores de Ti asociados con δi = 0 son desconocidos, por lo que (3.10) no puede ser utilizada directamente para estimar a β. Buckley & James modificaron la expresión (3.10) mediante la sustitución de cada Yi con E[Yi |Tei , δi , Xi ] que se aproxima de la forma Z Ybi (β) = δi Yei + (1 − δi ) ∞ udFbβ (u) ei (β) 1 − Fbβ (ei (β)) + XiT β , Comparación de dos modelos de regresión en fiabilidad 70 Modelo de tiempo de vida acelerada donde Yei = ln Tei , ei (β) = Yei − XiT β y Fbβ es el estimador de Kaplan-Meier de F basada en los datos transformados (ei (β), δi ) con i = 1, . . . , n, esto es Y 1 − Fbβ (t) = 1 − n X i:ei (β)<t δi I [ej (β) ≥ ei (β)] . (3.11) j=1 Definimos n X U (β, b) = (Xi − X)(Ybi (b) − XiT β), i=1 o n ³ ´ X U (β, b) = (Xi − X) Ybi (b) − Y (b) − (Xi − X)T β , i=1 n 1Xb donde Y (b) = Yi (b). Entonces el estimador de Buckley-James βbBJ es la raíz de la n i=1 ecuación U (β, β) = 0. Es fácil ver que U (β, β) no es ni continua ni monótona en β. De este modo resulta difícil de calcular el estimador, especialmente cuando β es multidimensional. Podemos hacer algún comentario sobre el modelo: 1. Se deduce de los cálculos anteriores de que existen dos requisitos que se deben de cumplir si se quiere utilizar el modelo de Buckley-James: a) El modelo es lineal en los coeficientes b) La distribución de los residuos no debería depender de los valores de las covariables (homocedasticidad). La comprobación de estos supuestos bajo censura puede resultar muy difícil, y en algunos casos imposible. 2. Ya hemos mencionado anteriormente que, además de lo visto en el punto (1.a) anterior, no se realizan más hipótesis con respecto a la distribución residual. Esta es la principal diferencia entre el modelo de Buckley-James y los modelos de tiempo de vida acelerada paramétricos. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 71 3. Debido a la naturaleza discreta de la función de distribución Fbβ (u) el modelo no siempre converge, sino que puede oscilar entre dos o más valores. El promedio de estos valores se toma como la estimación de un coeficiente de regresión. Las oscilaciones son generalmente insignificantes en la práctica. Una vez que decidimos no utilizar el modelo de CPH para un problema dado, existen todavía muchas opciones que pueden ser consideradas, antes que el modelo de BuckleyJames, como son la familia de modelos paramétricos de tiempo de vida acelerada que se han tratado anteriormente. 3.5.2. Estimador de mínimos cuadrados para datos censurados En el 2006, Jin et al., desarrollaron un nuevo procedimiento de estimación basado en el principio de mínimos cuadrados a través de rigurosas justificaciones teóricas. El nuevo procedimiento nos lleva a una clase de estimadores consistentes y asintóticamente normales. Además, el nuevo procedimiento estima también a la matriz de covarianzas de los estimadores consistentes a través de una aproximación por remuestreo. Siguiendo con los estudios de Buckley & James, podemos “linealizar” la función de estimación primeramente fijando un valor b y entonces resolviendo la ecuación U (β, b) = 0 para β. Esta operación nos lleva a β = L(b) donde " n #−1 " n # ³ ´ X X β = L(b) = (Xi − X)⊗2 (Xi − X) Ybi (b) − Y (b) . i=1 i=1 donde a⊗0 = 1, a⊗1 = a y a⊗2 = aaT . Siguiendo este procedimiento se llega a un algoritmo iterativo simple ³ ´ b b β(m) = L β(m−1) , m≥1 (3.12) Se puede demostrar a través de los estudios de Lai & Ying (1991), que L(b) es asintóticamente lineal en b. De este modo, si elegimos un estimador consistente de β0 como valor inicial en (3.12), entonces, para cualquier m fijado, βb(m) debería también ser consistente. Además, se espera que βb(m) sea normal asintóticamente hablando si el estimador inicial es asintóticamente normal. Comparación de dos modelos de regresión en fiabilidad 72 Modelo de tiempo de vida acelerada Un estimador inicial asintóticamente normal y consistente de βb0 puede ser obtenido por el método rank-based de Jin et al.,(2003). Establecemos al estimador inicial βb(0) como el estimador de tipo Gehan, de Gehan E.A. (1965), βb(G) , que puede ser calculado minimizando la función convexa n X n X δi (ei (β) − ej (β))− , i=1 j=1 donde a− = I [a < 0] |a|. Esta minimización es un simple problema de programación lineal (Jin et al.,(2003)). Dado βb(0) , la iteración en (3.12) implica cálculos triviales de los estimadores de mínimos cuadrados. Se puede demostrar que, para cada m fijada, βb(m) es asintóticamente normal y consistente. Además, βb(m) es asintóticamente una combinación lineal del estimador de Gehan βbG y del estimador de Buckley-James βbBJ en que ¡ ¢m ¡ ¡ ¢m ¢ ¡ ¢ βb(m) = I − D−1 A βbG + I − I − D−1 A βbBJ + op n−1/2 (3.13) n ¢⊗2 1 X¡ es la matriz pendiente de la donde I es la matriz identidad, D = lı́m Xi − X n→∞ n i=1 función de estimación de mínimos cuadrados para datos no censurados, y A es la matriz pendiente de la función estimada de Buckley-James. Cuando el nivel de la censura se reduce a cero la matriz A se aproxima a D. Entonces el primer término en el lado derecho de la ecuación (3.13) se vuelve insignificante y cada βb(m) aproxima al estimador de mínimos cuadrados. Si el algoritmo iterativo dado en (3.12) converge, entonces el límite resuelve exactamente la ecuación original de Buckley-James. Incluso si la secuencia iterativa no converge, los estimadores siguen siendo consistentes y asintóticamente normales. En términos de una gran muestra el comportamiento caracterizado por (3.13), se puede demostrar que, si la función de riesgo λ(y) del error de distribución es no decreciente en y, como es el caso en particular con las distribuciones Normal, Logística y doble exponencial, cuando la matriz D − A es definida no-negativa, que implica que m (I − D−1 A) se aproxima a 0 o βb(m) se aproxima a βbBJ cuando m tiende a ∞. Se deduce que de (3.13) tenemos que βb(m) es asintóticamente normal. Dado que las matrices de covarianza están limitadas, tanto a βbG como a βbBJ implican a la función de riesgo desconocida λ(·), la limitación de la matriz de covarianzas βb(m) también lo hace. De Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 73 este modo, desarrollamos un procedimiento de remuestreo para aproximar la distribución de βb(m) . Sea βbG∗ minimizada de la forma n X n X Zi Zj δi (ei (β) − ej (β))− , i=1 j=1 donde Zi con i = 1, . . . , n, son variables aleatorias independientes y positivas con E[Zi ] = var[Zi ] = 1. Esto es una leve modificación del trabajo de Jin et al. (2003). Además definimos L∗ (b) = " n X Zi (Xi − X)⊗2 #−1 " n X i=1 # ³ ´ ∗ Zi (Xi − X) Ybi∗ (b) − Y (b) , i=1 donde Z Ybi∗ (b) = δi Yei + (1 − δi ) ∞ ei (b) udFbb∗ (u) 1 − Fbb∗ (ei (b)) + XiT b , Fbb∗ (t) Y 1 − =1− n X i:ei (b)<t Zi δ i Zj I [ej (b) ≥ ei (b)] , j=1 n 1 X b∗ ∗ ∗ y Y (b) = Y (b). Finalmente, definimos la secuencia iterativa βb(0) = βbG∗ y βb(m) = n i=1 i L∗ (βb∗ ) con m ≥ 1. ∗ (m−1) ∗ Como hemos dicho antes, el valor inicial βb(0) del proceso iterativo de βbG∗ , que es el minimi- zador de n X n X i=1 j=1 ¯ ¯ n X n ¯ ¯ X ¯ ¯ T Zi Zj δi |ei (β) − ej (β)| + ¯M − β Zk Zl δk (Xl − Xk )¯ , ¯ ¯ k=1 l=1 donde M es un número especificado de antemano extremadamente grande. ∗ ∗ Para la muestra aleatoria dada (Zi , . . . , Zn ), el proceso de iteración βb(k) = L∗ (βb(k−1) ) nos conduce a βb∗ con 1 ≤ k ≤ m. Mediante la generación de muestras aleatorias de (k) Comparación de dos modelos de regresión en fiabilidad 74 Modelo de tiempo de vida acelerada ∗ (Zi , . . . , Zn ) repetidamente de N tiempos, podemos obtener N realizaciones de βb(m) , de∗ notadas por βb(m),j con j = 1, . . . , N . Para cada m ≥ 1, la matriz de covarianzas de βb(m) puede ser estimada de la forma N 1 X b∗ ∗ ∗ ∗ s = (β(m),j − β (m) )(βb(m),j − β (m) )T N − 1 j=1 2 ∗ donde β (m) = N 1 X b∗ β , para más detalles ver Jin et al., (2006). N j=1 (m),j Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 3.6. 3.6.1. 75 Ajuste del modelo semi-paramétrico AFT para nuestros datos Estimador de Buckley-James Vamos a realizar este ajuste mediante la sentencia bj() del paquete Design del entorno R, ver Stare et al., (2001). Se realiza simplemente con la sentencia: > ###### Buckley-James ###### > buckley<-bj(formula=Surv(tiempo, estado)~presion+trafico+log(volumen)+strata(material)+x80, + data = datos, + link="ident", method="fit", x=TRUE, y=TRUE) > buckley Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ presion + trafico + log(volumen) + strata(material) + x80, data = datos, link = "ident", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 655 Events 324 Regression d.f. 5 sigma 7.3581 d.f. 318 Coef Intercept 31.3019 presion -0.0033 trafico 0.9369 volumen -0.4265 material=material=Ur 5.9602 x80 -18.2700 g S.E. Wald Z 2.5599 12.23 0.0385 -0.09 0.8274 1.13 0.2875 -1.48 1.1849 5.03 1.3612 -13.42 7.965 Pr(>|Z|) <0.0001 0.9311 0.2575 0.1380 <0.0001 <0.0001 Figura 3.17: Ajuste del modelo de Buckley-James. Comparación de dos modelos de regresión en fiabilidad 76 Modelo de tiempo de vida acelerada Realizando el mismo ajuste pero eliminando las covariables que menos significativas nos han salido como son la presion y el trafico tenemos: > #### Buckley-James reducido #### > buckleyred<-bj(formula=Surv(tiempo, estado)~log(volumen)+strata(material)+x80, + data = datos, + link="ident", method="fit", x=TRUE, y=TRUE) > buckleyred Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ log(volumen) + strata(material) + x80, data = datos, link = "ident", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 655 Events 324 Regression d.f. 3 sigma 7.3360 d.f. 320 Coef Intercept 32.7504 volumen -0.3818 material=material=Ur 5.7153 x80 -18.2203 g S.E. Wald Z 1.5495 21.14 0.2820 -1.35 1.1610 4.92 1.3511 -13.49 7.853 Pr(>|Z|) <0.0001 0.1758 <0.0001 <0.0001 Figura 3.18: Ajuste del modelo de Buckley-James con las covariables significativas. De nuevo se nos presenta el caso en el que la covariable volumen no es significativa por lo que focalizaremos nuestra atención en las covariables material y x80, por lo que tendremos nuevamente el ajuste: Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 77 > #### Buckley-James reducido final #### > buckleyfin<-bj(formula=Surv(tiempo, estado)~strata(material)+x80, + data = datos, + link="ident", method="fit", x=TRUE, y=TRUE) > buckleyfin Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ strata(material) + x80, data = datos, link = "ident", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 655 Events 324 Regression d.f. 2 sigma 7.2892 d.f. 321 Coef Intercept 34.2339 material=material=Ur 5.8957 x80 -18.3271 g S.E. Wald Z 1.0939 31.30 1.1535 5.11 1.3332 -13.75 7.575 Pr(>|Z|) <0.0001 <0.0001 <0.0001 Figura 3.19: Ajuste final del modelo de Buckley-James con las covariables significativas. Vamos a realizar un nuevo ajuste sin considerar la presion ni el trafico, separando de igual forma que en el caso paramétrico el material en tUr y en tFD, para observar el ajuste a ver que conclusiones podemos obtener. Por lo que tendremos: Comparación de dos modelos de regresión en fiabilidad 78 Modelo de tiempo de vida acelerada > ##### Ajuste de Buckley-James para tUr ##### > buckley2<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data = tUr, + link="ident", method="fit", x=TRUE, y=TRUE ) > print.bj(buckley2) Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tUr, link = "ident", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 492 Events 246 Regression d.f. 2 sigma 7.2692 d.f. 243 Coef Intercept 36.9755 volumen -0.6870 x80 -19.1622 S.E. 1.3981 0.3355 2.2478 Wald Z 26.45 -2.05 -8.52 g 2.707 Pr(>|Z|) <0.0001 0.0406 <0.0001 Figura 3.20: Ajuste del modelo de Buckley-James para tUr. Podemos interpretar el efecto de las covariables de este modelo, de la forma: Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3 de volumen es del 49.69 %. Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas antes de 1980 es del 99 %. Volvemos a hacer hincapié en el hecho de que la covariable x80 nos da un valor tan elevado probablemente debido al efecto de no haber considerado el truncamiento por la izquierda. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 79 Ahora considerando el material tFD tenemos el ajuste de la forma > ##### Ajuste de Buckley-James para tFD ##### > buckley4<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data = tFD, + link="log", method="fit", x=TRUE, y=TRUE ) > print.bj(buckley4) Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tFD, link = "log", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 163 Events 78 Regression d.f. 2 sigma 0.6587 d.f. 75 Coef Intercept 3.6503 volumen 0.0056 x80 -1.1162 S.E. Wald Z 0.2095 17.43 0.0458 0.12 0.1523 -7.33 g gr 0.550 1.733 Pr(>|Z|) <0.0001 0.9021 <0.0001 Figura 3.21: Ajuste del modelo de Buckley-James para tFD. Como podemos apreciar en este caso, la covariable volumen no nos ha salido significativa, por lo que para este caso tendremos que considerar sólo la covariable x80. Nuevamente se nos presenta un ajuste de la forma Comparación de dos modelos de regresión en fiabilidad 80 Modelo de tiempo de vida acelerada > buckley6<-bj(formula=Surv(tiempo, estado)~x80, data = tFD, + link="log", method="fit", x=TRUE, y=TRUE ) > print.bj(buckley6) Buckley-James Censored Data Regression bj(formula = Surv(tiempo, estado) ~ x80, data = tFD, link = "log", method = "fit", x = TRUE, y = TRUE) Discrimination Indexes Obs 163 Events 78 Regression d.f. 1 sigma 0.6548 d.f. 76 g gr 0.545 1.725 Coef S.E. Wald Z Pr(>|Z|) Intercept 3.6347 0.1091 33.30 <0.0001 x80 -1.1143 0.1487 -7.49 <0.0001 Figura 3.22: Re-ajuste del modelo de Buckley-James para tFD. Como podemos apreciar, no se nos presenta un buen ajuste para el tipo de material fundición dúctil (tFD), la única covariable significativa para este caso es la covariable que depende del año de instalación de la tubería (x80). 3.6.2. Estimador de mínimos cuadrados para datos censurados Vamos a realizar este ajuste de mínimos cuadrados mediante la sentencia lss() del paquete lss del entorno R, ver Huang & Jin (2007). Pasamos directamente a realizar el ajuste a las covariables que nos han salido significativas en los casos anteriores Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 81 > ### Ajuste de mínimos cuadrados para los datos ### > mcuad4<-lss(formula=Surv(tiempo, estado)~strata(material)+log(volumen)+x80, data=datos, + trace=T, mcsize=500, gehanonly=F, maxiter=50, + tolerance=0.001, cov = T, na.action = na.exclude) betag: Iteration: Beta: Iteration: Beta: Iteration: Beta: Iteration: Beta: Iteration: Beta: 6.7811440 -0.3755889 -17.6720616 1 6.0074328 -0.3838247 -18.0615900 2 5.8017504 -0.3833769 -18.1618404 3 5.738189 -0.382689 -18.199581 4 5.7235912 -0.3824344 -18.2114342 5 5.718821 -0.382359 -18.215878 Converged. Criteria Satisfied: 0.001 Call: lss(formula = Surv(tiempo, estado) ~ strata(material) + log(volumen) + x80, data = datos, trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude) Number of Observations: Number of Events: 324 Number of Censored: 331 Number of Iterations: 5 Resampling Number: 500 655 Gehan Estimator: Estimate Std. Error Z value Pr(>|Z|) strata(material)material=Ur 6.7811440 1.020232 6.646671 2.997957e-11 log(volumen) -0.3755889 0.287801 -1.305030 1.918826e-01 x80 -17.6720616 1.214418 -14.551875 0.000000e+00 Gehan Covariance Matrix: strata(material)material=Ur log(volumen) x80 strata(material)material=Ur 1.04087261 -0.03615938 0.58613997 log(volumen) -0.03615938 0.08282939 -0.07715294 x80 0.58613997 -0.07715294 1.47481149 Least-Squares Estimator: Estimate Std. Error Z value Pr(>|Z|) strata(material)material=Ur 5.718821 1.1156563 5.125970 2.960092e-07 log(volumen) -0.382359 0.2800622 -1.365265 1.721699e-01 x80 -18.215878 1.2713900 -14.327530 0.000000e+00 LSE Covariance Matrix: strata(material)material=Ur log(volumen) x80 strata(material)material=Ur 1.24468902 -0.01941822 0.86823722 log(volumen) -0.01941822 0.07843483 -0.07453969 x80 0.86823722 -0.07453969 1.61643247 Figura 3.23: Ajuste del modelo de mínimos cuadrados con las covariables significativas. Comparación de dos modelos de regresión en fiabilidad 82 Modelo de tiempo de vida acelerada Al igual que en caso anterior vamos a separar de igual forma que en el caso paramétrico el material en tUr y en tFD. Por lo que tendremos: > ### Ajuste de mínimos cuadrados para el material tUr ### > mcuad1<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tUr, + trace=T, mcsize=500, gehanonly=F, maxiter=50, + tolerance=0.001, cov = T, na.action = na.exclude) betag: -0.687385 -18.818601 Iteration: 1 Beta: -0.6873417 Iteration: 2 Beta: -0.6880548 Iteration: 3 Beta: -0.6880696 Iteration: 4 Beta: -0.6880649 -19.0569426 -19.1349082 -19.1627678 -19.1744265 Converged. Criteria Satisfied: 0.001 Call: lss(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tUr, trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude) Number of Observations: Number of Events: 246 Number of Censored: 246 Number of Iterations: 4 Resampling Number: 500 492 Gehan Estimator: Estimate Std. Error Z value Pr(>|Z|) log(volumen) -0.687385 0.3015323 -2.27964 0.02262905 x80 -18.818601 1.6775807 -11.21770 0.00000000 Gehan Covariance Matrix: log(volumen) x80 log(volumen) 0.09092170 -0.06861122 x80 -0.06861122 2.81427716 Least-Squares Estimator: Estimate Std. Error Z value Pr(>|Z|) log(volumen) -0.6880649 0.2833069 -2.428691 0.01515344 x80 -19.1744265 1.7166712 -11.169540 0.00000000 LSE Covariance Matrix: log(volumen) x80 log(volumen) 0.08026280 -0.06445246 x80 -0.06445246 2.94695991 Figura 3.24: Ajuste del modelo de mínimos cuadrados para tUr. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 83 Considerando el estimador de Gehan o el de mínimos cuadrados dados en las salidas del ajuste anterior podemos interpretar el efecto de las covariables de este modelo, de la forma: Para la covariable volumen la disminución del tiempo de fallo en una diferencia 1 m3 de volumen es del 49.74 %. Para la covariable x80 la disminución del tiempo de fallo para las tuberías instaladas antes de 1980 es del 99 %. Como podemos ver, las conclusiones y los resultados son casi idénticos a los del modelo de Buckley-James. Volvemos a hacer hincapié en el hecho de que la covariable x80 nos da un valor tan elevado probablemente debido al efecto de no haber considerado el truncamiento por la izquierda. Comparación de dos modelos de regresión en fiabilidad 84 Modelo de tiempo de vida acelerada Para el material tFD tenemos el ajuste > ### Ajuste de mínimos cuadrados para el material tFD ### > mcuad2<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tFD, + trace=T, mcsize=500, gehanonly=F, maxiter=50, + tolerance=0.001, cov = T, na.action = na.exclude) betag: 0.328691 -17.486119 Iteration: Beta: Iteration: Beta: Iteration: Beta: Iteration: Beta: Iteration: Beta: 1 0.2783885 2 0.2715742 3 0.2707383 4 0.2704592 5 0.2703833 -17.6186183 -17.6311282 -17.6369316 -17.6398482 -17.6413343 Converged. Criteria Satisfied: 0.001 Call: lss(formula = Surv(tiempo, estado) ~ log(volumen) + x80, data = tFD, trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude) Number of Observations: Number of Events: 78 Number of Censored: 85 Number of Iterations: 5 Resampling Number: 500 163 Gehan Estimator: Estimate Std. Error Z value Pr(>|Z|) log(volumen) 0.328691 0.5083365 0.6466011 0.5178902 x80 -17.486119 1.6056723 -10.8902163 0.0000000 Gehan Covariance Matrix: log(volumen) x80 log(volumen) 0.2584060 -0.2080217 x80 -0.2080217 2.5781836 Least-Squares Estimator: Estimate Std. Error Z value Pr(>|Z|) log(volumen) 0.2703833 0.5369633 0.5035414 0.6145837 x80 -17.6413343 1.7085912 -10.3250760 0.0000000 LSE Covariance Matrix: log(volumen) x80 log(volumen) 0.2883296 -0.2789458 x80 -0.2789458 2.9192840 Figura 3.25: Ajuste del modelo de mínimos cuadrados para tFD. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 85 Como podemos ver la covariable volumen no nos sale significativa en este caso, por lo que la eliminaremos la covariable volumen > ## Ajuste de mínimos cuadrados sólo con x80 para el material tFD ## > mcuad3<-lss(formula=Surv(tiempo, estado)~x80, data=tFD, + trace=T, mcsize=500, gehanonly=F, maxiter=50, + tolerance=0.001, cov = T, na.action = na.exclude) betag: -17 Iteration: 1 Beta: -17.38947 Iteration: 2 Beta: -17.47548 Iteration: 3 Beta: -17.52001 Iteration: 4 Beta: -17.54307 Iteration: 5 Beta: -17.55501 Converged. Criteria Satisfied: 0.001 Call: lss(formula = Surv(tiempo, estado) ~ x80, data = tFD, trace = T, mcsize = 500, maxiter = 50, tolerance = 0.001, gehanonly = F, cov = T, na.action = na.exclude) Number of Observations: Number of Events: 78 Number of Censored: 85 Number of Iterations: 5 Resampling Number: 500 163 Gehan Estimator: Estimate Std. Error Z value Pr(>|Z|) [1,] -17 1.592271 -10.67658 0 Gehan Covariance Matrix: [,1] [1,] 2.535327 Least-Squares Estimator: Estimate Std. Error Z value Pr(>|Z|) [1,] -17.55501 1.67535 -10.47841 0 LSE Covariance Matrix: [,1] [1,] 2.806798 Figura 3.26: Ajuste del modelo de mínimos cuadrados sólo con la covariable x80 para tFD. Comparación de dos modelos de regresión en fiabilidad 86 Modelo de tiempo de vida acelerada Al igual que en el modelo de Buckley-James, no se nos presenta un buen ajuste para el tipo de material fundición dúctil (tFD), la única covariable significativa para este caso es la covariable que depende del año de instalación de la tubería (x80). 3.7. Comparación entre los modelos de CPH y AFT en análisis de supervivencia Como ya dijimos anteriormente, en el análisis de supervivencia, en general se nos van a presentar observaciones censuradas, los métodos estadísticos usuales no pueden aplicarse a estos tipos de datos. Como consecuencia, encontramos métodos específicos en la literatura estadística para los datos de supervivencia. Si consideramos modelos de regresión los más utilizados mundialmente son el modelo de CPH y el modelo de AFT. El primero de estos y sus diversas generalizaciones se utiliza principalmente en campos como el de la Medicina y la Bioestadística, mientras la otra alternativa (AFT), se utiliza principalmente en teoría de la fiabilidad y en experimentos industriales. El modelo de CPH se utiliza principalmente cuando la estimación y la inferencia sobre los parámetros de interés son posibles sin asumir ningún tipo de función de riesgo base, esto es, no es necesario especificar una distribución de supervivencia para modelar los efectos de las covariables explicativas sobre la variable explicada. Sin embargo, este modelo se basa en la hipótesis de riesgos proporcionales y quizás dicha hipótesis puede no mantenerse en algunos estudios de supervivencia. Si esta hipótesis no se mantiene, no debemos utilizar el modelo estándar de Cox ya que esto nos puede suponer la presencia de un gran sesgo y la pérdida de poder en la estimación, todo esto puede verse en los trabajos de Abrahamowicz et al. (1996) y Hess (1994). La mayoría de las técnicas de evaluación de la bondad de ajuste en modelos de regresión de riesgos proporcionales y de los métodos de detección de la violación del supuesto de riesgos proporcionales, pueden encontrarse en los estudios de Nagelgerke et al. (1984), Wei (1984), Kay (1977), Hess (1995), Moreau et al. (1985), Kooperberg et al. (1995) entre otros. En los años noventa varios métodos flexibles fueron propuestos para tener en cuenta la suposición de no-proporcionalidad de riesgos como los de Abrahamowicz et al. (1996), Hess (1994), Kooperberg et al. (1995), Gray (1992). Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 87 Por otro lado, si consideramos los modelos de AFT, estos, pueden ser de bastante interés porque se pueden escribir especificando una relación directa entre el logaritmo del tiempo de supervivencia y las covariables explicativas, en el mismo sentido que el modelo de regresión lineal múltiple. Sin embargo, su principal desventaja es que por lo general la estimación de estos modelos se realiza asumiendo una distribución para el tiempo de supervivencia o duración, que en la mayoría de los casos es desconocida. La distribución semi-paramétrica en los modelos de AFT con una distribución de error desconocida ha sido ampliamente estudiada en la literatura para datos censurados. En particular, existen dos métodos que han recibido especial atención. Uno de ellos es el estimador de Buckley-James que ajusta observaciones censuradas utilizando el estimador de Kaplan-Meier. El otro método es el conocido estimador de rangos que viene motivado por la función score de la verosimilitud parcial, ver por ejemplo, Prentice (1978), Buckley & James (1979), Ritov (1990), Tsiatis (1990), Wei, Yin & Lin (1990) y Ying (1993) entre otros. Teniendo en cuenta que el modelo de CPH es el modelo principal de elección para los datos de supervivencia, tal vez la pregunta es “¿Por qué no utilizar el modelo de CPH?”. Presentamos aquí tres razones: Las razones principales para el uso del modelo de BackleyJames son: 1. El supuesto básico del modelo de CPH, o sea la proporcionalidad de los riesgos, no siempre se cumple. A pesar de los excelentes diagnósticos que hay disponibles para el modelo de CPH, este hecho es a menudo pasado por alto, probablemente porque las alternativas involucran cálculos complejos. 2. Los resultados del ajuste con el modelo de CPH no permiten su uso con fines de predicción. Para ser capaces de predecir esto, se necesita estimar el riesgo base, del cual, no siempre se dispone. 3. Los resultados de los ajustes del modelo de CPH son a veces difíciles de explicar con estadísticos y a consecuencia de esto tenemos que dar menos información directa de los resultados del ajuste lineal en el tiempo o con el log-tiempo. Comparación de dos modelos de regresión en fiabilidad 88 Modelo de tiempo de vida acelerada Sin embargo, el modelo de Buckley-James no es ampliamente usado en la práctica, principalmente debido a las dificultades en el cálculo de los estimadores semi-paramétricos mencionados antes, incluso en situaciones donde el número de covariables es relativamente pequeño (Jin et al., (2003)). Para las covariables de grandes dimensiones, estos modelos son aún más difíciles de aplicar, o sus versiones regularizadas, especialmente cuando la selección de variables es necesaria junto con la estimación. Una metodología bastante interesante es la propuesta de Stute (1999), que puede utilizarse para estimar modelos de regresión lineales con observaciones censuradas. Esta propuesta tiene buenas propiedades teóricas estudiadas también por Stute (1993) y (1996a) y parece ser un modelo interesante para su uso en el análisis de supervivencia. El modelo propuesto por Stute puede ser considerado como un modelo de AFT, pero con la característica importante que nos permite estimar y hacer inferencia sobre los parámetros del modelo, sin suponer la distribución de la variable tiempo de vida, por lo general desconocida. Por lo tanto, se evita el problema de asumir una distribución de probabilidad específica, y desde este punto de vista, se podría considerar una importante alternativa al modelo CPH. Además, este modelo presenta varias ventajas al compararlo con el modelo de CPH: No se necesita la verificación de la hipótesis de riesgos proporcionales. Modeliza directamente el efecto de las covariables explicativas sobre la supervivencia, por lo que la interpretación de los resultados es más clara y más fácil (en términos de efectos sobre el tiempo de supervivencia, como en los modelos estadísticos clásicos,) no como en los modelos de CPH, donde modelizamos el efecto de las covariables en una probabilidad condicionada. Además, mediante el uso de esta metodología se puede estimar la vida media residual de un sujeto que ya ha sobrevivido hasta el tiempo t. Es fácil de evaluar y puede extenderse para considerar situaciones más complejas, como, por ejemplo, las interacciones entre las covariables y el tiempo de supervivencia o considerar los efectos no paramétricos de algunas covariables o de covariables con parámetros dependientes del tiempo. Comparación de dos modelos de regresión en fiabilidad Modelo de tiempo de vida acelerada 89 Por lo tanto, puede ser de interés para comparar, bajo ciertas condiciones, la mejora de la propuesta de Stute basada en el modelo semi-paramétrico de AFT. Dicha propuesta queda pendiente en futuras líneas de investigación, ver Apéndice C. 3.8. Conclusiones El modelo de regresión de CPH es el modelo mayoritariamente utilizado para analizar el pronóstico de los factores en la investigación biomédica. Esto se debe probablemente al hecho de que este modelo nos permite estimar y hacer inferencia sobre los parámetros sin la presunción de ninguna distribución para los tiempos de vida, que a menudo suele ser desconocida. Sin embargo, este modelo requiere el cumplimiento de la proporcionalidad de riesgos, que no siempre se satisface para los datos. En estas situaciones, los modelos de tiempos de vida acelerada AFT proporcionan una herramienta alternativa para ajustar los datos. Además, bajo estos modelos podemos medir de forma directa el efecto de las covariables explicativas sobre el tiempo de supervivencia y no sobre el concepto de razón de riesgo que es la razón de dos probabilidades condicionadas, como hacíamos en el modelo de CPH. Esta característica permite una interpretación de los resultados ya que los parámetros miden el efecto de la covariable correspondiente con respecto a la media del tiempo de vida. Realizados todos los cálculos necesarios para las valoraciones de ambos modelos se puede concluir que las tuberías que tienen menos tendencia al fallo poseen las siguientes características, como la disminución del volumen de la tubería, o que su material sea de fundición dúctil, así como que la tubería fuese instalada después de 1980, como ya se contrastó en el modelo de CPH. Se han comparado dos modelos diferentes, el modelo semi-paramétrico de CPH y el modelo paramétrico de tiempo de vida acelerada. Especialmente, el modelo de CPH y el paramétrico de tiempo vida acelerada para tres de las distribuciones más comunes en el ámbito de la fiabilidad y la supervivencia, como son la distribución de Weibull, la Lognormal y la Loglogística. Si tratamos el modelo de AFT mediante estimadores semi-paramétricos, se piensa que el estimador de Buckley-James para el ajuste de modelos lineales para datos censurados Comparación de dos modelos de regresión en fiabilidad 90 Modelo de tiempo de vida acelerada es una alternativa viable al modelo de CPH, y su uso puede ser mejor si se dispone de un software adecuado. Sin embargo, la mejora del estimador de Buckley-James bajo censura no ha sido aún lo suficientemente investigada, por lo que tenemos que tenerlo en cuenta en nuestro caso. En teoría, se nos presentan dos estimadores, el de Gehan y el de mínimos cuadrados, ambos son utilizados muy a menudo en el análisis de regresión lineal para datos no censurados. El test de Wald para los coeficientes de regresión proporciona una guía de ayuda para la selección de covariables en el modelo. Por otra parte, la manera de validar la bondad de ajuste para este tipo de modelos de regresión lineal, es un tema aún abierto que requiere de más investigación. La comparación nos ha llevado a elegir al modelo de tiempo de vida acelerada paramétrico con distribución de Weibull como el modelo que mejor ajusta a los datos, según todos los criterios de bondad de ajuste mencionados en este trabajo. Además nos va a interesar más la capacidad predictiva de este modelo en estudios posteriores. Comparación de dos modelos de regresión en fiabilidad Apéndice A Detalle del software utilizado Todo el análisis estadístico se ha llevado a acabo utilizando el software R, que se encuentra disponible gratuitamente en: http://www.r-project.org/ Se emplearon específicamente: survival: Es un package de R para el análisis de supervivencia, específicamente de este paquete se han utilizado la función Surv() empleada para crear un objeto de tipo supervivencia (una variable). Hemos empleado también la función survfit(), esta función permite crear curvas de supervivencia utilizando el método de KaplanMeier (opción por defecto) o de Fleming y Harrington. También permite predecir la función de supervivencia para modelos de Cox, o un modelo de tiempo de vida acelerada. Utilizamos la función survreg() que permite ajustar modelos de regresión paramétricos en análisis de supervivencia. Éstos son modelos localización y escala para transformaciones de la variable tiempo. Las distribuciones que se pueden modelar directamente a través de la función survreg son la Weibull, la exponencial, la Normal, la Lognormal, la Logística y la Loglogística. Utilizamos la función strata(), que es una función especial usada en el contexto del modelo de supervivencia de Cox y en AFT. Esta función identifica las variables de estratificación cuando ellas aparecen a la derecha de una fórmula. También se ha utilizado la función coxph(), utilizada para ajustar un modelo de riesgos proporcionales, en este trabajo se ha utilizado específicamente para obtener el modelo de riesgos proporcionales de Cox. Hemos utilizado 91 92 Apéndice: Detalle del software utilizado la función cox.zph() para verificar el supuesto de riesgos proporcionales del modelo de Cox. Para más información sobre el package survival ver: http://cran.r-project.org/web/packages/survival/survival.pdf Design: Sirve para realizar modelos de regresión, gráficos, pruebas, validaciones, predicciones. Design es una colección de alrededor de 180 funciones que ayudan en el tema de los modelos de regresión, especialmente en el campo de la Bioestadística y la Epidemiología. También contiene nuevas funciones para modelos de regresión binarios y logísticos y también posee una buena implementación para el modelo de regresión múltiple de Buckley-James para datos censurados a la derecha e implementa una estimación de la máxima verosimilitud para modelos lineales y logísticos. El package Design trabaja con casi cualquier modelo de regresión y está especialmente creado para trabajar con modelos de regresión logísticos, con el modelo de Cox, con el modelo de tiempo de vida acelerada, con modelos lineales ordinarios, con el método de Buckley-James y con el método de mínimos cuadrados generalizados para observaciones especialmente correlacionadas. En nuestro trabajo, hemos utilizado especialmente este package para el uso de la función bj() para el cálculo del estimador de Buckley-James Para más información sobre el package Design ver: http://cran.r-project.org/web/packages/Design/Design.pdf eha: Se utiliza este package de R para el análisis de los eventos históricos en general: En el muestreo de los conjuntos en riesgo en la regresión de Cox, las selecciones en el diagrama de Lexis y en el bootstrapping. El ajuste de riesgos proporcionales paramétricos con truncamiento a la izquierda y censura a la derecha para las familias de distribución más comunes, los riesgos constantes a trozos, y los modelos discretos. El modelo de regresión de AFT para datos truncados a la izquierda y censurados a la derecha. La regresión binaria y de Poisson para datos agrupados, los efectos fijos y aleatorios con el bootstrapping. En nuestro caso, el package eha nos propone alguna extensión de la función coxph(). El package eha también nos propone una implementación alternativa del modelo de AFT, en particular con la función aftreg(). Comparación de dos modelos de regresión en fiabilidad Apéndice: Detalle del software utilizado 93 Para más información sobre el package eha ver: http://cran.r-project.org/web/packages/eha/eha.pdf emplik: Se utiliza este package de R para realizar pruebas de razón de verosimilitud empírica para el análisis de riesgos/cuantiles/medias para datos censurados y/o truncados, también para casos de regresión. Este package implementa una solución alternativa para el estimador de Buckley-James mediante la función BJnoint sin tener en cuenta el término independiente. Para más información sobre el package emplik ver: http://cran.r-project.org/web/packages/emplik/emplik.pdf rms: Se utiliza este package de R para los modelos de regresión, pruebas de diagnóstico, estimaciones, validaciones, gráficos, predicciones, y la composición tipográfica mediante el almacenamiento de los atributos de diseño en el ajuste. Éste package es un conjunto de 229 funciones que ayudan a optimizar en la temática de los modelos de regresión. También contiene funciones para modelos de regresión logística binaria y ordinal, para el método de regresión múltiple de Buckley-James para datos con censura a la derecha, y tiene una implementación penalizada del estimador máximo verosímil para modelos lineales logísticos y ordinales. Éste package funciona con casi cualquier modelo de regresión, pero fue creado especialmente para trabajar con regresión logística binaria u ordinal, la regresión de Cox, el modelo de tiempo de vida acelerada, los modelos lineales ordinarios, el método de Buckley-James, mínimos cuadrados generalizados para observaciones en serie o especialmente correlacionadas, modelos lineales generalizados y regresión de cuantiles. Este package nos brinda una solución alternativa para el cálculo del estimador de Buckley-James sin tener en cuenta el término independiente. Para más información sobre el package rms ver: http://cran.r-project.org/web/packages/rms/rms.pdf lss: Se utiliza este package de R, básicamente para realizar el ajuste por mínimos cuadrados del modelo AFT con datos censurados a la derecha, con la función con el Comparación de dos modelos de regresión en fiabilidad 94 Apéndice: Detalle del software utilizado mismo nombre lss() como se ha hecho en nuestro trabajo. Para más información sobre el package lss ver: http://cran.r-project.org/web/packages/lss/lss.pdf quantreg: Este package de R sirve para poder implementar el modelo de regresión de cuantiles condicionado para datos censurados. Se ha utilizado para el cálculo de la función quantile(). Para más información sobre el package quantreg ver: http://cran.r-project.org/web/packages/quantreg/quantreg.pdf Comparación de dos modelos de regresión en fiabilidad Apéndice B Códigos de las funciones utilizadas #################################################################### ######################### TRABAJO FIN DE MASTER #################### #################################################################### #################################################################### ######################## MODELO SEMI-PARAMETRICO ################### #################################################################### ###################### Modelo de Regresion de Cox ################## #### Pasamos la base de datos del .txt al R #### ejm1.dat<-read.table("C:/Users/Antonio Jesus Lopez/Desktop/UNIVERSIDAD/MASTER EN ESTADISTICA APLICADA/TRABAJO DE INVESTIGACION/Datos_Tuberia/tuberias.txt",header=TRUE) #### Pasamos la variable volumen a m3 #### ejm1.dat$volumen<-ejm1.dat$volumen/1000 ejm1.dat #### Muestra las covariables que tenemos #### 95 96 Apéndice: Códigos de las funciones utilizadas names(ejm1.dat) #### Covertimos los datos en forma de dataframe #### datos<-as.data.frame(ejm1.dat) tUr<-datos[datos$material=="Ur",] #selecciono las tuberias de uralita tFD<-datos[datos$material=="FD",] #selecciono las tuberias de #fundicion ductil #### Realizamos la regresion de Cox #### # volumen=longitud(m)*(diametro(m)/2)^2*pi=m3; suponemos que los #tramos son rectos x80<-1 si se instalo despues de 1980, 0 en otro #caso hacemos log(volumen) para centrar la variable cox1<-coxph(Surv(tiempo,estado)~material+presion+trafico+log(volumen)+x80, data=datos) cox1 #### Una salida mas completa seria mediante la sentencia #### summary(cox1) #### Realizamos de nuevo la regresion de Cox con las variables #### mas significativas #### cox2<-coxph(Surv(tiempo, estado)~log(volumen)+strata(material)+x80, data=datos, method=’breslow’) summary(cox2) Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas #### Funcion de Supervivencia ajustada mediante el modelo de Cox ### summary(survfit(cox2)) #### Grafica de la Supervivencia estimada para el material #### plot(survfit(Surv(tiempo,estado)~material,data=datos), xlab=’anos’, ylim=c(0, 1), ylab=’Supervivencia’,lty = 1:4, col = 2:5, main="Curvas de Supervivencia para el material") legend("topright", legend=c("material=FD","material=Ur"), lty=1:4, col=c("red","green")) #### Grafica del riesgo estimado para el material #### plot(survfit(Surv(tiempo,estado)~material,data=datos), fun="cumhaz", xlab=’anos’, ylim=c(0, 4), ylab=’Riesgo acumulado’, lty = 1:4, col = 2:5, main="Curvas de riesgo acumulado para el material") legend("topright", legend=c("material=FD","material=Ur"), lty=1:4, col=c("red","green")) #### Supuesto de Riesgos Proporcionales #### cox.zph(cox2) ################################################################ ################### Analisis de los residuos ################### ################################################################ #### Residuos de Cox-Snell #### Comparación de dos modelos de regresión en fiabilidad 97 98 Apéndice: Códigos de las funciones utilizadas estado<-datos$estado mresi<-residuals(cox2, type="martingale") csresi<-estado-mresi hazard.csresi<-survfit(Surv(csresi,estado)~1,type="fleming-harrington") plot(hazard.csresi$time,-log(hazard.csresi$surv), xlab=’residuos de Cox-Snell’, ylab=’riesgo acumulado’,lty = 1:4, main="Representacion de los residuos de Cox-Snell") lines(c(0,5),c(0,5)) #### Residuos de martingala #### mres<-residuals(cox2, type=c("martingale")) plot(datos[,1], mres, xlab=c("log(volumen)")[1], ylab="Residuos martingale", main="Residuos de Martingala") abline(h=0, lty=2) lines(lowess(datos[,1], mres, iter=0)) #### Residuos escalados de Schoenfeld #### plot(cox.zph(cox2),var=1, main="Betas para log(volumen)") plot(cox.zph(cox2),var=2, main="Betas para x80") #### Residuos dfbeta #### dfbeta <- residuals(cox2, type="dfbetas") par(mfrow=c(2,2)) for (j in 1:2){ plot(dfbeta[,j], ylab=names(coef(cox2))[j]) abline(h=0, lty=2, col=’black’) lines(c(0,0),c(0,0)) } Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas 99 #### Residuos de deviance #### devresi <- resid(cox2, type="deviance") plot(cox2$linear.predictor, devresi, ylab="Residuos de Deviance", main=’Residuos de deviance’) abline(h=0,lty=2, col=’black’) #################################################################### ########################### MODELO PARAMETRICO ##################### #################################################################### ################# MODELO DE TIEMPO DE VIDA ACELERADA AFT ########### #################################################################### #################################################################### #### Ajuste del modelo de vida acelerada para la distribucion de #### Weibull #### aftm1<-survreg(formula=Surv(tiempo,estado)~longitud+diametro+material+ presion+trafico+x80, data = datos, dist="weibull") summary(aftm1) #### Re-ajuste del modelo de vida acelerada con Weibull #### aftm2<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80, data = datos, dist="weibull") summary(aftm2) Comparación de dos modelos de regresión en fiabilidad 100 Apéndice: Códigos de las funciones utilizadas #### Re-ajuste del modelo de vida acelerada con lognormal #### aftm3<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80, data = datos, dist="lognormal") summary(aftm3) #### Re-ajuste del modelo de vida acelerada con loglogistico #### aftm4<-survreg(formula=Surv(tiempo,estado)~strata(material)+log(volumen)+x80, data = datos, dist="loglogist") summary(aftm4) #################################################################### ####################### Validacion de los modelos AFT ############## #################################################################### #### Comparacion entre modelos mediante -2*LL #### anova(aftm2, aftm3, aftm4, test = "Chisq") #### Validacion mediante la funcion de supervivencia #### LIN.AFT<-function(survfit.obj,dist="weibull",ylim=c(-3,1)) { ## Utiliza estimaciones de K-M para comprobar hipotesis de idoneidad ## para el modelo parametrico AFT. ## strata creara lineas rectas mas o menos paralelas bajo el modelo ## AFT con una distribucion correcta n<-cumsum(survfit.obj$strata) Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas 101 logt<-log(survfit.obj$time) if (dist=="weibull" | dist=="exponential") {Sinv<-log(-log(survfit.obj$surv));ylab="ln(-ln(S))"} else if (dist=="lognormal") {Sinv<-qnorm(1-survfit.obj$surv); ylab="z(1-S)"} else if (dist=="loglogistic") {Sinv<-log(1/survfit.obj$surv - 1); ylab="ln(1/S - 1)"} else stop("distribucion no reconocida por esta funcion") plot(logt[1:n[1]],Sinv[1:n[1]],xlab="log(time)",ylab=ylab,ylim=ylim, main=dist) for (i in 2:length(n)) { ind<-(n[i-1]+1):n[i] points(logt[ind],Sinv[ind],pch=i) } legend(min(logt),max(ylim),names(survfit.obj$strata),pch=1:length(n)) } #### ajuste AFT para este caso #### p1<-survfit(Surv(tiempo, estado)~material,data=datos) ### graficas de valoracion de modelos mediante la funcion de #supervivencia #### par(mfrow=c(1,3)) LIN.AFT(p1, dist="weibull") LIN.AFT(p1, dist="lognormal") Comparación de dos modelos de regresión en fiabilidad 102 Apéndice: Códigos de las funciones utilizadas LIN.AFT(p1, dist="loglogistic") ### Weibull QQPlot para datos censurados a la derecha ### n<-length(p1$surv) splt<-sum((1:(n-1))*(p1$surv[-n]<p1$surv[-1])) ap<-p1$surv[1:splt] bp<-p1$surv[(splt+1):n] at<-p1$time[1:splt] bt<-p1$time[(splt+1):n] max.c<-max(min(ap),min(bp)) times<-(1-max.c)*((0:99)/100)+max.c q1<-c() q2<-c() for (i in 1:100) { q1[i]<-at[(abs(ap-times[i]))==(min(abs(ap-times[i])))] q2[i]<-bt[(abs(bp-times[i]))==(min(abs(bp-times[i])))] } plot(q1,q2, main="Q-QPlot para el material", xlab="cuantiles de tFD", ylab="cuantiles de tUr") myline.fit <- lm(q2~q1) abline(myline.fit, col="blue") #################################################################### ###### Criterio de informacion de AIC para comparar ################ ############ los tres modelos parametricos ######################### #################################################################### #################################################################### extractAIC(aftm2) #distribucion de Webull extractAIC(aftm3) #distribucion Lognormal extractAIC(aftm4) #distribucion Loglogistica #################################################################### Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas ###### Criterio de informacion de AIC para modelo de Weibull y ##### ####################### para el modelo PH de Cox ################### #################################################################### extractAIC(aftm2) #modelo AFT con dist. de Weibull extractAIC(cox2) #modelo de PH de Cox #################################################################### ########################## Funcion para QQPlots #################### #################################################################### ##===================================================================== qq.reg.resid.r<-function(data,time,status,fit,quantile,xlab){ ##===================================================================== ## Objetivo : Para modelos de regresion parametricos, esto construye ## la qq-plot de los residuos ordenados e_i=(y_i-yhat_i)/sigmahat #frente a los cuantiles estandar log-parametricos z_i de cualquiera ## de las distribuciones "Weibull", "lognormal" o "loglogistica". ##--------------------------------------------------------------------## NOTA: Esto tambien se puede utilizar para el ajuste de una sola ## muestra de los tiempos de supervivencia de un modelo parametrico. ## Puesto que no hay covariables, recuerde escribir survreg (Surv #(...,...)~ 1, dist ="...", =...) datos con el fin de estimar el #coeficiente mu. ##--------------------------------------------------------------------## Argumentos: data = data.frame time = nombre del tiempo de #supervivencia de la variable en data.frame status = nombre de la ##variable estado en data.frame ## fit = un objeto survreg quantile #= "qweibull", "qnorm" o "qlogis" ## xlab = "escriba su etiqueta" #p.e., "valores extremos estandar (cuantiles)" Comparación de dos modelos de regresión en fiabilidad 103 104 Apéndice: Códigos de las funciones utilizadas ##--------------------------------------------------------------------##===================================================================== temp<-data temp$time<-time temp$status<-status temp$ei<-(log(temp$time)-predict(fit,type="lp"))/fit$scale temp<-temp[order(temp$ei), ] con<-abs(min(temp$ei))+.00001 temp$ei<-temp$ei+con km.fit<-survfit(Surv(ei,status)~1,data=temp,type="kaplan-meier") temp$km.surv<-summary(km.fit,times=temp$ei)$surv if (quantile == "qweibull") { zi<-as.numeric(qweibull(1-temp$km.surv,1,1)) k<-nrow(temp) for (i in 1:k){ if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-log(zi[i]) } temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) { surv.max.1<-max(temp$km.surv[temp$status==1]) d<-1-surv.max.1 surv.pu<-1-d/2 temp$zi[i]<-log(qweibull(1-surv.pu,1,1))} } for (i in 1:k){ if (temp$zi[i]==Inf) { d<-min(temp$km.surv[temp$km.surv > 0]) surv.pl<-d/2 temp$zi[i]<-log(qweibull(1-surv.pl,1,1))} } } if (quantile == "qnorm"){ zi<-as.numeric(qnorm(1-temp$km.surv,0,1)) k<-nrow(temp) for (i in 1:k){ if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-zi[i] } temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) { surv.max.1<-max(temp$km.surv[temp$status==1]) d<-1-surv.max.1 surv.pu<-1-d/2 temp$zi[i]<-qnorm(1-surv.pu,0,1)} Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas 105 } for (i in 1:k){ if (temp$zi[i]==Inf) { d<-min(temp$km.surv[temp$km.surv > 0]) surv.pl<-d/2 temp$zi[i]<-qnorm(1-surv.pl,0,1)} } } if (quantile == "qlogis") { zi<-as.numeric(qlogis(1-temp$km.surv,0,1)) k<-nrow(temp) for (i in 1:k){ if (zi[i]!=-Inf && zi[i]!=Inf ) zi[i]<-zi[i] } temp$zi<-zi for(i in 1:k){ if (temp$zi[i]==-Inf) { surv.max.1<-max(temp$km.surv[temp$status==1]) d<-1-surv.max.1 surv.pu<-1-d/2 temp$zi[i]<-qlogis(1-surv.pu,0,1)} } for (i in 1:k){ if (temp$zi[i]==Inf) { d<-min(temp$km.surv[temp$km.surv > 0]) surv.pl<-d/2 temp$zi[i]<-qlogis(1-surv.pl,0,1)} } } temp$ei<-temp$ei-con ##print(temp) plot(temp$zi,temp$ei,xlab=xlab,ylab="Residuos ordenados ei",type="n", xlim=c(min(temp$zi),max(temp$zi)),ylim=c(min(temp$ei),max(temp$ei)+.15)) points(temp$zi[temp$status==0],temp$ei[temp$status==0],pch=".",cex=3) points(temp$zi[temp$status==1],temp$ei[temp$status==1],pch="o",cex=1) lines(temp$zi[temp$status==1],temp$ei[temp$status==1],lty=1,lwd=1) k<-nrow(temp) for(i in 1:k) { if (temp$status[i]==0) arrows(temp$zi[i],temp$ei[i],temp$zi[i],temp$ei[i]+.15,code=2,length=.12, lwd=2.01)} abline(a=0,b=1,lty=4,lwd=2) usr<-par("usr") Comparación de dos modelos de regresión en fiabilidad 106 Apéndice: Códigos de las funciones utilizadas arrows(.9*usr[1]+.1*usr[2],.07*usr[3]+.93*usr[4],.9*usr[1]+.1*usr[2], .07*usr[3]+.93*usr[4]+.15, code=2,length=.09,lwd=2.01) text(.8*usr[1]+.2*usr[2],.05*usr[3]+.95*usr[4]," = Censurados") points(.9*usr[1]+.1*usr[2],.11*usr[3]+.89*usr[4],pch="o") text(.79*usr[1]+.21*usr[2],.1*usr[3]+.90*usr[4], " = No censurados") on.exit() "qq.reg.resid:done" } ##===================================================================== #### Para el material tUr #### fitweib1<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull", data=tUr) fitlognorm1<-survreg(Surv(tiempo, estado)~log(volumen), dist="lognormal", data=tUr) fitloglog1<-survreg(Surv(tiempo, estado)~log(volumen), dist="loglogist", data=tUr) par(mfrow=c(1,3)) qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitweib1, "qweibull", "Valores estremos estandar (cuantiles)") qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitlognorm1, "qnorm", "Normal estandar (cuantiles)") qq.reg.resid.r(tUr, tUr$tiempo, tUr$estado, fitloglog1, "qlogis", Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas "Logistica (cuantiles)") #### Para el material tFD #### fitweib2<-survreg(Surv(tiempo, estado)~log(volumen), dist="weibull", data=tFD) fitlognorm2<-survreg(Surv(tiempo, estado)~log(volumen), dist="lognormal", data=tFD) #### Para que no falle #### tFD2<-tFD[-163,] fitloglog2<-survreg(Surv(tiempo, estado)~log(volumen), dist="loglogist", data=tFD2) par(mfrow=c(1,3)) qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitweib2, "qweibull", "Valores estremos estandar (cuantiles)") qq.reg.resid.r(tFD, tFD$tiempo, tFD$estado, fitlognorm2, "qnorm", "Normal estandar (cuantiles)") #### Para que no falle (le quitamos la ultima fila a tUr) #### qq.reg.resid.r(tFD2, tFD2$tiempo, tFD2$estado, fitloglog2, "qlogis", "Logistica (cuantiles)") Comparación de dos modelos de regresión en fiabilidad 107 108 Apéndice: Códigos de las funciones utilizadas #################################################################### ############### Residuos de Cox-Snell para los datos ############### #################################################################### par(mfrow=c(3,1)) #### Residuos para el modelo de Weibull #### aft.w<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80, data=datos, dist="weibull") mu.i<-aft.w$linear.predictors r.cs.i<-exp((log(datos$tiempo)-mu.i)/aft.w$scale) fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull", xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.") lines(c(0,5),c(0,5)) #### Residuos para el modelo Lognormal #### aft.ln<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80, data=datos, dist="lognormal") mu.i<-aft.ln$linear.predictors res.i<-(log(datos$tiempo)-mu.i)/aft.ln$scale ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui) fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal", xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.") lines(c(0,5),c(0,5)) Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas 109 #### Residuos para el modelo Loglogistico #### aft.log<-survreg(Surv(tiempo,estado)~log(volumen)+strata(material)+x80, data=datos,dist="loglogistic") mu.i<-aft.log$linear.predictors res.i<-(log(datos$tiempo)-mu.i)/aft.log$scale ui<-1-plogis(res.i,location=0,scale=1) r.cs.i<--log(ui) fit.u<-survfit(Surv(r.cs.i,datos$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistic", xlab="Residuos de Cox-Snell", ylab="Func. ries. acumul.") lines(c(0,5),c(0,5)) #################################################################### ##################### Residuos para el modelo weibull ############## #################################################################### dev.off() #### Para el material tUr #### par(mfrow=c(1,2)) aft.w<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="weibull") mu.i<-aft.w$linear.predictors r.cs.i<-exp((log(tUr$tiempo)-mu.i)/aft.w$scale) fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull para tUr", xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado") lines(c(0,5),c(0,5),col="blue") #### Para el material tFD #### aft.w<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="weibull") Comparación de dos modelos de regresión en fiabilidad 110 Apéndice: Códigos de las funciones utilizadas mu.i<-aft.w$linear.predictors r.cs.i<-exp((log(tFD$tiempo)-mu.i)/aft.w$scale) fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Weibull para tFD", xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado") lines(c(0,5),c(0,5), col="red") #################################################################### #################### Residuos para el modelo lognormal ############# #################################################################### #### Para el material tUr #### par(mfrow=c(1,2)) aft.ln<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="lognormal") mu.i<-aft.ln$linear.predictors res.i<-(log(tUr$tiempo)-mu.i)/aft.ln$scale ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui) fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal para tUr", xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado") lines(c(0,5),c(0,5), col="blue") #### Para el material tFD #### aft.ln<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="lognormal") mu.i<-aft.ln$linear.predictors res.i<-(log(tFD$tiempo)-mu.i)/aft.ln$scale ui<-1-pnorm(res.i,mean=0,sd=1) r.cs.i<--log(ui) fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Lognormal para tFD", Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas 111 xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado") lines(c(0,5),c(0,5), col="red") #################################################################### ################## Residuos para el modelo loglogistico ############ #################################################################### #### Para el material tUr #### par(mfrow=c(1,2)) aft.log<-survreg(Surv(tiempo,estado)~log(volumen),data=tUr,dist="loglogistic") mu.i<-aft.log$linear.predictors res.i<-(log(tUr$tiempo)-mu.i)/aft.log$scale ui<-1-plogis(res.i,location=0,scale=1) r.cs.i<--log(ui) fit.u<-survfit(Surv(r.cs.i,tUr$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistico para tUr", xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado") lines(c(0,5),c(0,5), col="blue") ### para el material tFD ### aft.log<-survreg(Surv(tiempo,estado)~log(volumen),data=tFD,dist="loglogistic") mu.i<-aft.log$linear.predictors res.i<-(log(tFD$tiempo)-mu.i)/aft.log$scale ui<-1-plogis(res.i,location=0,scale=1) r.cs.i<--log(ui) fit.u<-survfit(Surv(r.cs.i,tFD$estado)~1,type="fleming-harrington") plot(fit.u$time,-log(fit.u$surv),main="AFT Log-logistico para tFD", xlab="Residuos de Cox-Snell", ylab="Funcion de riesgo acumulado") lines(c(0,5),c(0,5), col="red") Comparación de dos modelos de regresión en fiabilidad 112 Apéndice: Códigos de las funciones utilizadas #################################################################### #################################################################### ##################### modelos semi-parametricos bajo AFT ########### #################################################################### #################################################################### #### Buckley-James #### buckley<-bj(formula=Surv(tiempo,estado)~presion+trafico+log(volumen)+ strata(material)+x80, data = datos, link="ident", method="fit", x=TRUE, y=TRUE) buckley #### Buckley-James reducido #### buckleyred<-bj(formula=Surv(tiempo,estado)~x80+strata(material)+ log(volumen), data = datos, link="ident", method="fit", x=TRUE, y=TRUE) buckleyred #### Buckley-James reducido final #### buckleyfin<-bj(formula=Surv(tiempo, estado)~strata(material)+x80, data = datos,link="ident", method="fit", x=TRUE, y=TRUE) buckleyfin #################################################################### ################### Ajuste de Buckley-James para tUr ############### #################################################################### buckley2<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data = tUr,link="ident", method="fit", x=TRUE, y=TRUE ) print.bj(buckley2) Comparación de dos modelos de regresión en fiabilidad Apéndice: Códigos de las funciones utilizadas #### Para dibujar los residuos el modelo no debe tener #### buckley3<-bj(formula=Surv(tiempo, estado)~log(volumen), data = tUr, link="ident", method="fit", x=TRUE, y=TRUE ) rbj1<-residuals.bj(buckley2, type=c("censored.normalized")) par(mfrow=c(2,3)) bjplot(buckley3) #################################################################### ################### Ajuste de Buckley-James para tFD ############### #################################################################### buckley4<-bj(formula=Surv(tiempo, estado)~log(volumen)+x80, data = tFD,link="log", method="fit", x=TRUE, y=TRUE ) print.bj(buckley4) #### Re-ajuste de Buckley-James para tFD #### buckley6<-bj(formula=Surv(tiempo, estado)~x80, data = tFD, link="log", method="fit", x=TRUE, y=TRUE ) print.bj(buckley6) #### Para dibujar los residuos el modelo no debe tener #### buckley5<-bj(formula=Surv(tiempo, estado)~log(volumen), data = tFD, link="ident", method="fit", x=TRUE, y=TRUE ) rbj2<-residuals.bj(buckley4, type=c("censored.normalized")) par(mfrow=c(2,3)) bjplot(buckley5) #################################################################### ######## Ajuste de minimos cuadrados para AFT con datos censurados # Comparación de dos modelos de regresión en fiabilidad 113 114 Apéndice: Códigos de las funciones utilizadas #################################################################### #### Ajuste de minimos cuadrados para los datos #### mcuad4<-lss(formula=Surv(tiempo,estado)~strata(material)+ log(volumen)+x80,data=datos,trace=T, mcsize=500, gehanonly=F, maxiter=50,tolerance=0.001, cov = T, na.action = na.exclude) mcuad4 #### Ajuste de minimos cuadrados para el material tUr #### mcuad1<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tUr, trace=T, mcsize=500, gehanonly=F, maxiter=50, tolerance=0.001, cov = T, na.action = na.exclude) mcuad1 #### Ajuste de minimos cuadrados para el material tFD #### mcuad2<-lss(formula=Surv(tiempo, estado)~log(volumen)+x80, data=tFD, trace=T, mcsize=500, gehanonly=F, maxiter=50, tolerance=0.001, cov = T, na.action = na.exclude) mcuad2 #### Ajuste de minimos cuadrados solo con x80 para el material tFD # mcuad3<-lss(formula=Surv(tiempo, estado)~x80, data=tFD, trace=T, mcsize=500, gehanonly=F, maxiter=50, tolerance=0.001, cov = T, na.action = na.exclude) mcuad3 Comparación de dos modelos de regresión en fiabilidad Apéndice C Futuras líneas de investigación: Regresión Isotónica C.1. Estimador de mínimos cuadrados ponderados de Stute En el marco del modelo de AFT, en el que ln T = Xγ + ε (C.1) donde X = [X1 , . . . , Xp ], γ = (β1 , . . . , βp )T y γj = −βj para j = 1, . . . , p. En la mayoría de las situaciones, la estimación de este modelo se lleva a cabo mediante la presunción de una distribución para el tiempo de supervivencia o duración y maximizando la log-verosimilitud. los modelos de regresión paramétricos comúnmente utilizados en el análisis de supervivencia (estos son, el modelo exponencial, el Weibull, el Lognormal, el Loglogístico o el gamma) pueden considerarse en el modelo AFT. Además, los modelos de regresión exponencial y Weibull pueden ser considerados como casos particulares de los modelos de CPH y AFT. Desafortunadamente, debido al efecto de la censura, el tiempo de vida real T no siempre es observable y en su lugar se observa Yi = mı́n(Ti , Ci ), ½ 1 si Ti ≤ Ci δi = 0 si Ti > Ci donde C1 , . . . , Cn son los valores de la variable de censura C, que se supone independiente 115 116 Apéndice: Regresión Isotónica del tiempo de supervivencia o duración de la variable T , y δi es un indicador de que si Ti ha sido observada o no. En el marco de los modelos AFT, Stute (1993), presentó una nueva metodología que requiere unas hipótesis muy generales y donde los estimadores se pueden obtener utilizando los mínimos cuadrados ponderados, es decir, utilizando el modelo AFT (C.1), bajo la suposición de que E[ε | X] = 0. Aquí, la relación entre las covariables y el tiempo de supervivencia o duración, o alguna transformación monótona de esta, como, por ejemplo, la logarítmica, que se considera lineal. Bajo este modelo, el estimador de γ minimiza n X £ ¤2 Win ln Y(i) − X[i] γ (C.2) i=1 donde el ln Y(i) es el valor i-ésimo ordenado de la variable de respuesta observada ln Y , X[i] es la covariable asociada a ln Y(i) y Win son los pesos de Kaplan-Meier. Estos pesos pueden ser calculados utilizando la expresión δ[1] W1n = Fbn (ln Y(1) ) − Fbn (ln Y(0) ) = n Win = Fbn (ln Y(i) ) − Fbn (ln Y(i−1) ) = ¸δ[j] i−1 · Y δ[i] n−j n − i + 1 j=1 n − j + 1 con i = 2, . . . , n. (C.3) donde Fbn es el estimador de Kaplan-Meier (1958) de la función de distribución F para la variable T y δ[i] es el valor δ asociado a ln Y(i) . Estos pesos pueden ser también calculados utilizando la redistribución del algoritmo apropiado presentado por Efron (1967). De este modo, después de calcular los pesos W[in] , la minimización de (C.2) conduce al estimador de γ dado por ¡ ¢−1 T γ b = XT W X X W ln Y ¡ ¢T donde ln Y = ln Y(1) , . . . , ln Y(n) , W es una matriz diagonal con los pesos de Kaplan- Meier ver Pepe & Fleming (1989), en su diagonal principal y X se define como antes. Stute (1993 y 1996a) realizó estudios de consistencia para este estimador y su distribución normal asintótica. Como la varianza asintótica tiene una expresión muy difícil de calcular, Stute (1996b), propuso el uso de un simple estimador de Jackknife. Una de las ventajas del Comparación de dos modelos de regresión en fiabilidad Apéndice: Regresión Isotónica 117 planteamiento de Stute es que el coste computacional es relativamente insensible al número de covariables y considerablemente menor que el de la estimación de Buckley-James y la estimación por rangos. Esto es especialmente valioso para los datos con un número alto de covariables. El análisis llevado a cabo sobre nuestros datos nos lleva a la conclusión de que la forma funcional en que algunas de las covariables consideradas es introducida en los modelos no es la adecuada. Concretamente las variables X1 = longitud y X2 = diametro, que se han introducido en el modelo a través de la transformación f (X1 , X2 ) = ln(π/2 ∗ X1 ∗ X22 ). Este es el diagnóstico que, sobre los modelos ajustados, hemos establecido a la vista de determinados gráficos de residuos como son los residuos de martingalas que presentamos en la Figura 2.13. Ante esta situación sugerimos la formulación de un modelo más flexible como puede ser el siguiente ln T = φ (Z1 . . . , Zq ; X1 , . . . , Xp ) + ² donde no asumimos ninguna forma funcional para la variable ² y modelizamos la función de las covariables mediante φ (Z1 . . . , Zq ; X1 , . . . , Xp ) = β0 + β1 Z1 + . . . + βq Zq + f1 (X1 ) + . . . + fp (Xp ) De manera que consideramos un modelo semi-paramétrico, en el que las variables de tipo cualitativo (a los que denominamos factores, Zj ) se introcuden en el modelo a través de una función lineal desconocida y las variables cuantitativas (covariables, Xk ) se introducen mediante una función cuya forma funcional no especificamos. Puesto que trabajamos con datos filtrados (censurados y/o truncados) el procedimiento de estimación que proponemos también se basa en el criterio de mínimos cuadrados ponderados, tal como se sugiere en Stute (C.2), es decir, buscamos el mínimo de la siguiente expresión S(φ) = n X Win (ln Yi − φ (Xi1 , . . . , Xip , Zi1 , . . . , Ziq ))2 , i=1 donde los pesos Win se definen análogamente al estimador de Stute, teniendo en cuenta, en su caso, el truncamiento a la izquierda, es decir, Fbn es el estimador producto-límite de la función de distribución propuesto por Tsai, Jewell & Wang (1987). Comparación de dos modelos de regresión en fiabilidad 118 Apéndice: Regresión Isotónica Por otra parte, dada la naturaleza del problema que estamos manejando, necesitamos que las funciones fj sean monótonas (todas o algunas de ellas, además elegimos el sentido de la monotonía en cada caso) de manera que imponemos en nuestro modelo de tiempo de vida acelerada esta condición así que proponemos enfrentar el problema usando técnicas de regresión isotónica. En otras palabras, en el modelo anterior se supone que cada componente no paramétrica (o algunas de ellas) es una función monótona de la covariable correspondiente. Este trabajo supondría una extensión de trabajos recientes sobre estimación isotónica en modelos con estructura aditiva, ver por ejemplo Cheng (2009) y Mammen & Kyusang (2007), al caso de datos sujetos a esquemas muestrales con censura a la derecha y truncamiento por la izquierda. Comparación de dos modelos de regresión en fiabilidad Bibliografía [1] Aalen, O.O. (1978). Nonparametric inference for a family of counting processes. Annals. of Statistics, 6, 701–726. [2] Aalen, O.O. (1980). A Model for Non-parametric Regression Analysis of Counting Processes. In Lecture Notes in Statistics 2 (eds. W. Klonecki et al), pp. 1–25. New York: Springer-Verlag. [3] Abrahamowicz M., Mackenzie T., Esdaile J.M. (1996). Time-dependent hazard ratio: modelling and hypothesis testing with application in Lupus Nephritis. Journal of the American Statistical Association 91, 1432–1439. [4] Andersen, P.K., Borgan, O., Gill, R.D. & Keiding, N. (1993). Statistical models based on counting processes. Springer-Verlag, New York. [5] Andersen, P.K., Gill, R.D. (1982). Cox’s regression model for counting processes: a large sample study. Annals of Statistics 10, 1100–1120. [6] Andreou, S. (1987). Maintenance decisions for deteriorating water pipelines. J. Pipelines 7, 21–31. [7] Andreou S.A., Marks, D.H. & Clark R.M. (1987a). A new methodology for modelling break failure patterns in deteriorating water distribution systems: Theory. Adv. Water Resour 10, 2–10. [8] Andreou S.A., Marks, D.H. & Clark R.M. (1987b). A new methodology for modelling break failure patterns in deteriorating water distribution systems: Applications. Adv. Water Resour 10, 11–20. 119 120 Bibliografía [9] Barlow, W.E. & Prentice, R.L. (1988). Residuals for relative risk regression. Biometrika 75, 65–74, [10] Breslow, N.E. (1975). Analysis of survival data under the proportional hazards model. International Statistics Review 43, 45–58, [11] Breslow, N.E. (1974). Covariance analysis of censored survival data. Biometrics 30, 89–99. Lecture Notes in Math. 876, 1–72. [12] Buckley, J. & James, I. (1979). Linear regression with censored data. Biometrika 66, 429–436. [13] Carrión, A., Solano, H., Gámiz, M.L. & Debón, A.: Evaluation of the Reliability of a Water Supply Network from Right-Censored and Left-Truncated Break Data, Water Resources Management, (DOI 10.1007/s11269-010-9587-y). [14] Cheng, W. (2009). Semiparametric isotonic regression. Journal of Statistical Planning and Inference, 139, 1980–1991. [15] Cho, H.J. & Hong, S.-M. (2008). Median Regression Tree for Analysis of Censored Survival Data. IEEE Transactions on Systems. Man, and Cybernetics-Part A: Systems and Humans, 38 (3), 715–726. [16] Christodoulou, S. & Deligianni, A. (2010). A neurofuzzy decision framework for the management of water distribution networks. Water Resour Manag 24, 139–156. [17] Collett, D. (1994). Modelling Survival Data in Medical Research. London: Chapman and Hall. [18] Cox, D.R. (1972). Regression models and life-tables (with discussion). Journal of the Royal Statistical Society, Series B, 34, 187–220. [19] Cox, D.R. & Oakes, D. (1984). Analysis of Survival Data. London: Chapman and Hall. Comparación de dos modelos de regresión en fiabilidad Bibliografía 121 [20] Cox, D.R. & Snell, E.J. (1968). A general definition of residuals (with discussion). J.R. Statist. Soc. B 30, 248–275. [21] Crowley, J. & Hu, M. (1977). Covariance analysis of heart transplant survival data. Journal of the American Statistical Association, 72, 27–36. [22] Debón, A., Carrión, A., Cabrera, E. & Solano, H. (2010). Comparing risk of failure models in water supply networks using ROC curves. Reliab. Eng. Syst. Saf. 95, 43–48. [23] Debt, A.K., Hasit, Y., Grablutz, J.F.M. & Herz R.K. (1998). Quantifying future rehabilitation and replacement needs of water mains. AWWA Research Foundation, Denver. [24] Efron, B. (1967). The two sample problem with censored data. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 4, 831–853. [25] Eisenbeis, P. (1994). Modélisation statistique de la prévision des défaillances sur les conduites d’eau potable. Ph.D. thesis, University Louis Pasteur of Strasbourg, collection Etudes Cemagref no. 17. [26] Fleming, T. R., & Harrington, D. P. (1991). Counting Processes and Survival Analysis. Wiley, New York. [27] Fleming, T. & Harriton, D. (2002). Counting processes and survival analysis. New York: Wiley. [28] Gámiz, M.L., Kulasekera, K.B., Limnios, N., & Lindquist, B.H. (2011). Applied Nonparametric Statistic in Reliability. Springer Series in Reliability Engineering. [29] Gehan, E.A. (1965). A generalized Wilcoxon test for comparing arbitrarily singlecensored samples. Biometrika 52, 203–223. [30] Gill, R.D. (1984). Understanding Cox’s regression model: a martingale approach. J. Amer. Statist. Assoc. 79, 441–447, Comparación de dos modelos de regresión en fiabilidad 122 Bibliografía [31] Gray, R.J. (1992). Flexible methods for analyzing survival data using splines, with application to breast cancer prognosis. Journal of the American Statistical Association, 87, 942–951. [32] Gustafson, J.M. & Clancy, D.V. (1999). Modelling the occurrence of breaks in cast iron water mains using methods of survival analysis. In: Proceedings of the AWWA annual conference, Chicago. [33] Harrington, D.P. & Fleming T.R. (1982).A class of rank procedures for censored survival data. Biometrika 52, 203–223. [34] Herz, R.K. (1996). Ageing processes and rehabilitation needs of drinking water distribution networks. J. Water Supply Res Technol Aquan 45, 221–231. [35] Herz, R.K. (1998). Exploring rehabilitation needs and strategies for water distribution networks. J. Water Supply Res Technol Aquan 45, 275–283. [36] Hess, K.R. (1994). Assessing time-by-covariate interactions in proportional hazards regression models using cubic spline functions. Statistics in Medicine, 13, 1045–1062. [37] Hess, K.R. (1995). Graphical methods for assessing violations of the proportional hazards assumption in Cox regression. Statistics in Medicine 14, 1707–1723. [38] Honoré, B., Khan, S. & Powell, J.L. (2002). Quantile regression under random censoring. Journal of Econometrics, 109, 67–105. [39] Hosmer, D.W. & Lemeshow, S. (1999). Applied survival analysis: Regression modeling of time to event data. New York: John Wiley and Sons, Inc. [40] Huang, L. & Jin, Z. (2007). LSS: An S-Plus/R program for the accelerated failure time model to right censored data based on least-squares principle. Comput. Methods Programs Biomed. 86, 45–50. [41] James I.R. & Smith P.J. (1984) Consistency Results for Linear Regression with Censored Data. Ann. Statist. Volume 12, 2, 590–600. Comparación de dos modelos de regresión en fiabilidad Bibliografía 123 [42] Jin, Z., Lin, D.Y., Wei, L.J. & Ying, Z. (2003). Rank-based inference for the accelerated failure time model. Biometrika, 90, 341–353. [43] Jin, Z., Lin D.Y. & Ying, Z. (2006). On least-squares regression with censored data. Biometrika, 93, 147–161. [44] Kaplan, E.L. & Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53, 457–481. [45] Kay, R. (1977). Proportional hazard regression models and the analysis of censored survival data. Appl. Statist. 26, 227–237. [46] Kalbfleisch, J. D. & Prentice, R. L. (2002). The Statistical Analysis of Failure Time Data. Wiley. [47] Klein, M. & Moeschberger, W. (1997). Survival Analysis. Techniques for censored and truncated data. Springer Verlag, New York. [48] Kleinbaum, D.G. & Klein, M. (2005). Survival Analysis: A self-learning text. Springer. [49] Koenker, R. (2005). Quantile Regression. Cambridge University Press. [50] Kooperberg. C., Stone, C.J. & Truong, Y.K. (1995). Hazard regression. Journal of the American Statistical Association, 90, 78–94. [51] Koul, H., Susarla, V. & Van Ryzin, J. (1981). Regression analysis with randomly right-censored data. Ann. Statist.9, 1276–1288. [52] Lai, T.L. & Ying, Z. (1991). Large sample theory of a modified Buckley-James estimator for regression analysis with censored data. Ann. Statist. 10, 1370–1402. [53] Lawless J.F. (1982). Statistical Models and Methods for Lifetime Data Analysis. Wiley, New York. [54] Lin, D.Y. & Geyer, C.J. (1992). Computational methods for semiparametric linear regression with censored data. J.Comp. Graph. Statist. 1, 77–90. Comparación de dos modelos de regresión en fiabilidad 124 Bibliografía [55] Mailhot, A., Duchesne, S., Musso, E. & Villeneuve, J.P. (2000). Modélisation de l’évolution de l’état structural des réseaux d’égout: application à une municipalité du Québec. Can. J. Civ. Eng. 27, 65–72. [56] Malandain, J. (1999). Modélisation de l’état de santé des réseaux de distribution d’eau pour l’organisation de la maintenance. Etude du patrimoine de l’agglomération de Lyon. Ph. D. Disertationt no. 99 ISAL 0040. Institut National des Sciences Appliquées de Lyon, Laboratoire URGC/Hydrologie Urbaine, 206 p. [57] Malandain, J., Le Gauffre, P. & Miramond, M. (1999). Modeling the aging of water infraestructure. In: Proceedings of the 13th EJSW, Dresden University of Technology. [58] Mammen, E. y Kyusang, Y. (2007). Additive Isotone Regression. IMS Lecture Notes, Vol. 55, 179–195 [59] Marks, D.H., et al. (1985). Predicting urban water distribution maintenance strategies: a case study of New Haven Connecticut. US Environmental Protection Agency (Cooperative Agreement R8 1 0558-01-0). [60] Martinussen, T. & Scheike, T.H. (2006). Dynamic Regression Models for Survival Data. Springer. [61] Meeker, W.Q. & Escobar, L.A. (1998). Statistical Methods for Reliability Data. Wiley, New York. [62] McCullagh, P. & Nelder, J.A. (1983). Generalized Linear Models. Chapman and Hall, London. [63] Miller, R.G. (1976). Least squares regression with censored data. Biometrika 63, 449– 464. [64] Miller, R.G. & Halpern, J. (1982). Regression with censored data. Biometrika 69, 521–531. [65] Moreau, T., O’Quigley, J., Mesbah, M. (1985). A global goodness-of-fit statistics for the proportional hazards model. Applied Statistics, 3, 212–218. Comparación de dos modelos de regresión en fiabilidad Bibliografía 125 [66] Nagelgerke, N.J.D., Oosting J. & Hart A.A.M. (1984). A simple test for goodness of fit of Cox’s proportional hazards model. Biometrics, 40, 483–486. [67] Nelson, W. (1990). Accelerated Testing: Statistical Models, Test Plans, and Data Analyses. Wiley, New York. [68] Park, S., Kim, B.J. & Im G.C. (2008). Modeling of water main failure rates using the log-linear ROCOF and the power law process. Water Resour Manag 22, 1311–1324. [69] Pepe M.S. & Fleming TR. (1989). Weighted Kaplan-Meier Statistics: A Class of Distance Tests for Censored Survival Data. Biometrika, 45, 497–507. [70] Prentice, R.L. (1978). Linear rank tests with right censored data. Biometrika 65, 167– 179. [71] Ritov, Y. (1990). Estimation in a linear regression model with censored data. Ann. Statist. 18, 303–328. [72] Sagrov, S. Köning, A. et al. (2001) Evaluation of UtilNets-a decision support systems for water mains rehabilitation. In: Proceedings of the IWA international conference in Brno, Czech Republic. [73] Schoenfeld, D. (1982). Partial residuals for the proportional hazards regression model. Biometrika, 69, 239–241. [74] Sigurdsson, H., Baldetorp, B., Borg, A., Dalberg, M., Fernö, M., Killander, D., & Olsson, H. (1990). Indicators of prognosis in node-negative breast cancer. New England Journal of Medicine 322, 1045–1053. [75] Stare, J., Harrell, F.E. & Heinzl, H. (2001). BJ: an S-plus program ti fit linear regression models to censored data using the Buckley-James method. Comput. Methods Programs Biomed. 64, 45–52. [76] Stute, W. (1999). Nonlinear censored regression. Statistica Sinica, 9, 1089–1102. Comparación de dos modelos de regresión en fiabilidad 126 Bibliografía [77] Stute, W. (1993). Consistent estimation under random censorship when covariables are present. Journal of Multivariate Analysis, 45, 89–103. [78] Stute, W. (1996a). Distributional convergence under random censorship when covariables are present. Scandinavian Journal of Statistics, 23, 461–471. [79] Stute, W. (1996b). The jackknife estimate of variance of a Kaplan-Meier integral. Annals of Statistics, 24, 2679–2704. [80] Therneau, T.M. & Gramsch, P.M. (2000). Modeling survival data. Extending the Cox model. Springer. [81] Therneau, T., Gramsch, P. & Fleming, T. (1990). Martingale based residual for survival models. Biometrika, 77, 147–160. [82] Tsai, W.Y., Jewel, N.P. & Wang, M.C. (1987). A note on the product-limit estimator under right censoring and left truncation. Biometrika, 74, 883–886. [83] Tsiatis, A.A. (1990). Estimating regression parameters using linear rank tests for censored data. Ann. Statist. 18, 354–372. [84] Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. New York: Springer (4th ed). [85] Wang, J.L. (2003). Smoothing hazard rates. Encyclopedia of Biostatistics. [86] Wang, H.J. & Wang, L. (2009). Locally weighted censored quantile regression. Journal of the American Statistical Association, to appear. [87] Wei, J. (1984). Testing goodness of fit for proportional hazards model with censored observations., Journal of the American Statistical Association, 79, 649–652. [88] Wei, L.J. (1992). The accelerated failure time model: a useful alternative to the Cox regression model in survival analysis. Statistics in Medicine, 11, 1871–1879. [89] Wei, L.J., Ying, Z. and Lin, D.Y. (1990). Linear regression analysis of censored survival data based on rank tests., Biometrika, 77, 845–851. Comparación de dos modelos de regresión en fiabilidad Bibliografía 127 [90] Yang, S. (1999). Censored median regression using weighted empirical survival and hazard functions. Journal of the American Statistical Association, 94 (445), 137–145. [91] Ying, Z.L. (1993). A large sample study of rank estimation for censored regression data. Annals of Statistics, 21, 76–99. [92] Ying, Z., Jung, S.H. & Wei, L.J. (1995). Survival analysis with median regression models. Journal of the American Statistical Association, 90 (429), 178–184. [93] Zhao, Y. & Chen, F. (2008). Empirical likelihood inference for censored median regression model via nonparametric kernel estimation. Journal of Multivariate Analysis, 99, 215–231. Comparación de dos modelos de regresión en fiabilidad