UNIVERSIDAD DE GRANADA Departamento de Estadística e I.O. MASTER OFICIAL EN ESTADÍSTICA APLICADA SUPERVIVENCIA RELATIVA Silvia García Ortega Tutora: M. Luz Gámiz Pérez Granada, Junio 2014 Trabajo Fin de Máster: Supervivencia Relativa A MI FAMILIA, LA PASADA, PRESENTE… Y FUTURA! “El reto de la vida es un continuo aprendizaje para la supervivencia…” Silvia García Ortega II Trabajo Fin de Máster: Supervivencia Relativa AGRADECIMIENTOS No podía empezar este trabajo sino agradeciendo a todas las personas que de una u otra forma me han ayudado a estar aquí. En primer lugar, a M. Luz Gámiz… cuando me matriculé en un máster que se ajustaba a mis horarios no imaginé que también lo haría mi tutora. Da igual a qué hora del día o de la noche le escribiese, ella siempre estaba ahí, solucionando el problema. Así que, aunque sea típico y tópico deseo dar mis más sinceras GRACIAS a mi tutora M. Luz Gámiz, un verdadero placer tenerla de nuevo como profesora. ¿Qué decir de la familia? Sin su esfuerzo y continuo sacrificio no hubiese logrado realizar mis estudios. Hoy estoy aquí gracias a ellos. Y gracias no sólo por estos meses sino por toda una vida. A pesar de la distancia os siento muy cerca. Os Quiero! También tengo que dar las gracias a mis amigos, amigos que se convierten en familia… han sido un derroche de ánimos, una inyección de optimismo... Qué agradable es sentirse tan arropada y querida… GRACIAS. Con vosotros cualquier día, a cualquier hora, en cualquier lugar… Y GRACIAS, una vez más, a los que también han sido “mis profes de R”, qué paciencia han tenido conmigo!!!! Y en último lugar, pero no menos importante… infinitas GRACIAS a mi esposo, quien ha tenido que soportar muy de cerca mis altibajos emocionales y aún así sigue a mi lado. Ha sido un año complicado pero contigo todo es más fácil. Gracias por estar siempre ahí, por animarme… por quererme… No imagino mi vida sin ti!! TE QUIERO! Silvia García Ortega III Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega IV Trabajo Fin de Máster: Supervivencia Relativa ÍNDICE Capítulo I. Introducción al análisis de supervivencia ......................................................... 3 I.1. Características de los datos de tiempo.................................................................... 4 I.2. Funciones que describen la variable aleatoria tiempo de vida ................................... 6 I.3. Modelos aleatorios usuales en análisis de supervivencia ........................................... 8 I.3.1. Modelos paramétricos .................................................................................... 8 I.3.2. Métodos no paramétricos ............................................................................. 10 I.3.3. Modelos Semiparamétricos ........................................................................... 17 Capítulo II. Cálculo de la Supervivencia Relativa ............................................................ 21 II.1. Introducción ..................................................................................................... 21 II.1.1. ¿Qué se entiende por supervivencia relativa? ................................................ 22 II.1.2. Definición y Notación .................................................................................. 24 II.2. Supervivencia esperada (SE) .............................................................................. 25 II.2.1 Métodos Ederer para el cáculo de la SE ......................................................... 26 II.2.2 Método Hakulinen para el cálculo de la SE ..................................................... 27 II.2.3. Intervalo de Confianza para la Supervivencia Relativa.................................... 27 II.2.4. Ejemplo ..................................................................................................... 28 II.3. Modelos de regresión para el análisis de la supervivencia relativa .......................... 34 II.3.1 Modelo aditivo............................................................................................. 34 II.3.2 Modelo multiplicativo ................................................................................... 35 II.3.3. Otros modelos............................................................................................ 36 Capítulo III. Supervivencia Relativa en R. El libro relsurv ................................................ 39 III.1. III.2. III.3. III.4. Función rsaad .................................................................................................. 40 Función rsmul .................................................................................................. 41 Función rstrans ................................................................................................ 42 Ejemplos ......................................................................................................... 42 Capítulo IV. Aplicación Práctica: Supervivencia relativa de enfermos de SIDA en población infantil ....................................................................................................................... 50 IV.1. IV.2. IV.3. IV.4. IV.5. Presentación de los datos.................................................................................. 50 Estimación de la supervivencia observada........................................................... 51 Cálculo de la supervivencia esperada ................................................................. 58 Estudio de la supervivencia relativa .................................................................... 61 Conclusiones .................................................................................................... 64 Anexo 1. Análisis de supervivencia mediante R ............................................................. 66 Anexo 2. Tablas de Mortalidad ..................................................................................... 74 Anexo 3. Glosario de términos ...................................................................................... 88 Anexo 4. Código ......................................................................................................... 96 Anexo 5. Bibliografía ..................................................................................................100 Silvia García Ortega 1 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 2 Trabajo Fin de Máster: Supervivencia Relativa Capítulo I Introducción al análisis de supervivencia El Análisis de Supervivencia o Análisis de Fiabilidad es el conjunto de técnicas que se utilizan para analizar los datos, en los que la variable de interés T es el tiempo que transcurre desde un instante inicial bien definido, hasta la ocurrencia de un determinado suceso o instante final (p.e. fallo de una pieza, recaída o muerte de un paciente, etc). Existen varios textos que abordan en profundidad el análisis de supervivencia, tales como Klein y Moeschberger (1997), Andersen, Borgan, Gill y Keiding (1993), Cox y Oakes (1984), Lawless (1982), Kalbfleish y Prentice (1980), entre otros. Son múltiples las ocasiones en las que solo se tienen datos completos de este tiempo de seguimiento o tiempo de vida T (v.a. no negativa) en una parte pequeña de las n unidades o individuos de la muestra que se desea analizar, mientras que del resto solamente se tiene información parcial o incompleta. Por tanto: Si se observan los individuos desde un evento inicial hasta el evento final o de ocurrencia del fenómeno que se desea estudiar se tiene una observación completa, y a la ocurrencia del evento de interés se le suele denominar fallo o muerte. Silvia García Ortega 3 Trabajo Fin de Máster: Supervivencia Relativa Con más frecuencia, es posible contar con observaciones incompletas de los períodos que transcurren entre el tiempo inicial y el tiempo final. Esta particularidad, dificulta el análisis estadístico en los estudios de Fiabilidad y de Análisis de Supervivencia, ya que los datos pueden venir con censura o truncamiento. En el se estudia la ocurrencia de un fenómeno demográfico en una cohorte de individuos. En este sentido, al trabajar con grupos homogéneos de población, se ofrece un mayor poder explicativo, ya que se realiza sobre individuos caracterizados por un suceso-origen común. Pertenece a una misma el conjunto de individuos que entran a formar parte de un conjunto poblacional observable, dentro del mismo periodo de tiempo. Cuando el conjunto poblacional es el total de la población y la entrada no es otra cosa que el nacimiento, la cohorte recibe el nombre de . Por otro lado, en el se estudia la experiencia de los individuos en un momento histórico determinado. Este se presta mejor al estudio coyuntural de un momento determinado, que también es útil para la interpretación causal y supera el inconveniente de los indicadores longitudinales que no pueden ser calculados sino después de la ocurrencia completa del fenómeno estudiado en una cohorte. Su objetivo es el de describir una población y analizar los fenómenos que la caracterizan. Sin embargo presenta el inconveniente de recoger, para un momento determinado, la experiencia de un conjunto diverso de generaciones. I.1. Características de los datos de tiempo Como hemos visto, la censura y el truncamiento son las dos principales inconvenientes que hacen imposible la observación completa de los tiempos de seguimiento. En la censura, se distinguen dos tipos: (censura única por tiempo): El suceso de interés se observa si ocurre antes de de un instante fijo predeterminado; por tanto, los individuos son observados hasta un tiempo determinado. Este tipo de censura es común, cuando por diversas causas, el investigador finaliza el estudio antes de que todos los individuos hayan experimentado el suceso de interés. (censura única por número de fallos): los individuos son observados hasta que ocurran un número determinado de fallos o eventos de interés. Estos experimentos se denominan ensayos limitados o censurados por número de fallos y son fáciles de analizar desde el punto de vista estadístico. La determinación del tiempo para el Tipo I y el número de fallos para el Tipo II deben establecerse antes de iniciar el experimento, y no durante el transcurso del mismo. La Silvia García Ortega 4 Trabajo Fin de Máster: Supervivencia Relativa necesidad de que el mecanismo de censura sea independiente de la observación del fenómeno es un requisito imprescindible para la validez de las conclusiones. Atendiendo a las causas que dan lugar a la censura (aleatorias o controladas) o al truncamiento, se distinguen los siguientes tipos: : Se considera dentro de la Censura Tipo I. Una observación se dice censurada a la derecha de un cierto valor conocido si se desconoce el valor exacto de la observación y solo se sabe que esta es mayor que . Así pues, se presenta cuando termina la observación y aún no ha ocurrido el suceso que se desea observar. Existen varias razones para que se de este tipo de censura: Finaliza el estudio y no haya ocurrido el evento (si el periodo de seguimiento es finito), El individuo abandona el estudio, El individuo o dispositivo ha sido afectado por otro evento que imposibilite la ocurrencia del evento que se desea observar. : Análogamente, una observación se dice censurada a la izquierda de un cierto valor conocido si se desconoce el valor exacto de la observación y solo se sabe que ésta es menor que el momento exacto en el que ocurrió el evento es desconocido, sólo se sabe que ha ocurrido antes de que el individuo se incluya en el estudio. Por consiguiente, en la primera observación que se realiza sobre el individuo ya ha ocurrido el evento que se desea observar. Este tipo de censura suele confundirse con el truncamiento por la izquierda o la entrada tardía. : Los datos están censurados tanto por la izquierda como por la derecha. Situaciones prácticas con muestras doblemente censuradas han sido estudiadas entre otros por, Gehan (1965), Mantel (1967), Peto (1973), Leiderman et al.(1973), Turnbull (1974), Turnbull y Weiss (1978), Morales et al. (1991), Tang et al. (1995). : Tiene lugar cuando el tiempo de vida se sabe que ocurre solamente dentro de un intervalo. Este tipo de censura se presenta cuando se tiene un estudio longitudinal donde el seguimiento del estado de los sujetos se realiza periódicamente y por tanto, el fallo sólo puede conocerse entre dos periodos de revisión, generando un intervalo de la forma para cada sujeto en el estudio. : Se produce cuando en el transcurso de un estudio, algunas unidades experimentan otros sucesos independientes del de interés que provocan la salida del estudio. Esto puede deberse fundamentalmente a varias razones: a que hasta el momento de la finalización del estudio no haya ocurrido el evento (si el periodo de seguimiento es finito), a que el individuo abandone el estudio, o en el caso de que ocurra en el individuo o dispositivo otro evento que imposibilite la ocurrencia del evento que se desea observar. Silvia García Ortega 5 Trabajo Fin de Máster: Supervivencia Relativa : Cuando no existe un único tiempo de censura. Para una descripción detallada puede consultarse a Hill et al. (1990), Miller (1981), Lawless (1982), Kalbleisch y Prentice (1980). (entrada tardía al estudio): los sujetos comienzan a ser observados a edades aleatorias, es decir, el origen del tiempo de vida precede al origen del estudio. Para aquellos sujetos en los que el fallo tiene lugar antes del inicio del estudio serán ignorados y no entrarán a formar parte del estudio. La información que se registra se refiere por tanto no a la variable de interés tiempo de vida tal cual, sino a esta variable condicionada a que el individuo sobrevivió para entrar en el estudio. : sólo se incluyen los individuos que presentan el suceso. En este caso la información que se registra también corresponde a una variable condicionada a que el tiempo de fallo fue anterior a la finalización del estudio. I.2. Funciones que describen la variable aleatoria tiempo de vida Sea una variable aleatoria continua positiva (o no negativa) que representa el tiempo hasta la ocurrencia del suceso de interés, con función de distribución absolutamente continua y función de densidad de probabilidad . La , se define como la probabilidad de que el individuo sobreviva más allá del instante , esto es: PROPIEDADES 1. 2. es monótona, decreciente y continua y Si T es una variable continua, la , el cociente entre la función de densidad y la función de supervivencia: , se define como Se interpreta como la probabilidad de que a un individuo le ocurra el suceso de interés en la siguiente unidad de tiempo dado que ha sobrevivido hasta el tiempo t. Silvia García Ortega 6 Trabajo Fin de Máster: Supervivencia Relativa Cuando se está estudiando la evolución de un individuo, se puede estimar esta función considerando una serie de individuos en condiciones similares. Con el fin de elegir un modelo adecuado en términos de la función de riesgo, es conveniente tener en cuenta los de tres tipos de "fallos" (sucesos en general) que presentan características esencialmente temporales: : se manifiesta al principio de la vida del individuo y va desapareciendo conforme se desarrolla el periodo inicial. P.e.: en las tablas de mortalidad humana se supone que al principio de la vida de un individuo hay presentes ciertas características de tipo hereditario que pueden provocar desenlaces fatales y que van desapareciendo conforme el individuo crece. : ocurre durante el periodo en el que el individuo presenta una función de riesgo constante, generalmente menor que la que prevalece durante su periodo inicial. P.e.: en las tablas de mortalidad humana, las muertes ocurridas entre los 10 y 30 años se suponen que son por accidentes. : se asocia con un deterioro gradual del individuo. P.e.: en las tablas de mortalidad humana a partir de los 30 años existe una proporción creciente de muertes debidas al envejecimiento del individuo. La función de riesgo o tasa de fallo, varía en función del tiempo, de forma que, si la evolución de un individuo sólo estuviese afectada por estos tres tipos de fallo, el modelo seleccionado tendría una función de riesgo cuya forma es conocida como Curva de Bañera. Se caracteriza, porque durante el primer periodo de vida de las unidades o individuos, la tasa de fallo es decreciente (periodo de fallos precoces) hasta que se alcanza un valor en el cual se mantiene sensiblemente constante (periodo de fallos accidentales) y que es la zona llamada de “vida útil”. Finalmente, a partir de un determinado instante de tiempo, la tasa de fallo crece suavemente al comienzo, pero luego con el tiempo de un modo más rápido (periodo de fallos por envejecimiento). Para toda variable continua T, la Función Riesgo Acumulada, , se define como: Esta función es importante en la medición de la frecuencia con que ocurren los fallos o rupturas en el tiempo, en la construcción de papeles probabilísticos y en el análisis de residuos para el ajuste de algunos modelos. Silvia García Ortega 7 Trabajo Fin de Máster: Supervivencia Relativa Las funciones y así definidas, caracterizan la distribución de probabilidad de la variable aleatoria , de modo que una vez obtenida una de ellas el resto también se puede determinar: I.3. Modelos aleatorios usuales en análisis de supervivencia En este apartado comentaremos las distribuciones de probabilidad más empleadas en Fiabilidad y Análisis de Supervivencia. Los métodos tradicionalmente utilizados en análisis de supervivencia, pueden dividirse en tres grupos: paramétricos, no paramétricos y semiparamétricos. Los más extendidos, son los semiparamétricos y paramétricos; y las estimaciones que se obtienen con estos métodos, sirven de gran apoyo a posteriores análisis estadísticos más detallados y elaborados. Los métodos no paramétricos tienden a ser más sencillos. Éstos métodos son menos eficientes que los métodos paramétricos, pero resultan de gran utilidad cuando no se conoce ningún modelo paramétrico que se ajuste adecuadamente a los datos. I.3.1. Modelos paramétricos A menudo, se han empleado en la literatura modelos paramétricos para estimar funciones de fiabilidad y realizar contrastes de hipótesis sobre las mismas. En general, son usados en el análisis del tiempo de vida y en problemas relacionados con la modelización del envejecimiento y el proceso de fallo. Dentro de estos modelos, los más utilizados son la Exponencial, la Gamma, la Weibull, la Normal y la Log-Normal. Para hacer uso de ellos, en un principio se asumen ciertas funciones de probabilidad para la variable T. Seguidamente, se procede con la estimación de los parámetros característicos de la distribución elegida, a través métodos de máxima verosimilitud o mínimos cuadrados, y usar su normalidad asintótica para realizar la estimación por intervalos y los contrastes de hipótesis. Por último se realizan las pruebas de bondad de ajuste. Los modelos paramétricos, en general, se consideran más potentes que los no paramétricos. A continuación se presentan algunas de las distribuciones anteriormente referenciadas. Distribución Exponencial La distribución exponencial es la más utilizada en el análisis de tiempo de fallos. Se emplea para modelizar el tiempo transcurrido entre dos sucesos aleatorios siendo la tasa de ocurrencia, , constante. Su función de densidad tiene la siguiente expresión: , dónde es la tasa de fallo, constante y positiva. En fiabilidad se usa para describir los tiempos de fallo de una unidad durante su etapa de vida útil, en la cual la tasa de fallo es (aproximadamente) constante. Esto significa que, para una unidad que no haya fallado con anterioridad, la probabilidad de fallar en el siguiente intervalo infinitesimal es independiente de la edad de la unidad. Silvia García Ortega 8 Trabajo Fin de Máster: Supervivencia Relativa La distribución exponencial tiene como característica especial la propiedad de no memoria, que describe el proceso de vida sin envejecimiento. Distribución Gamma La distribución Gamma es una generalización de la exponencial. Sea una v.a. de tiempo de vida, se dice que se distribuye según una Gamma de parámetros y , si su función de densidad es de la forma: donde es el parámetro de forma, Gamma que se define como . es el parámetro de escala Γ y representa la función con Su función riesgo se aproxima asintóticamente a 1/λ cuando t→∞, lo cual sugiere que la distribución Gamma puede ser útil como un modelo de población cuando los individuos que sufren determinada enfermedad son sometidos a un programa de seguimiento regular. La razón de fallo puede crecer o decrecer algo inicialmente, pero después de algún tiempo la enfermedad tiende a estabilizarse y a partir de ahí la recaída es tan probable en un intervalo , se obtiene la distribución de tiempo como en otro de la misma amplitud. Si exponencial. Distribución Weibull La distribución exponencial presenta el inconveniente de suponer una razón de fallo constante, por tanto, no es aplicable a modelos de tiempos de vida con razón de fallo no constante. Para estos casos se tiene la distribución Weibull, , que definiremos a partir de su función razón de fallo. Sea una v.a. tiempo de vida tal que la correspondiente razón de fallo viene dada por: , donde es el parámetro de escala, como distribución de Rayleigh. es el parámetro de forma. Cuando , es conocida Distribución Log-normal Un inconveniente que presenta la distribución normal en el estudio de tiempos de fallos es que considera valores negativos y esto no tiene sentido, ya que los tiempos transcurridos hasta el fallo son siempre valores positivos. Existen dos formas de solventar este problema; truncando la distribución normal o considerando la distribución Log-normal, que sólo considera valores positivos. Silvia García Ortega 9 Trabajo Fin de Máster: Supervivencia Relativa Sea una v.a., se dice que se distribuye según una Log-normal, una v.a. con distribución Normal, es decir, donde . es el parámetro de localización, si su logaritmo es es el parámetro de dispersión de la distribución Sus funciones de densidad y distribución tiene la expresión: Distribución Log-Logística La distribución log-logística, al igual que la log-normal es útil para funciones de riesgo no monótonas. Su función de riesgo y la de supervivencia vienen dadas por las expresiones: I.3.2. Métodos no paramétricos Los modelos no paramétricos, son métodos analíticos y gráficos que permiten interpretar los datos obtenidos, en los que no se asume ningún tipo concreto de modelo probabilístico para los tiempos de fallo y las funciones básicas (fiabilidad, riesgo) se estiman directamente de los datos. Los más utilizados en la estimación de las características en fiabilidad son la función de fiabilidad empírica, las tablas de Vida o métodos actuariales, el estimador Kaplan-Meier y el método de Nelson Aalen. Tablas de vida o método actuarial Las tablas de vida, Bohmer (1912), estiman para un determinado periodo de tiempo, la probabilidad de que los sucesos a analizar no sucedan hasta transcurrido un periodo de tiempo como mínimo igual al que se está analizando. Por consiguiente, tienen como objetivo describir y establecer previsiones sobre la mortalidad, fiabilidad o supervivencia de una población de interés, a partir de la consideración de una cohorte, o conjunto de datos procedentes de un estudio, a los cuales se les hace un seguimiento en un período de tiempo determinado, comprobando si se registra en cada uno de sus miembros o elementos, la presencia o ausencia de una característica o evento de interés en la población. Silvia García Ortega 10 Trabajo Fin de Máster: Supervivencia Relativa La validez de éste método exige que la distribución del tiempo de fallo de todos los individuos, censurados y no censurados, sea la misma. Es uno de los métodos más clásicos y directos para describir la fiabilidad de una muestra a través de la llamada , la cual no es más que una tabla de frecuencias mejorada y ampliada. A partir de ella, es posible hacer una primera estimación sobre los comportamientos de las funciones de supervivencia , de distribución , de densidad y tasa de fallo . La distribución de los tiempos de fallo se divide en un determinado número de intervalos que denotamos ( . Para cada intervalo se registra el número de observaciones o dispositivos que entra al intervalo en buen estado, (número que entra en el intervalo), el número de los que han fallado (número de eventos terminales), y el número de observaciones perdidas o censuradas en (número que sale en el intervalo). Se calcula a partir de ellos el número de expuestos al riesgo, asumiendo que las pérdidas se producen homogéneamente a lo largo del mismo, su número promedio es . La probabilidad de fallo es la proporción , y la de supervivencia es . Casi todas las tablas de vida presentan una estructura más o menos estándar con una descripción detallada, Abaurrea,J. y Cebríán, A. (1998). Función de Fiabilidad Empírica Supongamos que se observan del fallo, de forma que en el tiempo con ítems hasta que ocurre el fallo, sea el tiempo de ocurrencia con y sea el número de fallos ocurridos . Se define la función de fiabilidad empírica como: Para siendo y . PROPIEDADES 1. Es no creciente. 2. Toma valor en todo menor que el primer tiempo de fallo observado, . 3. Toma valor en todo mayor que el último tiempo de fallo observado, . 3. Es continua a la derecha. Permanece constante entre dos observaciones consecutivas y presenta un solo salto en la observación j-ésima. 4. Si es la función de distribución que describe la v.a. , tiempo de vida del sistema en estudio, , se tiene el Teorema de Glivenko-Cantelli, según el cual, si definimos Silvia García Ortega 11 Trabajo Fin de Máster: Supervivencia Relativa entonces , es decir, converge uniformemente hacia seguramente. En este enunciado entendemos por . , casi Cuando en la muestra aparecen observaciones censuradas, la función de fiabilidad estimada no es un buen estimador ya que tiende a subestimar la función de fiabilidad. Esto ocurre porque se asume que los ítems fallan en el tiempo de censura y esto es un error ya que lo único que sabemos es que hasta ese instante de censura el ítem no había fallado, pero después de ese tiempo no se dispone de información. Si tenemos censura de tipo I, duración del test prefijada, transcurrido un tiempo observaciones, por lo que el estimador está definido únicamente en el intervalo no hay . Si tenemos censura de tipo II, se observa la muestra hasta la ocurrencia del r-ésimo fallo, construimos un estimador hasta que alcanza el valor . Por tanto, estará definida en el intervalo . Cuando las muestras son multicensuradas se aplican otros métodos más adecuados como el estimador de Kaplan-Meier. Estimador de Kaplan-Meier o Estimador Producto Límite El impulso de las técnicas de estimación no paramétrica con datos censurados se inicia con los aportes de Kaplan y Meier (1958), quienes publicaron algunos resultados para observaciones censuradas a la derecha e incorporaron un estudio de las propiedades básicas de un nuevo estimador, que se conocerá más tarde con el nombre de sus creadores. Es el más utilizado para estimar la función de fiabilidad con datos no agrupados en presencia de censura. Descompone la supervivencia o fiabilidad de una unidad al cabo de t años, en un producto de probabilidades condicionadas, que deben ser previamente estimadas, antes del cálculo del estimador. Supongamos que se observa una muestra aleatoria de n unidades o individuos y ) tiempos en los cuales ocurren fallos. En estos n individuos, se permite la posibilidad de que haya más de un fallo en , denotamos por , el número de fallos en . Además de estos tiempos de vida , existen a su vez tiempos de censura , para aquellos individuos en los que el tiempo de censura no es observado. El (K-M) o producto límite se define como: donde: Silvia García Ortega 12 Trabajo Fin de Máster: Supervivencia Relativa : es el número de fallos en el instante . Si no hay empates : Población superviviente en el momento inmediatamente antes del instante . . Es el número de individuos en riesgo La probabilidad de supervivencia es constante entre dos fallos consecutivos ya que conocemos con exactitud dónde se producen los fallos. Si el último dato observado es un tiempo de censura , entonces no se han observado todos los fallos de los individuos en estudio, luego, la estimación de la función de supervivencia no llega a valer cero en ningún momento, por tanto, no se puede estimar esta curva hasta , ya que no sería una curva de supervivencia propiamente dicha. En este caso, se construye el estimador solo hasta el tiempo de censura y el último intervalo sería , en cuyo caso . PROPIEDADES El estimador de K-M se caracteriza por su facilidad de cálculo y por ser el estimador no paramétrico máximo verosímil de la función de fiabilidad. En el caso de no tener censura este estimador coincide con la función de fiabilidad empírica definida en el apartado anterior. Conserva las propiedades de , de para datos censurados y es asintóticamente normal; aunque estas mismas propiedades ya no son tan robustas con pequeñas muestras (es sensible a observaciones atípicas). En particular, es sesgado y la magnitud del sesgo es inversamente proporcional al tamaño de la muestra. Constituye la opción más utilizada, cuando el objetivo es el cálculo de la supervivencia, cada vez que un individuo experimenta el evento, generando las proporciones y probabilidades exactas de supervivencia, ya que utiliza tiempos de supervivencia. En otras palabras, la proporción acumulada de casos que “sobreviven” es calculada siempre para el tiempo de supervivencia individual de cada sujeto, sin agrupar los tiempos de supervivencia en intervalos. Cuando los datos en estudio se registran con una fuerte censura, el problema que se presenta con este estimador es que sus estimaciones no sólo tienen la tendencia a sobrestimar la fiabilidad o supervivencia de las unidades o individuos en estudio con un alto valor de sesgo, sino que van acompañadas de muy poca variabilidad de las estimaciones. Las estimaciones de K-M obtenidas en realidad son estimaciones sesgadas (sobrestimaciones), razón por la cual, cobra importancia la necesidad de reducir el sesgo que producen las estimaciones de K-M con datos censurados. VARIANZA DEL ESTIMADOR Para cualquier instante , el estimador de K-M de da una estimación puntual. Así que será necesario contar con una buena estimación de de su varianza para obtener la estimación en diferentes instantes de tiempo o sobre diferentes muestras. El estimador de la varianza viene dado por la formula de Greenwood (1926). Para su cálculo, utilizaremos la aproximación por el método Delta que consiste en usar una aproximación en series de Taylor de modo que obtengamos una función lineal que aproxime Silvia García Ortega 13 Trabajo Fin de Máster: Supervivencia Relativa al estimador de la función de supervivencia, es decir, a una función más complicada. Por tanto, es necesario que la función pueda ser expresada en serie de Taylor. Método Delta: Sea X una v.a. con media y sea una función diferenciable, entonces: Para Aplicando la varianza en ambos lados de la igualdad obtenemos: donde asumimos que son independientes. Ahora se aplica el método Delta: Como queremos obtener el resultado para método Delta para Deshaciendo el valor de Greenwood: y no para , volvemos a aplicar el : y calculando la estimación de la varianza, se obtiene la fórmula de Un estimador del error estándar de es: NOTA: Hay que tener en cuenta que si no existen observaciones censuradas antes de : INTERVALOS DE CONFIANZA Teniendo en cuenta la normalidad asintótica de los estimadores de máxima verosimilitud, como es el caso del estimador de K-M, los intervalos a un nivel de confianza de la función de supervivencia en cada tiempo fijo se calculan de la siguiente forma: Silvia García Ortega 14 Trabajo Fin de Máster: Supervivencia Relativa donde: es el cuantil de orden en una distribución normal estándar. Como se define únicamente en el extremo superior de los intervalos que contienen fallos, generalmente sólo se calcula en tales puntos (si no hay fallos en un intervalo, se mantiene constante durante ese intervalo). Para un punto final superior especificado en la que se desea una estimación de , una aproximación normal de un intervalo de confianza para es Los intervalos de confianza se basan en el supuesto de que la distribución: puede aproximarse por a una N(0,1). Entonces implica que: Nótese que , es fijo mientras que y son aleatorios. La aproximación obtenida es una aproximación para muestras grandes y mejora con el aumento de tamaño de la muestra. En el caso de que el tamaño de la muestra no sea muy grande, la distribución normal puede no proporcionar una aproximación adecuada para la distribución , en especial en las colas de la distribución, (donde es cercano a 0 o 1). Por ejemplo, es posible que ó , resultado que estaría fuera del rango de una función de fiabilidad. En general, podemos obtener una mejor aproximación mediante el uso de la transformación y basando los intervalos de confianza en la distribución: Silvia García Ortega 15 Trabajo Fin de Máster: Supervivencia Relativa Como no está acotado, es decir oscila entre próxima a una N(0,1). Esto nos lleva al intervalo de confianza: donde y , está más . Estimador de la función de riesgo acumulada: Estimador de Nelson-Aalen El estimador de Nelson-Aalen fue propuesto por primera vez en el ámbito de la fiabilidad por Nelson (1969 y 1972). Posteriormente Aalen (1978) extendió sus usos más allá de la supervivencia para estudiar sus propiedades usando martingalas. Altschuler en 1970 lo obtuvo utilizando técnicas de procesos de conteo con animales. Dado que la función de riesgo acumulado se puede expresar de la forma: , siendo el estimador de Kaplan-Meier, un posible estimador de puede obtenerse mediante las sumas acumuladas de la estimación empírica de la función de riesgo: donde: : es el número de fallos ocurridos en el instante . : es el número de individuos en riesgo en . Al estimador así definido se le conoce como . El cociente proporciona una estimación de la probabilidad condicionada de que una unidad que sobrevive hasta justo antes del instante , falle en el instante . A partir de la relación logarítmica entre y se obtiene un estimador alternativo de la función de supervivencia, , conocido como estimador de Fleming-Harrington: Cuando es una v.a. continua y son estimadores asintóticamente equivalentes y con la excepción de valores altos de t, donde las estimaciones son más inestables, la diferencia entre ambo será por lo general pequeña. Silvia García Ortega 16 Trabajo Fin de Máster: Supervivencia Relativa es la aproximación lineal de primer orden de la función puesto que: Estas estimaciones son de gran utilidad en la construcción de gráficas, para evaluar la selección de una determinada familia paramétrica de distribuciones, cuando se trata de modelizar la distribución del tiempo de vida de una unidad o individuo y realizar unas primeras estimaciones de los parámetros del modelo seleccionado, Nelson (1982), Lawless (1982). Pan y Chappell (1998) introdujeron el estimador de Nelson-Aalen extendido para la función de supervivencia en el caso de truncamiento a la izquierda y censura a la derecha con el fin de corregir el importante sesgo producido por la subestimación de la citada supervivencia. Así pues, soluciona el problema de la subestimación dado por este último cuando hay truncamiento. I.3.3. Modelos Semiparamétricos Los modelos semiparamétricos permiten estudiar la relación entre la función de supervivencia y el tiempo evaluando el efecto de covariables sobre la función riesgo. Entre los modelos existentes destacamos el Modelo de Riesgos Proporcionales de Cox. Modelo de Riesgos Proporcionales de Cox El modelo de riesgos proporcionales introducido por Cox (1972) es el modelo de regresión más utilizado en análisis de supervivencia. Su enfoque ha permitido la verificación de los supuestos de riesgos proporcionales y el estudio de los residuos. Algunos desarrollos y generalizaciones del modelo de Cox pueden verse en: Cox (1972,1975), Miller (1976), Buckley-James (1979), Tsiatis (1978a), Andersen y Gill (1982), Johansen (1983), Andersen et al. (1993), Therneau y Grambsch (2000). El modelo de riesgos proporcionales nos permite analizar no sólo la relación entre la tasa de fallo y el tiempo, sino también la posible relación con diferentes variables registradas para cada sujeto. Es decir, se trata de calcular la tasa de fallo o mortalidad como una función del tiempo y de un determinado conjunto de variables explicativas o covariables. El modelo de riesgos proporcionales de Cox, como método de predicción de fallos tiene la expresión: donde: Silvia García Ortega 17 Trabajo Fin de Máster: Supervivencia Relativa • • • • es la edad alcanzada por la unidad (individuo). es una función desconocida, aribitraria y no negativa en el tiempo es la traspuesta de un vector de covariables. es el vector de parámetros de regresión. Si se asume que es la función de riesgo de una unidad con vector de covariables (nivel base), en el modelo de riesgos proporcionales de Cox, la función de fiabilidad condicionada para T, dado un vector de covariables Z, es: siendo la función de fiabilidad base. Así pues, el modelo de Cox se dice que es semiparamétrico, ya que incluye una parte paramétrica denominada o , con el vector de parámetros de la regresión, y otra parte no paramétrica llamada , desconocida, arbitraria y no negativa en el tiempo. Este modelo tiene sus ventajas. Cuando el objetivo es comparar grupos, valorar supervivencias relativas, lo que interesa es calcular cocientes de riesgo y al dividir las dos funciones, como el término Este modelo tiene sus ventajas. Cuando el objetivo es comparar grupos, valorar supervivencias relativas, lo que interesa es calcular cocientes de riesgo y al dividir las dos funciones, como el término interviene en ambas, desaparece, por lo que en estos casos realmente da igual cual pueda ser la forma de esta función. Sin embargo, esta característica puede ser un inconveniente cuando lo que se desea es calcular un valor absoluto de supervivencia para un determinado perfil de riesgo, ya que entonces sí es necesario estimar , y dicha estimación se efectúa directamente a partir de los datos. El modelo de riesgos proporcionales estratificado, como extensión del modelo de Cox permite obtener la estimación de los modelos para distintos grupos disjuntos o estratos y tiene la expresión: donde: • • son las funciones de riesgo básicas en cada uno de los estratos, arbitrarias y distintas. : es el vector de coeficientes que coincide en todos los estratos. Este modelo se considera cuando la hipótesis de proporcionalidad no se verifica en los estratos de un factor; se asume que las funciones de riesgo son proporcionales dentro del mismo estrato, pero no necesariamente a través de los estratos. Sin embargo presenta Silvia García Ortega 18 Trabajo Fin de Máster: Supervivencia Relativa desventaja, y es que no existe ningún estratificación que permita estimar el efecto de la covariable de A continuación vamos a ver distintas técnicas que permiten valorar la bondad del ajuste del modelo de riesgos proporcionales a un conjunto de datos. Residuos de Cox-Snell Esta técnica va dirigida a valorar la bondad del ajuste del modelo de Cox de manera global. Para datos completos, es decir, sin censura, los residuos generalizados de Cox-Snell se definen de la siguiente forma: donde: • • : es el residuo i-ésimo para la unidad de la muestra. : es la fiabilidad estimada evaluada en con vector de covariables . Si el modelo de Cox es correcto y los valores estimados de los parámetros de regresión están próximos a los reales, los residuos obtenidos deben ajustarse a una distribución exponencial de parámetro 1. Diagnósticos de Regresión Dependiendo del tipo de residuos generados en el ajuste se pueden usar para distintas opciones: • • • • Descubrir la forma funcional correcta de un predictor continuo. Identificar los sujetos que están pobremente predichos por el modelo. Distinguir los puntos o individuos de influencia. Verificar el supuesto de riesgo proporcional. Entre los residuos que podemos obtener, los de interés en el modelo de Cox son: • Residuos de martingala, deviance. • Residuos de puntuaje, score. • Residuos de Schoenfeld. Silvia García Ortega 19 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 20 Trabajo Fin de Máster: Supervivencia Relativa Capítulo II Cálculo de la Supervivencia Relativa II.1. Introducción En Análisis de Supervivencia, estamos interesados en el tiempo transcurrido desde el inicio de una observación hasta la ocurrencia de un cierto suceso (el fallecimiento, la recaída en una enfermedad, etc.). Suponemos que el suceso final está bien definido en el sentido de que no hay duda acerca de si el suceso final ha ocurrido ciertamente o no. En la práctica esto no es siempre así. Si estamos interesados en el estudio de fallecimientos por causa-específica, entonces en muchas ocasiones resulta complicado y hasta imposible establecer la causa de la muerte, o bien hay muchas causas diferentes de muerte, siendo imposible asignar la muerte a una sola causa. Una solución a este problema puede proporcionarse mediante el uso de técnicas de supervivencia relativa, que consisten en comparar un estudio de supervivencia en una cohorte con lo que sería esperable en caso de que los sujetos se ajustasen a las tasas de mortalidad de la población de referencia (localización, edad, sexo y año calendario). Estos métodos permiten la estimación de la proporción de muertes debidas a una determinada causa. Para entender mejor la problemática que motiva la aplicación de técnicas de análisis de supervivencia relativa, pongámonos en el siguiente caso. Si una persona con una enfermedad incurable comete suicidio, la causa de muerte que aparece en su certificado de defunción será suicidio, y si hubiese muchos casos como este, los estadísticos de mortalidad mostrarían una proporción de fallecidos debido a la enfermedad en cuestión mucho menor de lo que debería ser. Este ejemplo es, aunque más o menos hipotético, bastante obvio. En cambio, en muchas situaciones similares, resulta difícil, si no Silvia García Ortega 21 Trabajo Fin de Máster: Supervivencia Relativa imposible, identificar entre posibles diferentes, la causa de muerte. Las personas con cierta enfermedad (diabetes, alta presión arterial, etc) pueden morir debido a causas naturales, pero es bastante posible y obvio que vivan durante más tiempo si la enfermedad no estuviese presente. En tales casos, los métodos de supervivencia relativa ayudan a estimar la proporción de población que fallece debido a una causa determinada. Estos métodos son muy usados en los registros de cáncer (poner referencias) aunque casi nunca se emplean en otras áreas de medicina. El propósito de esta memoria es hacer una revisión de los métodos más usuales de análisis de supervivencia relativa. Presentar un programa estadístico integrado en el entorno R (relsurv) que incluye funciones de uso sencillo y que permiten ajustar de manera flexible los modelos de regresión de supervivencia relativa más extendidos en la práctica. Ilustramos todos los métodos estudiados mediante ejemplos y en la parte final de la memoria presentamos una aplicación con datos reales. II.1.1. ¿Qué se entiende por supervivencia relativa? El término supervivencia relativa hace referencia a la experiencia vital de un grupo. Los métodos de análisis de supervivencia habituales no dan respuesta en general a las siguientes cuestiones que surgen de manera natural: ¿Cuánto tiempo, en relación a una población general, ha vivido una persona en concreto? ¿Vivió Individuo 1 relativamente más tiempo que Individuo 2? Tomemos como ejemplo el caso del presidente del gobierno de España entre los años 1976 y 1981, Adolfo Suárez Illana (25/09/1932), fallecido el pasado 23 de marzo del presente año. Y del poeta granadino de la generación del 36, Luis Rosales Camacho (31/05/1910), también fallecido a la edad de 81 años el 26 de abril de 1992. En el año 1910 la esperanza de vida en España entre la población masculina se estimaba en 40.92 años (fuente: Instituto Nacional de Estadística) y en el año 1932 ascendía a 48.38 años Por consiguiente, tanto Luis Rosales como Adolfo Suárez superaron ampliamente la esperanza de vida estimada al nacimiento para los individuos de su generación. Pero podemos decir mucho más, podemos en concreto calcular para cada individuo la proporción esperada de la población general que no habría sobrevivido a su tiempo de vida registrado. Dicho de otra forma, sea FE(t) la función de distribución correspondiente al tiempo de vida residual de la población para una edad, sexo y año de calendario dados. Entonces, estaríamos interesados en la transformación Y=FE(T) que convierte un tiempo de supervivencia T a su valor asociado en la FE. Para un valor de t, y basado en las tablas de mortalidad de la población subyacente, calcula la proporción de la población con unos valores dados de sexo, edad y año de nacimiento, que no han superado un tiempo de vida igual a t. Silvia García Ortega 22 Trabajo Fin de Máster: Supervivencia Relativa Figura 1. Comparativa de curvas de mortalidad A partir de las curvas de la Figura 1, podemos leer mientras que un 79.45% de los nacidos en 1910 no llegó a cumplir los 81 años, este porcentaje se disminuye hasta 60.82% para la generación de 1932. Lo que significa que Luis Rosales con una edad de 81 años, sobrevivió casi el 80% de su generación, en cambio Adolfo Suárez que ha vivido la misma cantidad de años que el poeta granadino, ha sobrevivido apenas a un 61% de los individuos de su generación. La conclusión que podemos sacar de este análisis es que para hacernos una idea de la supervivencia de un individuo debemos enmarcarlo en una población con las mismas características (año cronológico, edad, sexo) que el individuo en cuestión. Otra motivación para el estudio de la supervivencia relativa podemos encontrarla en el siguiente ejemplo. Supongamos que tenemos una muestra para analizar con datos sobre supervivencia de enfermas de cáncer de pecho de todas las provincias de España. Supongamos que nuestro análisis ha mostrado que las mujeres del norte evolucionan peor que las mujeres del sur. Podríamos estar en este caso tentados a justificar este comportamiento basados en determinados factores que expliquen la diferencia. Pero el hecho es que las mujeres del norte tienen menos esperanza de vida que las mujeres en el sur, siendo la diferencia alrededor de 3 años. De este modo, nuestro análisis sobre la muestra de enfermas de cáncer simplemente podría estar reflejando este hecho, y así no hay diferencias relativas en supervivencia de las mujeres con cáncer de pecho basadas en localizaciones geográficas. Es más, en caso de haberlas, éstas serían menores de lo que refleja nuestro estudio inicial. Lo indicado en este caso sería calcular por separado la supervivencia observada en la muestra, así como la supervivencia esperada usando tablas de de vida poblacionales (si están disponibles) para las mujeres del norte y del sur del país y comparar las curvas obtenidas en cada caso. En España, el Instituto Nacional de Estadística publica periódicamente tablas de mortalidad de la población según año de calendario, sexo y edad, que es la información que Silvia García Ortega 23 Trabajo Fin de Máster: Supervivencia Relativa necesitamos en nuestro caso, aunque el instituto permite al usuario obtener información más detallada. II.1.2. Definición y Notación Consideremos un estudio longitudinal de una cohorte en el que se observa el riesgo de fallecer, una vez diagnosticada una determinada enfermedad. Bajo la hipótesis de que ésta es la única causa de muerte, podemos hacer uso de la supervivencia por causa específica para determinar la proporción de individuos que sobreviven a ella. En este caso, los tiempos de seguimiento de tales individuos que no han fallecido por la citada enfermedad, se consideran tiempos censurados y sólo se consideran las muertes causadas por la enfermedad como eventos. Obsérvese que este método tiene dos inconvenientes: la subestimación de la tasa de fallecimiento, al no considerar otras causas de fallecimiento; y el sesgo, ya que los certificados de defunción no siempre están disponibles o tienen buena calidad, lo que puede dar lugar a una diferencia entre el valor esperado y su verdadero valor. Una posible solución a estos problemas es utilizar la supervivencia relativa (SR), que se define como: Donde • : Supervivencia Observada (SO), calculada a partir de la muestra de enfermos diagnosticados; • ): Supervivencia Esperada (SE) En general , dado que la supervivencia entre pacientes con una enfermedad grave será menor que en la población general. En algunos casos se pueden obtener valores superiores a 1 lo que indicaría que la supervivencia de los sujetos en estudio supera a la de la población general. El primer paso para el cálculo de la SR es definir el tiempo o periodo de estudio en años. El tiempo de supervivencia (TS) se define como el intervalo entre el diagnóstico de la enfermedad y el evento de interés, que en este caso es la defunción del individuo. En ocasiones no se dispone de esta información hasta el final de su periodo de estudio, por lo que en este caso, diremos que su TS es censurado y su tiempo de seguimiento se calculará desde la fecha de diagnostico de la enfermedad hasta el último contacto con el individuo. De esta forma, se disponen de 2 variables respuesta para cada individuo: el tiempo de seguimiento y la censura/evento. La SO se determina asumiendo que los eventos son todas las defunciones independientemente de la causa de muerte. (En el capítulo I se definieron los métodos para su cálculo). Silvia García Ortega 24 Trabajo Fin de Máster: Supervivencia Relativa La SE se estima a partir de la mortalidad de la población residente en el área geográfica de la cual proceden los miembros de la cohorte en estudio, siendo ésta por consiguiente una corrección del sesgo en la estimación de la SO. (En el siguiente apartado se estudia cómo calcular la SE). Para llevar a cabo el cálculo de la SR se pueden emplear las siguientes herramientas informáticas: Relsurv: Libro de R que permite estimar un modelo de regresión de SR a partir del método de Estève, que a su vez permite estimar la SE con las técnicas de Ederer. Este paquete se estudiará en este capítulo. Surv: Libro de R que permite estimar la SE con los métodos de Hakulinen y Ederer. Waers: Aplicación web que permite el cálculo de la SR utilizando el método de Hakulinen. Además, permite al usuario seleccionar la población de referencia. Este capítulo se va a centrar en la descripción del procedimiento para el cálculo de la SR en función del método escogido para la estimación de la SE, comentando las ventajas e inconvenientes de cada uno de ellos. II.2. Supervivencia esperada (SE) Como acabamos de comentar en el apartado anterior, la supervivencia esperada se estima a partir de las tasas de supervivencia poblacionales de la región de dónde procede la cohorte en estudio y es una corrección del sesgo que obtenemos al estimar la supervivencia observada. Sea la tasa de mortalidad poblacional (independiente de la causa) para los individuos de un grupo de edad y en un año en concreto en la zona de residencia de los pacientes. Definamos dicha tasa, para ese grupo de edad y ese año en la región de procedencia de los pacientes, como: A partir de ella, vamos a definir el estimador de la Tasa de Supervivencia Poblacional (TSP). Sea la TSP en el año j-ésimo para los pacientes del grupo de edad i-ésimo, entonces, . Hay que calcular las tasas para todos años del periodo de estudio y todas las edades, seguidamente se aplican dichas tasas a la cohorte en estudio. La Supervivencia Esperada se puede estimar por tres métodos: • • • Método Ederer I Método Ederer II Método Hakulinen Silvia García Ortega 25 Trabajo Fin de Máster: Supervivencia Relativa II.2.1 Métodos Ederer para el cáculo de la SE Sea el momento en el que se ha producido un evento y media en la cohorte de estudio en el intervalo ( . Sea a tiempo . la supervivencia poblacional la supervivencia esperada Entonces la Supervivencia Esperada se calcula como: Es decir, los métodos de Ederer calculan, en cada momento en el que se produce un evento, la supervivencia poblacional media de la cohorte. La diferencia entre los métodos está en el número de individuos que considera en cada intervalo: Método Ederer I : considera a todos los pacientes en cada intervalo. Método Ederer II: considera sólo a los pacientes que están en riesgo en cada intervalo. Es decir, ambos métodos son iguales, para su cálculo se realizan los mismos pasos, lo único que los diferencia es el número de pacientes considerado en cada intervalo. Determinemos los pasos a seguir para calcular por el método Ederer I: 1. Determinar el tiempo mínimo y máximo de supervivencia en la cohorte, y dividir dicho tiempo en intervalos de igual amplitud. 2. Estimar para cada paciente la supervivencia poblacional en cada tiempo, aunque no esté en riesgo en dicho tiempo. 3. Calcular la media de las supervivencias poblacionales de cada individuo en , es decir, 4. Aplicar la expresión para . Los pasos a seguir para calcular difiere en el punto 2: por el método Ederer II son similares al anterior, sólo 1. Determinar el tiempo mínimo y máximo de supervivencia en la cohorte, y dividir dicho tiempo en intervalos de igual amplitud. 2. Estimar para cada paciente en riesgo la supervivencia poblacional en cada tiempo. 3. Calcular la media de las supervivencias poblacionales de cada individuo en , es decir, 4. Aplicar la expresión para el cálculo de Si el tiempo de seguimiento de los pacientes es entre 5 y 10 años, ambos métodos dan resultados similares, sin embargo si supera los 10 años se recomienda aplicar el estimador obtenido por el método Hakulinen. Silvia García Ortega 26 Trabajo Fin de Máster: Supervivencia Relativa II.2.2 Método Hakulinen para el cálculo de la SE El método Hakulinen, también denominado long-term, emplea un estimador que tiene en cuenta el tiempo de censura, similar al estimador Kaplan-Meier. Es decir, el número de pacientes de riesgo de cada intervalo se calcula teniendo en cuenta un número de abandonos esperados en dicho tiempo. Por tanto, este método se basa en determinar para cada intervalo el número de pacientes de riesgo. Sea el número de pacientes de riesgo a tiempo y estimador del número de pacientes de riesgo esperado (suma de las supervivencias poblacionales de cada uno de los pacientes de riesgo). Se define el estimador de la SE mediante el método de Hakulinen como: dónde: es el número de defunciones esperadas : intervalo de tiempo (amplitud) : es una corrección que se denomina anticipación al tiempo de censura A la hora de calcular la SR la decisión más complicada es la elección del método para determinar la SE. Son recomendables los métodos de Ederer II y Hakulinen puesto que minimizan el sesgo en la estimación de SE. Por otro lado, en un estudio a largo plazo y cuando hay pocos individuos el método Ederer I puede sobrestimar la SE, luego sobreestima la SR. II.2.3. Intervalo de Confianza para la Supervivencia Relativa La forma general de un intervalo de confianza viene dada por la expresión: Aplicando esta expresión a nuestro caso tendemos que el estimador es . Para poder obtener el IC necesitamos calcular la varianza de , para ello se va a considera la transformación log-log complementaria a la . Sea , cuya varianza puede ser aproximada mediante el método delta (visto en el capítulo I): Silvia García Ortega 27 Trabajo Fin de Máster: Supervivencia Relativa A partir de esta expresión y considerando y superior del IC a nivel para . constante, obtendríamos los limites inferior Sean Con el valor de la distribución normal estándar que deja un área a su derecha de límites del IC son: , los II.2.4. Ejemplo Supongamos una cohorte de Andalucía formada por 5 individuos con un tipo de enfermedad durante el periodo 2003-2007. Se ha seguido a la cohorte durante 5 años, con edades entre 35 y 59 años en el momento del diagnostico. Por tanto: La cohorte se sigue como máximo hasta 2012. Cuando se termina el estudio, los individuos de la cohorte habrán cumplido como máximo 64 años. Vamos a calcular la supervivencia esperada (por los métodos de Ederer I, Ederer II y Hakulinen). En primer lugar tenemos que conseguir la supervivencia poblacional para las edades de 35 a 64 durante en el periodo 2003-2012, para ello que vamos a seguir los siguientes pasos: • • • En la página web del INE obtenemos las tasas de mortalidad para la población indicada. (Vienen expresadas en tantos por mil, ver Tabla 1). A la Tabla 1 le aplicamos la transformación consiguiendo así la supervivencia poblacional, Tabla 2. Con la información contenida en la tabla 2 calculamos la Supervivencia Esperada por los tres métodos, Tabla 3. Silvia García Ortega 28 Trabajo Fin de Máster: Supervivencia Relativa 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 0,929199 1,011388 1,046871 1,296142 1,25687 1,406275 1,615378 1,709496 1,816846 1,992992 2,165021 2,290724 2,499228 2,922654 2,869284 3,098605 3,351407 3,768063 3,937362 4,326172 4,839625 4,824683 5,648507 5,95759 6,552353 7,234996 7,320606 8,053462 9,411285 9,703368 0,879031 0,93702 1,132144 1,106296 1,32567 1,262648 1,417868 1,540024 1,651091 1,93006 2,153448 2,235684 2,487272 2,797837 2,823061 3,200936 3,535599 3,630764 3,938861 4,105151 4,490734 5,117498 5,088532 5,623407 6,26288 6,832723 7,388928 7,249231 8,262302 9,587192 0,88834 0,89905 1,009217 1,136923 1,183598 1,283136 1,420485 1,529709 1,59759 1,860673 1,979007 2,189073 2,391495 2,525406 2,801627 3,124165 3,2474 3,633505 3,791221 4,311532 4,48521 4,76913 5,387665 5,496495 6,49538 6,842246 7,280737 8,011813 8,109943 9,006563 0,734051 0,836324 0,917286 1,031665 1,221225 1,232835 1,269611 1,425596 1,663161 1,861327 1,881141 2,133535 2,249142 2,568101 2,583631 3,011574 3,300402 3,55941 3,890032 4,154393 4,368918 4,810634 5,215776 5,690227 5,911944 6,841695 6,823933 7,757857 8,21508 8,724148 0,691379 0,792733 0,835213 0,960597 1,124589 1,20494 1,329698 1,58316 1,579246 1,690004 1,937266 1,981945 2,294822 2,423618 2,645949 2,951717 3,130669 3,501538 3,872081 4,218583 4,351572 4,68747 5,059429 5,676206 5,97558 6,616507 7,165421 7,419804 8,132013 9,271851 0,681346 0,781737 0,792374 0,850408 0,983681 1,133566 1,227477 1,335662 1,508351 1,693107 1,893364 2,026613 2,268474 2,398647 2,761727 3,060514 3,127058 3,523206 3,752053 4,008068 4,351718 4,548428 5,04829 5,546987 5,723678 6,678252 6,662107 7,611003 7,876668 8,389986 0,598802 0,690816 0,69652 0,855591 0,843128 1,041446 1,205668 1,261784 1,354783 1,469177 1,80194 1,938243 2,182795 2,247468 2,616692 2,850418 2,999576 3,181079 3,624784 4,1841 4,17371 4,622998 5,033307 5,341768 5,747495 6,085837 6,738703 7,30094 7,828166 8,328084 0,550469 0,614132 0,673758 0,737292 0,830305 0,961363 1,040473 1,216512 1,327187 1,517544 1,627555 1,893906 2,067685 2,18748 2,470949 2,717423 3,02354 3,385337 3,499917 3,872407 4,151145 4,555555 5,057751 5,224788 5,865293 6,036854 6,265703 7,255015 7,447819 8,288963 0,523665 0,577184 0,653466 0,692623 0,808922 0,900674 0,970599 1,121715 1,342639 1,395021 1,5188 1,718821 2,009046 2,162136 2,427182 2,681722 2,988724 3,390426 3,460109 3,790939 3,909658 4,683956 4,874749 5,196701 5,707574 6,180711 6,347326 7,006695 7,874335 7,802263 0,50674 0,548621 0,640147 0,669529 0,756222 0,862148 0,915394 1,005186 1,228929 1,417855 1,516226 1,645247 1,897096 2,223445 2,363935 2,411277 2,858171 3,111142 3,474748 3,664807 3,889902 4,31057 4,887399 5,119894 5,558191 6,030547 6,659348 7,027987 7,529573 8,256974 Tabla 1. Tasa de mortalidad de Andalucía en el periodo 2003-2012 para los individuos de edades comprendidas entre 35 y 64 años.( Expresada en tantos por mil). Cada año de calendario está compuesto de dos filas, la primera para las edades de 35 a 49 y la segunda para las edades de 50 a 64. Fuente: Tablas de mortalidad. INE (http://www.ine.es/jaxi/tabla.do?type=pcaxis&path=/t20/p319a/serie/p01/l0/&file=01001.px). Silvia García Ortega 29 Trabajo Fin de Máster: Supervivencia Relativa 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 0,9991 0,9990 0,9990 0,9987 0,9987 0,9986 0,9984 0,9983 0,9982 0,9980 0,9978 0,9977 0,9975 0,9971 0,9971 0,9969 0,9967 0,9962 0,9961 0,9957 0,9952 0,9952 0,9944 0,9941 0,9935 0,9928 0,9927 0,9920 0,9906 0,9903 0,9991 0,9991 0,9989 0,9989 0,9987 0,9987 0,9986 0,9985 0,9984 0,9981 0,9978 0,9978 0,9975 0,9972 0,9972 0,9968 0,9965 0,9964 0,9961 0,9959 0,9955 0,9949 0,9949 0,9944 0,9938 0,9932 0,9926 0,9928 0,9918 0,9905 0,9991 0,9991 0,9990 0,9989 0,9988 0,9987 0,9986 0,9985 0,9984 0,9981 0,9980 0,9978 0,9976 0,9975 0,9972 0,9969 0,9968 0,9964 0,9962 0,9957 0,9955 0,9952 0,9946 0,9945 0,9935 0,9932 0,9927 0,9920 0,9919 0,9910 0,9993 0,9992 0,9991 0,9990 0,9988 0,9988 0,9987 0,9986 0,9983 0,9981 0,9981 0,9979 0,9978 0,9974 0,9974 0,9970 0,9967 0,9964 0,9961 0,9959 0,9956 0,9952 0,9948 0,9943 0,9941 0,9932 0,9932 0,9923 0,9918 0,9913 0,9993 0,9992 0,9992 0,9990 0,9989 0,9988 0,9987 0,9984 0,9984 0,9983 0,9981 0,9980 0,9977 0,9976 0,9974 0,9971 0,9969 0,9965 0,9961 0,9958 0,9957 0,9953 0,9950 0,9943 0,9940 0,9934 0,9929 0,9926 0,9919 0,9908 0,9993 0,9992 0,9992 0,9991 0,9990 0,9989 0,9988 0,9987 0,9985 0,9983 0,9981 0,9980 0,9977 0,9976 0,9972 0,9969 0,9969 0,9965 0,9963 0,9960 0,9957 0,9955 0,9950 0,9945 0,9943 0,9933 0,9934 0,9924 0,9922 0,9916 0,9994 0,9993 0,9993 0,9991 0,9992 0,9990 0,9988 0,9987 0,9986 0,9985 0,9982 0,9981 0,9978 0,9978 0,9974 0,9972 0,9970 0,9968 0,9964 0,9958 0,9958 0,9954 0,9950 0,9947 0,9943 0,9939 0,9933 0,9927 0,9922 0,9917 0,9994 0,9994 0,9993 0,9993 0,9992 0,9990 0,9990 0,9988 0,9987 0,9985 0,9984 0,9981 0,9979 0,9978 0,9975 0,9973 0,9970 0,9966 0,9965 0,9961 0,9959 0,9955 0,9950 0,9948 0,9942 0,9940 0,9938 0,9928 0,9926 0,9917 0,9995 0,9994 0,9993 0,9993 0,9992 0,9991 0,9990 0,9989 0,9987 0,9986 0,9985 0,9983 0,9980 0,9978 0,9976 0,9973 0,9970 0,9966 0,9965 0,9962 0,9961 0,9953 0,9951 0,9948 0,9943 0,9938 0,9937 0,9930 0,9922 0,9922 0,9995 0,9995 0,9994 0,9993 0,9992 0,9991 0,9991 0,9990 0,9988 0,9986 0,9985 0,9984 0,9981 0,9978 0,9976 0,9976 0,9971 0,9969 0,9965 0,9963 0,9961 0,9957 0,9951 0,9949 0,9945 0,9940 0,9934 0,9930 0,9925 0,9918 Tabla 2. Supervivencia Poblacional de Andalucía en el periodo 2003-2012 para los individuos de edades comprendidas entre 35 y 64 años. Silvia García Ortega 30 Trabajo Fin de Máster: Supervivencia Relativa A partir de la tabla de supervivencias poblacionales (Tabla 2) vamos a estimar la Supervivencia Esperada por los tres métodos vistos. Para ello, consideremos que para cada individuo conocemos la edad y el año de calendario en el que entraron en la cohorte de estudio, si está vivo (0) o ha fallecido (1) al final al final del estudio (columna Estado), años de seguimiento desde la entrada en la cohorte (columna Tiempo). NOTA: los datos correspondientes a las columnas Edad entrada, Año entrada, Estado y Tiempo son ficticios. Tabla 3. Calculo de la Supervivencia Esperada Supervivencia Poblacional (SP) Edad Año Entrada Entrada 1 36 2 Individuo Estado Tiempo Año 1 Año 2 Año 3 Año 4 Año 5 2006 1 1 0,9992 0,9992 0,9991 0,9992 0,9990 45 2007 0 2 0,9981 0,9980 0,9978 0,9978 0,9976 3 40 2006 0 3 0,9988 0,9987 0,9987 0,9986 0,9985 4 55 2003 1 4 0,9952 0,9949 0,9946 0,9943 0,9940 5 39 2007 1 5 0,9989 0,9989 0,9988 0,9988 0,9987 Media de la SP en la cohorte: 0,9980 0,9979 0,9978 0,9977 0,9976 SE(t): 0,9980 0,9959 0,9937 0,9915 0,9891 Media de la SP en la cohorte 0,9980 0,9976 0,9974 0,9966 0,9987 SE(t): 0,9980 0,9956 0,9930 0,9896 0,9882 5 4 3 2 1 4,9900 3,9904 2,9921 1,9931 0,9987 0,0100 0,0096 0,0079 0,0069 0,0013 0,9978 0,9973 0,9968 0,9954 0,9973 0,9978 0,9950 0,9919 0,9873 0,9846 Ederer I Ederer II Hakulinen SE(t): Esta tabla nos muestra, por ejemplo, que el individuo 2 entró en la cohorte en 2007 con 45 años y se ha seguido durante 1 año. En la tabla 2, tenemos la TSP para dicho paciente durante 2007, que fue 0,9981. En el segundo año de seguimiento, año 2008, el paciente tenía 46 años teniendo una TSP de 0,9980. En el tercer año, año 2009, se aplica la TSP de los individuos de Silvia García Ortega 31 Trabajo Fin de Máster: Supervivencia Relativa 47 que es 0,9978. Esta información es la que necesitaríamos para aplicar el método de Ederer II. Para Ederer I tendríamos que llegar hasta el cuarto y quinto año, que serían las TSP de los individuos de 48 años en 2010 y la de los individuos de 49 años en 2011, que son 0,9978 y 0,9976 respectivamente. (Las TSP del individuo 2 son las celdas marcadas en la tabla 2). Ya disponemos de la información necesaria para calcular la SE por los distintos métodos: • La SE mediante Ederer I se obtiene calculando la SP media de los cinco individuos en cada año y multiplicando la SP media de cada año con la de los años anteriores. Año j Cálculo de la supervivencia estimada (SE): Método Ederer I SEj Año 1 0.9980 SE1 Año 2 SE2 Año 3 SE3 …. …………………………………………………………………… …. • La SE mediante Ederer II se obtiene calculando SP media de los 5 individuos en el primer año, en el segundo año se calcula la media de los individuos de 2 a 5, en el tercer año de los individuos de 3 a 5 y así hasta el último año. La SE de nuevo es el producto de la SP de un año por la de los años anteriores: Año j Cálculo de la supervivencia estimada (SE): Método Ederer II SEj Año 1 0.9980 SE1 Año 2 SE2 Año 3 SE3 …. …………………………………………………………………… …. • Para calcular la SE mediante Hakulinen vamos a considerar además: • : el número de pacientes en riesgo en el primer año es 5, en el segundo 4, etc. • : para el primer año es la suma de las cinco supervivencias poblacionales correspondientes a los pacientes en riesgo. Para el segundo año sería la suma de los cuatro pacientes en riesgo, etc. • es el número de defunciones esperadas • : el intervalo de tiempo en nuestro ejemplo es 1 Aplicando la formula vista en el apartado 2.2 se obtiene la SE por el método de Hakulinen: Silvia García Ortega 32 Trabajo Fin de Máster: Supervivencia Relativa Año j Cálculo de la supervivencia estimada (SE): Método Hakulinen SEj Año 1 SE1 Año 2 SE2 Año 3 SE3 …. …………………………………………………………………… …. Como podemos observar los dos métodos de Ederer dan estimaciones similares y sus valores son superiores a la SE obtenida mediante Hakulinen. NOTA: Si el tiempo máximo de seguimiento supera los 10 años se recomienda usar el estimador obtenido por el método de Hakulinen. Silvia García Ortega 33 Trabajo Fin de Máster: Supervivencia Relativa II.3. Modelos de regresión para el análisis de la supervivencia relativa Es natural pensar que el efecto de una covariable en el riesgo se vea modificada con el paso del tiempo. En esta situación, los modelos con parámetros "constantes" pueden ser inadecuados. Existen diferentes metodologías que encuentran una alternativa en la que se especifica un modelo de riesgo aditivo o multiplicativo para cada riesgo causa-específica involucrado. Estos modelos asumen que las covariables actúan de manera aditiva o multiplicativa sobre la función de riesgo base que se supone desconocida. Este efecto se evalúa a través de las funciones dependientes del tiempo, por lo que puede explorarse su variación. La función de supervivencia relativa, SR, depende de estas covariables, pudiendo modelizarse a través de estos modelos de riesgo aditivos y multiplicativos. En el Capítulo III de esta memoria reviasmos el libro relsurv integrado en el entorno de programación R que incorpora un paquete de funciones desarrolladas para ajustar el modelo de transformación, el modelo multiplicativo de Andersen, y tres enfoques diferentes para ajustar el modelo aditivo. II.3.1 Modelo aditivo El modelo aditivo es el que aparece con mayor frecuencia en literatura de Supervivencia Relativa. Bajo este modelo, el riesgo de cada individuo (riesgo observado, ) es la suma de la población riesgo ( ) más un término de riesgo adicional no negativo ( ), esto es: donde: • • • • , siendo el vector de valores de la variable para el que las tablas poblacionales están estratificadas y es un vector de valores de algunas covariables adicionales que se desean incluir en el análisis de regresión. es el riesgo de cada individuo debido a su edad, sexo, año de cohorte o cualquier otra combinación de covariables incluidas en los datos de mortalidad de la población. es el exceso de riesgo específico para la enfermedad en cuestión. es el riesgo observado. El término de exceso de riesgo, suele modelizarse como: donde: • • representa la función de riesgo base o riesgo adicional subyacente. es el vector de parámetros de la regresión. por lo que el riesgo observado, Silvia García Ortega , puede expresarse como: 34 Trabajo Fin de Máster: Supervivencia Relativa A partir de la igualdad , podemos expresar: Por tanto, la ecuación del modelo aditivo nos da el siguiente producto de funciones de supervivencia: donde, La ecuación anterior tiene la misma forma que la función de supervivencia relativa , de ahí que a menudo se utilice la frase de para esta clase de riesgo aditivo. Nótese que el modelo aditiovo asume que en todo momento y para cualquier valor de las covariables, con la función de supervivencia adecuada. Esto suele verificarse en determinados estudios de investigación. II.3.2 Modelo multiplicativo El modelo de riesgo multiplicativo presenta una relación multiplicativa entre sus componentes: análogo al caso anterior: • • • • siendo es el vector de valores de la variable para el que las tablas poblacionales están estratificadas y es un vector de valores de algunas covariables adicionales que se desean incluir en el análisis de regresión. es el riesgo de cada individuo debido a su edad, sexo, año de cohorte o cualquier otra combinación de covariables incluidas los datos de mortalidad de la población. es el exceso de riesgo específico para la enfermedad en cuestión. es el riesgo observado. Silvia García Ortega 35 Trabajo Fin de Máster: Supervivencia Relativa Este modelo no asume que el riesgo observado sea mayor que el riesgo de la población pero tiene una interpretación menos obvia que el modelo aditivo. El factor puede ser visto como la mortalidad relativa y por esta razón los modelos de este tipo a veces se denominan . Este modelo posee menos restricciones matemáticas que el modelo aditivo, pero existen motivos por los que este último es más utilizado en la práctica para determinados estudios. Como buen modelo, dependerá del valor que se asuma para común utilizada es donde , aunque la forma más es la mortalidad base relativa. El ajuste se realiza mediante la inclusión de las tasas de mortalidad de la población como una covariable dependiente del tiempo en el modelo de Cox. Por consiguiente, los modelos de riesgo multiplicativo están compuestos por una función de riesgo base que depende del tiempo, y por un término positivo, el cual es una función exponencial de un vector de covariables inherentes a cada individuo, multiplicado por un vector de parámetros de regresión. Así pues, una extensión del modelo de Cox permite obtener la estimación de los modelos para distintos estratos. El modelo obtenido se conoce como modelo de Cox estratificado y está definido para el estrato j-ésimo como: Este modelo permite obtener la estimación del modelo en presencia de una variable de estratificación sobre la cual se desean obtener funciones de supervivencia por cada uno de los distintos grupos y probablemente poder estudiar la existencia o no de las funciones de supervivencia entre los grupos. El modelo de Cox estratificado también constituye una de las maneras de corregir el modelo de Cox cuando no se cumple el supuesto de riesgos proporcionales para alguna de las covariables. Es este caso suele correrse el modelo estratificando por la covariable que no cumple con el supuesto de riesgo proporcional. Este procedimiento permite corregir el sesgo en la estimación del parámetro que puede presentarse cuando no se verifica el supuesto de riesgo proporcional. Sin embargo, presenta una desventaja y es que no existe ningún que permita estimar el efecto de la covariable de estratificación. II.3.3. Otros modelos La tercera opción son los modelos de transformación que no hacen ninguna suposición acerca de la relación entre lo observado, la población y el exceso de riesgo. En primer lugar, todos los tiempos de supervivencia individuales se transforman a una escala diferente (teniendo en Silvia García Ortega 36 Trabajo Fin de Máster: Supervivencia Relativa cuenta la mortalidad de la población general), donde pueden ser analizados adicionalmente por cualquiera de los modelos de supervivencia ordinarios. En este enfoque los distintos tiempos de supervivencia se transforman primero como ) donde es la función de distribución acumulada de una persona de cierta edad, sexo y año de cohorte (o cualquier otra combinación incluidas en las tablas de población) que se aplicaría como si dicha persona fuese representante de la población general. Esta función de distribución se calcula a partir de los datos de mortalidad general de la población. Los valores de pueden ser interpretados como los valores obtenidos en la función de distribución acumulativa esperada para cada individuo. Al transformar a la nueva escala, el riesgo de la población se toma en cuenta automáticamente, en consecuencia todo lo que queda es precisamente el riesgo específico de la enfermedad, lo que podemos así directamente del modelo. Una de las posibilidades es usar el modelo de Cox Silvia García Ortega 37 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 38 Trabajo Fin de Máster: Supervivencia Relativa Capítulo III Supervivencia relativa en R. El libro relsurv Existen distintos enfoques para analizar la supervivencia relativa, pero todo el software disponible (Surv, macros y funciones de SAS, Stata, RSurv de R) se centra únicamente en uno de los modelos y en el uso específico de tablas de población general. Por este motivo, a los usuarios les resulta complicado comparar los diferentes métodos. El paquete de R ha sido desarrollado en gran parte por Maja Pohar Perme y su núcleo consta de tres funciones ( , y ) que se ajustan a los modelos descritos en el apartado anterior. La principal ventaja del uso de R para la SR es la forma en la que se maneja los datos de mortalidad de la población. Una clase de objeto especial denominado , está diseñado de manera tan amplia que puede tener en cuenta cualquier particularidad de formato. Este objeto está presente si las variables que se utilizan para el cálculo de la SE (por ejemplo, edad, sexo y año) no están organizadas o nombradas de la misma forma que en las tablas de población. La correspondencia se indicaría de la siguiente forma: La construcción del objeto e es sencillo. En primer lugar, los datos deben estar organizados en una matriz rectangular, que por lo general está compuesta de tres dimensiones (sexo, edad y año calendario). Si los datos de mortalidad de la población no atienden a una matriz rectangular (un caso habitual será tener tasas para las mujeres hasta una edad más Silvia García Ortega 39 Trabajo Fin de Máster: Supervivencia Relativa avanzada que en los hombres), sólo hay que llevar el último valor hacia adelante, ya que esto también se hace por todas las funciones que utilizan los objetos . Para cualquier modelo de supervivencia relativa se requieren dos conjuntos de datos. Uno son los datos observados, que se pasan a la función como argumento . Y el otro conjunto es la tabla de mortalidad de la población con la que queremos comparar nuestros datos observados, que será un objeto de la clase . Todas las funciones siguen las mismas reglas sintácticas. III.1. Función rsaad Esta función ajusta los datos a un modelo aditivo. El usuario puede elegir, a través del argumento , los diferentes métodos de estimación. Por defecto toma el método Estéve (de máxima verosimilitud) que se especifica en "max.lik" (visto en el apartado 3.3.3), las otras dos opciones son " con un error binomial (apartado 3.3.1) y con un error de Poisson (apartado 3.3.2). Cuando se utiliza uno de los métodos glm, las proporciones de supervivencia observada y la esperada para cada grupo se muestran como grupos de objetos. Su sintaxis tiene la forma: donde: • • . Es un objeto, con la respuesta de la izquierda de un operador ~, y los términos a la derecha. Los términos se componen de variables predictoras separadas por el operador +, junto con un término . Dicho término coincide con lo que se espera de su cohorte para cada sujeto. Si están organizados y nombrados en la misma forma que en las tablas de las variables de población, el término puede omitirse. La respuesta debe ser un objeto como el devuelto por la función . NOTA: el tiempo debe estar expresado en días, y lo mismo ocurre para las variables e (las variables utilizadas en los cuadros de población), por ejemplo, la edad y el año (año se hará en el formato de fecha, es decir, en el número de días desde 01, 01 ,1960). . Es un data.frame en el que se pasan nuestros datos observados. • . Es una tabla de tasas de mortalidad, organizados como un objeto (definida en el paquete ). • . Es un único valor que indica el seguimiento en años o un vector que especifica los intervalos en años en los que el riesgo es constante, los tiempos que son más grandes que max(int) son censurados (p.e. tendríamos cuatro intervalos: [0, 0.5], (0.5, 1], (1,5], (5,10]. Es decir, los intervalos son cerrados por la derecha y abiertos por la izquierda excepto el primer intervalo que también es cerrado por la izquierda). Si Silvia García Ortega 40 Trabajo Fin de Máster: Supervivencia Relativa falta, se asume que sólo hay un intervalo (entre 0 y el tiempo máximo de observación). El método EM no necesita los intervalos, sólo puede especificarse el tiempo máximo (todos los tiempos son censurados después de ese máximo). • . . Filtra los valores perdidos, se usa después de cualquier argumento utilizado. Por defecto es . • glm.bin o glm.poi para un modelo glm, el modelo de máxima verosimilitud (por defecto). • Es el vector de valores iniciales de la iteración. Por defecto el valor inicial es cero para todas las variables. • Es una lista de parámetros para controlar el proceso del ajuste, p.e. el número de iteraciones. Consultar la documentación de para más detalles. para el algoritmo EM y max.lik para El método de máxima verosimilitud y ambos métodos gml asumen un modelo paramétrico con una función de riesgo constante por tramos. Los intervalos en los que se supone constante se debe pasar a través de argumento . El método es semiparamétrico, es decir, no se hacen suposiciones para el riesgo de referencia y por lo tanto no hay que especificar intervalos. Los métodos que utilizan gml son métodos para datos agrupados. Los grupos se forman de acuerdo con los valores de covarianza. Por tanto, esto debe tenerse en cuenta al ajustar un modelo. El método gml devuelve las tablas de vida para los grupos especificados por las covariables en grupos. En el método las probabilidades individuales de morir debido al exceso de riesgo se devuelven como Nie. III.2. Función rsmul Ajusta los datos al modelo multiplicativo de Andersen (visto en el apartado 3.3.4). Una alternativa es que divide el tiempo en intervalos, por ejemplo, la mortalidad a 1 de enero y el cumpleaños del individuo. Es una extensión de la función usando la SR. Su sintaxis es: ) Sus argumentos coinciden con los de la función , salvo: • . Es el número máximo de años de seguimiento utilizados para el cálculo de la supervivencia (el resto está censurado). Si falta, se establece el máximo observado del tiempo de seguimiento. • Puede tomar los valores y Por defecto es el método que asume que el riesgo es constante en intervalos anuales. El método divide el tiempo en Silvia García Ortega 41 Trabajo Fin de Máster: Supervivencia Relativa intervalos, por ejemplo, la mortalidad a 1 de enero y el cumpleaños del individuo. Por tanto, el método de es más preciso, pero al mismo tiempo puede ser más intenso computacionalmente hablando. Devuelve un objeto de clase coxph. III.3. Función rstrans Esta función ajusta los datos al modelo de transformación (visto en el apartado 3.3.5). Si sólo se necesitan los tiempos de transformación, esto se puede hacer directamente por la función (paquete de ) o por la función , donde se devuelve los tiempos transformados en valor de producción ( ,y . Esta función transforma el tiempo de cada persona en su probabilidad de morir en ese momento de acuerdo con . A continuación, se ajusta al modelo de riesgos proporcionales de Cox con los tiempos transformados como respuesta. También se puede utilizar para calcular los tiempos transformados (no se necesitan covariables en la fórmula para ese propósito). Su sintaxis es: Todos sus argumentos coinciden con la función Devuelve un objeto de clase h. (ver y para más detalles) y un objeto de clase que contiene los tiempos transformadas (estos tiempos no dependen de las covariables). Además de estas funciones también incluye las funciones necesarias para realizar pruebas de bondad de ajuste y representaciones gráficas para todos los modelos descritos. También incluye dos conjuntos de datos uno se llama y contiene los datos de supervivencia que puede ser utilizado como un ejemplo, el conjunto de datos contiene las tablas de mortalidad de la población de Eslovenia. III.4. Ejemplos Para ilustrar el uso del paquete vamos a realizar un ejemplo con los tres modelos aditivos, para ello vamos a utilizar los datos que proporciona el propio paquete. El primer paso es instalar con la sentencia: > install.packages("relsurv") A continuación cargamos el paquete: > library("relsurv", lib.loc="C:/Archivos de programa/R/R-3.1.0/library") Los datos con los que vamos a trabajar se incluyen en el archivo RDATA y corresponden a pacientes que han sufrido un infarto agudo de miocardio. La información fue recopilada en el Silvia García Ortega 42 Trabajo Fin de Máster: Supervivencia Relativa estudio llevado a cabo en el Centro Clínico de la Universidad de Ljubljana y contiene 1.040 pacientes diagnosticados entre 1982 y 1986 y seguidos hasta 1997. Durante este tiempo, se produjeron 547 muertes no se especifica las causas de muerte por lo que se trata de un buen ejemplo de la necesidad de la metodología de la SR. Para ello vamos a considerar los primeros 5 años de seguimiento ( ) Leemos los datos y veamos su estructura: > data(rdata) > rdata[1:10,] time cens 1 2657 1 2 1097 1 3 3764 1 4 3724 1 5 5076 0 6 139 1 7 4940 1 8 5078 0 9 596 1 10 4635 1 age 68 63 60 66 57 57 67 59 43 50 sex 2 2 1 2 2 2 1 1 1 2 year 8210 8278 8254 8054 8224 8233 8335 8177 8288 8281 agegr 62-70 62-70 54-61 62-70 54-61 54-61 62-70 54-61 <54 <54 En la ayuda de R-Studio podemos obtener información sobre las variables: • • • • • • : tiempo de supervivencia expresado en días, por lo que tiene el formato adecuado. : Indicador de censura (0 = censura, 1 = muerte), también tiene el formato correcto. : edad en años. : sexo (1 = hombre, 2 = mujer), se toma como covariable. : fecha de diagnóstico (en formato de fecha). : variable categórica o factor, que contiene cuatro grupos de edad (<54, 54-61, 62-70, 71-95), siendo la categoría <54 el grupo de referencia. Comprobemos que es efectivamente un factor: > is.factor(rdata$agegr) [1] TRUE El estudio se realizó en Eslovenia, así que vamos a considerar las tablas de población eslovenas: > data(slopop) Silvia García Ortega 43 Trabajo Fin de Máster: Supervivencia Relativa Las variables y están en el mismo formato que las tablas de población eslovenas, . A se debe poner en días, por tanto tenemos que multiplicar por 365.241, y el quedaría así: > ratetable(age=age*365.24, sex=sex,year=year) Calculemos los modelos: >Esteve<-rsadd(Surv(time,cens)∼sex+as.factor(agegr)+ratetable(age=age*365.24, sex=sex,year=year), data=rdata,ratetable=slopop,int=5) > summary(Esteve) Call:rsadd(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age * 365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5) Coefficients: Estimate Std.Error z value Pr(>|z|) sex 0.9028 0.2165 4.170 3.05e-05 *** as.factor.agegr.54.61 0.1421 0.3165 0.449 0.6534 as.factor.agegr.62.70 0.5355 0.2940 1.822 0.0685 . as.factor.agegr.71.95 0.6110 0.3142 1.944 0.0519 . fu [0,1) -4.2187 0.3859 -10.931 < 2e-16 *** fu [1,2) -4.9838 0.4272 -11.666 < 2e-16 *** fu [2,3) -5.0188 0.4393 -11.426 < 2e-16 *** fu [3,4) -5.4598 0.5623 -9.710 < 2e-16 *** fu [4,5) -4.9762 0.4444 -11.197 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 La salida nos muestra las estimaciones de , sus errores estándar y los resultados de la prueba de Wald para cada covariable. Recordemos que la covariable tiene cuatro categorías, el grupo de edad más joven se toma automáticamente como el grupo de referencia. Por tanto, la salida contiene nueve coeficientes, los últimos cinco en representación de los indicadores de intervalos de seguimiento. El hecho de que el coeficiente de la variable sea positivo ( = 0,9028) implica que la supervivencia de los hombres es relativamente mejor que la de las mujeres. La edad, sin embargo no parece ser un factor muy importante, incluso con el coeficiente de grupo de mayor edad no difieren significativamente de los más jóvenes ( ). Esto significa que las diferencias en la supervivencia entre los grupos de edad que obtendríamos con cualquier método de supervivencia clásico, son casi totalmente atribuibles a la población riesgo. Los coeficientes para los años de seguimiento son similares, así, sólo el primer año parece tener un riesgo mayor ( por año). Comprobemos la bondad del ajuste: 1 Se multiplica por 365.24 para tener en cuenta que hay un día más en los años bisiestos. El algoritmo sería: un año es bisiesto si se puede dividir entre 4. Por ejemplo 2004, 2008, etc, pero los años divisibles por 100 no son años bisiestos, es decir 1800, 1900 no lo son. A menos que sean divisibles por 400. Así que 1600 y 2000 son años bisiestos, siguiendo este algoritmo se llega a que una órbita terrestre dura 365.24 días. Silvia García Ortega 44 Trabajo Fin de Máster: Supervivencia Relativa > rs.br(Esteve) sex as.factor.agegr.54.61 as.factor.agegr.62.70 as.factor.agegr.71.95 GLOBAL En todos los casos, para bien. max 0.662 1.068 0.839 1.054 1.085 p 0.774 0.204 0.482 0.216 0.190 , el p-valor asociado es mayor, luego el modelo se ajusta >Hakulinen<rsadd(Surv(time,cens)∼sex+as.factor(agegr)+ratetable(age=age*365.24,sex=sex,year=year ),data=rdata,ratetable=slopop,int=5,method="glm.bin") > summary(Hakulinen) Call:rsadd(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age * 365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5, method = "glm.bin") Coefficients: Estimate Std. Error z value Pr(>|z|) sex 0.8594 0.2172 3.957 7.59e-05 *** as.factor(agegr)54-61 0.1479 0.3069 0.482 0.6300 as.factor(agegr)62-70 0.5207 0.2900 1.796 0.0726 . as.factor(agegr)71-95 0.5393 0.3139 1.718 0.0858 . fu [0,1] -4.0973 0.3673 -11.154 < 2e-16 *** fu (1,2] -4.8852 0.4229 -11.551 < 2e-16 *** fu (2,3] -4.9540 0.4381 -11.307 < 2e-16 *** fu (3,4] -5.3960 0.5288 -10.205 < 2e-16 *** fu (4,5] -4.9394 0.4575 -10.797 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Observed number of deaths is smaller than the expected in 7/40 groups of patients Con el modelo aditivo de Hakulinen se obtienen resultados muy parecidos: El coeficiente de la variable es de nuevo positivo ( de los hombres es relativamente mejor que la de las mujeres. ) así que la supervivencia La , no parece ser un factor muy importante, incluso si analizamos el coeficiente de grupo de mayor edad no difieren significativamente de los más jóvenes ( ). Como en el caso anterior, las diferencias en la supervivencia entre los grupos de edad que obtendríamos con cualquier método de supervivencia clásico, son casi totalmente atribuibles a la población riesgo. Silvia García Ortega 45 Trabajo Fin de Máster: Supervivencia Relativa Los coeficientes para los años de seguimiento son similares, el primer año es el que presenta un riesgo mayor (exp (fu[0, 1)) = 0,016617482 por año). Analicemos su bondad de ajuste: > rs.br(Hakulinen) sex as.factor(agegr)54-61 as.factor(agegr)62-70 as.factor(agegr)71-95 GLOBAL Para ajusta bien. max 0.653 1.035 0.819 1.001 1.034 p 0.788 0.235 0.513 0.269 0.236 , el p-valor asociado es mayor en todos los casos es mayor, luego el modelo se >Poisson <−rsadd(Surv(time,cens)∼sex+as.factor(agegr)+ ratetable(age=age*365.24,sex=sex,year=year),data=rdata,ratetable=slopop, int=5,method="glm.poi") > summary(Poisson) Call:rsadd(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age * 365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5, method = "glm.poi") Coefficients: Estimate Std. Error z value Pr(>|z|) sex 0.8634 0.2171 3.977 6.97e-05 *** as.factor(agegr)54-61 0.1463 0.3069 0.477 0.6335 as.factor(agegr)62-70 0.5162 0.2899 1.781 0.0749 . as.factor(agegr)71-95 0.5408 0.3132 1.727 0.0842 . fu [0,1] -4.0886 0.3673 -11.131 < 2e-16 *** fu (1,2] -4.8946 0.4234 -11.560 < 2e-16 *** fu (2,3] -4.9760 0.4407 -11.292 < 2e-16 *** fu (3,4] -5.4177 0.5329 -10.166 < 2e-16 *** fu (4,5] -4.9640 0.4606 -10.778 < 2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Observed number of deaths is smaller than the expected in 7/40 groups of patients Análogamente para el modelo gml de Poisson se obtiene: La supervivencia de los hombres es relativamente mejor que la de las mujeres, lo vemos en el coeficiente positivo de la variable ( ). Silvia García Ortega 46 Trabajo Fin de Máster: Supervivencia Relativa En este modelo también se aprecia que la , no parece ser un factor muy importante, incluso si analizamos el coeficiente de grupo de mayor edad no difieren significativamente de los más jóvenes ( ). Los coeficientes para los años de seguimiento son similares, el primer año es el que presenta un riesgo mayor (exp (fu[0, 1)) = 0,016617482 por año). Veamos la bondad de ajuste: > rs.br(Poisson) sex as.factor(agegr)54-61 as.factor(agegr)62-70 as.factor(agegr)71-95 GLOBAL max 0.665 1.032 0.820 0.993 1.042 p 0.769 0.237 0.512 0.278 0.228 En todos los casos, para α=0.05, el p-valor asociado es mayor, luego el modelo se ajusta bien. Si quisiéramos ajustarlo a un modelo multiplicativo la sintaxis sería: > rsmul(Surv(time,cens)∼sex+as.factor(agegr)+ ratetable(age=age*365.24,sex=sex,year=year), data=rdata, ratetable=slopop, int=5) Call:rsmul(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age * 365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5) sex as.factor.agegr.54.61 as.factor.agegr.62.70 as.factor.agegr.71.95 β exp(β) 0.802 2.231 -0.448 0.639 -0.640 0.527 -1.152 0.316 se(β) 0.128 0.205 0.189 0.188 z p 6.27 3.6e-10 -2.19 2.9e-02 -3.39 6.9e-04 -6.13 8.7e-10 Likelihood ratio test=56.9 on 4 df, p=1.32e-11 n= 4362, number of events= 323 Y para el modelo transformación: > rstrans(Surv(time,cens)∼sex+as.factor(agegr) + ratetable(age=age*365.24,sex=sex,year=year), data=rdata, ratetable=slopop, int=5) Call: rstrans(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age * 365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5) Silvia García Ortega 47 Trabajo Fin de Máster: Supervivencia Relativa β exp(β) se(β) z p sex 0.681 1.975 0.128 5.32 1.0e-07 as.factor(agegr)54-61 -0.245 0.783 0.208 -1.18 2.4e-01 as.factor(agegr)62-70 -0.303 0.739 0.200 -1.5 1 1.3e-01 as.factor(agegr)71-95 -0.515 0.597 0.213 -2.42 1.6e-02 Likelihood ratio test=28.4 on 4 df, p=1.04e-05 n= 1040, number of events= 323 Silvia García Ortega 48 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 49 Trabajo Fin de Máster: Supervivencia Relativa Capítulo IV. Aplicación Práctica: Supervivencia relativa de enfermos de SIDA en población infantil IV.1. Presentación de los datos Los datos que hemos utilizado en este trabajo provienen del Registro Andaluz de Casos de Sida. Este registro forma parte de un sistema nacional de vigilancia epidemiológica en el que participan todas las Comunidades Autónomas de España. El objetivo de la vigilancia del SIDA es conocer su morbilidad (los efectos de una enfermedad en una población en el sentido de la proporción de personas que la padecen en un sitio y tiempo), mortalidad y los factores de riesgo asociados a esta enfermedad. La información disponible en el Registro Andaluz de casos de Sida comprende: • Datos sociodemográficos como el género, la edad, el grupo de riesgo, fecha de muerte, el centro hospitalario, el país y provincia de residencia del paciente. • Datos clínicos como, la fecha de diagnóstico por VIH (sólo el mes y el año), la fecha de diagnóstico de SIDA (solo mes y año), la enfermedad indicativa de SIDA (alguna de las 28 enfermedades indicativas del SIDA). Toda esta información se actualiza con datos de mortalidad mediante un cruce de los datos registrados en el Registro Andaluz de casos de Sida y de los datos disponibles en el Registro Andaluz de Mortalidad. En el presente estudio hemos considerado únicamente información referida a población infantil, es decir aquellos que a fecha de diagnóstico tenían 15 o menos años de edad. Toda la información muestral que hemos usado ha sido organizada para su posterior tratamiento en R, Silvia García Ortega 50 Trabajo Fin de Máster: Supervivencia Relativa en el archivo que hemos nombrado infantil.txt y que está formado por cinco variables que describimos a continuación: Variable Descripción sex age cens time year 1=hombre, 0=mujer 0-15 años 0=censura; 1=fallecido Tiempo de supervivencia en meses Fecha de alta en el registro de casos de SIDA IV.2. Estimación de la supervivencia observada Comencemos leyendo el fichero de datos donde se encuentra la información: > infantil<-read.table("infantil.txt",header=T) > infantil sex age cens time year 13 1 9.0 1 43.87 20 0 0.5 1 23.17 89 1 0.5 1 2.55 129 1 0.5 1 6.91 244 0 1.0 0 120.73 499 0 10.0 0 56.30 512 0 7.0 0 53.26 568 0 12.0 1 0.66 583 0 0.5 0 202.18 613 0 0.5 1 0.76 695 0 6.0 1 63.57 867 1 0.5 0 149.85 875 0 0.5 1 1.52 …………………………. 1Dec88 1Jul89 1Jul90 1May93 1Jun95 1Oct00 1Jan01 1Feb87 1Sep88 1Jul89 1May88 1Jan93 1Jun92 donde cada una de las columnas contiene la información definida en el punto anterior. Para el cálculo de la supervivencia observada vamos a usar la función coxph que se encuentra en el libro survival, como a lo largo de la práctica también necesitaremos el libro relsurv, vamos a llamar a este último y así tendremos cargados los dos. > library(relsurv) Calculemos en primer lugar el estimador de Kaplan-Meier para un modelo sin variables: #Cálculo de Kaplan-Meier > km<-survfit(Surv(time,cens)~1,data=infantil, conf.int=FALSE) > summary(km) Call: survfit(formula = Surv(time, cens) ~ 1, data = infantil, conf.int = FALSE) Silvia García Ortega 51 Trabajo Fin de Máster: Supervivencia Relativa time n.risk n.event survival std.err 0.03 202 1 0.995 0.00494 0.13 201 1 0.990 0.00697 0.30 200 1 0.985 0.00851 0.33 199 1 0.980 0.00980 0.40 198 1 0.975 0.01093 0.50 197 1 0.970 0.01194 0.66 196 1 0.965 0.01287 0.69 195 1 0.960 0.01372 0.73 194 1 0.955 0.01452 ……………………………………………….. Y veamos su representación gráfica: > #Gráfico de la función de supervivencia > plot(km,xlab="Tiempo(días)",ylab="Supervivencia", main="Estimador de Kaplan y Meier") En los primeros 50 días se observa una caída pronunciada de la curva de supervivencia, es decir, a medida que se incrementa el tiempo, la supervivencia de los pacientes desciende a un ritmo mayor que a partir de los 50 meses, donde se aprecia una tendencia casi constante. Ahora, calculemos KM teniendo considerando la variable sex > km_sex<-survfit(Surv(time,cens)~sex,data=infantil, conf.int=FALSE) Silvia García Ortega 52 Trabajo Fin de Máster: Supervivencia Relativa Su representación gráfica puede obtenerse mediante: > #Gráfico de la función de supervivencia > plot(km_sex,xlab="Tiempo(días)",ylab="Supervivencia", main="Estimador de Kaplan y Meier") Niño Niña La población infantil masculina (sex=1) presenta una mayor supervivencia frente a la femenina, siendo prácticamente constante esta diferencia durante todo el periodo. Pero hay que estudiar si estas diferencias en los tiempos medios de supervivencia entre hombres y mujeres son realmente significativo para ello consideramos el siguiente test: > prueba<-survdiff(Surv(time, cens) ~ sex,data=infantil) > prueba Call: survdiff(formula = Surv(time, cens) ~ sex, data = infantil) N Observed Expected (O-E)^2/E (O-E)^2/V sex=0 77 31 40.7 2.32 4.28 sex=1 102 58 48.3 1.95 4.28 Chisq= 4.3 on 1 degrees of freedom, p= 0.0385 A un nivel de significación el resultado es significativo, luego la diferencia de supervivencia de hombres y mujeres es significativa. El gráfico de la función de supervivencia por sexos sugiere que un modelo de riesgos proporcionales de Cox podría ser un modelo adecuado para explicar la influencia de la variable sex. Silvia García Ortega 53 Trabajo Fin de Máster: Supervivencia Relativa (NOTA: no tiene sentido plantear un K-M con la variable age al ser cuantitativa tomaría cada valor como un factor obteniendo una línea para cada edad. Podríamos considerar agrupar los individuos de la muestra y crear una variable categórica definida por grupos de edad. No hemos considerado este enfoque aquí.) Modelos de regresión de Cox Ahora vamos a comprobar si las variables influyen en el modelo para ello calculemos la Regresión de Cox para cada variable individualmente y luego realizaremos el modelo múltiple. > #Regresión de Cox con la variable sexo > cox_sex<-coxph(Surv(time, cens) ~sex, data=infantil2) > summary(cox_sex) Call: coxph(formula = Surv(time, cens) ~ sex, data = infantil2) n= 179, number of events= 89 coef exp(coef) se(coef) z Pr(>|z|) sex 0.4572 1.5797 0.2228 2.052 0.0402 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 upper .95 sex 1.58 0.633 1.021 2.445 Concordance= 0.556 (se = 0.027 ) Rsquare= 0.024 (max possible= 0.992 ) Likelihood ratio test= 4.37 on 1 df, p=0.0365 Wald test = 4.21 on 1 df, p=0.04018 Score (logrank) test = 4.28 on 1 df, p=0.03849 Fijando el nivel de significación , por cualquiera de los tres criterios (test de razón de verosimilitud, test de wald y test de los puntajes (score o logrank)), el modelo es significativo puesto que los p-valores asociados son todos menores que . También obtenemos que la variable sexo influye en el modelo ya que su es menor que . En cuanto a la estimación del Hazard Ratio, obtenido a partir de , se puede decir que un paciente que sea mujer presenta un riesgo de morir aproximadamente 1,58 veces mayor que un hombre (siendo mujer=0 la categoría de referencia). Por último, como el IC no contiene al uno, el riesgo es significativo. De forma que a la vista de los resultados obtenidos se concluye que la variable sexo es significativa. Veamos qué ocurre con la variable edad Silvia García Ortega 54 Trabajo Fin de Máster: Supervivencia Relativa > #Regresión de Cox con la variable edad > cox_age<-coxph(Surv(time, cens) ~ age, data=infantil2) > summary(cox_age) Call: coxph(formula = Surv(time, cens) ~ age, data = infantil2) n= 179, number of events= 89 coef exp(coef) se(coef) z Pr(>|z|) age 0.008043 1.008075 0.024979 0.322 0.747 exp(coef) exp(-coef) lower .95 upper .95 age 1.008 0.992 0.9599 1.059 Concordance= 0.487 (se = 0.03 ) Rsquare= 0.001 (max possible= 0.992 ) Likelihood ratio test= 0.1 on 1 df, p=0.7495 Wald test = 0.1 on 1 df, p=0.7475 Score (logrank) test = 0.1 on 1 df, p=0.7474 Realizando un análisis análogo al caso anterior obtenemos que para el mismo nivel de significación este modelo no es significativo con ningún criterio (los p-valores de los tres criterios son mayores que 0,05). En cuanto a la estimación del Hazard Ratio se puede decir que un paciente con una determinada edad tiene 0,99 veces menos riesgo de morir a medida que cumple cada año. Esta conclusión puede ser un poco controvertida porque no tiene sentido que a medida que se cumplen años tengas más posibilidad de vivir, pero al tratarse de pacientes con VIH puede ocurrir que a medida que cumplan años desarrollen más anticuerpos y crezca por tanto su posibilidad de vivir. Pero como el IC en este caso contiene al uno, dicho valor de riesgo no es significativo. Analizando por separado la influencia de las variables hemos obtenido que el sexo es influyente pero la edad no, veamos qué pasa si consideramos las dos en el modelo. > #Regresión de Cox con las variables sexo y edad > cox_sexoedad<-coxph(Surv(time, cens) ~ age+sex, data=infantil2) > summary(cox_sexoedad) Call: coxph(formula = Surv(time, cens) ~ age + sex, data = infantil2) n= 179, number of events= 89 coef exp(coef) se(coef) z Pr(>|z|) age 0.001259 1.001260 0.024569 0.051 0.9591 sex 0.455860 1.577530 0.224454 2.031 0.0423 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 upper .95 age 1.001 0.9987 0.9542 1.051 sex 1.578 0.6339 1.0161 2.449 Silvia García Ortega 55 Trabajo Fin de Máster: Supervivencia Relativa Concordance= 0.549 (se = 0.031 ) Rsquare= 0.024 (max possible= 0.992 ) Likelihood ratio test= 4.38 on 2 df, p=0.1121 Wald test = 4.21 on 2 df, p=0.1217 Score (logrank) test = 4.29 on 2 df, p=0.1173 El modelo formado por las variables sex y age no es significativo por ningún criterio puesto que todos los p-valores son superiores al nivel de significación fijado . De nuevo la variable sex es influyente (p-valor=0,0423<0,05) y la variable age sigue sin serlo (p-valor=0,9591<0,05). Así pues, a un nivel , existe relación entre el sexo y la supervivencia (p-valor<0,05), mientras que no existe relación entre la variable edad y la supervivencia (p-valor>0,05). En resumen, tener una u otra edad no influye en el hecho de morir pero ser niño o niña sí. Por último, veamos el modelo de Cox con las tres variables: age, sex y year > #Regresión de Cox con las variables sexo, edad y año > cox<-coxph(Surv(time,cens)~age+sex+as.numeric(year), data=infantil2) > summary(cox) Call: coxph(formula = Surv(time, cens) ~ age + sex + as.numeric(year), data = infantil2) n= 179, number of events= 89 coef exp(coef) se(coef) z Pr(>|z|) age 0.0004683 1.0004685 0.0246614 0.019 0.9848 sex 0.4597592 1.5836925 0.2246789 2.046 0.0407 * as.numeric(year) -0.0011855 0.9988152 0.0032955 -0.360 0.7190 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 upper .95 age 1.0005 0.9995 0.9533 1.050 sex 1.5837 0.6314 1.0196 2.460 as.numeric(year) 0.9988 1.0012 0.9924 1.005 Concordance= 0.562 (se = 0.032 ) Rsquare= 0.025 (max possible= 0.992 ) Likelihood ratio test= 4.51 on 3 df, p=0.2118 Wald test = 4.34 on 3 df, p=0.227 Score (logrank) test = 4.41 on 3 df, p=0.2201 El modelo formado por las variables edad, sexo y año no es significativo a nivel de significación por ningún criterio. Comprobemos si las variables son influyentes: Silvia García Ortega 56 Trabajo Fin de Máster: Supervivencia Relativa • • • age: su sex: su year: su , por tanto, no influye en el modelo. , influye en el modelo. , tampoco influye en el modelo. En cuanto a la estimación del Hazard Ratio obtenido a partir de • • • : age: al tener valor prácticamente 1 existe prácticamente el mismo riesgo para todas las edades. sex: un paciente que sea mujer presenta un riesgo de morir aproximadamente 1,6 veces mayor que un hombre (siendo mujer la categoría de referencia). year: un paciente diagnosticado en un determinado año tiene 0,99 veces menos riesgo de morir a medida que pasa cada año, es decir, prácticamente el mismo riesgo. Si observamos los intervalos de confianza para cada variable comprobamos que tanto en el caso de la variable edad como de la variable año el IC contiene al 1 luego las interpretaciones realizadas de los HR no son concluyentes. Sin embargo el IC asociado al sexo no contiene al 1 por tanto sí es concluyente. Conclusión del Análisis de Cox: El estudio realizado tanto a nivel individual como múltiple pone de manifiesto que la única variable influyente es el sexo, así mismo el único modelo significativo es el formado únicamente por la variable sexo. Comparemos la función de supervivencia obtenida mediante K-M y la obtenida con el modelo de Cox compuesto con las tres variables: > #Gráfico donde se compara la función de supervivencia obtenida mediante > #el estimado de Kaplan y Meier y la obtenida mediante el modelo de Cox con las dos variables > plot(survfit(cox),conf.int=FALSE,main="Comparación del ajuste del modelo de Cox y el estimador + de KM",xlab="Tiempo (meses)", ylab="Supervivencia") > lines(km,lty=2) > legend(100,0.99,legend=c("Ajuste por Cox","Estimador de KM"), lty=c(1,2)) Silvia García Ortega 57 Trabajo Fin de Máster: Supervivencia Relativa Comparando la función de supervivencia obtenida con K-M y la que hemos obtenido con el modelo de Cox con las tres variables vemos que es prácticamente la misma. IV.3. Cálculo de la supervivencia esperada Recordemos que la supervivencia esperada se estima a partir de la mortalidad de la población residente en el área geográfica de la cual proceden los miembros de la cohorte en estudio. Vamos a utilizar un objeto especial de survival denominado ratetable mediante el cual pasaremos la tabla de vida correspondiente a nuestro estudio. Debido a que la tabla debe tener un formato muy concreto se creó la base de datos de mortalidad humana (HMD, www.mortality.org), donde se localizan las tablas de vida de 37 países, entre ellos España (la información la suministra el INE). Para descargar los ficheros hay que registrarse previamente. Así obtenemos las tablas de vidas de hombres y mujeres (mltper_1x1.txt, fltper_1x1.txt, donde 1x1 indica que tanto la edad como el año son anuales) en formato R. A continuación usamos la función transrate.hmd para unir estos ficheros en uno sólo formando nuestro ratetable: > #Mediante hmd transformamos los ficheros de las tablas de vida niños y niñas menores de 15 años a formato de R > espop<-transrate.hmd(male='mltper_1x1.txt',female='fltper_1x1.txt') Comprobemos que nuestro objeto espop tiene el formato de un ratetable > #Ahora tenemos nuestro fichero en formato ratetable: > is.ratetable(espop) #es de tipo ratetable [1] TRUE Veamos cómo está organizado Silvia García Ortega 58 Trabajo Fin de Máster: Supervivencia Relativa > summary(espop) Rate table with 3 dimensions: age ranges from 0 to 40176.51; with 111 categories year ranges from -18993 to 18993; with 105 categories sex has levels of: male female El siguiente paso es recodificar nuestra variable sexo, ya que R interpreta 1=hombre y 2=mujer. Para tal finalidad realizamos esta sencilla operación: > infantil2$sex<-2-infantil2$sex De modo que 2-0=2 (mujer) y 2-1=1 (hombre) Una vez que tenemos la información necesaria y en el formato exigido por R, vamos a calcular la SE mediante los métodos de Ederer y Hakulinen. Para aplicar las funciones correspondientes la variable edad debe estar expresada en días por ello hacemos la asignación age*365.24 en el ratetable. > ederer <- survexp(time ~ ratetable(age=age*365.24, sex=sex, year=as.numeric(year)), ratetable=espop, method=’ederer’, data=infantil2) > ederer Call: survexp(formula = time ~ ratetable(age = age * 365.24, sex = sex, year = as.numeric(year)), data = infantil2, method = “ederer”, ratetable = espop) age ranges from 0.5 to 15 years male: 102 female: 77 date of entry from 2Jan60 to 27Apr60 Time n.risk survival 0.03 179 1.000 0.13 178 1.000 0.30 177 1.000 0.33 177 1.000 0.40 176 1.000 0.50 174 1.000 0.66 173 1.000 0.69 172 1.000 0.73 171 1.000 0.76 170 1.000 0.79 169 1.000 0.86 168 1.000 0.93 168 1.000 0.99 166 1.000 1.02 165 1.000 Otra forma para obtener la supervivencia estimada es: > y<-survexp(time~ratetable(age=age*365.24, sex=sex, year=as.numeric(year)), ratetable=espop, data=infantil)$surv Silvia García Ortega 59 Trabajo Fin de Máster: Supervivencia Relativa Método de Hakulinen: > #Calculo de la supervivencia esperada mediante Hakulinen > hakulinen <- survexp(time ~ ratetable(age=age*365.24, sex=sex, year=as.numeric(year)), ratetable=espop, method=’hakulinen’, data=infantil2) > hakulinen Call: survexp(formula = time ~ ratetable(age = age * 365.24, sex = sex, year = as.numeric(year)), data = infantil2, method = “hakulinen”, ratetable = espop) age ranges from 0.5 to 15 years male: 102 female: 77 date of entry from 2Jan60 to 27Apr60 Time n.risk survival 0.03 179 1.000 0.13 178 1.000 0.30 177 1.000 0.33 177 1.000 0.40 176 1.000 0.50 174 1.000 0.66 173 1.000 0.69 172 1.000 0.73 171 1.000 0.76 170 1.000 0.79 169 1.000 0.86 168 1.000 0.93 168 1.000 0.99 166 1.000 1.02 165 1.000 1.09 163 1.000 La siguiente figura muestra la supervivencia estimada en la población infantil por sexos: Silvia García Ortega 60 Trabajo Fin de Máster: Supervivencia Relativa Como puede verse en la gráfica, para la población infantil, considerada en este trabajo, la supervivencia esperada aún presenta valores altos, por lo tanto la incidencia en el cálculo de la supervivencia relativa que vemos en la sección a continuación no será muy relevante. IV.4. Estudio de la supervivencia relativa Como ya hemos comentado la Supervivencia Relativa se define como el cociente entre la Supervivencia Observada (SO) y la Supervivencia Esperada (SE): • • SO: es la supervivencia de la cohorte teniendo en cuenta el tiempo de seguimiento del individuo (el menor) y si este ha fallecido o no independientemente de la causa de muerte, para su cálculo hemos hecho uso del método de Kaplan-Meier. SE: determina la supervivencia que se esperaría en la misma cohorte según la mortalidad por todas las causas de la población de la cual procede nuestro conjunto de población infantil (menores de 15 años). La SE la hemos estimado por los métodos de Ederer y Hakulinen obteniendo resultados muy similares. Se interpreta SR como la proporción de pacientes que ha sobrevivido en la hipotética situación de que la enfermedad en estudio, en nuestro caso el SIDA, fuese la única y posible causa de defunción. Quizás lo más complicado sea la elección del método para calcular la SE, Ederer y Hakulinen son los más recomendados puesto que minimizan el sesgo en la estimación de la SE. Presentamos a continuación los resultados desglosados por sexos Silvia García Ortega 61 Trabajo Fin de Máster: Supervivencia Relativa Como puede verse de las figuras anteriores (panel izquierdo: niños, panel derecho: niñas) las curvas obtenidas mediante el método de K-M subestiman ligeramente las probabilidades de supervivencia de los individuos de la muestra. Modelo de regresión para la supervivencia relativa Dentro del libro relsurv se encuentra la función rstrans, esta función transforma el tiempo de cada persona a su probabilidad de morir en ese momento de acuerdo con la ratetable, hay que tener en cuenta que desde 1960 la variable time debe ir expresada en días. Realicemos este cambio y ajustemos al modelo de Cox con los tiempos transformados como respuesta: > infantil2$time<-infantil2$time*30 > sup.rel<-rstrans(Surv(time, cens)~age+sex+as.numeric(year)+ratetable(age=age*365.24,sex=sex, year=as.numeric(year)), data=infantil2, ratetable=espop) > sup.rel Call: rstrans(formula = Surv(time, cens) ~ age + sex + as.numeric(year) + ratetable(age = age * 365.24, sex = sex, year = as.numeric(year)), data = infantil2, ratetable = espop) coef exp(coef) se(coef) z p age 0.09998 1.105 0.02441 4.0956 4.2e-05 sex -0.00465 0.995 0.23653 -0.0197 9.8e-01 as.numeric(year) -0.00110 0.999 0.00327 -0.3358 7.4e-01 Likelihood ratio test=15 on 3 df, p=0.00183 n= 179, number of events= 89 Con summary() obtenemos más información: > summary(sup.rel) Call: rstrans(formula = Surv(time, cens) ~ age + sex + as.numeric(year) + ratetable(age = age * 365.24, sex = sex, year = as.numeric(year)), data = infantil2, ratetable = espop) n= 179, number of events= 89 coef exp(coef) se(coef) z Pr(>|z|) age 0.099980 1.105149 0.024411 4.096 4.21e-05 *** sex -0.004648 0.995363 0.236527 -0.020 0.984 as.numeric(year) -0.001099 0.998902 0.003272 -0.336 0.737 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 age sex exp(coef) exp(-coef) lower .95 upper .95 1.1051 0.9049 1.0535 1.159 0.9954 1.0047 0.6261 1.582 Silvia García Ortega 62 Trabajo Fin de Máster: Supervivencia Relativa as.numeric(year) 0.9989 1.0011 0.9925 1.005 Concordance= 0.667 (se = 0.033 ) Rsquare= 0.08 (max possible= 0.99 ) Likelihood ratio test= 14.98 on 3 df, p=0.001832 Wald test = 18.35 on 3 df, p=0.0003718 Score (logrank) test = 20.1 on 3 df, p=0.0001618 Fijando el nivel de significación , por cualquiera de los tres criterios (test de razón de verosimilitud, test de wald y test de los puntajes (score o logrank)), el modelo es significativo puesto que los p-valores asociados son todos menores que . En este caso obtenemos que ni la variable sexo ni el año son significativos ( y , respectivamente). Sin embargo la variable edad sí que es significativa. En cuanto a los Hazard Ratio como todos son prácticamente 1 tienen prácticamente el mismo riesgo de morir independientemente de la edad, sexo o año. Ahora bien, el único IC que no contiene al 1 es el correspondiente a la variable sexo, luego el único HR significativo es el de la variable edad, es decir, todas las edades tienen prácticamente el mismo riesgo. Silvia García Ortega 63 Trabajo Fin de Máster: Supervivencia Relativa IV.5. Conclusiones El problema aquí tratado es un claro ejemplo de la importancia de la supervivencia relativa. Los datos se refieren a niños con SIDA que fueron infectados durante el embarazo. Cuando uno de ellos fallece, ¿qué se anotará en el parte de defunción? Es complicado, puesto que puede fallecer de SIDA o bien de un resfriado que se complique a causa de no tener los anticuerpos necesarios… entonces, ¿muere de sida? O ¿sólo es un factor que ha provocado que fallezca de un simple resfriado? Tanto en el análisis individual de las variables como en el multivariante, la única variable influyente en la supervivencia es el sexo, llegando a la conclusión que el sexo femenino vive más a pesar de que el masculino tiene más probabilidad de vivir (existiendo una diferencia significativa entre ellos). El resto de variables implicadas en el estudio no influyen en la supervivencia. En los primeros 50 meses tras detectar la enfermedad es cuando se produce un mayor número de fallecimientos, permaneciendo casi constante cuando han vivido 100 meses con SIDA. Sin embrago, como acabamos de ver, cuando determinamos la supervivencia relativa el sexo deja de ser influyente y se pone de manifiesto que la edad sí que es significativa. Este resultado es lógico, es cierto que los hábitos y por tanto el sexo de una persona influye en el hecho de tener SIDA pero nuestros datos son de menores que se contagiaron durante el embarazo no de sus hábitos. Tiene sentido que la edad sí sea influyente cada día que pasa nos queda un día menos de vida, por tanto la supervivencia está claramente influenciada por la edad. Silvia García Ortega 64 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 65 Trabajo Fin de Máster: Supervivencia Relativa Anexo 1. Análisis de supervivencia mediante R El libro survival En el capítulo I se han definido los modelos teóricos más importantes en Análisis de Supervivencia, en este capítulo describiremos las herramientas necesarias para calcular dichos modelos y realizar un análisis de supervivencia en R. En el programa R el análisis de supervivencia se realiza a través de diferentes paquetes o libros, algunos de ellos son: • • • • • • • : Modelos de Regresión Bayesianos. : Calcula estimadores máximo verosímiles no paramétricos para datos con doble censura. : Test de razón de verosimilitudes empíricos para datos censurados y truncados. : Calcula estimadores máximo verosímiles no paramétricos para datos censurdos y truncados. : Funciones para estimar la función de riesgo. : Funciones para ajustar modelos de regresión relativos en análisis de supervivencia. Vemos este libro de forma extensa en el capítulo IV. : Principal libro para realizar análisis de supervivencia. Existen más libros orientados a realizar análisis de supervivencia pero vamos a centrar este anexo al más importante de todos, el libro survival, que permite llevar a cabo análisis de datos que presentan censura y el truncamiento. Para ejecutar cualquiera de las funciones de este libro es necesario invocar al libro mediante la instrucción: > library(“survival”) Silvia García Ortega 66 Trabajo Fin de Máster: Supervivencia Relativa El libro survival trabaja con objetos de la forma Surv, que son estructuras de datos que contienen información de tiempo y censura. Función Surv La función permite crear objetos tipo survival. Su estructura es: > Surv(time, time2, event, type=c('right', 'left', 'interval', 'counting', 'interval2'), origin=0) > is.Surv(x) dónde: • • • • • • Corresponde al tiempo de inicio de la observación. Para datos de tipo intervalo, el primer argumento es el extremo inicial del intervalo. Es el tiempo de finalización de la observación, se asume que los intervalos de tiempos son abiertos por la derecha y cerrados por la izquierda, es decir (time, time2]. Variable binaria que indica el estado. Normalmente 0=vivo (censurado), 1=muerto (no censurado). Para datos con censura de intervalo: 0=censura a la derecha, 1=suceso ocurrido en , 2= censura a la izquierda, 3= censura de intervalo. Aunque es inusual se puede suprimir, en este caso se asume que todos los individuos tienen el mismo estado. Es una cadena de caracteres que indica el tipo de censura. Sus posibles valores son “derecha”, “izquierda”, “conteo”, “intervalo”, “intervalo2”. Por defecto, suele ser censura por la derecha (time2 está ausente) o conteo (time2 está presente). Esta opción se usa en un modelo que contiene estratos dependientes del tiempo, con el fin de enumerar los sujetos correctamente cuando cambian de un estrato a otro. Su uso no es frecuente. Cualquier objeto de R. Función survfit La función permite crear curvas de supervivencia utilizando el método de Kaplan y Meier (por defecto) o de Fleming y Harrington. También permite predecir la función de supervivencia para modelos de Cox. Su estructura es: > survfit(formula, data, weights, subset, na.action, newdata, individual=F, conf.int=.95,se.fit=T,type=c("kaplan-meier","fleming-harrington","fh2"), error=c("greenwood","tsiatis"), conf.type=c("log","log-log","plain","none"), conf.lower=c("usual","peto","modified")) donde: • • Es el objeto para formula que debe ser de tipo Surv. Conjunto de datos en el que se interpreta las variables llamadas en los argumentos y . • Son los pesos del caso que deben ser no negativos. • Indica un subconjunto de filas de para ser usado en la estimación. Puede ser un vector lógico (con igual longitud al número de observaciones), numérico (indicando el número de observaciones que deben ser incluidas o excluidas) o de caracteres (para incluir el nombre de las filas). Todas las observaciones son incluidas por defecto. Silvia García Ortega 67 Trabajo Fin de Máster: Supervivencia Relativa • • • • • • • • • Para filtrar datos faltantes. Se aplica al marco modelo después de aplicar . Para suprimir las observaciones que contienen uno o varios valores perdidos la función toma el valor . El nivel para intervalos de confianza bilaterales. Por defecto es 0.95. Valor lógico que indica si los errores estándar deben ser calculados. Por defecto es TRUE. Vector de tiempos dónde se evalua la curva de supervivencia. Por defecto, el resultado será evaluado en cada valor diferente del vector de tiempos dado en . Cadena de caracteres que indica el tipo de curva de supervivencia. Cadena de caracteres que especifica el error del estimador. Adopta los valores "none" (no calcula intervalos de confianza), "plain" (calcula los intervalos estándar , donde se determina ), "log" (por defecto, calcula intervalos basados en la función de riesgo acumulado o ), y "log-log". Valor numérico que indica un instante de tiempo donde empezar a calcular la información sobre la supervivencia. La curva resultante es la curva de supervivencia condicional a sobrevivir por encima de . Cadena de caracteres para especificar el límite inferior modificado. Con la función survfit puede obtenerse diversa información: • • • o directamente con muestra las medidas resumen. devuelve la función de supervivencia estimada. muestra el gráfico de la función de supervivencia estimada. En esta función pueden controlarse una serie de opciones gráficas (ver la ayuda correspondiente para más detalles). • proporciona el nombre de cada uno de los atributos de la función survfit. Esta función es útil para seleccionar atributos por separados o para realizar cálculos posteriores cuando sea necesario. Función survexp La función devuelve la supervivencia esperada de una cohorte de sujetos, o la supervivencia esperada para cada sujeto de forma individual. Su estructura es: > survexp(formula, data, weights, subset, na.action, rmap, times, cohort=TRUE, conditional=FALSE, ratetable=survexp.us, scale=1, npoints, se.fit, model=FALSE, x=FALSE, y=FALSE). donde: • • • • • . La variable de respuesta es un vector de los períodos de seguimiento y es opcional. . Conjunto de datos en el que interpretar las variables indicadas en la fórmula. . Pesos, ponderaciones de los casos. . Indica un subconjunto de las filas de datos para ser utilizados en el ajuste. . Función para filtrar los datos que faltan. Se aplica a la estructura modelo después de que se ha aplicado . Un valor posible para es , que borra las observaciones que contienen uno o más valores perdidos. Silvia García Ortega 68 Trabajo Fin de Máster: Supervivencia Relativa • • • • • • • • . Lista opcional que asigna nombres de conjuntos de datos a los nombres . . Vector de los períodos de seguimiento en los que se evalúa la curva de supervivencia resultante. Si está ausente, se informará el resultado para cada valor único del vector de los períodos de seguimiento suministrados en la fórmula. . Valor lógico: si es FALSO , cada sujeto es tratado como un subgrupo de tamaño 1. Su valor predeterminado es TRUE. . Valor lógico: si es TRUE, los tiempos de seguimiento suministrados en la fórmula son tiempos de muerte y supervivencia esperada. Si es FALSO, los períodos de seguimiento son posibles tiempos de censura. Si los tiempos de seguimiento no están presentes en la fórmula, se omite este argumento. . Tabla de tasas de eventos, tales como , o un modelo de Cox ajustado. scale. Valor numérico para escalar los resultados. . Calcula el error estándar de la supervivencia prevista . Para controlar lo que se devuelve. Si alguno de ellos es TRUE, se devolverán como componentes de resultado final, con los mismos nombres. Función survdiff La función comprueba si hay diferencia entre dos o más curvas de supervivencia, es decir, realiza contrastes de hipótesis para verificar la igualdad o diferencia de dos o más curvas de supervivencias, basadas en las familias de pruebas propuestas por Fleming y Harrington (1982), o para una sola curva contra una alternativa conocida. Su estructura es: >survdiff(formula, data, subset, na.action, rho=0) donde: • . Para el test de una muestra, los predictores deben consistir en un solo término , con vector que da la probabilidad de supervivencia de cada sujeto. Para un test de k-muestas, cada combinación única de predictores definine un subgrupo. Un término puede ser usado para producir una prueba estratificada. En el caso de valores perdidos en las estimaciones deben ser tratados como un grupo separado, usar la función con su argumento . • . Conjunto de datos en el que interpretar las variables indicadas en la estimación. • Indica el subconjunto de filas de datos que deben ser usadas en la estimación. Puede ser: un vector lógico (con longitud igual al número de observaciones), un vector numérico que indica que el número de observaciones incluidas (o excluidas si es negativo ) , o un vector de caracteres de los nombres de fila. Por defecto todas las observaciones son incluidas. • parámetro escalar que controla el tipo de test. Función survreg La función permite ajustar modelos de regresión paramétricos, los casos más comunes usan una transformación logarítmica. Las distribuciones que se pueden ajustar Silvia García Ortega 69 Trabajo Fin de Máster: Supervivencia Relativa directamente a través de la función survreg son: Weibull, exponencial, Normal, lognormal, logistica y log-logística. Su estructura es: >survreg(formula, data, weights, subset, na.action, dist="weibull", init=NULL, scale=0, control, parms=NULL, model=FALSE, x=FALSE, y=TRUE, robust=FALSE, score=FALSE, ...) donde: • • • • • • • • • • • Expresión análoga a otros modelos de regresión. La respuesta suele ser un objeto de la supervivencia como el devuelto por la función Surv. Conjunto de datos en el que interpretar las variables indicadas en la estimación. Vector opcional con las ponderaciones de los casos. Usada después de , filtra los valores perdidos. Por defecto es . Distribución de la variable y. Si el argumento es una cadena de caracteres, entonces se asume que llama a un elemento de . Estos incluyen "weibull", "exponencial", "normal", "logistico", "lognormal" y "loglogistica". De lo contrario, se supone que es una lista definida por el usuario conforme al formato descrito en . Contiene una lista de parámetros fijos de la distribución de la variable. Para la distribución t, por ejemplo, sería el grado de libertad. La mayoría de las distribuciones no tienen ningunos parámetros. Vector opcional para valores iniciales de los parámetros. Valor fijo opcional para la escala. Si es 0 entonces la escala es estimada. Contiene una lista de valores de control, en el formato producido por . Devuelve el vector resultante. Usa errores estándar robustos, basados en la independencia de individuos si no hay ningún termino en la formula, basada en la independencia de grupos si los hubiere. Función coxph La función ajusta modelos de regresión de Cox. También permite ajustar modelos con variables dependientes del tiempo, modelos estratificados, modelos de múltiples eventos por individuo y otras extensiones derivadas del enfoque basado en los procesos de conteo de Andersen y Gill. Su estructura es: >coxph(formula, data=, weights, subset, na.action, init, control, ties=c("efron","breslow","exact"), singular.ok=TRUE, model=FALSE, x=FALSE, y=TRUE, ...) donde: • . La respuesta debe ser un objeto de la supervivencia como el devuelto por la función . • Es un data.frame en el que interpretar las variables definidas en la fórmula. Silvia García Ortega 70 Trabajo Fin de Máster: Supervivencia Relativa • • • • • • • Vector de ponderaciones de los casos. Expresión que indica qué subconjunto de las filas de datos se debe utilizar en el ajuste. Por defecto, se incluyen todas las observaciones. . filtra los valores perdidos. . Vector de valores iniciales de la iteración. Por defecto, el valor inicial es cero para todas las variables. El objeto se emplea específicamente para la iteración de los límites y otras opciones de control. Es una cadena de caracteres que especifica el método para tratar los empates. Si no hay tiempos de muerte iguales, todos los métodos son equivalentes. . Valor lógico que indica la forma de manejar la matriz del modelo. Si es TRUE, el programa automáticamente irá a las columnas de la matriz X que son las combinaciones lineales de las primeras columnas. En cuyo caso, los coeficientes para tales columnas serán NA (valores perdidos) y la matriz para la varianza contendrá ceros. La función coxph puede combinarse con otras funciones que permiten obtener la siguiente información: • o directamente con proporciona los contrastes para verificar si el modelo Cox ajustado es adecuado. • informa un poco más de detalles de los contrastes. • proporciona la función de supervivencia ajustada por el modelo de Cox. • muestra el nombre de cada uno de los atributos de la función . Función basehaz Calcula la curva de supervivencia para un modelo de Cox. Su estructura es: > basehaz(fit, centered = TRUE) donde: • fit. El resultado de un ajuste . • centered. Si toma el valor TRUE, la curva que se obtiene es para un hipotético sujeto cuyos valores de la covarianza son los correspondientes a la media de los datos originales. En otro caso el vector de medias será cero. Función cox.zph La función cox.zph permite llevar a cabo el contraste de hipótesis de riesgos proporcionales después de ajustar un modelo de Cox (coxph). La hipótesis nula es el cumplimiento del supuesto de riesgos proporcionales, asociado a que los betas son ceros. Su estructura es: > cox.zph(fit, transform="km", global=TRUE) Silvia García Ortega 71 Trabajo Fin de Máster: Supervivencia Relativa donde: • fit. Representa el resultado para ajustar un modelo de regresión de Cox, usando la función de coxph. • transform. Es una cadena de caracteres que especifica como deben transformarse los tiempos de supervivencia antes de realizar el test. Puede tomar los valores: "km", "rank", "identity" o una función de un argumento. • global. Proporciona el test chi-cuadrado de forma global, además de los test por variable. La función cox.zph puede combinarse con la función plot para obtener la distribución de los betas. Su estructura sería: > plot(x, resid=TRUE, se=TRUE, df=4, nsmo=40, var,…) donde: • x. Es un objeto de tipo cox.zph. • var. Permite identificar la covariable que se va a representar de forma gráfica. Función strata La función strata es una función especial usada en el contexto del modelo de supervivencia de Cox. Identifica las variables de estratificación cuando ellas aparecen a la derecha de una fórmula. Su estructura es: >strata(..., na.group=FALSE, shortlabel=FALSE, sep=', ') donde: • … cualquier número de variables. Todas deben tener la misma longitud. • na.group. Variable lógica, cuando toma el valor TRUE los valores perdidos son tratadas con un nivel distinto cada variable. • shortlabel. Si es TRUE, omite nombres de variables para pasar a etiquetas del factor. • sep. Sirve para separar grupos al crear etiquetas. Silvia García Ortega 72 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 73 Trabajo Fin de Máster: Supervivencia Relativa Anexo 2. Tablas de Mortalidad Actualmente, el proceso de envejecimiento de la población y su trascendencia en la planificación de los sistemas sanitarios y de seguridad social, así como el creciente interés en la medición de las condiciones de vida de la misma, han incrementado el aliciente por el estudio de la mortalidad, como componente demográfico que determina la evolución del volumen y estructura demográfica de una población. La herramienta estadística más completa para su análisis es la tabla de mortalidad. Este instrumento de análisis demográfico, cuyo origen se remonta a 1945, permite llevar a cabo análisis temporales y comparaciones espaciales sobre la incidencia del fenómeno con independencia de la estructura por edad de las poblaciones en estudio. Puede decirse, en un principio que se compone de tres series básicas: Supervivencia, defunciones y Probabilidades o Riesgos de muerte, por edad. Además, se parte de la hipótesis de que la población es cerrada, esto es no hay efectos migratorios Pueden distinguirse dos tipos de tablas de mortalidad atendiendo al periodo de tiempo o de referencia que comprenden: • • Tabla de momentos, de periodo o de contemporáneos, que proporciona una herramienta de análisis transversal del fenómeno de la mortalidad, y Tabla de generaciones, basada en un análisis longitudinal de una generación concreta, desde su nacimiento hasta su completa extinción, lo que requiere necesariamente de un tiempo muy largo de observación del fenómeno (aproximadamente 100 años) lo cual, las hace muy poco operativas. Sólo algunos países como Francia, Suecia o Inglaterra y Gales disponen de este tipo de tablas. La tabla de mortalidad de momentos, de periodo o de contemporáneos, describe el comportamiento coyuntural del fenómeno sobre la población en estudio en un periodo determinado simulando la incidencia del mismo sobre una cohorte o generación ficticia de individuos sometidos a un patrón de mortalidad por edad idéntico al observado sobre la Silvia García Ortega 74 Trabajo Fin de Máster: Supervivencia Relativa población en estudio durante el periodo de observación. Para ello, la tabla se compone de un conjunto de funciones definidas sobre la citada cohorte ficticia de individuos: • • • • • Supervivientes a la edad exacta : representa el número de individuos de la cohorte ficticia inicial que llegan con vida a la edad . Defunciones teóricas con edad : constituye el número de defunciones de la cohorte ficticia inicial que tienen lugar en individuos de edad cumplida . Es evidente por tanto que Promedio de años vividos el último año de vida de los que mueren con edad cumplida : se trata del tiempo promedio vivido con edad cumplida x por aquellos individuos de la cohorte ficticia que mueren con dicha edad. Población estacionaria a la edad : corresponde al tiempo total vivido (en años) por los individuos de la generación ficticia con edad cumplida x . Como cada persona que sobrevive a la edad x contribuye un año a ese tiempo y, por término medio, los que fallecen con dicha edad contribuyen años cada uno de ellos, dicha función se estima tradicionalmente por la expresión Tasa específica de mortalidad a la edad : se define como el número individuos de la cohorte ficticia que fallecen con edad cumplida x por tiempo de exposición al riesgo de muerte de los individuos de dicha generación. Es decir, se trata del cociente entre el número de defunciones de individuos con edad cumplida x y el tiempo total (medido en años) vivido por los individuos de la cohorte con dicha edad, es decir, . La tasa específica de mortalidad a cada edad nos mide, de esta forma, la • incidencia o intensidad relativa del fenómeno en cada edad. Probabilidad o riesgo de muerte con edad cumplida : se define como la probabilidad de que un individuo perteneciente a la cohorte ficticia inicial que sobrevive hasta cumplir años de edad muera con dicha edad. Es decir, se define como el cociente entre el número de ocurrencias del fenómeno (las defunciones teóricas a la edad ), y el total de casos posibles o población sometida al riesgo del mismo (los supervivientes a la edad ): Por otro lado, a partir de la relación estimada entre población estacionaria y función de supervivencia y de la propia definición de tasa específica de mortalidad en cada edad, se deriva una aproximación clásica entre riesgo de muerte y tasa de mortalidad a cada edad : • Esperanza de vida a la edad : representa el número medio de años que a un individuo de edad perteneciente a la cohorte ficticia inicial le queda por vivir. Su valor resulta del cociente entre el tiempo total (medido en años) que le resta por vivir Silvia García Ortega 75 Trabajo Fin de Máster: Supervivencia Relativa a partir de cumplir x años de edad a los individuos de la generación ficticia hasta su completa extinción y el número de supervivientes de la misma a la edad . Es decir, Así pues, las tablas de mortalidad de periodo anual mantienen el objetivo de describir el comportamiento coyuntural de la mortalidad de la población residente, desagregado por sexo y por ambos sexos, en España, sus comunidades autónomas y provincias. Para ello, se somete a una cohorte ficticia de 100.000 individuos al patrón de mortalidad por edad definido, básicamente, por las tasas específicas de mortalidad observadas sobre la población en estudio en el año de referencia y se derivarán sobre la misma el resto de funciones de la tabla de mortalidad. Además, las tablas de mortalidad a nivel nacional ofrecen resultados desagregados por edades simples (tablas completas), mientras que los resultados de las tablas de mortalidad autonómicas y provinciales se proporcionarán agregados por grupos quinquenales de edad (tablas abreviadas), excepto para las edades 0 y 1. En relación a la metodología de cálculo de las tablas de mortalidad en el contexto europeo, las Oficinas de Estadística de los distintos países de la Unión Europea, publican sus propios cálculos de las tablas de mortalidad y metodología utilizada. No existe una normativa que obligue a la armonización de los cálculos correspondientes. Sin embargo, Eurostat, no recoge directamente la información sobre los indicadores demográficos de los países que forman la Unión Europea, sino que emplea un procedimiento de cálculo propio, para todos ellos, utilizando un mínimo de datos necesarios que los mismos facilitan, como son las cifras de población y de defunciones, para calcular las tasas por edad, en el caso de mortalidad. De esta forma calcula estos indicadores de una forma rápida, aunque con información menos detallada. Tablas de mortalidad de la población española Las tablas de mortalidad de España, se calculan a partir de los resultados de defunciones ocurridas en España cada año, datos que son proporcionados por la estadística del Movimiento Natural de la Población y por las cifras de población residente a 1 de enero de cada año que el INE emplea como referencia en toda su producción estadística, constituidas por las Estimaciones Intercensales de Población hasta 2011 y Cifras de Población desde 2012. Estas tablas, miden la incidencia de la mortalidad sobre la población residente en el país durante el año de referencia simulando el comportamiento de la misma sobre una cohorte o generación ficticia de individuos sometidos a un patrón de mortalidad por edad idéntico al observado sobre la población en estudio durante el periodo de observación. Esta simulación, consiste en aplicar a una generación ficticia de individuos la incidencia de la mortalidad en cada edad determinada, básicamente, por las tasas específicas observadas sobre la población residente en España durante el año de referencia y derivar, a partir de las mismas, las demás funciones que componen su tabla de mortalidad. Silvia García Ortega 76 Trabajo Fin de Máster: Supervivencia Relativa La Tasa Específica de mortalidad a la edad observada sobre la población en estudio, , se estima bajo la hipótesis de distribución uniforme tanto en los años “cumplidos” de todos los individuos de la población que no mueren a lo largo del año con una determinada edad, como durante el año de observación, en la entrada y salida de los individuos en la población de estudio. Tiene la siguiente expresión: donde: • • • • • • • • • : año o periodo de observación. : sexo, que toma los atributos varón, mujer o ambos sexos. : edad o años cumplidos, con x = 0, 1, 2, ..., 99. : stock de población residente a 1 de enero del año t con edad y sexo . Nótese que , dónde 100+ denota a los individuos con 100 o más edad. D(t,x,s): número de fallecidos en el año con edad y sexo . ,s): número de fallecidos en el año , con edad y sexo , que cumplen años a lo largo de ): número de fallecidos en el año t, con edad y sexo , que cumplió años a lo largo de . diferencia (en años) entre la fecha de defunción y la fecha de cumpleaños (en el año ) de cada individuo de sexo fallecido durante el año con edad y que cumplió los años a lo largo de . Obsérvese que dicha cantidad coincide con el tiempo vivido (en años) con edad cumplida por cada individuo fallecido con esa edad en el año de la generación que cumple años a lo largo de dicho año. : se define como la diferencia (en años) entre la fecha de defunción y el 1 de enero del año t para cada individuo de sexo fallecido durante el año con edad y que cumplió los años a lo largo de . Obsérvese que dicha cantidad coincide con el tiempo vivido (en años) durante el año por cada individuo fallecido durante dicho año con años de la generación que cumplió años a lo largo de . Asimilando los valores estimados de las tasas específicas de mortalidad de la población en estudio con los correspondientes a las tasas específicas de mortalidad en cada edad de una cohorte ficticia de 100.000 individuos, la probabilidad o riesgo de muerte a la edad , , de dicha cohorte de individuos, que presenta la misma incidencia de la mortalidad a cada edad que la población observada en el año de referencia, se estima por la expresión: , donde Silvia García Ortega 77 Trabajo Fin de Máster: Supervivencia Relativa es el promedio de años vividos en el último año de vida por aquellos individuos de la cohorte ficticia que mueren con edad cumplida x, esto es donde es el tiempo vivido por el individuo de la población en estudio, de sexo , fallecido con edad en el año de referencia Para el grupo abierto considerado de 100 ó más años de edad, para el que el suceso muerte es seguro, se tiene: Las funciones de supervivencia, , y de defunciones teóricas, recurrentemente: ,y , para , de la tabla se obtienen . Además, el total de tiempo vivido (medido en años) por los individuos de la generación ficticia, de sexo , con edad cumplida o población estacionaria de la tabla, se deriva de la expresión: para La función de esperanza de vida a la edad para el sexo es: Tabla de mortalidad en la población de España en el año 2012 En la página web del INE (www.ine.es), se presentan los resultados más recientes para las tablas de mortalidad anuales, desde 1991 a 2012, de la población residente en España y en cada una de sus comunidades autónomas y provincias, por sexo. Como ejemplo, se presentan, en columnas, las funciones de la tabla de mortalidad calculada por el INE, para la población de ambos sexos en España en el año 2012. Silvia García Ortega 78 Trabajo Fin de Máster: Supervivencia Relativa Al pulsar “Consultar selección” obtenemos la siguiente información: Silvia García Ortega 79 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 80 Trabajo Fin de Máster: Supervivencia Relativa Obsérvese que la variable edad figura en la primera columna. Atendiendo a la definición de tabla de mortalidad que acaba de darse, la columna de “supervivientes”, muestra como un efectivo total de 100.000 individuos (nacidos y nacidas) se van reduciendo al ir pasando por las distintas edades; así, 99.702 superan el primer año de vida, a los 86 llegan 46.994, y superan los 100 años 2.505 individuos de la generación inicial de 100.000. Si esta reducción se debe a la mortalidad, la diferencia entre los términos de esa serie nos dará la serie de defunciones teóricas, resultando 298 defunciones durante el primer año de vida, y 4.188 entre los 86 y 87 años; si no hay supervivientes más allá de la edad exacta 100, el número de defunciones a esa edad va a ser igual al de supervivientes, 2.505. Además, la probabilidad o riesgo de morir entre dos edades, para los individuos que han alcanzado una cierta edad, se deducirá dividiendo los casos favorables, que son las defunciones ocurridas, entre los expuestos a morir, que son los supervivientes entre los que se han producido las defunciones; por ejemplo, a la edad 90 el riesgo se calculará dividiendo 4.244 entre 29.654, resultando un 143,11 por 1000. Si se emplea la notación estándar para las funciones de las tablas de mortalidad, puede decirse que las tres series básicas anteriores están relacionadas entre sí. Por tanto si en una generación inicial se conocen los supervivientes que van alcanzando las distintas edades (o bien las defunciones que se producen entre las mismas), es posible conocer cuál es el riesgo de fallecer para los supervivientes que llegan a cada edad y de comparar la mortalidad de esa tabla con la correspondiente a otra población o a otro periodo de tiempo, siempre que ambas partan de un mismo colectivo inicial, que se suele tomar igual a 100.000 individuos. Tablas de mortalidad de comunidades autónomas y provincias La tabla de mortalidad de una comunidad autónoma o provincia mide la incidencia de la mortalidad sobre la población residente en la misma durante el año de referencia simulando el comportamiento de la misma sobre una cohorte o generación ficticia de individuos sometidos a un patrón de mortalidad por edad idéntico al observado sobre la población en estudio durante el periodo de observación. Concretamente, tal simulación consiste en aplicar a una generación ficticia de individuos la incidencia de la mortalidad en cada edad determinada, básicamente, por las tasas específicas observadas sobre la población residente en la comunidad autónoma o provincia considerada durante el año de referencia y derivar, a partir de las mismas, las demás funciones que componen su tabla de mortalidad. Ahora bien, manteniendo el objetivo de proporcionar una medición de la incidencia coyuntural del fenómeno durante el año de referencia, se adopta un procedimiento de agregación de resultados de una tabla de mortalidad completa por edades simples, en grupos quinquenales de edad, a fin de eludir distorsiones indeseables sobre los resultados proporcionados que puedan dificultar su interpretación como consecuencia directa de la aleatoriedad de las informaciones propia de poblaciones de más reducido tamaño. De esta forma, partiendo de la función de supervivencia, , y de la población estacionaria, , de una tabla de mortalidad completa calculada con una metodología análoga a la empleada para el total nacional, se determinan los valores de la función de supervivencia, defunciones teóricas, y población estacionaria de la tabla de mortalidad autonómica o Silvia García Ortega 81 Trabajo Fin de Máster: Supervivencia Relativa provincial ( con resultados ): agregados por grupos quinquenales de edad • • • • • donde son los individuos de la generación o cohorte ficticia fallecidos con edad cumplida perteneciente al grupo . • • • • • donde donde es el total de tiempo vivido (medido en años) por los individuos de la cohorte ficticia entre las edades x y x + n. La población estacionaria en el grupo abierto de 95 y más años toma el valor completa de partida. de la tabla Además, la función de probabilidad de morir a la edad x es: • • • donde es la probabilidad o riesgo que los individuos de la generación o cohorte ficticia que sobreviven a la edad x mueran antes de cumplir x + n años. • Con ello, la esperanza de vida a la edad x se calcula como: Finalmente, se estima consistentemente tanto promedio de años vividos el último año de vida por aquellos individuos de la cohorte ficticia que mueren con edad cumplida perteneciente al Silvia García Ortega 82 Trabajo Fin de Máster: Supervivencia Relativa grupo como la tasa específica de mortalidad en el grupo de edad mediante las expresiones: • • • donde es el promedio de años vividos el último año de vida por los individuos de la cohorte ficticia fallecidos con edad cumplida perteneciente al grupo . • donde es el promedio de años vividos por los supervivientes a los 95 años de la cohorte ficticia a partir de dicha edad. • • • donde es la tasa específica de mortalidad en el grupo de edad cohorte ficticia. . de la • donde es la tasa de mortalidad de 95 ó más años de la cohorte ficticia. Ejemplo tabla de mortalidad en Andalucía para el año 2012 En la página web del INE (www.ine.es), se presentan los resultados más recientes para las tablas de mortalidad anuales, desde 1991 a 2012, de la población residente en Andalucía por sexo y edad. Como ejemplo, se presentan, en columnas, las funciones de la tabla de mortalidad calculada por el INE, para la población de ambos sexos en Andalucía, para el año 2012. Silvia García Ortega 83 Trabajo Fin de Máster: Supervivencia Relativa Al pulsar “Consultar selección” obtenemos la siguiente información: Silvia García Ortega 84 Trabajo Fin de Máster: Supervivencia Relativa Como en el caso anterior, la variable edad figura en la primera columna. Atendiendo a la definición de tabla de mortalidad que acaba de darse, la columna de “supervivientes”, muestra como un efectivo total de 100.000 individuos (nacidos y nacidas) se van reduciendo al ir pasando por las distintas edades; así, 99.673 superan el primer año de vida, a los 85 llegan 45.029, y superan los 95 años 8.449 individuos de la generación inicial de 100.000. Si esta reducción se debe a la mortalidad, la diferencia entre los términos de esa serie nos dará la serie de defunciones teóricas, resultando 327 defunciones durante el primer Silvia García Ortega 85 Trabajo Fin de Máster: Supervivencia Relativa año de vida, y 21.084 entre los 85 y 90 años; si no hay supervivientes más allá de la edad exacta 95, el número de defunciones a esa edad va a ser igual al de supervivientes, 8.449. Además, la probabilidad o riesgo de morir entre dos edades, para los individuos que han alcanzado una cierta edad, se deducirá dividiendo los casos favorables, que son las defunciones ocurridas, entre los expuestos a morir, que son los supervivientes entre los que se han producido las defunciones; por ejemplo, a la edad 90 el riesgo se calculará dividiendo 15.496 entre 23.945, resultando un 647,15 por 1000. Si se emplea la notación estándar para las funciones de las tablas de mortalidad, puede decirse que las tres series básicas anteriores están relacionadas entre sí. Por tanto si en una generación inicial se conocen los supervivientes que van alcanzando las distintas edades (o bien las defunciones que se producen entre las mismas), es posible conocer cuál es el riesgo de fallecer para los supervivientes que llegan a cada edad y de comparar la mortalidad de esa tabla con la correspondiente a otra población o a otro periodo de tiempo, siempre que ambas partan de un mismo colectivo inicial, que se suele tomar igual a 100.000 individuos. Silvia García Ortega 86 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 87 Trabajo Fin de Máster: Supervivencia Relativa Anexo 3. Glosario de términos Análisis de Supervivencia Conjunto de técnicas que se utilizan para analizar el tiempo de seguimiento hasta la ocurrencia de un suceso de interés (fallo de una pieza, muerte o recaída de un paciente…). Análisis de tendencia Estudio de evento atendiendo a una determinada edad. Análisis longitudinal Un análisis o indicador demográfico está realizado desde una perspectiva longitudinal si ha sido realizado fijando la generación de pertenencia y estudiando alguna de las otras dimensiones temporales: la edad o el momento de ocurrencia del suceso. Es decir, es el estudio de evento atendiendo a una determinada generación. Análisis transversal o del momento Un análisis demográfico de determinado suceso puede ser realizado fijando temporalmente el momento de ocurrencia o tiempo calendario y variando alguna de otras dos dimensiones temporales del fenómeno: la edad o la generación de pertenencia. En este caso decimos que está realizado desde una perspectiva transversal. Es decir es el estudio de un evento atendiendo al año de ocurrencia. Antigüedad Tiempo transcurrido entre un evento inicial y otro final. Censura Uno de los dos inconvenientes que nos podemos encontrar que hacen imposible la observación completa de los tiempos de seguimiento. Existen dos tipos de censura: censura tipo I: los individuos son observados hasta un Silvia García Ortega 88 Trabajo Fin de Máster: Supervivencia Relativa tiempo determinado. censura tipo II: los individuos son observados hasta que ocurran un número determinado de fallos o eventos de interés. Censura a la derecha Se presenta cuando termina la observación y aún no ha ocurrido el suceso que se desea observar. Censura a la izquierda En la primera observación que se realiza sobre el individuo ya ha ocurrido el evento que se desea observar. Censura aleatoria Durante el estudio algunos individuos experimentan otros sucesos independientes del de interés que provocan la salida del estudio. Censura doble Cuando los datos están censurados tanto por la izquierda como por la derecha. Censura multiple Cuando no existe un único tiempo de censura. Censura por intervalos Tiene lugar cuando el tiempo de vida se sabe que ocurre solamente dentro de un intervalo. Este tipo de censura se presenta cuando se tiene un estudio longitudinal donde el seguimiento del estado de los sujetos se realiza periódicamente y por tanto, el fallo sólo puede conocerse entre dos periodos de revisión, generando un intervalo de la forma ( ) para cada sujeto en el estudio. Cohorte Conjunto de individuos que cumplen una condición por primera vez, durante el mismo periodo de tiempo. Distribución Exponencial , dónde es la tasa de fallo, constante y positiva. Distribución Gamma Distribución Loglogística Distribución Normal Distribución Weibull Edad Silvia García Ortega , Tiempo transcurrido desde el nacimiento del individuo. 89 Trabajo Fin de Máster: Supervivencia Relativa Estimador de Nelson-Aalen Estimador no paramétrico de la tasa de riesgo acumulada. Se emplea para estimar el número total de eventos esperados. Estimador kaplan-meier Método no para métrico para la estimación, tramo a tramo, de la supervivencia observada. Evento inicial Momento en el que el individuo cumple la condición. Fallo Ocurrencia del evento de interés. Fallo accidental Ocurre durante el periodo en el que el individuo presenta una función de riesgo constante, generalmente menor que la que prevalece durante su periodo inicial. Fallo de desgaste Se asocia con un deterioro gradual del individuo. Fallo inicial Se manifiesta al principio de la vida del individuo y va desapareciendo conforme se desarrolla el periodo inicial. Flujo Número de eventos que han ocurrido durante un mismo periodo de tiempo. Función de Fiabilidad Empírica Función de Supervivencia o Fiabilidad Probabilidad de que el individuo sobreviva más allá del instante t. Función riesgo o Tasa de fallo, λ(t) Cociente entre la función de densidad y la función de supervivencia. Generación Conjunto de individuos que han nacido en el mismo año. Instituto de Estadística y Organismo público responsable de coordinar el Sistema Cartografía de Estadístico y Cartográfico de Andalucía. Andalucía Silvia García Ortega 90 Trabajo Fin de Máster: Supervivencia Relativa Instituto Nacional de Estadística El Instituto Nacional de Estadística (INE), creado el 31 de diciembre de 1945, es un organismo autónomo con personalidad jurídica propia y adscrito al Ministerio de Economía y Hacienda a través de la Secretaría de Estado de Economía. El INE es responsable de coordinar todos los servicios estadísticos de la administración, preparar el proyecto del Plan Estadístico Nacional (PEN), compilar los registros y directorios necesarios para llevar a cabo las estadísticas y elaborar y publicar los censos generales y todas las demás operaciones encomendadas a él en el PEN. Método Actuarial Método no para métrico para la estimación de la supervivencia observada. Similar a KM, sólo que: Los intervalos (tramos) son de longitud fija Es menos exacto pero simplifica los cálculos Método Ederer I Método para estimar la supervivencia esperada. Consiste en calcular, en cada momento en el que se produce un evento, la supervivencia poblacional media de la cohorte. Este método considera a todos los pacientes en cada intervalo. Método Ederer II Método para estimar la supervivencia esperada. Consiste en calcular, en cada momento en el que se produce un evento, la supervivencia poblacional media de la cohorte. Este método considera sólo a los pacientes que están en riesgo en cada intervalo. Método Hakulienen Método para estimar la supervivencia esperada. Utiliza un estimador parecido a KM. Calcula el número de pacientes de riesgo en cada intervalo teniendo en cuenta un número de abandonos esperados en dicho tiempo. Modelos no paramétricos Métodos analíticos y gráficos que permiten interpretar los datos obtenidos, en los que no se asume ningún tipo concreto de modelo probabilístico para los tiempos de fallo y las funciones básicas (fiabilidad, riesgo) se estiman directamente de los datos. Modelos paramétricos Conjunto de ecuaciones matemáticas asociadas en el que escenarios alternativos son definidos mediante la variación de los valores asumidos en un grupo de coeficientes fijos. Modelos Semiparamétricos Permiten estudiar la relación entre la función de supervivencia y el tiempo evaluando el efecto de covariables sobre la función riesgo. Silvia García Ortega 91 Trabajo Fin de Máster: Supervivencia Relativa Observación completa Cuando se observan los individuos desde un evento inicial hasta el evento final o de ocurrencia del fenómeno que se desea estudiar. Riesgos Proporcionales de Cox Este modelo permite calcular la tasa de fallo o mortalidad como una función del tiempo y de un determinado conjunto de variables explicativas o covariables. Stock de Población De individuos que componen una población en un instante dado. Supervivencia Esperada Determina la supervivencia que cabría esperar en una cohorte según la mortalidad por todas las causas de la población de la cual proceden los individuos. Supervivencia Global Personas que continúan vivas después de un periodo de tiempo. Supervivencia observada Es la supervivencia dentro de una cohorte teniendo en cuenta el tiempo de seguimiento del individuo y si ha fallecido o no, independientemente de la causa de muerte. Supervivencia Relativa Técnica estadística que compara la supervivencia de pacientes con una determinada enfermedad con la supervivencia de personas pertenecientes a una población general (o población tipo) de la misma edad, sexo… Es el porcentaje de pacientes que han sobrevivido a una enfermedad (después de ser diagnosticados) en relación a personas que no presentan dicha enfermedad. Tabla de Mortalidad Es un análisis trasversal que tiene como fin el estudio de la longevidad de una población. Tabla de Supervivencia o Tabla Actuarial Tienen como objetivo describir y establecer previsiones sobre la mortalidad, fiabilidad o supervivencia de una población de interés, a partir de la consideración de una cohorte, o conjunto de datos procedentes de un estudio, a los cuales se les hace un seguimiento en un período de tiempo determinado, comprobando si se registra en cada uno de sus miembros o elementos, la presencia o ausencia de una característica o evento de interés en la población. Silvia García Ortega 92 Trabajo Fin de Máster: Supervivencia Relativa Tasa Bruta de Mortalidad Es el cociente entre el número total de defunciones en un periodo concreto y la población media correspondiente al mismo periodo. Indica el número de defunciones que se producen en un año por cada mil habitantes. Tasa bruta de mortalidad Expresa la frecuencia con que ocurren los fallecimientos en una población durante un determinado período. Se calcula como el cociente entre el número de defunciones ocurridas y registradas en un determinado período y la población media de ese mismo período. El resultado se expresa por mil. Tasa de mortalidad específica Proporción que señala cuántos sujetos fallecen por un motivo concreto durante un lapso específico de tiempo. Tasa de mortalidad poblacional Tasa de Supervivencia Porcentaje de pacientes vivos en un determinado periodo de tiempo después de que se les diagnostique una enfermedad. (El inverso de la tasa de supervivencia es la tasa de mortalidad). Tasa de Supervivencia Observada Proporción de individuos con una determinada enfermedad en un momento concreto que viven al final de un intervalo de tiempo concreto. En su cálculo se tienen en cuenta todos los tipos de defunciones. Tasa de Supervivencia Relativa Expresa la probabilidad de supervivencia teniendo en cuenta la mortalidad poblacional por todas las causas y para su cálculo basta con conocer la mortalidad de la población de referencia y no necesita la causa de mortalidad para cada sujeto del estudio, información que en muchas ocasiones es desconocida o poco fiable. Es el método más adecuado de examinar la supervivencia a largo plazo. Tasa Especifica de Mortalidad Representa la incidencia de la mortalidad en cada edad o grupo de edad. Se obtiene como el cociente entre las defunciones a una edad en un periodo concreto y la población media a esa edad en ese periodo. Tiempo de Supervivencia Intervalo entre el diagnóstico de la enfermedad y el evento de interés. Truncamiento a la derecha Sólo se incluyen los individuos que presentan el suceso. En este caso la información que se registra también corresponde a una variable condicionada a que el tiempo de fallo fue Silvia García Ortega 93 Trabajo Fin de Máster: Supervivencia Relativa anterior a la finalización del estudio Truncamiento a la izquierda Los sujetos comienzan a ser observados a edades aleatorias, es decir, el origen del tiempo de vida precede al origen del estudio. Tasa de Supervivencia poblacional. Silvia García Ortega 94 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 95 Trabajo Fin de Máster: Supervivencia Relativa Anexo 4. Código #===================================================================== #PREPARACIÓN DE DATOS #===================================================================== #Cargamos nuestro fichero de datos infantil<-read.table("infantil.txt",header=T) table(infantil$age<=15)#hay 179 casos de niños con 15 años o menos #Seleccionar del conjunto de datos los <= de 15 años infantil2<-infantil[infantil$age<=15,] infantil2 table(infantil2$sex==0)#Hay 77 mujeres table(infantil2$sex==1)#y 102 hombres library(relsurv) #===================================================================== #CALCULO DE LA SUPERVIVENCIA OBSERVADA #===================================================================== #Cálculo de Kaplan-Meier km<-survfit(Surv(time,cens)~1,data=infantil2, conf.int=FALSE) summary(km) #Gráfico de la función de supervivencia plot(km,xlab="Tiempo(meses)",ylab="Supervivencia", main="Estimador de Kaplan y Meier") #Cálculo de Kaplan-Meier con la variable sexo Silvia García Ortega 96 Trabajo Fin de Máster: Supervivencia Relativa km_sex<-survfit(Surv(time,cens)~sex,data=infantil2, conf.int=FALSE) summary(km_sex) #Gráfico de la función de supervivencia plot(km_sex,xlab="Tiempo(meses)",ylab="Supervivencia", main="Estimador de Kaplan y Meier (sexo)") legend(100,0.99,legend=c("Mujeres","hombres"), lty=c(1,2)) #Para comprobar si la diferencia entre las curvas por sexo son significativas # si el p<0,05 sí lo son. prueba<-survdiff(Surv(time, cens) ~ sex,data=infantil2) prueba #Regresión de Cox con la variable sexo cox_sex<-coxph(Surv(time, cens) ~sex, data=infantil2) summary(cox_sex) #Regresión de Cox con la variable edad cox_age<-coxph(Surv(time, cens) ~ age, data=infantil2) summary(cox_age) #Regresión de Cox con las variables sexo y edad cox_sexoedad<-coxph(Surv(time, cens) ~ age+sex, data=infantil2) summary(cox_sexoedad) #Regresión de Cox con las variables sexo, edad y año cox<-coxph(Surv(time,cens)~age+sex+as.numeric(year), data=infantil2) summary(cox) #Gráfico donde se compara la función de supervivencia obtenida mediante #el estimado de Kaplan y Meier y la obtenida mediante el modelo de Cox con las tres variables plot(survfit(cox),conf.int=FALSE,main="Comparación del ajuste del modelo de Cox y el estimador de KM",xlab="Tiempo (meses)", ylab="Supervivencia") lines(km,lty=2) legend(100,0.99,legend=c("Ajuste por Cox","Estimador de KM"), lty=c(1,2)) #===================================================================== #CALCULO DE LA SUPERVIVENCIA ESPERADA #===================================================================== #Mediante hmd transformamos los ficheros de las tablas de vida de hombre y mujeres a formato de R espop<-transrate.hmd(male='mltper_1x1.txt',female='fltper_1x1.txt') espop #Ahora tenemos nuestro fichero en formato ratetable: is.ratetable(espop) #es de tipo ratetable #Vemos la organización de las variables: tiene 3 dimensiones, edad, año y sexo summary(espop) #Cálculo de la supervivencia esperada mediante Ederer #primero hay que recodificar nuestra variable sexo para que 2 corresponda a la categoría mujer y 1 a la categoría hombre Silvia García Ortega 97 Trabajo Fin de Máster: Supervivencia Relativa infantil2$sex<-2-infantil2$sex infantil2 # Ederer ederer <- survexp(time ~ ratetable(age=age*365.24, sex=sex, year=as.numeric(year)), ratetable=espop, method='ederer', data=infantil2) ederer #Otro modo #y<-survexp(time~ratetable(age=age*365.24, sex=sex, year=as.numeric(year)), ratetable=espop, data=infantil2)$surv #Cálculo de la supervivencia esperada mediante Hakulinen hakulinen <- survexp(time ~ ratetable(age=age*365.24, sex=sex, year=as.numeric(year)), ratetable=espop, method='hakulinen', data=infantil2) hakulinen #===================================================================== #MODELO DE REGRESIÓN PARA LA SUPERVIVENCIA RELATIVA #===================================================================== #Pasamos la variable time a días infantil2$time<-infantil2$time*30 sup.rel<-rstrans(Surv(time, cens)~age+sex+as.numeric(year)+ratetable(age=age*365.24, sex=sex, year=as.numeric(year)), data=infantil2, ratetable=espop) sup.rel summary(sup.rel) Silvia García Ortega 98 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 99 Trabajo Fin de Máster: Supervivencia Relativa Anexo 5. Bibliografía [1] A. Arroyo Pérez, E. Manzanera Díaz, A. Pascual Acosta (2005) [2] A. M. Godoy Aguilar (2009) [3] A. M. Hernández Domínguez (2010) [4] Anónimo (2010) [5] Escuela Andaluza de Salud Pública (2011) [6] H. Solano Hurtado (2008) [7] INE (2013) Silvia García Ortega Experto en Estadística Pública. Estadísticas Demográficas y Sociales. Difusión Estadística Universidad de Jaén Introducción al Análisis de Supervivencia con R. Universidad Nacional Autónoma de México Análisis Estadístico de datos de tiempos de fallo en R Universidad de Granada Facultad de Ciencias Análisis de Supervivencia. Método delta Supervivencia de cáncer en la provincia de Granada http://cancergranada. org/es/estadisticas_su pervivencia.cfm Granada Análisis de supervivencia en fiabilidad. Predicción en condiciones de alta censura y truncamiento: el caso de las redes de suministro de agua potable. Universidad Politécnica de Valencia Departamento de Estadística e IO Aplicadas y Calidad Tablas de mortalidad. Metodología Madrid 100 Trabajo Fin de Máster: Supervivencia Relativa [8] J. Stare, R. Henderson, M. Pohar (2005) An individual measure of relative survival App. Statist, 54, Part1, pp. 115-126 [9] M. Camacho Alonso Estimación no-paramétrica Universidad de Murcia [10] M. Pohar, J. Stare (2006) [11] M. Pohar, J. Stare (2007) [12] P. Martínez-Camblor, N. Larrañaga, C. Sarasqueta, M.J. Mitxelena, M. Basterretxea (2009) [13] R. Borges (2004) [14] R. Clèries, J. Ribes, J. Gálvez, A.Melià, V. Moreno, F.X. Bosch, J. M. Borràs (2005) [15] R. Clèries, J. Ribes, V. Moreno, L. Esteban, L. Pareja, J. Gálvez, J.M. Martínez, F.X. Bosch, J. M. Borràs (2006) [16] R. E. Borges Peña (2005) Silvia García Ortega Relative suravival analysis in R Making relative survival analysis relatively easy Esa corporeidad mortal y rosa»: análisis del tiempo libre de enfermedad del cáncer de mama en Gipuzkoa en presencia de riesgos competitivos Análisis de supervivencia básico utilizando el lenguaje R Cálculo automatizado de la supervivencia relativa vía web. Proyecto WAERS del Instituto Catalán de Oncología Cálculo de la supervivencia relativa. Comparación de métodos de estimación de la supervivencia esperada Computers methods and programs in biomedicine 81 (2006) 272-278 Computers in biology and medicine 37 (2007) 1741-1749 Gac Sanit 2009; 23(6):554-557 Universidad Central de Venezuela Facultad de Ciencias Económicas y Sociales Gac Sanit. 2005;19(1):71-5 Gac Sanit. 2006;20(4):325-31 Análisis de Sobrevivencia utilizando el Ciudad Universitaria lenguaje R de Caracas 101 Trabajo Fin de Máster: Supervivencia Relativa [17] R. Giorgi, J.Payan, J. Gouvernet (2005) Rsurv: A function to perform relative survival analysis with S-Plus or R [18] W. Q. Meeker, L. A. Escobar (1998) Statistical Methods for Reliability Data. (Vol. 314). John Wiley & Sons Silvia García Ortega Computer methods and programs in biomedicine (2005) 78, 175-178 102 Trabajo Fin de Máster: Supervivencia Relativa Silvia García Ortega 103