Sobre los modelos lineales mixtos Ejemplo: Recuperación de infarto. Para estudiar las diferencias entre dos procedimientos diferentes de recuperación de pacientes de un infarto, se consideraron dos grupos experimentales en sendos hospitales, de 8 pacientes cada uno. La variable respuesta es el índice de Bartel, que varía entre 0 y 100, y que constituye una medida de la habilidad funcional con la que se valoran diferentes capacidades, de forma que valores más altos se corresponden con una mejor situación del paciente. De cada uno de los 16 pacientes se dispone de su respuesta cada semana a lo largo de 5 semanas consecutivas. Datos reducidos de Dobson… (Datos en recuperainfarto.txt y soluciones en recuperainfarto.pdf) Los valores de las respuesta son las puntuaciones que, de cada individuo, o cluster, obtenemos semanalmente durante cinco semanas consecutivas: Si introducimos como variable explicativa la semana, x, podríamos ajustar un modelo lineal de la forma: Considerados los cluster, individuos en el ejemplo, este modelo lineal podría ser expresado como sigue: Cluster 1: Cluster i-ésimo: equivalentemente, podríamos describirlo para cualquier observación en i, j, como: donde las g son variables indicadoras de pertenencia al correspondiente cluster. Matricialmente: Esta formulación, sencilla y adecuada en muchos contextos, puede ser inadecuada por diferentes razones: a) Las observaciones repetidas en cada grupo o cluster, no son necesariamente independientes. b) Con frecuencia, no solo se quieren tomar decisiones respecto de los grupos o cluster observados, sino que se quiere valorar el efecto de las variables explicativas en una población de la que los grupos son una muestra. c) Puede ser de interés valorar la variación del efecto de x de un grupo a otro. d) La estimación del efecto medio de las variables explicativas en cada grupo puede ser muy deficiente si no se recoge la posible variabilidad entre los grupos. Por estas razones puede ser muy conveniente la consideración del cluster o grupo como una variable aleatoria, o la introducción en el modelo de efectos aleatorios. 1 Un modelo lineal mixto sencillo es un modelo con intercept aleatorio: El modelo de regresión lineal (recta de regresión) presenta ahora un intercept aleatorio normal, centrado en el antiguo intercept fijo. El intercept aleatorio toma un valor diferente en cada cluster. El nuevo modelo de “efectos mixtos” incorpora un nuevo parámetro fijo: la varianza del efecto aleatorio. La varianza del efecto aleatorio recoge la variabilidad entre los diferentes individuos, mientras que la varianza del error recoge la variabilidad dentro de cada individuo no explicada por el modelo. Si la varianza del efecto aleatorio fuera nula, el modelo coincidiría con el modelo de efectos fijos o de regresión lineal. Una mayor complejidad, pero mejor ajuste a nuestras observaciones, pueden venir dados por un modelo en el que intercept y pendiente sean aleatorios: Si intercept y pendiente aleatorios fueran incorrelados el modelo sería menos complejo, con solo cinco parámetros libres. Si utilizamos variables indicadoras de pertenencia a los clusters, podemos emplear la expresión siguiente: En forma matricial: En general: 2 En un modelo mixto las observaciones del mismo cluster no son independientes. Supongamos un modelo de intercept aleatorio: Entonces: (llamada correlación intraclase) Si el modelo tiene intercept y pendiente aleatorios, Entonces: Nota: La formulación de los modelos de intercept aleatorio y de intercept y pendiente aleatorios de esta página, permite ver la flexibilidad del modelo mixto, utilizable en situaciones en las que podamos modelar los efectos fijos (o media marginal de la respuesta) mediante expresiones no lineales. 3 Expresión general del modelo lineal mixto Un tipo de modelos mixtos generales admiten la siguiente expresión donde los efectos fijos, o media marginal de la respuesta, pueden corresponder a una función lineal de ciertos parámetros, o a otras relaciones no lineales, que recojan la pertenencia de dicha respuesta media marginal a cierto dominio del espacio. Supondremos que: Distribución condicional de la respuesta, dado el efecto aleatorio: Distribuciones marginales: En un modelo con intercept aleatorio: La covarianza marginal de la respuesta es la matriz de bloques V: donde Estimación de los parámetros del modelo lineal mixto Si la media marginal de la respuesta es lineal, entonces La estimación puede hacerse vía EMV, pero esto puede producir estimadores con un sesgo elevado. Una alternativa es la estimación REML (máximo verosímil restringida). Si la covarianza V fuera conocida, el EMV de los parámetros betas, sería el estimador de mínimos cuadrados generalizados: Pero, en general, V no es conocida. Su estimación puede llevarse a cabo mediante el método REML. Para ello se consideran un conjunto de contrasts C=HY con H ortogonal a X, de modo que 4 Se considera entonces una “verosimilitud restringida” basada en C, que no depende de los parámetros beta. Un algoritmo tipo scoring permite estimar las componentes de la varianza, dando lugar de esa forma al estimador REML de V. “Enchufado” dicho estimador en la expresión anterior, se obtienen los estimadores REML de los beta, y su covarianza asintótica: A la hora de hacer inferencias sobre los beta, cabe señalar que en muchas ocasiones los errores estándar extraídos de los elementos diagonales de la matriz anterior son una subestimación de los verdaderos. Por ello se sugiere usar un estadístico t o F a la hora de valorar si algún efecto fijo es nulo o calcular un IC para alguno de los beta, lo cual se ve dificultado a su vez por la determinación de los gdl efectivos. Las inferencias sobre las componentes de la varianza asociadas a los efectos aleatorios, tipo wald, basadas en la normalidad asintótica de sus estimadores pueden ser muy deficientes. La comparación de modelos vía deviance (TRV) permite contrastar la nulidad de efectos aleatorios, en presencia de ciertos efectos fijos. Pero el problema radica en que nos encontramos en la frontera del espacio paramétrico cuando nos interesa contrastar si la varianza de cierto efecto aleatorio es cero. Esto cuestiona el uso de las distribuciones límite chi-cuadrado, con las que generalmente obtendríamos p-valores muy conservadores (mayores de lo que deberían ser). Una alternativa la proporcionan los tests bootstrap paramétricos. La comparación de dos modelos anidados que solo difieran en los efectos fijos debería llevarse a cabo después de ajustar ambos modelos mediante EMV (no REML). Si ajustamos REML estamos usando una verosimilitud de una “respuesta” transformada diferente en cada modelo, y eso dificulta la comparación. Pero la aproximación chi-cuadrado del correspondiente TRV es generalmente muy deficiente, siendo aplicable un test bootstrap paramétrico, para obtener una aproximación al p-valor. Predicción de los efectos aleatorios Además del interés en la estimación de los parámetros fijos del modelo, que incluye las componentes de la varianza, a menudo es también de interés la predicción de los efectos aleatorios o estimación de los “parámetros aleatorios”. La consideración del modelo mixto en dos niveles: 1) distribución condicional de la respuesta dado el efecto aleatorio y 2) distribución marginal del efecto aleatorio, permite definir una verosimilitud extendida conjunta, también llamada jerárquica, de los parámetros fijos y de los aleatorios. La maximización de esta verosimilitud jerárquica en los parámetros aleatorios, da lugar a la obtención de los estimadores BLUP, dependientes de los parámetros fijos del modelo. Si en los BLUP “enchufamos” estimadores de los parámetros fijos se tienen los predictores o estimadores empíricos EBLUP, que son los que generalmente se utilizan como predictores de los efectos aleatorios, y que permiten obtener los correspondientes EBLUP de las respuestas medias en cada cluster. Otra forma de obtener los BLUP consiste en considerar que, si bien los efectos aleatorios no son observables, pueden ser predichos a través de su valor esperado condicionado por lo observado, esto es, condicionado por la respuesta observada. Este método descansa en algunos resultados acerca de la normal multivariante. Veamos: Dado un vector aleatorio normal, no es difícil obtener la distribución condicional de una componente del vector por otra, tal y como se expone en los siguientes resultados: 5 Supongamos que X es un vector aleatorio con covarianza d.p. entonces Si además la distribución conjunta es normal, esto es: entonces, independiente de X2. Como consecuencia, se tiene la siguiente distribución condicional: Aplicaremos este último resultado para obtener la media condicional de los efectos aleatorios por el valor observado de la respuesta. La distribución conjunta de respuesta y efectos aleatorios es normal: Con la notación empleada anteriormente, para las distribuciones condicionada y marginales, podemos identificar: Por consiguiente, Podemos ahora aplicar el resultado sobre la distribución condicional de dos elementos de la normal multivariente, de modo que: lo que constituye el mejor predictor lineal insesgado, BLUP, de los efectos aleatorios. 6 La estimación de los parámetros, en general desconocidos, en el BLUP, nos proporciona el predictor empírico, EBLUP, de los efectos aleatorios: La predicción de la respuesta media condicionada por los efectos aleatorios viene dada entonces por: Se puede ver que cada componente es una combinación lineal convexa de la respuesta observada y del efecto fijo estimado. En el caso de un modelo con intercept aleatorio, el estimador BLUP del efecto aleatorio es: Se puede ver que el BLUP produce un “shrinkage” del efecto cluster hacia la media 0. La predicción de la respuesta media en cada cluster viene dada por la combinación lineal convexa siguiente: Si la varianza del efecto aleatorio es grande respecto de la varianza del error, esto es, si la información de los datos sobre la media en cada cluster es alta, entonces el coeficiente de la media muestral del cluster es alto y por tanto la respuesta media predicha por el modelo está próxima a la media muestral del cluster. 7