Máster Universitario en Estadística Aplicada - Curso 2010/2011 Universidad de Granada MÉTODOS DE REGRESIÓN NO PARAMÉTRICOS PARA EL ANÁLISIS DE DATOS LONGITUDINALES Trabajo Fin de Máster Línea de Investigación: Estimación no paramétrica de curvas en R Realizado por: José Antonio Linero Morante D.N.I.: 74912127-T Tutora: Dra. Dª. María Dolores Martínez Miranda Fecha: Diciembre 2011 Índice de contenidos Capítulo 1: Introducción 1.1. Motivación de ejemplos de datos longitudinales 1.1.1. Datos de progesterona 1.2. Modelización de efectos mixtos: de paramétrico a no paramétrico 1 1 2 6 1.2.1. Modelos paramétricos de efectos mixtos 6 1.2.2. Regresión no paramétrica y suavización 7 1.2.3. Modelos no paramétricos de efectos mixtos Capítulo 2: Modelos paramétricos de efectos mixtos 10 12 2.1. Introducción 12 2.2. Modelo lineal de efectos mixtos 12 2.2.1. Especificación del modelo 12 2.2.2. Estimación de los efectos fijos y aleatorios 15 2.2.3. Interpretación bayesiana 16 2.2.4. Estimación de los componentes de varianza 18 2.2.5. Los algoritmos EM 20 Capítulo 3: Suavizadores en regresión no paramétrica 24 3.1. Introducción 24 3.2. Suavizador del núcleo polinomial local 27 3.2.1. Grado general del suavizador LPK 27 3.2.2. Suavizadores lineal y constante local 29 3.2.3. Función del núcleo 31 3.2.4. Selección del ancho de banda 32 3.2.5. Un ejemplo ilustrativo 34 Capítulo 4: Métodos localmente polinomiales 35 4.1. Introducción 35 4.2. Modelo no paramétrico para la media poblacional 36 4.2.1. Método del núcleo polinomial local 37 4.2.2. Método del núcleo polinomial local GEE 40 4.3. Modelo no paramétrico de efectos mixtos 44 4.4. Modelado de efectos mixtos polinomial local 45 4.4.1. Aproximación polinomial local 45 4.4.2. Estimación por máxima verosimilitud local 46 4.4.3. Estimación a partir de la verosimilitud local marginal 48 4.4.4. Estimación a partir de la verosimilitud local conjunta 50 4.4.5. Estimación de los componentes 53 4.5. Elección de buenos anchos de banda 54 4.5.1. Validación cruzada dejar-un-sujeto-fuera 55 4.5.2. Validación cruzada dejar-un-punto-fuera 56 4.6. Aplicación a los datos de progesterona 56 Apéndice: Código en R generado para las aplicaciones 60 Referencias 74 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Capítulo 1: Introducción Los datos longitudinales tales como mediciones repetidas tomadas en cada uno de una serie de sujetos a través del tiempo surgen con frecuencia de muchos estudios biomédicos y clínicos así como de otras áreas científicas. Estudios actualizados sobre análisis de datos longitudinales se pueden encontrar en Demidenko (2004) y Diggle, Heagerty, Liang y Zeger (2002), entre otros. Los modelos paramétricos de efectos mixtos son una herramienta poderosa para modelar la relación entre una variable respuesta y las covariables en estudios longitudinales. Los modelos lineales de efectos mixtos (linear mixed-effects (LME)) y los modelos no lineales de efectos mixtos (nonlinear mixed-effects (NLME)) son los dos ejemplos más populares. Varios libros se han publicado para resumir los logros en estas áreas (Jones 1993, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000, Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo, para muchas aplicaciones, los modelos paramétricos pueden ser demasiado restrictivos o limitados, y a veces no están disponibles al menos para el análisis de los datos preliminares. Para superar esta dificultad, las técnicas de regresión no paramétricas se han desarrollado para el análisis de datos longitudinales en los últimos años. Con este trabajo se tiene la intención de estudiar los métodos existentes e introducir técnicas de reciente desarrollo que combinan ideas de modelado de efectos mixtos y técnicas de regresión no paramétricas para el análisis de datos longitudinales. 1.1. Motivación de ejemplos de datos longitudinales En los estudios longitudinales, los datos de los individuos se coleccionan varias veces a través del tiempo mientras que en los estudios de corte transversal sólo se obtiene un dato puntual para cada sujeto individual (es decir, un solo punto en el tiempo por sujeto). Por lo tanto, la diferencia clave entre los datos longitudinales y los datos de corte transversal es que los datos longitudinales están generalmente correlacionados en un sujeto y son independientes entre sujetos, mientras que los datos de corte transversal a menudo son independientes. Un desafío para el análisis de datos longitudinales es cómo dar cuenta de las correlaciones intra-sujeto. Los modelos LME y NLME son herramientas poderosas para el manejo de un problema cuando adecuados modelos paramétricos están disponibles para relacionar una variable de respuesta longitudinal a sus covariables. Muchos 1 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 ejemplos de datos de la vida real han sido presentados en la literatura que emplea técnicas de modelado LME y NLME (Jones 1993, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000, Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo, para muchos otros ejemplos de datos prácticos, adecuados modelos paramétricos pueden no existir o son difíciles de encontrar. Ejemplos de estudios biomédicos y clínicos se presentarán y se utilizarán en este trabajo a modo de ilustración. En estos ejemplos, los modelos LME y NLME ya no son aplicables, y técnicas de modelado de efectos mixtos no paramétricos (nonparametric mixed-effects (NPME)), que son los temas centrales de este trabajo, son una opción natural al menos en la fase inicial de análisis exploratorios. Aunque los ejemplos de datos longitudinales en este trabajo son de estudios biomédicos y clínicos, las metodologías propuestas en este trabajo son también aplicables a datos de panel o datos agrupados de otros campos científicos. Todos los conjuntos de datos y los correspondientes análisis de códigos a través del ordenador en este trabajo son de libre acceso en la siguiente página web: (Además, debemos notar que dicho código está escrito mediante el programa Matlab y nosotros en este trabajo escribimos el código mediante R, nuestro código escrito en R se puede ver en el apéndice titulado “Código en R generado para las aplicaciones” que se encuentra al final del trabajo.) http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm. 1.1.1. Datos de progesterona Los datos de progesterona fueron recogidos en un estudio de la pérdida temprana del embarazo realizado por el Instituto de Toxicología y Salud Ambiental en la Sección de Epidemiología Reproductiva del Departamento de Servicios de Salud de California, Berkeley, EE.UU. Las Figuras 1.1 y 1.2 muestran los niveles de progesterona en el metabolito urinario en el transcurso de los ciclos menstruales de las mujeres (días). Las observaciones procedían de pacientes con la función reproductiva sana inscritos en una clínica de inseminación artificial donde los intentos de inseminación fueron oportunos para cada ciclo menstrual. Los datos habían sido alineados por el día de la ovulación (Día 0), determinado por la hormona luteinizante en suero, y truncado en cada extremo para presentar curvas de igual longitud. Las mediciones se registran una vez al día por cada ciclo de 8 días antes del día de la ovulación y hasta 15 días después de la ovulación. Una mujer puede tener uno o varios ciclos. La duración del período de observación es de 24 días. Algunas mediciones de algunos sujetos estaban perdidas por 2 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 diversas razones. El conjunto de datos consiste en dos grupos: las curvas de progesterona conceptiva (22 ciclos menstruales) y las curvas de progesterona no conceptiva (69 ciclos menstruales). Para más detalles sobre este conjunto de datos, ver Yen y Jaffe (1991), Brumback y Rice (1998), y Fan y Zhang (2000), entre otros. La Figura 1.1 (a) presenta un diagrama espagueti de las 22 curvas en bruto de progesterona conceptiva. Los puntos indican el nivel de progesterona observados en cada ciclo, y están conectados con segmentos de línea recta. El problema de los valores perdidos no es muy serio aquí ya que cada curva de ciclo tiene por lo menos 17 de las 24 mediciones. En general, las curvas en bruto presentan un patrón similar: antes del día de la ovulación (Día 0), las curvas en bruto son planas, pero después del día de la ovulación, por lo general se mueven hacia arriba. Sin embargo, es fácil ver que en una curva de ciclo, las mediciones varían en torno a alguna curva subyacente que parece ser suave, y para ciclos diferentes, las curvas suaves subyacentes son diferentes unas de otras. La Figura 1.1 (b) presenta las medias punto a punto (curva de color negro con puntos en la traza) con banda de desviación estándar (standard deviation (SD)) punto a punto del 95% (curvas de color rojo con puntos en la traza). Fueron obtenidos de una manera sencilla: en cada punto de tiempo distinto , la media y la desviación estándar se calculan utilizando los datos de corte transversal en . Se puede observar que la curva media punto a punto es bastante suave, aunque no es difícil descubrir que todavía hay algo de ruido aparecido en la curva media punto a punto. -4 -2 0 log (prog) 2 4 Figura 1.1 (a) Grupo conceptivo -5 0 5 dias 3 10 15 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 1 0 -2 -1 log (prog) 2 3 Figura 1.1 (b) Grupo conceptivo -5 0 5 10 15 dias La Figura 1.2 (a) presenta un diagrama espagueti de las 69 curvas en bruto de progesterona no conceptiva. Comparada con las curvas de progesterona conceptiva, estas curvas se comportan muy similares antes del día de la ovulación, pero por lo general muestran una tendencia diferente después del día de la ovulación. Es fácil ver que, al igual que en las curvas de progesterona conceptiva, los ciclos individuales subyacentes de las curvas de progesterona no conceptiva parecen ser suaves, y también lo es su curva media subyacente. Una estimación ingenua de la curva media subyacente es la curva media punto a punto, que se muestra como curva de color negro con puntos en la traza en la Figura 1.2 (b). La banda del 95% SD punto a punto (curvas de color rojo con puntos en la traza) proporciona una estimación aproximada de la exactitud de la estimación ingenua. 4 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 -4 -2 0 log (prog) 2 4 Figura 1.2 (a) Grupo no conceptivo -5 0 5 10 15 dias 0 -2 -1 log (prog) 1 2 Figura 1.2 (b) Grupo no conceptivo -5 0 5 10 15 dias Los datos de progesterona se han utilizado para ilustraciones de los métodos de regresión no paramétricos por varios autores. Por ejemplo, Fan y Zhang (2000) los utilizó para ilustrar su método de dos pasos para estimar la función media subyacente de los datos longitudinales o de los datos funcionales, Brumback y Rice (1998) los utilizó para ilustrar una técnica de modelado de efectos mixtos con alisamiento spline para estimar ambas funciones media e individual, mientras que Wu y Zhang (2002a) los utilizó para ilustrar un enfoque de modelado de efectos mixtos polinomial local. 5 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 1.2. Modelización de efectos mixtos: de paramétrico a no paramétrico 1.2.1. Modelos paramétricos de efectos mixtos Para la modelización de datos longitudinales, los modelos paramétricos de efectos mixtos, tales como modelos lineales y no lineales de efectos mixtos, son una herramienta natural. Los modelos lineales o no lineales de efectos mixtos se pueden especificar como modelos lineales y no lineales jerárquicos, desde una perspectiva bayesiana. Los modelos lineales de efectos mixtos (linear mixed-effects (LME)) se utilizan cuando la relación entre una variable respuesta longitudinal y sus covariables se puede expresar a través de un modelo lineal. El modelo LME introducido por Harville (1976, 1977), y Laird y Ware (1982) en general se puede escribir como donde y son, respectivamente, los vectores de respuestas y los errores de medición para el -ésimo sujeto, y son, respectivamente, los vectores de efectos fijos (parámetros de la población) y efectos aleatorios (parámetros individuales), y y son las matrices de diseño asociadas a los efectos fijos y a los efectos aleatorios. Es fácil notar que la media y la matriz de covarianza de está dada por Los modelos no lineales de efectos mixtos (nonlinear mixed-effects (NLME)) se utilizan cuando la relación entre una variable respuesta longitudinal y sus covariables se puede expresar a través de un modelo no lineal, el cual es conocido a excepción de algunos parámetros. Un modelo no lineal jerárquico general o modelo NLME se puede escribir como (Davidian y Giltinan 1995, Vonesh y Chinchilli 1996): donde con una matriz de diseño y 6 siendo una función conocida, un parámetro especifico de sujeto para el Trabajo Fin de Máster en Estadística Aplicada 2010/2011 -ésimo sujeto. En el anterior modelo NLME, la matrices de diseño y es una función conocida de las , el vector de efectos fijos . Como ejemplo, un modelo lineal simple para y el vector de efectos aleatorios puede escribirse como . La media marginal y la varianza-covarianza de no puede ser dada para un modelo NLME general. Se pueden aproximar utilizando técnicas de linealización (Sheiner, Rosenberg y Melmon 1972, Sheiner y Beal 1980, y Lindstrom y Bates 1990, entre otros). Definiciones más detalladas de los modelos LME y NLME se darán en el Capítulo 2. Ya sea en un modelo LME o en un modelo NLME, las variaciones entresujeto e intra-sujeto se cuantifican separadamente por los componentes de varianza y . En un estudio longitudinal, los datos de sujetos diferentes se suponen por lo general que son independientes, pero los datos del mismo sujeto pueden estar correlacionados. Las correlaciones pueden ser causadas por la variación entre-sujeto (heterogeneidad entre los sujetos) y/o la correlación serial del error de medición. Hacer caso omiso de la correlación existente de los datos longitudinales puede llevar a conclusiones incorrectas e ineficientes. Por lo tanto, un requisito clave para el análisis de datos longitudinales es un modelo apropiado y estimar con precisión los componentes de varianza así que las funciones media e individual subyacente deben ser modeladas de manera eficiente. Esta es la razón por la cual el análisis de datos longitudinales es más difícil tanto en el desarrollo teórico y aplicación práctica en comparación con el análisis de datos de corte transversal. La aplicación con éxito de un modelo LME o un modelo NLME al análisis de datos longitudinales depende en gran medida de la suposición (hipótesis) de un modelo lineal o no lineal adecuado para la relación entre la variable respuesta y las covariables. A veces esta hipótesis puede ser no válida para un conjunto de datos longitudinales dado. En este caso, la relación entre la variable respuesta y las covariables tiene que ser modelada no paramétricamente. Por lo tanto, tenemos que extender los modelos paramétricos de efectos mixtos a los modelos no paramétricos de efectos mixtos. 1.2.2. Regresión no paramétrica y suavización Un modelo paramétrico de regresión requiere el supuesto de que la forma de la función de regresión subyacente se conoce a excepción de los valores de un número finito de parámetros. La selección de un modelo paramétrico depende en gran medida 7 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 del problema en cuestión. A veces el modelo paramétrico se puede derivar de las teorías mecanicistas detrás del problema científico, mientras que en otras ocasiones el modelo se basa en la experiencia o es simplemente deducido de los gráficos de dispersión de los datos. Un grave inconveniente del modelado paramétrico es que un modelo paramétrico puede ser demasiado restrictivo en algunas aplicaciones. Si un modelo paramétrico inadecuado es utilizado, es posible producir conclusiones erróneas a partir del análisis de regresión. En otras situaciones, un modelo paramétrico no puede estar disponible para su uso. Para superar las dificultades causadas por el supuesto restrictivo de una forma paramétrica de la función de regresión, se puede quitar la restricción de que la función de regresión pertenece a una familia paramétrica. Este enfoque conduce a la llamada regresión no paramétrica. Existen muchos métodos de regresión no paramétrica y suavización. Los métodos más populares incluyen suavización del núcleo, ajuste polinomial local, regresión (polinomial) splines, suavización splines, y penalizado splines. Algunos otros enfoques, tales como gráfico de dispersión localmente ponderado suavizado (locally weighted scatter plot smoothing (LOWESS)), métodos basados en wavelet y otros enfoques basados en series ortogonales también son de uso frecuente en la práctica. La idea básica de estos enfoques no paramétricos es dejar que los datos determinen la forma más adecuada de las funciones. Hay uno o dos llamados parámetros de suavización en cada uno de estos métodos para controlar la complejidad del modelo y la compensación entre el sesgo y la varianza del estimador. Por ejemplo, el ancho de banda en la suavización del núcleo local determina la suavidad de la función de regresión y la bondad de ajuste del modelo a los datos así que cuando , el modelo no paramétrico local se convierte en un modelo paramétrico global, y cuando , la estimación que resulta esencialmente interpola los puntos de datos. Por lo tanto, la frontera entre el modelado paramétrico y no paramétrico no puede estar bien definida si se toma el parámetro de suavización en cuenta. Los métodos no paramétricos y paramétricos de regresión no deben considerarse como competidores, sino que se complementan entre sí. En algunas situaciones, las técnicas no paramétricas se pueden utilizar para validar o sugerir un modelo paramétrico. Una combinación de ambos métodos no paramétricos y paramétricos es más poderoso que un único método en muchas aplicaciones prácticas. 8 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Existe una vasta literatura sobre la suavización y los métodos no paramétricos de regresión para datos de corte transversal. Buenos estudios sobre estos métodos se pueden encontrar en los libros de de Boor (1978), Eubank (1988), Härdle (1990), Wahba (1990), Green y Silverman (1994), Wand y Jones (1995), Fan y Gijbels (1996), y Ruppert, Wand y Carroll (2003), entre otros. Sin embargo, muy poco se ha hecho para desarrollar los métodos no paramétricos de regresión para el análisis de datos longitudinales hasta los últimos años. Müller (1988) fue el primero en abordar el análisis de datos longitudinales con los métodos no paramétricos de regresión. Sin embargo, en esta monografía anterior, el enfoque básico es el de estimar la curva de cada individuo por separado, por lo tanto, la correlación intra-sujeto de los datos longitudinales no se consideró en el modelaje. Las metodologías de Müller (1988) son esencialmente similares a los métodos no paramétricos de regresión para datos de corte transversal. En años recientes, ha habido un auge en el desarrollo de métodos no paramétricos de regresión para el análisis de datos longitudinales que incluyen la utilización de métodos de suavización tipo-núcleo (Hoover, Rice, Wu y Yang 1998, Wu y Chiang 2000, Wu, Chiang y Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2001a, b, Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Cai, Li y Wu 2003, Wang 2003, Wang, Carroll y Lin 2005), métodos de suavización spline (Brumback y Rice 1998, Wang 1998a, b, Zhang, Lin, Raz y Sowers 1998, Lin y Zhang 1999, Guo 2002a, b) y métodos de regresión (polinomial) spline (Shi, Weiss y Taylor 1996, Rice y Wu 2001, Huang, Wu y Zhou 2002, Wu y Zhang 2002b, Liang, Wu y Carroll 2003). Hay una gran cantidad de literatura reciente en esta área de investigación, y es imposible tener una lista completa aquí. La importancia de los métodos no paramétricos de modelado ha sido reconocido en el análisis de datos longitudinales y para las aplicaciones prácticas, ya que los métodos no paramétricos son flexibles y robustos frente a supuestos paramétricos. Dicha flexibilidad es útil para la exploración y análisis de datos longitudinales, cuando apropiados modelos paramétricos no están disponibles. En este trabajo, no tenemos la intención de cubrir todas las técnicas no paramétricas de regresión. En cambio, nos vamos a centrar en el método de suavización polinomial local. Incorporamos este procedimiento no paramétrico de suavización en los modelos de efectos mixtos para proponer técnicas no paramétricas de modelado de efectos mixtos para el análisis de datos longitudinales. 9 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 1.2.3. Modelos no paramétricos de efectos mixtos Un conjunto de datos longitudinales tal como los datos de progesterona presentados en la Sección 1.1, pueden expresarse en una forma común como donde indican los puntos de tiempo de diseño (por ejemplo, “días” en los datos de progesterona), la respuesta observada en de progesterona), (por ejemplo, “log(prog)” en los datos el número de observaciones para el -ésimo sujeto, y es el número de sujetos. Para tal conjunto de datos longitudinales, no asumimos un modelo paramétrico para la relación entre la variable respuesta y la covariable en el tiempo. En cambio, justamente asumimos que las funciones individual y de media poblacional son funciones sin problemas en el tiempo , y dejamos que los propios datos determinen la forma de las funciones subyacentes. Siguiendo Wu y Zhang (2002a), introducimos un modelo no paramétrico de efectos mixtos (nonparametric mixed-effects (NPME)) como donde modela la función de media poblacional del conjunto de datos longitudinales, llamada función de efecto fijo, modela la salida de la -ésima función individual de la función de media poblacional de efecto aleatorio, y , llamada la -ésima función son los errores de medición que no se pueden explicar por las funciones de efecto fijo y las funciones de efecto aleatorio. En general se supone que son realizaciones i.i.d. de un proceso suave (smooth process (SP)) subyacente, función de covarianza blanco no correlacionado, ,y , con función de media 0 y son realizaciones i.i.d. de un proceso de ruido , con función de media 0 y función de covarianza . Esto es, y cuantifica la variación entre-sujeto mientras que . Aquí cuantifica la variación intra- sujeto. Cuando se habla de las inferencias basadas en la verosimilitud o la interpretación Bayesiana, por simplicidad, generalmente asumimos que los procesos asociados son Gausianos, es decir, ,y . En el marco de modelado NPME, necesitamos llevar a cabo las siguientes tareas: (1) estimar la función (media poblacional) de efecto fijo 10 ; (2) predecir las funciones Trabajo Fin de Máster en Estadística Aplicada 2010/2011 de efecto aleatorio y las funciones individuales ; (3) estimar la función de covarianza varianza de ruido La ; y (4) estimar la función de . , y caracterizan las características de la población de una respuesta longitudinal mientras que y capturan las características individuales. Para simplificar, la función media poblacional individuales y las funciones se refieren a veces como las curvas de población y las curvas individuales, respectivamente. Debido a que en el modelo NPME (1.4), las cantidades de destino , , y son todas no paramétricas, la combinación de técnicas de suavización y enfoques de modelado de efectos mixtos es necesario para la estimación de estas cantidades desconocidas. 11 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Capítulo 2: Modelos paramétricos de efectos mixtos 2.1. Introducción Los modelos paramétricos de efectos mixtos o los modelos de efectos aleatorios son herramientas poderosas para el análisis de datos longitudinales. Los modelos lineales o no lineales de efectos mixtos (incluyendo los modelos lineales o no lineales generalizados de efectos mixtos) han sido ampliamente utilizados en muchos estudios longitudinales. Buenos estudios sobre estos enfoques se pueden encontrar en los libros de Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y Chinchilli (1996), Verbeke y Molenberghs (2000), Pinheiro y Bates (2000), Diggle, Heagerty, Liang y Zeger (2002), y Demidenko (2004), entre otros. En este capítulo, vamos a revisar los modelos lineales de efectos mixtos y haremos hincapié en los métodos que vamos a utilizar en capítulos posteriores. El enfoque de este trabajo es presentar las ideas de modelado de efectos mixtos en suavización y regresión no paramétrica para el análisis de datos longitudinales, es importante entender los conceptos básicos y las propiedades clave de los modelos paramétricos de efectos mixtos. 2.2. Modelo lineal de efectos mixtos 2.2.1. Especificación del modelo Harville (1976, 1977) y Laird y Ware (1982) propusieron por primera vez el siguiente modelo general lineal de efectos mixtos (linear mixed-effects (LME)): donde , y denotan la respuesta y el error de medición de la - ésima medición del -ésimo sujeto, los parámetros desconocidos y generalmente se llaman el vector de efectos fijos y los vectores de efectos aleatorios, respectivamente (para simplificar, a menudo se refieren como parámetros de efectos fijos y efectos aleatorios del modelo LME), y y son los asociados a los vectores covariables de efectos fijos y efectos aleatorios. En la expresión anterior, y , son conocidas como las componentes de varianza del modelo LME. En el 12 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 modelo LME anterior, para simplificar, asumimos que y son independientes con distribuciones normales, y las mediciones entre-sujeto son independientes. El modelo LME (2.1) se escribe a menudo en la forma siguiente: donde , ,y . El modelo LME anterior incluye modelos lineales de coeficientes aleatorios (Longford 1993) y modelos para mediciones repetidas como casos especiales. Por ejemplo, un modelo de dos etapas lineal de coeficiente aleatorio para curvas de crecimiento (Longford 1993) se puede escribir como donde , , y se definen de manera similar como en (2.2), de coeficientes aleatorios del -ésimo sujeto, y es un vector es una matriz de diseño que contiene las covariables entre sujetos. Es fácil ver que el modelo lineal de coeficiente aleatorio (2.3) puede escribirse en la forma del modelo general LME (2.2) una vez que se establece . De hecho, se puede escribir un modelo general de dos etapas lineal de coeficiente aleatorio en la forma del modelo general LME (2.2). Un modelo general de dos etapas de coeficiente aleatorio se puede escribir como (Davidian y Giltinan 1995, Vonesh y Chinchilli 1996) 13 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde es una matriz de diseño determinar los componentes de efectos aleatorios con elementos de 0 y 1 organizados para que son al azar, y es el asociado al vector de -dimensional. Este modelo general de dos etapas de coeficiente aleatorio se puede escribir en la forma del modelo general LME (2.2): una vez que se establece y . De hecho, es fácil demostrar que el modelo general de dos etapas de coeficiente aleatorio (2.4) es equivalente al modelo general LME (2.2). En particular, cuando , el modelo general de dos etapas de coeficiente aleatorio (2.4) se reduce al modelo de coeficiente aleatorio (2.3) para curvas de crecimiento. Nótese que el modelo general de dos etapas de coeficiente aleatorio (2.4) también se conoce como modelo de efectos mixtos de dos etapas y el modelo general LME (2.2) también se llama modelo lineal jerárquico. En notación matricial, el modelo general LME (2.2) se puede escribir además como donde Por lo general se asume que las mediciones repetidas de sujetos diferentes son independientes y están correlacionadas solamente cuando vienen del mismo sujeto. Basado en el modelo general LME (2.5), tenemos donde la matriz de covarianza del vector de mediciones repetidas para el -ésimo sujeto es . Podemos ver que la correlación entre las mediciones repetidas puede ser inducida o a través del término de variación entre-sujeto sujeto 14 o a través de la matriz de covarianza intra- . Por lo tanto, incluso si los errores de medición intra-sujeto ( ) Trabajo Fin de Máster en Estadística Aplicada 2010/2011 son independientes, las mediciones repetidas pueden estar aún correlacionadas debido a la variación entre-sujeto. En algunos problemas, la correlación puede provenir de dos fuentes. Sin embargo, para simplificar, podemos asumir que la correlación es inducida únicamente a través de la variación entre-sujeto o asumir que es diagonal en el desarrollo de metodologías. 2.2.2. Estimación de los efectos fijos y aleatorios Las inferencias de y para el modelo general LME (2.2) pueden basarse en el método de verosimilitud o el método de mínimos cuadrados generalizados. Conocidas y , las estimaciones de y se pueden obtener minimizando el siguiente logaritmo dos veces negativas de la función de densidad conjunta de y (hasta una constante): Puesto que son los vectores de parámetros de efectos aleatorios, la expresión (2.7) no es un logaritmo de verosimilitud (log-likelihood) convencional. Para mayor comodidad, a partir de ahora y a lo largo de este trabajo, llamamos a (2.7) un logaritmo de verosimilitud generalizado (generalized log-likelihood (GLL)) de los parámetros de efectos mixtos ( , ). Tenga en cuenta que el primer término del lado derecho de (2.7) es un residuo ponderado tomando la variación intra-sujeto en cuenta, y el término efectos aleatorios es una penalización debido a los tomando la variación entre-sujeto en cuenta. Para determinadas y , minimizar el criterio GLL (2.7) es equivalente a resolver las denominadas ecuaciones del modelo mixto (Harville 1976, Robinson 1991): donde , , , , y se definen en (2.6). Utilizando el algebra matricial, las ecuaciones de rendimiento del modelo mixto 15 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde y covarianzas de y . Las matrices de son: 2.2.3. Interpretación bayesiana Es conocido que el modelo general LME (2.2) tiene una estrecha relación con un modelo Bayesiano en el sentido de que las soluciones (2.8) y (2.9) son las expectativas a posteriori de los parámetros de un modelo Bayesiano en virtud de no informativas probabilidades (distribuciones) a priori. Antes de seguir adelante, manifestamos los siguientes dos lemas útiles cuyas demostraciones se pueden encontrar en algunos libros de texto estándar multivariante, por ejemplo, Anderson (1984). Lema 2.1 Sean , y matrices , y tales que y son invertibles. Entonces En particular, cuando , Lema 2.2 Sea donde 16 es invertible. Entonces y donde es un vector , tenemos Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Definimos ahora el siguiente problema Bayesiano: con distribución a priori para donde , y : y son independientes unas de otras, y se define en (2.6). Nótese que la especificación de es flexible. Por ejemplo, podemos dejar que . Esto indica que los componentes de Además, cuando en son independientes unos de otros. , tenemos . Esto indica que el límite a priori no es informativo. Teorema 2.1 Los mejores predictores imparciales lineales (2.8) y (2.9) que minimizan el criterio GLL (2.7) son los mismos que las expectativas del límite a posteriori del problema Bayesiano definido en (2.14) y (2.15) con Además, como , tenemos las siguientes distribuciones a posteriori: donde y Nótese que y implican los parámetros desconocidos las estimaciones puntuales de y y . Si sustituimos (vamos a discutir cómo estimarlos en las siguientes subsecciones), las estimaciones Bayesianas, 17 . Esto es, y se refieren generalmente como Trabajo Fin de Máster en Estadística Aplicada 2010/2011 estimaciones empíricas de Bayes, aunque la estimación empírica de Bayes se aplica convencionalmente sólo a los efectos aleatorios . El Teorema 2.1 da las distribuciones del límite a posteriori de marco Bayesiano (2.14) y (2.15) cuando y en el o cuando lo a priori en informativo. A veces, es interesante conocer la distribución a posteriori de está dada, por ejemplo, cuando , y no es cuando . En realidad, este conocimiento es la base para el algoritmo EM basado en la máxima verosimilitud que vamos a revisar en el siguiente apartado. El siguiente teorema da los resultados relacionados. Teorema 2.2 Bajo el marco Bayesiano (2.14) y (2.15), tenemos Vale la pena notar que, según el Teorema 2.2, tenemos y . 2.2.4. Estimación de los componentes de varianza Si las matrices de covarianza, puntuales, por ejemplo, y y , son desconocidas, pero sus estimaciones , están disponibles, entonces podemos tener . Las estimaciones de sustitución de y y por lo tanto pueden ser obtenidas por en (2.8) y (2.9). Sus correspondientes errores estándar están dados por (2.10) y (2.12) después de sustituir y por sus estimaciones. Sin embargo, estos errores estándar están subestimados ya que los errores de estimación de y no se contabilizan. Bajo el supuesto de normalidad, el método de máxima verosimilitud (maximum likelihood (ML)) y el método de máxima verosimilitud restringida (restricted maximum likelihood (REML)) son dos técnicas populares para estimar los componentes desconocidos de y , aunque esto puede no ser adecuado si la hipótesis de normalidad es cuestionable. Bajo los supuestos de normalidad siguientes, , 18 , , Trabajo Fin de Máster en Estadística Aplicada 2010/2011 la función de verosimilitud generalizada se puede escribir como donde es la dimensión de y . Si el vector de efectos aleatorios es integrable, podemos obtener la siguiente función de verosimilitud convencional: El método ML para la estimación de componentes de varianza es maximizar la siguiente función de log-verosimilitud: con respecto a los componentes de varianza para un determinado . Sin embargo, la maximización conjunta con respecto a los componentes de varianza , parámetros de efectos fijos también da lugar a la estimación de El método REML se utiliza para integrar a y de ajustar la pérdida de grados de libertad debido a la estimación de y el vector de en (2.8). con el fin de del método ML, es decir, para maximizar Se puede demostrar que donde tenemos que 19 como se define en (2.18). Por lo tanto, Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Las estimaciones REML de componentes de varianza se pueden obtener a través de la maximización Derivaciones más detalladas de estos resultados se pueden encontrar en Davidian y Giltinan (1995). 2.2.5. Los algoritmos EM La implementación de los métodos ML y REML no es trivial. Para superar esta dificultad de implementación, los métodos de algoritmo EM y de Newton-Raphson han sido propuestos (Laird y Ware 1982, Dempster, Rubin y Tsutakawa 1981, Laird, Lange y Stram 1987, Jenrich y Schluchter 1986, Lindstrom y Bates 1990). Los libros de Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y Chinchilli (1996) y Pinheiro y Bates (2000) también proporcionan una buena revisión de estos métodos de implementación. El paquete estándar de software estadístico tal como R ofrece funciones convenientes para implementar estos métodos (por ejemplo, la función lme de R). Haremos una breve revisión del algoritmo EM aquí. Recordemos que por lo general asumimos que tiene la forma simple siguiente: Cuando naturales ML de y y se conocen, bajo el supuesto de normalidad, las estimaciones serán Este es el paso M del algoritmo EM. Debido a que y no se conocen, las estimaciones anteriores no son computables. Hay dos maneras de superar esta dificultad, asociadas, respectivamente, con el algoritmo EM basado en el ML o REML. Nótese que las estimaciones ML de y se obtienen a través de la maximización de la función de log-verosimilitud (2.20) con el vector de parámetros de 20 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 efectos fijos es sustituir la dado. Por lo tanto, la clave para el algoritmo EM basado en el ML y en (2.23) con respectivamente. El razonamiento subyacente es que los componentes de varianza y se estiman sobre la base de los residuos después de que la componente de efectos fijos estimada se elimina de los datos en bruto, y la estimación no tomará la variación de en cuenta. Este es el paso E del algoritmo EM basado en el ML. Usando el Teorema 2.2, podemos demostrar el siguiente teorema. Teorema 2.3 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se cumple, y supongamos que satisface (2.22). Entonces tenemos que En el lado derecho de las expresiones (2.25), los componentes de varianza y aún son desconocidas. Sin embargo, cuando se sustituyen por los valores actuales disponibles, los valores actualizados de y proporcionando algunos valores iniciales de se pueden obtener. En otras palabras, y , se pueden actualizar y utilizando (2.25) hasta la convergencia. Esta es la idea principal del algoritmo EM. Para simplificar, los valores iniciales pueden tomarse como y . El ciclo principal para el algoritmo EM basado en el ML es el siguiente: (a) Dados y , calcular (b) Dados y , actualizar y utilizando (2.8) y (2.9). y utilizando (2.25). (c) Alternar entre (a) y (b) hasta la convergencia. Sea valores estimados de el índice de secuencia de las iteraciones, y y en la iteración . Otras notaciones tales como , los , se definen de forma similar. A continuación, más formalmente, el algoritmo EM basado en el ML puede ser escrito como sigue: 21 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Algoritmo EM basado en el ML Paso 0. Establecer . Sea Paso 1. Establecer ,y . Actualizar . y utilizando donde Paso 2. Actualizar y utilizando donde Paso 3. Repetir los pasos 1 y 2 hasta la convergencia. El algoritmo EM basado en el REML puede ser igualmente descrito. Las principales diferencias son: (a) El algoritmo EM basado en el REML se ha desarrollado para encontrar las estimaciones REML de y que maximizan (2.21). (b) La clave para el algoritmo EM basado en el REML es reemplazar (2.23) por y y en lugar de sus expectativas condicionadas a en y como se indica en (2.24). Estas expectativas condicionales se pueden obtener fácilmente utilizando el Teorema 2.1 y las presentaremos en el Teorema 2.4 a continuación para facilitar su consulta. 22 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 (c) El algoritmo EM basado en el REML puede ser obtenido simplemente a través de sustituir todos los anterior con en el Paso 2 del algoritmo EM basado en el ML , donde El Teorema 2.4 a continuación es similar al Teorema 2.3 pero se basa en el Teorema 2.1. Teorema 2.4 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se cumple, y supongamos que donde 23 satisface (2.22). Entonces como . , Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Capítulo 3: Suavizadores en regresión no paramétrica 3.1. Introducción En el Capítulo 2, hemos revisado los modelos paramétricos de efectos mixtos para datos longitudinales, en particular hemos visto los modelos lineales de efectos mixtos. Estos modelos paramétricos de efectos mixtos han sido ampliamente estudiados y aplicados para analizar datos longitudinales en la literatura (Lindsey 1993, Diggle, Liang y Zeger 1994, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000). Uno de los supuestos básicos de estos modelos es que la variable de respuesta (o a través de una función de enlace conocida) es una función paramétrica conocida de ambos efectos fijos y efectos aleatorios. Es decir, para cada individuo, la relación subyacente entre la respuesta y las covariables de efectos mixtos es paramétrica. Sin embargo, esta suposición no siempre se cumple en las aplicaciones prácticas. Tomamos los datos de progesterona, introducidos en la Sección 1.1.1 del Capítulo 1, como un ejemplo. La Figura 3.1 muestra la gráfica de los datos con puntos (círculos) individuales de progesterona de un sujeto seleccionado (hemos seleccionado el sujeto número 2 del ciclo 5 del grupo no conceptivo). Se presentan ejemplos de algún polinomio de menor grado ajustado (curvas continuas de color negro) a los datos. El panel (a) representa un ajuste del modelo lineal, que no se ajusta adecuadamente a los datos. Esta dificultad puede ser superada por el aumento del grado de los polinomios, por ejemplo de lineal a cuadrático, cúbico o cuartico como se muestran en los paneles (b), (c) y (d), respectivamente. Se ve que cuanto mayor sea el grado del polinomio, más adecuadamente se ajustan los datos. Se ve que tanto los modelos polinomiales cúbico y cuartico son generalmente bien ajustados a los datos, pero los ajustes siguen siendo pobres antes del Día 0. 24 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Figura 3.1 (b) Cuadrático -1 -1 0 5 10 -5 15 0 5 10 dias dias Figura 3.1 (c) Cúbico Figura 3.1 (d) Cuartico 15 -1 1 -1 0 0 1 log (prog) 2 2 3 3 -5 log (prog) 1 log (prog) 0 1 0 log (prog) 2 2 3 3 Figura 3.1 (a) Lineal -5 0 5 10 15 dias -5 0 5 10 15 dias Se obtuvieron resultados similares cuando reemplazamos el sujeto seleccionado por algunos otros sujetos elegidos. Por lo tanto, un modelo polinomial de menor grado puede no ajustarse bien a los datos de progesterona. Estos datos son sólo un ejemplo de conjuntos de datos prácticos que no pueden ser bien ajustados por polinomios de grado menor. Härdle (1990), Fan y Gijbels (1996), Green y Silverman (1994), y Ramsay y Silverman (1997, 2002), entre otros, proporcionaron ejemplos de datos donde no es posible ajustar adecuadamente los datos mediante polinomios de cualquier grado o cualquiera de los modelos paramétricos. En estos casos, las técnicas no paramétricas de modelado son necesarias. Los datos de progesterona para el sujeto seleccionado, presentados como círculos en la Figura 3.1, se pueden denotar como 25 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde son conocidos como puntos en tiempo de diseño, y son las respuestas a los puntos en tiempo de diseño. Los puntos en tiempo de diseño pueden ser igualmente espaciados en un intervalo de interés, o ser considerado como una muestra aleatoria de una densidad de diseño continua, concretamente, . Para simplificar, vamos a denotar el intervalo de interés, o el soporte de , que puede ser un intervalo finito, por ejemplo, respuestas como o toda la recta real . Las se observan a menudo con errores. Para un conjunto de datos como el anterior, un modelo de regresión no paramétrica simple se suele escribir como donde modela la función de regresión subyacente que queremos estimar, pero no puede ser aproximada utilizando un modelo paramétrico adecuado, y denota los errores de medición que no pueden ser explicados por la función de regresión . Matemáticamente, es la esperanza condicionada de , dado , es decir, Para los datos longitudinales, el conjunto de datos (3.1) describe la estructura de datos para un sujeto individual donde es la función de los individuos, y son los puntos en tiempo de diseño de los individuos con mediciones. Hay muchos suavizadores existentes que pueden ser utilizados para estimar la en (3.2). Diferentes suavizadores tienen diferentes puntos fuertes en uno u otro aspecto. Por ejemplo, la suavización splines puede ser buena para el manejo de la escasez de datos, mientras que los suavizadores polinomial local pueden ser computacionalmente ventajosos para el manejo de diseños densos. En este capítulo, revisaremos los suavizadores polinomial local (Wand y Jones 1995, Fan y Gijbels 1996) en la Sección 3.2. En capítulos posteriores, se desarrollan la media de la población no paramétrica y modelos de efectos mixtos para datos longitudinales basados en estos suavizadores. 26 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 3.2. Suavizador del núcleo polinomial local 3.2.1. Grado general del suavizador LPK La idea principal del suavizado del núcleo polinomial local (local polynomial kernel (LPK)) es aproximar localmente la en (3.2) por un polinomio de menor grado. Su fundamento es la expansión de Taylor, que establece que cualquier función suave puede ser localmente aproximada por un polinomio de menor grado. En concreto, sea un punto arbitrario en un tiempo fijo donde la función (3.2) será estimada. Supongamos que algún entero en tiene en -primera derivada continua para . Por la expansión de Taylor, puede ser localmente aproximada por un polinomio de grado . Es decir, en una zona de -ésima de que permita la expansión anterior donde en denota la derivada . Fijamos , . Sea los minimizadores del siguiente criterio de mínimos cuadrados ponderados (weighted least squares (WLS)): donde , que se obtiene a través de re-escalar una función del núcleo con una constante ancho de banda , llamado el ancho de banda o parámetro de suavizado. El se utiliza principalmente para especificar el tamaño de la zona local, concretamente, donde el ajuste local se lleva a cabo. La función del núcleo, observaciones dentro de contribuyen al ajuste en , determina cómo las . Discutiremos las funciones del núcleo en la Sección 3.2.3. Denotemos la estimación de la derivada -ésima como 27 . Entonces Trabajo Fin de Máster en Estadística Aplicada 2010/2011 En particular, el resultado del -ésimo grado del estimador LPK de es . Una expresión explícita para es útil y puede hacerse a través de la notación de matrices. Sea y la matriz de diseño y la matriz de pesos para el ajuste LPK alrededor de . Entonces el criterio WLS (3.3) se puede reescribir como donde y donde . Resulta que denota un vector unitario -dimensional cuya -primera entrada es 1 y las otras entradas son 0, y Cuando se ejecuta sobre todo el soporte una estimación de todo el rango de de los puntos en tiempo de diseño, se obtiene. El estimador derivado se suele llamar suavizador LPK de la función derivada subyacente . El suavizador derivado se suele calcular en una cuadrícula de ’s en . En este capítulo, sólo nos centramos en la curva más suave a menos que discutamos la estimación derivada. Fijamos ajustado de 28 . Por (3.6), se observa que para ser el valor Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde es después de sustituir con . Sea denota el valor ajustado en todos los puntos en tiempo de diseño. Entonces que se puede expresar como donde se conoce como la matriz suavizadora del suavizador LPK. Puesto que del vector de respuesta , el suavizador LPK no depende se conoce como suavizador lineal. 3.2.2. Suavizadores lineal y constante local Los suavizadores lineal y constante local son los dos más simples y más útiles suavizadores LPK. El suavizador constante local se conoce como el estimador Nadaraya-Watson (Nadaraya 1964, Watson 1964). Este suavizador resulta del suavizador LPK (3.6) simplemente tomando Dentro de una zona local constante. Es decir, es el minimizador : , se ajusta a los datos con una del siguiente criterio WLS: El estimador Nadaraya-Watson es fácil de entender y fácil de calcular. Sea que denota la función indicadora de un conjunto . Cuando la función del núcleo es el núcleo Uniforme el estimador Nadaraya-Watson (3.9) es exactamente la media local de dentro de la zona local 29 (3.4): ’s que están Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde denota el número de observaciones que caen dentro de la zona local . Sin embargo, cuando dentro de la zona que el caso cuando está en la frontera de de modo que está en el interior de , menos puntos de diseño están tiene una tasa de convergencia más lenta . Para una explicación detallada de este efecto frontera, se remite al lector a Fan y Gijbels (1996) y Cheng, Fan y Marron (1997). El suavizador lineal local (Stone 1984, Fan 1992, 1993) se obtiene a través de ajustar un conjunto de datos a nivel local con una función lineal. Sea que minimiza el siguiente criterio WLS: Entonces el suavizador lineal local es del suavizador LPK . Se puede obtener fácilmente (3.6) simplemente tomando . Se le conoce como un suavizador con un efecto de frontera libre (Cheng, Fan y Marron 1997). Es decir, tiene la misma tasa de convergencia en cualquier punto de . También exhibe muchas buenas propiedades que los otros suavizadores lineales pueden carecer. Buenas discusiones sobre estas propiedades se pueden encontrar en Fan (1992, 1993), Hastie y Loader (1993), y Fan y Gijbels (1996, Capítulo 2), entre otros. Un suavizador lineal local puede ser simplemente expresado como donde Por lo general, la elección del grado de ajuste LPK, , no es tan importante como la elección del ancho de banda, . Un suavizador constante local 30 o lineal Trabajo Fin de Máster en Estadística Aplicada 2010/2011 local a menudo es lo suficientemente bueno para la mayoría de los problemas de aplicación si la función del núcleo y el ancho de banda son adecuadamente determinados. Fan y Gijbels (1996, Capítulo 3) señaló que para la estimación de la curva (no válido para la estimación derivada) un impar es preferible. Esto es así porque un ajuste LPK con , introduce un parámetro adicional en comparación con un ajuste LPK con , pero no aumenta la varianza del estimador asociado LPK. Sin embargo, el sesgo asociado puede ser reducido significativamente, especialmente en las regiones de frontera (Fan 1992, 1993, Hastie y Loader 1993, Fan y Gijbels 1996, Cheng, Fan y Marron 1997). Por lo tanto, el suavizador lineal local es altamente recomendable para la mayoría de los problemas en la práctica. 3.2.3. Función del núcleo La función del núcleo utilizada en el suavizador LPK (3.6) es generalmente una función de densidad de probabilidad simétrica. Mientras que el ancho de banda especifica el tamaño de la zona local observaciones contribuyen al ajuste LPK en , el núcleo especifica cómo las . Hemos visto anteriormente el núcleo Uniforme (3.10) y ahora vemos el núcleo Gaussiano (función de densidad de probabilidad normal estándar) Cuando el núcleo Uniforme se utiliza, todos los ’s dentro de la zona local contribuyen igualmente (los pesos son los mismos) en el ajuste LPK en mientras que todos los ’s fuera de la zona no contribuyen en nada. Cuando el núcleo Gaussiano se utiliza, sin embargo, la contribución de los distancia de a , , es decir, cuanto menor es la distancia ’s se determina por la , mayor es la contribución. Esto es porque el núcleo Gaussiano es con forma de campana y alcanza su punto máximo en el origen. El núcleo Uniforme tiene un soporte limitado que permite al ajuste LPK utilizar los datos sólo en la zona . Esto hace una implementación rápida del posible ajuste LPK, lo cual es ventajoso sobre todo para grandes conjuntos de datos. El uso del núcleo Gaussiano a menudo resulta en buenos efectos visuales de los suavizadores LPK, pero paga un precio de requerir más esfuerzo computacional. Los núcleos Uniforme y Gaussiano son dos miembros especiales de la siguiente bien conocida familia Beta simétrica (Marron y Nolan 1989): 31 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde y La elección de denota una función beta con parámetros y . conducen a las funciones núcleo Uniforme, Epanechnikov, Biweight y Triweight, respectivamente. El núcleo Gaussiano es el límite de la familia (3.13) cuando . El núcleo Epanechnikov se conoce como el núcleo óptimo (Fan y Gijbels 1996) para la suavización LPK. La elección de un núcleo no suele ser tan importante, ya que no determina la tasa de convergencia del suavizador LPK (3.6) a la curva subyacente. Sin embargo, determina la eficiencia relativa del suavizador LPK. Para más discusión sobre la elección del núcleo, consulte Gasser, Müller y Mammitzsch (1985), Fan y Gijbels (1996), Zhang y Fan (2000) y sus referencias. 3.2.4. Selección del ancho de banda Un suavizador se considera que es bueno si produce un pequeño error de predicción, por lo general medido por el Error Cuadrático Medio (Mean Squared Error (MSE)) o el Error Cuadrático Medio Integrado (Mean Integrated Squared Error (MISE)) del suavizador. Para el suavizador LPK , sus MSE y MISE se definen como donde se conocen como el sesgo y la varianza de ,y es una función de peso, a menudo utilizada para especificar un rango concreto de interés. Bajo ciertas condiciones de regularidad como que podemos demostrar que como 32 , es un punto interior, Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde significa está acotada en la probabilidad. Véase, por ejemplo, Fan y Gijbels (1996, Capítulo 3) para más detalles. De esto, podemos ver que el ancho de banda controla el equilibrio entre el sesgo al cuadrado y la varianza del suavizador LPK . Cuando es pequeño, el sesgo al cuadrado es pequeño pero la varianza es grande. Por otro lado, cuando es grande, el sesgo al cuadrado es grande mientras que la varianza es pequeña. Una buena elección de por lo general compensará estos dos términos para que el MSE o MISE asociado se reduzca al mínimo. El papel desempeñado por el ancho de banda también se puede ver intuitivamente. Como se mencionó anteriormente, el ancho de banda tamaño de la zona local . Cuando especifica el es pequeño, contiene sólo unas pocas observaciones de modo que puede estar bien ajustado en base al criterio WLS (3.3) para aproximarse cerca de . Esto implica un pequeño sesgo de . Sin embargo, ya que sólo unas pocas observaciones están involucradas en el ajuste LPK, la varianza del estimador es muy grande. Con un razonamiento similar, cuando es grande, contiene muchas observaciones de modo que tiene un sesgo grande pero una varianza pequeña. Es entonces natural seleccionar un ancho de banda global (MSE para un ancho de banda local) de para que el MISE se reduzca al mínimo. Desafortunadamente, el MISE (3.14) no es calculable ya que es, después de todo, desconocido y es el objetivo que se estima. Este problema se puede superar mediante la selección de para minimizar algún estimador del MISE. Un estimador del MISE se puede obtener a través de la estimación de las cantidades desconocidas en la expresión asintótica MISE usando algún grado superior del ajuste LPK, dando como resultado el llamado complemento de los selectores de ancho de banda (Fan y Gijbels 1992, Ruppert, Sheather y Wand 1995). El MISE también se puede estimar mediante validación cruzada o sus versiones modificadas: validación cruzada generalizada (Wahba 1985), criterio de información Akaike (Akaike 1973) y criterio de información Bayesiano (Schwarz 1978), entre otros. 33 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 3.2.5. Un ejemplo ilustrativo Para una rápida implementación del suavizador LPK, referimos a los lectores a Fan y Marron (1994) donde una técnica de agrupación se propone para el manejo de grandes conjuntos de datos. Ahora aplicamos el suavizador LPK (3.6) a los datos presentados en la Figura 3.1. Como ejemplo ilustrativo, se empleó el ajuste lineal local con tres diferentes anchos de banda. En la Figura 3.2, los tres ajustes lineales locales se presentan. La curva continua de color rojo casi interpola los datos ya que utiliza un ancho de banda , que es demasiado pequeño. Este es el caso de infra-suavizado. La curva continua de color azul no se ajusta bien a los datos ya que utiliza un ancho de banda , que es demasiado grande. Este es el caso de sobre-suavizado. La curva continua de color negro produce un buen ajuste a los datos ya que utiliza un ancho de banda seleccionado por GCV, que no es demasiado pequeño o demasiado grande. 1 0 -1 log (prog) 2 3 Figura 3.2 Ajustes lineales locales -5 0 5 dias 34 10 15 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Capítulo 4: Métodos localmente polinomiales 4.1. Introducción Las técnicas de suavizado localmente polinomiales han sido bien desarrolladas para datos i.i.d. o transversales (Wand y Jones 1995, Fan y Gijbels 1996). Con el fin de aplicar estas técnicas al análisis de datos longitudinales, los esfuerzos se han hecho considerables para incorporar las características de los datos longitudinales en los métodos de suavizado del núcleo (Hoover, Rice, Wu y Yang 1998, Wu, Chiang y Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2000, Wu y Chiang 2000, Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Wang 2003, Park y Wu 2005). En los estudios longitudinales, los datos recogidos del mismo sujeto en el tiempo tienden a estar correlacionados, aunque los datos de diferentes sujetos se supone que son independientes. Las variaciones intra-sujeto y entre-sujeto son diferentes y necesitan ser modeladas apropiadamente. Hoover, Rice, Wu y Yang (1998), Wu, Chiang y Hoover (1998) y Wu y Chiang (2000) propusieron por primera vez el método de estimación del núcleo para modelos con coeficientes variando en el tiempo con datos longitudinales. Sin embargo, las características de los datos longitudinales no se incorporan directamente en sus métodos, aunque el criterio de validación-cruzada “dejar-un-sujeto-fuera” se propone para la selección del parámetro de suavizado en el que los datos de sujeto-basados en clusters son reconocidos. Para los datos correlacionados del modelo no paramétrico, tales como datos longitudinales, Diggle y Hutchinson (1989), Altman (1991), Hart (1991), Rice y Silverman (1991) y otros han propuesto modificaciones para el criterio de selección del parámetro de suavizado tales como la validación-cruzada (crossvalidation (CV)) o la validación-cruzada generalizada (generalized cross-validation (GCV)) o el uso de CV o GCV “dejar-un-sujeto-fuera” de forma indirecta en cuenta de las correlaciones entre los datos. Lin y Carroll (2000) propusieron un método de ecuación de estimación generalizada del núcleo polinomial local (local polynomial kernel generalized estimating equation (LPK-GEE)) para clustered (agrupados) o datos longitudinales. Ellos mostraron que la mejor estrategia es ignorar la estructura de correlación de los datos longitudinales (fingir como si los datos dentro de un grupo o sujeto son independientes) en el estimador LPK-GEE. Sin embargo, sus conclusiones se basan en los resultados asintóticos a condición de que el número de sujetos o grupos tiende a infinito y el número de mediciones de cada sujeto es finito. El estimador 35 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 working-independence de Lin y Carroll no puede ser el mejor para los casos de muestra finita. De hecho, algunos nuevos resultados han demostrado que es necesaria la incorporación de las correlaciones de datos longitudinales en el estimador con el fin de lograr una mayor eficacia en situaciones de muestras finitas (Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Wang 2003). Fan y Zhang (2000) sugiere un enfoque en dos etapas (primero con un promedio local o de regresión, luego suavizado) de forma indirecta en cuenta de la correlación de datos. Un enfoque de modelado de efectos mixtos localmente polinomial, el cual más apropiadamente modela las correlaciones intra-sujeto, fue propuesto por Wu y Zhang (2002a). Este método será uno de los temas centrales de este capítulo. Se amplían los modelos lineales de efectos mixtos (Capítulo 2) a una configuración de modelo no paramétrico más general en este capítulo. El resto de este capítulo está organizado de la siguiente manera. En primer lugar se revisan los métodos para la estimación de la función de media poblacional para datos longitudinales en la Sección 4.2. Un método polinomial local simple y un método LPK-GEE se describen brevemente. La Sección 4.3 introduce un modelo no paramétrico de efectos mixtos (nonparametric mixed-effects (NPME)) y la Sección 4.4 presenta la técnica de modelado de efectos mixtos localmente polinomial. Se discuten diferentes estrategias de selección del ancho de banda en la Sección 4.5. Para ilustrar las metodologías, una aplicación a los datos de progesterona se presenta en la Sección 4.6. La mayoría de los materiales de las Secciones 4.3~4.6 provienen de dos artículos de Wu y Zhang (2002a) y Park y Wu (2005). 4.2. Modelo no paramétrico para la media poblacional Un conjunto de datos longitudinales, por ejemplo, los datos de progesterona introducidos en la Sección 1.1.1 del Capítulo 1, son normalmente coleccionados mediante mediciones repetidas de una serie de sujetos durante un período de tiempo. Los puntos en tiempo de diseño pueden ser diferentes para sujetos diferentes y también lo son el número de mediciones. Sea el número de sujetos, y sea el -ésimo punto en tiempo de diseño del -ésimo sujeto y la respuesta asociada donde con denotando el número de mediciones del -ésimo sujeto. Tal conjunto de datos longitudinales puede ser simbólicamente expresado como 36 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Si un modelo paramétrico no está disponible para el modelado de la función de media poblacional de los anteriores datos longitudinales, es natural modelar en no paramétrica. Es decir, asumimos justamente que la función de media poblacional es suave. Tal modelo no paramétrico de media poblacional (nonparametric population mean (NPM)) se puede escribir como donde es la función suave de media poblacional, y son las salidas de las mediciones longitudinales de la función de media poblacional. Este modelo es comparable con el modelo de regresión no paramétrica estándar (3.2) del Capítulo 3, pero difiere en que los errores en el modelo NPM (4.2) son por lo general no independientes. Dado que no está disponible la forma paramétrica para el modelado de , las técnicas de suavizado no paramétricas son necesarias para ser utilizadas. De hecho, varias técnicas no paramétricas se han propuesto para los modelos de coeficientes variando en el tiempo que incluyen el modelo NPM (4.2) como un caso especial. En esta sección, se revisan dos técnicas: un método del núcleo polinomial local (local polynomial kernel (LPK)) (Hoover, Rice, Wu y Yang 1998); y un método LPK-GEE (Lin y Carroll 2000). 4.2.1. Método del núcleo polinomial local El método LPK para los modelos de coeficientes variando en el tiempo para datos longitudinales fue propuesto y estudiado por primera vez por Hoover, Rice, Wu y Yang (1998). Como fue el caso del suavizado LPK de datos independientes revisado en la Sección 3.2 del Capítulo 3, la idea principal de este método LPK es ajustar un polinomio de cierto grado a localmente. Sea un punto arbitrario en tiempo fijo. Supongamos que de -primeras derivadas continuas para algún entero expansión de Taylor, . Es decir, 37 tiene un máximo en . Entonces por la se puede aproximar localmente por un polinomio de grado Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde y . Sea con el estimador de , obtenido al minimizar el siguiente criterio de mínimos cuadrados ponderados (weighted least squared (WLS)): donde con una función del núcleo y un ancho de banda. Al igual que con el suavizado de datos independientes descrito en la Sección 3.2, el ancho de banda se utiliza para especificar el tamaño de la zonal local y el núcleo se utiliza para especificar el efecto de los puntos de datos de acuerdo a la distancia entre y . Por lo general, mientras más cerca la distancia está, más grande el efecto es. Para dar una expresión explícita para en la notación de matrices, sea la matriz de diseño y la matriz de peso para el -ésimo sujeto, respectivamente. Además, se denota y . Entonces el criterio WLS (4.4) se puede reescribir como donde con siendo el vector respuesta del -ésimo sujeto. Se deduce de minimizar (4.5) con respecto a Sea un vector unitario que -dimensional cuya -ésima entrada es 1 y las demás son 0. Entonces es fácil ver que a partir de las definiciones de que los estimadores de las derivadas son En particular, el estimador LPK para la función de media poblacional es . 38 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Al igual que con suavizado en datos i.i.d. que se describe en la Sección 3.2, puede ser tomado como 0 y 1 por simplicidad. Por ejemplo, cuando , un vector de , tenemos -dimensiones de ’s y el estimador LPK resultante es generalmente conocido como el denominado estimador del núcleo constante local de donde es el número de mediciones totales para todos los sujetos. A partir de (4.6), el estimador del núcleo constante local de tiene la siguiente expresión sencilla: Cuando , es decir, hay solo una medición por sujeto, el estimador (4.8) se reduce al estimador de datos i.i.d. en (3.9). El estimador (4.8) se llama un estimador del núcleo constante local ya que es igual al minimizador, En otras palabras, , del siguiente criterio WLS: es la mejor constante que se aproxima a en la zona local en lo que respecta a la minimización (4.9). Cuando , el estimador LPK asociado el estimador del núcleo lineal local de es generalmente conocido como . A partir de (4.6), el estimador del núcleo lineal local puede ser expresado como donde Del mismo modo, el estimador (4.10) se llama un estimador del núcleo lineal local ya que se obtiene mediante aproximación de función lineal 39 en una zona local utilizando una , es decir, minimizando el siguiente criterio WLS: Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Basado en los resultados de Hoover, Rice, Wu y Yang (1998), es fácil demostrar que cuando , bajo ciertas condiciones de regularidad, tenemos donde el término de primer orden en la expresión de se relaciona con la variación intra-sujeto solamente, mientras que el término de segundo orden se asocia con la variación entre-sujeto. De ello se desprende que las propiedades asintóticas de comparación a cuando limitados, la son diferentes cuando es limitada, en no es acotado (limitado). De hecho, cuando todos los son en (4.12) está dominada por el término de primer orden para que ; cuando todos los tienden a infinito, la dominada por el término de segundo orden para que . En particular, supongamos , tenemos está entonces como . En este caso, es -consistente. A partir de (4.12), el ancho de banda óptimo teórico que minimiza es del orden de cuando es limitada. Rice y Silverman (1991) propusieron un método de validación cruzada “dejar-un-sujeto-fuera” para la selección de un ancho de banda adecuado para datos longitudinales. Esta estrategia de selección de ancho de banda fue empleada por Hoover, Rice, Wu y Yang (1998). 4.2.2. Método del núcleo polinomial local GEE El método LPK-GEE fue propuesto y estudiado por Lin y Carroll (2000). Para el modelo NPM (4.2), basado en la notación como , , y definido en el apartado anterior, el asociado LPK-GEE es donde con trabajo especificado por el usuario. Cuando 40 y siendo una matriz de correlación de , el LPK-GEE (4.13) se puede Trabajo Fin de Máster en Estadística Aplicada 2010/2011 obtener a través de diferenciar el criterio WLS (4.5) con respecto a igual a 0. La solución del anterior LPK-GEE con respecto a y se establece lleva al llamado estimador LPK-GEE Los estimadores para y sus derivadas se pueden obtener fácilmente utilizando (4.7). La matriz de correlación de trabajo en la formulación LPK-GEE (4.13) se utiliza para tener en cuenta parcialmente la estructura de correlación subyacente de . En particular, cuando tomamos , tenemos de manera que la estructura de correlación verdadera se tiene en cuenta aunque esto es casi imposible en aplicaciones reales. El resultado contrario a la intuición de Lin y Carroll (2000) es que el más eficiente estimador LPK-GEE se obtiene haciendo caso omiso de la correlación intrasujeto en lugar de especificar correctamente la correlación intra-sujeto, es decir, suponiendo . Argumentaron que, asintóticamente, no hay necesidad de tomar en cuenta la correlación porque cuando el ancho de banda es reducido a 0 como el tamaño de la muestra , la posibilidad de que más de dos observaciones sean del mismo sujeto es pequeña y por lo tanto los datos utilizados en la estimación local son de sujetos diferentes que se supone que son independientes. Esto implica que la matriz de covarianza verdadera para los datos que contribuyen a la estimación local es asintóticamente diagonal. Por lo tanto, el estimador LPK-GEE “working independence” es asintóticamente óptimo (Lin y Carroll 2000). Esto está en contraste con la paramétrica habitual GEE (Liang y Zeger 1986) en que la mejor estrategia es utilizar la verdadera correlación de los datos. Como se mencionó en Hoover, Rice, Wu y Yang (1998), debemos interpretar los resultados asintóticos con precaución ya que en aplicaciones de datos reales, el ancho de banda adecuado seleccionado por un selector de ancho de banda no suele ser tan pequeño y los resultados asintóticos pueden no ser aplicables. En otras palabras, tomando adecuadamente en cuenta la correlación puede ser necesaria para análisis de datos de muestras finitas. Se puede observar que el método LPK-GEE utiliza el peso del núcleo para controlar los sesgos. Con el fin de reducir los sesgos, todos los datos localizados lejos 41 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 del punto de estimación se ponderan hacia abajo aunque estos datos pueden contener información útil debido a la correlación con los datos cerca del punto de estimación del mismo sujeto. Por lo tanto, la eficiencia de la estimación se puede perder ya que es difícil controlar los sesgos y reducir la varianza de forma simultánea. Para hacer frente a este problema, Wang (2003) propuso un procedimiento de dos pasos. La idea básica es la siguiente: Para utilizar de manera eficiente toda la información relacionada a un sujeto, una vez que un punto de datos de un sujeto o grupo se encuentra cerca del punto de estimación (por ejemplo, a ) y contribuye significativamente a la estimación local, todos los puntos de datos de este sujeto o grupo se utilizarán. Para evitar sesgos, las contribuciones de todos estos puntos de datos excepto el punto de datos cerca del punto de estimación local son a través de sus residuos. Se define con la -ésima fila como una matriz y 0 en otro caso. El procedimiento de dos pasos para el modelo NPM (4.2) puede ser descrito de la siguiente manera (Wang 2003): Paso 1. Obtener un estimador inicial consistente de , por ejemplo ejemplo, el estimador working independence puede ser tomado como Paso 2. Obtener la estimación final de , por ejemplo . Por . , resolviendo la ecuación estimada del núcleo ponderado donde el -ésimo elemento de es cuando del punto de tiempo ; y el -ésimo elemento de La estructura de medición con es estando a un margen cuando está diseñada de manera que, para un no está a un margen contribuye a la estimación local de , el residuo . cuyo tiempo de , en lugar de . Esto garantizará el estimador propuesto para ser asintóticamente insesgado en el peor caso. Para el modelo NPM (4.2), podemos expresar el estimador de dos pasos como 42 , Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde denota la de trabajo para el independence -ésima entrada de con siendo la matriz de covarianza -ésimo sujeto. Comparando (4.16) al estimador working , es decir, vemos que los datos correlacionados pero no en un margen de se incorporan en el estimador de dos pasos mediante la adición de sus residuos ponderados obtenidos a partir del primer paso, y el peso es su correlación (covarianza) hasta el -ésimo punto de datos que está en un margen de . La ventaja del estimador en dos pasos es una reducción de la varianza sin la ampliación de los sesgos al menos asintóticamente. El anterior método de dos pasos puede ser mejorado mediante la iteración de los dos pasos. Sin embargo, las investigaciones teóricas muestran, a la primera orden, que el estimador de dos pasos alcanza las mismas propiedades asintóticas que el estimador totalmente reiterado. Wang (2003) muestra que el estimador de dos pasos supera de manera uniforme el estimador “working independence” (Lin y Carroll 2000) en términos de la varianza asintótica si la covarianza verdadera se ha especificado correctamente. El método de dos pasos de Wang proporciona una forma inteligente de incorporar correlaciones intra-sujeto de datos longitudinales con el fin de utilizar eficientemente los datos disponibles para mejorar el estimador working independence. Sin embargo, el uso de un margen de residuos deben ser utilizados para estimar de para determinar si los datos o sus es totalmente arbitrario. No sabemos cómo esto afecta a la selección del ancho de banda. Con el fin de implementar el método de Wang, la covarianza de trabajo tiene que ser estimada separadamente. En la Sección 4.4, presentaremos el enfoque de modelado de efecto mixto para incorporar las correlaciones intra-sujeto de una manera más natural. Chen y Jin (2005) recientemente propusieron utilizar simplemente el método local de mínimos cuadrados generalizado (generalized least squares (GLS)) para explicar las correlaciones de datos longitudinales. Su método no es nada nuevo y se puede considerar como un caso especial del modelo de efectos mixtos localmente polinomial descrito en la Sección 4.4. Además, su método también requiere determinar 43 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 o estimar la matriz de covarianza separadamente, y una estimación precisa de la matriz de covarianza es generalmente difícil de obtener. 4.3. Modelo no paramétrico de efectos mixtos En la sección anterior, se revisaron dos populares técnicas no paramétricas para el ajuste del modelo NPM (4.2) para datos longitudinales. Un problema crítico de las técnicas anteriores es que las características de los datos longitudinales no se incorporan directamente en los estimadores y estimaciones de las funciones individuales no son consideradas. En muchos estudios longitudinales, estimación e inferencia de las funciones individuales son tan importantes como la función de media poblacional. En esta sección, extendemos el modelo NPM (4.2) a un modelo que incorpora la función de media poblacional y las funciones individuales de los datos longitudinales de forma simultánea. El nuevo modelo se puede expresar como donde como en el modelo NPM (4.2), modela la función de media poblacional suave de los datos longitudinales, también llamada función de efecto fijo; modela la salida de la -ésima función individual de la función de media poblacional , llamada la -ésima función de efectos individual (sujeto-especificado) o función de efecto aleatorio; y la función de error de medición que no se puede explicar ni por las funciones de efecto fijo o de efecto aleatorio. Es fácil ver que el término de error, , del modelo (4.2), ahora se convierte en dos términos, y , del nuevo modelo (4.18). El modelo (4.18) se le llama modelo no paramétrico de efectos mixtos (nonparametric mixed-effects (NPME)) ya que tanto las funciones de efecto fijo y efecto aleatorio son no paramétricas. Por conveniencia, a menudo asumimos que las funciones de efecto aleatorio no observables (SP)) subyacente son copias i.i.d. de un proceso suave (smooth process con función media 0 y función covarianza procesos de error de medición no observables ruido blanco incorrelado . Esto es, 44 , y que los son copias i.i.d. de un proceso de con función media 0 y función covarianza y . En este trabajo, cuando se trata Trabajo Fin de Máster en Estadística Aplicada 2010/2011 con inferencias bayesianas o basadas en la probabilidad, por lo general asumimos que los procesos asociados son Gausianos, es decir, Nótese que , y caracterizan los rasgos generales de una población longitudinal de modo que son “características de la población”, mientras que las funciones de efecto aleatorio y las funciones individuales son especificas de sujeto de modo que son “características de los individuos”. El objetivo principal del modelado NPME es estimar el efecto de la población y predecir los efectos individuales para un estudio longitudinal. Para simplificar, la función de media poblacional y las funciones individuales también se les conoce como curvas de la población e individual. Debido a que las cantidades objetivo , y son todas no paramétricas, el modelado NPME requiere una combinación de una técnica de suavizado y un enfoque de modelado de efectos mixtos. 4.4. Modelado de efectos mixtos polinomial local En el resto de este capítulo, se aplican técnicas de suavizado del núcleo polinomial local (local polynomial kernel (LPK)) al modelo NPME (4.18) para analizar datos longitudinales. Los principios de probabilidad local (Tibshirani y Hastie 1987) se utilizan para guiar el desarrollo de las metodologías. 4.4.1. Aproximación polinomial local Las cantidades objetivo , y se pueden estimar a través de la aproximación a nivel local en el modelo NPME (4.18) por un polinomio basado en el modelo LME. Esto se puede lograr a través de la expansión de Taylor de y en torno a una zona de interés. Supongamos que tienen un máximo de y en el modelo NPME (4.18) es suave, por ejemplo, -veces derivadas continuas en cada punto dentro de algún intervalo de interés, llamado , donde Taylor, para cualquier fijo, es un entero no negativo. Por la expansión de y en polinomio de grado -ésimo dentro de una zona de : 45 se puede aproximar por un Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde y De ello se sigue que, dentro de una zona de , el modelo NPME (4.18) puede ser razonablemente aproximado por un modelo LME: donde denota las medición y errores en el modelo de aproximación, y denota los efectos aleatorios. Bajo el supuesto Gausiano (4.19), Basado en el modelo NPME (4.18), los componentes de varianza y vector de efectos fijos y la matriz de covarianza . Nótese que como el son las funciones de la ubicación local , por conveniencia, las llamamos la versión localizada del vector de efectos fijos y la versión localizada de la matriz de covarianza, respectivamente, o en general los parámetros localizados. 4.4.2. Estimación por máxima verosimilitud local Tibshirani y Hastie (1987) propusieron por primera vez el método de máxima verosimilitud local. Staniswalis (1989) y Fan, Farmen y Gijbels (1998) estudiaron más a fondo las propiedades de los estimadores de máxima verosimilitud local del núcleo ponderado. En esta subsección, aplicamos el método de máxima verosimilitud local a 46 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 datos longitudinales en los que las correlaciones entre-sujeto normalmente existen (Park y Wu 2005). Supongamos que es un vector de observaciones obtenido del -ésimo sujeto en los puntos de tiempo densidad de probabilidad para y tiene una función de . Entonces la contribución del -ésimo sujeto al total del logaritmo de verosimilitud (log-likelihood) es , donde son vectores de parámetros desconocidos a estimar. El logaritmo de verosimilitud (log-likelihood) de las observaciones de todos los sujetos es entonces dado por Cuando son parámetros localizados, por ejemplo, la versión localizada del vector de efectos fijos y la versión localizada de la matriz de covarianza descritos en la subsección anterior, es más natural definir el logaritmo de verosimilitud (loglikelihood) local. Una forma de hacerlo es utilizar el logaritmo de verosimilitud (loglikelihood) del núcleo ponderado como se discute en Staniswalis (1989) y Fan, Farmen y Gijbels (1998), entre otros. Sea donde es una función del núcleo y banda. Sea es un ancho de la matriz diagonal de pesos del núcleo en la zona de para el -ésimo sujeto donde . Entonces el logaritmo de verosimilitud (log-likelihood) del núcleo ponderado se define por que es una función de A modo de ejemplo, si donde y y . , entonces el logaritmo de verosimilitud (log-likelihood) del núcleo ponderado se puede escribir como 47 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 que es una función de logaritmo de verosimilitud (log-likelihood) local estándar para datos independientes como se discute en Staniswalis (1989) y Fan, Farmen y Gijbels (1998). En el caso de no correlación intra-sujeto, el logaritmo de verosimilitud (loglikelihood) local ponderado (4.23) se puede escribir como Esto coincide con los casos considerados por Hoover, Rice, Wu y Yang (1998) y Lin y Carroll (2000). En general, la forma del logaritmo de verosimilitud (log-likelihood) local es un problema específico. La aplicación del peso del núcleo de diferentes maneras puede dar lugar a diferentes estimadores. En las subsecciones siguientes se muestran las aplicaciones del logaritmo de verosimilitud (log-likelihood) del núcleo ponderado (4.23) en diferentes escenarios para modelos NPME. 4.4.3. Estimación a partir de la verosimilitud local marginal En esta subsección, introducimos un método de verosimilitud local marginal para estimar la función de media poblacional aproximación del modelo LME (4.22), sea (Park y Wu 2005). Para la y supongamos que el supuesto Gausiano (4.19) se cumple. Entonces, la distribución marginal local de aproximación del modelo LME (4.22) es normal con una media de en la y varianza de . Por tanto se obtiene la función logaritmo de verosimilitud (loglikelihood) para : donde . Basándose en la expresión anterior y aplicando (4.23), podemos escribir la función logaritmo de verosimilitud (log-likelihood) marginal local para estimar 48 como Trabajo Fin de Máster en Estadística Aplicada 2010/2011 donde con la matriz de pesos del núcleo de residuos simétricamente. Para las matrices de varianza dadas con respecto a ponderando el vector , la diferenciación de (4.25) obtiene la estimación de la ecuación para : donde , ,y . Por tanto, un estimador de forma cerrada para Cuando es son conocidas, el estimador (4.27) se puede obtener ajustando el modelo siguiente: usando la función lm de R, donde tienen media 0 y varianza , . El modelo (4.28) es un modelo de regresión lineal estándar con la variable respuesta y la covariable El estimador local de probabilidad marginal de donde es un vector ,y . se puede encontrar como -dimensional con el primer elemento siendo 1 y 0 en otro lugar. Las matrices de covarianza se han supuesto que se conocen con el fin de obtener el estimador de forma cerrada (4.27). En la práctica, se suelen encontrar ejemplos reales donde las matrices de covarianza son desconocidas y deben estimarse. La estimación de las matrices de covarianza así como de las curvas de efecto aleatorio se introducirá en las siguientes secciones. Cuando 49 son Trabajo Fin de Máster en Estadística Aplicada 2010/2011 matrices diagonales conocidas, el estimador se reduce al estimador LPK-GEE propuesto por Lin y Carroll (2000). 4.4.4. Estimación a partir de la verosimilitud local conjunta En esta sección, un enfoque de estimación alternativa se propone para estimar los parámetros en el modelo localizado LME (4.22) con datos longitudinales (Park y Wu 2005). Bajo el supuesto Gausiano (4.19), tenemos y . Por tanto, el logaritmo de la función de densidad conjunta de es donde , . Puesto que aleatorios, el y son los vectores de parámetros de efectos no es un habitual logaritmo de verosimilitud (log-likelihood). Por conveniencia, a partir de ahora y a lo largo de este trabajo, llamamos un logaritmo de verosimilitud generalizado (generalized log-likelihood (GLL)) de . Entonces el logaritmo de verosimilitud generalizado localizado (localized generalized log-likelihood (LGLL)) en la zona de un tiempo puede considerarse de dos maneras diferentes: y donde ,y es un vector con todos los elementos ’s. En (4.31), los pesos del núcleo se aplican simétricamente sólo a los términos de residuos de la función GLL, mientras, en (4.32), los pesos del núcleo se aplican a toda la función GLL de (4.30) en la que los términos 50 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 de efecto aleatorio también se multiplican por los pesos del núcleo. Estos dos métodos diferentes de ponderación del núcleo dan lugar a dos estimadores diferentes. Minimizando el criterio LGLL (4.31) da lugar a estimadores exactos de efectos mixtos polinomial local (local polynomial mixed-effects (LPME)) propuestos por Wu y Zhang (2002a), y el modelado asociado que se denomina como el modelado LPME. Para determinados , y , resolver el problema de minimización (4.31) es equivalente a resolver la llamada ecuación del modelo mixto (Davidian y Giltinan 1995, Zhang, Lin, Raz y Sowers 1998): donde y se definen como en la subsección anterior, y ,y , . Entonces los resultados de los estimadores LPME para son donde En notación matricial, los estimadores anteriores se pueden escribir en una forma más compacta: donde . En las siguientes secciones, nos centraremos en estos estimadores. Del mismo modo podemos obtener los estimadores LPME basados en el criterio LGLL (4.32). De hecho, para determinados 51 , y , los estimadores LPME Trabajo Fin de Máster en Estadística Aplicada 2010/2011 obtenidos maximizando (4.31) y (4.32) se pueden escribir en una forma unificada, que es la solución a las siguientes ecuaciones normales del modelo mixto: donde y correspondientes a los estimadores derivados del criterio LGLL (4.31) y (4.32) respectivamente. Al resolver las ecuaciones normales anteriores (4.36), los estimadores LPME para y , y , bajo los supuestos de conocidos , se puede escribir como las siguientes formas cerradas: y donde . Por tanto, los estimadores de y se pueden encontrar como Uno puede notar que la diferencia entre el estimador a partir de verosimilitud local marginal (4.27) y el estimador (4.37) para el parámetro de la población se debe a diferentes funciones de peso. En las estimaciones de los parámetros de efectos aleatorios (4.38), el parámetro de la población puede ser reemplazado por cualquiera de los estimadores consistentes, tales como (4.27) o (4.37). De hecho, es un estimador de Bayes empírico o un mejor predictor lineal insesgado (best linear unbiased predictor (BLUP)), véase Davidian y Giltinan (1995) y Vonesh y Chinchilli (1996) para más detalles. Las estimaciones de los efectos aleatorios, nos permiten captar las curvas de respuesta individual, , que es una gran ventaja de los modelos NPME. También se puede ver fácilmente que, a partir de (4.36) con y , la aplicación de diferentes pesos del núcleo pueden dar lugar a 52 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 diferentes estimadores de verosimilitud local. Estos estimadores pueden tener diferentes propiedades y eficiencias. En los debates posteriores, centramos nuestra atención en los estimadores LPME (4.33). Sin embargo, las metodologías desarrolladas pueden similarmente aplicarse a los estimadores generales (4.37) y (4.38). Una de las ventajas de los modelos LPME es que se puede implementar fácilmente usando el software existente para los modelos LME. De hecho, para cada dado, los estimadores LPME (4.33) se pueden obtener a través de la adaptación operacionalmente del siguiente modelo LME estándar: donde y . El primero se trata como la variable de respuesta, mientras que el segundo se trata como las covariables de efectos fijos y efectos aleatorios. Ellos son en realidad la variable de respuesta localizada, las covariables de efectos fijos y efectos aleatorios en el punto de tiempo dado . Los estimadores LPME (4.33) y sus desviaciones estándar se pueden obtener entonces a través de adaptación (4.40) utilizando la función lme de R. 4.4.5. Estimación de los componentes A partir de (4.21) y (4.33), fácilmente se obtienen los estimadores LPME de , y sus -ésimas derivadas: para . En particular, LPME de y son los estimadores . El estimador de puede ser obtenido directamente mediante ajuste del modelo (4.40), y podemos estimar 53 y por el método de los momentos, por ejemplo, Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Basado en y , nuevas inferencias se pueden hacer. Por ejemplo, se pueden realizar análisis de componentes principales (principal component analysis (PCA)) sobre los datos longitudinales basados en la descomposición de valor singular de . Por otra parte, de hipótesis acerca de y se pueden utilizar para llevar a cabo pruebas . 4.5. Elección de buenos anchos de banda Para simplificar la discusión, en la sección anterior, el núcleo banda se supone que están dados y fijos. En la práctica, elegido. Cuando y el ancho de debe ser cuidadosamente es muy pequeño, los estimadores LPME resultantes suelen ser muy ruidosos, y cuando es demasiado grande, y y puede sobresuavizarse los datos ya que alguna información importante en los datos no está suficientemente capturada. En esta sección, hablaremos de cómo elegir buenos anchos de banda para los estimadores LPME. En primer lugar, por (4.33), es fácil ver que el conjunto de datos está involucrado en los estimadores de la población mientras que sólo los datos del sujeto están dedicados principalmente a la curva de los estimadores individuales para el -ésimo sujeto, es decir, banda para la estimación de . Por lo tanto, diferentes anchos de y deben ser utilizados para dar cuenta de las diferentes cantidades de datos en cuestión. Siguiendo Rice y Silverman (1991), el criterio de validación cruzada “dejar-un-sujeto-fuera” (subject cross-validation (SCV)) se puede utilizar para seleccionar un ancho de banda adecuado para la estimación . Para un conjunto de datos longitudinales, se sabe que, condicionado a un sujeto particular, digamos sujeto , las mediciones del sujeto son no correlacionadas e independientes; además, las mediciones de la función de media condicional es exactamente la curva individual . En este caso, el criterio usual de validación cruzada “dejar-un-sujeto-fuera” (subject cross-validation (SCV)), que tradicionalmente se propone para los datos no correlacionados e independientes, parece ser apropiado para la selección de buenos anchos de banda para la estimación de simplificar, un ancho de banda común para la estimación de 54 . Para para todos los sujetos Trabajo Fin de Máster en Estadística Aplicada 2010/2011 será utilizado porque el se supone que son del mismo proceso subyacente y por lo tanto se puede suponer que tienen suavidades similares en general. 4.5.1. Validación cruzada dejar-un-sujeto-fuera La puntuación (subject cross-validation (SCV)) se define como donde representa el estimador de basado en los datos con las mediciones del sujeto totalmente excluidos, y los pesos toman el número de mediciones de los sujetos individuales en cuenta. El ancho de banda SCV óptimo el minimizador de se define como . Rice y Silverman (1991) señaló que el (subject cross- validation (SCV)) es más apropiado para la estimación de la curva (media) de la población que el (point cross-validation (PCV)). Hart y Wehrly (1993) mostró que el ancho de banda SCV es consistente. Es computacionalmente intenso calcular el criterio SCV (4.43) ya que necesitamos repetidamente calcular el ajuste del modelo LPME veces para obtener ; cada ajuste tiene aproximadamente la misma cantidad de esfuerzo computacional como para calcular utilizando el conjunto de datos entero. Para superar este problema, una aproximación de banda o se puede utilizar. Para un ancho de dado, todos los datos se pueden utilizar para estimar , entonces o (4.34), es decir se obtiene aproximadamente a partir de la solución de forma cerrada (4.41) para la estimación de suprimiendo el término que implica el -ésimo sujeto. Esto es, Por lo tanto, la única aproximación requiere ajustar el modelo LPME una vez para calcular la puntuación SCV (4.43) para todos los sujetos, y por tanto el esfuerzo computacional es mucho menor. 55 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 4.5.2. Validación cruzada dejar-un-punto-fuera El criterio PCV se define como sigue. Supongamos todos los puntos distintos en tiempo de diseño para el conjunto de datos entero. Para un supongamos que los sujetos Sean tienen mediciones en los estimadores de tiempo de diseño dado, : cuando todos los datos en el punto en son excluidos. Entonces la puntuación (point cross-validation (PCV)) se define como donde los pesos banda PCV óptimo toman el número de mediciones en se define como el minimizador de en cuenta. El ancho de . 4.6. Aplicación a los datos de progesterona Los datos de progesterona introducidos en el Capítulo 1 han sido cuidadosamente estudiados por Brumback y Rice (1998) como una interesante ilustración de sus modelos ANOVA funcionales basados en la suavización spline. La necesidad de intensiva computación representa un gran desafío para su método. Fan y Zhang (2000) volvió a analizar los datos utilizando un método de dos pasos. En esta sección, aplicamos el método (nonparametric mixed-effects (NPME)) a este conjunto de datos como una ilustración de las metodologías introducidas en este capítulo. Los datos de progesterona consisten en dos grupos de curvas de progesterona del metabolito urinario (ver Figuras 1.1 y 1.2). Uno de ellos es conocido como el grupo no conceptivo con 69 ciclos menstruales de mujeres; el otro como el grupo conceptivo con 22 ciclos menstruales de mujeres. Aproximadamente el 8.3% de los datos eran faltantes. Los dos grupos de curvas están muy correlacionados con coeficientes de correlación por encima de 0.70 y 0.50, respectivamente. En este ejemplo de alta correlación y baja tasa de valores faltantes, vamos a aplicar el método NPME para estimar las curvas de la población y las curvas individuales. Debido a que los grupos conceptivo y no conceptivo parecen mostrar diferencias, deben analizarse por separado. Para ahorrar 56 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 espacio, sólo informamos de los resultados de los datos del grupo conceptivo o equivalentemente de los datos de progesterona conceptiva. Los detalles para ajustar el modelo NPME (4.18) a los datos de progesterona conceptiva son como sigue. Se utiliza la función lme de R para ajustar el modelo (4.18) localmente. En primer lugar, para estimar la función de efecto fijo o función de media poblacional utilizamos el estimador local de probabilidad marginal (4.29) de Park y Wu (2005). A continuación, para la estimación de la función de efecto aleatorio utilizamos una aproximación por un modelo semiparamétrico, pasamos del modelo (4.18) al siguiente modelo: . De esta manera, estimamos usando la ecuación (2.9) del Capítulo 2. En la Figura 4.1 podemos ver la representación de la estimación lineal paramétrica del modelo descrito anteriormente utilizando el método (maximun likelihood (ML)), dicha representación es la recta de puntos rojos. También se puede ver la representación de la estimación lineal local utilizando las estimaciones de las varianzas obtenidas por el método ML y usando , dicha representación es la curva de puntos azules. 0 -2 -4 log (prog) 2 4 Figura 4.1 Grupo conceptivo -5 0 5 dias 57 10 15 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 A continuación, para realizar la representación de las curvas individuales de los datos de progesterona conceptiva hemos seleccionado los sujetos 1, 4, 5 y 22 como se muestran en los paneles (a), (b), (c) y (d) de la Figura 4.2 respectivamente. Además, para cada sujeto, representamos la estimación lineal paramétrica que se muestra como curva (recta) de color rojo en el gráfico y la estimación lineal local no paramétrica que se muestra como curva de color azul en el gráfico. Figura 4.2 (a) Sujeto 1 2 -4 -4 0 5 10 -5 15 0 5 10 dias dias Figura 4.2 (c) Sujeto 5 Figura 4.2 (d) Sujeto 22 15 -4 0 -4 -2 -2 0 log (prog) 2 2 4 4 -5 log (prog) 0 log (prog) -2 0 -2 log (prog) 2 4 4 Figura 4.2 (b) Sujeto 4 -5 0 5 dias 10 15 -5 0 5 10 15 dias Por último, vamos a representar todas las curvas individuales de los datos de progesterona conceptiva utilizando la estimación lineal paramétrica como se muestra en la Figura 4.3 y usando también la estimación lineal local no paramétrica como se muestra en la Figura 4.4. 58 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 0 -4 -2 log (prog) 2 4 Figura 4.3 Grupo conceptivo con LME -5 0 5 10 15 dias 0 -2 -4 log (prog) 2 4 Figura 4.4 Grupo conceptivo con LLME y h_plug -5 0 5 dias 59 10 15 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Apéndice: Código en R generado para las aplicaciones ########## LECTURA DE LOS DATOS DE PROGESTERONA ########## datos0 <- read.table(file='br.txt', header=T, skip=15) ##### grupo <- 1, este caso es para el grupo no conceptivo grupo <- 2 if (grupo==1) datos <- datos0[datos0[,1]==0 & datos0[,6]==0,] ##### El grupo no conceptivo if (grupo==2) datos <- datos0[datos0[,1]==1 & datos0[,6]==0,] ##### El grupo conceptivo datos <- datos[,-c(1,2,6)] N <- nrow(datos) ##### Los datos deben ir ordenados según el efecto aleatorio (en este caso lo están) var.bi <- as.numeric(datos[,1]) ##### var.bi recoge el código de cada individuo en el análisis (ciclos) nis <- as.vector(table(var.bi)) ##### nis recoge el número de observaciones por ciclo (aproximadamente 24) q <- length(nis) ##### q es el número de individuos cum.nis <- cumsum(nis) ##### cum.nis son las sumas acumuladas de nis bi <- var.bi[cum.nis] ##### bi recoge los códigos distintos en var.bi ##### Variable de respuesta (y.ij = log progesterona = log (prog)) y.ij <- datos[,3] yis <- lapply(1:q, FUN=get.vec.i, vv=y.ij, cum.nis=cum.nis) ##### Variable explicativa (vec.x = dias) vec.x <- datos[,2] 60 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 ########## REPRESENTACIÓN GRÁFICA DE LOS DATOS ########## ########## Gráficos de curvas individuales (spaguetti plot o raw curves) ##### Debemos elegir grupo <- 2 para representar, en este caso, el grupo conceptivo plot(vec.x, y.ij, col='gray', main='Figura 1.1 (a) Grupo conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos para el grupo conceptivo sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]])) ##### Con esta orden unimos los puntos con líneas continuas para el grupo conceptivo ##### Debemos elegir grupo <- 1 para representar, en este caso, el grupo no conceptivo plot(vec.x, y.ij, col='gray', main='Figura 1.2 (a) Grupo no conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos para el grupo no conceptivo sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]])) ##### Con esta orden unimos los puntos con líneas continuas para dicho grupo ########## Gráficos de curvas medias con bandas de desviación estándar ##### Debemos elegir grupo <- 2 para representar, en este caso, el grupo conceptivo var.time <- as.numeric(datos[,2]) ##### var.time recoge los tiempos de todos los individuos en el análisis n.time <- as.vector(table(var.time)) ##### n.time recoge el número de observaciones por cada punto de tiempo distinto t <- length(n.time) ##### t es el número de puntos de tiempo distintos medias <- sapply(1:t, function(i) mean(y.ij[var.time==var.time[i]])) ##### medias son las medias de las observaciones en cada punto de tiempo distinto time <- c(-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15) ##### time son los puntos de tiempo plot(time, medias, xlim=c(-8,16), ylim=c(-2,3), main='Figura 1.1 (b) Grupo conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva media 61 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 lines(time, medias) ##### Con esta orden unimos los puntos de la curva media con línea negra continua longitud <- sapply(1:t, function(i) length(y.ij[var.time==var.time[i]])) ##### longitud es el número de observaciones en cada punto de tiempo distinto desviacion <- sapply(1:t, function(i) sd(y.ij[var.time==var.time[i]])/sqrt(longitud[i])) ##### desviacion es la desviación típica de las observaciones en cada punto de tiempo positiva <-sapply(1:t, function(i) medias[i]+2*desviacion[i]) ##### positiva son los puntos de la curva de desviación estándar (SD) positiva plot(time,positiva, xlim=c(-8,16), ylim=c(-2,3), main='Figura 1.1 (b) Grupo conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva SD positiva lines(time, positiva, col='red') ##### Con esta orden unimos los puntos de la curva SD positiva con línea roja continua negativa <-sapply(1:t, function(i) medias[i]-2*desviacion[i]) ##### negativa son los puntos de la curva de desviación estándar (SD) negativa plot(time,negativa, xlim=c(-8,16), ylim=c(-2,3),main='Figura 1.1 (b) Grupo conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva SD negativa lines(time, negativa, col='red') ##### Con esta orden unimos los puntos de la curva SD negativa en línea roja continua ##### Para superponer las tres curvas en un mismo gráfico, como puede verse en la ##### Figura 1.1 (b) y Figura 1.2 (b) debemos utilizar la orden points como sigue: points(time, medias, col='gray') ##### Con esta orden representamos los puntos de la curva media en color gris points(time, positiva) ##### Con esta orden representamos los puntos de la curva SD positiva points(time, negativa) ##### Con esta orden representamos los puntos de la curva SD negativa 62 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 ##### Debemos elegir grupo <- 1 para representar, en este caso, el grupo no conceptivo ##### En este caso todo es igual al caso del grupo conceptivo salvo lo siguiente: plot(time, medias, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva media plot(time, positiva, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva SD positiva plot(time, negativa, xlim=c(-8,16), ylim=c(-2,2), main='Figura 1.2 (b) Grupo no conceptivo', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos de la curva SD negativa ########## Gráficos de ajustes de modelos polinomiales a los datos ##### Debemos elegir grupo <- 1 puesto que el sujeto seleccionado pertenece al grupo ##### no conceptivo, dicho sujeto es el de código 5 (ciclo = 5) sujeto <- y.ij[var.bi==5] ##### sujeto recoge las respuestas (log progesterona) del sujeto seleccionado tiempo <- c(-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14) ##### tiempo son los puntos de tiempo del sujeto seleccionado plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (a) Lineal', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado x <- tiempo ##### Recodificamos tiempo como x para mayor comodidad y <- sujeto ##### Recodificamos sujeto como y para mayor comodidad ajuste1 <- lm(y~poly(x,1)) ##### ajuste1 recoge el ajuste a un polinomio de grado 1 xx <- seq(-8,16, length.out=250) lines(xx, predict(ajuste1, data.frame(x=xx))) ##### Con esta orden representamos el ajuste1 en el gráfico con línea continua 63 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (b) Cuadrático', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado ajuste2 <- lm(y~poly(x,2)) ##### ajuste2 recoge el ajuste a un polinomio de grado 2 lines(xx, predict(ajuste2, data.frame(x=xx))) ##### Con esta orden representamos el ajuste2 en el gráfico con curva continua plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (c) Cúbico', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado ajuste3 <- lm(y~poly(x,3)) ##### ajuste3 recoge el ajuste a un polinomio de grado 3 lines(xx, predict(ajuste3, data.frame(x=xx))) ##### Con esta orden representamos el ajuste3 en el gráfico con curva continua plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.1 (d) Cuartico', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado ajuste4 <- lm(y~poly(x,4)) ##### ajuste4 recoge el ajuste a un polinomio de grado 4 lines(xx, predict(ajuste4, data.frame(x=xx))) ##### Con esta orden representamos el ajuste4 en el gráfico con curva continua ########## Gráfico de tres ajustes lineales locales para el sujeto seleccionado library(KernSmooth) plot(tiempo, sujeto, xlim=c(-8,16), ylim=c(-1,3), main='Figura 3.2 Ajustes lineales locales', xlab='dias', ylab='log (prog)') ##### Con esta orden representamos los puntos del sujeto seleccionado anteriormente ajuste2 <- locpoly(x, y, bandwidth = 0.5) ##### ajuste2 recoge un ajuste lineal local con ancho de banda 0.5 lines(ajuste2, col='red') ##### Con esta orden representamos el ajuste2 en el gráfico con curva de color rojo 64 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 ajuste1 <- locpoly(x, y, bandwidth = 1.0249) ##### ajuste1 recoge un ajuste lineal local con ancho de banda 1.0249 lines(ajuste1, col='black') ##### Con esta orden representamos el ajuste1 en el gráfico con curva de color negro ajuste3 <- locpoly(x, y, bandwidth = 2.75) ##### ajuste3 recoge un ajuste lineal local con ancho de banda 2.75 lines(ajuste3, col='blue') ##### Con esta orden representamos el ajuste3 en el gráfico con curva de color azul ########## Estimación lineal paramétrica ##### Modelo sencillo: y.ij = m(t.ij) + b.i + e.ij suponiendo m() lineal library(nlme) lmxy <- lme(y.ij ~ vec.x, random= ~ 1 | var.bi, method="ML") ##### Nos quedamos con las estimaciones de las varianzas ### > lmxy ### Linear mixed-effects model fit by maximum likelihood ### Data: NULL ### Log-likelihood: -552.2634 ### Fixed: y.ij ~ vec.x ### (Intercept) vec.x ### 0.1276360 0.1460603 ### ### Random effects: ### Formula: ~1 | var.bi ### (Intercept) Residual ### StdDev: 0.7447658 0.6584556 ### ### Number of Observations: 514 ### Number of Groups: 22 65 (ESTAS SON LAS DESVIACIONES TÍPICAS) Trabajo Fin de Máster en Estadística Aplicada 2010/2011 ##### Por el método REML tenemos lo siguiente: lmxy <- lme(y.ij ~ vec.x, random= ~ 1 | var.bi, method="REML") ### > lmxy ### Linear mixed-effects model fit by REML ### Data: NULL ### Log-restricted-likelihood: -557.706 ### Fixed: y.ij ~ vec.x ### (Intercept) vec.x ### 0.1276368 0.1460601 ### ### Random effects: ### Formula: ~1 | var.bi ### (Intercept) Residual ### StdDev: 0.7628585 0.6591255 (ESTAS SON LAS DESVIACIONES TÍPICAS) ### ### Number of Observations: 514 ### Number of Groups: 22 m.LME <- as.vector(lmxy$fitted[,1]) ##### m.LME es la estimación de m(t.ij) points(vec.x, m.LME, col=2, cex=0.8, pch=21, bg=2) ##### Con esta orden representamos en el gráfico con puntos rojos la estimación lineal ##### de la curva de la población ##### Ahora calculamos las estimaciones de las curvas por individuos b.LME <- as.vector(random.effects(lmxy)[,1]) ##### b.LME son las estimaciones de b.i ##### Para el sujeto 1 tenemos: i <- 1 66 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (a) Sujeto 1', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### Para el sujeto 4 tenemos: i <- 4 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (b) Sujeto 4', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### Para el sujeto 5 tenemos: i <- 5 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (c) Sujeto 5', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### Para el sujeto 22 tenemos: i <- 22 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='red', main='Figura 4.2 (d) Sujeto 22', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### Si queremos pintarlas todas hacemos: plot(vec.x, y.ij, col='gray', main='Figura 4.3 Grupo conceptivo con LME', xlab='dias', ylab='log (prog)') sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]])) 67 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 sapply(1:q, function(i) { x.i <- vec.x[var.bi==bi[i]] y.i <- m.LME[var.bi==bi[i]]+b.LME[i] lines(x.i, y.i, col=i) } ) ########## Estimación lineal local sin considerar la correlación library(KernSmooth) ##### Ancho de banda (Bandwidth): h ##### Usamos un plug-in (Rupper, Sheather and Wand en KernSmooth) ##### para un modelo sin efectos aleatorios h.plug <- dpill(vec.x, y.ij) ### > h.plug ### [1] 1.294126 ########## Estimación lineal local considerando la correlación (marginal) ##### Utilizamos las estimaciones de las varianzas por ML (obtenida con lme) ##### En el grupo 2 o grupo conceptivo tenemos: v.b <- 0.7447658^2 v.e <- 0.6584556^2 ########## Calculo de la inversa de la raíz de la matriz de covarianzas zis <- lapply(1:q, FUN=get.vec.i, vv=vec.x, cum.nis=cum.nis) Vs <- Vs.calculos(q, nis, v.e, v.b, zis) library(Matrix) inv.Vis.half <- Vs$inv.Vis.half inv.V.half <- as.matrix(bdiag(inv.Vis.half)) 68 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 ##### El estimador según sugerencia de Park y Wu (2005) es el siguiente: m.LLME <- Local.marginal(h=h.plug, grid.x=vec.x, vec.x, y.ij, inv.V.half, deg=1) m.LLME <- as.vector(m.LLME) ##### Para representarlo gráficamente utilizamos la siguiente orden: points(vec.x, m.LLME, col='blue', pch=21, bg='blue') ##### Ahora calculamos las estimaciones de las curvas por individuos b.LLME <- estim.bi(m.LLME, nis, y.ij, v.b, inv.V) ##### b.LLME son las estimaciones de b.i ##### Para el sujeto 1 tenemos: i <- 1 x.i <- vec.x[var.bi==bi[i]] y.i <- m.LLME[var.bi==bi[i]]+b.LLME[i] plot(x.i, y.i, xlim=c(-8,16), ylim=c(-4,4), col='blue', main='Figura 4.2 (a) Sujeto 1', xlab='dias', ylab='log (prog)', type='l') points(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]], col='gray') ##### De la misma forma se tiene para los sujetos 4, 5 y 22 ##### Si queremos pintarlas todas hacemos: plot(vec.x, y.ij, col='gray', main='Figura 4.4 Grupo conceptivo con LLME y h_plug', xlab='dias', ylab='log (prog)') sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]])) sapply(1:q, function(i) { x.i <- vec.x[var.bi==bi[i]] y.i <- m.LLME[var.bi==bi[i]]+b.LLME[i] lines(x.i, y.i, col=i) } ) 69 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 ########## FUNCIONES CREADAS PARA EL ANÁLISIS ########## Local.marginal <- function(h, grid.x, vec.x, y.ij, inv.V.half, deg) { ##### Argumentos: bandwidth: h, evaluation point: x ##### Calcula la función media en la red de puntos grid.x ##### deg = 0 o 1 ##### k es la dimensión de la covariable vec.x, k=1 N <- length(y.ij) each.x <- function(x) { ##### Matriz de pesos kernel: W.hx diag.w <- h^(-1) * Kepa((vec.x-x)/h) W.hx.half <- diag(sqrt(diag.w),N) ##### Construimos la matriz de diseño ##### Matriz de diseño: X (dimensión N times 2) de vec.x nc <- 1+deg X <- matrix(1, nrow= N, ncol=nc) if (deg==1) X[,2:nc] <- vec.x - x ##### Transformación para local Xw <- inv.V.half %*% W.hx.half %*% X yw <- inv.V.half %*% W.hx.half %*% y.ij lmxy <- lm.fit(Xw, yw) beta.x <- lmxy$coefficient[1] } beta.ts <- sapply(grid.x, each.t) return(beta.ts) } ##### Ejemplo: ##### Local.marginal(h=2, grid.x=vec.x, vec.x, y.ij, inv.V.half, deg=1) 70 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 ##### Cálculos de matrices de varianzas-covarianzas (conocidas):inversas, raíces,.. ##### por bloques de tamaños n_i Vs.calculos <- function(q, nis, v.e, v.b, zis) { block.V <- function(i) { zi <- as.matrix(zis[[i]]) Vi <- v.b*zi %*% t(zi) + diag(v.e,nis[i]) Vi } Vis <- lapply(1:q, block.V) block.V <- function(i) { inv.Vi <- solve(as.matrix(Vis[[i]])) } inv.Vis <- lapply(1:q, block.V) block.V <- function(i) { Vi.half <- chol(as.matrix(Vis[[i]])) } Vis.half <- lapply(1:q, block.V) block.V <- function(i) { zi <- as.matrix(zis[[i]]) Vi <- v.b*zi %*% t(zi) + diag(v.e,nis[i]) inv.Vi <- solve(Vi) inv.Vi.half <- chol(inv.Vi) inv.Vi.half <- as.matrix(inv.Vi.half) inv.Vi.half 71 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 } inv.Vis.half <- lapply(1:q, block.V) ##### la función devuelve los resultados en bloques dentro de listas return(list(Vis=Vis,Vis.half=Vis.half,inv.Vis=inv.Vis,inv.Vis.half=inv.Vis.half)) } ##### Estimador local marginal de la función media con varianzas conocidas ##### Implementación usando la fórmula 4.28 de la página 49 get.vec.i <- function(pos, vv, cum.nis) ##### la función get.vec.i devuelve una lista con vectores por bloques { if (pos==1) desde <- 1 else desde <- cum.nis[pos-1]+1 hasta <- cum.nis[pos] vec.i <- vv[desde:hasta] return(vec.i) } ##### yis <- lapply(1:q, FUN=get.vec.i, vv=y.ij, cum.nis=cum.nis) ##### Epanechnikov kernel Kepa <- function(u) {(0.75*(1-(u)^2))*(abs(u)<1)} cum.nis <- cumsum(nis) mat.Z[1:nis[1],1] <- 1 for (i in 2:q) { desde <- cum.nis[i-1]+1 hasta <- cum.nis[i] mat.Z[desde:hasta,i] <- 1 } 72 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 var.bi <- mat.Z %*% b.i ##### length=N var.bi <- as.vector(var.bi) estim.bi <- function(mhat.ij, nis, y.ij, v.b, inv.V) { ##### calcula el efecto aleatorio en el modelo semiparamétrico ##### mhat.ij es la estimación del efecto fijo sobre las observaciones, length=n cum.nis <- cumsum(nis) q <- length(nis) mat.Z <- matrix(0,N,q) mat.Z[1:nis[1],1] <- 1 for (i in 2:q) { desde <- cum.nis[i-1]+1 hasta <- cum.nis[i] mat.Z[desde:hasta,i] <- 1 } Diag.Sigma.b <- diag(v.b,q) bhat <- Diag.Sigma.b %*% t(mat.Z) %*% inv.V %*% (y.ij-mhat.ij) return(as.vector(bhat)) } 73 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 Referencias 1. Akaike, H. (1973). Information theory and an extension of the entropy maximization principle. 2nd International Symposium on Information Theory, eds. B.N. Petrov and F. Csak, Kiado: Akademia. pp. 267-281. 2. Altman, N.S. (1991). Kernel smoothing of data with correlated errors. Journal of American Statistical Association, 85, 749-759. 3. Anderson, T.W. (1984). An Introduction to Multivariate Statistical Analysis. Wiley, New York. 4. Brumback, B. and Rice, J.A. (1998). Smoothing spline models for the analysis of nested and crossed samples of curves. Journal of American Statistical Association, 93, 961-994. 5. Cai, Z., Li, H. and Wu, H. (2003). Generalized random curve models for longitudinal data. Manuscript. 6. Chen, K. and Jin, Z. (2005). Local polynomial regression analysis of clustered data. Biometrika, 92, 59-74. 7. Cheng, M.Y., Fan, J. and Marron, J.S. (1997). On automatic boundary corrections. Annals of Statistics, 25, 1691-1708. 8. Davidian, M. and Giltinan, D.M. (1995). Nonlinear Models for Repeated Measurement Data. Chapman and Hall, London. 9. de Boor, C. (1978). A practical Guide to Splines. Springer-Verlag, New York. 10. Demidenko, E. (2004). Mixed Models: Theory and Applications. Wiley, New York. 11. Dempster, A.P., Rubin, D.B. and Tsutakawa, R.K. (1981). Estimation in covariance components models. Journal of American Statistical Association, 76, 341-353. 12. Diggle, P.J., Liang, K.Y. and Zeger, S.L. (1994). Analysis of Longitudinal Data. Oxford University Press, Oxford, U.K. 13. Diggle, P.J., Heagerty, P., Liang, K.Y. and Zeger, S.L. (2002). Analysis of Longitudinal Data (2nd ed.). Oxford University Press, Oxford, U.K. 74 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 14. Diggle, P.J., and Hutchinson, M.F. (1989). On spline smoothing with autocorrelated errors. Australian Journal of Statistics, 31, 166-168. 15. Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression. Marcel Dekker, New York. 16. Eubank, R.L. (1999). Nonparametric Regression and Spline Smoothing. Marcel Dekker, New York. 17. Fan, J. (1992). Design-adaptive nonparametric regression. Journal of American Statistical Association, 87, 998-1004. 18. Fan, J. (1993). Local linear regression smoothers and their minimax efficiency. Annals of Statistics, 21, 196-216. 19. Fan, J., Farmen, M. and Gijbels, I. (1998). Local maximum likelihood estimation and inference. Journal of Royal Statistical Society, Series B, 60, 591-608. 20. Fan, J. and Gijbels, I. (1992). Variable bandwidth and local linear regression smoothers. Annals of Statistics, 20, 2008-2036. 21. Fan, J. and Gijbels, I. (1996). Local Polynomial Modelling and its Applications. Chapman and Hall. London. 22. Fan, J. and Marron, J.S. (1994). Fast implementations of nonparametric curve estimators. Journal of Computational and Graphical Statistics, 3, 35-56. 23. Fan, J. and Zhang, J.-T. (2000). Two-step estimation of functional linear models with applications to longitudinal data. Journal of Royal Statistical Society, Series B, 62, 303-322. 24. Gasser, T., Müller, H.G. and Mammitzsch, V. (1985). Kernels for nonparametric curve estimation. Journal of Royal Statistical Society, Series B, 86, 665-672. 25. Guo, W. (2002a). Functional mixed-effects models. Biometrics, 58, 121-128. 26. Guo, W. (2002b). Inference in smoothing spline analysis of variance. Journal of Royal Statistical Society, Series B, 64, 887-889. 75 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 27. Green, P. and Silverman, B.W. (1994). Nonparametric Regression and Generalized Linear Models. Chapman and Hall, London. 28. Härdle, W. (1990). Applied Nonparametric Regression. Cambridge University Press, Boston. 29. Hart, J.D. (1991). Kernel regression estimation with time series errors. Journal of Royal Statistical Society, Series B, 53, 173-187. 30. Hart, J.D. and Wehrly, T.E. (1993). Consistency of cross-validation when the data are curves. Stochastic Processes and their Applications, 45, 351-361. 31. Harville, D.A. (1976). Extension of the Gauss-Markov theorem to include the estimation of random effects. Annals of Statistics, 4, 384-395. 32. Harville, D.A. (1977). Maximum likelihood approaches to variance component estimation and to related problems. Journal of American Statistical Association, 72, 320-340. 33. Hastie, T.J. and Loader, C. (1993). Local regression: automatic kernel carpentry (with discussion). Statistics Science, 8, 120-143. 34. Hoover, D.R., Rice, J.A., Wu, C.O., and Yang, L.P. (1998). Nonparametric smoothing estimates of time-varying coefficient models with longitudinal data. Biometrika, 85, 809-822. 35. Huang, J.Z., Wu, C.O. and Zhou, L. (2002). Varying-coefficient models and basis function approximations for the analysis of repeated measurements. Biometrika, 89, 111-128. 36. Jennrich, R.I. and Schluchter, M.D. (1986). Unbalanced repeated measures models with structured covariance matrices. Biometrics, 42, 805-820. 37. Jones, R.H. (1993). Longitudinal Data with Serial Correlation: A State-space Approach. Chapman and Hall, London. 38. Laird, N.M. and Ware, J.H. (1982). Random effects models for longitudinal data. Biometrics, 38, 963-974. 76 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 39. Laird, N.M., Lange, N. and Stram, D. (1987). Maximum likelihood computations with repeated measures: Application of the EM algorithm. Journal of American Statistical Association, 82, 97-105. 40. Liang, H., Wu, H. and Carroll, R.J. (2003). The relationship between virologic and immunologic responses in AIDS clinical research using mixed-effects varyingcoefficient semiparametric models with measurement error. Biostatistics, 4, 297-312. 41. Liang, K.Y. and Zeger S.L. (1986). Longitudinal data analysis using generalized linear models. Biometrika, 73, 13-22. 42. Lin, X. and Carroll, R.J. (2000). Nonparametric function estimation for clustered data when the predictor is measured without/with error. Journal of American Statistical Association, 95, 520-534. 43. Lin, X. and Carroll, R.J. (2001a). Semiparametric regression for clustered data using generalized estimating equations. Journal of American Statistical Association, 96, 10451056. 44. Lin, X. and Carroll, R.J. (2001b). Semiparametric regression for clustered data. Biometrika, 88, 1179-1185. 45. Lin, X. and Zhang, D. (1999). Inference in generalized additive mixed models by using smoothing splines. Journal of Royal Statistical Society, Series B, 61, 381-400. 46. Lindsey, J.K. (1993). Models for Repeated Measurements. Oxford University Press, Oxford, U.K. 47. Lindstrom, M.J. and Bates, D.M. (1990). Nonlinear mixed-effects models for repeated measures. Biometrics, 46, 673-687. 48. Longford, N.T. (1993). Random Coefficient Models. Oxford University Press, Oxford, U.K. 49. Marron, J.S. and Nolan, D. (1989). Canonical kernels for density estimation. Statistics and Probability Letters, 7, 195-199. 50. Müller, H.G. (1988). Nonparametric Regression Analysis of Longitudinal Data. Lecture Notes in Statistics. Springer-Verlag, New York. 77 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 51. Nadaraya, E.A. (1964). On estimating regression. Theory of Probability and its Applications, 9, 141-142. 52. Park, J.G. and Wu, H. (2005). Backfitting and local likelihood methods for nonparametric mixed-effects models with longitudinal data. Manuscript. 53. Pinheiro, J. and Bates, D. (2000). Mixed-effects Models in S and S-plus. SpringerVerlag. New York. 54. Ramsay, J.O. and Silverman, B.W. (1997). Functional Data Analysis. SpringerVerlag. New York. 55. Ramsay, J.O. and Silverman, B.W. (2002). Applied Functional Data Analysis. Springer-Verlag. New York. 56. Rice, J.A. and Silverman, B.W. (1991). Estimating the mean and covariance structure nonparametrically when the data are curves. Journal of Royal Statistical Society, Series B, 53, 233-243. 57. Rice, J.A. and Wu, C.O. (2001). Nonparametric mixed effects models for unequally sampled noisy curves. Biometrics, 57, 253-259. 58. Robinson, G.K. (1991). That BLUP is a good thing: the estimation of random effects (with discussions). Statistics Science, 6, 15-32. 59. Ruppert, D., Sheather, S.J. and Wand, M.P. (1995). An effective bandwidth selector for local least squares regression. Journal of American Statistical Association, 90, 12571270. 60. Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464. 61. Searle, S.R., Casella, G. and McCulloch, C.E. (1992). Variance Components. Wiley, New York. 62. Sheiner, L.B., Rosenberg, B. and Melmon, K.L. (1972). Modeling of individual pharmacokinetics for computer-aided drug dosage. Computers and Biomedical Research, 5, 441-459. 78 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 63. Sheiner, L.B. and Beal, S.L. (1980). Evaluation of methods for estimating population pharmacokinetic parameters. I. Michaelis-Menten model: routine pharmacokinetic data. Journal of Pharmacokinetics and Biopharmaceutics, 8, 553-571. 64. Shi, M., Weiss, R.E. and Taylor, J.M. (1996). An analysis of pediatric CD4 counts for acquired immune deficiency syndrome using flexible random curves. Applied Statistics, 45, 151-163. 65. Staniswalis, J.G. (1989). The kernel estimate of a regression function in likelihoodbased models. Journal of American Statistical Association, 84, 276-283. 66. Stone, C.J. (1984). An asymptotically optimal window selection rule for kernel density estimation. Annals of Statistics, 12, 1285-1297. 67. Tibshirani, R. and Hastie, T. (1987). Local likelihood estimation. Journal of American Statistical Association, 82, 559-567. 68. Verbeke, G. and Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. Springer-Verlag, New York. 69. Vonesh, E.F. and Chinchilli, V.M. (1996). Linear and Nonlinear Models for the Analysis of Repeated Measurements. Marcel Dekker, New York. 70. Wahba, G. (1985). A comparison of GCV and GML for choosing the smoothing parameter in the generalized spline smoothing problem. Annals of Statistics, 13, 13781402. 71. Wand, M.P. and Jones, M.C. (1995). Kernel Smoothing. Chapman and Hall, London. 72. Wang, N. (2003). Marginal nonparametric kernel regression accounting for withinsubject correlation. Biometrika, 90, 43-52. 73. Wang, N., Carroll, R.J. and Lin, X. (2005). Efficient semiparametric marginal estimation for longitudinal/clustered data. Journal of American Statistical Association, 100, 147-157. 74. Wang, Y. (1998a). Mixed-effects smoothing spline ANOVA. Journal of Royal Statistical Society, Series B, 60, 159-174. 79 Trabajo Fin de Máster en Estadística Aplicada 2010/2011 75. Wang, Y. (1998b). Smoothing spline models with correlated random errors. Journal of American Statistical Association, 93, 341-348. 76. Watson, G.S. (1964). Smooth regression analysis. Sankhya, 26, 101-116. 77. Welsh, A.H., Lin, X. and Carroll, R.J. (2002). Marginal longitudinal nonparametric regression: locality and efficiency of spline and kernel methods. Journal of American Statistical Association, 97, 482-493. 78. Wu, C.O. and Chiang, C.T. (2000). Kernel smoothing on varying coefficient models with longitudinal dependent variable. Statistica Sinica, 10, 433-456. 79. Wu, C.O., Chiang, C.T. and Hoover, D.R. (1998). Asymptotic confidence regions for kernel smoothing of a varying-coefficient model with longitudinal data. Journal of American Statistical Association, 93, 1388-1402. 80. Wu, H. and Zhang, J.-T. (2002a). Local polynomial mixed-effects models for longitudinal data. Journal of American Statistical Association, 97, 883-897. 81. Wu, H. and Zhang, J.-T. (2002b). The study of long-term HIV dynamics using semiparametric nonlinear mixed-effects models. Statistics in Medicine, 21, 3655-3675. 82. Yen, S. and Jaffe, R.B. (1991). Reproductive Endocrinology: Physiology, Pathophysiology, and Clinical Management. W.B. Saunders, Philadelphia. 83. Zhang, D., Lin, X., Raz, J. and Sowers, M. (1998). Semiparametric stochastic mixed models for longitudinal data. Journal of American Statistical Association, 93, 710-719. 84. Zhang, J.-T. and Fan, J. (2000). Minimax kernels for nonparametric curve estimation. Journal of Nonparametric Statistics, 12, 417-445. Además se recomiendan las siguientes publicaciones on-line y direcciones de internet: 1. http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm. 2. R: Página principal, descarga y documentación: http://www.r-project.org/. 80