REGRESIÓN NO PARAMÉTRICA EN R REGRESIÓN NO PARAMÉTRICA EN R Trabajo Fin de Máster Máster en Estadística Aplicada Autora: Nisa Boukichou Abdelkader Tutora: María Dolores Martínez Miranda Resumen Dado el rápido avance que ha experimentado la Estadística Computacional en las últimas décadas, hoy en día podemos agradecerle el desarrollo de diversos campos dentro de la Estadística, que eran impensables dado que requerían costosos procedimientos de cálculo. Un ejemplo de este tipo lo constituyen los enfoques no paramétricos del Análisis de Regresión. Las técnicas de Regresión No Paramétrica logran una mejor adaptación a los datos disponibles, mediante la obtención de estimaciones más próximas a la curva de regresión subyacente. Esto es posible usando la información suministrada directamente desde los datos, sin formular rígidos modelos paramétricos. En este trabajo nuestro objetivo ha sido el de explorar las técnicas de regresión no paramétrica más habituales y las capacidades que R incorpora actualmente para su aplicación práctica. En este sentido el trabajo se ha estructurado en tres capítulos. El primero tiene como finalidad establecer los elementos teóricos fundamentales de la regresión no paramétrica, desde la propia formulación del modelo. De este modo para un problema general de regresión se definen dos vías se solución. Una sería la regresión paramétrica o clásica que presenta la ventaja de ser más sencilla y menos costosa desde el punto de vista computacional, pero que suele ser muy poco flexible y de difícil adaptación en situaciones complejas. Paralelamente y no necesariamente en contraposición (puesto que ambas pueden ir de la mano) la denominada regresión no paramétrica. De esta última destacamos fundamentalmente su flexibilidad, ya que permite una mejor adaptación a diversas situaciones y problemas, si bien requiere de un elevado coste computacional y una mayor complejidad desde el punto de vista teórico. REGRESIÓN NO PARAMÉTRICA EN R Una vez definido el contexto general y establecidas las características particulares que perfilan el problema de regresión no paramétrica frente a los planteamientos clásicos paramétricos, se procede a analizar algunas de las más relevantes técnicas de este tipo. El tratamiento que se ha hecho de dichos métodos en este trabajo, ha sido dirigido fundamentalmente hacia la práctica y concreto la práctica con el software R. De este modo no se ha profundizado en aspectos teóricos de complejidad como son los estudios de tipo asintótico. Bajo tal perspectiva se han explorado métodos univariantes y multivariantes, perfilándose los denominados métodos de regrésión polinomial local como una buena solución, dadas sus buenas propiedades téoricas y sus deseables características de interpretabilidad y sencillez en la práctica. De forma sencilla se plantea también en este primer capítulo el conocido problema de la dimensionalidad. Desde dicha motivación se introducen métodos que permiten salvar dicho problema, como son los modelos de regresión aditivos no paramétricos. Dichos modelos se caracterizan fundamentalmente porque la naturaleza de los efectos de las variables explicativas sobre la variable de respuesta se considera de forma individual. Esto obviamente permite ganar en simplicidad y también en interpretabilidad. Asociado a los métodos de regresión no paramétrica (univariantes o multivariantes) se introduce uno de los problemas técnicos cruciales en la práctica, la elección del parámetro de suavizado o ancho de banda que define la complejidad del modelo. Desde el punto de vista téorico se formula el problema de selección y se perfilan los distintos métodos diseñados para su selección automática. En concreto se distingue entre los métodos basados en la metodología plug-in, los basados en el criterio de validación cruzada (cross-validation) y los procedimientos basados en Bootstrap. Una vez expuestos los elementos teóricos necesarios comienza el capítulo dos, donde se hace un estudio profundo de los aspectos computacionales asociados a dichos métodos. El software analizado es el entorno de análisis y programación estadística R y en contreto algunos de los libros específicos de funciones, actualmente disponibles en la web: http://cran.es.r-project.org, para la aplicación práctica de los métodos de regresión no paramétricos. Nuestra atención se ha centrado fundamentalmente en los libros kernSmooth, locpol, locfit y sm, si bien existen funciones disponibles en otros libros (stats, monreg, REGRESIÓN NO PARAMÉTRICA EN R lokern, loess, lowess, np, psplines, etc.). Asociado a alguna aplicación de datos concreta se ilustrará también el uso de alguna de estas funciones adicionales. De estos libros de R se ha hecho una descripción casi exhaustiva, obviando sólo en algunos casos partes que no corresponden a los objetivos concretos de este trabajo y más concretamente de los métodos teóricos desarrollados en el capítulo primero. Hemos de destacar que todo el trabajo aquí desarrollado está sujeto a la necesaria y continua actualización, dado el rápido avance en esta materia computacional. En este sentido para cada libro se ha especificado la versión utilizada incorporando dentro de la última (hasta septiembre de 2009) versión de R. Para finalizar este trabajo se desarrollan en el capítulo tres algunas aplicaciones prácticas. Nos hemos centrado en modelos de regresión univariante, haciendo uso de algunas de las funciones analizadas en el capítulo dos. Se han ilustrado los métodos de regresión no paramétrica para distintos conjuntos de datos. Hemos querido realizar dichas ilustraciones usando datos reales (disponibles en libros de R) y también mediante ejercicios de simulación. Con esto pretendemos iniciarnos en el método habitualmente usado en la investigación para la validación práctica de las nuevas metodologías propuestas. En la resolución de estos ejercicios prácticos hemos utilizado varias funciones disponibles para el mismo problema. Esto nos ha permitido realizar conclusiones acerca de dichos procedimientos. A modo de conclusión podemos decir que este trabajo nos ha permitido un acercamiento a los métodos de regresión no paramétrica más habituales con un enfoque eminentemente práctico. Las ilustraciones desarrolladas con datos permiten explorar el modo en que actualmente se puede trabajar en R, para dar soluciones al problema de regresión no paramétrico. Los métodos de regresión polinomial local ofrecen una sencilla vía de solución, suficientemente documentada e implementada en diversos libros de R. No obstante sigue siendo necesaria la incorporación de nuevas funciones, que permitan la implementación de novedosas técnicas, que ocupan las publicaciones actuales en dicha materia. Estamos seguros de que es cuestión de no mucho tiempo y entre nuestros objetivos está el de intentar colaborar en dicha tarea. El inicio de este propósito se traduce en el trabajo que actualmente tiene en sus manos.