REGRESIÓN NO PARAMÉTRICA EN R

Anuncio
REGRESIÓN NO PARAMÉTRICA EN R
REGRESIÓN NO PARAMÉTRICA EN R
Trabajo Fin de Máster
Máster en Estadística Aplicada
Autora: Nisa Boukichou Abdelkader
Tutora: María Dolores Martínez Miranda
Resumen
Dado el rápido avance que ha experimentado la Estadística Computacional en
las últimas décadas, hoy en día podemos agradecerle el desarrollo de diversos campos
dentro de la Estadística, que eran impensables dado que requerían costosos
procedimientos de cálculo. Un ejemplo de este tipo lo constituyen los enfoques no
paramétricos del Análisis de Regresión.
Las técnicas de Regresión No Paramétrica logran una mejor adaptación a los
datos disponibles, mediante la obtención de estimaciones más próximas a la curva de
regresión subyacente. Esto es posible usando la información suministrada directamente
desde los datos, sin formular rígidos modelos paramétricos.
En este trabajo nuestro objetivo ha sido el de explorar las técnicas de regresión
no paramétrica más habituales y las capacidades que R incorpora actualmente para su
aplicación práctica. En este sentido el trabajo se ha estructurado en tres capítulos. El
primero tiene como finalidad establecer los elementos teóricos fundamentales de la
regresión no paramétrica, desde la propia formulación del modelo.
De este modo para un problema general de regresión se definen dos vías se
solución. Una sería la regresión paramétrica o clásica que presenta la ventaja de ser más
sencilla y menos costosa desde el punto de vista computacional, pero que suele ser muy
poco flexible y de difícil adaptación en situaciones complejas.
Paralelamente y no necesariamente en contraposición (puesto que ambas pueden
ir de la mano) la denominada regresión no paramétrica. De esta última destacamos
fundamentalmente su flexibilidad, ya que permite una mejor adaptación a diversas
situaciones y problemas, si bien requiere de un elevado coste computacional y una
mayor complejidad desde el punto de vista teórico.
REGRESIÓN NO PARAMÉTRICA EN R
Una vez definido el contexto general y establecidas las características
particulares que perfilan el problema de regresión no paramétrica frente a los
planteamientos clásicos paramétricos, se procede a analizar algunas de las más
relevantes técnicas de este tipo. El tratamiento que se ha hecho de dichos métodos en
este trabajo, ha sido dirigido fundamentalmente hacia la práctica y concreto la práctica
con el software R. De este modo no se ha profundizado en aspectos teóricos de
complejidad como son los estudios de tipo asintótico. Bajo tal perspectiva se han
explorado métodos univariantes y multivariantes, perfilándose los denominados
métodos de regrésión polinomial local como una buena solución, dadas sus buenas
propiedades téoricas y sus deseables características de interpretabilidad y sencillez en la
práctica.
De forma sencilla se plantea también en este primer capítulo el conocido
problema de la dimensionalidad. Desde dicha motivación se introducen métodos que
permiten salvar dicho problema, como son los modelos de regresión aditivos no
paramétricos.
Dichos modelos se caracterizan fundamentalmente porque la naturaleza de los
efectos de las variables explicativas sobre la variable de respuesta se considera de forma
individual.
Esto
obviamente
permite
ganar
en
simplicidad
y
también
en
interpretabilidad.
Asociado a los métodos de regresión no paramétrica (univariantes o
multivariantes) se introduce uno de los problemas técnicos cruciales en la práctica, la
elección del parámetro de suavizado o ancho de banda que define la complejidad del
modelo. Desde el punto de vista téorico se formula el problema de selección y se
perfilan los distintos métodos diseñados para su selección automática. En concreto se
distingue entre los métodos basados en la metodología plug-in, los basados en el criterio
de validación cruzada (cross-validation) y los procedimientos basados en Bootstrap.
Una vez expuestos los elementos teóricos necesarios comienza el capítulo dos,
donde se hace un estudio profundo de los aspectos computacionales asociados a dichos
métodos. El software analizado es el entorno de análisis y programación estadística R y
en contreto algunos de los libros específicos de funciones, actualmente disponibles en la
web: http://cran.es.r-project.org, para la aplicación práctica de los métodos de regresión
no paramétricos.
Nuestra atención se ha centrado fundamentalmente en los libros kernSmooth,
locpol, locfit y sm, si bien existen funciones disponibles en otros libros (stats, monreg,
REGRESIÓN NO PARAMÉTRICA EN R
lokern, loess, lowess, np, psplines, etc.). Asociado a alguna aplicación de datos concreta
se ilustrará también el uso de alguna de estas funciones adicionales.
De estos libros de R se ha hecho una descripción casi exhaustiva, obviando sólo
en algunos casos partes que no corresponden a los objetivos concretos de este trabajo y
más concretamente de los métodos teóricos desarrollados en el capítulo primero. Hemos
de destacar que todo el trabajo aquí desarrollado está sujeto a la necesaria y continua
actualización, dado el rápido avance en esta materia computacional. En este sentido para
cada libro se ha especificado la versión utilizada incorporando dentro de la última (hasta
septiembre de 2009) versión de R.
Para finalizar este trabajo se desarrollan en el capítulo tres algunas aplicaciones
prácticas. Nos hemos centrado en modelos de regresión univariante, haciendo uso de
algunas de las funciones analizadas en el capítulo dos. Se han ilustrado los métodos de
regresión no paramétrica para distintos conjuntos de datos. Hemos querido realizar
dichas ilustraciones usando datos reales (disponibles en libros de R) y también mediante
ejercicios de simulación.
Con esto pretendemos iniciarnos en el método habitualmente usado en la
investigación para la validación práctica de las nuevas metodologías propuestas. En la
resolución de estos ejercicios prácticos hemos utilizado varias funciones disponibles
para el mismo problema. Esto nos ha permitido realizar conclusiones acerca de dichos
procedimientos.
A modo de conclusión podemos decir que este trabajo nos ha permitido un
acercamiento a los métodos de regresión no paramétrica más habituales con un enfoque
eminentemente práctico. Las ilustraciones desarrolladas con datos permiten explorar el
modo en que actualmente se puede trabajar en R, para dar soluciones al problema de
regresión no paramétrico.
Los métodos de regresión polinomial local ofrecen una sencilla vía de solución,
suficientemente documentada e implementada en diversos libros de R. No obstante
sigue siendo necesaria la incorporación de nuevas funciones, que permitan la
implementación de novedosas técnicas, que ocupan las publicaciones actuales en dicha
materia. Estamos seguros de que es cuestión de no mucho tiempo y entre nuestros
objetivos está el de intentar colaborar en dicha tarea. El inicio de este propósito se
traduce en el trabajo que actualmente tiene en sus manos.
Descargar