UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO Ingeniería informática y de sistemas Tema: Más allá de la linealidad Docente : M,Sc. Lauro Enciso Rodas Integrantes : - Gibaja Huayhua Juan Carlos 090215 - Gallegos Cjuiro Luis Alberto 184199 - Huaman Quispe Jemy Sandro 194519 - Lima Esperilla Katerine Candy 200334 - Lope Torres Marisol 171938 Semestre: 2021-1 MÁS ALLÁ DE LA LINEALIDAD El modelo lineal es relativamente fácil de interpretar y operar el y tiene ventajas sobre otros enfoques. Sin embargo, la regresión lineal puede tener limitaciones significativas. Hay otros métodos. Por ejemplo: Regresión Polinomial Funciones Escalonadas Splines Regresión Local Modelos Aditivos Regresión polinomial 7.1 Regresión polinomial La forma estándar de extender la regression lineal a entornos entre la relación de los predictors y si la respuesta no es lineal, se actualize el modelo lineal estándar: 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 , Con una función polynomial: 𝑦𝑖 = 𝛽0 + 𝛽, 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥i3 + ⋯ + 𝛽𝑑 𝑥id +𝜀𝑖 , …(7.1) dónde “𝜀𝑖 ” es el término de error. Este enfoque es conocido como regresión polynomial. Para grandes regresiones, una regresion polinomial nos permite producir una curva no lineal. Si vemos los coeficientes de la ecuación, podemos usar el metodo de minimos cuadrados por que solo es un modelo lineal con predictores 𝑥𝑖 , 𝑥𝑖2 , 𝑥i3 , … + 𝑥id . Entonces la curva puede volverse demasiado flexible y así tomar formas extrañas. Los datos de salario de la izquierda(en miles de dólares) es un polinomio de 4to grado en la función de la edad, está siendo ajustada por mínimos cuadrados. La curva representa un intervalo de confianza del 95%. En la derecha modelamos el salario de un evento >250 usando regression logística, nuevamente obtenemos un polinomio de 4to grado. La probabilidad que supere los 250 mil dólares se muestra en azul con intervalo de confianza del 95%. En la figura de la izquierda, este es un modelo de regresión lineal como cualquier otro, los coeficientes individuales no son de particular interés. En cambio, miramos toda la función ajustada a través de una cuadrítica de 62 valores para edades de 18 a 80 en para comprender la realción entre edad y salario. Veamos cómo surgen. Supongamos que hemos calculado el ajuste a u valor particular de edad, 𝑥0 : 𝑓መ 𝑥0 = 𝛽መ0 + 𝛽መ1 𝑥0 + 𝛽መ2 𝑋02 + 𝛽መ3 𝑋03 + 𝛽መ4 𝑋04 …(7.2) Cuál es la varianza del ajuste, es decir, Var𝑓መ 𝑥0 ? Mínimos cuadrados devuelve la varianza estimaciones para cada uno de los coeficientes ajustados. Así como las varianzas entre pares de estimaciones de coeficientes. El error estándar puntual estimado de 𝑓መ 𝑥0 es la raíz cuadrada de está varianza. Este cálculo se repite. En cada punto de referencia 𝑥0 , y graficamos la curva ajustada. La regresión logística puede predecir esta respuesta binaria usando funciones polinomiales de edad como predictores. E otras palabras, nos ajustamos al modelo. 𝑃𝑟 𝑦𝑖 > 250|𝑥𝑖 = …(7.3) ⅇ𝑥𝑝(𝛽0 + 𝛽, 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥i3 + ⋯ + 𝛽𝑑 𝑥id ) 1 + ⅇ𝑥𝑝(𝛽0 + 𝛽, 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥i3 + ⋯ + 𝛽𝑑 𝑥id ) Funciones de pasos 7.2 Funciones de pasos Usar funciones polinomiales de las entidades como predictores en un modelo lineal impone una estructura global sobre la función no lineal de X. Sin embargo, podemos usar funciones escalonadas para evitar una estructura tan global. Aquí la función de paso dividimos el rango de X en contenedores y ajustamos una constante diferente en cada 𝐶1, 𝐶2,⋯, 𝐶𝑘 contenedor. Tenemos los puntos de corte en el rango de X y luego construir K+1 funciones. Con mayor detalle, creamos puntos de corte 𝐶1, 𝐶2,⋯, 𝐶𝑘 en el rango de X, categórico y luego construir K + 1 nuevas variables 𝐶0, (X) = I(X<𝐶1, ), 𝐶1, (X) = I(𝐶1, ≤ X<𝐶2, ), 𝐶2, (X) = I(𝐶2, ≤ X<𝐶3, ), : (7.4) 𝐶K−1, (X) = I(𝐶𝐾−1 ≤ X<𝐶K, ), 𝐶K, (X) = I(𝐶𝐾 ≤ X), dónde I(·) es un función indicadora, que devuelve un 1 si la condición es verdadera, 0 si no lo es. Por ejemplo, I(𝐶𝐾 ≤ X) es igual a 1 si I(𝐶𝐾 ≤ X). Los datos de salario de la izquierda la curva sólida muestra el valor ajustado de una regresión de mínimos cuadrados del salario (en miles de dólares) usando funciones escalonadas de edad. Las curvas de puntos indican un intervalo de confianza estimado del 95%. Derecha: Modelamos el salario del evento binario > 250 usando regresión logística, nuevamente usando el paso funciones de la edad. La probabilidad posterior ajustada de que el salario supere los $ 250 mil mostrado, junto con un intervalo de confianza estimado del 95%. Aviso que para cualquier valor de X, 𝐶0, (X)+ 𝐶1, (X) + ... + 𝐶K, (X) = 1, ya que X debe estar exactamente en uno de los intervalos K + 1. Luego usamos mínimos cuadrados para ajustar un modelo lineal utilizando 𝐶1, (X), 𝐶2, (X), ..., 𝐶K, (X) como predictores: 𝑦𝑖 = 𝛽0 + 𝛽1 𝐶1 𝑥𝑖 + 𝛽2𝐶2 𝑥𝑖 + ⋯ + 𝛽K 𝐶K 𝑥𝑖 + 𝜀𝑖 , …(7.5) Para un valor dado de X, como máximo uno de 𝐶1, 𝐶2,⋯, 𝐶𝑘 puede ser distinto de cero.Note que cuando X<𝐶1, ,todos los predictores son 0, entonces 𝛽0 puede ser interpretado como el valor medio de Y para X<𝐶1, .En comparación, predice una respuesta de 𝛽0+𝛽jpara 𝐶j ≤ X <𝐶j+1 , entonces 𝛽jrepresenta el promedio aumento en la respuesta para X en 𝐶j ≤ X <𝐶j+1 en relación con X<𝐶1 . Un ejemplo de ajuste de funciones escalonadas a los datos de salario de la Figura 7.1 es que se muestra en el panel de la izquierda de la Figura 7.2. También ajustamos la regresión logística modelo. 𝑃𝑟 𝑦𝑖 > 250|𝑥𝑖 = …(7.6) ⅇ𝑥𝑝(𝛽0 + 𝛽1 𝐶1 (𝑥𝑖 ) + ⋯ + 𝛽𝐾 𝐶K (𝑥i)) 1 + ⅇ𝑥𝑝(𝛽0 + 𝛽1 𝐶1 (𝑥𝑖 ) + ⋯ + 𝛽𝐾 𝐶K (𝑥i )) Funciones básicas 7.3 Funciones básicas Los modelos de regresión polinomial y constante por partes son, casos especiales de función de base. La idea es tener funciones o transformaciones que se pueden aplicar a una variable X: 𝑏1, (X)+ 𝑏2, (X) + ... + 𝑏K, (X) . En lugar de ajustar un modelo lineal en X, nos ajustamos al Modelo. 𝑦𝑖 = 𝛽0 + 𝛽1 𝑏1 𝑥𝑖 + 𝛽2 𝑏2 𝑥𝑖 + ⋯ + 𝛽K𝑏K 𝑥𝑖 + 𝜀𝑖 , …(7.7) Tenga en cuenta que las funciones de base 𝑏1, . , 𝑏2, (. ) , ... , 𝑏K, (. ) son fijos y conocidos. (En otras palabras, elegimos las funciones con anticipación). Para polinomios regresión, las j funciones base son 𝑏𝐽 𝑋𝐼 = 𝑥𝑖 , y para constante por partes funciones son 𝑏j, 𝑋𝐼 =I(𝐶𝑗 ≤ 𝑋𝑖 <𝐶J+1, ). Podemos pensar en (7.7) como un modelo lineal estándar con predictores 𝑏1 (𝑋i, )+ 𝑏2 (𝑋i, ) + ... + 𝑏𝐾 (𝑋i, ) Por tanto, podemos usar mínimos cuadrados para estimar los coeficientes de regresión desconocidos en (7.7) Es importante destacar que esto significa que todas las herramientas de inferencia para modelos lineales que se analizan en el Capítulo 3, como los errores estándar para las estimaciones de coeficientes y los estadísticos F para la significancia general del modelo, están disponibles en esta configuración. Hasta ahora hemos considerado el uso de funciones polinomiales y funciones constantes por partes para nuestras funciones base; sin embargo, son posibles muchas alternativas. Por ejemplo, podemos usar wavelets o series de Fourier para construir funciones de base. En la siguiente sección, investigamos una opción muy común para una función base:splines de regresión. Regresión de Splines 7.4 Regresión de Splines Se trata de una extensión de la regresión polinómica y de las funciones de paso que consigue una mayor flexibilidad. Consiste en dividir el rango del predictor X en K subintervalos. 7.4.1 Polinomios por partes En lugar de ajustar un polinomio de alto grado en todo el rango de X, regresión polinomial por partes implica ajustar polinomios de bajo grado separados sobre diferentes regiones de X. Por ejemplo, un polinomio cúbico por partes funciona ajustando un modelo de regresión cúbica de la forma 𝑦𝑖=𝛽0+𝛽1 𝑥𝑖+ 𝛽2 𝑥𝑖2+𝛽3 𝑥𝑖3 +𝜀𝑖 (7.8) donde los coeficientes 𝛽0, 𝛽1, 𝛽2, y 𝛽3 difieren en diferentes partes de la gama de X. Los puntos donde cambian los coeficientes se llaman nudos. Por ejemplo, un cúbico a trozos sin nudos es solo un polinomio cúbico estándar, como en (7.1) con D = 3. Un polinomio cúbico a trozos con un solo nudo en un punto C toma la forma 𝑦𝑖 2 3 𝛽01 +𝛽11 𝑥𝑖+ 𝛽21 𝑥𝑖 +𝛽31 𝑥𝑖 +𝜀𝑖 𝛽02 +𝛽12 𝑥𝑖+ 𝛽22 𝑥𝑖2+𝛽32 𝑥𝑖3 +𝜀𝑖 si 𝑥𝑖< C; si 𝑥𝑖 ≥ 𝐶; En otras palabras, ajustamos dos funciones polinomiales diferentes a los datos, una en el subconjunto de las observaciones con 𝑥𝑖 < C, y uno en el subconjunto de las observaciones con 𝑥𝑖 ≥ C. La primera función polinomial tiene coeficientes 𝛽01 , 𝛽11 , 𝛽21, 𝛽31, y el segundo tiene coeficientes 𝛽02, 𝛽12 , 𝛽22, 𝛽32 . Cada una de estas funciones polinomiales se puede ajustar usando mínimos cuadrados aplicados a funciones simples del predictor original. El uso de más nudos conduce a un polinomio por partes más flexible. En general, si colocamos K diferentes nudos en toda la gama de X, entonces terminaremos encajando K + 1 polinomios cúbicos diferentes. Tenga en cuenta que no es necesario utilizar un polinomio cúbico. Por ejemplo, podemos ajustar funciones lineales por partes. De hecho, nuestras funciones constantes a trozos de la sección 7.2 son polinomios a trozos de grado 0. 7.4.2 Restricciones y splines El panel superior izquierdo de la Figura 7.3 parece incorrecto porque la curva ajustada es demasiado flexible. Para solucionar este problema, podemos ajustar un polinomio a trozos bajo la restricción que la curva ajustada debe ser continua. Figura 7.3. Varios polinomios por partes se ajustan a un subconjunto de la Sueldo datos, con un nudo en edad = 50. Arriba a la izquierda: Los polinomios cúbicos no están restringidos. Parte superior derecha: Los polinomios cúbicos están restringidos a ser continuos en edad = 50.Abajo a la izquierda: Los polinomios cúbicos están obligados a ser continuos y a tener una primera y una segunda derivadas continuas. Abajo a la derecha: Se muestra una spline lineal, que está limitada a ser continua En otras palabras, no puede haber un salto cuando edad = 50. La gráfica superior derecha de la Figura 7.3 muestra el ajuste resultante. Esto se ve mejor que el gráfico superior izquierdo, pero la combinación en forma de V parece antinatural. En el gráfico inferior izquierdo, hemos agregado dos restricciones adicionales: ahora tanto la primera como la segunda derivados de los polinomios por partes son continuos en edad = 50. En otras palabras, estamos requiriendo que el polinomio por partes no solo sea continuo cuando edad = 50, pero también muy liso. Cada restricción que imponemos a los polinomios cúbicos a trozos libera efectivamente un grado de libertad, al reducir la complejidad del ajuste polinomial a trozos resultante Entonces, en la gráfica superior izquierda, estamos usando ocho grados de libertad, pero en la gráfica inferior izquierda impusimos tres restricciones (continuidad de la primera derivada y continuidad de la segunda derivada) y así nos quedamos con cinco grados de libertad. La curva en la parte inferior izquierda la trama se llama interpolación cúbica. En general, una spline cúbica con K nudos utiliza un total de 4 + K grados de libertad. En la Figura 7.3, el gráfico inferior derecho es un spline lineal, que es continuo en edad = 50. Por lo tanto, se obtiene una spline lineal ajustando una línea en cada región del espacio predictor definido por los nodos, lo que requiere continuidad en cada nudo. 7.4.3 La representación de la base de splines Una spline cúbica con K los nudos se pueden modelar como 𝑦𝑖=𝛽0 +𝛽1𝑏1 𝑥𝑖+ 𝛽2 𝑏2 𝑥𝑖 + … + 𝛽𝑘+3 𝑏𝑘+3 (𝑥𝑖 )+𝜀𝑖 (7.9) para una elección adecuada de las funciones básicas 𝑏1 , 𝑏2 ,. . . , 𝑏𝑘+3. . El modelo (7.9) se puede ajustar usando mínimos cuadrados. Así como había varias formas de representar polinomios, también hay muchas formas equivalentes de representar splines cúbicos usando diferentes opciones de funciones base en (7.9) La forma más directa de representar una spline cúbica usando (7.9) es comenzar con una base para un polinomio cúbico, es decir, x, 𝑥2 , 𝑥3 − y luego agrega uno base de potencia truncada función por nudo. Una función de base de potencia truncada se define como H(x, ξ)=(𝑥 − ξ)3 = (𝑥 − ξ)3 if x> ξ 0 otherwise (7.10) dónde ξ es el nudo. Se puede demostrar que agregando un término de la forma 𝛽4 h(x, ξ) al modelo (7.8) para un polinomio cúbico conducirá a una discontinuidad solo en la tercera derivada en ξ; la función permanecerá continua, con primera y segunda derivadas continuas, en cada uno de los nudos. En otras palabras, para ajustar una spline cúbica a un conjunto de datos con K nudos, realizamos regresión de mínimos cuadrados con una intersección y 3+K predictores, de la forma 𝑥1 , 𝑥2 , 𝑥3 , h(X, ξ1 ), h(X, ξ2 ),. . . , h(X, ξ𝑘 ), dónde ξ1 ,. . . , ξ𝑘 son los nudos. Esto equivale a estimar un total de K + 4 coeficientes de regresión; por esta razón, ajustando un spline cúbico con K usos de nudos K+4 grados de libertad. Desafortunadamente, las splines pueden tener una gran variación en el rango externo de los predictores, es decir, cuando X adquiere un valor muy pequeño o muy grande. Como también podemos ver que esta restricción adicional significa que los splines naturales generalmente producen estimaciones más estables en los límites La figura 7.4 muestra un ajuste al Sueldo datos con tres nudos. Vemos que las bandas de confianza en la región límite parecen bastante salvajes. A spline natural es una spline de regresión con adicional restricciones de límite. 7.4.4 Elección del número y ubicación de los nudos Cuando colocamos una spline, ¿dónde debemos colocar los nudos? La spline de regresión es más flexible en regiones que contienen muchos nodos, porque en esas regiones los coeficientes polinomiales pueden cambiar rápidamente. Por lo tanto, una opción es colocar más nudos en lugares donde creemos que la función puede variar más rápidamente y colocar menos nudos donde parece más estable. Si bien esta opción puede funcionar bien, en la práctica es común colocar los nudos de manera uniforme Esto se concretó solicitando cuatro grados de libertad. El argumento por el cual cuatro grados de libertad conducen a tres nudos interiores es algo técnico. ¿Cuántos nudos deberíamos usar o, equivalentemente, cuántos grados de libertad debería contener nuestra spline? Una opción es probar diferentes números de nudos y ver cuál produce la mejor curva. Un enfoque algo más objetivo es usar la validación cruzada. Con este método, eliminamos una parte de los datos (digamos, el 10%), ajustamos una spline con un cierto número de nudos a los datos restantes y luego use la spline para hacer predicciones para la parte retenida. La figura 7.6 muestra errores cuadráticos medios con validación cruzada de diez veces para splines con varios grados de libertad ajustados a la Sueldo datos. El panel de la izquierda corresponde a una spline natural y el panel de la derecha a una spline cúbica. Los dos métodos producen resultados casi idénticos, con una clara evidencia de que un ajuste de un grado (una regresión lineal) no es adecuado. Ambas curvas se aplanan rápidamente y parece que tres grados de libertad para el spline natural y cuatro grados de libertad para el spline cúbico son bastante adecuados. 7.4.5 Comparación con la regresión polinomial Las splines de regresión a menudo dan resultados superiores a la regresión polinomial. Esto se debe a que, a diferencia de los polinomios, que deben usar un alto grado (exponente en el término monomial más alto), para producir ajustes flexibles, las ranuras introducen flexibilidad aumentando el número de nudos pero manteniendo el grado fijo. Generalmente, este enfoque produce estimaciones más estables. Las estrías también nos permiten colocar más nudos y, por lo tanto, flexibilidad, sobre las regiones donde la función F parece estar cambiando rápidamente, y hay menos nudos donde F parece más estable. La figura 7.7 compara una spline cúbica natural con 15 grados de libertad con un polinomio de grado 15 en el Sueldo conjunto de datos. La flexibilidad adicional en el polinomio produce resultados no deseados en los límites, mientras que el spline cúbico natural todavía proporciona un ajuste razonable a los datos. 7.5 Suavizado de Splines Descripción General Al ajustar una curva suave a un conjunto de datos, lo que realmente queremos hacer es encontrar alguna función, digamos g (x), que se ajuste bien a los datos observados. Queremos que 𝑅𝑆𝑆 = n i=1 yi − g x 2 sea pequeño. 𝑔 es suave (suavizado de spline) si minimiza: 𝑛 𝑖=1 𝑦𝑖 − 𝑔 𝑥𝑖 2 + 𝜆∫ 𝑔′′ 𝑡 2 𝑑𝑡 7.11 Descripción General La ecuación 7.11 toma la formulación "Pérdida + Penalización" 𝑛 𝑖=1 𝜆∫ 𝑔′′ 𝑦𝑖 − 𝑔 𝑥𝑖 2 es una función de pérdida 𝑡 2 𝑑𝑡 un término de penalización La primera derivada 𝑔′(𝑡) mide la pendiente de una función en 𝑡, y la segunda derivada corresponde a la cantidad en que cambia la pendiente(rugosidad). 𝜆∫ 𝑔′′ 𝑡 2 𝑑𝑡 anima a 𝑔 a ser suave. λ controla la compensación de sesgo-varianza del spline de suavizado. Descripción General La función 𝑔(𝑋) que minimiza (7.11): Es un polinomio cúbico a trozos con nudos en los valores únicos de 𝑋1, . . . , 𝑋𝑛 y derivadas primera y segunda continuas en cada nudo. Es lineal en la región fuera de los nudos extremos. Es una versión de tal spline cúbico natural, donde el valor del parámetro de ajuste 𝜆 en (7.11) controla el nivel de contracción. Elección del parámetro de suavizado 𝜆 El parámetro de ajuste 𝜆 controla la rugosidad de la ranura de suavizado y, por lo tanto, también los grados efectivos de libertad. Es posible demostrar que como λ aumenta de 0 a ∞ , los grados efectivos de libertad, que escribimos 𝑑𝑓𝜆, disminuir de n a 2. 𝑑𝑓𝜆 es una medida de la flexibilidad de la spline de suavizado: cuanto más alta es, más flexible . La definición de grados de libertad efectivos es algo técnica. Elección del parámetro de suavizado 𝜆 𝑔ො es la solución a (7.11) para una elección particular de 𝜆 𝑔ො es un 𝑛-vector que contiene los valores ajustados de la spline de suavizado en los puntos de entrenamiento 𝑋1, . . . , 𝑋n. que el vector de valores ajustados al aplicar unaLa ecuación 7.12 indicaspline de suavizado a los datos se puede escribir como una matriz 𝑆𝜆 de 𝑛 × 𝑛 Multiplicado por el vector de respuesta. Los grados efectivos de libertad se definen como 𝑑𝑓𝜆 = σ𝑛𝑖=1 𝑆𝜆 𝑖𝑖 (7.13) la suma de los elementos diagonales de la matriz 𝑆𝜆 . Elección del parámetro de suavizado 𝜆 Tenemos que elegir el valor de 𝜆 Una posible solución a este problema sea la validación cruzada. El error de validación cruzada “sin dejar fuera” (LOOCV) se puede calcular de manera muy eficiente para suavizar splines, esencialmente con el mismo costo que calcular un solo encajar, utilizando la siguiente fórmula: 𝑛 −𝑖 𝑦𝑖 − 𝑔ො𝜆 𝑅𝑆𝑆𝑐𝑣 𝜆 = 𝑖=1 2 𝑥𝑖 𝑛 = 𝑖=1 𝑦𝑖 −𝑔ො 𝜆 𝑥𝑖 2 1− 𝑆𝜆 𝑖𝑖 Elección del parámetro de suavizado 𝜆 −𝑖 La notación 𝑔ො𝜆 𝑥𝑖 indica el valor ajustado para este spline de suavizado evaluado en 𝑋𝑖 . A diferencia de,𝑔ො𝜆 𝑥𝑖 indica que la función de suavizado de spline se ajusta a todas las observaciones de entrenamiento que se evalúa en 𝑥𝑖 . Esta notable fórmula dice que podemos calcular cada una de estos ajustes únicos usando solo 𝑔ො𝜆 ,que es el ajuste original a todos de los datos. La figura 7.8 muestra los resultados de ajustar un spline de suavizado al Sueldo datos. La curva roja indica el ajuste obtenido al especificar previamente que nos gustaría un spline suavizado con 16 grados de libertad efectivos (arbitraria). La curva azul es la spline de suavizado obtenida cuando 𝜆 se elige mediante LOOCV (El error de validación cruzada sin dejar fuera); en este caso, el valor de 𝜆 resultados elegidos en 6.8 grados de libertad efectivos (calculados usando (7.13)). Regresión Local 7.6 Regresión Local La Regresión local es un enfoque para ajustar funciones no lineal flexible, ajustando una función lineal en 𝑥0 , Ponderada sólo por observaciones de entrenamiento cercanas. La idea de regresión local se puede generalizar de muchas formas diferentes. En un entorno con múltiples funciones una muy útil general. La generalización implica ajustar un modelo de regresión lineal múltiple que es global en algunas variables, pero local en otras, como el tiempo. Tal coeficiente variable Figura 7.9. Regresión local ilustrada en algunos datos simulados, donde la curva azul representa 𝑓(𝑥) a partir de la cual se generaron los datos, y la curva naranja claro corresponde a la estimación de regresión local 𝑓(𝑥). Los puntos de color naranja son locales al punto de destino 𝑥0 , representado por la línea vertical naranja. La forma de campana amarilla superpuesta en el gráfico indica los pesos asignados a cada punto, disminuyendo a cero con la distancia desde el punto objetivo. El ajuste 𝑓 𝑥0 a 𝑥0 se obtiene ajustando una regresión lineal ponderada(segmento de línea naranja) y utilizando el valor ajustado en X0 (punto sólido naranja) como estimación 𝑓 𝑥0 . Algoritmo 7.1. Regresión local en X= 𝑥0 𝑘 1.- Reúna la fracción 𝑠 = de puntos de entrenamiento cuyo 𝑥𝑖 𝑛 están más cerca de 𝑥0 . 2.- Asignar un peso Ki0 =K(xi, x0) a cada punto de esta vecindad, de modo que el punto más alejado de x0 tiene peso cero y el más cercano obtienen un peso más Alto. 3.- Ajuste un regresión de mínimos cuadrados ponderados de el 𝑦𝑖 sobre el 𝑋𝑖 utilizándolos pesos antes mencionados, encontrando 𝛽0 y 𝛽1 que minimizan 𝑛 𝑖=1 𝑘𝐼0 𝑦𝑖 − 𝐵0 − 𝐵1𝑥𝑖 2 …(7.14) 4. El valor ajustado en 𝑋0 es dado por 𝐹 𝑥0 = 𝛽0 + 𝛽1 𝑥0 Las opciones para la regresión local son: la elección de los pesos (K); si se ajusta una regresión lineal, constante o cuadrática; y la elección del span (s = k/n). El intervalo controla la flexibilidad del spline. Cuanto más pequeño sea el intervalo, más ondulado será el ajuste, cuanto más grande sea el intervalo, más lineal será (el intervalo por defecto). Modelo Aditivos Generalizados 7.7 Modelo Aditivos Generalizados Los modelos aditivos generalizados (GAM) proporcionan un marco general para ampliar un modelo lineal estándar permitiendo funciones no lineales de cada una de las variables mientras se mantiene la aditividad. Los modelos aditivos generalizados (GAM) proporcionan un marco general para extender un modelo lineal estándar al permitir funciones no lineales de cada una de las variables, mientras se mantiene la aditividad. Al igual que los modelos lineales, los GAM se pueden aplicar con una respuesta cuantitativa en la Sección 7.7.1 y luego con una respuesta cualitativa en la Sección 7.7.2. Figura 7.10. Ajustes lineales locales al Sueldo datos. El intervalo especifica la fracción de los datos utilizados para calcular el ajuste en cada punto de destino. 7.7.1 GAM para problemas de regresión Una forma natural de extender el modelo de regresión lineal múltiple 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑃 𝑥𝑖𝑃 + 𝜀𝑖 Para permitir relaciones no lineales entre cada característica y la respuesta es reemplazar cada componente lineal 𝛽𝑗 𝑥𝑖𝑗 con una función no lineal (suave) 𝑓𝑗 𝑥𝑖𝑗 . Luego escribiríamos el modelo como: 𝑝 .𝑦𝑖 = 𝛽0 + 𝑗=1 𝑓𝑗 𝑥𝑖𝑗 + 𝜀𝑖 𝑦𝑖 = 𝛽0 + 𝑓1 𝑥𝑖1 + 𝑓2 𝑥𝑖2 + ⋯ + 𝑓𝑃 𝑥𝑖𝑃 + 𝜀𝑖 … (𝟕. 𝟏𝟓) Este es un ejemplo de GAM. Se llama modelo aditivo porque calcula un 𝑓𝑗 separado para cada 𝑥 , y luego suma todas sus contribuciones. En las secciones 7.1–7.6, discutimos muchos métodos para ajustar funciones a una sola variable. La belleza de los GAM es que podemos usar estos métodos como bloques de construcción para ajustar un modelo aditivo. De hecho, para la mayoría de los métodos que hemos visto hasta ahora en este capítulo, esto se puede hacer de manera bastante trivial. Tome, por ejemplo, splines naturales y considere la tarea de ajustar el modelo sueldo = 𝛽0 + 𝑓1 (año) + 𝑓2 (la edad) + 𝑓3 (educación) + ε …(7,16) Figura 7.12. Los detalles son como en la anterior figura 7.11, pero ahora 𝑓1 y 𝑓2 se suavizan splines con cuatro y cinco grados de libertad, respectivamente. Actualializamos repetidamente el ajuste para cada predictor a su vez, manteniendo los demás fijos. La belleza de este enfoque es que cada vez que actualizamos una función, simplemente aplicamos el método de ajuste para esa variable a un residual parcial. Las funciones ajustadas en las Figuras 7.11 y 7.12 son bastante similares. En la mayoría de las situaciones, las diferencias en los GAM obtenidos mediante suavizado de splines frente a splines naturales son pequeñas. No tenemos que usar splines como bloques de construcción para GAM: también podemos usar regresión local, regresión polinomial o cualquier combinación de los enfoques vistos anteriormente en este capítulo para crear un GAM. Pros y contras de los GAM Ventajas: Los GAM permiten ajustar una función no lineal (𝑓𝑗 ) a cada variable (𝑥𝑗 ), por lo que podemos modelar automáticamente las relaciones no lineales que la regresión lineal estándar pasaría por alto. Los ajustes no lineales pueden potencialmente hacer predicciones más precisas para la respuesta (Y) La suavidad de la función (𝑓𝑗 ) para (𝑥𝑗 ) se puede resumir a través de los grados de libertad. Limitación: • La principal limitación de los GAM es que el modelo está restringido a ser aditivo. Pueden perderse interacciones importantes. Pero podemos añadir manualmente términos de interacción como hicimos con la regresión lineal. 7.7.2 GAM para problemas de clasificación Los GAM también se pueden utilizar en situaciones en las que Y es cualitativo. Para simplificar, aquí asumimos que Y toma valores cero o uno, y sea p (X) = 𝑃𝑟 (Y = 1 | X) la probabilidad condicional (dados los predictores) de que la respuesta sea igual a uno. Recuerde el modelo de regresión logística (4.6): log 𝑝 𝑥 1−𝑝 𝑥 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥𝑝 … (7.17) Esta logit es el registro de las probabilidades de P(Y = 1| X) versus P(Y = 0| X), que (7.17) representa como una función lineal de los predictores. Una forma natural de extender (7.17) para permitir relaciones no lineales es usar el modelo log 𝑝 𝑥 1−𝑝 𝑥 = 𝛽0 + 𝑓𝑥1 + 𝑓2 𝑥2 + ⋯ + 𝑓𝑝 𝑥𝑝 … (7.18) La ecuación 7.18 es una GAM de regresión logística. Tiene todos los mismos pros y contras que se discutieron en la sección anterior para las respuestas cuantitativas. Encajamos un GAM al Sueldo datos para predecir la probabilidad de que el ingreso de un individuo exceda los $ 250,000 por año. El GAM que encajamos toma la forma: log 𝑝𝑋 1−𝑝 𝑋 = 𝛽0 + 𝛽1 × Año + 𝑓2 (ⅇdad) + 𝑓3 (𝐞𝐝𝐮𝐜𝐚𝐜𝐢ó𝐧) Dónde p(X) = Pr (sueldo > 250|año, la edad, educación). …(7.19) Figura 7.13. Para el Sueldo datos, la regresión logística GAM dada en (7.19) se ajusta a la respuesta binaria (salario> 250). Cada gráfico muestra la función ajustada y los errores estándar puntuales. La primera función es lineal en año, la segunda función es una spline de suavizado con cinco grados de libertad en la edad, y la tercera una función de paso para educación. Hay errores estándar muy amplios para el primer nivel.<HS de educación. Una vez más, 𝑓2 se ajusta Utilizando un spline de suavizado con cinco grados de libertad, y 𝑓3 se ajusta como una función escalonada, creando variables ficticias para cada uno de los niveles de educación. El ajuste resultante se muestra en la Figura 7.13. El último panel parece sospechoso, con intervalos de confianza muy amplios para el nivel <HS. De hecho, no hay ninguno para esa categoría: ninguna persona con menos de una educación secundaria gana más de $250.000 por año. Por lo tanto, ajustamos el GAM, excluyendo a las personas con menos de una educación secundaria. El modelo resultante se muestra en la Figura 7.14. Como en las figuras 7.11 y 7.12, Los tres paneles tienen la misma escala vertical. Esto nos permite evaluar visualmente las contribuciones relativas de cada una de las variables.