Análisis de Regresión Lineal Múltiple El Análisis de Regresión es una técnica estadística para la detección y el modelado de relaciones entre dos o más variables. Incluye un conjunto de técnicas univariantes y multivariantes que permiten encontrar modelos descriptivos o predictivos, a partir de las relaciones observadas en una colección de datos que suele denominarse la muestra de aprendizaje o de entrenamiento. Una gran ventaja del análisis de regresión multivariante lo constituye que las variables sobre las cuales se deseen establecer relaciones pueden ser cuantitativas, categóricas o simultáneamente de ambos tipos (Pérez, 2004). Para el manejo de variables categóricas, nominales u ordinales, se requiere el uso de variables indicadoras o de diseño (dummy, en inglés) y, en algunos casos, de algunas transformaciones para realizar el análisis. En la Regresión Lineal Múltiple, se admite que un atributo o variable Y cualquiera puede ser o explicada por una combinación lineal de otras variables X. La forma general del modelo, es: Y 0 1 X 1 2 X 2 ... p 1 X p 1 (1) En (1), cada variable Xj , para j desde 1 hasta p-1, representa una variable independiente o explicativa de Y, la variable respuesta o dependiente. Los llamados coeficientes parciales de regresión. Cada j son los parámetros del modelo j , significa el cambio en el valor esperado de la variable dependiente o explicada E(Y), por una unidad de incremento en Xj , cuando las demás variables independientes incluidas en el modelo, permanecen constantes. Si el alcance del modelo admite que el valor para todas las variables independientes pueda ser cero, el parámetro 0 indica el valor esperado de Y cuando todas las Xj toman ese valor. En caso contrario, no tiene significado como término separado en el modelo de regresión. En la ecuación, el término , está representando una componente aleatoria que representada la variabilidad en Y que no es explicada por las variables independientes consideradas y que puede ser debida a la naturaleza misma de la variable bajo estudio, por los errores cometidos en las mediciones o por cualquier otra fuente de imperfección en los datos observados. El Modelo de Regresión Múltiple, por su método de ajuste, está restringido al cumplimiento de los siguientes supuestos (Neter y otros, 2001): a) Las variables explicativas o predictivas del modelo deben ser linealmente independientes. Es decir, no debe ser posible que una variable independiente sea explicada por una combinación lineal de las otras. b) Los términos de error o las perturbaciones del modelo deben distribuirse con media cero, varianza constante y ser independientes entre sí. Es claro que el supuesto a) no es difícil de cumplir, por la minimalidad deseable en cualquier modelo. Tampoco lo es admitir que los errores se distribuyan de la manera especificada en el literal b). Si así no ocurriera, podría ser síntoma de que faltan variables independientes por incluir o que las incluidas no son muy apropiadas para explicar la variable respuesta. Por esto, siempre es Claudia Jiménez R Universidad Nacional de Colombia 1 recomendable verificar el cumplimiento de los supuestos del Modelo de Regresión Múltiple, mediante el análisis de los residuales y la detección de valores atípicos en ellos (outliers, en inglés) o mediante pruebas de independencia. Cuando los supuestos no se cumplen es posible aplicar medidas remediales, en la mayoría de los casos. El problema central del Análisis de Regresión Múltiple, como es de suponerse, consiste en encontrar la fórmula algebraica del modelo de regresión de un caso particular. Esto es, hallar las mejores estimaciones de los parámetros o coeficientes de regresión parcial, utilizando los datos observados (la muestra de entrenamiento). La fórmula matemática derivada en la minería de estos datos, es un modelo descriptivo que informa cómo pesan o influyen las variables independientes consideradas en la variable de respuesta, de manera cuantitativa. También, sirve para inferir o predecir cuál sería el valor esperado de la variable de respuesta, E(Y), para nuevos ejemplares o con distintos valores en las variables independientes. En el proceso de optimización para determinar los estimadores de los parámetros, se utiliza una función de pérdida como una medida de ajuste del modelo matemático a los datos reales. Se puede elegir entre estimadores de los parámetros que minimicen lo malo del ajuste o que maximicen la bondad del ajuste. Gauss propuso estimar los parámetros minimizando la suma de los cuadrados de las desviaciones o las diferencias entre los valores observados y los ajustados con el modelo de regresión, técnica que se conoce como el Método de Mínimos Cuadrados (Hair y otros, 1999). También podría maximizarse la suma de cuadrados debida a la regresión. Pero un modelo de regresión, donde los errores se distribuyan normalmente, estos dos métodos coinciden, por el teorema de Gauss-Markov, y los estimadores de los parámetros tienen las propiedades de ser insesgados (la media de las estimaciones para diferentes muestras tenderá hacia el parámetro desconocido), consistentes (conforme crece el tamaño muestral, la estimación se aproxima al parámetro desconocido) y suficientes (aprovechan toda la información que proporciona la muestra) (Placket, 1950). Para presentar los estimadores de los coeficientes de regresión parcial, por Mínimos Cuadrados, sea: 0 , 1 , 2 ,... p 1 un vector de dimensión px1 que representa los coeficientes de regresión o parámetros. X 1, X 1 , X 2 , X 3 ,... X p 1 una matriz de dimensión n p con las constantes o valores de las p variables independientes en los objetos observados o medidos. Las filas de la matriz representan las n- tuplas o ejemplares en la muestra de aprendizaje. Y Y1 , Y2 , Y3 ,...Yn un vector de dimensión n 1 con los valores de la variable respuesta o dependiente, para cada tupla u observación. = ( 1, 2 … n ) un vector de dimensión n 1 con los valores de las componentes o perturbaciones aleatorias de cada observación. Con esa notación matricial, la ecuación (1) se puede escribir, en forma resumida, así: Claudia Jiménez R Universidad Nacional de Colombia 2 Y = βX + ɛ (2) Como en el modelo de Regresión Lineal Múltiple se supone que el valor esperado de la distribución de los errores o residuales E( ) = 0, y tanto las variables X como los coeficientes de regresión son constantes conocidas, luego: E(Y) = βX Por lo tanto, es natural estimar la función Y=f(x) como: Y X Donde Y (leído Y gorro) es el valor de la función de regresión estimada considerando los valores o niveles de X en la colección de datos y dadas los estimaciones de los coeficientes ˆ ' ˆ0 , ˆ1 , ˆ2 ,...ˆ p 1 . Los estimadores, por mínimos cuadrados, se calculan así: ˆ ' ( X ' X ) 1 X 'Y Después de derivar un modelo de regresión múltiple particular, se debe validar la bondad del ajuste con el fin de poderlo utilizar para describir o predecir valores no sólo futuros, sino para otros valores en las variables independientes no observados o medidos. Cuando hay suficientes datos, se utiliza un subconjunto de ellos, no considerados en el ajuste, para evaluar la capacidad predictiva del modelo. En otros casos, sólo es posible verificar el grado de cumplimiento de los supuestos impuestos al modelo de Regresión Lineal Múltiple para luego determinar la significación estadística de las variables explicativas, de manera global y parcial. Para determinar la significación estadística de manera global de todas las variables se utiliza como estadístico de la prueba a Fc que se distribuye teóricamente como una F con n-1 y p-1 grados de libertad. Para las pruebas de significación de variables independientes de manera marginal se utiliza como estadístico el estadístico Zc. Debe señalarse que un modelo de regresión múltiple es lineal, no por una restricción impuesta sobre las variables que pueden explicar a Y, sino por la linealidad en los parámetros o coeficientes del modelo de regresión; por eso éstos deben aparecer en su primera potencia. Los paquetes estadísticos ofrecen, varias alternativas de transformación de las variables independientes, como x 2 x , x o e para ser aplicables antes de realizar un análisis de regresión, si es el caso. Análisis de Regresión Simple en Matlab En el siguiente ejemplo, para hacer el análisis de regresión simple, se carga el archivo de datos llamado “carsmall” que contiene algunas características de 100 autos. Al cargar el archivo, el sistema crea la variable de tipo matriz X con las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el número de Claudia Jiménez R Universidad Nacional de Colombia 3 cilindros). Se trata entonces de explicar el rendimiento del vehiculo (MPG) por medio del potencia del vehículo. Primero queremos visualizar gráficamente la relación entre estas variables: load carsmall X= Horsepower Y = MPG plot(X,Y, 'o') -- la o entre comillas simples sirve para que el diagrama no muestre líneas entre los puntos Cuando damos el último comando se abre la interfaz de la Figura 1. En ella vemos que existe una relación inversa entre la potencia con el rendimiento de los autos. Esto significa que a medida que aumenta la potencia, disminuye el renidimiento o las millas por galón. Para el ajuste de los datos a un modelo particular, del menú “Tools” se escoge la opción “Basic fitting”. Figura 1. Resultado del comando “plot” En la Figura 2, vemos dos modelos ajustados a los datos: el modelo lineal y el cuadrático o de segundo orden en la variable X. Alli se observa que se ha chuleado la opción de mostrar las ecuaciones en la gráfica. En el menú “tools” de la gráfica también es posible editar la figura para agregar las leyendas y títulos apropiados. En la interfaz del ajuste básico, es posible continuar con la presentación de más información, incluida la norma de los residuales, un indicador de la calidad del ajuste. En nuestro ejemplo, de acuerdo con este indicador, el modelo que mejor se ajusta es el cuadrático, como se muestra en la Figura 3. Claudia Jiménez R Universidad Nacional de Colombia 4 Figura 2. Ajuste básico de modelos Figura 3. Ajuste básico de modelos Análisis de Regresión Múltiple en Matlab En el siguiente ejemplo, para hacer el análisis de regresión, se carga el archivo de datos llamado “carsmall” que contiene algunas características de 100 autos. Al cargar el archivo, el sistema crea la variable de tipo matriz X con las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el número de cilindros). Claudia Jiménez R Universidad Nacional de Colombia 5 Se trata entonces de explicar el rendimiento del vehiculo (MPG) por medio del cilindraje y la potencia con el método “regress”: load carsmall X = [ones(size(Horsepower)) Horsepower Cylinders]; --la primera componente es para --agregar una columna de unos betagorro = regress(MPG,X) –- devuelve los coeficientes estimados betagorro = 44.2562 (Intercepto o Beta cero -0.0572 -2.5836 La función “regstats” también permite realizar un análisis de regresión lineal múltiple y calcula más estadísticas de regresión. De forma predeterminada, regstats agrega automáticamente una primera columna de unos a la matriz de diseño (necesaria para calcular la estadística F y el valor-p de la prueba), por lo que no se debe incluir de forma explícita un término constante como en la función regress. Por ejemplo: X1 = [Horsepower Cylinders]; stats = regstats(MPG,X1); Crea una variable de tipo estructura, con las estadísticas de regresión. Por tanto, en el área de trabajo se encontrarán los siguientes ítems calculados: Un argumento de entrada opcional a la función “regstats” permite especificar cuáles estadísticas se deben calcular, en lugar de todas las anteriores. Para especificar de forma interactiva las estadísticas calculadas, se invoca a regstats sin argumentos de salida, como aparece a continuación. regstats(MPG,X1) Abre la interfaz siguiente: Claudia Jiménez R Universidad Nacional de Colombia 6 En esta interfaz, se seleccionan las casillas correspondientes a las estadísticas que desean calcular. Las estadísticas seleccionadas se retornan mediante variables al área de trabajo (Workspace) de MATLAB. Los nombres de las variables para las estadísticas que aparecen en la parte derecha de la interfaz, se puede cambiar a cualquier nombre de variable válida en MATLAB. El mensaje después de dar el anterior comando es: “Variables have been created in the current workspace”. Por lo tanto, ya podemos consultar los valores de esas variables, por ejemplo: >> beta beta = 44.2562 -0.0572 -2.5836 Tabulación de estadísticas de diagnóstico en el análisis de regresión La función regstats calcula las estadísticas que se utilizan normalmente en el diagnóstico de la regresión. Las estadísticas pueden presentarse en formato tabular, de una gran variedad de maneras. Por ejemplo, el campo tstat de la estructura de regstats es en sí mismo una estructura que contiene las estadísticas relacionadas con Claudia Jiménez R Universidad Nacional de Colombia 7 los coeficientes estimados de la regresión. El tipo de datos conocido como arreglos de conjuntos de datos (Dataset Arrays) proporcionan un formato tabular natural para la información: >> TablaCoef = dataset({tstat.beta,'Coef'},{ tstat.se,'ErrStd'},{ tstat.t,'tStat'},{tstat.pval,'Valor_p'}) TablaCoef = Coef 44.256 -0.057171 -2.5836 ErrStd tStat Valor_p 1.4917 29.667 3.0014e-048 0.019148 -2.9858 0.0036427 0.49499 -5.2194 1.1437e-006 Interpretando estos resultados podemos decir que por el valor p de las pruebas marginales que se basan en la estadística t calculada (y que se distribuye como un t de Student con 97= 100-3 grados de libertad) se puede rechazar la hipótesis nula. Esto es, todos los coeficientes son estadísticamente significativos y por lo tanto, las millas por galón si pueden ser explicadas por el modelos de regresión. ¿Cuál es la estimación del coeficiente de determinación múltiple? >> rsquare rsquare = 0.7271 Este último resultado significa que aproximadamente un 72% de la variabilidad en las millas por galón (MPG) es explicada por la inclusión del cilindraje y la potencia en el modelo de regresión. La función fprintf de MATLAB, similar a la del lenguaje C, permite cambiar al formato de tabla. Por ejemplo, el campo fstat de la estructura de regstats es una estructura con las estadísticas relacionadas con el análisis de varianza (ANOVA) de la regresión. Los siguientes comandos producen la tabla ANOVA de una regresión estándar: fprintf('Tabla de Análisis de la Varianza (ANOVA)'); fprintf('\n\n') fprintf('%6s','Fuente'); fprintf('%10s','gdl','SC','CM','F','Valor P'); fprintf('\n') fprintf('%6s','Regr'); fprintf('%10.4f',fstat.dfr,fstat.ssr,fstat.ssr/fstat.dfr,fstat.f,fstat.pval); fprintf('\n') fprintf('%6s','Error'); fprintf('%10.4f', fstat.dfe, fstat.sse, fstat.sse/ fstat.dfe); fprintf('\n') fprintf('%6s','Total'); fprintf('%10.4f', fstat.dfe+ fstat.dfr, fstat.sse+ fstat.ssr); fprintf('\n') Para mostrar los datos, así: Tabla de Análisis de la Varianza (ANOVA) Claudia Jiménez R Universidad Nacional de Colombia 8 Fuente gdl SC CM F Valor P Regr 2.0000 4366.0455 2183.0227 119.8941 0.0000 Error 90.0000 1638.7126 18.2079 Total 92.0000 6004.7581 Análisis de Correlación en Rattle El análisis de correlación indica si dos variables están relacionadas en forma lineal. Este análisis sólo es para variables numéricas. Hay tres métodos disponibles para hallar la correlación: Pearson, Spearman, Kendall. En este caso se utilizará el de Pearson y se activará la opción “Organizado” para que organice las variables según la fortaleza de correlación. El resultado se muestra a continuación en la Figura 3. Figura 3. Resultado de un análisis correlación. Si el coeficiente es igual a 1 existe una correlación positiva perfecta, es decir hay una relación lineal perfecta, entre las variables. Cuando una de ellas aumenta la otra también lo hace, en proporción constante. Si 0 < coeficiente < 1, existe una correlación positiva. Si es igual a cero, no existe relación lineal. Si -1 < coeficiente < 0, existe una correlación negativa. Si es igual a -1, existe una correlación negativa perfecta, es decir hay una relación inversa entre las variables, cuando una de ellas aumenta la otra disminuye en proporción constante. El resultado del análisis de correlación también viene acompañado de una gráfica, la cual se muestra a continuación en la Figura 4. Claudia Jiménez R Universidad Nacional de Colombia 9 Figura 4. Gráfico de correlación. El grado de correlación se interpreta según la forma y el color de los elementos en la gráfica. Si el elemento es un círculo perfecto no hay correlación entre las variables. Cada variable está perfectamente correlacionada con ella misma, la perfecta correlación se representa con una línea diagonal. El color rojo indica correlación negativa, el azul positiva y entre más intenso sea el color es mayor la correlación. [3] Análisis de Regresión en Rattle Rattle ofrece la posibilidad de generar diferentes tipos de regresión, a continuación se hará una breve descripción de cada uno de las opciones ofrecidas por este paquete. Cada una de estas regresiones se acompaña de un diagrama. Figura 5. Interfaz para realizar regresiones. Numérica: este es el tipo regresión lineal tradicional y es apropiado cuando la variable de destino es numérica y continua. Claudia Jiménez R Universidad Nacional de Colombia 10