Análisis de Regresión Lineal Múltiple

Anuncio
Análisis de Regresión Lineal Múltiple
El Análisis de Regresión es una técnica estadística para la detección y el modelado de relaciones
entre dos o más variables. Incluye un conjunto de técnicas univariantes y multivariantes que
permiten encontrar modelos descriptivos o predictivos, a partir de las relaciones observadas en una
colección de datos que suele denominarse la muestra de aprendizaje o de entrenamiento. Una gran
ventaja del análisis de regresión multivariante lo constituye que las variables sobre las cuales se
deseen establecer relaciones pueden ser cuantitativas, categóricas o simultáneamente de ambos tipos
(Pérez, 2004). Para el manejo de variables categóricas, nominales u ordinales, se requiere el uso de
variables indicadoras o de diseño (dummy, en inglés) y, en algunos casos, de algunas
transformaciones para realizar el análisis.
En la Regresión Lineal Múltiple, se admite que un atributo o variable Y cualquiera puede ser o
explicada por una combinación lineal de otras variables X. La forma general del modelo, es:
Y   0  1 X 1   2 X 2  ...   p 1 X p 1  
(1)
En (1), cada variable Xj , para j desde 1 hasta p-1, representa una variable independiente o
explicativa de Y, la variable respuesta o dependiente. Los
llamados coeficientes parciales de regresión. Cada
j
son los parámetros del modelo
 j , significa el cambio en el valor esperado de
la variable dependiente o explicada E(Y), por una unidad de incremento en Xj , cuando las demás
variables independientes incluidas en el modelo, permanecen constantes. Si el alcance del modelo
admite que el valor para todas las variables independientes pueda ser cero, el parámetro  0 indica
el valor esperado de Y cuando todas las Xj toman ese valor. En caso contrario, no tiene significado
como término separado en el modelo de regresión. En la ecuación, el término  , está representando
una componente aleatoria que representada la variabilidad en Y que no es explicada por las
variables independientes consideradas y que puede ser debida a la naturaleza misma de la variable
bajo estudio, por los errores cometidos en las mediciones o por cualquier otra fuente de
imperfección en los datos observados.
El Modelo de Regresión Múltiple, por su método de ajuste, está restringido al cumplimiento de
los siguientes supuestos (Neter y otros, 2001):
a) Las variables explicativas o predictivas del modelo deben ser linealmente independientes.
Es decir, no debe ser posible que una variable independiente sea explicada por una
combinación lineal de las otras.
b) Los términos de error o las perturbaciones del modelo deben distribuirse con media cero,
varianza constante y ser independientes entre sí.
Es claro que el supuesto a) no es difícil de cumplir, por la minimalidad deseable en cualquier
modelo. Tampoco lo es admitir que los errores se distribuyan de la manera especificada en el literal
b). Si así no ocurriera, podría ser síntoma de que faltan variables independientes por incluir o que
las incluidas no son muy apropiadas para explicar la variable respuesta. Por esto, siempre es
Claudia Jiménez R
Universidad Nacional de Colombia
1
recomendable verificar el cumplimiento de los supuestos del Modelo de Regresión Múltiple,
mediante el análisis de los residuales y la detección de valores atípicos en ellos (outliers, en inglés)
o mediante pruebas de independencia. Cuando los supuestos no se cumplen es posible aplicar
medidas remediales, en la mayoría de los casos.
El problema central del Análisis de Regresión Múltiple, como es de suponerse, consiste en
encontrar la fórmula algebraica del modelo de regresión de un caso particular. Esto es, hallar las
mejores estimaciones de los parámetros o coeficientes de regresión parcial, utilizando los datos
observados (la muestra de entrenamiento). La fórmula matemática derivada en la minería de estos
datos, es un modelo descriptivo que informa cómo pesan o influyen las variables independientes
consideradas en la variable de respuesta, de manera cuantitativa. También, sirve para inferir o
predecir cuál sería el valor esperado de la variable de respuesta, E(Y), para nuevos ejemplares o con
distintos valores en las variables independientes.
En el proceso de optimización para determinar los estimadores de los parámetros, se utiliza una
función de pérdida como una medida de ajuste del modelo matemático a los datos reales. Se puede
elegir entre estimadores de los parámetros que minimicen lo malo del ajuste o que maximicen la
bondad del ajuste. Gauss propuso estimar los parámetros minimizando la suma de los cuadrados de
las desviaciones o las diferencias entre los valores observados y los ajustados con el modelo de
regresión, técnica que se conoce como el Método de Mínimos Cuadrados (Hair y otros, 1999).
También podría maximizarse la suma de cuadrados debida a la regresión. Pero un modelo de
regresión, donde los errores se distribuyan normalmente, estos dos métodos coinciden, por el
teorema de Gauss-Markov, y los estimadores de los parámetros tienen las propiedades de ser
insesgados (la media de las estimaciones para diferentes muestras tenderá hacia el parámetro
desconocido), consistentes (conforme crece el tamaño muestral, la estimación se aproxima al
parámetro desconocido) y suficientes (aprovechan toda la información que proporciona la muestra)
(Placket, 1950).
Para presentar los estimadores de los coeficientes de regresión parcial, por Mínimos Cuadrados,
sea:
   0 , 1 ,  2 ,... p 1  un vector de dimensión px1 que representa los coeficientes de
regresión o parámetros.
X  1, X 1 , X 2 , X 3 ,... X p 1  una matriz de dimensión n p con las constantes o valores de las
p variables independientes en los objetos observados o medidos. Las filas de la matriz
representan las n- tuplas o ejemplares en la muestra de aprendizaje.
Y  Y1 , Y2 , Y3 ,...Yn  un vector de dimensión n 1 con los valores de la variable respuesta o
dependiente, para cada tupla u observación.
 = ( 1,  2 …  n ) un vector de dimensión n 1 con los valores de las componentes o
perturbaciones aleatorias de cada observación.
Con esa notación matricial, la ecuación (1) se puede escribir, en forma resumida, así:
Claudia Jiménez R
Universidad Nacional de Colombia
2
Y = βX + ɛ
(2)
Como en el modelo de Regresión Lineal Múltiple se supone que el valor esperado de la
distribución de los errores o residuales E(  ) = 0, y tanto las variables X como los coeficientes de
regresión son constantes conocidas, luego:
E(Y) = βX
Por lo tanto, es natural estimar la función Y=f(x) como:


Y  X

Donde Y (leído Y gorro) es el valor de la función de regresión estimada considerando los valores
o niveles de X en la colección de datos y dadas los estimaciones de los coeficientes
ˆ '  ˆ0 , ˆ1 , ˆ2 ,...ˆ p 1 . Los estimadores, por mínimos cuadrados, se calculan así:
ˆ '  ( X ' X ) 1 X 'Y
Después de derivar un modelo de regresión múltiple particular, se debe validar la bondad del
ajuste con el fin de poderlo utilizar para describir o predecir valores no sólo futuros, sino para otros
valores en las variables independientes no observados o medidos. Cuando hay suficientes datos, se
utiliza un subconjunto de ellos, no considerados en el ajuste, para evaluar la capacidad predictiva
del modelo. En otros casos, sólo es posible verificar el grado de cumplimiento de los supuestos
impuestos al modelo de Regresión Lineal Múltiple para luego determinar la significación estadística
de las variables explicativas, de manera global y parcial. Para determinar la significación estadística
de manera global de todas las variables se utiliza como estadístico de la prueba a Fc que se
distribuye teóricamente como una F con n-1 y p-1 grados de libertad. Para las pruebas de
significación de variables independientes de manera marginal se utiliza como estadístico el
estadístico Zc.
Debe señalarse que un modelo de regresión múltiple es lineal, no por una restricción impuesta
sobre las variables que pueden explicar a Y, sino por la linealidad en los parámetros o coeficientes
del modelo de regresión; por eso éstos deben aparecer en su primera potencia. Los paquetes
estadísticos ofrecen, varias alternativas de transformación de las variables independientes, como x
2
x
, x o e para ser aplicables antes de realizar un análisis de regresión, si es el caso.
Análisis de Regresión Simple en Matlab
En el siguiente ejemplo, para hacer el análisis de regresión simple, se carga el archivo de datos llamado
“carsmall” que contiene algunas características de 100 autos. Al cargar el archivo, el sistema crea la variable
de tipo matriz X con las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el número de
Claudia Jiménez R
Universidad Nacional de Colombia
3
cilindros). Se trata entonces de explicar el rendimiento del vehiculo (MPG) por medio del potencia del
vehículo.
Primero queremos visualizar gráficamente la relación entre estas variables:
load carsmall
X= Horsepower
Y = MPG
plot(X,Y, 'o') -- la o entre comillas simples sirve para que el diagrama no muestre líneas entre los puntos
Cuando damos el último comando se abre la interfaz de la Figura 1. En ella vemos que existe una relación
inversa entre la potencia con el rendimiento de los autos. Esto significa que a medida que aumenta la
potencia, disminuye el renidimiento o las millas por galón. Para el ajuste de los datos a un modelo particular,
del menú “Tools” se escoge la opción “Basic fitting”.
Figura 1. Resultado del comando “plot”
En la Figura 2, vemos dos modelos ajustados a los datos: el modelo lineal y el cuadrático o de segundo orden
en la variable X. Alli se observa que se ha chuleado la opción de mostrar las ecuaciones en la gráfica. En el
menú “tools” de la gráfica también es posible editar la figura para agregar las leyendas y títulos apropiados.
En la interfaz del ajuste básico, es posible continuar con la presentación de más información, incluida la
norma de los residuales, un indicador de la calidad del ajuste. En nuestro ejemplo, de acuerdo con este
indicador, el modelo que mejor se ajusta es el cuadrático, como se muestra en la Figura 3.
Claudia Jiménez R
Universidad Nacional de Colombia
4
Figura 2. Ajuste básico de modelos
Figura 3. Ajuste básico de modelos
Análisis de Regresión Múltiple en Matlab
En el siguiente ejemplo, para hacer el análisis de regresión, se carga el archivo de datos llamado “carsmall”
que contiene algunas características de 100 autos. Al cargar el archivo, el sistema crea la variable de tipo
matriz X con las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el número de cilindros).
Claudia Jiménez R
Universidad Nacional de Colombia
5
Se trata entonces de explicar el rendimiento del vehiculo (MPG) por medio del cilindraje y la potencia con el
método “regress”:
load carsmall
X = [ones(size(Horsepower)) Horsepower Cylinders];
--la primera componente es para
--agregar una columna de unos
betagorro = regress(MPG,X) –- devuelve los coeficientes estimados
betagorro =
44.2562 (Intercepto o Beta cero
-0.0572
-2.5836
La función “regstats” también permite realizar un análisis de regresión lineal múltiple y calcula más
estadísticas de regresión. De forma predeterminada, regstats agrega automáticamente una primera columna de
unos a la matriz de diseño (necesaria para calcular la estadística F y el valor-p de la prueba), por lo que no se
debe incluir de forma explícita un término constante como en la función regress. Por ejemplo:
X1 = [Horsepower Cylinders];
stats = regstats(MPG,X1);
Crea una variable de tipo estructura, con las estadísticas de regresión. Por tanto, en el área de trabajo se
encontrarán los siguientes ítems calculados:
Un argumento de entrada opcional a la función “regstats” permite especificar cuáles estadísticas se deben
calcular, en lugar de todas las anteriores. Para especificar de forma interactiva las estadísticas calculadas, se
invoca a regstats sin argumentos de salida, como aparece a continuación.
regstats(MPG,X1)
Abre la interfaz siguiente:
Claudia Jiménez R
Universidad Nacional de Colombia
6
En esta interfaz, se seleccionan las casillas correspondientes a las estadísticas que desean calcular. Las
estadísticas seleccionadas se retornan mediante variables al área de trabajo (Workspace) de MATLAB. Los
nombres de las variables para las estadísticas que aparecen en la parte derecha de la interfaz, se puede cambiar
a cualquier nombre de variable válida en MATLAB.
El mensaje después de dar el anterior comando es: “Variables have been created in the current workspace”.
Por lo tanto, ya podemos consultar los valores de esas variables, por ejemplo:
>> beta
beta =
44.2562
-0.0572
-2.5836
Tabulación de estadísticas de diagnóstico en el análisis de regresión
La función regstats calcula las estadísticas que se utilizan normalmente en el diagnóstico de la regresión. Las
estadísticas pueden presentarse en formato tabular, de una gran variedad de maneras. Por ejemplo, el campo
tstat de la estructura de regstats es en sí mismo una estructura que contiene las estadísticas relacionadas con
Claudia Jiménez R
Universidad Nacional de Colombia
7
los coeficientes estimados de la regresión. El tipo de datos conocido como arreglos de conjuntos de datos
(Dataset Arrays) proporcionan un formato tabular natural para la información:
>> TablaCoef = dataset({tstat.beta,'Coef'},{ tstat.se,'ErrStd'},{ tstat.t,'tStat'},{tstat.pval,'Valor_p'})
TablaCoef =
Coef
44.256
-0.057171
-2.5836
ErrStd tStat Valor_p
1.4917 29.667 3.0014e-048
0.019148 -2.9858 0.0036427
0.49499 -5.2194 1.1437e-006
Interpretando estos resultados podemos decir que por el valor p de las pruebas marginales que se basan en la
estadística t calculada (y que se distribuye como un t de Student con 97= 100-3 grados de libertad) se puede
rechazar la hipótesis nula. Esto es, todos los coeficientes son estadísticamente significativos y por lo tanto, las
millas por galón si pueden ser explicadas por el modelos de regresión.
¿Cuál es la estimación del coeficiente de determinación múltiple?
>> rsquare
rsquare =
0.7271
Este último resultado significa que aproximadamente un 72% de la variabilidad en las millas por galón
(MPG) es explicada por la inclusión del cilindraje y la potencia en el modelo de regresión.
La función fprintf de MATLAB, similar a la del lenguaje C, permite cambiar al formato de tabla. Por
ejemplo, el campo fstat de la estructura de regstats es una estructura con las estadísticas relacionadas con el
análisis de varianza (ANOVA) de la regresión. Los siguientes comandos producen la tabla ANOVA de una
regresión estándar:
fprintf('Tabla de Análisis de la Varianza (ANOVA)');
fprintf('\n\n')
fprintf('%6s','Fuente');
fprintf('%10s','gdl','SC','CM','F','Valor P');
fprintf('\n')
fprintf('%6s','Regr');
fprintf('%10.4f',fstat.dfr,fstat.ssr,fstat.ssr/fstat.dfr,fstat.f,fstat.pval);
fprintf('\n')
fprintf('%6s','Error');
fprintf('%10.4f', fstat.dfe, fstat.sse, fstat.sse/ fstat.dfe);
fprintf('\n')
fprintf('%6s','Total');
fprintf('%10.4f', fstat.dfe+ fstat.dfr, fstat.sse+ fstat.ssr);
fprintf('\n')
Para mostrar los datos, así:
Tabla de Análisis de la Varianza (ANOVA)
Claudia Jiménez R
Universidad Nacional de Colombia
8
Fuente
gdl
SC
CM
F Valor P
Regr 2.0000 4366.0455 2183.0227 119.8941 0.0000
Error 90.0000 1638.7126 18.2079
Total 92.0000 6004.7581
Análisis de Correlación en Rattle
El análisis de correlación indica si dos variables están relacionadas en forma lineal. Este análisis
sólo es para variables numéricas. Hay tres métodos disponibles para hallar la correlación: Pearson,
Spearman, Kendall. En este caso se utilizará el de Pearson y se activará la opción “Organizado”
para que organice las variables según la fortaleza de correlación. El resultado se muestra a
continuación en la Figura 3.
Figura 3. Resultado de un análisis correlación.
Si el coeficiente es igual a 1 existe una correlación positiva perfecta, es decir hay una relación lineal
perfecta, entre las variables. Cuando una de ellas aumenta la otra también lo hace, en proporción
constante.
Si 0 < coeficiente < 1, existe una correlación positiva.
Si es igual a cero, no existe relación lineal.
Si -1 < coeficiente < 0, existe una correlación negativa.
Si es igual a -1, existe una correlación negativa perfecta, es decir hay una relación inversa entre las
variables, cuando una de ellas aumenta la otra disminuye en proporción constante.
El resultado del análisis de correlación también viene acompañado de una gráfica, la cual se
muestra a continuación en la Figura 4.
Claudia Jiménez R
Universidad Nacional de Colombia
9
Figura 4. Gráfico de correlación.
El grado de correlación se interpreta según la forma y el color de los elementos en la gráfica. Si el
elemento es un círculo perfecto no hay correlación entre las variables. Cada variable está
perfectamente correlacionada con ella misma, la perfecta correlación se representa con una línea
diagonal. El color rojo indica correlación negativa, el azul positiva y entre más intenso sea el color
es mayor la correlación. [3]
Análisis de Regresión en Rattle
Rattle ofrece la posibilidad de generar diferentes tipos de regresión, a continuación se hará una
breve descripción de cada uno de las opciones ofrecidas por este paquete. Cada una de estas
regresiones se acompaña de un diagrama.
Figura 5. Interfaz para realizar regresiones.
 Numérica: este es el tipo regresión lineal tradicional y es apropiado cuando la variable de
destino es numérica y continua.
Claudia Jiménez R
Universidad Nacional de Colombia
10
Descargar