Departamento de Matemática Aplicada y Estadística Universidad Politécnica de Cartagena Curso 03/04 Ajuste por mínimos cuadrados (2) Seguimos con la práctica de regresión lineal múltiple con SPSS. Recordar que buscamos realizar ajustes por mínimos cuadrados para modelos lineales en los parámetros, es decir para el caso en que la relación entre la variable dependiente (también llamada variable respuesta) que nos interesa Y, y las variables explicativas (tambíen llamados regresores) X1, X2,..., Xk es Existen k parámetros constantes β1, β2,...,βk tales que Y=β1X1+β2X2+...+βkXk+ε donde ε es una perturbación aleatoria Hemos realizado observaciones del fenómemo: i.e conocemos para varias combinaciones de valores de las variables independientes cuál ha sido el valor de la variable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones de las que disponemos. El ajuste consiste en encontrar valores aproximados de los coeficientes β1, β2,...,βk. Regresión lineal múltiple. Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente al problema siguiente: un ingeniero de producción es responsable de la reducción del costo. Uno de las materias primas fundamentales en la producción es el agua. Para estudiar el consumo de agua , el ingeniero apunta durante 17 meses el consumo mensual de agua (y) junto con los siguientes indicadores: la temperatura media mensual (x2 en ºF) la producción (x3 ), el número de días de trabajo en el mes (x4) y el número de personal en la planta de producción (x5). Los datos están en el fichero agua.txt. Después de haber importado los datos (comprobar que todas las variables han sido importadas como “numéricas”), pasamos al ajuste de los datos con un modelo Y=β1X1+β2X2+β3X3+ β4X4+β5X5+ε donde ε es una perturbación aleatoria normal con media cero y varianza,σ2 y X1=1 (término constante) Para ello, al igual que para la regresión lineal simple, utilizamos la instrucción Analizar>Regresión->Lineal. Ahora pasamos las cuatro variablesX2 a X5 en el cuadro de las variables independientes. En el submenu de opciones, podemos entre otras cosas decidir excluir el término constante en el modelo, lo que no haremos en este caso. Obtenemos Resumen del modelo Modelo R R R Error típ. de la cuadrado cuadrado corregida estimación 1 ,876 ,767 ,689 248,9641 a Variables predictoras: (Constante), X5, X4, X2, X3 Ib Ia Coeficientes Coeficientes no estandarizados Modelo 1(Constante ) X2 X3 X4 X5 a Variable dependiente: Y Coeficient es estandariz ados B Error típ. 6360,337 1314,392 13,869 ,212 -126,690 -21,818 II 5,160 ,046 48,022 7,285 III t Sig. 4,839 ,000 2,688 4,648 -2,638 -2,995 ,020 ,001 ,022 ,011 Beta ,419 1,671 -,415 -1,074 IV Los recuadros se interpretan de la siguiente manera. Recuadro Ia: Proporciona el valor de R2 que es el coeficiente de determinación múltiple que nos indica la proporción de la variabilidad en los datos explicada por el modelo de regresión. Recuadro Ib: Proporciona el valor de la desviación típica residual. Recuadro II En la columna Coefficientes no estandarizados podemos leer los valores obtenidos de los coeficientes, en la línea Constante, tenemos el coeficiente de X1=1 En este caso la ecuación proporcionada es Consumo promedio= 6360.4+13.9X2+0.2X3-126.7X4+21.8X5 Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes, los podríamos utilizar para construir intervalos de confianza. Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa son significativamente distintos de 0: en la columna t, obtenemos los valores de los estadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig, podemos encontrar los p-valores de las pruebas H0 : βi=0 contra H1 : βi≠0, para cada uno de los coeficientes. En este caso todos los p-valores son pequeños, lo que implica que nos quedamos con todas las variables en el modelo. Podemos realizar con SPSS intentos de construcción de modelos. En particular podemos llevar a cabo la eliminación hacia atrás, seleccionando en el cuadro de diálogo abierto con la instrucción Analizar->Regresion->Lineal, el método “Hacia atrás”. En el cuadro Opciones, podemos fijar el valor del umbral del p-valor que fijamos para que una variable sea eliminada del modelo, cambiando el valor en “Salida”. Por defecto aparece un valor del umbral de 0.1. Continuamos y aceptamos para obtener la secuencia de modelos en los que posiblemente vayan siendo las variables eliminadas una por una hasta dar con el modelo final. En este caso puesto que todos los p-valores son menores que 0.1, el algoritmo se para en la primera iteración. Ejercicios Volumen de madera. En ingeniería forestal existe la necesidad evidente de poder predecir el volumen de madera disponible de un tronco de un árbol todavía en pie. El método más sencillo consiste en medir el diámetro cerca del suelo y la altura del tronco y estimar el volumen utilizando estas dos cantidades. En el fichero cerezos.txt están los datos de un experimento realizado en un parque nacional de Pennsylvania donde se midió con cuidado el volumen después de cortar el tronco de ( v: volumen, d: diámetro y a: altura) 1. Realizar el análisis de regresión lineal del volumen sobre el diámetro y la altura. 1. Proceda al análisis de los residuos, ¿Cuál es su diagnóstico? 2. Si se supone que el tronco es un cilindro perfecto, ¿ cuál sería la relación entre v,a y d ? Proponer una transformación sobre los datos que sea acorde con esta relación física Realizar el ajuste lineal correspondiente con especial interés en el análisis de los residuos. 3. Si se supone que el tronco es un cono perfecto, \¿ cuáles deberían ser los valores de los parámetros del apartado anterior?. Consumo de helados Se quisó identificar los factores más influyentes en el consumo de helados. Para ello se midió en una familia durante 30 semanas entre el 18 de marzo de 1953 hasta 11 de julio 1953 el consumo semanal de helado por persona (y), junto con las cantidades siguientes que se pensaba podían tener alguna influencia sobre el consumo : p el precio de una pinta de helado, i los ingresos semanales de la familia, temp : la temperatura media de la semana. También aparece el número de la semana. Los datos están en el fichero helados.dat 1. Represente gráficamente el consumo de helados en función de las semanas. 2. Determinar la matriz de correlación de las variables y,p,i y temp. Para ello se utiliza la opción Analizar->Correlaciones->bivariadas, y como es usual en SPSS pasamos desde la lista de las variables de la izquierda las variables que nos interesan. ¿Cuál es la variable que parece tener más influencia en y? 3. Realizar un ajuste lineal de y sobre p,i y temp. ¿Qué vale la varianza residual y R^2? 4. Realizar un ajuste lineal de y sobre i y temp. Misma pregunta que en el apartado anterior 5. Guarde los valores ajustados en una variable llamada ajucomp. Represente en la misma gráfica y en función de semanas y ajucomp en función de semana. Calor emitido por el fraguado de cemento. Se estudia la relación entre la composición de un cemento tipo Portland y el calor desprendido durante la fase de fraguado1. Los datos se pueden encontrar en el fichero hald.txt. La variable Y es la cantidad de calor desprendido en calorías por gramos de cemento, mientras que las variables X1, X2 X3 y X4 representan el contenido en porcentaje de cuatro productos A, B, C y D. 1. Obtener la matriz de correlaciones de las distintas variables. 2. Realizar un ajuste lineal utilizando el procedimiento de eliminación hacia atrás. Perdida de peso de un producto Se sabe que un determinado producto pierde peso después de ser producido. En el archivo peso.txt se ha recogido la diferencia (peso nominal-peso real) para varias unidades en distintos tiempos. 1. Ajustar un modelo de regresión lineal simple para explicar la evolución de la diferencia de peso en función del tiempo. 2. Realizar la gráfica de los residuos en función de los valores ajustados. ¿Le parece adecuado nuestro modelo para analizar estos datos? ¿Tiene alguna idea para mejorarlo? 3. Realizar el ajuste por un polinomio de orden 2. 1 Fuente: A. Hald, Statistical Theory with Engineering Applications, Wiley, New York, 1952, p. 647