Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Ingenierı́a Organización Industrial Estadı́stica industrial Examen Febrero 2004. Problema 1 Se quiere estudiar la temperatura mı́nima del mes de enero en varias ciudades de Estados Unidos. En particular se le quiere relacionar con la longitud y la latitud de la ciudad. El fichero que contiene los datos es ustemp.txt. Contiene también los nombres de las variables. Despúes de importar los datos, conteste a las preguntas siguientes: 2.1 Realice una representación gráfica de latitud en función de longitud. ¿ Qué información nos proporciona esta gráfica? 2.2 Realice un histograma de la temperatura. Comente sus caracterı́sticas. ¿Qué medidas de centro y dispersión son las adecuadas? 2.3 Realice un diagrama de caja-bigotes de la variable temperatura. ¿Qué represetan las distintas lı́neas de este diagrama? ¿Aparecen datos atı́picos? Justifique su respuesta. 2.4 Realice el análisis de regresión lineal de la temperatura sobre la latitud y la longitud. Deberá aparecer la ecuación obtenida. 2.5 ¿ Se puede simplificar el modelo? Comentario sobre la bondad del ajuste. ¿A qué contrastes corresponden los valores de Sig. en la última columna de Coeficientes? 2.6 Queremos intentar mejorar el ajuste. Para ello, vamos a construir un modelo progresivamente: a) Realice la regresión lineal de la temperatura sobre la latitud. ¿Cuál es la ecuación obtenida? ¿Cuál es el valor de R2 .? b) Guarde los residuos en una nueva variable. Representan la parte de la respuesta no explicada por la latitud. Represente gráficamente RESID en función de la longitud. Suponiendo que queremos ajustar un polinomio a esta curva, ¿cuál serı́a su grado? c) Queremos ahora utilizar los resultados del apartado anterior. Queremos ajustar la temperatura por un modelo que contenga la latitud, longitud, (longitud)2 y (longitud)3 . Después de introducir las variables cuyos valores sean las potencias necesarias de la longitud, lleve a cabo el análisis de regresión. ¿Ha mejorado el ajuste? ¿Cuál es su modelo final? Problema 2 En el anuario estadı́stico de España 2002-2003, accesible desde www.ine.es, se analiza el ı́ndice de precios al consumo durante el año 2002, básandose en los precios de consumo para distintas categorı́as de gastos, en todas las comunidades autónomas y Ceuta y Melilla. Los datos asociados se han recogido en dos archivos de SPSS: • indiceprecios.sav: medias anuales en el año 2002 por comunidad autónoma. • varindiceprecios.sav: tasas de variación de las medias anuales entre 2001 y 2002. A parte de la comunidad autónoma, las variables presentes en los dos ficheros son las siguientes: 1 TOTAL X1 X2 X3 X4 X5 X6 Indice ( o variación) general Alimentos y bebidas no alcohólicas Bebidas alcohólicas, tabaco Vestido y calzado Vivienda Menaje Medicina X7 X8 X9 X10 X11 X12 Transportes Comunicaciones Ocio y cultura Enseñanza Hoteles, cafés, rest. Otros 1.1 Después de abrir el fichero correspondiente, ¿cuáles son las tres comunidades autónomas con mayor media anual para el indice de precio total? y ¿las tres con menor media anual? ¿Cuál es el rango de la comunidad de Murcia en cuanto a precios de la vivienda? 1.2 Nos interesamos ahora por la variación interanual (fichero varindiceprecios.sav). Queremos realizar un análisis por componentes principales. a) ¿Cuál es el objetivo perseguido al realizar un análisis por componentes principales? ¿Qué tipo de información podremos sacar del primer componente? b) Tenemos dos opciones a la hora de analizar los datos: podemos trabajar con la matriz de covarianza o con la matriz de correlaciones, ¿en qué caso es adecuado utilizar cada una de las dos opciones? c) Queremos estudiar las variables X1 a X12, ¿qué matriz recomienda que utilicemos? ¿la matriz de covarianzas o la de correlaciones? d) Realizar el análisis en componentes principales de las variables X1 a X12, utilizando la matriz de covarianzas. ¿Con cuantos componentes se quedarı́a para describir la variabilidad del conjunto? Justifique su respuesta. e) Dar la expresión de los dos primeros componentes, ¿cómo se interpretan? Guardar las puntuaciones de los dos primeros componentes en variables en la hoja de cálculo. ¿Cuál es la comunidad que más puntua en el segundo componente? ¿Qué quiere decir? f ) Realizar una gráfica de la segunda componente sobre la primera, con etiquetas que corresponden al nombre de la comunidad autónoma. Para estas dos componentes, ¿detecta alguna comunidad que se aleja del patrón global? 1.3 Basándose en las variables X1 a X12 del fichero de variaciones de los indices de precios, queremos realizar una clasificación jerárquica de las comunidades utilizando el criterio de Ward con la distancia euclı́dea al cuadrado. a) Realice la clasificación jerárquica e imprime el dendograma. b) Decidimos quedarnos con tres grupos utilizando este dendograma, ¿qué comunidades incluyen? y ¿si quisieramos quedarnos con 4 grupos? c) Realizar una comparación de la estructura deducida del dendograma y del diagrama obtenido en el apartado 1.2 f) anterior. 1.4 En el dendograma, Ceuta y Melilla está muy destacado como grupo a parte, en qué categorı́as de gastos se distingue mucho del resto de comunidades? Volver a realizar el análisis en componentes principales descartando Ceuta y Melilla. ¿Son las conclusiones muy distintas del primer análisis? 2