Examen Febrero 2004 - Universidad Politécnica de Cartagena

Anuncio
Universidad Politécnica de Cartagena
Dpto. Matemática Aplicada y Estadı́stica
Ingenierı́a Organización Industrial
Estadı́stica industrial
Examen Febrero 2004.
Problema 1
Se quiere estudiar la temperatura mı́nima del mes de enero en varias ciudades de Estados Unidos.
En particular se le quiere relacionar con la longitud y la latitud de la ciudad.
El fichero que contiene los datos es ustemp.txt. Contiene también los nombres de las variables.
Despúes de importar los datos, conteste a las preguntas siguientes:
2.1 Realice una representación gráfica de latitud en función de longitud. ¿ Qué información nos proporciona esta gráfica?
2.2 Realice un histograma de la temperatura. Comente sus caracterı́sticas. ¿Qué medidas de centro y
dispersión son las adecuadas?
2.3 Realice un diagrama de caja-bigotes de la variable temperatura. ¿Qué represetan las distintas
lı́neas de este diagrama? ¿Aparecen datos atı́picos? Justifique su respuesta.
2.4 Realice el análisis de regresión lineal de la temperatura sobre la latitud y la longitud. Deberá
aparecer la ecuación obtenida.
2.5 ¿ Se puede simplificar el modelo? Comentario sobre la bondad del ajuste. ¿A qué contrastes
corresponden los valores de Sig. en la última columna de Coeficientes?
2.6 Queremos intentar mejorar el ajuste. Para ello, vamos a construir un modelo progresivamente:
a) Realice la regresión lineal de la temperatura sobre la latitud. ¿Cuál es la ecuación obtenida?
¿Cuál es el valor de R2 .?
b) Guarde los residuos en una nueva variable. Representan la parte de la respuesta no explicada
por la latitud. Represente gráficamente RESID en función de la longitud. Suponiendo que
queremos ajustar un polinomio a esta curva, ¿cuál serı́a su grado?
c) Queremos ahora utilizar los resultados del apartado anterior. Queremos ajustar la temperatura
por un modelo que contenga la latitud, longitud, (longitud)2 y (longitud)3 . Después de
introducir las variables cuyos valores sean las potencias necesarias de la longitud, lleve a
cabo el análisis de regresión. ¿Ha mejorado el ajuste? ¿Cuál es su modelo final?
Problema 2
En el anuario estadı́stico de España 2002-2003, accesible desde www.ine.es, se analiza el ı́ndice de
precios al consumo durante el año 2002, básandose en los precios de consumo para distintas categorı́as
de gastos, en todas las comunidades autónomas y Ceuta y Melilla.
Los datos asociados se han recogido en dos archivos de SPSS:
• indiceprecios.sav: medias anuales en el año 2002 por comunidad autónoma.
• varindiceprecios.sav: tasas de variación de las medias anuales entre 2001 y 2002.
A parte de la comunidad autónoma, las variables presentes en los dos ficheros son las siguientes:
1
TOTAL
X1
X2
X3
X4
X5
X6
Indice ( o variación) general
Alimentos y bebidas no alcohólicas
Bebidas alcohólicas, tabaco
Vestido y calzado
Vivienda
Menaje
Medicina
X7
X8
X9
X10
X11
X12
Transportes
Comunicaciones
Ocio y cultura
Enseñanza
Hoteles, cafés, rest.
Otros
1.1 Después de abrir el fichero correspondiente, ¿cuáles son las tres comunidades autónomas con mayor
media anual para el indice de precio total? y ¿las tres con menor media anual? ¿Cuál es el rango
de la comunidad de Murcia en cuanto a precios de la vivienda?
1.2 Nos interesamos ahora por la variación interanual (fichero varindiceprecios.sav). Queremos realizar
un análisis por componentes principales.
a) ¿Cuál es el objetivo perseguido al realizar un análisis por componentes principales? ¿Qué tipo
de información podremos sacar del primer componente?
b) Tenemos dos opciones a la hora de analizar los datos: podemos trabajar con la matriz de
covarianza o con la matriz de correlaciones, ¿en qué caso es adecuado utilizar cada una de
las dos opciones?
c) Queremos estudiar las variables X1 a X12, ¿qué matriz recomienda que utilicemos? ¿la matriz
de covarianzas o la de correlaciones?
d) Realizar el análisis en componentes principales de las variables X1 a X12, utilizando la matriz
de covarianzas. ¿Con cuantos componentes se quedarı́a para describir la variabilidad del
conjunto? Justifique su respuesta.
e) Dar la expresión de los dos primeros componentes, ¿cómo se interpretan? Guardar las puntuaciones de los dos primeros componentes en variables en la hoja de cálculo. ¿Cuál es la
comunidad que más puntua en el segundo componente? ¿Qué quiere decir?
f ) Realizar una gráfica de la segunda componente sobre la primera, con etiquetas que corresponden al nombre de la comunidad autónoma. Para estas dos componentes, ¿detecta alguna
comunidad que se aleja del patrón global?
1.3 Basándose en las variables X1 a X12 del fichero de variaciones de los indices de precios, queremos
realizar una clasificación jerárquica de las comunidades utilizando el criterio de Ward con la
distancia euclı́dea al cuadrado.
a) Realice la clasificación jerárquica e imprime el dendograma.
b) Decidimos quedarnos con tres grupos utilizando este dendograma, ¿qué comunidades incluyen?
y ¿si quisieramos quedarnos con 4 grupos?
c) Realizar una comparación de la estructura deducida del dendograma y del diagrama obtenido
en el apartado 1.2 f) anterior.
1.4 En el dendograma, Ceuta y Melilla está muy destacado como grupo a parte, en qué categorı́as de
gastos se distingue mucho del resto de comunidades? Volver a realizar el análisis en componentes
principales descartando Ceuta y Melilla. ¿Son las conclusiones muy distintas del primer análisis?
2
Descargar