PRÁCTICA: Regresión simple

Anuncio
Estadística para documentación
PRÁCTICA: Regresión simple
Los datos que contiene el fichero BIBLIO94C.sf3 se refieren a bibliotecas públicas situadas en
distintas provincias de España. En cada caso se indica el nombre de la provincia (Centros), el nº de
volúmenes por habitante (VolH), el nº de volúmenes por prestatario (VolP), el nº de prestatarios por
habitante (PresH) y el nº de préstamos por habitante (LectH). Además se incluyen dos variables
categóricas: Region, que indica la posición de cada provincia dentro del conjunto de España, y Sala,
que indica si la biblioteca en cuestión tiene o no sala de lectura. Responde a las siguientes preguntas
utilizando cuando sea necesario el programa Statgraphics.
Vamos a estudiar la posiblidad de predecir la variable LectH a partir de PresH. Para ello, responde a
las siguientes preguntas.
1. Estudia la existencia o no de correlación lineal entre las variables LectH y PresH, a partir
del diagrama de dispersión, y de los coeficientes de correlación de Pearson y Spearman.
2. ¿Cuánto vale la covarianza? ¿Qué indica su signo?
3. Estudia de nuevo la correlación lineal, imponiendo la restricción de que PresH<0,9 (en
Selección, escribe PresH<0,9). ¿Por qué crees que esto es recomendable (SUGERENCIA:
mira el diagrama de dispersión)? Justifica, a partir del nuevo diagrama de dispersión y del
valor del coeficiente de correlación, porque el modelo mejora en este caso. En lo que sigue,
realiza los cálculos con estos datos.
4. Escribe la ecuación del modelo lineal que proporciona Statgraphics para explicar la variable
LectH a partir de PresH. Con este modelo, ¿qué valor de LectH cabría esperar para un valor
de PresH de 0’67?
5. ¿Hay algún modelo mejor que el lineal?
6. Calcula los residuos atípicos. ¿A qué bibliotecas corresponden?
7. Guarda los residuos. Comprueba que NO se satisface la hipótesis de normalidad para los
residuos. Desde la ventana correspondiente al contraste de normalidad, a la derecha, puedes
ver en el gráfico que la razón está en los datos correspondientes a las bibliotecas con residuos
atípicos (AVILA y LUGO).
8. Realiza otra vez el estudio de correlación lineal (Dependencia + Regresión Simple)
imponiendo las restricciones PresH<0’9 & Centros<>”ÁVILA” & Centros<>”LUGO” (es
decir, excluyendo ahora las bibliotecas con residuos atípicos). ¿Aumenta el coeficiente de
correlación? Vuelve a guardar los residuos, y comprueba que ahora sí se satisfacen las
hipótesis de normalidad y aleatoriedad.
9. ¿Dirías a un nivel del 5% que existe correlación lineal entre ambas variables? ¿En qué medida
está explicando este modelo la variabilidad de la variable LectH (recuerda que el porcentaje
de variablidad explicada es el R-cuadrado)? ¿Confirma el valor del R-cuadrado la idea de que
el modelo lineal es una buena opción, en este caso?
10. Escribe la ecuación de la recta de regresión que proporciona ahora Statgraphics para predecir
la variable LectH a partir de PresH. ¿Crees que se podría eliminar algún parámetro? ¿Cómo
quedaría el modelo, entonces?
11. A partir de los coeficientes de Pearson y Spearman, contrasta de nuevo a un nivel del 5% la
existencia de una relación lineal entre las variables.
12. Da una estimación puntual y un intervalo de confianza del 95% para el nº de prestamos por
habitante en una biblioteca en que haya un prestatario por cada diez habitantes.
El fichero clase98.sf3 contiene datos sobre las medidas anatómicas (pie, tobillo, brazo, espalada,
peso, estatura, etc.) de varios individuos, junto con algunas otras variables (sexo, grupo sanguíneo).
Vamos a estudiar, a partir de estos datos, la relación entre la variable Estatura, y la variable Pie.
Utiliza, en lo que sigue, un nivel de significación del 4%.
13. Calcula una recta de regresión que explique Estatura, a partir de Pie. ¿Dirías a un nivel del
4% que existe una relación del tipo Y  a  bX entre ambas variables? Explica qué
contrastes de hipótesis, de los que muestra la pantalla de Statgraphics en la que te encuentras,
están apoyando esta afirmación.
14. Estima la covarianza entre ellas. Calcula los coeficientes de correlación de Pearson y
Spearman. ¿Qué contrastes de hipótesis sobre estos coeficientes están apoyando la existencia
de correlación lineal entre las variables, al nivel de significación fijado?
15. Comprueba que los residuos son aleatorios y de media próxima a cero. ¿Cuál es el mayor
residuo que observas?
16. ¿Qué porcentaje de variabilidad de la variable Estatura está explicando el modelo? (Recuerda
que este porcentaje se corresponde con el Coeficiente de Determinación ó R-cuadrado).
¿Crees que podría utilizarse algún otro modelo mejor que el lineal?
17. ¿Qué estatura cabría esperar para un individuo que calzara un 44? Da una estimación puntual
y un intervalo de confianza del 95%.
18. ¿Cuál es el dato más influyente? Identifícalo en el diagrama de dispersión.
Descargar