Ejercicios de los Temas 3 y 4

Anuncio
Curso 2015/16 MODELO DE REGRESIÓN LINEAL Y MÚLTIPLE
ESTADÍSTICA APLICADA AL MEDIO AMBIENTE
Grado en Ciencias Ambientales
3.1. En algunas reservas naturales se controla el número Y de ejemplares de cierta especie al
final del año, y la temperatura media anual X. Se ajusta un modelo de regresión lineal
Yi=β0+β1Xi+ui con los datos de seis reservas, para explicar la dependencia entre el tamaño de
la población y la temperatura media anual. A continuación se da un resumen de la salida
obtenida con el SPSS:
a) Obtener estimaciones puntuales de los tres parámetros del modelo.
b) ¿Tiene influencia la temperatura media anual sobre el tamaño de la población? Evaluar la
fuerza de la relación mediante el coeficiente adecuado.
c) Ajustamos también un modelo exponencial a los datos anteriores, obteniendo la función
Ŷ=101.49e0.032X. Según este modelo exponencial, ¿cómo aumentaría o disminuiría Y
cuando la temperatura media anual aumenta un grado?
3.2. (Con ordenador) Se obtuvieron los siguientes datos de la latitud del espacio natural de cría
(X) y la duración del periodo de cría en días (Y) de n = 11 especies de patos buceadores:
a) En base a lo que se observa en la nube de puntos, ¿es aplicable un modelo de regresión
lineal para estos datos?
b) Comprobar la idoneidad del modelo lineal mediante el análisis de la varianza y calcular el
porcentaje de variabilidad explicado por la regresión.
c) Calcular un estimador de la duración media del periodo de cría para aves cuyo espacio
natural de cría está a una latitud de 35 grados. Hallar también un intervalo de confianza del
95% para este parámetro.
d) Predecir la duración del periodo de cría para un ave cuyo espacio natural de cría está a una
latitud de 35 grados. Hallar un intervalo de confianza del 95% para el valor predicho.
1 Curso 2015/16 3.3. (Continuación del ejercicio 1.6 y 2.6) En un nuevo experimento se trata ver la
supervivencia de la línea celular PC-3 en presencia de la prodroga 5FC. Las células se
sometieron a una infección falsa y se pusieron en cultivo con concentraciones de prodroga 5FC
que varían desde 1 a 400 μM. Con los datos obtenidos se ajustan tres modelos diferentes:



Lineal:
Cuadrático:
Potencia:
yi = β0+ β1 xi + ui
yi = β0+ β1 xi + β2 xi2 + ui
Ln(yi) = Ln(β0)+ β1 Ln(xi) + ui
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: supervivencia
Ecuación
Lineal
Cuadrático
Potencia
R cuadrado
,162
,303
,020
Resumen del modelo
F
gl1
gl2
80,281
1
414
89,981
2
413
8,237
1
414
Sig.
,000
,000
,004
Estimaciones de los parámetros
b0
b1
b2
102,000
-,025
98,930
,062
-,00022
101,057
-,006
La variable independiente esfluorocitosina.
a) ¿Cuál es el modelo de regresión que mejor describe la relación? Escribe como queda el
modelo ajustado. ¿Es bueno el ajuste?
b) ¿Estos datos presentan suficiente evidencia estadística para poder afirmar que la respuesta
depende de la concentración de 5FC? Justifica brevemente tu respuesta considerando un
nivel de significación de 0,05.
c) Predecir los porcentajes de supervivencia celular para concentraciones de 5FC de 75, 150
y 300 μM.
d) ¿Podemos afirmar que siempre es mejor aumentar 1 μM la concentración de 5FC? Justifica
brevemente tu respuesta
3.4. ENTREGAR En la evaluación de impacto ambiental previa a la construcción de una gran
infraestructura en cuencas rurales de Costa Rica, se estudia la carga media anual de
sedimentos en suspensión en el período 1981-1987 (variable SSTKM, medida en t km-2) en
función de la escorrentía media anual (variable QMM, medida en mm), teniendo en cuenta
tanto la erosión media anual estimada (variable EROKM, medida en t km−2), como el área
(variable AREA, medida en km2). Las cuencas estudiadas son unidades hidrológicas
2 Curso 2015/16 independientes en las que el uso urbano no excede del 15% del área total y el agua fluye en
condiciones naturales, sin estructuras hidráulicas ni desviaciones significativas.
A Continuación se presentan los resultados del análisis estadístico, realizado con la opción de
“Estimación curvilínea” del SPSS, para comparar dos posibles modelos que relacionan las
variables SSTKM y QMM.
a) ¿Qué modelo explica un mayor porcentaje de la variabilidad observada en la variable
SSTKM? ¿Qué porcentaje explica? ¿Te parece un porcentaje alto o bajo? Justifica tu
respuesta.
Con los residuos estandarizados obtenidos para los dos modelos se obtienen los siguientes
gráficos de dispersión frente a valores pronosticados.
b) El gráfico del MODELO LOGARÍTMICO, ¿qué hipótesis asumidas sobre los datos
muestra claramente que no se cumplen?
c) ¿Qué modelo es el más adecuado para analizar estos datos?
d) Para el MODELO LINEAL, escribe la ecuación de regresión que se estima.
e) Obtener la tabla ANOVA para el MODELO LOGARÍTMICO si sabemos que la suma de
cuadrados total es 23,013.
f) Con nivel de significación 0,05, ¿hemos encontrado suficiente evidencia estadística
para poder afirmar que SSTKM depende linealmente de QMM? Justifica tu respuesta.
3 Curso 2015/16 3.5. ENTREGAR En un estudio sobre generación de residuos peligrosos en industrias del
sector de artes gráficas, se quiere ver cómo influye el tamaño de la empresa. Se recogen datos
en las 18 empresas del sector ubicadas en la región y en cada una se registran las toneladas
de residuos peligrosos generados en un mes, el número de trabajadores y la producción en el
mismo periodo de tiempo. Se analizan los resultados con el SPSS y se obtienen los siguientes
resultados.
a) ¿Influye significativamente el número de trabajadores en la cantidad de residuos peligrosos
que se generan en las industrias de este sector?
b) Estimar la cantidad media de residuos peligrosos que generan empresas de cuatro
trabajadores.
En una segunda fase del estudio se tienen en cuenta una nueva variable, la producción.
Utilizando los mismos datos se obtienen los siguientes resultados con el SPSS:
4 Curso 2015/16 c) ¿Es explicativo el modelo en su conjunto?
d) ¿Influye significativamente la producción en la cantidad de residuos peligrosos que se
generan?
e) ¿Influye significativamente el número de trabajadores?
f) ¿Por qué crees que la respuesta a la pregunta e) es distinta a la respuesta dada en a)?
g) ¿Qué modelo utilizarías?
3.6. En un estudio sobre el impacto ambiental que produce el trabajo de campo de un grupo de
investigadores en la Península de Byers de la Isla de Livingston (Antártida), se analiza la
compactación del suelo en los terrenos próximos al campamento. El objetivo del estudio es
determinar qué factores afectan a la compactación, y para ello se consideran las siguientes
variables:




Y = medida de compactación (valores altos indican alta compactación)
A = densidad de poblaciones animales (focas, pingüinos y aves antárticas)
V = densidad de vegetación (líquenes y musgos)
C = distancia al campamento en metros
Con una muestra de tamaño 104 se calculan los siguientes valores:
y se estima el siguiente modelo de regresión múltiple
Los números entre paréntesis son los estadísticos t para cada coeficiente.
a) ¿Completar la siguiente tabla ANOVA que produce el SPSS?
5 Curso 2015/16 b) Con α = 0,1, ¿hemos encontrado evidencia para afirmar que alguna de las variables influye
en la compactación?
c) Calcula el coeficiente de determinación corregido.
d) Completar la siguiente tabla de coeficientes que produce el SPSS:
e) ¿Qué variables influyen significativamente en la compactación?
f) Para dos terrenos que distan del campamento uno diez metros más que el otro, y en los
que se observan la misma densidad animal y la misma vegetal, estima la diferencia en
compactación entre el más cercano y el más alejado.
3.7. ENTREGAR Una ONG está haciendo un estudio sobre la efectividad del método que se
está siguiendo en la conservación de la tortuga carey en México. El método consiste en
reubicar aquellos nidos que las tortugas han situado en un lugar inadecuado y trasladarlo a uno
más seguro. Se toman datos del éxito de eclosión de las crías (porcentaje de huevos que
eclosionan en cada nido) en 53 nidos de una playa, la mitad (aproximadamente) son
reubicados y la otra mitad permanecen in situ (lugar en el que ponen el nido las tortugas).
Una parte de los datos de campo se emplean para analizar la relación entre el porcentaje de
eclosión por nido y ciertas variables que se piensa que pueden ser relevantes. En el análisis
también se tiene en cuenta si el nido está reubicado (otorgando valor 1 a la variable
REUBICACION), o in situ (otorgando valor 0 a la variable REUBICACION). Los resultados
obtenidos con el SPSS se muestran a continuación (proyecto fin de carrera de Alfaro, 2007):
6 Curso 2015/16 a) ¿Qué tipo de variable es REUBICACION? ¿Qué otras variables se consideran inicialmente
en el modelo como posiblemente relevantes en el estudio del porcentaje de eclosión?
Escribir el modelo que se está utilizando en el análisis de estos datos.
b) ¿Existe evidencia de que este modelo sirve para explicar el porcentaje de eclosión?, ¿qué
porcentaje de la variabilidad explica?
c) ¿Existe evidencia estadística para poder afirmar que en esta playa es un método efectivo la
reubicación, en el sentido de que aumenta el porcentaje de eclosión de los nidos?
d) Con la información que se muestra y considerando un nivel de significación 0,10, ¿cuáles
de las restantes variables son realmente relevantes para explicar la eclosión en los nidos?
e) Para concluir el estudio estadístico, ¿qué faltaría por hacer?
3.8. En un estudio sobre contaminación atmosférica en entornos urbanos se mide en varias
ciudades de tamaño medio un indicador de contaminación atmosférica que tiene en cuenta los
niveles de CO, SO2, NOX y O2. Se piensa que sobre este indicador pueden estar influyendo el
índice de pluviosidad, la densidad de industrias contaminantes en el término municipal y los
millones de habitantes. A continuación se presentan las salidas del SPSS del estudio realizado:
a) Marcar con una cruz la casilla que mejor describa el tipo de variable de cada fila.
7 Curso 2015/16 b) ¿En cuántas ciudades de tamaño medio se ha medido el indicador de contaminación
atmosférica?
c) Escribe la ecuación de regresión múltiple que se ha estimado.
d) Con nivel de significación 0,01, ¿qué variables influyen significativamente en la respuesta?
e) Calcula el valor del coeficiente de determinación (R-cuadrado).
f) ¿Qué valor del indicador de contaminación atmosférica predecirías utilizando este modelo
de regresión para una ciudad con 3 millones de habitantes, un índice de pluviosidad de 250
y una densidad de 25 industrias contaminantes en el término municipal?
3.9. ENTREGAR Las recientes catástrofes ambientales provocadas por el derramamiento de
fuel en el golfo de México han impulsado la investigación sobre nuevos productos para la
limpieza de las aguas contaminadas. Una de las empresas más innovadoras desarrolla un
nuevo producto con el que realiza una serie de pruebas en el laboratorio. Con los resultados
obtenidos en 20 experimentos ajustan un modelo de regresión lineal múltiple que relaciona el
valor de un índice de calidad biológica del agua (y), con el tiempo que se tarda en iniciar la
actuación, medido en horas (TIEMPO), la cantidad de agua a depurar (CANT_AGUA) y el
logaritmo neperiano de la cantidad del producto descontaminante empleado
(LN_CANT_PROD). Algunos de los resultados que proporciona el SPSS son:
a) Completa la siguiente tabla ANOVA para este modelo.
8 Curso 2015/16 b) Con nivel de significación 0,05, ¿de qué variables depende linealmente el índice de calidad
del agua?
c) Cada hora que pasa sin actuar, manteniéndose la misma cantidad de agua a depurar y
utilizando la misma cantidad de producto, ¿el índice de calidad del agua, aumenta o
disminuye?, ¿en cuántas unidades?
9 
Descargar