Curso 2015/16 MODELO DE REGRESIÓN LINEAL Y MÚLTIPLE ESTADÍSTICA APLICADA AL MEDIO AMBIENTE Grado en Ciencias Ambientales 3.1. En algunas reservas naturales se controla el número Y de ejemplares de cierta especie al final del año, y la temperatura media anual X. Se ajusta un modelo de regresión lineal Yi=β0+β1Xi+ui con los datos de seis reservas, para explicar la dependencia entre el tamaño de la población y la temperatura media anual. A continuación se da un resumen de la salida obtenida con el SPSS: a) Obtener estimaciones puntuales de los tres parámetros del modelo. b) ¿Tiene influencia la temperatura media anual sobre el tamaño de la población? Evaluar la fuerza de la relación mediante el coeficiente adecuado. c) Ajustamos también un modelo exponencial a los datos anteriores, obteniendo la función Ŷ=101.49e0.032X. Según este modelo exponencial, ¿cómo aumentaría o disminuiría Y cuando la temperatura media anual aumenta un grado? 3.2. (Con ordenador) Se obtuvieron los siguientes datos de la latitud del espacio natural de cría (X) y la duración del periodo de cría en días (Y) de n = 11 especies de patos buceadores: a) En base a lo que se observa en la nube de puntos, ¿es aplicable un modelo de regresión lineal para estos datos? b) Comprobar la idoneidad del modelo lineal mediante el análisis de la varianza y calcular el porcentaje de variabilidad explicado por la regresión. c) Calcular un estimador de la duración media del periodo de cría para aves cuyo espacio natural de cría está a una latitud de 35 grados. Hallar también un intervalo de confianza del 95% para este parámetro. d) Predecir la duración del periodo de cría para un ave cuyo espacio natural de cría está a una latitud de 35 grados. Hallar un intervalo de confianza del 95% para el valor predicho. 1 Curso 2015/16 3.3. (Continuación del ejercicio 1.6 y 2.6) En un nuevo experimento se trata ver la supervivencia de la línea celular PC-3 en presencia de la prodroga 5FC. Las células se sometieron a una infección falsa y se pusieron en cultivo con concentraciones de prodroga 5FC que varían desde 1 a 400 μM. Con los datos obtenidos se ajustan tres modelos diferentes: Lineal: Cuadrático: Potencia: yi = β0+ β1 xi + ui yi = β0+ β1 xi + β2 xi2 + ui Ln(yi) = Ln(β0)+ β1 Ln(xi) + ui Resumen del modelo y estimaciones de los parámetros Variable dependiente: supervivencia Ecuación Lineal Cuadrático Potencia R cuadrado ,162 ,303 ,020 Resumen del modelo F gl1 gl2 80,281 1 414 89,981 2 413 8,237 1 414 Sig. ,000 ,000 ,004 Estimaciones de los parámetros b0 b1 b2 102,000 -,025 98,930 ,062 -,00022 101,057 -,006 La variable independiente esfluorocitosina. a) ¿Cuál es el modelo de regresión que mejor describe la relación? Escribe como queda el modelo ajustado. ¿Es bueno el ajuste? b) ¿Estos datos presentan suficiente evidencia estadística para poder afirmar que la respuesta depende de la concentración de 5FC? Justifica brevemente tu respuesta considerando un nivel de significación de 0,05. c) Predecir los porcentajes de supervivencia celular para concentraciones de 5FC de 75, 150 y 300 μM. d) ¿Podemos afirmar que siempre es mejor aumentar 1 μM la concentración de 5FC? Justifica brevemente tu respuesta 3.4. ENTREGAR En la evaluación de impacto ambiental previa a la construcción de una gran infraestructura en cuencas rurales de Costa Rica, se estudia la carga media anual de sedimentos en suspensión en el período 1981-1987 (variable SSTKM, medida en t km-2) en función de la escorrentía media anual (variable QMM, medida en mm), teniendo en cuenta tanto la erosión media anual estimada (variable EROKM, medida en t km−2), como el área (variable AREA, medida en km2). Las cuencas estudiadas son unidades hidrológicas 2 Curso 2015/16 independientes en las que el uso urbano no excede del 15% del área total y el agua fluye en condiciones naturales, sin estructuras hidráulicas ni desviaciones significativas. A Continuación se presentan los resultados del análisis estadístico, realizado con la opción de “Estimación curvilínea” del SPSS, para comparar dos posibles modelos que relacionan las variables SSTKM y QMM. a) ¿Qué modelo explica un mayor porcentaje de la variabilidad observada en la variable SSTKM? ¿Qué porcentaje explica? ¿Te parece un porcentaje alto o bajo? Justifica tu respuesta. Con los residuos estandarizados obtenidos para los dos modelos se obtienen los siguientes gráficos de dispersión frente a valores pronosticados. b) El gráfico del MODELO LOGARÍTMICO, ¿qué hipótesis asumidas sobre los datos muestra claramente que no se cumplen? c) ¿Qué modelo es el más adecuado para analizar estos datos? d) Para el MODELO LINEAL, escribe la ecuación de regresión que se estima. e) Obtener la tabla ANOVA para el MODELO LOGARÍTMICO si sabemos que la suma de cuadrados total es 23,013. f) Con nivel de significación 0,05, ¿hemos encontrado suficiente evidencia estadística para poder afirmar que SSTKM depende linealmente de QMM? Justifica tu respuesta. 3 Curso 2015/16 3.5. ENTREGAR En un estudio sobre generación de residuos peligrosos en industrias del sector de artes gráficas, se quiere ver cómo influye el tamaño de la empresa. Se recogen datos en las 18 empresas del sector ubicadas en la región y en cada una se registran las toneladas de residuos peligrosos generados en un mes, el número de trabajadores y la producción en el mismo periodo de tiempo. Se analizan los resultados con el SPSS y se obtienen los siguientes resultados. a) ¿Influye significativamente el número de trabajadores en la cantidad de residuos peligrosos que se generan en las industrias de este sector? b) Estimar la cantidad media de residuos peligrosos que generan empresas de cuatro trabajadores. En una segunda fase del estudio se tienen en cuenta una nueva variable, la producción. Utilizando los mismos datos se obtienen los siguientes resultados con el SPSS: 4 Curso 2015/16 c) ¿Es explicativo el modelo en su conjunto? d) ¿Influye significativamente la producción en la cantidad de residuos peligrosos que se generan? e) ¿Influye significativamente el número de trabajadores? f) ¿Por qué crees que la respuesta a la pregunta e) es distinta a la respuesta dada en a)? g) ¿Qué modelo utilizarías? 3.6. En un estudio sobre el impacto ambiental que produce el trabajo de campo de un grupo de investigadores en la Península de Byers de la Isla de Livingston (Antártida), se analiza la compactación del suelo en los terrenos próximos al campamento. El objetivo del estudio es determinar qué factores afectan a la compactación, y para ello se consideran las siguientes variables: Y = medida de compactación (valores altos indican alta compactación) A = densidad de poblaciones animales (focas, pingüinos y aves antárticas) V = densidad de vegetación (líquenes y musgos) C = distancia al campamento en metros Con una muestra de tamaño 104 se calculan los siguientes valores: y se estima el siguiente modelo de regresión múltiple Los números entre paréntesis son los estadísticos t para cada coeficiente. a) ¿Completar la siguiente tabla ANOVA que produce el SPSS? 5 Curso 2015/16 b) Con α = 0,1, ¿hemos encontrado evidencia para afirmar que alguna de las variables influye en la compactación? c) Calcula el coeficiente de determinación corregido. d) Completar la siguiente tabla de coeficientes que produce el SPSS: e) ¿Qué variables influyen significativamente en la compactación? f) Para dos terrenos que distan del campamento uno diez metros más que el otro, y en los que se observan la misma densidad animal y la misma vegetal, estima la diferencia en compactación entre el más cercano y el más alejado. 3.7. ENTREGAR Una ONG está haciendo un estudio sobre la efectividad del método que se está siguiendo en la conservación de la tortuga carey en México. El método consiste en reubicar aquellos nidos que las tortugas han situado en un lugar inadecuado y trasladarlo a uno más seguro. Se toman datos del éxito de eclosión de las crías (porcentaje de huevos que eclosionan en cada nido) en 53 nidos de una playa, la mitad (aproximadamente) son reubicados y la otra mitad permanecen in situ (lugar en el que ponen el nido las tortugas). Una parte de los datos de campo se emplean para analizar la relación entre el porcentaje de eclosión por nido y ciertas variables que se piensa que pueden ser relevantes. En el análisis también se tiene en cuenta si el nido está reubicado (otorgando valor 1 a la variable REUBICACION), o in situ (otorgando valor 0 a la variable REUBICACION). Los resultados obtenidos con el SPSS se muestran a continuación (proyecto fin de carrera de Alfaro, 2007): 6 Curso 2015/16 a) ¿Qué tipo de variable es REUBICACION? ¿Qué otras variables se consideran inicialmente en el modelo como posiblemente relevantes en el estudio del porcentaje de eclosión? Escribir el modelo que se está utilizando en el análisis de estos datos. b) ¿Existe evidencia de que este modelo sirve para explicar el porcentaje de eclosión?, ¿qué porcentaje de la variabilidad explica? c) ¿Existe evidencia estadística para poder afirmar que en esta playa es un método efectivo la reubicación, en el sentido de que aumenta el porcentaje de eclosión de los nidos? d) Con la información que se muestra y considerando un nivel de significación 0,10, ¿cuáles de las restantes variables son realmente relevantes para explicar la eclosión en los nidos? e) Para concluir el estudio estadístico, ¿qué faltaría por hacer? 3.8. En un estudio sobre contaminación atmosférica en entornos urbanos se mide en varias ciudades de tamaño medio un indicador de contaminación atmosférica que tiene en cuenta los niveles de CO, SO2, NOX y O2. Se piensa que sobre este indicador pueden estar influyendo el índice de pluviosidad, la densidad de industrias contaminantes en el término municipal y los millones de habitantes. A continuación se presentan las salidas del SPSS del estudio realizado: a) Marcar con una cruz la casilla que mejor describa el tipo de variable de cada fila. 7 Curso 2015/16 b) ¿En cuántas ciudades de tamaño medio se ha medido el indicador de contaminación atmosférica? c) Escribe la ecuación de regresión múltiple que se ha estimado. d) Con nivel de significación 0,01, ¿qué variables influyen significativamente en la respuesta? e) Calcula el valor del coeficiente de determinación (R-cuadrado). f) ¿Qué valor del indicador de contaminación atmosférica predecirías utilizando este modelo de regresión para una ciudad con 3 millones de habitantes, un índice de pluviosidad de 250 y una densidad de 25 industrias contaminantes en el término municipal? 3.9. ENTREGAR Las recientes catástrofes ambientales provocadas por el derramamiento de fuel en el golfo de México han impulsado la investigación sobre nuevos productos para la limpieza de las aguas contaminadas. Una de las empresas más innovadoras desarrolla un nuevo producto con el que realiza una serie de pruebas en el laboratorio. Con los resultados obtenidos en 20 experimentos ajustan un modelo de regresión lineal múltiple que relaciona el valor de un índice de calidad biológica del agua (y), con el tiempo que se tarda en iniciar la actuación, medido en horas (TIEMPO), la cantidad de agua a depurar (CANT_AGUA) y el logaritmo neperiano de la cantidad del producto descontaminante empleado (LN_CANT_PROD). Algunos de los resultados que proporciona el SPSS son: a) Completa la siguiente tabla ANOVA para este modelo. 8 Curso 2015/16 b) Con nivel de significación 0,05, ¿de qué variables depende linealmente el índice de calidad del agua? c) Cada hora que pasa sin actuar, manteniéndose la misma cantidad de agua a depurar y utilizando la misma cantidad de producto, ¿el índice de calidad del agua, aumenta o disminuye?, ¿en cuántas unidades? 9