IG12: ESTADÍSTICA DE ITIG. PRÁCTICAS DE STATGRAPHICS. PRÁCTICA 2: DESCRIPCIÓN CONJUNTA DE DOS VARIABLES. PROBLEMAS Nombre y Apellidos............................................................... Grupo .... Los gráficos y las tablas de frecuencias que no caben en su apartado, incluirlos en la parte de atrás del folio o en otro folio. 1. Se quiere investigar si es cierto que el peso de los bebés aumente linealmente en función de la edad. Se tomó una muestra de los pesos (en kg.) de bebés de varias edades (en meses), obteniéndose la siguiente tabla: edad 1 2 3 4 5 6 4.5 5.9 6.3 7.2 9.1 10.0 3.9 6.0 6.0 7.6 8.9 9.9 4.7 5.8 5.9 6.9 8.7 9.8 pesos 4.9 5.7 6.4 7.5 9.5 10.1 3.3 5.2 5.3 7.1 9.6 10.5 10.7 <untitled> introducimos datos, en dos columnas. Hay que tener en cuenta que el programa entiende que para la edad 1 mes se le asigna 5 pesos. Así en la primera columna introduciremos cinco unos: Grabamos los datos con file>save as>save datafile as>y colocamos el nombre P21.sf3 PRÁCTICAS DE STATGRAPHICS a) Hallar la recta de regresión del peso en función de la edad. Predecir el peso para 7, 10 y 15 meses. Para calcular una recta de regresión relate>simple regresion> y nos aparece: Donde en la primera columna se hemos introducido en <untitled>. encuentran las variables que En los campos de la derecha colocamos la variable dependiente Y, y la variable independiente X ya que la recta que calculará responderá al modelo Y=mX+n. Pinchamos el ok, y en el comentario en inglés aparece la recta de regresión calculada. En este análisis también aparece el coeficiente de correlación, que nos indicará si el ajuste efectuado es bueno. Para calcular las predicciones de los valores de la variable dependiente, dentro de la pantalla del cálculo de la recta de regresión, pinchamos en tabular options, y en él forecasts. Por defecto, el programa calcula una serie de predicciones, que podemos modificar en pane options. b) Halla el coeficiente de correlación y la covarianza. Para calcular la covarianza, describe>numeric data>multiple variable analysis> y en la ventana de diálogo que aparece, seleccionamos las dos variables que queremos de la ventana de la izquierda y las colocamos en la ventana de la derecha, pinchando PRÁCTICA 2: Descripción conjunta de dos variables. 2 PRÁCTICAS DE STATGRAPHICS en la flecha. ok. Nos crea un análisis que aún no es la covarianza, para calcularla, en tabular options>covariances> y obtenemos un nuevo análisis donde aparece una matriz de varianzas covarianzas. Cuando la fila y columna referente a una variable coincidan, este valor será la varianza, y cuando la fila de una variable se cruce en la columna de otra variable, obtendremos la COVARIANZA, notar que este valor se repite. Guarda los resultados en file>save as>save StatFolio as> poniendo el nombre de P21.sgp A partir de ahora al finalizar el resto de ejercicios, repetiremos las grabaciones, con P22,P23,... c) Obtener la representación de los datos en forma de nube de puntos. 2. Se quiere investigar la relación entre la elasticidad de cierto tipo de plástico y la temperatura de cocción en su fabricación. Se tomó una muestra de siete medidas sobre elasticidad para cada una de seis temperaturas, obteniendo: temperatura 100 110 120 130 140 150 113 127 136 146 150 160 118 132 144 156 157 158 elasticidad 117 118 128 129 138 139 149 148 156 160 150 153 112 130 135 151 158 155 114 126 134 147 151 150 112 129 137 150 152 151 a) Calcular y representar la recta de regresión de la elasticidad en función de la temperatura de cocción. ¿Crees que es fiable? b) De la variable elasticidad, calcula la tabla de frecuencias agrupada en 5 intervalos desde 110. Dibuja el histograma de frecuencias. c) Dibujar el histograma tridimensional considerando ambas variables continuas. Obtener la representación de los datos en forma de nube de puntos. d) Buscar alternativas al modelo de Regresión Lineal Simple (Utilización de: Tabular > Comparison of Alternative Models). ¿ Hay algún modelo mejor que el lineal? Obtener sus ajustes. PRÁCTICA 2: Descripción conjunta de dos variables. 3 PRÁCTICAS DE STATGRAPHICS a) Idem ejercicio anterior. b) Idem práctica uno. c) Para calcular un histograma tridimensional describe>categorical data>crosstabulation> Nos aparece una ventana de diálogo en la que en la columna de la izquierda, aparecen las variables, y en la columna de la derecha tres campos a completar: - Row variable: en ella colocaremos una de las dos variables, que aparecerá en el eje X. - Column variable: en ella colocaremos una de las dos varibles, que aparecerá en el eje Y. - (Select:): en ella hemos de seleccionar los 20 primeros o últimos valores de la variable, ya que con más valores no aparece el gráfico, y lo hacemos de la siguiente forma: first(20) o last(20). En el gráfico, ampliado a toda la pantalla, aparece un nuevo icono verde que sirve para dar movilidad a la representación. Pinchando en él, y posteriormente en los dos amarillos lo observaremos; para pararlo, pinchamos otra vez en los iconos amarillos. 3. Con el objetivo de ver la relación entre horas trabajadas en un taller y unidades producidas, se tomó una muestra de ambas variables, obteniéndose los siguientes resultados: X = horas de trabajo diarias Y = unidades producidas X 60 60 60 62 62 73 73 74 74 74 75 78 78 80 80 82 82 84 84 84 84 Y 250 240 245 245 250 292 292 298 300 300 300 310 314 310 310 320 336 336 336 340 340 Se pide: a) De la variable marginal 'horas de trabajo', calcular: Media, mediana, moda y varianza. b) Determinar en ambas variables el rango intercuartílico c) Calcular la recta de regresión de las unidades producidas sobre las horas de trabajo. ¿Cuál será la predicción de unidades para 70 horas de trabajo?. d) Obtener la representación de los datos en forma de nube de puntos. PRÁCTICA 2: Descripción conjunta de dos variables. 4 PRÁCTICAS DE STATGRAPHICS a) Práctica 1. b) Práctica 1. c) Primer ejercicio. 4. Sobre 16 individuos se estudian las siguientes características: el salario mensual (Y, en miles de pesetas), los años de estudio (X1) y la edad (X2). Y 200 200 300 250 175 150 150 300 300 150 175 200 175 100 150 350 X 1 17 12 17 17 13 8 8 17 12 12 12 8 8 11 13 13 X 2 28 40 32 32 36 40 30 36 34 34 36 36 40 28 30 40 Se pide: a) Calcular la media, mediana y moda de cada una de las variables. Representar gráficamente las tres de forma individual. b) ¿ Cuál es el intervalo salarial donde se encuentra el 90% de los individuos?. c) ¿Qué variable tiene mayor dispersión?. d) Estimar el salario para una persona con 15 años de estudios. ¿Cuánto vale el coeficiente de correlación lineal entre estas dos variables?. e) Obtener la representación de los datos en forma de nube de puntos. PRÁCTICA 2: Descripción conjunta de dos variables. 5 PRÁCTICAS DE STATGRAPHICS a) Práctica 1. b) Para calcular este intervalo: [a,b], tenemos varias posibilidades: - a=P0 (percentil 0, práctica 1) y b=P90. - a=P10 y b=P100. - a=P5 y b=P95. si se quiere que esté desplazado o centrado. c) La dispersión se calcula con la varianza. d) Recta de regresión y predicción del Ejercicio 1. 5. Con los datos de encuesta23 (referenciados como Datos-1-Práctica 1), obtener: a) La tabla de frecuencias agrupada de las variables: notamas – notamen b) Obtener la tabla de frecuencias marginales de las variables del apartado anterior. c) Recta de regresión de: notamas frente a notamen d) Obtener las siguientes predicciones: Si notamas es 8, qué valor tendremos en notamen? Si notamas es 10, qué valor tendremos en notamen? Si notamen es 3, qué valor tendremos en notamas? PRÁCTICA 2: Descripción conjunta de dos variables. 6