UNIVERSIDAD CARLOS III DE MADRID Grado en Ingenierı́a Industrial Estadı́stica 16 de mayo de 2013 No lista Grupo Apellidos Nombre El fichero datos 16m.sgd contiene información sobre el rendimiento de 150 jugadores de baseball. las variables que se consideran son: Carreras, Hits, Dobles, Triples, Home Runs (número de incidencias registradas en la vida deportiva del jugador), Proporcion bateo y además la variable dicotómica Tipo de jugador (0=aficionado, 1=profesional). 1. Conteste a las siguientes cuestiones rellenando los huecos. a) (0.25 puntos) El número medio de hits es 1650, 46, mientras que su varianza es 643255. b) (0.25 puntos) Dibuja un box-plot múltiple de las variable número de carreras según el tipo de jugador. Figura 1: Box-plot (1.b) c) (0.25 puntos) El 90 % de los profesionales han realizado al menos 29 HomeRuns. d) (0.25 puntos) El porcentaje de profesionales con una proporción de bateo entre 0,3 y 0,35 es 59, 32 %. 2. (0.5 puntos) Para la variable Proporcion bateo, ¿se puede asumir Normalidad en ambos tipos de jugadores según el test Chi-cuadrado de bondad de ajuste? (α = 0,05) p-valor contraste χ2 Conclusiones P (Proporcion bateo> 0,3) p−valor> 0, 05 Aficionado 0,619125 (11 d.f.) No rechazamos la hipótesis 0,0220413 ó 0,341704 (20 d.f.) que proviene de una Normal, con parámetros N (0, 263462; (0, 0181483)2 ) p−valor> 0, 05 Profesional 0,883259 (9 d.f.) ó 0,911246 (17 d.f.) No rechazamos la hipótesis 0,635423 que proviene de una Normal, con parámetros N (0, 308305; (0, 0239858)2 ) 3. (0.5 puntos) ¿Tienen ambos tipos de jugadores (aficionados y profesionales) la misma variabilidad en la proporción de bateo? (α = 0,05) Datos de H0 H1 la muestra Tipo de p-valor Conclusiones contraste n1 = 91 σ1 = σ2 ó σ1 6= σ2 ó n2 = 59 σ12 = σ22 σ12 6= σ22 σ̂1 = 0, 0181483 p-valor< 0, 05. Ambos Ratio de 0,0171258 tipos de jugadores no varianzas tienen la misma σ̂2 = 0, 0239858 variabilidad de bateo 4. (0.5 puntos) ¿Es el promedio de la proporción de bateo de los profesionales superior a la de los aficionados? (α = 0,05) Datos de H0 H1 la muestra Tipo de p-valor Conclusiones contraste n1 = 91 p-valor< 0, 05. n2 = 59 µ2 ≤ µ1 µ̂1 = 0, 263462 o µ̂2 = 0, 308305 µ2 = µ1 µ2 > µ1 Diferencia de medias 0 El promedio de la proporción de bateo de los profesionales es superior a la de los aficionados 5. (0.5 puntos) ¿Podemos afirmar que el promedio de la proporción de bateo de los profesionales es superior a 0,3? (α = 0,05) Datos de H0 H1 Tipo de la muestra p-valor Conclusiones contraste p-valor< 0, 05. n1 = 59 µ1 ≤ 0, 3 µ1 > 0, 3 ó µ̂1 = 0, 263462 µ1 = 0, 3 De media 0,005 Podemos afirmar que el promedio de la proporción de bateo de los profesionales es superior a 0,3 6. Un proveedor fabrica rotores para una empresa de motores eléctricos. Para el control de la calidad de estos rotores se tomaron 20 muestras de 5 rotores a los que se midió la logitud del eje, que se supone sigue distribución normal. Se sabe que la empresa no admite como buenos los rotores cuya longitud de eje esté fuera del intervalo [49,7; 50,3]. a) (0.5 puntos) Al calcular los lı́mites de los gráficos de control para medias y rangos. ¿Hubo que eliminar alguna muestra? S1, ¿cuáles? 6 (50,3);8 (50,263);9 (1,133);11 (49,73) y 19 (49,59). b) (0.5 puntos) ¿Cuál es el ı́ndice de capacidad del proceso? 0, 61228 c) (0.75 puntos) Los datos de la variable Producción en lı́nea se utilizan para efectuar un monitoreo con muestras de 4 ejes. ¿Qué muestras indican una situación anómala? 4 y 50. De ellas están fuera de algún lı́mite de control las muestras: Sı́, la muestra 50.. d) (0.5) ¿Cuál es la proporción de rotores defectuosos fabricados en condiciones de control? 0, 0663392 Sea X ∼ N (49, 9954; (0, 163323)2 ). P (def ectuosos) = = = = 1 − P (bueno) 1 − P (49,7 < X < 50,3) 1 − 0, 933661 0, 0663392 e) (0.75) Los rotores se embalan en lotes de 20 unidades, ¿cuál es la probabilidad de que un lote tenga, al menos, 2 rotores defectuosos? Sea X ∼ Bin(0, 0663392; 20). Entonces, P (X ≥ 2) = = = = = = 1 − P (X < 2) 1 − P (X ≤ 1) 1 − (P (X = 0) + P (X = 1)) 1 − (0, 253385 + 0, 360075) 1 − 0, 613461 0, 386539 f) (0.5 puntos) Si el proceso sufre un incremento de 0,5 en la desviación tı́pica del eje (la media no varı́a), ¿cuál es la probabilidad de detección de esta alteración en el gráfico de medias? Sea Y ∼ N (49,9954; (0,663323)2 ) ; Y ∼ N (49,9954; (0,663323)2 /5) P (Y ≤ 49,7763) + P (Y ≥ 50,2145) = 0,46 7. El fichero datos reg 16m.sf6 muestra la renta (Variable Renta) que obtienen 531 trabajadores en función de su experiencia laboral (Variable Experiencia), antigüedad en la empresa (Variable Antiguedad), un indicador de su categorı́a profesional, siendo 0 la mı́nima y 10 la máxima (Variable Categoria) Se pide: a) (1 punto) Realizar las tres regresiones simples para explicar la renta. Escribirlas correctamente indicando en todas ellas si la variables es significativa y porqué. Analizar y hacer diagnosis únicamente de la regresión correspondiente a Experiencia. ¿Cuánto varı́a la renta si varı́a la experiencia? ¿Cuál de las regresiones es la mejor y porqué? Experiencia (Con análisis completo) Renta = 1347, 8 + 44, 0177(Experiencia) (12, 6304) (0, 0000) 2 R = 23, 1694 % El estadı́stico t en valor absoluto es mayor que 2, por lo que la variable Experiencia es significativa. Podemos verificar en la fig. , que los residuos carecen de estructura, por lo que nuestra estimación es correcta. Si Experiencia aumenta en 1 unidad, entonces Renta aumenta en 44, 0177 unidades. Figura 2: Residuals vs. Predicted Antiguedad (Únicamente escribir) Renta = 1965, 21 − 4, 11964(Antiguedad) (−1, 94265) (0, 0526) 2 R = 0, 708349 % El estadı́stico t en valor absoluto es menor que 2, por lo que la variable Antiguedad no es significativa. Categoria (Únicamente escribir) Renta = 1467, 85 + 95, 5018(Categoria) (18, 7444) (0, 0000) 2 R = 39, 9104 % El estadı́stico t en valor absoluto es mayor que 2, por lo que la variable Categorı́a es significativa. En base al porcentaje de variabilidad explicada de la variable dependiente (R2 ), el mejor modelo serı́a el basado en Categorı́a ya que consigue explicar el mayor porcentaje de variabilidad de la variable dependiente. b) (0.5 puntos) Realizar la regresión múltiple con las tres variables anteriores, escribirla correctamente, analizarla e indicar si existe algún problema. Renta = 932, 553 + 43, 104(Experiencia) − 1, 64864(Antiguedad) + 93, 9334(Categoria) (17, 6037) (−1, 25381) (23, 128) (0, 0000) (0, 2105) (0, 0000) 2 R ajustado = 62, 0119 % Podemos observar que la variable Antiguedad tiene un p- valor > 0, 05 y el estadı́stico t es menor que 2, por lo que no es una variable significativa, por lo tanto debemos eliminarla del modelo. c) (1.25 punto) Realizar la mejor regresión posible con las variables cuantitativas y escribirla correctamente, realizar la diagnosis de la misma e indicar las variaciones de Renta si varı́an las variables presentes en la regresión Después de analizar todas las posibles regresiones que se pueden generar con las variables, se ha escogido el siguiente modelo, Renta = 912, 722 + 43, 0963(Experiencia) + 94, 3518(Categoria) (17, 5911) (23, 2972) (0, 0000) (0, 0007) 2 R ajustado = 61, 9707 % ya que porcentaje de variabilidad explicada de la variable dependiente (R2 ), era el mayor de todos los posibles modelos. Podemos verificar en la fig. , que los residuos carecen de estructura, por lo que nuestra estimación es correcta. Si Experiencia aumenta en 1 unidad, y el resto de las variables permanecen constantes, entonces Renta aumenta en 43, 0963 unidades. Si Categoria aumenta en 1 unidad, y el resto de las variables permanecen constantes, entonces Renta aumenta en 94, 3518 unidades. Figura 3: Residuals vs. Predicted d) (0.75 puntos) Disponemos de datos sobre el sector de actividad económica en que estos trabajadores realizan su labor. Los sectores se clasifican en Agricultura, Industria y Servicios. Cada trabajador tiene un 1 en el sector que le corresponde y un 0 en los demás. Se pide introducir en la regresión del apartado anterior el sector de actividad (Se recomienda excluir el sector Agricultura), escribir la regresión correspondiente e indicar el impacto que tiene sobre la renta de una persona estar en los sectores Industria y Servicios respecto a estar en el sector Agricultura. Renta = 745, 564 + 46, 5833(Experiencia) + 94, 6035(Categoria) + 160, 054(Industria) +183, 024(Servicios) Si el resto de las variables permanecen constantes, Renta es 160, 054 unidades mayor si un trabajador pertenece al sector Industria si se le compara con el sector Agricultura Si el resto de las variables permanecen constantes, Renta es 183, 024 unidades menor si un trabajador pertenece al sector Servicios si se le compara con el sector Agricultura