Solución modelo B

Anuncio
UNIVERSIDAD CARLOS III DE MADRID
Grado en Ingenierı́a Industrial
Estadı́stica
16 de mayo de 2013
No lista
Grupo
Apellidos
Nombre
El fichero datos 16m.sgd contiene información sobre el rendimiento de 150 jugadores de baseball.
las variables que se consideran son: Carreras, Hits, Dobles, Triples, Home Runs (número de
incidencias registradas en la vida deportiva del jugador), Proporcion bateo y además la variable
dicotómica Tipo de jugador (0=aficionado, 1=profesional).
1. Conteste a las siguientes cuestiones rellenando los huecos.
a) (0.25 puntos) El número medio de hits es 1650, 46, mientras que su varianza es 643255.
b) (0.25 puntos) Dibuja un box-plot múltiple de las variable número de carreras según el tipo de
jugador.
Figura 1: Box-plot (1.b)
c) (0.25 puntos) El 90 % de los profesionales han realizado al menos 29 HomeRuns.
d) (0.25 puntos) El porcentaje de profesionales con una proporción de bateo entre 0,3 y 0,35 es
59, 32 %.
2. (0.5 puntos) Para la variable Proporcion bateo, ¿se puede asumir Normalidad en ambos tipos
de jugadores según el test Chi-cuadrado de bondad de ajuste? (α = 0,05)
p-valor contraste χ2
Conclusiones
P (Proporcion bateo> 0,3)
p−valor> 0, 05
Aficionado
0,619125 (11 d.f.) No rechazamos la hipótesis 0,0220413
ó 0,341704 (20 d.f.)
que proviene de una
Normal, con parámetros
N (0, 263462; (0, 0181483)2 )
p−valor> 0, 05
Profesional
0,883259 (9 d.f.)
ó 0,911246 (17 d.f.)
No rechazamos la hipótesis 0,635423
que proviene de una
Normal, con parámetros
N (0, 308305; (0, 0239858)2 )
3. (0.5 puntos) ¿Tienen ambos tipos de jugadores (aficionados y profesionales) la misma variabilidad
en la proporción de bateo? (α = 0,05)
Datos de
H0
H1
la muestra
Tipo de
p-valor
Conclusiones
contraste
n1 = 91
σ1 = σ2
ó
σ1 6= σ2
ó
n2 = 59
σ12 = σ22
σ12 6= σ22
σ̂1 = 0, 0181483
p-valor< 0, 05. Ambos
Ratio de
0,0171258 tipos de jugadores no
varianzas
tienen la misma
σ̂2 = 0, 0239858
variabilidad de bateo
4. (0.5 puntos) ¿Es el promedio de la proporción de bateo de los profesionales superior a la de los
aficionados? (α = 0,05)
Datos de
H0
H1
la muestra
Tipo de
p-valor
Conclusiones
contraste
n1 = 91
p-valor< 0, 05.
n2 = 59
µ2 ≤ µ1
µ̂1 = 0, 263462
o
µ̂2 = 0, 308305
µ2 = µ1
µ2 > µ1
Diferencia de
medias
0
El promedio de la
proporción de bateo
de los profesionales es superior a la de los aficionados
5. (0.5 puntos) ¿Podemos afirmar que el promedio de la proporción de bateo de los profesionales es
superior a 0,3? (α = 0,05)
Datos de
H0
H1
Tipo de
la muestra
p-valor
Conclusiones
contraste
p-valor< 0, 05.
n1 = 59
µ1 ≤ 0, 3 µ1 > 0, 3
ó
µ̂1 = 0, 263462
µ1 = 0, 3
De media
0,005
Podemos afirmar
que el promedio de la
proporción de bateo
de los profesionales es superior a 0,3
6. Un proveedor fabrica rotores para una empresa de motores eléctricos. Para el control de la calidad
de estos rotores se tomaron 20 muestras de 5 rotores a los que se midió la logitud del eje, que se
supone sigue distribución normal. Se sabe que la empresa no admite como buenos los rotores cuya
longitud de eje esté fuera del intervalo [49,7; 50,3].
a) (0.5 puntos) Al calcular los lı́mites de los gráficos de control para medias y rangos. ¿Hubo que
eliminar alguna muestra? S1, ¿cuáles? 6 (50,3);8 (50,263);9 (1,133);11 (49,73) y 19 (49,59).
b) (0.5 puntos) ¿Cuál es el ı́ndice de capacidad del proceso? 0, 61228
c) (0.75 puntos) Los datos de la variable Producción en lı́nea se utilizan para efectuar un monitoreo con muestras de 4 ejes. ¿Qué muestras indican una situación anómala? 4 y 50. De ellas
están fuera de algún lı́mite de control las muestras: Sı́, la muestra 50..
d) (0.5) ¿Cuál es la proporción de rotores defectuosos fabricados en condiciones de control? 0, 0663392
Sea X ∼ N (49, 9954; (0, 163323)2 ).
P (def ectuosos) =
=
=
=
1 − P (bueno)
1 − P (49,7 < X < 50,3)
1 − 0, 933661
0, 0663392
e) (0.75) Los rotores se embalan en lotes de 20 unidades, ¿cuál es la probabilidad de que un lote
tenga, al menos, 2 rotores defectuosos?
Sea X ∼ Bin(0, 0663392; 20).
Entonces,
P (X ≥ 2) =
=
=
=
=
=
1 − P (X < 2)
1 − P (X ≤ 1)
1 − (P (X = 0) + P (X = 1))
1 − (0, 253385 + 0, 360075)
1 − 0, 613461
0, 386539
f) (0.5 puntos) Si el proceso sufre un incremento de 0,5 en la desviación tı́pica del eje (la media
no varı́a), ¿cuál es la probabilidad de detección de esta alteración en el gráfico de medias?
Sea Y ∼ N (49,9954; (0,663323)2 )
;
Y ∼ N (49,9954; (0,663323)2 /5)
P (Y ≤ 49,7763) + P (Y ≥ 50,2145) = 0,46
7. El fichero datos reg 16m.sf6 muestra la renta (Variable Renta) que obtienen 531 trabajadores
en función de su experiencia laboral (Variable Experiencia), antigüedad en la empresa (Variable
Antiguedad), un indicador de su categorı́a profesional, siendo 0 la mı́nima y 10 la máxima (Variable
Categoria) Se pide:
a) (1 punto) Realizar las tres regresiones simples para explicar la renta. Escribirlas correctamente
indicando en todas ellas si la variables es significativa y porqué. Analizar y hacer diagnosis
únicamente de la regresión correspondiente a Experiencia. ¿Cuánto varı́a la renta si varı́a la
experiencia? ¿Cuál de las regresiones es la mejor y porqué?
Experiencia (Con análisis completo)
Renta = 1347, 8 + 44, 0177(Experiencia)
(12, 6304)
(0, 0000)
2
R = 23, 1694 %
El estadı́stico t en valor absoluto es mayor que 2, por lo que la variable Experiencia
es significativa.
Podemos verificar en la fig. , que los residuos carecen de estructura, por lo que
nuestra estimación es correcta.
Si Experiencia aumenta en 1 unidad, entonces Renta aumenta en 44, 0177 unidades.
Figura 2: Residuals vs. Predicted
Antiguedad (Únicamente escribir)
Renta = 1965, 21 − 4, 11964(Antiguedad)
(−1, 94265)
(0, 0526)
2
R = 0, 708349 %
El estadı́stico t en valor absoluto es menor que 2, por lo que la variable Antiguedad
no es significativa.
Categoria (Únicamente escribir)
Renta = 1467, 85 + 95, 5018(Categoria)
(18, 7444)
(0, 0000)
2
R = 39, 9104 %
El estadı́stico t en valor absoluto es mayor que 2, por lo que la variable Categorı́a
es significativa.
En base al porcentaje de variabilidad explicada de la variable dependiente (R2 ), el mejor modelo
serı́a el basado en Categorı́a ya que consigue explicar el mayor porcentaje de variabilidad de
la variable dependiente.
b) (0.5 puntos) Realizar la regresión múltiple con las tres variables anteriores, escribirla correctamente, analizarla e indicar si existe algún problema.
Renta = 932, 553 + 43, 104(Experiencia) − 1, 64864(Antiguedad) + 93, 9334(Categoria)
(17, 6037)
(−1, 25381)
(23, 128)
(0, 0000)
(0, 2105)
(0, 0000)
2
R ajustado = 62, 0119 %
Podemos observar que la variable Antiguedad tiene un p- valor > 0, 05 y el estadı́stico t es menor
que 2, por lo que no es una variable significativa, por lo tanto debemos eliminarla del modelo.
c) (1.25 punto) Realizar la mejor regresión posible con las variables cuantitativas y escribirla correctamente, realizar la diagnosis de la misma e indicar las variaciones de Renta si varı́an las
variables presentes en la regresión
Después de analizar todas las posibles regresiones que se pueden generar con las variables, se
ha escogido el siguiente modelo,
Renta = 912, 722 + 43, 0963(Experiencia) + 94, 3518(Categoria)
(17, 5911)
(23, 2972)
(0, 0000)
(0, 0007)
2
R ajustado = 61, 9707 %
ya que porcentaje de variabilidad explicada de la variable dependiente (R2 ), era el mayor de
todos los posibles modelos.
Podemos verificar en la fig. , que los residuos carecen de estructura, por lo que nuestra estimación
es correcta.
Si Experiencia aumenta en 1 unidad, y el resto de las variables permanecen constantes, entonces Renta aumenta en 43, 0963 unidades.
Si Categoria aumenta en 1 unidad, y el resto de las variables permanecen constantes, entonces
Renta aumenta en 94, 3518 unidades.
Figura 3: Residuals vs. Predicted
d) (0.75 puntos) Disponemos de datos sobre el sector de actividad económica en que estos trabajadores realizan su labor. Los sectores se clasifican en Agricultura, Industria y Servicios. Cada
trabajador tiene un 1 en el sector que le corresponde y un 0 en los demás. Se pide introducir en
la regresión del apartado anterior el sector de actividad (Se recomienda excluir el sector Agricultura), escribir la regresión correspondiente e indicar el impacto que tiene sobre la renta de
una persona estar en los sectores Industria y Servicios respecto a estar en el sector Agricultura.
Renta = 745, 564 + 46, 5833(Experiencia) + 94, 6035(Categoria) + 160, 054(Industria)
+183, 024(Servicios)
Si el resto de las variables permanecen constantes, Renta es 160, 054 unidades mayor si un trabajador
pertenece al sector Industria si se le compara con el sector Agricultura
Si el resto de las variables permanecen constantes, Renta es 183, 024 unidades menor si un trabajador
pertenece al sector Servicios si se le compara con el sector Agricultura
Descargar