Examen del 15/12/2015 con solución

Anuncio
ESTADISTICA Y SUS APLICACIONES EN
CIENCIAS SOCIALES.
Examen
Montevideo, 15 de diciembre de 2015.
Libre
Nombre: _________________________________________
C.I.:
Reglamentado
EXAMEN
_________________________________________
El examen consta de dos partes. La primera parte debe ser realizada por todos los alumnos y el tiempo
previsto es de 2 horas. La segunda parte debe ser realizada sólo por los alumnos libres. El tiempo adicional
para esta segunda parte es de 1 hora.
PRIMERA PARTE
Libre
EXAMEN
Reglamentado
________
Ejercicio 1 (20 puntos)
En primaria están interesados en analizar si hombres o mujeres presentan mayor sobrepeso. Por tal motivo
se realiza un relevamiento del peso y la altura de los asistentes a fin de saber si hay una relación entre estas
variables. Se plantea el siguiente modelo:
(
)
(
)
Libre
Reglamentado
donde peso es el peso en kilogramos de los asistentes de primaria,EXAMEN
altura es la altura
en centímetros y mujer
________
es una variable que toma valor 1 si la observación corresponde a una mujer.
Se estimó la regresión mediante MCO. Los resultados son los que se presentan en la siguiente tabla:
Source |
SS
df
MS
-------------+-----------------------------Modelo | 45.5532233
2 22.7766117
Residuos | 135.853331 4068 .033395607
-------------+-----------------------------Total | 181.406554 4070 .044571635
Number of obs =
4071
F( 2, 4068) = 682.02
Prob > F
= 0.0000
R-squared
=
xxxxx
Libre
Reglamentado
Adj R-squared =
xxxxx
Root MSE
= .18274
EXAMEN
________
-----------------------------------------------------------------------------log(peso) |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------log(altura) |
1.598961
0.06751
xxxxx
0.000
1.466604
1.731317
mujer | -0.034918
0.007868
-4.44
0.000
-.0503454
-.0194924
_cons | -4.623369
0.412140
-11.22
0.000
-5.43139
-3.815348
------------------------------------------------------------------------------
Libre
Reglamentado
a) Interprete el coeficiente asociado a la variable altura.
EXAMEN
________
b) La variable que indica si la observación es mujer, ¿es significativos al 5% para determinar el peso?
Responda utilizando los datos de la tabla sin realizar cálculos adicionales.
c) Contraste la siguiente hipótesis: “la altura no influye en el peso de los estudiantes una vez que se ha
controlado por el género”. Explique cuál sería la hipótesis nula de este contraste, la hipótesis
alternativa (puede suponer la que quiera), el estadístico utilizado para la prueba de hipótesis,
la regla de rechazo y su conclusión a un nivel de significancia del 5%.Libre Reglamentado
d) Calcule el R2 y el R2-ajustado de este modelo como indicadores de la bondad de ajuste del modelo.
EXAMEN
________
Evalúe el ajuste del modelo.
Ejercicio 2 (20 puntos)
Una variable aleatoria X sigue una distribución Uniforme[a,b], con parámetros a = 10 y b = 50.
a) Hallar la media de la distribución
b) Determinar el valor de la variable que acumula una probabilidad de 95 % para valores menores o
iguales (percentil 95 de la distribución).
c) Calcular P(20 < X ≤ 45).
Ejercicio 3 (20 puntos)
Del total de jóvenes entre 14 y 29 años de edad del país, un 16,5 % no estudia ni trabaja. Entre las mujeres
entre 14 y 29 años de edad, la proporción que no estudia ni trabaja es 21,5 %, mientras que en el grupo de
los varones del mismo tramo de edad dicha proporción es solamente 11,8 %.
a) ¿Cuál es la proporción de varones en la población entre 14 y 29 años de edad?
b) Si una persona es seleccionada al azar en el grupo de edades entre 14 y 29 años y se
observa que no estudia ni trabaja, ¿qué probabilidad hay de que sea una mujer?
SEGUNDA PARTE
Ejercicio 4 (20 puntos)
La distribución de probabilidad conjunta de dos variables aleatorias (X, Y ) está dada por:
P(X,Y)
X
a)
b)
c)
d)
0
2
4
0
0,08
0,05
0,20
Y
1
0,1
0,12
0,12
2
0,15
0,08
0,10
¿Son independientes X e Y ? Fundamentar.
Hallar P(X ≥ 4/Y ≥ 1).
Calcular P(X + Y ≤ 3).
Hallar E(X/Y = 1).
Ejercicio 5 (20 puntos)
La media obtenida para una variable a partir de una muestra de tamaño 900 es igual a 290, con
una desviación estándar muestral igual a 127.
a) Obtenga los intervalos de confianza al 95% y 99% para la media . Justifique la distribución
en el muestreo de la media muestral utilizada.
b) Explique cuál es la interpretación que podemos dar a los valores obtenidos para ambos
intervalos.
c) Pruebe la hipótesis nula Ho) : = 300 contra la alternativa bilateral al 5% y 1%, explicando
el procedimiento seguido.
d) Explique la relación entre los resultados obtenidos en los puntos a y c.
SOLUCION
Solución Ejercicio 1 (20 puntos)
a) La interpretación de es la siguiente: ante un incremento de 1% en la altura de los estudiantes, el
peso aumenta en 1.59%, manteniendo el sexo constante.
b) Según la evidencia de los datos con los que contamos, el sexo del individuo es significativo para
explicar el peso de los individuos. Esto se debe a que el valor-p de mujer es 0 (menor al valor de
significancia del 5%). También podemos concluir lo mismo observando los intervalos al 95% de
confianza que calcula el programa, ya que el 0 no cae en intervalo calculado por el programa (o sea
que si se sacan 100 muestras aleatorias, en 95 de esas muestras el 0 no es un valor que aparezca
en el intervalo).
c) Las prueba de hipótesis que se solicita es:
Se supone que la hipótesis alternativa es bilateral:
El estadístico t solicitado es:
̂
La regla de rechazo es:
̂
| |, donde
Por lo tanto,
el estadístico calculado (23,68) es mayor al valor crítico y cae dentro de la zona de rechazo.
Rechazamos H0: la altura afecta al peso, aún cuando se ha controlado por el sexo de la persona.
d) Para medir la bondad de ajuste del modelo a los datos utilizamos el
o el -ajustado. Estos
indicadores nos dice cuánto de la variabilidad de la variable dependiente logra ser explicada por el
modelo. El -ajustado considera la cantidad de variables que se incorporan a la regresión, por lo
que da una medida más acertada de lo que explica el modelo.
(
)
(
)
(
)
(
)
La altura y el sexo de los estudiantes explican aproximadamente el 25% de la variabilidad total de su
peso, por lo que el modelo no se ajusta muy bien a los datos de la muestra.
Solución Ejercicio 2 (20 puntos)
a) E(X) = = (a+b)/2 = 30
b) El área bajo la densidad entre 10 y x0.95 es igual a 0.95. La densidad es un rectángulo con altura igual
a 1/40=0.025. Por lo tanto (x0.95 – 10)*0.025 = 0.95. Se obtiene x0.95 = 0.95/0.025 + 10 = 48
c) P(20 < X ≤ 45) es igual al área bajo la densidad entre 20 y 45. P(20 < X ≤ 45) = (45 – 20)* 0.025 =
0.625.
Solución Ejercicio 3 (20 puntos)
El espacio muestral relevante es el de los jóvenes entre 14 y 29 años de edad. Definamos a los eventos M
(mujer), H (hombre) y N (no estudia ni trabaja). Se nos indica que: P(N) = 0.165; P(N / M) = 0.215; y P(N/H) =
0.118.
.
a) Utilizamos que el conjunto de los que no estudian ni trabajan es la unión de dos conjuntos
disjuntos, los varones que no estudian ni trabajan (N ∩ H) y las mujeres que no estudian ni
trabajan (N ∩ HC). La proporción que no estudia ni trabaja P(N) = P(N∩H) + P(N∩HC).
Como P(N/H) = 0.118 sabemos que P(N∩H) = P(N/H) *P(H) = 0.118*P(H). A su vez
sabemos que P(N∩HC) = P(N/HC)*P(HC) = 0.215*(1 – P(H)) Esto permite escribir la
probabilidad P(N) = 0.165 = 0.118*P(H) + 0.215*(1 – P(H)) = 0.215 + (0.118 – 0.215)*P(H).
Esto permite obtener 0.97P(H) = 0.215 – 0.165 con lo cual P(H) = (0.215 – 0.165)/0.97=
0.515
b) P(M /N) = P(N/M) *P(M) /P(N) = 0.215 * (1 – 0.515)/0.165 = 0.631.
Solución Ejercicio 4 (20 puntos)
a) X e Y serían independientes si se cumpliera PXY(x,y) = PX(x) * PY(y) para todo x, y. En este
caso no se cumple, ya que tenemos PXY(0,0) = 0.08 ≠ PX(0) * PY(0) =0,33 *0,33 = 0.109. Con
que en un caso solo no se cumpla la condición, las variables no son independientes.
b) P(X ≥ 4/Y ≥ 1) = P(X ≥ 4 ∩ Y ≥ 1) / P(Y ≥ 1) = *PXY(4,1) + PXY(4,2)]/ [PY(1) + PY(2)]
= [0.12 + 0.10]/ [0.34 + 0.33] = 0,328.
c) Se trata de una variable aleatoria nueva Z = X + Y, y se pide calcular P(Z ≤ 3). La nueva
variable toma los valores 0, 1, 2, 3, 4, 5, 6, con las probabilidades: P Z(0) = 0.08; PZ(1) = 0.1;
PZ(2) = 0.05 + 0.15 =0.2; PZ(3) = 0.12; PZ(4) = 0.08+ 0.20=0.28; PZ(5) = 0.12; PZ(6) = 0.10. Por
tanto P(X+Y ≤ 3) = P(Z ≤ 3) = PZ(0) + PZ(1) + PZ(2) + PZ(3) = 0.08 + 0.10 + 0.2 + 0.12 = 0.5
d) E(X/Y = 1) = ∑ xPX/Y(x/Y=1). La cuantía condicional se obtiene PX/Y(x/Y=1)= PXY(x,y)/ PY(1).
Por tanto PX/Y(0/Y=1)= 0.1/0.34 = 0,294; PX/Y(2/Y=1)= 0.12/0.34 = 0,353; PX/Y(2/Y=1)=
0.12/0.34 = 0,353. Finalmente E(X/Y = 1) = 0*0,294 + 2*0,353 + 4* 0,353 = 2,118.
Solución Ejercicio 5 (20 puntos)
La media obtenida para una variable a partir de una muestra de tamaño 900 es igual a 290, con
una desviación estándar muestral igual a 127.
̅
a) Como la muestra es grande (n=900), sabemos que
√
sigue una distribución
aproximada Normal(0,1). El intervalo de confianza al 95% está dado por:
[̅
Con =0.05 y n=900 se tiene:
√
̅
√
]
[̅
̅
√
√
]
El valor de tablas z0.975 = 1,96. En la muestra se obtiene ̅ = 290, y s= 127, lo cual genera el
intervalo:
[290 – 1.96*127/30, 290 + 1.96*127/30] = [281,7, 298,3]
El intervalo de confianza al 99% establece =0.01. Por lo tanto:
[̅
̅
√
√
]
El valor de tablas z0.995 = 2,576. Se genera el intervalo:
[290 – 2.576*127/30, 290 + 2.576*127/30] = [279,1, 300,9]
b) La probabilidad de obtener un intervalo que contenga el verdadero valor del parámetro
es, en cada caso, 1 - . Eso no garantiza que el valor del parámetro se encuentra
comprendido entre los extremos del intervalo concreto que se ha calculado para esa
muestra en particular.
c) Prueba de hipótesis
Ho): = 300
H1): ≠ 300
̅
Estadístico de la prueba:
Distribución bajo H0:
aproximadamente Normal(0,1)
√
̅
√
aproximadamente Normal(0,1)
Región crítica: Rechazo H0) si | |
i.
Con =0.05. | |
|
|
|
| >1,96 = z0.075
ii.
Con =0.01. | |
|
|
|
| <2,576 = z0.075
Rechazo Ho.
No Rechazo Ho.
d) Los intervalos de confianza y prueba de hipótesis están relacionados, pues ambos se basan
en la misma distribución aproximada de la media muestral. El intervalo al 95% de
confianza no contiene el valor 300, y la prueba de hipótesis al 95% rechaza la hipótesis
nula de que la media es igual a 300. En cambio el intervalo al 99% sí incluye al valor 300, y
en la prueba no se puede rechazar la hipótesis nula de que la media es igual a 300. Si se
requiere más confianza ( más chico), se tiene menor precisión (intervalo más ancho).
Descargar