ESTADISTICA Y SUS APLICACIONES EN CIENCIAS SOCIALES. Examen Montevideo, 15 de diciembre de 2015. Libre Nombre: _________________________________________ C.I.: Reglamentado EXAMEN _________________________________________ El examen consta de dos partes. La primera parte debe ser realizada por todos los alumnos y el tiempo previsto es de 2 horas. La segunda parte debe ser realizada sólo por los alumnos libres. El tiempo adicional para esta segunda parte es de 1 hora. PRIMERA PARTE Libre EXAMEN Reglamentado ________ Ejercicio 1 (20 puntos) En primaria están interesados en analizar si hombres o mujeres presentan mayor sobrepeso. Por tal motivo se realiza un relevamiento del peso y la altura de los asistentes a fin de saber si hay una relación entre estas variables. Se plantea el siguiente modelo: ( ) ( ) Libre Reglamentado donde peso es el peso en kilogramos de los asistentes de primaria,EXAMEN altura es la altura en centímetros y mujer ________ es una variable que toma valor 1 si la observación corresponde a una mujer. Se estimó la regresión mediante MCO. Los resultados son los que se presentan en la siguiente tabla: Source | SS df MS -------------+-----------------------------Modelo | 45.5532233 2 22.7766117 Residuos | 135.853331 4068 .033395607 -------------+-----------------------------Total | 181.406554 4070 .044571635 Number of obs = 4071 F( 2, 4068) = 682.02 Prob > F = 0.0000 R-squared = xxxxx Libre Reglamentado Adj R-squared = xxxxx Root MSE = .18274 EXAMEN ________ -----------------------------------------------------------------------------log(peso) | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------log(altura) | 1.598961 0.06751 xxxxx 0.000 1.466604 1.731317 mujer | -0.034918 0.007868 -4.44 0.000 -.0503454 -.0194924 _cons | -4.623369 0.412140 -11.22 0.000 -5.43139 -3.815348 ------------------------------------------------------------------------------ Libre Reglamentado a) Interprete el coeficiente asociado a la variable altura. EXAMEN ________ b) La variable que indica si la observación es mujer, ¿es significativos al 5% para determinar el peso? Responda utilizando los datos de la tabla sin realizar cálculos adicionales. c) Contraste la siguiente hipótesis: “la altura no influye en el peso de los estudiantes una vez que se ha controlado por el género”. Explique cuál sería la hipótesis nula de este contraste, la hipótesis alternativa (puede suponer la que quiera), el estadístico utilizado para la prueba de hipótesis, la regla de rechazo y su conclusión a un nivel de significancia del 5%.Libre Reglamentado d) Calcule el R2 y el R2-ajustado de este modelo como indicadores de la bondad de ajuste del modelo. EXAMEN ________ Evalúe el ajuste del modelo. Ejercicio 2 (20 puntos) Una variable aleatoria X sigue una distribución Uniforme[a,b], con parámetros a = 10 y b = 50. a) Hallar la media de la distribución b) Determinar el valor de la variable que acumula una probabilidad de 95 % para valores menores o iguales (percentil 95 de la distribución). c) Calcular P(20 < X ≤ 45). Ejercicio 3 (20 puntos) Del total de jóvenes entre 14 y 29 años de edad del país, un 16,5 % no estudia ni trabaja. Entre las mujeres entre 14 y 29 años de edad, la proporción que no estudia ni trabaja es 21,5 %, mientras que en el grupo de los varones del mismo tramo de edad dicha proporción es solamente 11,8 %. a) ¿Cuál es la proporción de varones en la población entre 14 y 29 años de edad? b) Si una persona es seleccionada al azar en el grupo de edades entre 14 y 29 años y se observa que no estudia ni trabaja, ¿qué probabilidad hay de que sea una mujer? SEGUNDA PARTE Ejercicio 4 (20 puntos) La distribución de probabilidad conjunta de dos variables aleatorias (X, Y ) está dada por: P(X,Y) X a) b) c) d) 0 2 4 0 0,08 0,05 0,20 Y 1 0,1 0,12 0,12 2 0,15 0,08 0,10 ¿Son independientes X e Y ? Fundamentar. Hallar P(X ≥ 4/Y ≥ 1). Calcular P(X + Y ≤ 3). Hallar E(X/Y = 1). Ejercicio 5 (20 puntos) La media obtenida para una variable a partir de una muestra de tamaño 900 es igual a 290, con una desviación estándar muestral igual a 127. a) Obtenga los intervalos de confianza al 95% y 99% para la media . Justifique la distribución en el muestreo de la media muestral utilizada. b) Explique cuál es la interpretación que podemos dar a los valores obtenidos para ambos intervalos. c) Pruebe la hipótesis nula Ho) : = 300 contra la alternativa bilateral al 5% y 1%, explicando el procedimiento seguido. d) Explique la relación entre los resultados obtenidos en los puntos a y c. SOLUCION Solución Ejercicio 1 (20 puntos) a) La interpretación de es la siguiente: ante un incremento de 1% en la altura de los estudiantes, el peso aumenta en 1.59%, manteniendo el sexo constante. b) Según la evidencia de los datos con los que contamos, el sexo del individuo es significativo para explicar el peso de los individuos. Esto se debe a que el valor-p de mujer es 0 (menor al valor de significancia del 5%). También podemos concluir lo mismo observando los intervalos al 95% de confianza que calcula el programa, ya que el 0 no cae en intervalo calculado por el programa (o sea que si se sacan 100 muestras aleatorias, en 95 de esas muestras el 0 no es un valor que aparezca en el intervalo). c) Las prueba de hipótesis que se solicita es: Se supone que la hipótesis alternativa es bilateral: El estadístico t solicitado es: ̂ La regla de rechazo es: ̂ | |, donde Por lo tanto, el estadístico calculado (23,68) es mayor al valor crítico y cae dentro de la zona de rechazo. Rechazamos H0: la altura afecta al peso, aún cuando se ha controlado por el sexo de la persona. d) Para medir la bondad de ajuste del modelo a los datos utilizamos el o el -ajustado. Estos indicadores nos dice cuánto de la variabilidad de la variable dependiente logra ser explicada por el modelo. El -ajustado considera la cantidad de variables que se incorporan a la regresión, por lo que da una medida más acertada de lo que explica el modelo. ( ) ( ) ( ) ( ) La altura y el sexo de los estudiantes explican aproximadamente el 25% de la variabilidad total de su peso, por lo que el modelo no se ajusta muy bien a los datos de la muestra. Solución Ejercicio 2 (20 puntos) a) E(X) = = (a+b)/2 = 30 b) El área bajo la densidad entre 10 y x0.95 es igual a 0.95. La densidad es un rectángulo con altura igual a 1/40=0.025. Por lo tanto (x0.95 – 10)*0.025 = 0.95. Se obtiene x0.95 = 0.95/0.025 + 10 = 48 c) P(20 < X ≤ 45) es igual al área bajo la densidad entre 20 y 45. P(20 < X ≤ 45) = (45 – 20)* 0.025 = 0.625. Solución Ejercicio 3 (20 puntos) El espacio muestral relevante es el de los jóvenes entre 14 y 29 años de edad. Definamos a los eventos M (mujer), H (hombre) y N (no estudia ni trabaja). Se nos indica que: P(N) = 0.165; P(N / M) = 0.215; y P(N/H) = 0.118. . a) Utilizamos que el conjunto de los que no estudian ni trabajan es la unión de dos conjuntos disjuntos, los varones que no estudian ni trabajan (N ∩ H) y las mujeres que no estudian ni trabajan (N ∩ HC). La proporción que no estudia ni trabaja P(N) = P(N∩H) + P(N∩HC). Como P(N/H) = 0.118 sabemos que P(N∩H) = P(N/H) *P(H) = 0.118*P(H). A su vez sabemos que P(N∩HC) = P(N/HC)*P(HC) = 0.215*(1 – P(H)) Esto permite escribir la probabilidad P(N) = 0.165 = 0.118*P(H) + 0.215*(1 – P(H)) = 0.215 + (0.118 – 0.215)*P(H). Esto permite obtener 0.97P(H) = 0.215 – 0.165 con lo cual P(H) = (0.215 – 0.165)/0.97= 0.515 b) P(M /N) = P(N/M) *P(M) /P(N) = 0.215 * (1 – 0.515)/0.165 = 0.631. Solución Ejercicio 4 (20 puntos) a) X e Y serían independientes si se cumpliera PXY(x,y) = PX(x) * PY(y) para todo x, y. En este caso no se cumple, ya que tenemos PXY(0,0) = 0.08 ≠ PX(0) * PY(0) =0,33 *0,33 = 0.109. Con que en un caso solo no se cumpla la condición, las variables no son independientes. b) P(X ≥ 4/Y ≥ 1) = P(X ≥ 4 ∩ Y ≥ 1) / P(Y ≥ 1) = *PXY(4,1) + PXY(4,2)]/ [PY(1) + PY(2)] = [0.12 + 0.10]/ [0.34 + 0.33] = 0,328. c) Se trata de una variable aleatoria nueva Z = X + Y, y se pide calcular P(Z ≤ 3). La nueva variable toma los valores 0, 1, 2, 3, 4, 5, 6, con las probabilidades: P Z(0) = 0.08; PZ(1) = 0.1; PZ(2) = 0.05 + 0.15 =0.2; PZ(3) = 0.12; PZ(4) = 0.08+ 0.20=0.28; PZ(5) = 0.12; PZ(6) = 0.10. Por tanto P(X+Y ≤ 3) = P(Z ≤ 3) = PZ(0) + PZ(1) + PZ(2) + PZ(3) = 0.08 + 0.10 + 0.2 + 0.12 = 0.5 d) E(X/Y = 1) = ∑ xPX/Y(x/Y=1). La cuantía condicional se obtiene PX/Y(x/Y=1)= PXY(x,y)/ PY(1). Por tanto PX/Y(0/Y=1)= 0.1/0.34 = 0,294; PX/Y(2/Y=1)= 0.12/0.34 = 0,353; PX/Y(2/Y=1)= 0.12/0.34 = 0,353. Finalmente E(X/Y = 1) = 0*0,294 + 2*0,353 + 4* 0,353 = 2,118. Solución Ejercicio 5 (20 puntos) La media obtenida para una variable a partir de una muestra de tamaño 900 es igual a 290, con una desviación estándar muestral igual a 127. ̅ a) Como la muestra es grande (n=900), sabemos que √ sigue una distribución aproximada Normal(0,1). El intervalo de confianza al 95% está dado por: [̅ Con =0.05 y n=900 se tiene: √ ̅ √ ] [̅ ̅ √ √ ] El valor de tablas z0.975 = 1,96. En la muestra se obtiene ̅ = 290, y s= 127, lo cual genera el intervalo: [290 – 1.96*127/30, 290 + 1.96*127/30] = [281,7, 298,3] El intervalo de confianza al 99% establece =0.01. Por lo tanto: [̅ ̅ √ √ ] El valor de tablas z0.995 = 2,576. Se genera el intervalo: [290 – 2.576*127/30, 290 + 2.576*127/30] = [279,1, 300,9] b) La probabilidad de obtener un intervalo que contenga el verdadero valor del parámetro es, en cada caso, 1 - . Eso no garantiza que el valor del parámetro se encuentra comprendido entre los extremos del intervalo concreto que se ha calculado para esa muestra en particular. c) Prueba de hipótesis Ho): = 300 H1): ≠ 300 ̅ Estadístico de la prueba: Distribución bajo H0: aproximadamente Normal(0,1) √ ̅ √ aproximadamente Normal(0,1) Región crítica: Rechazo H0) si | | i. Con =0.05. | | | | | | >1,96 = z0.075 ii. Con =0.01. | | | | | | <2,576 = z0.075 Rechazo Ho. No Rechazo Ho. d) Los intervalos de confianza y prueba de hipótesis están relacionados, pues ambos se basan en la misma distribución aproximada de la media muestral. El intervalo al 95% de confianza no contiene el valor 300, y la prueba de hipótesis al 95% rechaza la hipótesis nula de que la media es igual a 300. En cambio el intervalo al 99% sí incluye al valor 300, y en la prueba no se puede rechazar la hipótesis nula de que la media es igual a 300. Si se requiere más confianza ( más chico), se tiene menor precisión (intervalo más ancho).