ESTADISTICA Y SUS APLICACIONES EN CIENCIAS SOCIALES. Examen Montevideo, 2 de agosto de 2016. Nombre: ________________________________________ C.I.: _________________________________________ Libre Reglamentado EXAMEN El examen consta de dos partes. La primera parte debe ser realizada por todos los alumnos y el tiempo previsto es de 2 horas. Los alumnos reglamentados aprobarán el examen si obtienen 50% de los puntos de la primer parte. La segunda parte debe ser realizada sólo por los alumnos libres. El tiempo adicional para esta segunda parte es de 1 hora. Los alumnos libres aprobarán el examen si obtienen 50% de los puntos en cada una de las partes del examen. PRIMERA PARTE Ejercicio 1 (20 puntos) En una dependencia del ministerio de trabajo, la probabilidad de que un trabajador no sea derivado a un asistente social ni se le solicite información adicional 0,35. De los trabajadores que se presentan, un 30% son derivados a asistente social, mientras que a un 40% se les pide información adicional. 1. Determine la probabilidad de que un trabajador sea derivado a asistente social y se le pida información adicional a la vez. 2. Determine la probabilidad de que dado que a un trabajador se le deriva a asistente social, se le pida información adicional. Ejercicio 2 (20 puntos) Usando datos de la Encuesta de Hogares uruguaya de 2009 (29.159 observaciones), se ha estimado por MCO el modelo de regresión simple , donde son los salarios por hora en pesos y los años de educación completados por los trabajadores, y un término de error que cumple con los supuestos del modelo de regresión lineal. En la estimación se obtuvo ̂ ̂ . y ̂ con errores estándar ̂ 1. Interpretar el parámetro asociado a los años de educación. 2. Realizar las pruebas de hipótesis correspondientes a las hipótesis nulas , contras las alternativas bilaterales con un nivel de significación de 5%. 3. En la estimación se obtiene . Comentar. y ,y Ejercicio 3 (20 puntos) La distribución de probabilidad conjunta del vector aleatorio (X,Y) está dada por: 1. 2. 3. 4. Y \ X 2 4 1 0,2 0,15 2 0,3 0,35 Obtenga las cuantías marginales de ambas variables aleatorias. Obtenga la función de cuantía condicional de X/Y=2. Calcule la esperanza condicional de X/Y=2. Calcule la covarianza de (X,Y). Recuerde que COV(X,Y) = E(XY) – E(X).E(Y). Interprete el valor obtenido en el punto anterior, mencione alguna limitación de la covarianza e indique alguna medida que solucione la limitación mencionada. SEGUNDA PARTE Ejercicio 4 (20 puntos) Con la llegada del invierno, el Ministerio de Desarrollo Social (MIDES) decidió abrir dos nuevos refugios nocturnos e incrementar las recorridas por las calles de sus equipos técnicos. Se sabe que el invierno pasado, el MIDES trasladó a sus refugios un promedio de 700 personas en situación de calle por noche. Se supone que la variable X= personas en refugios en una noche sigue una distribución normal. Se tomó una muestra aleatoria de diez días, en los que cada noche el MIDES trasladó a los refugios la siguiente cantidad de personas: Noche 1 2 3 4 5 6 7 8 9 10 750 650 690 780 720 730 685 700 850 805 1. A partir de esta muestra se desea saber, con un nivel de significación del 1%, si la profundización del programa logrará aumentar en el presente invierno el promedio de traslados por noche. Enunciar las hipótesis nula y alternativa, estadístico de la prueba y su distribución, regla de decisión e interpretar los resultados obtenidos. 2. Defina claramente los dos tipos de error que pueden cometerse en una prueba de hipótesis estadística y explique en qué consisten en el contexto de este ejercicio. 3. Un analista considera que el peor error que el MIDES puede cometer es "informar que la profundización del programa no tuvo efectos cuando en realidad sí los tuvo". Con tal argumento, sugiere realizar la prueba a un nivel de significación del 10%. ¿Cambian las conclusiones usando este nuevo nivel de significación con respecto a las obtenidas en el punto 1? ¿Le parece coherente aumentar el nivel de significación de la prueba a fin de contemplar lo que el analista sugiere? Fundamente, razonando en términos de los errores I y II. Ejercicio 5 (20 puntos) Las notas de las evaluaciones de Lenguaje tienen distribución normal con media igual a 500 (µ=500). Se sabe que la probabilidad de que un valor elegido al azar sea menor que 100 es de 0,025. 1. Calcule el desvío estándar de la distribución (σ). 2. ¿Cuál es la probabilidad de que un alumno seleccionado al azar obtenga una nota superior a 760? 3. ¿Cuál es la probabilidad de que un alumno seleccionado al azar obtenga una nota entre 500 y 570? SOLUCION Solución Ejercicio 1 (20 puntos) 1. Llamemos A al evento “se deriva a asistente social” e I al evento “Se solicita información adicional”. P(IC∩AC) = 0.35, por lo tanto P(I U A) = 1– P(IC∩AC) = 0.65 A su vez, P(A)=0.30; P(I)=0.4. Usando P(IUA))= P(A) + P(I) – P(I∩A) tenemos que P(I∩A)= P(A)+ P(I)–P(IUA) Por lo tanto P(I∩A)= 0.30 + 0.40 – 0.65 = 0.05 2. P(I/A) = P(I∩A)/ P(A)= 0.05/0.30= 0.167 Solución Ejercicio 2 (20 puntos) a. ̂ es la estimación del impacto en el salario por hora de incrementar los años de educación en una unidad. Se estima que con cada año de educación adicional se incrementa el salario por hora en 2,336 pesos b. Usando el supuesto de normalidad de los errores del modelo, el estadístico ̂ ̂ . En este caso como n= 29159 la distribución de t se puede aproximar por la Normal (0,1). En ambos casos rechazaremos las hipótesis nulas si | | z0,975 = 1,96. Para , t = 2,336/0,023=101,56 por lo que rechazamos H0 al 95%. Para t = 0,517/0,268 = 1,93, por tanto no rechazamos H0 al 95%. c. R2 es la relación entre la variación explicada por la regresión y la variación total. R2 = 0,25 indica que el 25% de la variación de los salarios por hora de los trabajadores en torno de la media puede ser explicada por la variación en los niveles educativos de los trabajadores. Solución Ejercicio 3 (20 puntos) 1. Px(X) = 0.2 + 0.3 = 0.5 x=2 0.15 + 0.35 =0.15 x=4 Py(Y) = 0.2 + 0.15 = 0.35 y=1 0.3 + 0.35 = 0.65 y=2 2. PX/Y=2(X/Y=2) = PXY(x, 2) / Py(2) = 0.3/0.65 = 0,46 x =2 0.35/0.65 = 0,54 X=4 3. E(X/Y=2) = ∑x x PX/Y=2(x/Y=2) = 2*0,46 + 4 * 0,54 = 3,08 4. E(XY) = Σ x*y*PXY = 1*2*0.2 + 1*4*0.15 + 2*2*0.3 + 2*4*0.35 = 0.4 + 0.6 + 1.2 + 2.8 = 5 E(X) = 2 * 0.5 + 4 * 0.5 = 3 E(Y) = 1 * 0.35 + 2 * 0.65 = 1.65 COV(X,Y) = 5 – 3*1.56 =0.05. Existe una relación lineal positiva entre ambas variables. Ambas variables tienden simultáneamente a estar por encima de su esperanza matemática. La limitación de la covarianza es que el valor obtenido no nos informa sobre la “fuerza” de la relación lineal entre ambas variables, indicándonos solamente el signo de dicha relación. Una medida alternativa que soluciona dicha limitación es el coeficiente de correlación. Solución Ejercicio 4 (20 puntos) 1. ̅ 736; s = 61,09 H0: = 700 H1: 700 (prueba de cola a la derecha) Estadístico a utilizar (muestra chica n<30): Distribución bajo H0 : ̅ √ Regla de decisión con = 0,01: - si ̅ √ = 2,8214, no rechazar H0 ̅ √ - si ̅ = 2,8214, rechazar H0 . √ En nuestra muestra observamos t = 1,86 < 2,8214 => NO rechazamos H0) al 1% de significación estadística. La muestra tomada no permite decir que los cambios en el programa hayan tenido efectos positivos en aumentar la cantidad promedio de personas trasladadas a los refugios en el corriente invierno en relación al invierno pasado. 2. Error Tipo I: Rechazar la hipótesis nula cuando es verdadera. En este caso esto implica concluir que el plan tendrá efectos positivos cuando en realidad no los tiene. Error Tipo II: No rechazar la hipótesis nula cuando es falsa. En este caso implica no descartar que el plan sea inútil cuando realmente lo es. 3. Si realizamos la prueba nuevamente, a un nivel de significación del 10%, el valor de tablas de la t-student con 9 grados de libertad es 1,3830. Ahora el valor del estadístico (1,86) es mayor que el valor de tablas (1,86 > 1.3830), por lo que se rechaza la H0. La decisión cambia, la profundización del programa ha tenido los efectos buscados con un nivel de significación del 10%. Cuando el analista dice que el peor error es "informar que la profundización del programa no tuvo efectos cuando en realidad sí los tuvo", en el contexto de la prueba realizada se refiere al error tipo II, no rechazar H0, cuando en el plan realidad sí tuvo efectos, o sea que H0 es falsa. Para minimizar el error de tipo II se está siendo más flexible con el error de tipo I, por lo que la decisión de elevar la probabilidad de cometer el error de tipo I es coherente con lo que se pretende. Solución Ejercicio 5 (20 puntos) 1. Sabemos que Estandarizando tenemos: ( ) ( Por tanto, buscando en la tabla de la normal, sabemos que: ) Despejando, obtenemos: 2. ( ) 3. ( ) 0,6331 ─ 0,5= 0, 1331