Estadı́stica Descriptiva illa Ingenierı́a Informática Examen, Junio 2003 Departamento de Estadı́stica e Investigación Operativa Curso 2002-2003 Universidad de Sevilla ev Cuestión 1 (2pt) Defina la curva de Lorenz y el ı́ndice de Gini. Interpretación del ı́ndice de Gini en relación al reparto de la variable bajo estudio. Cuestión 2 (2pt) Definición de independencia de dos variables. Demuestre que bajo independencia la razón de correlación es cero. ¿Se verifica el recı́proco? Septiembre’00 Septiembre’01 Septiembre’02 de S Problema 1(3 pt) La siguiente tabla resume las calificaciones obtenidas por los alumnos de un determinado colegio en los exámenes de Selectividad de septiembre de los tres últimos años. En dicha tabla se han clasificado las notas obtenidas en cada una de las convocatorias en cuatro intervalos. entre 0 y 5 entre 5 y 6 entre 6 y 7 entre 7 y 8 2 5 2 1 1 8 2 0 2 3 20 22 (a) [0’5pt] Calcule el porcentaje de aprobados en cada convocatoria y el porcentaje promedio. (b) [0’5pt] Calcule el intervalo que contiene las calificaciones del 40% de los alumnos con mejores resultados en la convocatoria del 2002. Realice el mismo cálculo teniendo en cuenta el global de las tres convocatorias. Compare los resultados. id ad (c) [1’5pt] Calcule la razón de correlación de las calificaciones sobre la convocatoria. Relacione el resultado obtenido con el apartado anterior. (d) [0’5pt] Calcule los dos ı́ndices de cantidades de Laspeyres con base en la convocatoria de septiembre de 2000 y comente su evolución. Problema 2(3 pt) Para estudiar la eficacia del software manejado por una empresa, se midió la relación existente entre el costo (X) de los programas de ordenador y el tiempo (en años) que transcurre sin que sea necesaria una actualización del producto. La información obtenida aparece reflejada en la siguiente tabla: Un ive rs X/Y entre entre entre entre 0 1 2 5 y y y y 1 2 5 10 1 10 a 3 2 2 3 10 c 25 3 b 5 7 d 100 La variable X viene dada en cientos de euros y la variable Y en años. (a) [1pt] Reconstruir la tabla si nos dicen que: • La frecuencia relativa de que X esté comprendida entre 1 y 2, condicionada a que Y = 1, es igual a 0’25. • La media de Y condicionada a que X esté comprendida entre 0 y 1 es igual a 22 15 . 4 • La moda de X es igual a 3 (b) Tomando los valores de a = 5, b = 2, c = 20 y d = 8, (i) [1pt] Calcular la recta de regresión de mı́nimos cuadrados de Y sobre X y el coeficiente de correlación lineal. ¿Qué podemos decir de la relación entre las dos variables? (ii) [1pt] Determinar el tiempo que se espera que pueda mantenerse sin actualizar un programa que ha costado 1200 euros. ¿Es fiable la predicción? Solución 1 (a) El porcentaje de aprobados en la convocatoria de 2000 es del 80%, en el 2001 fue del 90 91% y en el 2002 de 95 74. En promedio un 88 88%. illa (b) El intervalo que contiene al 40% de las mejores calificaciones de la convocatoria de septiembre de 2002 es [Q0 60 , Q1 00 ] = [7 15, 8]. Este intervalo para el global de las tres convocatorias es [Q0 60 , Q1 00 ] = [6 83, 8], como contiene estrictamente al intervalo obtenido en la convocatoria de 2002, esto significa que en dicha convocatoria las notas más altas fueron mejores en comparación con el global de calificaciones obtenidas en las tres convocatorias. x Sep’00 = 5 3, x Sep’01 = 5 41, ev (c) Para determinar la razón de correlación de calificaciones frente a convocatoria necesitamos calcular las medias condicionadas que son x Sep’00 La varianza de las calificaciones es de 1’713, por tanto, = 0 4056 = 0 237. 1 7130 de S η 2x = 6 73. Convocatoria Este valor confirma el hecho de que los resultados obtenidos no son independientes de la convocatoria. (d) Los ı́ndices de cantidades de Laspeyres son 50 5 316 5 = 1 12, L02 = 5 97 Q,00 = 53 53 Como se puede observar los ı́ndices de Laspeyres en los dos últimos periodos superan la unidad, esto no es sólo debido a que las calificaciones obtenidas han ido mejorando (como lo demuestran los valores medios calculados en el apartado (c)), además se debe a que el número de alumnos que han concurrido a estas convocatorias ha ido aumentando. Solución 2 id ad L01 Q,00 = (a) Tenemos que como el número de observaciones es 100, la suma de todas las frecuencias será 100, luego 13 + b + 15 + a + 10 + c + 27 + d = 100 ⇒ 65 + a + b + c + d = 100 ⇒ a + b + c + d = 35 Pasamos ahora a ir aplicando las condiciones que nos dan en el enunciado: rs • Sabemos que la frecuencia de que X esté comprendida entre 1 y 2 condicionada a que Y = 1 es 0.25. La tabla de la correspondiente distribución marginal es: X|Y =1 0-1 1-2 2-5 5-10 ni· 10 a 3 2 15 + a Un ive luego la condición que nos dan es a = 0.25 ⇒ a = 3.75 + 0.25a ⇒ a=5 15 + a • La siguiente condición es que la media de Y condicionada a que X esté entre 0 y 1 es construimos la correspondiente tabla, Y |X entre 0 y 1 1 2 3 n·j 10 3 b 13 + b luego 16 + 3b 22 Y |X entre 0 y 1 = = ⇒ 240 + 45b = 286 + 22b ⇒ b=2 13 + b 15 22 15 . De nuevo X 0-1 1-2 2-5 5-10 ni· 15 20 10 + c 27 + d hi 15 20 ai 1 1 3 5 10+c 3 27+d 5 illa • La tercera indicación es que la moda de X es 43 . Construimos la tabla marginal de X añadiendo las columnas correspondientes a las alturas del histograma y la amplitud del intervalo: Sabemos que el intervalo modal es el que tiene como extremos a los valores 1 y 2. Aplicamos la fórmula de la moda: 20 − 15 (20 − 15) + (20 − 5 =1+ 10+c 3 ) 65−c 3 = Para hallar d utilizamos la primera ecuación que calculamos: 4 80 − c 4 ⇒ = ⇒ c=20 3 65 − c 3 ev Mo = 1 + de S a + b + c + d = 35 ⇒ 27 + d = 35 ⇒ d=8 y finalmente la tabla queda X/Y (0,1] (1,2] (2,5] (5,10] 1 10 5 3 2 2 3 10 20 25 3 2 5 7 8 100 (b) (i) Calculamos la recta de regresión de Y sobre X, dada por la expresión donde id ad rY /X ≡ y = a + bx S xy b = 2 Sx a = y − bx rs Calculamos, pues las respectivas medias y varianzas marginales. Empezamos por la variable X X 0-1 1-2 2-5 5-10 ni· 15 20 30 35 xi 0.5 1.5 3.5 7.5 Un ive Tenemos: Sx2 = x= 15 · 0.5 + 20 · 1.5 + 30 · 3.5 + 35 · 7.5 = 4.05 100 15 · 0.52 + 20 · 1.52 + 30 · 3.52 + 35 · 7.52 − 4.052 = 7.4475 ⇒ Sx = 2.729 100 Pasamos a calcular las de Y Y 1 2 3 n·j 20 58 22 Tenemos Sy2 = illa 20 · 1 + 58 · 2 + 22 · 3 = 2.02 100 y= 20 · 12 + 58 · 22 + 22 · 32 − 2.022 = 0.4196 ⇒ Sy = 0.6477 100 Nos queda calcular la covarianza: i fij xi yj − xy = 8.65 − 8.181 = 0.469 j Ahora podemos calcular a y b b= ev Sxy = 0.469 Sxy = = 0.0629 2 Sx 7.4475 es decir, nuestra recta de regresión es de S a = y − bx = 2.02 − 0.0629 · 4.05 = 1.765255 y = 1.765255 + 0.0629x Calculamos el coeficiente de correlación: rxy = Sxy 0.469 = = 0.2653 Sx Sy 2.729 · 0.6477 luego podemos decir que la relación lineal entre ambas variables es débil. id ad (ii) Lo que tratamos de predecir es la variable Y (número de años sin actualizar el programa, a partir de la un valor de la variable X. Para ello utilizamos la recta de regresión que hemos calculado en el ejercicio anterior y obtenemos: y ∗ = 1.765255 + 0.0629 · 12 = 2.52 luego esperamos no tener que actualizar nuestro programa en aproximadamente 2 años y medio. Para decidir si la predicción es fiable calculamos el coeficiente de determinación R2 , que en nuestro caso es: R2 = r2 = 0.26532 = 0.07 Un ive rs luego la predicción es muy poco fiable.