Cálculo y EstadísTICa. Primer Semestre. EstadísTICa Curso Primero Graduado en Geomática y Topografía Escuela Técnica Superior de Ingenieros en Topografía, Geodesia y Cartografía. Universidad Politécnica de Madrid Capítulo I Ejercicios resueltos ESTADÍSTICA DESCRIPTIVA Manuel Barrero Ripoll. Mª Ángeles Castejón Solanas. Mª Luisa Casado Fuente. Luis Sebastián Lorente. Departamento de Ingeniería Topográfica y Cartografía Universidad Politécnica de Madrid 2 Ejercicios resueltos ESTADÍSTICA DESCRIPTIVA Ejercicio 1. Se ha medido dieciséis veces la longitud en metros que separa dos puntos, Los resultados obtenidos se muestran en la siguiente tabla 1.1: 13,404 13,443 13,457 13,460 13,445 13,460 13,447 13,465 13,449 13,455 13,450 13,453 13,453 13,445 13,455 13,455 Tabla 1.1 Calcular la moda, la mediana, los cuartiles y el percentil 90. a) Para realizar este apartado, ordenamos los datos utilizando la tabla de distribución de frecuencias absolutas acumuladas. (Tabla 1.2). xi 13.404 13.443 13.445 13.447 13.449 13.450 13,453 13.455 13.457 13.460 13.465 La moda es el valor de máxima frecuencia. La distancia 13.455 se repite tres veces y es la distancia de mayor frecuencia, por tanto Ni 1 2 4 5 6 7 9 12 13 15 16 M0=13.455 metros s n es un valor entero, la mediana (M) es el valor medio de las 2 n n observaciones que ocupen los lugares = 8 y + 1 = 9 , de modo que 2 2 Por ser -M= 13.453 + 13.453 =13.453 metros s 2 Tabla 1.2 n es un valor entero, el primer cuartil Q1 es el valor medio de 4 n n los valores situados entre el cuarto y el quinto dato, = 4 y + 1 = 5 , así pues, 4 4 Ya que - Q1 = P25 = 13.445 + 13.447 = 13.446 metros s 2 El 75 % del total de las observaciones es 12, el tercer cuartil Q3 estará entre los valores que n n ocupan los lugares 3 = 12 y 3 + 1 = 13 , es decir, 4 4 - Q3= P75 = 13.455 + 13.457 = 13.456 metros s 2 Los nueve décimos de 16 es 14.4, por tanto el percentil 90 ocupará el lugar 15, D9=P90 = 13,460 metros s manuel.barrero@topografía.upm.es 3-I A continuación exponemos el procedimiento para calcular los parámetros anteriores utilizando las funciones específicas de las que EXCEL dispone para ello. Para nuestro ejemplo supondremos que los valores están situados en el rango de datos A2:A17 y escribiremos en la columna E las funciones de Excel como se muestran en la columna G de la figura 1.1: Figura 1.1 lu_seb@topografia.upm.es 4 Ejercicios resueltos ESTADÍSTICA DESCRIPTIVA Ejercicio 2. De los datos del ejercicio anterior, calcular: la media, varianza, desviación típica, cuasivarianza, desviación típica de la muestra y los coeficientes de asimetría de Pearson, de Fisher y de apuntamiento. Para calcular los parámetros pedidos necesitamos hallar los momentos no centrales hasta el orden cuarto. Para ello utilizamos una tabla como la que se muestra a continuación: xi ni 13.404 1 13.443 1 13.445 2 13.447 1 13.449 1 13.450 1 13.453 2 13.455 3 13.457 1 13.460 2 13.465 1 Sumas 16 ( xi − X ni xi 13.404 13.443 26.890 13.447 13.449 13.450 26.906 40.365 13.457 26.920 13.465 215.196 ni xi − X -0.045750 -0.006750 -0.004750 -0.002750 -0.000750 0.000250 0.003250 0.005250 0.007250 0.010250 0.015250 ) ( 2 ni xi − X 0.00209 0.00005 0.00005 0.00001 0.00000 0.00000 0.00002 0.00008 0.00005 0.00021 0.00023 0.00279 ) -0.000096 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000002 0.000004 -0.000090 3 ( ni xi − X ) 4 0.000004 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000004 Tabla 2.1 Media aritmética: Varianza: σ2 X=∑ ∑ n (x = i i n n i x i 215.196 = 16 n −X ) Media = 13.4498 metros s 2 = 0.00279 = 0.00019 16 Varianza = 0.00019 7 Desviación típica: σ = Varianza = 0.00017 ≈ 0.01321 Desviación típica = 0.01321 1 n 2 Cuasivarianza o varianza muestral: S2 = σ = n −1 ∑ n (x i i −X n −1 ) 2 = 0.002791 = 0.00018 15 Cuasivarianza = 0.00018 8 manuel.barrero@topografía.upm.es 5-I ∑n (x n S= σ= n −1 Desviación típica muestral: i i −X ) 2 n −1 = 0.00279 ≈ 0.01364 15 Desviación típica muestral = 0.01364 8 Coeficiente de asimetría de Pearson: As = X − Mo 13.44975 − 13.455 = ≈ −0.39743 0.01321 σ Coeficiente de asimetría de Pearson As=-0.39743 3 Coeficiente de asimetría de Fisher: ( 1 ∑ ni xi − X g1 = n σ3 ) 3 −0.000090 16 = −2.5047 = 0.013213 Coeficiente de asimetría de Fisher g1=-2.504 7 Coeficiente de apuntamiento: ( 1 ∑ ni xi − X n g2 = σ4 ) 4 0.000004 16 − 3 = 5.65051 −3 = 0.013214 Coeficiente de apuntamiento g2 = 5.6505 1 En la figura 2.2 exponemos el procedimiento para calcular los parámetros anteriores utilizando algunas de las funciones específicas de las que EXCEL dispone. Para terminar este apartado, advertimos que algunas fórmulas empleadas por EXCEL pueden producir resultados distintos que con las utilizadas en clase. Por ejemplo los coeficientes de asimetría y apuntamiento de Fisher producen resultados distintos, ello es debido a que nosotros calculamos los coeficientes de asimetría y curtosis de la población o del conjunto de datos, mientras que EXCEL calcula los estimadores o valores muestrales. lu_seb@topografia.upm.es 6 Ejercicios resueltos Ejercicio 4 Dada la distribución de frecuencias absolutas mostrada en la tabla 4.1: Intervalos ni 10 - 15 48 15 - 20 60 20 - 25 80 25 - 30 30 30 - 35 13 35 - 40 10 40 - 45 6 45 - 50 3 Tabla 4.1 Calcular la moda, mediana, cuartiles y el percentil 10. En este caso los datos están agrupados en intervalos, así pues, para el cálculo de los parámetros pedidos, formamos la tabla de distribución de frecuencias y procedemos de la forma siguiente: Intervalo 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 Marca de Frecuencia Frecuencia ni clase xi Ni 12.5 48 48 17.5 60 108 22.5 80 188 27.5 30 218 32.5 13 231 37.5 10 241 42.5 6 247 47.5 3 250 Moda: El intervalo modal es [20, 25) y tomamos como moda, M0, el punto medio del intervalo. M0 =22.5 5 Mediana: El valor de n/2 es 125, por tanto, el intervalo mediano es [20, 25) y el valor de la mediana Tabla 4.2 M = 20 + Primer cuartil: El valor de (125 − 108) 5 = 21.06 80 n es 62.5, por tanto, el primer cuartil estará en el 4 intervalo [15, 20) y su valor es: Q1 = 15 + ( 62.5 − 48) 5 = 16.21 60 3 n es 187.5, así pues el tercer cuartil Q3 está en el intervalo [20, 25) y su valor es: 4 Q3 = 20 + (187.5 − 108) 5 = 24.97 80 El percentil 10 estará en el intervalo [10, 15) y su valor es: P10 = 10 + ( 25 − 0 ) 5 = 12.60 48 lu_seb@topografia.upm.es 8 Ejercicios resueltos ESTADÍSTICA DESCRIPTIVA Ejercicio 5. Representar el histograma de frecuencias y los polígonos de frecuencias absolutas y absolutas acumuladas del ejercicio 4. Para representar el histograma y el polígono de frecuencias absolutas acumuladas, utilizamos la tabla 5.1 de distribución de frecuencias absolutas ni. Histograma de frecuencias absolutas 100 80 Intervalos ni 10-15 48 15-20 60 20-25 80 25-30 30 30-35 13 35-40 10 100 40-45 6 80 45-50 3 60 40 20 0 10 - 15 - 20 - 25 - 30 - 35 - 40 - 45 - 50 Poligono de fre cue ncias absolutas 60 40 Tabla 5.1 20 0 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 Figura 5.1 Para representar el polígono de frecuencias absolutas acumuladas, utilizamos la distribución de frecuencias absolutas acumuladas Ni. Intervalos 10 - 15 15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 Ni 48 108 188 218 231 241 247 250 Polígono de fre cue ncias absolutas acumuladas 300 250 200 150 100 50 0 10 15 20 25 30 35 40 45 50 Tabla 5.2 manuel.barrero@topografía.upm.es 9-I Ejercicio 6. Del ejercicio 4 hallar la media, varianza, desviación típica, cuasivarianza, desviación típica muestral y los coeficientes de asimetría y apuntamiento de Fisher. Para el cálculo de los parámetros estadísticos pedidos, utilizamos la tabla 6.1 y las fórmulas de la tabla 6.1. Intervalos 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 Marca de Frecuencia ni xi clase xi absoluta ni 12.5 48 600 17.5 60 1050 22.5 80 1800 27.5 30 825 32.5 13 422.5 37.5 10 375 42.5 6 255 47.5 3 142.5 250 5470 (x − X) ( ni xi − X i -9.38 -4.38 0.62 5.62 10.62 15.62 20.62 25.62 64.96 ) 2 ( ni xi − X ) 3 ( ni xi − X Parámetro estadístico. Varianza Fórmula. Valor. X= ∑n x i i Desviación típica muestral Coef. de asimetría de Fisher Coeficiente de apuntamiento −X ) 5470 =21.88 250 2 = 14778.90 =59.11 250 σ = σ2 = 7.69 2 S ∑ n (x = i i −X ) n −1 2 = n 2 σ =59.34 n −1 n 2 σ = 7.7 n −1 3 117423.34 1 ni x − X ∑ 250 = g1 = n =1.03 σ3 454.55 4 3561461.88 1 ni x − X ∑ 250 −3 = − 3 =1.06 g2 = n σ4 59.112 S = S2 = ( ( Tabla 6.2 lu_seb@topografia.upm.es 10 i = n Desviación típica Cuasivarianza i n ∑ n (x = σ2 4 4223.25 -39614.10 371580.22 1151.06 -5041.66 22082.47 30.75 19.07 11.82 947.53 5325.13 29927.23 1466.20 15571.01 165364.17 2439.84 38110.36 595283.87 2551.11 52603.81 1084690.64 1969.15 50449.70 1292521.44 14778.90 117423.34 3561461.88 Tabla 6.1 Media ) Ejercicios resueltos ) ) ESTADÍSTICA DESCRIPTIVA Ejercicio 7. Los siguientes valores corresponden a la temperatura máxima diaria (ºF) de 36 días, obtenidos a las 14 horas en una cierta estación meteorológica. 84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 75, 76, 73, 70, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 58, 57, 21. a) Calcular: media, desviación típica muestral, cuartiles superior e inferior y la mediana. b) Estudiar la existencia de datos atípicos. Si existe algún valor atípico omitir, dicho valor y calcular de nuevo el apartado a). c) Con los datos de los apartados a y b construir un gráfico con el diagrama de caja, de ambos apartados. x i n i Ni n i xi n i xi2 Para el cálculo del apartado a) utilizaremos la tabla 7.1. a) - Media: X = 2361 ≈ 65.58 36 - Varianza de la población: σ 2 = 2 160811 − X ≈ 165,80 36 - Desviación típica de la población: σ = σ2 = 165,8 ≈ 12.88 - Varianza muestral o cuasivarianza: 36 S2 = 165,8 ≈ 170.54 35 - Desviación típica muestral: S = S2 = 170.536 ≈ 13.06 . - Primer cuartil: n n 58 + 60 = 59 . = 9 y + 1=10 ⇒ Q1 = 4 4 2 - Tercer cuartil: 3 3 75 + 75 = 75 . n = 27 y n + 1 = 28 ⇒ Q3 = 4 4 2 - Mediana: 2 2 67 + 68 n = 18 y n + 1 = 19 ⇒ M = = 67.5 . 4 4 2 b) El rango intercuatílico y las barreras del gráfico son: LS =mín[ xmáx, Q3+1.5·16]=mín[84, 99]=84. IQR=75-59=16 LI =máx[ xmin, Q1-1.5·16]=máx[21, 35]=35. 21 40 45 49 52 53 57 58 60 61 63 66 67 68 69 70 72 73 75 76 78 79 80 81 83 84 1 1 1 1 1 1 1 2 1 2 1 1 4 1 1 4 1 1 2 2 1 1 1 1 1 1 1 2 3 4 5 6 7 9 10 12 13 14 18 19 20 24 25 26 28 30 31 32 33 34 35 36 21 40 45 49 52 53 57 116 60 122 63 66 268 68 69 280 72 73 150 152 78 79 80 81 83 84 2361 441 1600 2025 2401 2704 2809 3249 6728 3600 7442 3969 4356 17956 4624 4761 19600 5184 5329 11250 11552 6084 6241 6400 6561 6889 7056 160811 Tabla 7.1 El valor x=21 ºF es una temperatura atípica del conjunto de datos. manuel.barrero@topografía.upm.es 11 - I c) Si omitimos la observación 21ºF y procedemos de forma análoga al apartado a) se tiene: ni xi 40 45 49 52 53 57 58 60 61 63 66 67 68 69 70 72 73 75 76 78 79 80 81 83 84 1 1 1 1 1 1 2 1 2 1 1 4 1 1 4 1 1 2 2 1 1 1 1 1 1 Ni n i xi 1 2 3 4 5 6 8 9 11 12 13 17 18 19 23 24 25 27 29 30 31 32 33 34 35 40 45 49 52 53 57 116 60 122 63 66 268 68 69 280 72 73 150 152 78 79 80 81 83 84 2340 n i x i2 1600 2025 2401 2704 2809 3249 6728 3600 7442 3969 4356 17956 4624 4761 19600 5184 5329 11250 11552 6084 6241 6400 6561 6889 7056 160370 - Media: X = 2340 = 66.86 35 - Varianza de la población: σ 2 = - Varianza muestral: S2 = 2 160370 − X = 112.12 35 35 112.122 = 115.42 34 - Desviación típica de la población: σ = σ 2 = 10.59 - Desviación típica de la muestra: S = S2 = 10.74 . n = 8.75 ⇒ Q1 = 60 4 3 - Tercer cuartil: n = 26.25 ⇒ Q3 = 75 4 2 - Mediana: n = 17.5 ⇒ M = 68 4 - Primer cuartil: Los valores del rango intercuartílco y de las barreras son: Rango intercuartílico: IQR=75-59=15. LI =máx[ xmin, Q1-1.5·16] = máx[40, 37.5]=40. LS =mín[ xmáx, Q3+1.5·15] = mín[84, 97.5] = 84. Con los datos calculados anteriormente, obtenemos el diagrama de cajas de ambas series de datos Realizado el diagrama de cajas en ambos casos, una lectura de este gráfico sería que la dispersión y la Tabla 7.2 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0 20 40 60 80 lu_seb@topografia.upm.es 12 Ejercicios resueltos 100 asimetría son mayores en el apartado a) que en el apartado b). En a) la caja es algo más ancha y, por tanto, mayor la dispersión. También observamos que en b) la media está más próxima a la mediana que en a) y por ello es más simétrica y más significativa en b) al ser menor la dispersión.