2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Ejemplos y ejercicios de 2 Descripción estadı́stica de una variable. Ejemplos y ejercicios. 2.1 Estadı́stica Descriptiva y Análisis de Datos Diplomatura en Estadı́stica Curso 2007/08 2 Ejemplos. Ejemplo 2.1 Se han medido el grup sanguı́neo de 40 individuos y se han observado las siguientes frecuencias absolutas para cada categorı́a: 12 para x1 = A, 11 para x2 = B, 8 para x3 = AB y 9 para x4 = O. a) ¿De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente. b) ¿Qué porcentaje de individuos son del grupo A? c) ¿Qué porcentaje de individuos no son del grupo O? d) ¿Cuántos individuos no son del grupo B? Respuestas: a) Categórica nominal. grupo A B AB O Total ni 12 11 8 9 40 fi 0.3 0.275 0.2 0.225 1 b) El 30%, c) el 100 − 22.5 = 77.5%, d) 40 − 11 = 29 o bien 12 + 8 + 9 = 29. Ejemplo 2.2 La siguiente tabla muestra la clasificación de 901 individuos según la variable satisfacción en el trabajo Aurea Grané Dpto. Estadı́stica Universidad Carlos III de Madrid xi muy insatisfecho moderamademte insatisfecho moderadamente satisfecho muy satisfecho Total ni 62 108 319 412 901 a) ¿De qué tipo es la variable de estudio? Calcular la tabla de frecuencias correspondiente. b) ¿Qué porcentaje de individuos están moderadamente satisfechos? c) ¿Cuántos individuos están a lo sumo moderadamente insatisfechos? ¿Qué porcentaje representan? d) ¿Cuántos individuos están por lo menos moderadamente satisfechos? ¿Qué porcentaje representan? 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 3 Respuestas: a) Categórica ordinal, xi muy insatisfecho moderamademte insatisfecho moderadamente satisfecho muy satisfecho Total ni 62 108 319 412 901 fi 0.07 0.12 0.35 0.46 1 Ni 62 170 489 901 Fi 0.07 0.19 0.54 1 b) El 35%, c) 170 y representan el 19%, d) 319+412 = 731 o bien 901−170 = 731, que representan el 35 + 46 = 81% (o bien 100 − 19 = 81%). Ejemplo 2.3 Se quiere estudiar la eficacia de un nuevo insecticida para plantas de interior. Se seleccionan 50 plantas y se cuenta el número de hojas que han sido atacadas después de haber tratado la planta con el nuevo producto. Los resultados son: Hojas atacadas 0 1 2 3 4 5 6 8 10 ni 6 10 12 8 5 4 3 1 1 a) ¿De qué tipo es la variable de estudio? Construir la tabla de frecuencias correspondiente. b) ¿Qué porcentaje de plantas tienen sólo 3 hojas atacadas? c) ¿Cuántas plantas tienen como máximo 3 hojas atacadas? d) ¿Cuántas plantas tienen como mı́nimo 6 hojas atacadas? e) ¿Qué porcentaje de plantas tienen entre 3 y 5 hojas atacadas? f ) ¿Qué porcentaje de plantas tienen al menos 8 hojas atacadas? g) ¿Qué porcentaje de plantas tienen a lo sumo 2 hojas atacadas? Respuestas: a) Cuantitativa discreta, 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Hojas atacadas 0 1 2 3 4 5 6 8 10 ni 6 10 12 8 5 4 3 1 1 fi 0,12 0,20 0,24 0,16 0,10 0,08 0,06 0,02 0,02 Ni 6 16 28 36 41 45 48 49 50 4 Fi 0,12 0,32 0,56 0,72 0,82 0,90 0,96 0,98 1 b) el 16%, c) 36, d) 3 + 1 + 1 = 5 o bien 50 − 45 = 5, e) el 16 + 10 + 8 = 34% o bien (8 + 5 + 4)/50 · 100 = 34%, f ) el 2 + 2 = 4% o bien 100 − 96 = 4%, g) el 56%. Ejemplo 2.4 En veinte vuelos de Barcelona a Madrid se han contado el número de asientos vacı́os en cada vuelo. Se han agrupado los datos en intervalos de longitud 4. asientos vacı́os 0−3 4−7 8 − 11 12 − 16 ni 9 5 4 2 a) ¿De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente. b) ¿En cuántos vuelos hay menos de 8 asientos vacı́os? ¿Qué porcentaje representan? c) ¿En cuántos vuelos hay como mı́nimo 10 asientos vacı́os? ¿Qué porcentaje representan? Respuestas: a) Cuantitativa discreta, intervalos [0, 4) [4, 8) [8, 12) [12, 16] Total xi 2 6 10 14 ni 9 5 4 2 20 fi 0,45 0,25 0,20 0,10 1 Ni 9 14 18 20 Fi 0,45 0,70 0,90 1,00 b) En 14 vuelos, y representan el 70% de los vuelos, c) Aproximadamente en 2 + 4 · (10 − 8)/(12 − 8) = 4 vuelos, que representan el 4/20 · 100 = 20% de los vuelos. 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 5 Ejemplos de representaciones gráficas 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 6 Figure 3: Gráfico de Pareto. Datos del ejemplo 2.2 900 100% 800 89% 700 78% 600 67% 500 55% polı́gono de frecuencias 400 44% diagrama de barras 300 33% 200 22% Figure 1: Diagrama de barras y polı́gono de frecuencias. Datos del ejemplo 2.3. 12 10 100 8 0 11% muy satisfecho mod. satisfecho mod. insatisfecho muy insatisfecho 0% 6 4 Figure 4: Histograma y polı́gono de frecuencias. Datos del ejemplo 2.4. 2 0 1 2 3 4 5 6 7 8 9 10 2.5 polı́gono de frecuencias histograma 2 1.5 Figure 2: Diagrama de sectores. Datos del ejemplo 2.1 1 0.5 23% 30% 0 4 8 12 16 A B AB O 20% 28% Ejemplo 2.5 Con los siguientes datos construir un diagrama de tallo y hojas. Datos recogidos (en cm): 11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206, 12.710, 13.455, 16.143, 12.162, 12.721, 13.420, 14.698. Respuesta: Datos redondeados y expresados en mm: 114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134, 147. 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 7 Diagrama de tallo y hojas (datos en mm): 11 12 13 14 15 16 17 344 24577 345 27 2 1 2 Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depósitos con 2000, 5000 y 10000 euros, respectivamente. si el primero le rinde un 5% anual, el segundo un 4% anual y el tercero un 2% anual, ¿cuál es el tipo de interés medio que recibe? Respuesta: La variable de estudio es el interés anual. Los valores que toma esta variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El interés medio es xP = 50000 5 · 2000 + 4 · 5000 + 2 · 10000 = = 2.94. 2000 + 5000 + 10000 17000 Ejemplo 2.7 Calcular la mediana y la moda de los conjuntos de datos siguientes: a) 18, 18, 19, 17, 23, 20, 21, 18 b) 20, 21, 18, 19, 18, 17, 18 Respuestas: a) Ordenados los datos en orden creciente, 17, 18, 18, 18, 19, 20, 21, 23, el valor de la mediana es M e = (18 + 19)/2 = 18.5 y la moda es M o = 18. b) Ordenados los datos en orden creciente, 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Respuestas: Utilizando la tabla de frecuencias calculada en el apartado b) del ejercicio 2.2, tenemos que k x= 1 43050000 xi ni = = 827884.62, n 52 i=1 que significa que, en promedio, hay 827884.62 habitantes por provincia. Para el cálculo de la mediana, buscamos primero el intervalo mediano. Puesto que n/2 = 26, el intervalo mediano es [500000, 750000). Aplicando la fórmula de la mediana: M e = 500000 + 250000 · 26 − 24 = 550000, 34 − 24 esto significa que el 50% de las provincias españolas tienen menos de 550000 habitantes. Recordemos que la distribución de esta variable es bastante asimétrica como muestra el histograma de frecuencias de la figura 6, por tanto, resultará más fiable utilizar la mediana y no la media como medida de tendencia central. Ejemplo 2.9 Cálculo de algunas caracterı́sticas numéricas con los datos del ejemplo 2.3. ni 6 10 12 8 5 4 3 1 1 50 hojas atacadas 0 1 2 3 4 5 6 8 10 Total Ni 6 16 28 36 41 45 48 49 50 xi ni 0 10 24 24 20 20 18 8 10 134 x2i ni 0 10 48 72 80 100 108 64 100 582 17, 18, 18, 18, 19, 20, 21, Medidas de tendencia central: el valor de la mediana es M e = 18 y la moda es M o = 18. Ejemplo 2.8 Con los datos del ejercicio 2.2 (habitantes de las provincias españolas) calcular la media aritmética y la mediana. 8 x= 134 = 2.68, 50 M e = 2, M o = 2. Medidas de posición: Q1 = 1, P35 = 2, Q3 = 4, P80 = 4, P95 = 6. 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 9 Medidas de dispersión: s2n = 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 10 Medidas de posición: 582 − 2.682 = 4.46, 50 sn = R = 10 − 0 = 10, √ RI = 4 − 1 = 3. -2 6 -1 10 0 12 1 8 2 5 3 4 4 3 4(6 − 0) = 2.67, 9−0 Medidas de dispersión: 6 1 ni (y) 12 10+8=18 6+5=11 4 3 1 1 Puesto que n = 50 es par, la M EDA es la media aritmética entre el dato 25 y el dato 26, es decir: M EDA = y(25) + y(26) =1 2 P57 = 4 + 4(15 − 14) = 9, 18 − 14 4(11.4 − 9) = 5.92. 14 − 9 √ 1008 − 5.82 = 16.76, sn = 16.76 = 4.09, 20 R = 16 − 0 = 16, RI = 9 − 2.22 = 6.78. 8 1 Ni (y) 12 30 41 45 48 49 50 Q3 = 8 + s2n = 2.2 yi = |xi − M e(X)| 0 1 2 3 4 6 8 4(5 − 0) = 2.22, 9−0 P30 = 0 + La mediana de desviaciones absolutas, M EDA, se obtiene calculando la mediana de los valores absolutos de xi − M e(X). Empezamos calculando estas diferencias: xi − M e(X) ni Q1 = 0 + 4.46 = 2.11, Ejercicios. Ejercicio 2.1 Con los datos del ejemplo 2.4 trazar la curva de frecuencias relativas acumuladas. Determinar el número de vuelos que tienen como máximo 10 asientos vacı́os. Respuesta: La figura 5 contiene la curva de frecuencias acumuladas. En el eje horizontal se representan los valores que toma la variable, en este caso el número de asientos vacı́os, y en el eje vertical se representan las frecuencias relativas acumuladas. Utilizando esta figura vemos que al valor 10 le corresponde una altura de 0.8. Por tanto, el 80% de los vuelos tienen como máximo 10 asientos vacı́os. Puesto que en total hay 20 vuelos, el 80% de los vuelos son 20 (0.8) = 16 vuelos. Este mismo cálculo puede realizarse Figure 5: Curva de frecuencias acumuladas o polı́gono de frecuencias acumuladas. Datos del ejemplo 2.4. Ejemplo 2.10 Cálculo de algunas caracterı́sticas numéricas con los datos del ejemplo 2.4. intervalo [0, 4) [4, 8) [8, 12) [12, 16) Total xi 2 6 10 14 ni 9 5 4 2 20 Ni 9 14 18 20 xi ni 18 30 40 28 116 x2i ni 36 180 400 392 1008 ni /Li 2.25 1.25 1 0.5 1 0.8 0.75 0.5 0.25 Medidas de tendencia central: x= 116 = 5.8, 20 M e = 4 + (4 − 0) M o = 0 + (4 − 0) 10 − 9 = 4.8, 14 − 9 1.25 = 4. 0 + 1.25 0 4 8 10 12 16 utilizando la tabla de frecuencias del ejemplo 2.4. Recordemos cómo era la tabla: 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Intervalo xi ni fi Ni Fi [0, 4) [4, 8) [8, 12) [12, 16] 2 6 10 14 9 5 4 2 0,45 0,25 0,20 0,10 9 14 18 20 0,45 0,70 0,90 1,00 20 1 Total 11 El número de vuelos que tienen a lo sumo 10 asientos vacı́os lo obtendremos sumando las frecuencias observadas en el intervalo [0, 4) más las frecuencias observadas en el intervalo [4, 8) más una parte de las frecuencias observadas en el intervalo [8, 12). Es decir, 9+5+ 10 − 8 · 4 = 16. 12 − 8 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS intervalos [0, 100000) [100000, 250000) [250000, 500000) [500000, 750000) [750000, 1000000) [1000000, 2000000) [2000000, 3000000) [3000000, 4000000) [4000000, 6000000) xi 50000 175000 375000 600000 875000 1500000 2500000 3500000 5000000 ni 3 8 13 10 7 8 1 0 2 Num. habitantes de 1 a 100 000 de 100 000 a 250 000 de 250 000 a 500 000 de 500 000 a 750 000 de 750 000 a 1 000 000 de 1 000 000 a 2 000 000 de 2 000 000 a 3 000 000 de 3 000 000 a 4 000 000 de 4 000 000 a 6 000 000 Num. provincias 3 8 13 10 7 8 1 0 2 a) Constuir una tabla estadı́stica con las marcas de clase, las frecuencias absolutas y las frecuencias relativas. b) ¿Cuántas provincias tienen menos de 500 000 habitantes? ¿Qué porcentaje representan? c) ¿Cuántas provincias tienen entre 800 000 y 1 300 000 habitantes? d) Construir el histograma de frecuencias absolutas. Respuestas: a) La tabla de frecuencias con una columna adicional que será útil para la construcción del histograma es la siguiente: Ni 3 11 24 34 41 49 50 50 52 Fi 0.058 0.212 0.462 0.654 0.789 0.943 0.962 0.962 1 ni /Li 3 · 10−5 5.3 · 10−5 5.2 · 10−5 4 · 10−5 2.8 · 10−5 0.8 · 10−5 0.1 · 10−5 0 0.1 · 10−5 b) 24 provincias, que representan el 46.2%. c) El intervalo [800000, 1300000] está situado encima de dos intervalos de clase: 800000 Ejercicio 2.2 Clasificadas las provincias españolas por su número de habitantes en 2001, se obtuvieron los siguientes datos: fi 0.058 0.154 0.250 0.192 0.135 0.154 0.019 0 0.038 12 [ 750000 1300000 ] 106 2 · 106 Por tanto, el número de provincias que tienen entre 800000 y 1300000 habitantes es aproximadamente 1300000 − 1000000 1000000 − 800000 ×7+ ×8 1000000 − 750000 2000000 − 1000000 = 0.8 × 7 + 0.3 × 8 = 8 provincias. d) La figura 6 contiene el histograma de frecuencias absolutas. Ejercicio 2.3 Los siguientes datos corresponden a las medidas de 15 individuos sobre la variable cuantitativa peso: 62, 74, 86, 53, 49, 71, 68, 67, 69, 70, 58, 59, 73, 74, 78. a) Construid una tabla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas. b) Realizad un diagrama de tallo y hojas. Respuestas: a) Agrupamos los datos en k = √ 15 ≈ 4 intervalos de clase: 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 13 Figure 6: Histograma de frecuencias absolutas. Datos del ejercicio 2.2. 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 240/10 = 24. En la cuarta columna obtenemos las desviaciones respecto de la media, y en la quinta ponderamos por la frecuencia observada en cada intervalo. [li−1 , li ) [0, 10) [10, 20) [20, 30) [30, 40] Total 5 · 10−5 4 · 10−5 3 · 10−5 2 · 10−5 14 xi 5 15 25 35 ni 1 2 4 3 10 xi ni 5 30 100 105 240 xi − x -19 -9 1 11 (xi − x) ni -19 -18 4 33 0 Ejercicio 2.5 Una empresa está interesada en seleccionar entre dos candidatos para un puesto de trabajo. Las valoraciones que han obtenido en las entrevistas y pruebas a que han sido sometidos son las siguiente: 10−5 0 1 2 3 4 millones de habitantes intervalos [49, 59) [59, 69) [69, 79) [79, 89] xi 54 64 74 84 ni 3 4 7 1 fi 0.2 0.267 0.467 0.067 Ni 3 7 14 15 5 6 Fi 0.2 0.467 0.934 1.001 b) El diagrama de tallo y hojas es: 4 5 6 7 8 9 389 2789 013448 6 Ejercicio 2.4 Obtener las desviaciones con respecto a la media en la siguiente distribución y comprobar que su suma es cero. intervalo 0-10 10-20 20-30 30-40 frecuencia 1 2 4 3 Respuesta: Primeramente construimos la tabla de frecuencias. Con la tercera columna de la tabla calculamos la media aritmética, que es x = Aspecto experiencia conocimientos psicontécnico Candidato A 8 6 4 Candidato B 7 7 5 Si la empresa da una importancia del 60% a la experiencia, del 25% a los conocimientos y del 15% a la habilidad psicotécnica, ¿cuál de los dos candidatos va a escoger? Respuesta: Calculamos las medias ponderadas para cada candidato, con pesos 60, 25 y 15, respectivamente para cada categorı́a. El candidato que obtenga una media poderada mayor será el candidato escogido. xP (A) = 8 · 60 + 6 · 25 + 4 · 15 = 6.9, 100 xP (B) = 7 · 60 + 7 · 25 + 5 · 15 = 6.7 100 Ejercicio 2.6 Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles. xi 0 1 2 3 4 5 ni 14 10 15 26 20 15 Ni 14 24 39 65 85 100 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 15 Respuesta: Puesto que n = 100 es par, Me = 16 Respuesta: x(50) + x(51) = 3, 2 R(edad) = 62 − 19 = 43, que coincide con Q2 . Para calcular Q1 y Q3 debemos buscar los valores n/4 y 3 n/4 en la columna de las frecuencias acumuladas: n = 25 ⇒ Q1 = 2, 4 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 3n = 75 ⇒ Q3 = 4. 4 R(antigüedad) = 39 − 1 = 38. Aunque el rango de la variable edad sea mayor que el rango de la variable antigüedad, esto no significa que el grado de dispersión de edad sea también mayor. Para decidir qué variable tiene un mayor grado de dispersión debemos calcular el coeficiente de variación. Ası́, para la variable edad tenemos que: n Ejercicio 2.7 Calcular la varianza y la desviación tı́pica de las siguientes cantidades en metros: 3, 3, 4, 4, 5. Respuesta: xi 3 4 5 total ni 2 2 1 5 xi ni 6 8 5 19 x2i 9 18 25 x2i ni 18 32 25 75 i=1 12839 − (37.6)2 = 189.23, s2n = x2 − x2 = 8 √ 189.23 = 13.8, sn = sn 13.8 CV = × 100 = × 100 = 36.7%, x 37.6 n x = n 1 3+3+4+4+5 xi = = 3.8, n 5 1 120 = 15, xi = n 8 i=1 2854 − (15)2 = 131.75, s2n = x2 − x2 = 8 √ sn = 131.75 = 11.48, 11.48 sn × 100 = × 100 = 76.5%. CV = x 15 Por tanto, la variable antigüedad tiene una mayor dispresión, a pesar de que su rango es menor. i=1 s2n = 1 301 = 37.6, xi = n 8 mientras que para la variable antigüedad: La media aritmética es x = 19/5 = 3.8 m, la media de cuadrados es x2 = 2 = x2 − x2 = 15 − (3.8)2 = 0.56 m2 75/5 = 15 m2 , la varianza muestral es s√ n y la desviación tı́pica muestral es sn = 0.56 = 0.75 m. Puesto que hay pocos valores, los cálculos de la media y de la varianza se podı́an haber hecho directamente: x= x = n 1 2 9 + 9 + 16 + 16 + 25 − (3.8)2 = 0.56. xi − x2 = n 5 i=1 Ejercicio 2.8 De los ocho empleados de una oficina, se han considerado las distribuciones de sus edades y sus años de antigüedad en la empresa: Edad Antigüedad 40 15 22 3 19 1 30 8 62 39 32 13 45 17 51 24 Calcular lor rangos de estas dos distribuciones. ¿Cuál de las dos tiene mayor grado de dispresión? Ejercicio 2.9 Una empresa inmobiliaria ofrece apartamentos en régimen de alquiler con los siguientes precios (en euors): precio alquiler (mensual) 700-1000 1000-1100 1100-1300 1300-1500 1500-1800 1800-2000 2000-2100 número de apartamentos 21 27 34 14 8 11 10 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 17 a) Obtener el alquiler medio por apartamento, el precio más frecuente y el precio que se situa en medio de la oferta. b) Si una persona está dispuesta a gastarse en alquiler entre 1250 y 1350 euros al mes, a qué porcentaje de apartamentos tiene opción? c) Por debajo de qué precio están el 80% de los apartamentos? d) Entre qué precios están el 50% central de los apartamentos? Respuestas: a) Empezamos construyendo la tabla de frecuencias, y las columnas auxiliares para realizar los cálculos: [li−1 , li ) [700, 1000) [1000, 1100) [1100, 1300) [1300, 1500) [1500, 1800) [1800, 2000) [2000, 2100] Total xi 850 1050 1200 1400 1650 1900 2050 ni 21 27 34 14 8 11 10 125 Ni 21 48 82 96 104 115 125 fi 0.168 0.216 0.272 0.112 0.064 0.088 0.08 1 xi ni 17850 28350 40800 19600 13200 20900 20500 161200 ni /Li 0.07 0.27 0.17 0.07 0.027 0.055 0.1 El alquiler medio por apartamento lo obtendremos mediante el cálculo de la media aritmética: n x= 1 161200 = 1289.6 euros/mes xi ni = n 125 i=1 El precio más frecuente lo obtendremos mediante el intervalo modal, o bien, si queremos ser más precisos, mediante la moda. Puesto que todos los intervalos no tienen la misma amplitud, para saber cuál es el intervalo modal debemos fijarnos en la columna que contiene los valores de ni /Li y no en la de las ni . Ası́ pues, el intervalo modal es [1000, 1100), o sea que el precio más frecuente de los apartamentos está entre 1000 y 1100 euros mensuales. La siguiente fórmula permite situar el valor de la moda dentro del intervalo modal [li−1 , li ): M o = li−1 + Li ni+1 Li+1 ni−1 ni+1 Li−1 + Li+1 . En nuestro caso, el intervalo modal es [1000, 1100) y substituyendo obtenemos: 0.17 = 1070.83 euros/mes. M o = 1000 + 100 0.07 + 0.17 El precio que se situa en medio de la oferta viene dado por la mediana. El intervalo mediano es [1100, 1300), puesto que en él se situa n/2 = 125/2 = 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 18 62.5. Utilizando la fórmula de la mediana, obtenemos: M e = 1100 + (1300 − 1100) 62.5 − 48 = 1185.29 euros/mes. 82 − 48 b) Primero debemos ver dentro de qué intervalos de clase se situa el intervalo de precios que nos piden, esto es, [1250, 1350]. [li−1 , li ) [1100, 1300) [1300, 1500) xi 1200 1400 ni 34 14 Ni 82 96 fi 0.272 0.112 xi ni 40800 19600 ni /Li 0.17 0.07 Observando la tabla vemos que el extremo inferior del intervalo [1250, 1350] está dentro de [1100, 1300) y el extremo superior dentro de [1300, 1500). Ası́ pues, el número de apartamentos con un precio entre 1250 y 1350 euros es 1300 − 1250 1350 − 1300 1 1 34 + 14 = 34 + 14 = 12, 1300 − 1100 1500 − 1300 4 4 12 que representa el 125 100 = 9.6% del total de apartamentos. c) El precio por debajo del cual están el 80% de los apartamentos viene dado por el percentil P80 . Este percentil está dentro del intervalo [1500, 1800), puesto que en él se encuentra el valor 80 n/100 = 80 · 125/100 = 100. Utilizando la fórmula para el cálculo de los percentiles, obtenemos: P80 = 1500 + (1800 − 1500) 100 − 96 = 1650 euros/mes. 104 − 96 d) El 50% central de los apartamentos viene determinado por el primer y tercer cuartiles. n 125 = = 31.25 ⇒ Q1 ∈ [1000, 1100), 4 4 Q1 = 1000 + (1100 − 1000) 31.25 − 21 = 1037.96 euros/mes. 48 − 21 3 125 3n = = 93.75 ⇒ Q3 ∈ [1300, 1500), 4 4 93.75 − 82 = 1467.86 euros/mes. Q3 = 1300 + (1500 − 1300) 96 − 82 2 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 19 Ejercicio 2.10 Con los datos del ejemplo 2.3, calcular los coeficientes de asimetrı́a de Pearson y de Fisher. Respuesta: hojas atacadas 0 1 2 3 4 5 6 8 10 ni 6 10 12 8 5 4 3 1 1 50 xi − x -2.68 -1.68 -0.68 0.32 1.32 2.32 3.32 5.32 7.32 (xi − x)3 ni -115.49 -47.42 -3.77 0.26 11.50 49.95 109.78 150.57 392.22 547.61 En el ejemplo 2.9 hemos calculado x = 2.68, sn = 2.11, M o = 2, por tanto, el coeficiente de asimetrı́a de Pearson es: AsP = 2.68 − 2 x − Mo = = 0.3223. sn 2.11 A partir de la tabla anterior podemos obtener el coeficiente de asimetrı́a de Fisher: 1 n (xi − x)3 ni 547.61/50 AsF = n i=1 3 = = 1.1659. sn 2.113 En este caso, el uso de AsP no es muy recomendable, puesto que el polı́gono de frecuencias de esta distribución no tiene forma acampanada (véase figura 1). En cambio, el coeficiente AsF indica que hay una mayor asimetrı́a positiva.