Variable Estadística 1.- Los aficionados al béisbol aprenden de memoria las estadísticas de este juego. Por ejemplo, ¿cuántos “home runs” (golpes que envían la pelota fuera del campo de juego) son necesarios para liderar la liga? La tabla contiene los líderes de la liga americana y el total de “home runs” entre 1972 y 1991: Año Jugador “Home Año Jugador “Home runs” runs” 1972 Dick Allen 37 1982 Thomas and Jackson 39 1973 Reggie Jackson 32 1983 Jim Rice 39 1974 Dick Allen 32 1984 Tony Armas 43 1975 Sccot and Jackson 36 1985 Darrell Evans 40 1976 Graig Nettles 32 1986 Jesse Barfield 40 1977 Jim Rice 39 1987 Mark McGwire 49 1978 Jim Rice 46 1988 Jose Canseco 42 1979 Gorman Thomas 45 1989 Fred McGriff 36 1980 Reggie Jackson 41 1990 Cecil Fielder 51 1981 Four players 22 1991 Canseco and Fielder 44 Se pide: a) construir el diagrama de barras. b) El polígono de frecuencias. c) Diagrama de frecuencias acumuladas. d) Moda y mediana. La media de golpes para los 167 jugadores de la liga americana que intentaron batear más de 200 veces en la temporada de 1980 viene representada en la siguiente tabla: CLASE FRECUENCIA CLASE FRECUENCIA CLASE FRECUENCIA 0,185-0,195 1 0,255-0,265 16 0,325-0,335 4 0,195-0,205 3 0,265-0,275 18 0,335-0,345 1 0,205-0,215 1 0,275-0,285 23 0,345-0,355 1 0,215-0,225 4 0,285-0,295 23 0,355-0,365 0 0,225-0,235 13 0,295-0,305 16 0,365-0,375 0 0,235-0,245 20 0,305-0,315 3 0,375-0,385 0 0,245-0,255 15 0,315-0,325 4 0,385-0,395 1 e) Dibujar el histograma, polígono de frecuencias y diagrama de frecuencias acumuladas. f) Calcular media, moda, mediana, varianza, desviación típica, coeficiente de variación, sesgo y curtosis. g) ¿Cuál es el percentil correspondiente a un jugador cuyo promedio es 0,315? h) Dibujar el diagrama de cajas. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 1 Variable Estadística 2.- De una variable estadística se conocen los siguientes valores 1, 1, 2, 2, 2, 2, 3 y 3; si consideramos otra variable estadística con valores 1, 2, 2, 3, 3, 4, 4 y 5. Determinar la media, la mediana, la moda y la varianza de cada variable. ¿Cuál es la media, la mediana, la moda y la varianza de la variable estadística que resulta de unir las dos anteriores? Conocidas dos muestras de una misma variable con distintas medias y distinto tamaño ¿cuál es la media del resultado de unir dichas muestras? 3.-De una variable estadística se sabe que los momentos respecto al origen son: m0=1, m1=1, m2=2, m3=4 y el primer cuartil Q1=0.7. Calcular, coeficiente de asimetría, varianza, media, mediana y tercer cuartil. 4.- Dada la gráfica correspondiente a un polígono de frecuencias relativas acumulativo de una variable estadística agrupada en intervalos de una muestra de tamaño n=20. A) Formar la tabla de distribución de frecuencias absolutas. B) Dibujar el histograma y el polígono de frecuencias. D) Encontrar la mediana, moda y media. Fi 1 0.85 0.45 0.15 0.15 0 20 40 60 80 100 5.- El porcentaje de disco ocupado (en Mbytes) para distintos usuarios de una estación de trabajo está agrupados en las cuatro clases de igual longitud siguientes: Clases [25.0, 32.5) [32.5, 40.0) [40.0, 47.5) [47.5, 55.0] Frecuencia 3 5 8 4 Calcular: a. El primer y tercer cuartil. b. Media, desviación típica y cuasivarianza. 6.- Dada la tabla de distribución de frecuencias: xi 6 7 8 10 11 12 ni 1 2 7 6 3 1 a. Representar en el polígono de frecuencias absolutas. b. Calcular el valor de los cuartiles, media, mediana y varianza muestral (cuasivarianza). c. Representar en el diagrama de cajas. ¿Existen puntos atípicos en la muestra? ¿Por qué? d. Un valor en la muestra de 4, ¿sería un valor atípico?, ¿por qué? U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 2 Variable Estadística 7.- Se tabulan los valores de los errores de cierre en nivelación obtenidos en 742 polígonos. Calcular: a) media, b) mediana, c) moda, d) coeficiente de variación. Valor en dm del error Nº. de polígonos 0.255 - 0.285 6 0.285 - 0.315 38 0.315 - 0.345 66 0.345 - 0.375 131 0.375 - 0.405 240 0 405 - 0 435 162 0.435 - 0.465 84 0.465 - 0.495 15 8.- Al finalizar el curso de “Álgebra y Geometría” se realizó un examen de tipo test a los trescientos alumnos matriculados obteniéndose la siguiente tabla referente al número de preguntas acertadas: Nº de preguntas 0 – 10 10 – 25 20 – 30 30 – 40 40 – 50 50 – 60 60 – 70 acertadas Nº de alumnos 10 20 60 100 70 30 10 Se pide: a) Representa el histograma de la distribución de frecuencias anterior. b) Hallar la media y varianza muestral. c) ¿Cuál será el número P de preguntas acertadas tal que la mitad de los alumnos obtengan un número de preguntas acertadas mayor que P? d) ¿Cuál es número medio de preguntas acertadas y el número de preguntas acertadas que más se repite. Para la concesión de unas becas se realiza una segunda parte de examen al que sólo se permite presentarse a los 60 alumnos con mejor nota en el test. Se pide: e) Hallar el número de preguntas acertadas como mínimo que se ha exigido a un alumno para realizar la segunda parte del examen. Una vez finalizada la segunda parte del examen se han obtenido las siguientes notas: Nota 4 5 5.5 6 6.5 8 Nº de 8 12 15 14 6 5 alumnos Se pide: f) ¿Por qué no se debe agrupar los datos en intervalos como se realizó con las notas del test? g) Hallar la mediana, la moda y el recorrido intercuartílico. h) De las dos distribuciones de notas en cuál de ellas la media es más representativa. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 3 Variable Estadística i) ¿Que resulta más difícil, obtener 28 preguntas acertadas en el examen tipo test u obtener un 6,5 en la segunda parte del examen. j) Si se concede una beca a los 25 alumnos con mejor nota en la segunda parte del examen. ¿A partir de qué nota se concederán las becas? 9.- Se ha realizado una prueba de rendimiento a 20 alumnos elegidos al azar, los resultados obtenidos sobre el rendimiento se muestran en el siguiente gráfico: a) A partir del gráfico calcular 25 la mediana, los cuartiles y el rango de la variable. 20 b) Formar la tabla de distribución de frecuencias 15 absolutas 10 c) Representar el diagrama de frecuencias absolutas. 5 d) Calcular: Los cuartiles, la mediana, la moda, varianza 0 muestral. 0 2 4 6 8 10 12 14 e) Considerando los 20 alumnos como la población calcular los coeficientes de asimetría y curtosis de Fisher. 10.- La siguiente tabla muestra una distribución de frecuencias de la duración de 400 componentes fabricados por una determinada marca. Duración Número de Determinar: (horas) componentes a) Frecuencia relativa de la sexta clase [300 – 400) 14 b) Porcentaje de componentes cuya duración es [400 – 500) 46 menor que 600 horas. [500 – 600) 58 c) Porcentaje de componentes cuya duración es [600 – 700) 76 mayor o igual a 900 horas. [700 – 800) 68 d) Porcentaje de componentes cuya duración es al menos de 500 horas pero menor de 1000 horas. [800 – 900) 62 e) Estimar el porcentaje de componentes con [900 – 1000) 48 duraciones de menos de 560 horas. [1000 – 1100) 22 f) Estimar el porcentaje de componentes con [1100 – 1200) 6 duraciones de 970 o más horas. g) ¿Qué número de horas duran el 95% de los componentes? h) Representar el histograma de frecuencias absolutas y el polígono de frecuencias relativas acumuladas. i) Calcular la media, moda, la desviación estándar de la muestra, Coeficiente de variación y el coeficiente de asimetría de Pearson. j) Suponiendo que los 400 componentes son la población total, calcular la varianza y los coeficientes de asimetría y curtosis de Fisher. 11.- En un taller de reparación de vehículos se recogen datos sobre los días que se tarda en reparar un vehículo, y se obtiene Días en taller 0 1 2 3 4 5 8 10 15 Nº de coches 10 12 23 10 9 5 3 2 1 a) Representar el polígono de frecuencias absolutas. b) Calcular la moda, mediana, el primer y tercer cuartil, y El percentil 96. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 4 Variable Estadística c) Calcular los momentos respecto del origen de orden 1, 2, 3 y 4. d) Calcular los momentos respecto de la media de orden 1, 2, 3 y 4. e) Calcular la media, varianza, desviación estándar, Coeficiente de variación y el coeficiente de asimetría. f) Calcular la varianza y los coeficientes de asimetría y curtosis de Fisher de los días de estancia en el taller los 75 vehículos. g) ¿Existen reparaciones atípicas en cuanto a la duración en la reparación? 12.- En un aparcamiento cobran por cada minuto que está estacionado el vehículo 1,5 céntimos. El tiempo que los vehículos permanecen estacionados dentro un día cualquiera se muestra en el siguiente polígono de frecuencias: Respecto del tiempo que un vehículo está en el aparcamiento calcular: a) Porcentaje de vehículos estacionados más de dos horas pero menos de cuatro horas. b) Estimar el porcentaje de vehículos que estacionan menos de 100 minutos. c) ¿Qué número de minutos está estacionado dentro el 90% de los vehículos. d) La moda, los cuartiles primero y tercero, y la mediana. e) La media, desviación estándar muestral y el coeficiente de asimetría de Pearson. f) Realizar el diagrama de cajas. g) ¿A partir de cuántos minutos el tiempo considerado será atípico? Respecto del pago (precio por minuto estacionado) calcular: h) El ingreso medio y el ingreso más frecuente por vehículo. i) La empresa arrendataria del servicio está estudiando modificar la tarifa existente de la siguiente manera: a todos los vehículos se les cobrará 50 céntimos de € por entrar y 14 céntimos de € por cada minuto que tengan su coche dentro del aparcamiento. Bajo esta suposición, y con los datos de que dispone, ¿qué alternativa da un ingreso medio mayor? 13.- Investigados los precios de ordenadores de 50 marcas distintas se han obtenido los siguientes resultados: 700 300 500 400 500 700 400 750 700 300 500 750 300 700 1000 1250 500 750 500 750 400 500 300 500 1000 300 400 500 400 500 300 400 700 400 700 500 400 700 1000 750 700 800 750 700 750 800 700 700 1200 800 a) Determinar la distribución de precios agrupados en frecuencias absolutas. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 5 Variable Estadística b) Representar gráficamente el diagrama de barras y el polígono de frecuencias acumuladas. c) Calcular el precio medio y el más frecuente. d) Calcular la varianza y el coeficiente de variación. e) Obtener el sesgo y la curtosis o apuntamiento. f) Si queremos un ordenador cuyo precio corresponda como mínimo al 10% de los precios más caros, ¿cuál será el precio correspondiente? g) ¿Existen precios atípicos según el diagrama de cajas? 14.- Si en una población de 120 personas el coeficiente intelectual tiene la siguiente distribución: Coef. 60-70 70-80 80-90 90-100 100-110 110-120 120-130 130-140 Int. ni 2 3 25 46 35 5 3 1 a) Representar el histograma de frecuencias. b) Representar el polígono de frecuencias acumuladas. c) Atendiendo al coeficiente intelectual, se consideran bien dotadas al 5% de las personas con mayor coeficiente. ¿A partir de qué coeficiente intelectual mínimo se considerará como bien dotada a una persona de esta población? d) ¿Qué proporción de la población es más inteligente que una persona con coeficiente intelectual 100? e) ¿En qué percentil está situada una persona de coeficiente intelectual 90? f) Obtener la media, la moda, la mediana y la varianza de la población. 15.- Los siguientes datos corresponden a las cotas taquimétricas iniciales de un terreno en orden creciente: VÉRTICES Cota inicial (xi) 1 102,3 2 101,98 3 101,37 4 101,22 5 101,98 6 101,8 7 101,48 8 101,22 9 101,87 10 100,78 11 101,3 12 101,03 13 100,42 14 100,42 15 100 A.- Construir un sumario estadístico que incluya las frecuencias: absolutas, relativas, absolutas acumuladas y relativas acumuladas. B- Representar los datos mediante un polígono de frecuencias absolutas acumuladas. C.- Calcular el valor y explica el método empleado de los siguientes estadísticos. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 6 Variable Estadística Valor Fórmula empleada o método de cálculo Percentil 10 Media Varianza Desviación típica Coeficiente de variación Coeficiente de asimetría de Fisher Coeficiente de apuntamiento D.- Si se consideran el 10% de los vértices que tienen mayor cota. ¿Cuál es la cota mínima? E.- Representa un diagrama de cajas y efectúa el estudio de posibles puntos atípicos. 16.- Se ha tomado una fotografía aérea de una cierta escena; dentro de ella se ha seleccionado una parcela de la que se han tomado 28 muestras de los niveles de gris (pixeles) correspondientes a otros tantos puntos, obteniéndose los siguientes valores: 41, 39, 43, 40, 42, 44, 38, 42, 40, 46, 45, 44, 40, 43, 40, 42, 45, 45, 46, 39, 41, 39, 39, 43, 42, 47, 46, 40. Se quiere hacer un estudio de estos datos: agrupándolos en intervalos de amplitud dos: A.- Dibujar el histograma y el polígono de frecuencias absolutas: B.- Dibujar el polígono de frecuencias absolutas acumuladas C.- Calcular el valor y explica el método empleado de los siguientes estadísticos. Valor Fórmula empleada o método de cálculo Mediana Percentil Quinto Coeficiente de variación Coeficiente de asimetría de Fisher Curtosis 17.- La siguiente tabla recoge los salarios anuales en miles de euros de 20 trabajadores: 20 60 19 10 40 16 16 16 10 19 19 20 20 40 19 16 10 16 70 16 Se pide: a) Polígono de frecuencias absolutas. b) Proporción de trabajadores que obtiene un salario superior o igual a 19000. c) ¿Qué percentil le corresponde a un trabajador con un salario de 20000? d) Coeficiente de Variación. e) Diagrama de cajas. ¿Hay valores atípicos? U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 7 Variable Estadística 18.- Dada la distribución de frecuencias: Intervalo ni 0-500 3 500-1000 3 1000-1500 8 1500-2000 5 2000-2500 4 Se pide: a) Polígono de frecuencias absolutas acumuladas. b) El primer cuartil. c) Coeficiente de apuntamiento o Curtosis. Interpretación 19.- Se toman 20 medidas a un grupo de 4 o más satélites en intervalos de 15 seg. En la tabla adjunta se reflejan las medidas de las variables GP: 4,7 4,7 4,8 4,9 5 5 5 5 5,1 5,1 5,1 5,1 5,1 5,2 5,2 5,2 5,3 5,3 5,3 5,3 Se pide: a) Polígono de frecuencias absolutas acumuladas. b) ¿Qué percentil le corresponde a un valor de GP de 5? d) La moda. e) La varianza muestral o cuasivarianza. f) Realizar el diagrama de cajas. ¿Hay valores atípicos? 20.- Las calificaciones obtenidas por alumnos de Matemáticas en un examen fueron las siguientes: Nota 0 – 2 2 – 4 4 – 6 6 – 8 8 – 10 ni 10 7 69 41 3 a) Representar el polígono de frecuencias absolutas. b) ¿Cuál es el valor de la mediana? c) ¿En qué percentil está situada una persona con una calificación de 5? d) Interpretar el Coeficiente de asimetria de Fisher. 21.- La siguiente tabla recoge las calificaciones de una prueba tipo test de Cálculo: 4 2 5 5 7 4 8 4 5 5 6 9 5 2 4 7 7 4 2 7 5 1 6 5 5 3 1 6 4 1 5 0 5 7 5 9 6 2 4 Se pide: a) Porcentaje de alumnos que obtiene una calificación superior o igual a 6. b) El Percentil 90. c) ¿Qué percentil le corresponde a un alumno que tiene una calificación de 8? d) La moda y los cuartiles. e) La media, desviación estándar o desviación típica. f) Realizar el diagrama de cajas. g) ¿Hay valores atípicos? Dada la distribución de frecuencias de la variable tiempo (segundos) utilizado en la realización del test: Intervalo ni 400-500 U. D. de Matemáticas de la ETSITGC 3 Asignatura: CÁLCULO Y ESTADÍSTICA 8 Variable Estadística 500-600 3 600-700 8 700-800 5 800-900 4 900-1000 5 1000-1100 11 Se pide: h) El tiempo más frecuente. i) La mediana. j) Sesgo. k) Curtosis. 22.- Se desea estudiar la altura de un grupo de alumnos. Las alturas expresadas en centímetros fueron: 149 166 168 170 172 174 180 164 166 168 168 178 178 182 164 166 168 170 176 189 Construir un diagrama de caja. ¿Hay valores atípicos? 23.- Se ha medido dieciséis veces la longitud en metros que separa dos puntos, Los resultados obtenidos se muestran en la siguiente tabla: 13,404 13,443 13,445 13,447 13,449 13,450 13,453 13,455 13,457 13,460 13,460 13,465 13,455 13,453 13,445 13,455 Calcular la moda, la mediana, los cuartiles y el percentil 90. Representar el diagrama de caja y estudiar la existencia de puntos atípicos. 24.- Los siguientes valores corresponden a la temperatura máxima diaria (ºF) de 36 días, obtenidos a las 14 horas en una cierta estación meteorológica. 84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 75, 76, 73, 70, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 58, 57, 21. a) Calcular: media, desviación típica y el coeficiente de variación. b) Estudiar la existencia de datos atípicos. Si existe algún valor atípico omitir, dicho valor y calcular de nuevo el apartado a). c) Con los datos de los apartados a y b construir un gráfico con el diagrama de caja, de ambos apartados. 25.- Los valores de 50 mediciones realizadas con un distanciometro con apreciación en milímetros han sido agrupados en 6 intervalos según la tabla siguiente: ei-1 – ei ni 21.150 – 21.155 4 21.155 – 21.160 6 21.160 – 21.165 11 21.165 – 21.170 13 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 9 Variable Estadística 21.170 – 21.175 9 21.175 – 21.180 7 Total 50 a) Porcentaje de mediciones cuya distancia es mayor o igual que 21.160. b) Representar el polígono de frecuencias absolutas acumuladas y el histograma de frecuencias absolutas. c) Calcular, los cuartiles y la mediana. d) Estimar el porcentaje de mediciones cuya distancia sea menos de 21.1725. e) ¿Qué distancia tienen como máximo el 95% de las mediciones? f) Calcular la media, moda y varianza. 26.- Del conjunto de redes topográficas que intervienen en un trabajo topográfico estamos interesados en estudiar el número de vértices geodésicos que constituyen cada red topográfica. Para ello, seleccionamos 30 redes topográficas, obteniéndose la siguiente tabla: Nº de vértices en las 30 redes 1 2 3 4 5 6 xi Frecuencia absoluta ni 3 8 9 6 3 1 Respecto del número de vértices geodésicos que constituyen la red (característica a estudiar) Calcular: a) Representar el polígono de frecuencias absolutas y el polígono de frecuencias acumuladas. b) Hallar los cuartiles, la mediana y los percentiles 5 y 10. c) ¿Qué número de vértices tienen el 80% de las redes? d) Calcular la media, moda y varianza. e) Representar el diagrama de caja. 27.- Se quiere analiza el resultado de una secuencia de cifras elegidas, al azar, 141592653589793238462433832795028841971693993751058209749445923078164062862 089986280348253421170679, todas las cifras han sido elegidas al azar mediante extracciones de una urna con 10 bolas numeradas del 0 al 9. La siguiente tabla recoge la distribución de frecuencias absolutas: xi 0 1 2 3 4 5 6 7 8 9 ni 8 8 12 11 10 8 9 8 12 14 Se pide: a) Moda b) Media c) Diagrama de cajas, ¿hay valores atípicos? d) Coeficiente de asimetría U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 10 Variable Estadística 1.- Los aficionados al béisbol aprenden de memoria las estadísticas de este juego. Por ejemplo, ¿cuántos “home runs” (golpes que envían la pelota fuera del campo de juego) son necesarios para liderar la liga? La tabla contiene los líderes de la liga americana y el total de “home runs” entre 1972 y 1991: Año Jugador “Home runs” Año Jugador “Home runs” 1972 Dick Allen 37 1982 Thomas and Jackson 39 1973 Reggie Jackson 32 1983 Jim Rice 39 1974 Dick Allen 32 1984 Tony Armas 43 1975 Sccot & Jackson 36 1985 Darrell Evans 40 1976 Graig Nettles 32 1986 Jesse Barfield 40 1977 Jim Rice 39 1987 Mark McGwire 49 1978 Jim Rice 46 1988 Jose Canseco 42 1979 Gorman Thomas 45 1989 Fred McGriff 36 1980 Reggie Jackson 41 1990 Cecil Fielder 51 1981 Four players 22 1991 Canseco and Fielder 44 Se pide: a) construir el diagrama de barras. b) El polígono de frecuencias. c) Diagrama de frecuencias acumuladas. d) Moda, y mediana La media de golpes para los 167 jugadores de la liga americana que intentaron batear más de 200 veces en la temporada de 1980 viene representada en la siguiente tabla: CLASE FRECUENCIA CLASE FRECUENCIA CLASE FRECUENCIA 0,185-0,195 1 0,255-0,265 16 0,325-0,335 4 0,195-0,205 3 0,265-0,275 18 0,335-0,345 1 0,205-0,215 1 0,275-0,285 23 0,345-0,355 1 0,215-0,225 4 0,285-0,295 23 0,355-0,365 0 0,225-0,235 13 0,295-0,305 16 0,365-0,375 0 0,235-0,245 20 0,305-0,315 3 0,375-0,385 0 0,245-0,255 15 0,315-0,325 4 0,385-0,395 1 e) Dibujar el histograma, polígono de frecuencias y diagrama de frecuencias acumuladas. f) Calcular media, moda, mediana, varianza, desviación típica, coeficiente de variación, sesgo y curtosis. g)¿Cuál es el percentil correspondiente a un jugador cuyo promedio es 0,315? h) Dibujar el diagrama de cajas. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 11 Variable Estadística Solución: xi 22 32 36 37 39 40 41 42 43 44 45 46 49 51 ni 1 3 2 1 3 2 1 1 1 1 1 1 1 1 20 Ni 1 4 6 7 10 12 13 14 15 16 17 18 19 20 a) Construir el diagrama de barras. Obsérvese que Excel representa rectángulos en lugar de barras b) El polígono de frecuencias. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 12 Variable Estadística c) Diagrama de frecuencias acumuladas. d) Moda, y mediana Es bimodal 32 y 39 La mitad corresponde al intervalo mediano (39,40) y se toma el valor 39.5 CLASE ni Ni x xn x 2n x 3n x 4n i 0,185-0,195 0,195-0,205 0,205-0,215 0,215-0,225 0,225-0,235 0,235-0,245 0,245-0,255 0,255-0,265 0,265-0,275 0,275-0,285 0,285-0,295 0,295-0,305 0,305-0,315 0,315-0,325 0,325-0,335 0,335-0,345 0,345-0,355 0,355-0,365 0,365-0,375 0,375-0,385 0,385-0,395 sumas momentos 1 3 1 4 13 20 15 16 18 23 23 16 3 4 4 1 1 0 0 0 1 167 mi 1 4 5 9 22 42 57 73 91 114 137 153 156 160 164 165 166 166 166 166 167 0,19 0,2 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,3 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 i i i i i i 0,19 0,0361 0,006859 0,6 0,12 0,024 0,21 0,0441 0,009261 0,88 0,1936 0,042592 2,99 0,6877 0,158171 4,8 1,152 0,27648 3,75 0,9375 0,234375 4,16 1,0816 0,281216 4,86 1,3122 0,354294 6,44 1,8032 0,504896 6,67 1,9343 0,560947 4,8 1,44 0,432 0,93 0,2883 0,089373 1,28 0,4096 0,131072 1,32 0,4356 0,143748 0,34 0,1156 0,039304 0,35 0,1225 0,042875 0 0 0 0 0 0 0 0 0 0,39 0,1521 0,059319 44,96 12,266 3,390782 0,2692 0,0734491 0,0203041 U. D. de Matemáticas de la ETSITGC i i 0,0013032 0,0048 0,0019448 0,0093702 0,0363793 0,0663552 0,0585938 0,0731162 0,0956594 0,1413709 0,1626746 0,1296 0,0277056 0,041943 0,0474368 0,0133634 0,0150063 0 0 0 0,0231344 0,9497571 0,0056872 Asignatura: CÁLCULO Y ESTADÍSTICA 13 Variable Estadística e) Dibujar el histograma. Polígono de frecuencias Diagrama de frecuencias acumuladas f) Calcular media, moda, mediana, varianza, desviación típica, coeficiente de variación, sesgo y curtosis. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 14 Variable Estadística Media k ni 1 k 44,96 = = ≈ 0, 2692 x ni xi ∑ ∑ i n i1 167 =i 1 =i 1 n = fi x i ∑= = X k La moda corresponde al intervalo de mayor frecuencia (0.275,0.295) puesto que ambos tienen 23 por frecuencia. La mediana es el valor que deja a su izquierda el 50% de la población, es decir, n 167 = = 83,5 que no se corresponde con un valor de la columna de frecuencias absolutas 2 2 acumuladas y por tanto hay interpolar en el intervalo (0.265,0.275). n − N j−1 a (83,5 − 73) 0, 01 ≈ 0, 27083 2 = Por consiguiente la mediana es M = e j−1 + 0, 265 + nj 18 Varianza (x i − X) n i = σ ∑= n i =1 2 k 2 ∑x n 2 i i n i 2 −= X 12, 2661 − 0, 26922 ≈ 0, 0009689 167 Desviación típica σ= σ2 = 0, 0009689 ≈ 0, 0311264 Coeficiente de variación σ 0, 0311264 CV = = ≈ 0,1156 0, 2692 X Sesgo k g= 1 ∑ (x i =1 − X)3 f i µ3 m3 − 3m 2 m1 + 2m13 8,3289 ⋅10−06 = = = ≈ 0.2761855580 σ3 σ3 σ3 0.03112643 i Curtosis k g2 = ∑ (x i =1 i − X) 4 f i − 3= m 4 − 4m3 m1 + 6m 2 m 21 − m14 µ4 3, 47576 ⋅10−06 − 3 = − 3 = −3 ≈ σ4 σ4 0,03112644 σ4 0, 702820924 g) ¿Cuál es el percentil correspondiente a un jugador cuyo promedio es 0,315? El valor 0,315 está recogido en la tabla (y en el diagrama de frecuencias acumuladas) y corresponde exactamente a 156 del total 167, luego obtenemos aproximadamente el percentil 93 h) Dibujar el diagrama de cajas. Calculamos los 5 valores: Mínimo, Q1, M, Q3, Máximo U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 15 Variable Estadística Mínimo = 0,19 n 167 Q1 es el valor que deja a su izquierda el 25% de la población, es decir,= = 41, 75 que 4 4 no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto hay interpolar en el intervalo (0.235,0.245). Por consiguiente es: n − N j−1 a ( 41, 75 − 22 ) 0, 01 ≈ 0, 244875 4 = Q1 = e j−1 + 0, 235 + nj 20 M ≈ 0, 27083 n 167 Q3 es el valor que deja a su izquierda el 75% de la población, es decir, 3= = 125, 25 4 4 que no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto hay interpolar en el intervalo (0.235,0.245). Por consiguiente la mediana es: n − N j−1 a (125, 25 − 114 ) 0, 01 ≈ 0, 2898913 4 = Q3 = e j−1 + 0, 285 + nj 23 Máximo = 0,39 0 ,20 0 ,25 0 ,30 0 ,35 0 ,40 diagrama de cajas Observando el rango intercuartílico IQ = Q3-Q1= 0,0450163, tenemos como límites Q1- 1,5 IQ= 0,1773505; quedando como límite inferior el mínimo 0,19. Q3+ 1,5 IQ= 0,3574158 siendo el límite superior y existen valores atípicos. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 16 Variable Estadística 2.- De una variable estadística se conocen los siguientes valores 1, 1, 2, 2, 2, 2, 3 y 3; si consideramos otra variable estadística con valores 1, 2, 2, 3, 3, 4, 4 y 5. Determinar la media, la mediana, la moda y la varianza de cada variable. ¿Cuál es la media, la mediana, la moda y la varianza de la variable estadística que resulta de unir las dos anteriores? Conocidas dos muestras de una misma variable con distintas medias, distintas varianzas, pero del mismo tamaño ¿cuál es la media y varianza del resultado de unir dichas muestras? Solución: X= {1, 1, 2, 2, 2, 2, 3, 3} xi ni 1 2 3 sumas momentos xi ni 2 4 2 8 2 8 6 16 2 x2i ni 2 0 2 4 0,5 Ni 2 6 8 Media: 1 k 16 X = ni xi = 2 = ∑ n i =1 8 n 8 La mediana es el valor que deja a su izquierda el 50% de la población, es decir, = = 4 2 2 que no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto, es el siguiente M=2. La moda corresponde al valor de mayor frecuencia que es 2. Varianza: k (x i − X) 2 n i 0,5 = σ2 ∑= n i =1 Y= {1, 2, 2, 3, 3, 4, 4, 5} yi ni yi ni y2i ni Ni 1 2 3 4 5 sumas momentos 1 2 2 2 1 8 1 4 6 8 5 24 3 4 2 0 2 4 12 1,5 1 3 5 7 8 Media: 1 k 24 Y = n i yi = 3 = ∑ n i =1 8 n 8 La mediana es el valor que deja a su izquierda el 50% de la población, es decir, = = 4 2 2 que no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto, es el siguiente M=3. La moda corresponde al valor de mayor frecuencia que son {2,3,4}. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 17 Variable Estadística Varianza: k (yi − Y) 2 n i 1,5 = σ2 ∑= n i =1 Z= {1, 1, 2, 2, 2, 2, 3, 3, 1, 2, 2, 3, 3, 4, 4, 5} zi ni zi ni z2i ni Ni 1 2 3 4 5 sumas momentos 3 6 4 2 1 16 3 12 12 8 5 40 2,5 6,75 3 1,5 9 1 13 4,5 15 6,25 16 20 2,5 Media: 1 k 40 Z = n i zi = 2,5 = ∑ n i =1 16 n 16 La mediana es el valor que deja a su izquierda el 50% de la población, es decir, = = 8 2 2 que no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto, es el siguiente M=2. La moda corresponde al valor de mayor frecuencia que es 2. Varianza: k (z i − Z) 2 n i 2 = σ ∑= 2,5 n i =1 Consideramos dos distribuciones con distintas medias y distinto tamaño: n n m 1 n X= x i ⇒ ∑ x i = nX x + ∑ ∑ i ∑ yi nX + mY n i 1 =i 1 = =i 1 =i 1 X∪Y = = ⇒ m n+m n+m 1 m Y= yi ⇒ ∑ yi= mY ∑ m i 1 =i 1 = U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 18 Variable Estadística 3.-De una variable estadística se sabe que los momentos respecto al origen son: m0=1, m1=1, m2=2, m3=4 y el primer cuartil Q1=0,7. Calcular, coeficiente de asimetría, varianza, media, mediana y tercer cuartil. Solución: Sesgo k g= 1 ∑ (x i =1 − X)3 f i µ3 m3 − 3m 2 m1 + 2m13 4 − 3 ⋅ 2 + 2 = = = = 3 3 1 σ3 σ3 2 m −m i ( 2 1 ) 0 Varianza k (x i − X) 2 n i 2 σ = ∑ = m 2 − m12 = 2 − 11 = 1 n i =1 Media 1 k X = ∑ n i x=i m=1 1 n i =1 Mediana Por ser simétrica coincide con la media e igual a 1. Tercer cuartil Por simetría con respecto a la mediana es 1,3. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 19 Variable Estadística 4.- Dada la gráfica correspondiente a un polígono de frecuencias relativas acumulativo de una variable estadística agrupada en intervalos de una muestra de tamaño n=20. A) Formar la tabla de distribución de frecuencias absolutas. B) Dibujar el histograma y el polígono de frecuencias. C) Encontrar la mediana, moda y media. Fi 1 0.85 0.45 0.15 0.15 Solución: 0 a) 20 40 60 80 CLASE 0-20 20-40 40-60 60-80 80-100 sumas momentos 100 fi 0,15 0,45 0,85 0,85 1 Ni ni 3 9 17 17 20 3 6 8 0 3 20 xi mi xini 10 30 50 70 90 30 180 400 0 270 880 44 b) Histograma Poligono de frecuencias U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 20 Variable Estadística Media X = 1 k 880 ni xi = 44 = ∑ n i =1 20 n 20 La mediana es el valor que deja a su izquierda el 50% de la población, es decir, = = 10 2 2 que no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto hay interpolar en el intervalo (40,60). Por consiguiente la mediana es: n − N j−1 a (10 − 9 ) 20 = 2 = 42,5 M= e j−1 + 40 + nj 8 La moda corresponde al intervalo de mayor frecuencia que es (20,40). U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 21 Variable Estadística 5.- El porcentaje de disco ocupado (en Mbytes) para distintos usuarios de una estación de trabajo está agrupados en las cuatro clases de igual longitud siguientes: Clases [25.0, 32.5) [32.5, 40.0) [40.0, 47.5) [47.5, 55.0] Frecuencia 3 5 8 4 Calcular: a)El primer y tercer cuartil. b) Media, desviación típica y cuasivarianza. Solución Clase xi ni Ni ni x i n i x i2 25 – 32,5 32,5 – 40 40 – 47,5 47,5 – 55 Q1 = 32,5 + 28,75 36,25 43,75 51,25 (5 − 3)7,5 = 35,5 5 822,5 X= = 41,125 20 20 S2 = 52,1718 = 53,5096 19 Primer Cuartil 35,5 3 5 8 4 20 3 8 16 20 Q 3 = 40 + 86,25 181,25 350 205 822,5 2479,6875 6570,3125 15312,5 10506,25 34868,75 (15 − 8)7,5 ≈ 46,56 8 34868 , 75 σ2 = − 41,125 2 = 52,1718 20 σ = 52,1718 = 7,2230 Segundo Desviación Cuartil Media típica 46,56 41,125 7,2230 U. D. de Matemáticas de la ETSITGC Cuasivarianza 53,5096 Asignatura: CÁLCULO Y ESTADÍSTICA 22 Variable Estadística 6.- Dada la tabla de distribución de frecuencias: xi 6 7 8 ni 1 2 7 10 11 12 6 3 1 a. Representar en el polígono de frecuencias absolutas. b. Calcular el valor de los cuartiles, media, mediana y varianza muestral (cuasivarianza). c. Representar en el diagrama de cajas. ¿Existen puntos atípicos en la muestra? ¿Por qué? d. Un valor en la muestra de 4, ¿sería un valor atípico?, ¿por qué? Solución: a) b) Q1 =8, Q3 =10, M = 9, media = 9.05, Varianza muestral o cuasivarianza 2.681. IQR = 2 c) d) Un valor de 4 sería atípico por ser menor que Q1 – 1.5 IQR = 5 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 23 Variable Estadística 7.- Se tabulan los valores de los errores de cierre en nivelación obtenidos en 742 polígonos. Calcular: a) media, b) mediana, c) moda, d) coeficiente de variación. Solución: Valor en dm del Nº. de error polígonos 0,255 – 0,285 xi Ni 6 0,27 6 0,285 – 0,315 38 0,3 44 0,315 – 0,345 66 0,33 110 0,345 – 0,375 131 0,36 241 0,375 – 0,405 240 0,39 481 0,405 – 0,435 162 0,42 643 0,435 – 0,465 84 0,45 727 0,465 – 0,495 15 0,48 742 Sumas ni 0,62 1,4 1,78 7,16 3,6 8,04 7,8 0,2 88,6 (x − x) i 2 ni 0,08489288 0,3006517 0,22934733 0,10978223 0,00026521 0,15619681 0,31308905 0,12435485 1,3185801 a) Media aritmética: k 1 k 288, 60 n x fi x i = = = 0,38894879 ∑ ∑ i i n i 1 =i 1 742 = b) Cálculo de la mediana M n 742 − 241 ⋅ 0, 03 − N i −1 a 2 2 = 0,39125 = M= ei −1 + 0,375 + ni 240 c) La moda corresponde al valor de mayor frecuencia que es el intervalo modal (0.375, 0.405) cuya marca de clase es 0,39 k (x i − X) 2 n i 2 d) Varianza = σ ∑= ≈ 0, 0017771 n i =1 X = Desviación típica σ= Coeficiente de variación σ2 = 0, 0017771 ≈ 0, 04215521 σ 0, 04215521 CV = = ≈ 0,10838243 X 0,38894879 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 24 Variable Estadística 8.- Al finalizar el curso de “Álgebra y Geometría” se realizó un examen de tipo test a los trescientos alumnos matriculados obteniéndose la siguiente tabla referente al número de preguntas acertadas: Nº de preguntas 0 – 10 10 – 25 20 – 30 30 – 40 40 – 50 50 – 60 60 – 70 acertadas Nº de alumnos 10 20 60 100 70 30 10 Se pide: a) Representa el histograma de la distribución de frecuencias anterior. b) Hallar la media y varianza muestral. c) ¿Cuál será el número P de preguntas acertadas tal que la mitad de los alumnos obtengan un número de preguntas acertadas mayor que P? d) ¿Cuál es número medio de preguntas acertadas y el número de preguntas acertadas que más se repite. Para la concesión de unas becas se realiza una segunda parte de examen al que sólo se permite presentarse a los 60 alumnos con mejor nota en el test. Se pide: e) Hallar el número de preguntas acertadas como mínimo que se ha exigido a un alumno para realizar la segunda parte del examen. Una vez finalizada la segunda parte del examen se han obtenido las siguientes notas: Nota 4 5 5.5 6 6.5 8 Nº de 8 12 15 14 6 5 alumnos Se pide: f) ¿Por qué no se debe agrupar los datos en intervalos como se realizó con las notas del test? g) Hallar la mediana, la moda y el recorrido intercuartílico. h) De las dos distribuciones de notas en cuál de ellas la media es más representativa. i) ¿Que resulta más difícil, obtener 30 preguntas acertadas en el examen tipo test u obtener un 6,5 en la segunda parte del examen. j) Si se concede una beca a los 25 alumnos con mejor nota en la segunda parte del examen. ¿A partir de qué nota se concederán las becas? Solución Nº de preguntas Nº de Marca acertadas alumnos de clase (e0 -e1] 0 a 10 10 a 20 20 a 30 30 a 40 40 a 50 50 a 60 60 a 70 sumas ni 10 20 60 100 70 30 10 xi 5 15 25 35 45 55 65 300 U. D. de Matemáticas de la ETSITGC nixi ni(xi-media)2 50 250 300 4500 1500 37500 3500 122500 3150 141750 1650 90750 650 42250 10800 439500 Ni 10 30 90 190 260 290 300 Asignatura: CÁLCULO Y ESTADÍSTICA 25 Variable Estadística a) b) c) media =36 Varianza muestral =1469,89967 desviación estándar=38,339 Se trata de calcular el P50 o la mediana M = 30 + (150 - 90)*10/100 = 36 preguntas d) Cuál es número medio de preguntas acertadas media =36 Cuál es número de preguntas acertadas que más se repite. Se trata de la moda M0 = 35 e) Debemos calcular la nota que deja por debajo al (300-60)=240 ALUMNOS 240/300 = 80% Calculamos el percentil 80 0 = 40 + (240 - 190)*10/70 = 47,1 más de 47 preguntas Segundo examen Notas Nº alumnos xi ni NI nixi ni(xi-media)2 4 8 8 32 21,1 5 12 20 60 4,7 5,5 15 35 82,5 0,2 6 14 49 84 2,0 6,5 6 55 39 4,6 8 5 60 40 28,2 sumas 60 337,5 60,8 f) No es necesario, ya que sólo son 6 notas distintas media =5,63 g) Mediana=5,5; Moda=5,5; Varianza muestral =1,03 Q1=5;Q3 =6 Recorrido intercuartilico Desv. estandar =1,02 IQR= 1 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 26 Variable Estadística h) La media es más representativa si tiene un coeficiente de variación menor. Coef Var(1ª nota) = 1,07 Coef Var(2ª nota) = 0,18 Es más representativa. i) Acertar 30 ó más preguntas en la primera parte es acertar 70% Obtener 6,5 ó más en la 2ª parte es acertar el 35% j) Si se concede beca a las 25 mejores notas, se obtiene beca si la nota del alumno es igual o superior a 6 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 27 Variable Estadística 9.- Se ha realizado una prueba de rendimiento a 20 alumnos elegidos al azar, los resultados obtenidos sobre el rendimiento se muestran en el siguiente gráfico: a) A partir del gráfico calcular 25 la mediana, los cuartiles y el rango de la variable. 20 b) Formar la tabla de 15 distribución de frecuencias absolutas 10 c) Representar el diagrama de 5 frecuencias absolutas. d) Calcular: Los cuartiles, la 0 0 2 4 6 8 10 12 14 mediana, la moda, varianza muestral. e) Considerando los 20 alumnos como la población calcular los coeficientes de asimetría y curtosis de Fisher. Solución a) En este caso el tamaño de la muestra es n = 20. ¿Q1? n/4 = 5, observamos que la posición 5ª corresponde al la huella del escalón (4,6), por tanto, Q1 = 5. ¿Q3? 3n/4 = 15, observamos que la posición 15 corresponde al la contrahuella del escalón (8, 10), por tanto, Q3 = 8. En el caso de la mediana n/2 = 10, observamos que la posición 10ª corresponde al la huella del escalón (6,8), por tanto, M = 7. b) La distribución de frecuencias absolutas es: c) Diagrama de barras xi 2 4 6 8 10 ni 1 4 5 6 4 n = 20 Ni 1 5 10 16 20 Obsérvese que Excel representa rectángulos en lugar de barras U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 28 Variable Estadística d) En la tabla volvemos a observar que Q1 = 5; Q3 = 8; M = 7. En el gráfico y en la tabla podemos ver que el valor con mayor frecuencia es x = 8 luego la moda es M0 = 8. n i (x i − x) n i (x i − x)2 n i (x i − x)3 n i (x i − x)4 xi ni Ni 2 4 6 8 10 1 4 5 6 4 1 2 -4,800 23,040 -110,592 530,842 5 16 -11,200 31,360 -87,808 245,862 10 30 -4,000 3,200 -2,560 2,048 16 48 7,200 8,640 10,368 12,442 20 40 12,800 40,960 131,072 419,430 136 0 107,2 -59,52 1210,624 sumas 20 xini 107.2 = 5.64 ; 19 −59.52 20 −0.24 ; Curtosis: e)= Sesgo: g1 = = g2 3 107, 2 20 S2 Varianza muestral= U. D. de Matemáticas de la ETSITGC 1210, 624 20= − 3 −0,89 2 107, 2 20 Asignatura: CÁLCULO Y ESTADÍSTICA 29 Variable Estadística 10.- La siguiente tabla muestra una distribución de frecuencias de la duración de 400 componentes fabricados por una determinada marca. Determinar: a) Frecuencia relativa de la sexta clase Duración Número de b) Porcentaje de componentes cuya duración es (horas) componentes menor que 600 horas. [300 – 400) 14 c) Porcentaje de componentes cuya duración es mayor o igual a 900 horas. [400 – 500) 46 d) Porcentaje de componentes cuya duración es al [500 – 600) 58 menos de 500 horas pero menor de 1000 horas. e) Estimar el porcentaje de componentes con [600 – 700) 76 duraciones de menos de 560 horas. [700 – 800) 68 f) Estimar el porcentaje de componentes con [800 – 900) 62 duraciones de 970 o más horas. g) ¿Qué número de horas duran el 95% de los [900 – 1000) 48 componentes? 22 h) Representar el histograma de frecuencias [1000 – 1100) absolutas y el polígono de frecuencias relativas [1100 – 1200) 6 acumuladas i) Calcular la media, moda, la desviación estándar de la muestra, Coeficiente de variación y el coeficiente de asimetría de Pearson. j) Suponiendo que los 400 componentes son la población total, calcular la varianza y los coeficientes de asimetría y curtosis de Fisher. Solución a) La frecuencia relativa de la sexta clase [800 – 900) es 0,155 componentes b) El porcentaje de componentes cuya duración es menor que 600 horas es 29,5% componentes. c) El porcentaje de componentes cuya duración es mayor o igual a 900 horas es 1-0,81=0,19, es decir el 19%. d) El porcentaje de componentes cuya duración es al menos de 500 horas pero menor de 1000 horas es: 93% 15%=78%. Duración (horas) [300 – 400) [400 – 500) [500 – 600) [600 – 700) [700 – 800) [800 – 900) [900 – 1000) [1000 – 1100) [1100 – 1200) Sumas Número de componentes 14 46 58 76 68 62 48 22 6 fi Fi 0,035 0,115 0,145 0,19 0,17 0,155 0,12 0,055 0,015 1 0,035 0,15 0,295 0,485 0,655 0,81 0,93 0,985 1 e) Para el cálculo del porcentaje de componentes con duraciones de menos de 560 horas, utilizamos la fórmula del cálculo de los percentiles y se obtiene un resultado de α=0,237 y por tanto 23,7% f) Para el cálculo del porcentaje de componentes con duración de 970 o más horas. Se realiza como en el caso anterior y se obtiene 10,6%. g) Nos piden el número de horas que duran el 95% de los componentes. De modo análogo a los anteriores P95=1036. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 30 Variable Estadística h) Histograma Polígono de frecuencias relativas acumuladas = X i) Media 1 286200 = ni xi = 715.5 horas. ∑ 400 n U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 31 Variable Estadística El intervalo modal y la moda (su punto medio) se observa directamente de la tabla de datos. La distribución es unimodal, el intervalo modal es [600 a 700), siendo la moda 650 horas. La desviación estándar de la muestra= es S ( ) 2 1 = − n x x ∑i i n −1 14463900 = 190.4 . 399 S 190.4 = ≈ 0.26 . X 715.5 715.5 − 650 X − Mo ≈ 0,34 es casi simétrica, un poco desviada a la El cálculo de As == 190.4 S derecha respecto de la moda. CV = j) σ2 Varianza == ( ) 2 1 14463900 = 36159.75 . ni xi −= x ∑ 400 n ∑ n ( x − x) El coeficiente de asimetría de Fisher es: g1 = 3 25943910 400 n 0.09 = = 3 190.163 σ i i Nos confirma la casi simetría. El coeficiente de apuntamiento o curtosis es: ∑ n ( x − x) i = g2 4 i 2945354940 n= −3 − 3 ≈ −0.74 , por tanto ,un poco menos apuntada que 4 1307527520 σ la normal. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 32 Variable Estadística 11.- En un taller de reparación de vehículos se recogen datos sobre los días que se tarda en reparar un vehículo, y se obtiene Días en taller 0 1 2 3 4 5 8 10 15 Nº de coches 10 12 23 10 9 5 3 2 1 a) Representar el polígono de frecuencias absolutas. b) Calcular la moda, mediana, el primer y tercer cuartil, y El percentil 96. c) Calcular los momentos respecto del origen de orden 1, 2, 3 y 4. d) Calcular los momentos respecto de la media de orden 1, 2, 3 y 4. e) Calcular la media varianza, desviación estándar, Coeficiente de variación y el coeficiente de asimetría. f) Calcular la varianza y los coeficientes de asimetría y curtosis de Fisher de los días de estancia en el taller los 75 vehículos. g) ¿Existen reparaciones atípicas en cuanto a la duración en la reparación? Solución a) Polígono de frecuencias absolutas. Moda=Mo= 2 µ2 =σ2= varianza = 6,71 mediana=M= 2 S2 = varianza muestral = 6,80 Q1 = 1 S = desviación estandar muestral = 2,61 Q3 = 4 CV= Coeficiente de variación = 0,94 P96 = 9 As = Coeficiente de asimetría de Pearson = 0,30 media=m1 2,77 µ3= 37,23 m2 14,4 µ4= 412,04 m3 114,37 g1 =Sesgo= 2,14 m4 1193,76 g2 =Curtosis= En el último apartado, como Q1=1, Q3 = 4; 1.5*IQR=4.5 por tanto las barreras son: LI = 1– 4.5 = -3.5, por tanto, no hay valores atípicos. LS = 4 + 4.5 = 8.5, por tanto, los vehículos reparados en 10 días o más son atípicos. U. D. de Matemáticas de la ETSITGC 6,16 Asignatura: CÁLCULO Y ESTADÍSTICA 33 Variable Estadística 12.- En un aparcamiento cobran por cada minuto que está estacionado el vehículo 1,5 céntimos. El tiempo que los vehículos permanecen estacionados dentro un día cualquiera se muestra en el siguiente polígono de frecuencias: Respecto del tiempo que un vehículo está en el aparcamiento calcular: a) Porcentaje de vehículos estacionados más de dos horas pero menos de cuatro horas. b) Estimar el porcentaje de vehículos que estacionan menos de 100 minutos. c) ¿Qué número de minutos está estacionado dentro el 90% de los vehículos. d) La moda, los cuartiles primero y tercero, y la mediana. e) La media, desviación estándar muestral y el coeficiente de asimetría de Pearson. f) Realizar el diagrama de cajas. g) ¿A partir de cuántos minutos el tiempo considerado será atípico? Respecto del pago (precio por minuto estacionado) calcular: h) El ingreso medio y el ingreso más frecuente por vehículo. i) La empresa arrendataria del servicio está estudiando modificar la tarifa existente de la siguiente manera: a todos los vehículos se les cobrará 5 céntimos de € por entrar y 0,1 céntimo de € por cada minuto que tengan su coche dentro del aparcamiento. Bajo esta suposición, y con los datos de que dispone, ¿qué alternativa da un ingreso medio mayor? Solución Del gráfico se obtiene la siguiente distribución de frecuencia Tiempo de nº de vehículos Ni Fi · 100 estacionamiento ni 0 - 60 40 40 2,67 60 - 120 190 230 15,33 120 - 180 450 680 45,33 180 - 240 540 1220 81,33 240 - 300 250 1470 98,00 300 - 360 30 1500 100 a) El 81.33% de los vehículos están aparcados igual o menos que 4 horas. El 15.33% de los vehículos están aparcados igual o menos de 2 horas, por tanto, el 66% de los vehículos están entre 2 y 4 horas. U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 34 Variable Estadística α 1500 − 40 60 100 ⇒ α= 11,1% b) 100= Pα= 60 + 190 90 1500 − 1220 60 100 = 271, 2 c) P90 = 240 + 250 d) El intervalo modal es (180, 240] minutos; moda = 210 minutos. ( 375 − 230 ) 60 ≈ 139, 3 minutos. Q1 = 120 + 450 ( 750 − 680 ) 60 ≈ 187, 7 minutos. M= 180 + 540 (1125 − 680 ) 60 ≈ 229, 4 minutos. Q3 = 180 + 540 e) El tiempo medio es; X= T= = S = As ( ) 2 1 n i x i −= X ∑ n −1 1 276600 n i x=i = 184, 4 minutos. ∑ n 1500 6000960 ≈ 63, 27 minutos. 1499 X − Mo ≈ −0, 41 < 0 existe asimetría por la izquierda respecto de la moda. S f) Diagrama de cajas. g) Es un estacionamiento atípico si supera: Ls=Q3+1,5·(Q3-Q1)=377 minutos. Respecto del pago (precio por minuto estacionado) calcular: h) Ingreso medio = 1,5 · tiempo medio = 27,66 céntimos El ingreso más frecuente es 1,5 · la moda del estacionamiento = 1.5 · 210 = 315 i) Sea g la nueva variable de cobro; g=5+0,1*tiempo: 23, 44 g= E [5 + 0,1·t ] = 5 + 0,1·184, 4 = U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 35 Variable Estadística 13.- Investigados los precios de ordenadores de 50 marcas distintas se han obtenido los siguientes resultados: 700 300 500 400 500 700 400 750 700 300 500 750 300 700 1000 1250 500 750 500 750 400 500 300 500 1000 300 400 500 400 500 300 400 700 400 700 500 400 700 1000 750 700 800 750 700 750 800 700 700 1200 800 a) Determinar la distribución de precios agrupados en frecuencias absolutas. b) Representar gráficamente el diagrama de barras y el polígono de frecuencias acumuladas. c) Calcular el precio medio y el más frecuente. d) Calcular la varianza y el coeficiente de variación. e) Obtener el sesgo y la curtosis o apuntamiento. f) Si queremos un ordenador cuyo precio corresponda como mínimo al 10% de los precios más caros, ¿cuál será el precio correspondiente? g) ¿Existen precios atípicos según el diagrama de cajas? Solución: a) xi 300 400 500 700 750 800 1000 1200 1250 ∑ ni Ni 6 6 8 14 10 24 11 35 7 42 3 45 3 48 1 49 1 50 50 b) Diagrama de barras Obsérvese que Excel representa rectángulos en lugar de barras U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 36 Variable Estadística Polígono de frecuencias absolutas acumuladas c) Media = X k k ni 1 k 32250 = ≈ 645 ni xi ∑ i n i1 50 = f x ∑= x ∑= n i i =i 1 =i 1 Moda El valor que más repite Mo=700 d) Varianza k (x i − X) 2 n i 2786250 = 55725 = σ2 ∑= 50 n i =1 Desviación típica σ= σ2 = 55725 ≈ 236, 0614327 Coeficiente de variación σ 236, 0614327 CV = = ≈ 0,365986717 645 X e) Sesgo k ∑ (x − X)3 f i µ3 7783500 i =1 = = ≈ 0,591697609 g= 1 3 3 σ σ 236, 06143273 Curtosis i k g2 = ∑ (x i =1 i − X) 4 f i − 3= µ4 9502685625 − 3= − 3 ≈ 0, 06017461 4 σ 236, 0614327 4 σ f) Percentil 90 El 90% de 50 es 45 que directamente según el polígono de frecuencias acumuladas es corresponde a los valores 800 y 1000 se toma el punto medio 900 g) Diagrama de cajas. Calculamos los 5 valores: Mínimo, Q1, M, Q3, Máximo Mínimo = 300 4 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 37 Variable Estadística n 50 Q1 es el valor que deja a su izquierda el 25% de la población, es decir, = = 12,5 que no 4 4 se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto es el siguiente 400. M = 700 es el valor central. n 50 Q3 es el valor que deja a su izquierda el 75% de la población, es decir, 3= = 37,5 que no 4 4 se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto es el siguiente 750. Máximo = 1250 Observando el rango intercuartílico IQR = Q3-Q1= 350, tenemos como límites Q1- 1,5 IQ= -125; quedando como límite inferior el mínimo 300. Q3+ 1,5 IQ= 1275 quedando como límite superior el máximo 1250. No hay valores atípicos. 4 00 ,0 0 6 00 ,0 0 8 00 ,0 0 1 00 0 ,00 1 20 0 ,00 Precios U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 38 Variable Estadística 14.- Si en una población de 120 personas el coeficiente intelectual tiene la siguiente distribución: Coef. Int. 60-70 70-80 80-90 90-100 100-110 110-120 120-130 130-140 ni 2 3 25 46 35 5 3 1 a) Representar el histograma de frecuencias. b) Representar el polígono de frecuencias acumuladas. c) Atendiendo al coeficiente intelectual, se consideran bien dotadas al 5% de las personas con mayor coeficiente. ¿A partir de qué coeficiente intelectual mínimo se considerará como bien dotada a una persona de esta población? d) ¿Qué proporción de la población es más inteligente que una persona con coeficiente intelectual 100? e) ¿En qué percentil está situada una persona de coeficiente intelectual 90? f) Obtener la media, la moda, la mediana y la varianza de la población. Solución: a) Histograma b) Polígono de frecuencias acumuladas c) Percentil 95 P95 es el valor que deja a su izquierda el 95% de la población, es decir, n 120 95 = 95 = 114 que no se corresponde con un valor de la columna de 100 100 frecuencias absolutas acumuladas y por tanto hay que interpolar en el intervalo (110,120). ( 0,95n − N j−1 ) a = (114 − 111)10 = 116 P95 = e j−1 + 110 + nj 5 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 39 Variable Estadística d) Según la tabla de distribución de frecuencias acumuladas para 100 le corresponde 76 personas del total de 120, luego 44 de 120 es la proporción de personas con CI superior a 100: 36,67% e) Existen 30 personas con el CI menor o igual a 90 del total de 120, luego es la cuarta parte el percentil 25 o primer cuartil. f) Intervalo ni 60-70 70-80 80-90 90-100 100-110 110-120 120-130 130-140 ∑ Ni xini n i (x i − x) 2 2 3 130 2016,1250 3 5 225 1419,1875 25 30 2125 3451,5625 46 76 4370 140,8750 35 111 3675 2382,1875 5 116 575 1665,3125 3 119 375 2394,1875 1 120 135 1463,0625 11610 14932,5 120 Media = X k k ni 1 k 11610 = ni xi = ∑ i n i1 120 = f x ∑= x ∑= n i i =i 1 =i 1 96, 75 Moda El intervalo modal es (90,100) se toma el valor 95 Mediana Cálculo de la mediana M n 120 − 30 ⋅10 − N i −1 a 2 2 = 96,52 = M= ei −1 + 90 + ni 46 Varianza k (x i − X) 2 n i 14932,5 = 124, 4375 = σ2 ∑= 120 n i =1 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 40 Variable Estadística 15.- Los siguientes datos corresponden a las cotas taquimétricas iniciales de un terreno en orden creciente: VÉRTICES Cota inicial (xi) 1 102,3 2 101,98 3 101,37 4 101,22 5 101,98 6 101,8 7 101,48 8 101,22 9 101,87 10 100,78 11 101,3 12 101,03 13 100,42 14 100,42 15 100 A.- Construir un sumario estadístico que incluya las frecuencias: absolutas, relativas, absolutas acumuladas y relativas acumuladas. B.- Representar los datos mediante un polígono de frecuencias absolutas acumuladas. C.- Calcular el valor y explica el método empleado de los siguientes estadísticos. Valor Fórmula empleada o método de cálculo Percentil 10 Media Varianza Desviación típica Coeficiente de variación Coeficiente de asimetría de Fisher Coeficiente de apuntamiento D.- Si se consideran el 10% de los vértices que tienen mayor cota. ¿Cuál es la cota mínima? E.- Representa un diagrama de cajas y efectúa el estudio de posibles puntos atípicos. Solución: U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 41 Variable Estadística A.- Construir un sumario estadístico que incluya las frecuencias: absolutas, relativas, absolutas acumuladas y relativas acumuladas. B- Representar los datos mediante un polígono de frecuencias absolutas acumuladas. xi ni fi Ni Fi 100 1 0,0667 1 0,0667 100,42 2 0,1333 3 0,2 100,78 1 0,0667 4 0,2667 101,03 1 0,0667 5 0,3333 101,22 2 0,1333 7 0,4667 101,3 1 0,0667 8 0,5333 101,37 101,48 1 0,0667 9 0,6 1 0,0667 10 0,6667 101,8 1 0,0667 11 0,7333 101,87 1 0,0667 12 0,8 101,98 2 0,1333 14 0,9333 102,3 1 0,0667 15 1 C.- Calcular el valor y explica el método empleado de los siguientes estadísticos. Valor Fórmula empleada o método de cálculo Percentil 10 Media 100,42 10% de 15=1,5 <2=N2 101,278 X = ∑ fi x i k i =1 Varianza k σ2 =∑ 0,40830933 i =1 Desviación típica Coeficiente de variación (x i − X) 2 n i n 0,638990871 σ= 0,006309276 CV = σ2 σ X k Coeficiente de asimetría de Fisher -0,35048162 = g1 ∑ (x − X)3 f i µ3 i =1 = 3 σ σ3 k Coeficiente de apuntamiento -0,76376054 g2 = ∑ (x i =1 i i − X) 4 f i σ 4 − 3= µ4 −3 σ4 D.- Si se consideran el 10% de los vértices que tienen mayor cota. ¿Cuál es la cota mínima? 90% de 15=13,5 <14=N11 que corresponde a 101,98 E.- Representa un diagrama de cajas y efectúa el estudio de posibles puntos atípicos. Calculamos los 5 valores: Mínimo, Q1, M, Q3, Máximo Mínimo = 100 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 42 Variable Estadística n 15 Q1 es el valor que deja a su izquierda el 25% de la población, es decir, = = 3, 75 que no 4 4 se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto es el siguiente 100,78. M = 101,3 es el valor central. n 15 Q3 es el valor que deja a su izquierda el 75% de la población, es decir, 3 = = 11, 25 que 4 4 no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto es el siguiente 101,87. Máximo = 102,3 Observando el rango intercuartílico IQ = Q3-Q1= 1,09, tenemos como límites Q1- 1,5 IQ= 99,145; quedando como límite inferior el mínimo 100. Q3+ 1,5 IQ= 103,505 quedando como límite superior el máximo 102,3. No hay valores atípicos. 1 00 ,0 0 1 00 ,5 0 1 01 ,0 0 1 01 ,5 0 1 02 ,0 0 U. D. de Matemáticas de la ETSITGC Asignatura: CÁLCULO Y ESTADÍSTICA 43 Variable Estadística 16.- Se ha tomado una fotografía aérea de una cierta escena; dentro de ella se ha seleccionado una parcela de la que se han tomado 28 muestras de los niveles de gris (pixeles) correspondientes a otros tantos puntos, obteniéndose los siguientes valores: 41, 39, 43, 40, 42, 44, 38, 42, 40, 46, 45, 44, 40, 43, 40, 42, 45, 45, 46, 39, 41, 39, 39, 43, 42, 47, 46, 40. Se quiere hacer un estudio de estos datos: agrupándolos en intervalos de amplitud dos: A.- Dibujar el histograma y el polígono de frecuencias absolutas: B.- Dibujar el polígono de frecuencias absolutas acumuladas. C.- Calcular el valor y explica el método empleado de los siguientes estadísticos. Valor Fórmula empleada o método de cálculo Mediana Percentil Quinto Coeficiente de variación Coeficiente de asimetría de Fisher Curtosis Solución: A.- Dibujar el histograma: y el polígono de frecuencias absolutas: Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 44 Variable Estadística B.- Dibujar el polígono de frecuencias absolutas acumuladas. C.- Calcular el valor y explica el método empleado de los siguientes estadísticos. Valor Fórmula empleada o método de cálculo n − N j−1 a 42,5714286 2 Mediana = M e j−1 + nj Percentil Quinto Coeficiente de variación n − N j−1 a 5 100 = P5 e j−1 + nj 38,56 0,06093936 σ CV = X k Coeficiente de asimetría de Fisher 0,16861377 = g1 ∑ (x − X)3 f i µ3 i =1 = 3 σ σ3 i k -1,05661199 ∑ (x − X) 4 f i µ4 −3 σ σ4 La mediana es el valor que deja a su izquierda el 50% de la población, es decir, n 28 = = 14 que no se corresponde con un valor de la columna de frecuencias absolutas 2 2 acumuladas y por tanto hay interpolar en el intervalo [42,44). n − N j−1 a (14 − 12 ) 2 ≈ 2 = Por consiguiente la mediana es M= e j−1 + 42 + nj 7 Curtosis g2 = i =1 i 4 − 3= 42,5714286 El percentil 5º es el valor que deja a su izquierda el 5% de la población, es decir, n 28 7 que no se corresponde con un valor de la columna de frecuencias 5 = = 100 20 5 absolutas acumuladas y por tanto hay interpolar en el intervalo [42,44). n − N j−1 a (1, 4 − 0 ) 2 ≈ 38,56 20 = Por consiguiente la mediana es P5 = e j−1 + 38 + nj 5 Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 45 Variable Estadística 17.- La siguiente tabla recoge los salarios anuales en miles de euros de 20 trabajadores: 20 60 19 10 40 16 16 16 10 19 19 20 20 40 19 16 10 16 70 16 Se pide: a) Polígono de frecuencias absolutas b) Proporción de trabajadores que obtiene un salario superior o igual a 19000. c) ¿Qué percentil le corresponde a un trabajador con un salario de 20000? d) Coeficiente de Variación. e) Diagrama de cajas. ¿Hay valores atípicos? Solución: xi 10 16 19 20 40 60 70 ni Ni 3 3 6 9 4 13 3 16 2 18 1 19 1 20 a) b) Proporcíon de trabajadores que obtienen un salario superior o igual a 19. 4+3+2+1+1=11 sobre el total de 20, resulta 11/20 c) ¿Qué percentil le corresponde a un trabajador con un salario de 20 mil? Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 46 Variable Estadística La frecuencia relativa correspondiente al valor 20 ó menos es 16/20 aproximadamente 0,8, luego es el percentil 80 d) Media Xi ni 10 16 19 20 40 60 70 3 xini 30 96 76 60 80 60 70 6 4 3 2 1 1 ∑ 20 (x − x) 2 i ni 555 347 85 39 538 1325 2153 5041 ni 1 472 = = ≈ 23, 6 X ∑ f= xi n= ∑ ∑ i xi i xi n i1 20 =i 1 =i 1 n = k k 472 k Varianza = σ2 (x i − X) 2 n i 5041 ≈ 252,04 = ∑ 20 n i =1 k Desviación típica σ= Coeficiente de Variación = CV σ2 = 252, 04 ≈ 15,8757677 σ 15,8757677 = ≈ 0, 672702021 23, 6 X e) Diagrama de cajas: Mínimo=10, Q1=16, M=19, Q3=20, Máximo=16 Observando el rango intercuartílico IQR = Q3-Q1= 20-16=4, tenemos como límites Q1- 1,5 IQ= 10; siendo el límite inferior y no existen valores atípicos. Q3+ 1,5 IQ= 24 siendo el límite superior y existen valores atípicos. ¿Hay valores atípicos? 40, 60 y 70. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 47 Variable Estadística 18.- Dada la distribución de frecuencias: Intervalo ni 0-500 3 500-1000 3 1000-1500 8 1500-2000 5 2000-2500 4 Se pide: a) Polígono de frecuencias absolutas acumuladas. b) El primer cuartil. c) Coeficiente de apuntamiento o Curtosis. Interpretación Solución: xini 2 ni (x − x) n 3 xi ni 0-500 250 3 3 750 500-1000 750 3 6 2250 1033553,875236 356077871005,321000 1000-1500 1250 8 14 10000 60491,493384 457402596,474428 1500-2000 1750 5 19 8750 853024,574669 145530184997,909000 2000-2500 2250 4 23 9000 3334593,572779 2779878573904,470000 30750 8826086,956522 7469589874250,020000 ∑ Ni (x − x) Intervalo 23 i i i 3544423,440454 4187645841745,850000 MOMENTOS Media 1337 383742,9112 3,24765E+11 a) Polígono de frecuencias absolutas acumuladas. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 48 Variable Estadística b) El primer cuartil n 23 Es el valor que deja a su izquierda el 25% de la población, es decir, = = 5, 75 que 4 4 no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto hay interpolar en el intervalo (500,1000). Por consiguiente la mediana es: n − N j−1 a ( 5, 75 − 3) 500 = 4 = 958,3 M= e j−1 + 500 + nj 3 c) Curtosis k ∑ (x − X) 4 f i µ4 3, 24765 ⋅10-11 − 3 = − 3 ≈ −0, 794595841 σ4 σ4 383742,91122 Es menos apuntada que la distribución Normal de la misma media y la misma g2 = i =1 i − 3= desviación típica Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 49 Variable Estadística 19.- Se toman 20 medidas a un grupo de 4 o más satélites en intervalos de 15 seg. En la tabla adjunta se reflejan las medidas de las variables GP: 4,7 4,7 4,8 4,9 5 5 5 5 5,1 5,1 5,1 5,1 5,1 5,2 5,2 5,2 5,3 5,3 5,3 5,3 Se pide: a) Polígono de frecuencias absolutas acumuladas. b) ¿Qué percentil le corresponde a un valor de GP de 5? c) La moda. d) La varianza muestral o cuasivarianza. e) Realizar el diagrama de cajas. ¿Hay valores atípicos? Solución: a) Polígono de frecuencias absolutas acumuladas. xi ni 4,7 4,8 4,9 5 5,1 5,2 5,3 2 1 1 4 5 3 4 Ni 2 3 4 8 13 16 20 b) La frecuencia relativa correspondiente al valor 5 ó menos es 8/20 aproximadamente 0,4, luego es el percentil 40 c) La moda. Moda es el valor que más se repite que es la calificación de 5,1. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 50 Variable Estadística d) La varianza muestral o cuasivarianza. xi ni 4,7 4,8 4,9 5 5,1 5,2 5,3 2 xini 1 1 4 5 3 4 ∑ 20 Momentos 9,4 4,8 4,9 20 25,5 15,6 21,2 0,2738 0,0729 0,0289 0,0196 0,0045 0,0507 0,2116 101,4 5,07 0,662 0,0331 Media ni 1 k 101, 4 = = ≈ 5, 07 x ni xi ∑ ∑ i ni1 20 =i 1 =i 1 n = = X k fi x i ∑= k Varianza k (x i − X) 2 n i 0, 662 ≈ 0,034842105 = ∑ 19 n −1 i =1 e) Realizar el diagrama de cajas. = S2 Mínimo=4,7, Q1=5, M=5,1, Q3=5,2, Máximo=5,3 Primer cuartil igual a 5, el primer valor que excede al 0,25 de frecuencia relativa acumulada. Segundo cuartil o mediana igual a 5,1, el primer valor que excede al 0,5 de frecuencia relativa acumulada. Tercer cuartil igual a 5,2, el primer valor que excede al 0,75 de frecuencia relativa acumulada. Observando el rango intercuartílico IQR = Q3-Q1= 5,2-5=0,2, tenemos como límites Q1- 1,5 IQ= 4,7; siendo el límite inferior y no existen valores atípicos. Q3+ 1,5 IQ= 5,5 no existen valores atípicos y siendo el límite superior 5,3 ¿Hay valores atípicos? No hay. 4 ,80 5 ,00 5 ,20 GP Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 51 Variable Estadística 20.- Las calificaciones obtenidas por alumnos de Matemáticas en un examen fueron las siguientes: Nota 0 – 2 2 – 4 4 – 6 6 – 8 8 – 10 ni 10 7 69 41 3 a) Representar el polígono de frecuencias absolutas. b) ¿Cuál es el valor de la mediana? c) ¿En qué percentil está situada una persona con una calificación de 5? d) Interpretar el Coeficiente de asimetria de Fisher. Solución: a) Nota 0 – 2 2 – 4 4 – 6 6 – 8 ni 10 7 69 41 Ni 10 17 86 127 8 – 10 3 3 b) La mediana. La mediana es el valor que deja a su izquierda el 50% de la población, es decir, n 130 = = 65 que no se corresponde con un valor de la columna de frecuencias 2 2 absolutas acumuladas y por tanto hay interpolar en el intervalo (4,6). Por consiguiente la mediana es: n − N j−1 a ( 65 − 17 ) 2 = 2 = 5,391304348 M= e j−1 + 4+ nj 69 c) La frecuencia relativa correspondiente al valor 5 será aproximadamente, 0,39615, luego es aproximadamente el percentil 40 Unidad Docente de Matemáticas de la ETSITGC (17+69/2)/130 Asignatura CÁLCULO Y ESTADÍSTICA 52 Variable Estadística xi ni xini 1 10 10 3 7 21 5 69 345 7 41 287 9 3 27 Sumas 130 690 (x − x) (x − x) n 3 2 i ni i i 186 -799 37,27811 -86,02640 6,53254 -2,01001 117,42012 198,71097 40,89941 151,01320 387,69231 -537,65680 Media ni 1 k 690 = ≈ 5,308 x n= ∑ ∑ i i xi ni1 130 =i 1 =i 1 n = = X k ∑ f= i xi k Varianza = σ2 k (x i − X) 2 n i 387, 692308 ≈ 2,982248521 130 ∑= n i =1 Sesgo k = g1 µ3 = σ3 ∑ (x − X ) i =1 i σ3 3 fi = ( −537, 656805 130 −0,803056398 = 3 2,982248521 ) Asimétrica por la izquierda. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 53 Variable Estadística 21.- La siguiente tabla recoge las calificaciones de una prueba tipo test de Cálculo: 4 2 5 5 7 4 8 4 5 5 6 9 5 2 4 7 7 4 2 7 5 1 6 5 5 3 1 6 4 1 5 0 5 7 5 9 6 2 4 Se pide: a) Porcentaje de alumnos que obtiene una calificación superior o igual a 6. b) El Percentil 90. c) ¿Qué percentil le corresponde a un alumno que tiene una calificación de 8? d) La moda y los cuartiles. e) La media, desviación estándar o desviación típica. f) Realizar el diagrama de cajas. g) ¿Hay valores atípicos? Dada la distribución de frecuencias de la variable tiempo (segundos) utilizado en la realización del test: Intervalo ni 400-500 3 500-600 3 600-700 8 700-800 5 800-900 4 900-1000 5 1000-1100 11 Se pide: h) El tiempo más frecuente. i) La mediana. j) Sesgo k) Curtosis Solución: xi 0 1 2 3 4 5 6 7 8 9 fi ni Ni 1 1 0,02564103 0,02564103 3 4 0,07692308 4 8 0,1025641 0,20512821 1 9 0,02564103 0,23076923 7 16 0,17948718 0,41025641 11 27 0,28205128 0,69230769 4 31 0,1025641 0,79487179 5 36 0,12820513 0,92307692 1 37 0,02564103 0,94871795 2 39 0,05128205 Unidad Docente de Matemáticas de la ETSITGC Fi 0,1025641 1 Asignatura CÁLCULO Y ESTADÍSTICA 54 Variable Estadística a) Porcentaje de alumnos que obtiene una calificación superior o igual a 6. 4+5+1+2=12 sobre el total de 39, resulta 12/39% b) El Percentil 90. El 90% de 39 es igual a 35,1 y en la columna de frecuencias absolutas acumuladas el primer valor que lo excede es 36 que correspnde al 7 = P90 c) ¿Qué percentil le corresponde a un alumno que tiene una calificación de 8? La frecuencia relativa correspondiente al valor 8 ó menos es 37/39 aproximadamente 0,94871, luego es el percentil 94,87 d) La moda y los cuartiles. Moda es el valor que más se repite que es la calificación de 5. Primer cuartil igual a 4, el primer valor que excede al 0,25 de frecuencia relativa acumulada. Segundo cuartil o mediana igual a 5, el primer valor que excede al 0,5 de frecuencia relativa acumulada. Tercer cuartil igual a 6, el primer valor que excede al 0,75 de frecuencia relativa acumulada. e) La media, desviación estándar o desviación típica. xi2ni xi ni xini 0 1 2 3 4 5 6 7 8 9 1 0 0 3 3 3 4 8 16 1 3 9 7 28 112 11 55 275 4 24 144 5 35 245 1 8 64 2 18 162 182 1030 4,66666667 26,4102564 4,63247863 Media = X k k ni x ∑ = x ∑ f= n i i =i 1 =i 1 1 k 182 ≈ 4, 67 n= ∑ i xi n 39 i =i 1 Varianza Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 55 Variable Estadística = σ2 k (x i − X) n i 2 ∑= n ∑x n 2 i i n i =1 i 2 −X = 1030 − 4, 666666667 2 ≈ 4,63247863 39 Desviación típica σ = σ2 = 4, 63247863 ≈ 2,15231936 f) Realizar el diagrama de cajas. Mínimo=0, Q1=4, M=5, Q3=6, Máximo=9 Observando el rango intercuartílico IQ = Q3-Q1= 6-4=2, tenemos como límites Q1- 1,5 IQ= 1; siendo el límite inferior y existen valores atípicos. Q3+ 1,5 IQ= 9 siendo el límite superior y no existen valores atípicos. g) ¿Hay valores atípicos? El cero. 0 ,00 2 ,00 4 ,00 6 ,00 8 ,00 notas test (x − x) 2 Intervalo ni Ni xi xini 400-500 500-600 600-700 700-800 800-900 900-1000 1000-1100 3 3 8 5 4 5 11 3 450 1350 392130,2 6 550 1650 205207,1 14 650 5200 208757,4 19 750 3750 18934,91 23 850 3400 5917,16 28 950 4750 95857,99 39 1050 11550 31650 811,54 625503 1552308 39802,76 i ni h) El tiempo más frecuente. La moda está en el intervalo (1000,1100) i) La mediana. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 56 Variable Estadística La mediana es el valor que deja a su izquierda el 50% de la población, es decir, n 39 = = 19,5 que no se corresponde con un valor de la columna de frecuencias 2 2 absolutas acumuladas y por tanto hay interpolar en el intervalo (800,900). Por consiguiente la mediana es: n − N j−1 a (19,5 − 19 )100 = 2 = 812,5 M= e j−1 + 800 + nj 4 j) Sesgo (x − x) xi 2 (x − x) n (x − x) 3 ni i i i 4 ni 450 392130,2 -141770141 5,126E+10 550 205207,1 -53669549,4 1,404E+10 650 208757,4 -33722348,7 5,447E+09 750 18934,91 -1165225,31 71706173 850 5917,16 227583,068 8753194,9 950 95857,99 13272644,5 1,838E+09 625503 149158398 1552308 -67668639,1 39802,76 -1735093,31 199,5063 -0,2185008 3,557E+10 1,082E+11 2,775E+09 -1,2483737 1050 k = g1 i µ3 = σ3 ∑ (x − X ) i =1 i σ3 3 fi = −67668639,1 39 −1, 2483737 = 3 1552308 39 k) Curtosis k g2 = ∑ (x i =1 i − X) 4 f i σ4 − 3= µ4 1, 082 ⋅10-11 − = − 3 ≈ 0, 702820924 3 σ4 39802, 762 Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 57 Variable Estadística 22.- Se desea estudiar la altura de un grupo de alumnos. Las alturas expresadas en centímetros fueron: 149 166 168 170 172 174 180 164 166 168 168 178 178 182 164 166 168 170 176 189 Construir un diagrama de caja. ¿Hay valores atípicos? Solución Primeramente ordenamos los datos y observamos las frecuencias absolutas xi ni Ni 149 1 1 164 2 3 166 168 170 172 174 176 178 180 182 189 3 4 2 1 1 1 6 10 12 13 14 15 2 1 1 1 17 18 19 20 Cuartiles ¿Q1? N/4 = 20/4=5 ⇒ Q1 = 166; Mediana ¿Q2 = M? N/2 =20/2=10 ⇒ Q2 = (168+17)/2=169; ¿Q3? 3N/4 = 15 ⇒ Q3 = (176+178)/2=177 El rango intercuartílico RIQ=Q3-Q1=11 Límite inferior= Q1-1.5*RIQ=149,5 Límite superior= Q3+1.5*RIQ=193,5 El límite inferior es 149,5 y existen un valor menor que es 149 por lo tanto EXISTE UN VALOR ATIPICO. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 58 Variable Estadística 23.- Se ha medido dieciséis veces la longitud en metros que separa dos puntos, Los resultados obtenidos se muestran en la siguiente tabla: 13,404 13,443 13,445 13,447 13,449 13,450 13,453 13,455 13,457 13,460 13,460 13,465 13,455 13,453 13,445 13,455 Calcular la moda, la mediana, los cuartiles y el percentil 90. Representar el diagrama de caja y estudiar la existencia de puntos atípicos. Solución: Para realizar este apartado, ordenamos los datos utilizando la tabla de distribución de frecuencias absolutas acumuladas. La moda es el valor de máxima frecuencia. La distancia 13.455 se repite tres veces y es la distancia de mayor frecuencia, por tanto xi Ni M0=13.455 metros s 13.404 1 n 13.443 2 Por ser es un valor entero, la mediana (M) es el valor medio 2 13.445 4 n n 13.447 5 de las observaciones que ocupen los lugares = 8 y + 1 = 9, 2 2 13.449 6 de modo que 13.450 7 13.453 + 13.453 13,453 9 M= =13.453 metros s 13.455 12 2 13.457 13 n Ya que es un valor entero, el primer cuartil Q1 es el valor 13.460 15 4 13.465 16 medio de los valores situados entre el cuarto y el quinto dato, n n = 4 y +1 = 5 , así pues, 4 4 13.445 + 13.447 Q1 = P25 = = 13.446 metros s 2 El 75 % del total de las observaciones es 12, el tercer cuartil Q3 estará entre los valores n n que ocupan los lugares 3 = 12 y 3 + 1 = 13 , es decir, 4 4 13.455 + 13.457 Q3= P75 = = 13.456 metros s 2 Los nueve décimos de 16 es 14.4, por tanto el percentil 90 ocupará el lugar 15, D9=P90 = 13,460 metros s Calculamos los valores necesarios para la representación del diagrama. Los valores máximo y mínimo de la variable son xmax=13.465 y xmin=13.404, respectivamente. El rango intercuartílico es IQR=13.456-13.446=0.01 y el valor de 1.5 veces el rango intercuartílico es 0.015, por tanto las barreras son: LI = máx [xmin, Q1-1.5*IQR] = máx [13.404, 13.431] = 13.431, así pues, representamos la barrera 13.431 y la observación xmin=13,404 que además es un valor atípico por ser menor que el valor de la barrera. LS = mín [xmáx, Q3+1.5*IQR] =mín [13.465, 13.471] = 13.465. En este caso representamos el valor mínimo de la variable (13.465) por ser un valor menor que el de la barrera (13.471). Con los valores anteriores representamos el diagrama de caja. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 59 Variable Estadística Una interpretación de este gráfico puede ser el siguiente: Observamos que las medidas de posición central media y mediana son muy similares, pero la media es menor que la mediana y, por tanto, existe asimetría negativa; hecho que también se evidencia por estar la mediana más próxima al lateral derecho de la caja que al borde izquierdo. La dispersión de los datos es pequeña como evidencia la anchura de la caja, pero el recorrido es elevado debido al dato 13.404 que representa un posible punto atípico. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 60 Variable Estadística 24.- Los siguientes valores corresponden a la temperatura máxima diaria (ºF) de 36 días, obtenidos a las 14 horas en una cierta estación meteorológica. 84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 75, 76, 73, 70, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 58, 57, 21. a) Calcular: media, desviación típica y el coeficiente de variación. b) Estudiar la existencia de datos atípicos. Si existe algún valor atípico omitir, dicho valor y calcular de nuevo el apartado a). c) Con los datos de los apartados a y b construir un gráfico con el diagrama de caja, de ambos apartados. Solución: a) Para el cálculo utilizaremos la tabla xi 21 40 45 49 52 53 57 58 60 61 63 66 67 68 69 70 72 73 75 76 78 79 80 81 83 84 ni 1 1 1 1 1 1 1 2 1 2 1 1 4 1 1 4 1 1 2 2 1 1 1 1 1 1 Ni n i x i 1 21 2 40 3 45 4 49 5 52 6 53 7 57 9 116 10 60 12 122 13 63 14 66 18 268 19 68 20 69 24 280 25 72 26 73 28 150 30 152 31 78 32 79 33 80 34 81 35 83 36 84 2361 n i x i2 441 1600 2025 2401 2704 2809 3249 6728 3600 7442 3969 4356 17956 4624 4761 19600 5184 5329 11250 11552 6084 6241 6400 6561 6889 7056 160811 Media: X = 2361 ≈ 65,58 36 Varianza de la población: 2 160811 σ2 = −X ≈ 165,80 36 Desviación típica de la población: σ = σ2 = 165,8 ≈ 12,88 Coeficiente de variación: σ 12,88 ≈ 0,1964 = X 65,58 n n Primer cuartil: = 9 y + 1=10 ⇒ 4 4 CV = = Q1 58 + 60 = 59 2 Tercer cuartil: = Q3 3 3 n = 27 y n + 1= 28 ⇒ 4 4 75 + 75 = 75 2 2 2 n = 18 y n + 1 = 19 ⇒ 4 4 67 + 68 = M = 67.5 . 2 Mediana: Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 61 Variable Estadística b) El rango intercuatílico y las barreras del gráfico son: LS =mín[ xmáx, Q3+1,5·16]=mín[84, 99]=84. IQR=75-59=16 LI =máx[ xmin, Q1-1,5·16]=máx[21, 35]=35. El valor x=21 ºF es una temperatura atípica del conjunto de datos. c) Si omitimos la observación 21ºF y procedemos de forma análoga al apartado a) se tiene: 2340 Media: X = = 66,86 35 2 160370 Varianza de la población: σ2 = − X = 112,12 35 Desviación típica de la población: σ = Coeficiente de variación: CV = σ2 = 10,59 σ 10,59 ≈ 0,1584 = X 66,86 n Primer cuartil:= 8, 75 ⇒ Q1 = 60 4 3 Tercer cuartil:= n 26, 25 ⇒ Q3 = 75 4 2 Mediana: = n 17,5 ⇒ M = 68 4 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0 Los valores del rango intercuartílco y de las barreras son: Rango intercuartílico: IQR=75-59=15. LI =máx[ xmin, Q1-1,5·16] = máx[40, 37.5]=40. LS =mín[ xmáx, Q3+1,5·15] = mín[84, 97.5] = 84. Con los datos calculados anteriormente, obtenemos el diagrama de cajas de ambas series de datos. Realizado el diagrama de cajas en ambos casos, una lectura de este gráfico sería que la dispersión y la asimetría son mayores en el apartado a) que en el apartado b). En a) la caja es algo más ancha y, por tanto, mayor la dispersión. También observamos que en b) la media está más próxima a la mediana que en a) y por ello es más simétrica y más significativa en b) al ser 20 60 80 100 40 menor la dispersión. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 62 Variable Estadística 25.- Los valores de 50 mediciones realizadas con un distanciometro con apreciación en milímetros han sido agrupados en 6 intervalos según la tabla siguiente: ei-1 – ei ni 21.150 – 21.155 21.155 – 21.160 21.160 – 21.165 4 6 11 21.165 – 21.170 13 21.170 – 21.175 9 21.175 – 21.180 7 Total 50 a) Porcentaje de mediciones cuya distancia es mayor o igual que 21.160. b) Representar el polígono de frecuencias absolutas acumuladas y el histograma de frecuencias absolutas. c) Calcular, los cuartiles y la mediana. d) Estimar el porcentaje de mediciones cuya distancia sea menos de 21.1725. e) ¿Qué distancia tienen como máximo el 95% de las mediciones? f) Calcular la media, moda y varianza. Solución: a) Porcentaje de mediciones cuya distancia es mayor o igual que 21.160 mayor que 21.160 son 50-10 =40, por tanto 40*100/50 = 80% b) Polígono de frecuencias absolutas acumuladas Histograma Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 63 Variable Estadística c) Cuartil primero: posición 50/4=12.5 Q1=21,16+(12,5-10)*0,005/11= 21,16113636 Mediana posición 50/2=25 M = Q2 =21,165+(25-21)*0,005/13= 21,16653846 Cuartil tercero: posición 3 50/4=37.5 Q3= =21,17+(37,5-34)*0,005/9= 21,1719 d) Por ser el problema inverso se puede plantear 21.1725=21.170+((a*50/100-34)*0.005)/9 despejando se obtiene a=77. Es decir, percentil 77. e) Percentil 95 posición 95*50/100=47.5 P95 =21,175+(47,5-43)*0,005/7= 21,1782143 f) ei-1 ei ni xi Ni ni ·xi ni (xi-media)2 21,150 0 21,150 21,155 4 21,1525 4 84,61 0,00076176 21,155 21,160 6 21,1575 10 126,945 0,00046464 21,160 21,165 11 21,1625 21 232,7875 0,00015884 21,165 21,170 13 21,1675 34 275,1775 1,872E-05 21,170 21,175 9 21,1725 43 190,5525 0,00034596 21,175 21,18 7 21,1775 50 148,2425 0,00087808 Totales 50 1058,315 0,002628 Media k k ni 1 k 1058,315 = = = ≈ 21,1663 X ∑ f i x i ∑= xi ni xi ∑ n i1 50 =i 1 =i 1 n = El intervalo modal es de 21.165 a 21.170. Varianza k (x i − X) 2 n i 0,002628 2 = σ ∑ = ≈ 5,256 10-5 n 50 i =1 Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 64 Variable Estadística 26.- Del conjunto de redes topográficas que intervienen en un trabajo topográfico estamos interesados en estudiar el número de vértices geodésicos que constituyen cada red topográfica. Para ello, seleccionamos 30 redes topográficas, obteniéndose la siguiente tabla: Nº de vértices en las 30 redes 1 2 3 4 5 6 xi Frecuencia absoluta ni 3 8 9 6 3 1 Respecto del número de vértices geodésicos que constituyen la red (característica a estudiar) Calcular: a) Representar el polígono de frecuencias absolutas y el polígono de frecuencias acumuladas. b) Hallar los cuartiles, la mediana y los percentiles 5 y 10. c) ¿Qué número de vértices tienen el 80% de las redes? d) Calcular la media, moda y varianza. e) Representar el diagrama de caja. Solución: a) Polígono de frecuencias absolutas b) Cuartil primero: posición 30/4 = 7.5 Q1 =2 Mediana: posición 30/2 = 15 M = Q2 =3 Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 65 Variable Estadística Cuartil tercero: posición 3*30/4 = 22.5 Q3 =4 Percentil 5 posición 5*30/100 = 1.5 P5 =1 Percentil 10 posición 10*30/100 = 3. Obsérvese que se corresponde con los valores 1 y 2 tomamos P10 =1.5 c) Percentil 80 posición 80*30/100 = 24 P80 =4 d) xi 1 2 3 4 5 6 sumatorio Media Ni 3 11 20 26 29 30 n i · xi 3 16 27 24 15 6 91 ni (xi -media)2 12,40 8,54 0,01 5,61 11,60 8,80 46,97 ni 1 k 91 = ≈ 3,03 x n i x= ∑ ∑ i i n i1 30 =i 1 =i 1 n = La moda es 3. Varianza k (x − X) 2 n i 46,97 = σ2 ∑ i = ≈ 1.57 n 30 i =1 e) = X k ni 3 8 9 6 3 1 30 ∑ fi x=i k No hay valores atípicos Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 66 Variable Estadística 27.- Se quiere analiza el resultado de una secuencia de cifras elegidas, al azar, 141592653589793238462433832795028841971693993751058209749445923078164062862 089986280348253421170679, todas las cifras han sido elegidas al azar mediante extracciones de una urna con 10 bolas numeradas del 0 al 9. La siguiente tabla recoge la distribución de frecuencias absolutas: xi 0 1 2 3 4 5 6 7 8 9 ni 8 8 12 11 10 8 9 8 12 14 Se pide: a) Moda b) Media c) Diagrama de cajas, ¿hay valores atípicos? d) Coeficiente de asimetría Solución: a) La Moda es igual a 9 puesto que es el valor correspondiente a la máxima frecuencia 14 b) Media ni 1 k 477 = ≈ 4, 77 x n= ∑ ∑ i i xi ni1 100 =i 1 =i 1 n = = X k ∑ f= i xi k c) Dibujar el diagrama de cajas. Calculamos los 5 valores: Mínimo, Q1, M, Q3, Máximo Mínimo = 0 xi ni Ni 0 8 8 1 8 16 2 12 28 3 11 39 4 10 49 5 8 57 6 9 66 7 8 74 8 12 86 9 14 100 n 100 Q1 es el valor que deja a su izquierda el 25% de la población, es decir,= = 25 que no 4 4 se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto Q1=2 Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 67 Variable Estadística n 100 Q2=M es el valor que deja a su izquierda el 50% de la población, es decir,= = 50 que 2 2 no se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto M=5 3n 300 Q3 es el valor que deja a su izquierda el 75% de la población, es decir, = = 75 que no 4 4 se corresponde con un valor de la columna de frecuencias absolutas acumuladas y por tanto Q3=8 Observando el rango intercuartílico IQ = Q3-Q1= 8-2=6, tenemos como límites LI=Q1- 1,5 IQ= -7; quedando como límite inferior el mínimo 0. LS=Q3+ 1,5 IQ= 17quedando como límite superior el máximo 9 y no existen valores atípicos. d) Coeficiente de asimetría o Sesgo: µ3 g1 = = σ3 ∑(x − X ) 3 i ∑(x − X ) i 2 fi = 3 fi −0, 479634 −0, 019094103 Asimétrica por la = 3 ( 2,92866864 ) izquierda. Unidad Docente de Matemáticas de la ETSITGC Asignatura CÁLCULO Y ESTADÍSTICA 68 Diagrama de frecuencias acumuladas o diagrama de barras acumulativo Representamos en el eje de abscisas los distintos valores de la variable estadística. Levantamos sobre cada uno de ellos un perpendicular cuya longitud será la frecuencia (absoluta o relativa) acumulada correspondiente a ese valor. De esta forma aparece un diagrama de barras creciente. Trazando segmentos horizontales de cada extremo de barra a cortar la barra situada a su derecha se obtiene el diagrama de frecuencias acumuladas. 40 35 Ni 30 25 20 15 10 5 0 xi U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 58 Histograma En un histograma se representan las frecuencias de una variable estadística mediante áreas. De tal forma que un histograma es un conjunto de rectángulos que tienen como base los intervalos de clase y cuya superficie son las frecuencias (absolutas o relativas). Por tanto, las alturas son proporcionales a las frecuencias, y será el cociente entre la frecuencia y la amplitud del intervalo. Si algún intervalo es de distinta amplitud, el cálculo de su altura (hi) se efectuará hallando el cociente ni/ai o fi/ai, donde ai representa la amplitud del intervalo. fi ni ai ai fi ni ei-1 ei ei-1 ei U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 94 Polígono de frecuencias acumuladas Para variables estadísticas sin agrupar en intervalos de clase. Representamos en el eje de abscisas los distintos valores de la variable estadística. Levantamos sobre cada uno de ellos un perpendicular cuya longitud será la frecuencia (absoluta, Ni, o relativa, Fi) acumulada correspondiente a ese valor. De esta forma aparece un diagrama de barras creciente. Trazando segmentos horizontales de cada extremo de barra a cortar la barra situada a su derecha se obtiene el diagrama o polígono de frecuencias acumuladas. 40 35 Ni 30 25 20 15 10 5 0 xi Para variables estadísticas agrupadas en intervalos de clase. En el eje de abscisas representamos los distintos intervalos de clase de una variable estadística que han de estar naturalmente solapados. Sobre el extremo superior de cada intervalo se levanta una línea vertical de longitud equivalente a la frecuencia (absoluta o relativa) acumulada del mismo. Se obtiene así un diagrama de barras creciente, que uniendo sus extremos da lugar al polígono de frecuencias acumuladas. Alcanzará su máxima altura en el último intervalo, que tendrá de frecuencia N ó 1 según se trate de frecuencias acumuladas absolutas o relativas. N Ni e0 e1 ei ei+1 ek U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía Moda Moda es el valor de la variable que se presenta con más frecuencia dentro de la distribución. En las distribuciones sin agrupar se observa directamente el valor de mayor frecuencia. En las agrupadas, definimos la clase modal como la que tiene mayor frecuencia. NOTA: Algunas distribuciones pueden presentar varias modas. Cada moda corresponde a un máximo absoluto del diagrama de barras o histograma. Para variables aleatorias La moda es el máximo de la función de densidad o de la función de probabilidad U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 143 Media aritmética La media de una variable estadística es la suma ponderada de los valores k k i 1 i 1 n N posibles por sus respectivas frecuencias: X fi x i i x i 1 k ni xi N i 1 x i = valores que toma la variable o marca de clase. fi = frecuencias relativas. n i = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X La media o esperanza matemática de una variable aleatoria es: m1 E x E = n x P( X ) para una variable discreta y finita. i i 1 E = i x.f (x).dx cuando la variable es continua con función de densidad f(x). Media armónica Medida de tendencia central de una variable estadística es el cociente entre el tamaño de la muestra y la suma de los cocientes de las frecuencias por los valores de las correspondientes de la variable: H N ni i 1 x i k x i = valores que toma la variable o marca de clase. fi = frecuencias relativas. n i = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X Media cuadrática Medida de tendencia central de una variable estadística es la raíz cuadrada de la suma ponderada de los cuadrados de los posibles valores de la variable multiplicados por sus respectivas frecuencias: MC k f x i 1 i 2 i k ni Nx i 1 2 i Media geométrica Medida de tendencia central de una variable estadística que resulta de la raíz nésima del producto de los valores posibles de la variable, elevados a a sus respectivas frecuencias: G N x1n .x 2n ...x kn x i = valores que toma la variable o marca de clase. fi = frecuencias relativas. n i = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X 1 2 k U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 136 Mediana Mediana de un triángulo es el segmento que une un vértice con el punto medio del lado opuesto. Mediana de un triángulo esférico es el arco de circunferencia máxima que une un vértice con el punto medio del lado opuesto. En Estadística: La mediana es el valor de la variable que ocupa el lugar central, es decir, que la mitad de la población es menor y la otra mitad es mayor que él. La mediana es un valor M tal que F(M)=1/2, se define así como raíz de una ecuación. Para las variables estadísticas se ordenan en forma creciente, dejando igual número de observaciones inferiores que superiores a ella. a) En las distribuciones sin agrupar, en general, no tiene solución, puesto que la función F(x) varía por saltos: 1) Si ningún valor posible x i corresponde a F( x i )=1/2 se conviene en considerar 1 como mediana el valor x i tal que: F( x i 1 ) F( x i ) 2 1 2) Si uno de los valores xi corresponde a F( x i ) (lo que ocurre solamente si el 2 total N de la población es par) la mediana está indeterminada entre los valores xi y xi+1. El intervalo (xi, xi+1) se denomina mediano, o bien llamamos mediana al punto medio de dicho intervalo. b) En las agrupadas pueden darse dos casos: INTERVALO xi ni Ni e0 -- e1 x1 n1 N1 e1 -- e2 x2 n2 N2 ............ ... ... .... ej-2 – ej-1 xj-1 Nj-1 Nj-1 ej-1 -- ej xj nj Nj ............ ... ... ... ek-1 -- ek xk nk N N 1) coincide con uno de los recogidos en la columna de frecuencias acumuladas, 2 por ejemplo Nj, en este caso la mediana es ej. N 2) está entre N j1 y N j . La mediana se encontrará en el intervalo ( e j1 , e j ) . La 2 mediana será M e j1 h y por interpolación lineal se obtiene h. Amplitud del intervalo: a = e j e j-1 N N nj a ( N j 1 ) a ( N j1 ) a h 2 M e j 1 2 N nj nj N j1 h 2 Varianza Varianza o momento de segundo orden respecto de la media en una variable estadística es la media de los cuadrados de las desviaciones a la media: k 2 i 1 ( x i X) 2 n i N x i = valores de la variable o marcas de clase. La varianza de una variable aleatoria es el momento de segundo orden respecto a 2 la media: 2 2 E x x V = x i 1 n 2 x P(X i ) para una variable discreta y finita. i V = 2 x x .f (x).dx cuando la variable es continua con función de 2 densidad f(x). Varianza explicada En la recta de regresión de la Y sobre X la varianza total de la variable Y puede descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión) y otra parte no explicada (la varianza residual). La varianza explicada, será la obtenida por el producto de la varianza de Y por el coeficiente de determinación R2. Varianza muestral o cuasivarianza La varianza muestral viene dada por: k N N S2 2 , es decir: S2 N 1 N 1 ( x i X) 2 i 1 N k (x i X) 2 i 1 N 1 Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy pequeña. Varianza residual La varianza residual se define como la varianza de los errores o residuos Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas variables. La varianza residual o no explicada 2r 1 (yi * y j )2 n ij 2y (1 r 2 ) n i, j Siendo el valor ajustado o teórico= yi * U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 207 Desviación típica La desviación típica o desviación cuadrática media es la raíz cuadrada positiva de la varianza: ( 2 ) k (x 2 i X) fi o bien, i 1 k x f 2 i i X 2 i 1 Desviación típica muestral La desviación típica muestral es la raíz cuadrada positiva de la varianza muestral. ( x i X) 2 n i S ( N 1) i 1 k N N 1 U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 52 Coeficiente de variación de Pearson Es el cociente de la desviación típica y la media. CV X Es siempre positivo y no existe si la media vale cero. Es frecuente expresarlo en tanto por ciento. Es independiente de la unidad que se utilice, pues no tiene unidades y por tanto nos permite comparar la dispersión de dos distribuciones que tengan unidades diferentes, o que tengan medias muy distintas. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27 Sesgo Para obtener una medida adimensional de la simetría de una variable estadística, se define el coeficiente de asimetría o sesgo Coeficiente de Asimetría de Pearson: As X Mo . Mide la asimetría respecto de la moda. Si As=0 es simétrica respecto de la moda. X M0 . Si As>0 es asimétrica a la derecha de la moda. X M0 . Si As<0 es asimétrica a la izquierda de la moda. X M0 . Si la moda no es única, no está definido. n x 1 k Coeficiente de Asimetría de Fisher: g1 3 3 n i 1 i i X 3 3 Es un coeficiente adimensional y mide la asimetría respecto de la media. Si g1=0 la distribución es simétrica o no sesgada. Si g1<0 la distribución es asimétrica o sesgada a la izquierda y X Me Mo . Si g1>0 la distribución es asimétrica o sesgada a la derecha y Mo Me X . El sesgo es la diferencia entre el valor esperado de un estimador y el verdadero valor del parámetro: E(θ*) - θ Curtosis El coeficiente de Curtosis es el grado de apuntamiento de una distribución. Será mayor cuanto mayor sea la concentración de valores alrededor de la media. Se mide en relación a la distribución Normal, de la misma media y desviación típica. El coeficiente de apuntamiento de Fisher, es: g 2 4 3 4 De forma que es nulo para la distribución normal. Si el coeficiente es positivo la distribución está más apuntada que la distribución Normal (de la misma media y desviación típica), y se dice leptocúrtica. Si es menos apuntada el coeficiente es negativo y se dice platicúrtica. Mesocúrtica es cuando el coeficiente es nulo. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 42 Cuantiles Cuantil de orden es un valor de la variable estadística que deja a su izquierda una parte de la población y a la derecha una parte 1- de la población. El Cuantil de orden (0 1) es x tal que F( x )=. Siendo F la función de distribución o la frecuencia relativa acumulada. Los más utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda 1/4, 1/2 y 3/4 de la población respectivamente. Obsérvese que Q2 = M (Mediana). Los deciles D1, D2, ..... , D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la población respectivamente. Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, ..... 99/100 de la población respectivamente. El cálculo de los mismos es similar al cálculo de la mediana. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 33 Diagrama de cajas o Box-plot Se construye sólo para variables cuantitativas. Pasos a seguir: •Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se indica la posición de la mediana mediante una línea vertical. También se indica la media mediante una cruz (+). •Se dibuja una línea desde cada extremo del rectángulo hasta el valor más alejado no atípico. •Se calculan los límites de admisión (barreras o bigotes) LI =Q1 -1,5 (Q3- Q1) LS =Q3 +1,5 (Q3- Q1) •Se marcan todos los datos considerados como atípicos (outliers) son los que quedan fuera de los límites de admisión se indican mediante un círculo. Existen otros valores atípicos más graves (atípicos extremos) que superen 3 veces el rango intercuartilíco y se representan por cruces (x). Si no hubiese ningún dato atípico las barreras llegarían hasta el valor mínimo y máximo. Q1 Q2 = M Q3 + Q1-1,5(Q3-Q1) Q3+1,5(Q3-Q1) U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 56 Distribución de frecuencias Distribución de frecuencias: es conjunto de modalidades con sus respectivas frecuencias. Según sean éstas (absolutas, relativas,....) así lo será la distribución correspondiente. Las distribuciones de frecuencias se representan mediante tablas estadísticas. Se clasifican en dos tipos: - Sin agrupar: aparecen los datos individualizados con sus respectivas frecuencias. Se utiliza cuando la variable toma pocos valores diferentes. - Agrupados en intervalos se divide el campo de la variable en intervalos llamados de clase, que tendrán como frecuencia el número de elementos que estén en el intervalo. Se utiliza cuando la variable toma muchos valores distintos entre sí. La distribución de frecuencias quedaría así: Intervalo Marca de Frecuencia Frecuencia Frecuencia Frecuencia absoluta relativa relativa absoluta clase x i acumulada acumulada e0 , e1 e1 , e2 x1 n1 f1 F1 N1 x2 n2 f2 F2 N2 ........... ... ... ... ... ... xi ni fi Fi Ni ... ... ... ... ... xk nk fk Fk Nk ei 1 , ei ........... ek 1 , ek U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 64 Varianza muestral o cuasivarianza La varianza muestral viene dada por: k N N S2 2 , es decir: S2 N 1 N 1 ( x i X) 2 i 1 N k (x i X) 2 i 1 N 1 Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy pequeña. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 207 Rango de un sistema de vectores Rango de un sistema de vectores es igual al número máximo de vectores linealmente independientes que contiene. Rango de una aplicación lineal Rango de la aplicación lineal f es la dimensión del subespacio Imagen de f. Rango de una matriz Rango de la matriz A es el orden del menor de mayor orden no nulo de A. Lo denotaremos por r(A) o bien por rg(A). En Estadística Rango o recorrido de una variable estadística Es la diferencia entre el mayor y el menor valor de la variable estadística. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 170 Momentos de una variable aleatoria El momento de orden k respecto al origen se define como el caso de variables discretas: continua: m k E x k = m k E x k en n m k E x k x = i 1 k i . P( x i ) y si la variable es x k . f ( x).dx La media o esperanza matemática es: m1 E x x El momento de orden k respecto a la media, m1 , de la distribución se define como k E x m1 . Entre estos tiene particular importancia la varianza que es el momento 2 de segundo orden respecto a la media: 2 2 E x m1 La raíz cuadrada positiva de la varianza se llama desviación típica k Momentos de una variable estadística Se llama momento de orden r respecto al valor "c" en una variable estadística, a la cantidad: k k i 1 i 1 ( x i c) r fi ( x i c) r ni , donde r es un entero positivo. N Según los valores de "c", se definen varias clases de momentos: Momentos no centrales o respecto al origen, k k n r c 0 m x f xr i r i i i N i 1 i 1 Momentos centrales o respecto a la media k k i 1 i 1 c X r ( x i X ) r fi ( x i X) r ni N A los caracteres de una variable estadística bidimensional les vamos a llamar x e y, cada uno de ellos presentará varias modalidades x1 ,....., xr e y1 ,....., ys respectivamente. Momentos respecto al origen: m h,k 1 r s h k x i y j n ij N i 1 j1 Momentos respecto a la media: h,k 1 r s ( xi X) h ( y j Y) k nij N i 1 j1 U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 144 Rango intercuartílico El rango intercuartílico es la diferencia entre los cuartiles Q1 y Q3 de una variable estadística: IQR Q 3 Q1 . U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 171 Polígono de frecuencias Polígono de frecuencias de una variable discreta, sin agrupar: es una línea que se obtiene uniendo los extremos superiores de las barras en el diagrama de barras. frecuencia (absoluta o relativa) 16 14 12 10 8 6 4 2 0 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Para variables estadísticas agrupadas en intervalos de clase. El polígono de frecuencias es una línea que se obtiene uniendo los puntos medios de las bases superiores (los techos) de cada rectángulo en el histograma. De forma que empiece y acabe sobre el eje de abscisas, en el punto medio del que sería el intervalo anterior al primero y posterior al último. U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 131