1 VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 1 La tabla siguiente refleja la distribución por cursos de los alumnos matriculados en un Instituto: Curso 1º de ESO 2º de ESO 3º de ESO 4º de ESO 1º de Bach. 2º de Bach. ni 56 90 120 88 114 112 N = 580 a) ¿De qué tipo es el carácter estadístico estudiado? b) Completar la tabla con las columnas de frecuencias relativas y porcentajes. c) Construir un diagrama rectangular y un diagrama de sectores. Se trata de un carácter cualitativo (atributo) ordinal. DIAGRAMA RECTANGULAR EN EXCEL 1. Introducir los datos. En una columna introducir los nombres de las modalidades (“categorías” en Excel). En la columna siguiente introducir la frecuencia absoluta o relativa de cada modalidad. 2. Hacer clic en Asistente para gráficos (o bien Insertar-Gráfico). 3. Ejecutar los cuatro pasos siguientes (para avanzar de un paso a otro pulsar Siguiente) Paso 1 Tipo de gráfico Seleccionar Columnas Paso 2 Datos del gráfico Rango de datos: definir las celdas de las dos columnas donde están los datos (la de modalidades y la de frecuencias) Series en: escoger Columnas Paso 3 Opciones de gráfico Título del gráfico Escribir Título deseado para el gráfico, así como para el Eje de categorías (X) y el Eje de valores (Y) Ejes Seleccionar Eje de categorías automático y Eje de valores 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 1 Líneas de división Seleccionar sólo Líneas de división principales en el eje Y Leyenda Desactivar Mostrar leyenda Rótulo de datos Seleccionar Valor Tabla de datos Desactivar Mostrar tabla de datos Paso 4 Colocar el gráfico Como objeto en: Hoja 1 Finalizar 2 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 3 4 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 4. Se pueden efectuar modificaciones sobre el gráfico obtenido como cambiar el color del fondo o de las barras. Para cambiar el color de una barra se hacen dos clics sobre ella con el botón izquierdo; después, clic con botón derecho y se selecciona Formato de punto de datos. En Tramas se selecciona Borde y Área. El resultado es el siguiente: 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 5 DIAGRAMA DE SECTORES EN EXCEL 1. Introducir los datos. En una columna introducir los nombres de las modalidades (“categorías” en Excel). En la columna siguiente introducir la frecuencia absoluta o relativa de cada modalidad. 2. Hacer clic en Asistente para gráficos (o bien Insertar-Gráfico). 3. Ejecutar los cuatro pasos siguientes (para avanzar de un paso a otro pulsar Siguiente) Paso 1 Tipo de gráfico Seleccionar Circular Paso 2 Datos del gráfico Rango de datos: definir las celdas de las dos columnas donde están los datos (la de modalidades (categorías) y la de frecuencias) Series en: escoger Columnas 6 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez Paso 3 Opciones de gráfico Título del gráfico Escribir título deseado para el gráfico Leyenda Desactivar Mostrar leyenda Rótulo de datos Seleccionar Nombre de la categoría y Porcentaje Tabla de datos Desactivar Mostrar tabla de datos Paso 4 Colocar el gráfico Como objeto en: Hoja 2 Finalizar 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 7 8 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 9 Se pueden efectuar modificaciones sobre el gráfico obtenido como cambiar el color del fondo o de los sectores. Se hace igual que en el diagrama rectangular. El resultado es el siguiente: 10 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 2 La tabla siguiente refleja las causas de los 250 incendios forestales ocurridos en Andalucía durante el año 2002: Causa Intencionados Negligencias Naturales Accidentales Desconocidas % 32’2 32’3 3’4 12’0 20’1 100 a) ¿De qué tipo es el carácter estadístico estudiado? b) Completar la tabla con las columnas de frecuencias absolutas y relativas. c) Construir un diagrama rectangular y un diagrama de sectores. Se trata de un carácter cualitativo (atributo). Procediendo como en el ejercicio anterior obtenemos la siguiente tabla y los correspondientes diagramas: 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 11 3 La distribución del grupo sanguíneo de 500 alumnos de una Universidad viene dada en la tabla: Grupo A B AB 0 ni 150 75 25 250 N = 500 a) ¿De qué tipo es el carácter estadístico estudiado? b) Completar la tabla con las columnas de frecuencias relativas y porcen-tajes. c) Construir un diagrama rectangular y un diagrama de sectores. Se trata de un carácter cualitativo (atributo). Procediendo como en los ejercicios anteriores obtenemos la siguiente tabla y los correspondientes diagramas: 12 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 4 Clasificados los 150 asistentes a un curso de Informática según el grado de acuerdo del desarrollo del mismo con sus expectativas personales, se obtiene Grado total desacuerdo poco acuerdo de acuerdo totalmente de acuerdo % 4 20 70 6 100 a) ¿De qué tipo es el carácter estadístico estudiado? b) Completar la tabla con las columnas de frecuencias relativas y absolutas. c) Construir un pictograma de repetición y uno de amplificación. Se trata de un carácter cualitativo (atributo) ordinal. Procediendo como en los ejercicios anteriores obtenemos la siguiente tabla y los correspondientes diagramas: 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 13 5 Realizada una encuesta a 120 familias para conocer su número de hijos, se obtuvieron los siguientes resultados: xi ni a) b) c) d) e) 1 25 2 40 3 29 4 15 5 6 6 3 7 2 N = 120 ¿De qué tipo es el carácter estadístico estudiado? Construir el diagrama de barras de frecuencias absolutas. Definir y representar la función de distribución. Determinar la moda y los cuartiles. Calcular la media, la varianza, la desviación típica y el coeficiente de variación. Se trata de un carácter cuantitativo discreto; esto es, una variable estadística discreta. DIAGRAMA DE BARRAS EN EXCEL El diagrama de barras de frecuencias absolutas se construye en EXCEL exactamente igual que el diagrama rectangular del carácter cualitativo de los ejercicios anteriores. Sólo hay que hacer una corrección en cuanto al ancho de las barras. Puesto que ahora no se trata de rectángulos, sino de barras con base un punto, la abscisa xi, lo más que nos permite Excel es estrechar los rectángulos aumentando la distancia entre los mismos. Para ello, una vez construido el diagrama rectangular, hacemos clic izquierdo sobre un rectángulo y a continuación clic derecho, apareciendo un cuadro de diálogo en el que seleccionaremos Formato de serie de datos. En Opciones, pondremos Ancho de rango al máximo: 500. Con esto conseguimos el efecto de barra. 14 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez Completando la tabla dada obtenemos: FUNCIÓN DE DISTRIBUCIÓN DE UNA V.A.D. EN EXCEL La obtención de la gráfica de la función de distribución acumulativa, N:R → R, definida por N(x)=”Número de individuos tales que X ≤ x” es más laboriosa. Sabemos que es una función constante a trozos: una función escalonada. En nuestro caso tiene ocho “peldaños”: Si x ∈ ]−∞, 1[ , si x ∈ [1, 2[ , si x ∈ [2, 3[ , si x ∈ [3, 4[ , si x ∈ [4, 5[ , si x ∈ [5, 6[ , si x ∈ [6, 7[ , si x ∈ [7, +∞[ , N(x) = 0 N(x) = N1 = 25 N(x) = N2 = 65 N(x) = N3 = 94 N(x) = N4 = 109 N(x) = N5 = 115 N(x) = N6 = 118 N(x) = N7 = 120 =N 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 15 Cada peldaño implica introducir los datos en series como se muestra a continuación. Podemos dibujar un trozo del primer peldaño como el segmento que une los puntos de coordenadas (-1, 0) y (1, 0) (1ª serie); el segundo peldaño es el segmento de extremos los puntos (1, 25) y (2, 25) (2ª serie); y así sucesivamente: Paso 1 Tipo de gráfico Una vez introducidos los datos como en las columnas A y B, seleccionamos en Gráfico, Tipo de gráfico XY (Dispersión) Con puntos de datos conectados por líneas 16 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez Paso 2 Datos del gráfico Serie: definir desde Serie1 hasta Serie8 como se indica 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 17 Paso 3 Opciones de gráfico Actuar sobre el siguiente cuadro para Títulos, Ejes, etc. Paso 4 Colocar el gráfico Como objeto en: Hoja activa y Finalizar Una vez construido el gráfico, haremos clic en cada peldaño para eliminar marcadores: 18 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 1 Si queremos enfatizar que los puntos de coordenadas (xi, Ni) pertenecen a la gráfica de N(x) y los puntos de coordenadas (xi, Ni-1) no pertenecen, podemos definir las series 9ª y 10ª, como se muestra a continuación. Y en Formato de series de datos, Tramas, ponemos en Línea Ninguna y en Marcadores seleccionamos el Estilo y Tamaño (esto también se puede hacer sin eliminar antes los marcadores y modificándolos uno a uno): 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 19 El resultado final es: 20 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 6 La distribución del peso, en Kg, de una muestra de 25 alumnos varones de un Instituto viene dada por la tabla: Ii ni a) b) c) d) e) ]←, 55] 2 ]55, 65] 4 ]65, 75] 11 ]75, 85] 5 ]85, →[ 3 N = 25 ¿De qué tipo es el carácter estadístico estudiado? Construir el histograma de frecuencias absolutas y el polígono de frecuencias. Definir y representar la función de distribución. Determinar la moda y los cuartiles. Calcular la media, la varianza, la desviación típica y el coeficiente de variación. Se trata de un carácter cuantitativo continuo; esto es, una variable estadística continua. Los datos están agrupados en intervalos o clases de igual amplitud (consideraremos las clases extremas con la misma amplitud que las adyacentes). Éstos son las modalidades o categorías. HISTOGRAMAS EN EXCEL (Amplitudes iguales) El histograma de frecuencias absolutas se construye en EXCEL exactamente igual que el diagrama rectangular del carácter cualitativo de los ejercicios anteriores. Sólo hay que hacer una corrección en cuanto al ancho de los rectángulos. Puesto que ahora no se trata de rectángulos separados, sino de rectángulos adyacentes, Excel nos permite ensanchar los rectángulos disminuyendo la distancia entre ellos. Para ello, una vez construido el diagrama rectangular, hacemos clic izquierdo sobre un rectángulo y a continuación clic derecho, apareciendo un cuadro de diálogo en el que seleccionaremos Formato de serie de datos. En Opciones, pondremos Ancho del rango al mínimo, 0. Con esto conseguimos el efecto deseado: Completando la tabla dada obtenemos: 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 21 FUNCIÓN DE DISTRIBUCIÓN DE UNA V.A.C. EN EXCEL La obtención de la gráfica de la función de distribución acumulativa, N:R → R, definida por N(x)=”Número de individuos tales que X ≤ x” se consigue fácilmente en Excel. Para nuestro ejercicio se tiene que: si x ∈ ]−∞, 45 ] , si x = 55 , si x = 65 , si x = 75 , si x = 85 , si x ∈ [95, +∞ [ , N(x) = 0 N(55) = N1 = 2 N(65) = N2 = 6 N(75) = N3 = 17 N(85) = N4 = 22 N(x) = N5 = 25 = N Lo anterior proporciona los únicos puntos “exactos” de la gráfica: los de los intervalos ]−∞, 45] y [95, +∞ [, de ordenadas 0 y N = 25, respectivamente, y los puntos 22 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez de coordenadas (55, 2), (65, 6), (75, 17) y (85, 22). En los puntos interiores de los intervalos ]45,55[, ]55,65[, ]65,75[, ]75,85[ y ]85,95[ se supone que la función se comporta linealmente. Esto nos lleva a introducir los datos en Excel como se indica a continuación. En Tipo de gráfico escogeremos XY(Dispersión) Con puntos de datos conectados por líneas Después de definir Rango de datos, etc., obtenemos el resultado siguiente: 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 23 24 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 7 La distribución de las edades de los alumnos de un Instituto viene dada por Ii ni a) b) c) d) e) ]11, 14] 130 ]14, 16] 260 ]16, 20] 190 N = 580 ¿De qué tipo es el carácter estadístico estudiado? Construir el histograma de frecuencias absolutas y el polígono de frecuencias. Definir y representar la función de distribución. Determinar la moda y los cuartiles. Calcular la media, la varianza, la desviación típica y el coeficiente de variación. Se trata de un carácter cuantitativo continuo; esto es, una variable estadística continua. Los datos están agrupados en intervalos o clases de distinta amplitud. Éstos son las modalidades o categorías. HISTOGRAMAS EN EXCEL (Amplitudes desiguales) Al ser ahora las amplitudes distintas, hay que hacer correcciones en las alturas de los rectángulos. Llamamos “densidad de frecuencia” del intervalo Ii al cociente hi = ni/ai de su frecuencias por su amplitud. Ésta ya podría ser la altura asignada al rectángulo correspondiente. No obstante, tomaremos por altura Hi = K · hi, con K=12/10. Con esto conseguimos que las áreas de los rectángulos sean proporcionales a las frecuencias correspondientes (además tenemos unas alturas “razonables”). Si procedemos como en el ejercicio anterior los tres rectángulos tendrían la misma base. Por eso, recurrimos al artificio de dividir el rectángulo de base 3 en tres rectángulos de base 1 y altura H1, el de base 2 en dos de base 1 y altura H2 y el de base 4 en cuatro de altura H3. Después se actúa como en el ejercicio anterior, eligiendo Columnas en Tipo de Gráfico y reduciendo a 0 la separación entre columnas. El rango de datos se introduce como se ve a continuación, a la vez que se muestra el resultado. La primera columna del rango de datos queda vacía, pero es necesaria. Ésta es normalmente la que contiene las modalidades. Para que aparezcan los valores del eje X, los extremos de los intervalos, usamos el cuadro de Título en el eje de categorías (X). Se muestran también media, varianza, etc. 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 25 FUNCIÓN DE DISTRIBUCIÓN DE UNA V.A.C. EN EXCEL (Amplitudes desiguales) La obtención de la gráfica de la función de distribución acumulativa, N:R → R, definida por N(x)=”Número de individuos tales que X ≤ x” se consigue fácilmente en Excel. Para nuestro ejercicio se tiene que: si x ∈ ]−∞, 11], si x = 14, si x = 16, si x ∈ [20, +∞[, 26 N(x) = 0 N(14) = N1 = 130 N(16) = N2 = 390 N(x) = N3 = 580 = N ESTADÍSTICA J. Sánchez - Mª. S. Sánchez Esto proporciona los únicos puntos “exactos” de la gráfica: los de los intervalos ]−∞,11] y [20,+∞ [, de ordenadas 0 y N = 580, respectivamente, y los puntos de coordenadas (14, 130), (16, 390) y (20, 580). En los puntos interiores de los intervalos ]11,14[, ]14,16[ y ]16,20[ se supone que la función se comporta linealmente. 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 27 8 En una zona de interés geológico del interior de la Tierra, se ha medido la temperatura máxima diaria durante 43 días, obteniendo la siguiente distribución: ºC [70, 75[ [75, 80[ [80, 85[ [85, 90[ [90, 95[ [95, 100[ ni 3 7 10 12 8 3 N = 43 Calcular: a) La temperatura más habitual. b) La temperatura media. c) La temperatura mediana. d) La temperatura máxima del 30% de las temperaturas más bajas. e) La temperatura mínima del 40% de las temperaturas más elevadas. f) La temperatura máxima y mínima del 50% central de las temperaturas. g) El número de días en que la temperatura es inferior a 92ºC. h) El número de días en que la temperatura es superior a 82ºC. i) El número de días en que la temperatura oscila entre 82ºC y 92ºC. j) El número de días en que la temperatura oscila entre 79ºC y 87ºC. k) La varianza, desviación típica y coeficiente de variación. a) La temperatura más habitual es la Moda. La moda pertenece al intervalo de mayor densidad de frecuencia, que es el de mayor altura en el histograma. En este caso, como todos los intervalos tienen la misma amplitud, dicho intervalo modal es el de mayor frecuencia: Mo ∈ [85, 90[. Mo = ei−1 + 28 Δ1 2 ⋅ a1 = 85 + ⋅ 5 = 85 + 1, 67 = 86 , 67 (º C ) Δ1 + Δ 2 2+4 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez b) La temperatura media es: X = ∑n x i N i = 3367 ,5 = 85,29 (º C ) 43 c) Para los apartados c) hasta j) será útil tener presente la gráfica de la función de distribución acumulativa, N:R → R. Puesto que los intervalos vienen dados cerrados por la izquierda y abiertos por la derecha, se define por N(x)=”Número de individuos tales que X < x” Puesto que N 43 = = 21,5 , el intervalo mediano es [85, 90[, y se adopta la 2 2 mediana por interpolación: Me = ei −1 N − N i −1 21,5 − 20 2 + ⋅ ai = 85 + ⋅ 5 = 85,63 (º C ) N i − N i −1 32 − 20 d) Para hallar la temperatura máxima del 30% de las temperaturas más bajas determinaremos el percentil 30. Puesto que 30 N 30 ⋅ 43 = = 12,9 , el intervalo 100 100 que lo contiene es [80, 85[, y se adopta P30 por interpolación: 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 29 P30 = ei −1 30 N − N i −1 12,9 − 10 + 100 ⋅ ai = 80 + ⋅ 5 = 81,45 (º C ) 20 − 10 N i − N i −1 e) La temperatura mínima del 40% de las temperaturas más elevadas viene dada por el percentil 60. Puesto que 60 N 60 ⋅ 43 = = 25,8 , el intervalo que lo 100 100 contiene es [85, 90[, y se adopta P60 por interpolación: P60 = ei −1 f) 60 N − N i −1 25,8 − 20 100 + ⋅ ai = 85 + ⋅ 5 = 87 ,42 (º C ) 32 − 20 N i − N i −1 Las temperaturas mínima y máxima del 50% central de las temperaturas vienen dadas por los cuartiles Q1 y Q3, respectivamente: N 43 = = 10,75 4 4 Q1 = ei −1 → Q1 ∈ [80,85[→ N − N i −1 10,75 − 10 4 + ⋅ ai = 80 + ⋅ 5 = 80,38 (º C ) N i − N i −1 20 − 10 3 N 3 ⋅ 43 = = 32,25 4 4 Q3 = e i − 1 → Q3 ∈ [90,95[→ 3N − N i −1 32,25 − 32 4 + ⋅ ai = 90 + ⋅ 5 = 90,10 (º C ) N i − N i −1 40 − 32 g) Determinar el número de días en que la temperatura es inferior a 92ºC es determinar el valor de N(92). En general, si x ∈ Ii = [ei-1, ei[, de amplitud ai y de frecuencia absoluta acumulada Ni, por semejanza de triángulos, se tiene que N − N i −1 N ( x ) − N i −1 N i − N i − 1 = ⇒ N ( x ) = N i −1 + i ⋅ ( x − ei − 1 ) ai x − ei − 1 ai En nuestro caso, 92 ∈ I5 = [90, 95[, luego 30 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 8 N (92) − 32 40 − 32 N (92) − 32 8 = ⇒ = ⇒ N (92) = 32 + ⋅ 2 = 32 + 3,2 = 35,2 (días ) 5 92 − 90 5 2 5 h) Para determinar el número de días en que la temperatura es superior a 82ºC, determinaremos primero N(82) como antes. En nuestro caso, 82 ∈ I5 = [80, 55[, luego 10 N (82) − 10 20 − 10 N (82) − 10 10 = ⇒ = ⇒ N (82) = 10 + ⋅ 2 = 10 + 4 = 14 (días ) 5 82 − 80 5 2 5 Entonces, el número de días en que la temperatura es superior a 82 es: 43 − N (82) = 43 − 14 = 29 (días) i) El número de días en que la temperatura oscila entre 82ºC y 92ºC es: N (92) − N (82) = 35,2 − 14 = 21,2 (días) j) El número de días en que la temperatura oscila entre 79ºC y 87ºC es N (87 ) − N (79) = 24,8 − 5,8 = 19 (días ) k) Para el cálculo de la varianza, desviación típica y coeficiente de variación emplearemos los datos obtenidos en la tabla 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 31 σ 2 ∑n x = i N 2 i 2 314718,75 ⎛ 3367,5 ⎞ − (X ) = −⎜ ⎟ = 44,66 43 ⎝ 43 ⎠ 2 σ = + 44,66 = 6,68 C.V . = σ X = 6,68 = 0,0783 85,29 La desviación típica es el 7,83% de la media; la distribución es bastante homogénea y la media es muy representativa. 32 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 9 Un grupo de investigación trabaja en tres yacimientos de hierro. Se desea estudiar la calidad del mineral extraído a partir de la siguiente información: Yacimiento A B C Núm. de muestras 20 25 55 Riqueza media en Fe (%) 70 78 80 Varianza 6’2 24’4 7’3 a) ¿Qué yacimiento presenta mayor homogeneidad en cuanto a la riqueza del mineral extraído? b) Calcular la riqueza media para el total de las muestras extraídas. Completando la tabla con los elementos necesarios, se tiene a) Comparando los coeficientes de variación de Pearson, se tiene C.V.(C)< C.V.(A)< C.V.(B); es decir, el yacimiento C es el más homogéneo (su media es más representativa). b) La riqueza media global es : X = ∑n x i N i = 7750 = 77 ,50 . 100 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 33 10 El resultado de medir la viscosidad de 20 fluidos se recoge en la tabla: Viscosidad Núm. de fluidos 0−2 7 2−4 8 4−7 5 Calcular: a) La viscosidad media. b) La viscosidad más frecuente. Representar el histograma. c) La viscosidad mediana. d) ¿Qué tanto por ciento de fluidos presentan una viscosidad mayor que 5? a) La viscosidad media es: X = ∑n x i N i = 58,5 = 2,925 20 b) La viscosidad más frecuente es la Moda. La moda pertenece al intervalo de mayor densidad de frecuencia, que es el de mayor altura en el histograma; esto es, el de mayor altura (que no tiene por qué coincidir con el de mayor frecuencia): Mo ∈ ]2, 4]. Mo = ei −1 + 34 Δ1 3 ⋅ a1 = 2 + ⋅ 2 = 2 + 0,35 = 2,35 Δ1 + Δ 2 3 + 14 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez c) Para determinar la viscosidad mediana y para el apartado siguiente es útil tener presente la gráfica de la función de distribución acumulativa, N:R → R. Puesto que los intervalos vienen dados abiertos por la izquierda y cerrados por la derecha, se define por N(x)=”Número de individuos tales que X ≤ x” N 20 = = 10 , el intervalo mediano es ]2, 4], y se adopta la mediana 2 2 N − N i −1 10 − 7 2 ⋅ ai = 2 + ⋅ 2 = 2,75 por interpolación: Me = ei −1 + N i − N i −1 15 − 7 d) Se tiene que N( 5 ) = " Núm. indiv. tales que X ≤ 5" . Por interpolación (como en Puesto que el apartado g) del ejercicio anterior), N( 5 ) − N 2 N 3 − N 2 N( 5 ) − 15 5 = ⇒ = ⇒ N( 5 ) = 15 + 1,67 = 16 ,67 5 − e2 a3 1 3 Número de días = 20 − 16 ,67 = 3,33 3,33 Porcentaje = = 0,1667 = 16 ,67% 20 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 35 11 El número de goles marcados por dos equipos rivales en cada uno de los 16 partidos de un campeonato de fútbol fueron: Equipo A: Equipo B: a) b) c) d) ¿Qué equipo obtuvo mejor media de goles? Calcular la moda de ambas distribuciones. ¿Qué equipo jugó con mayor regularidad? Dibujar un diagrama Box−Whisker para cada distribución y compararlas. xi 0 1 2 3 4 5 a) 2, 1, 0, 3, 1, 4, 2, 3, 3, 5, 1, 0, 0, 2, 1, 5. 3, 5, 1, 2, 1, 0, 0, 4, 1, 1, 1, 2, 3, 4, 5, 2. XA = Equipo A ni ni xi ni xi2 3 0 0 4 4 4 3 6 12 3 9 27 1 4 16 2 10 50 N=16 33 109 Ni 3 7 10 13 14 16 33 = 2,0625 16 xi 0 1 2 3 4 5 XB = b) Mo(A) = 1 ni 2 5 3 2 2 2 N=16 Equipo B ni xi ni xi2 0 0 5 5 6 12 6 18 8 32 10 50 35 117 35 = 2,1875 16 Ni 2 7 10 12 14 16 XA < XB Mo(B) = 1 σ 109 ⎛ 33 ⎞ − ⎜ ⎟ = 2,5585 → σ A = 1,6 → CV A = A = 0,78 = 78% 16 ⎝ 16 ⎠ XA 2 c) σ A = 2 σ 117 ⎛ 35 ⎞ = − ⎜ ⎟ = 2,5273 → σ B = 1,59 → CV B = B = 0,73 = 73% 16 ⎝ 16 ⎠ XB 2 σB 2 A la vista de los coeficientes de variación, los dos equipos han sido muy irregulares. d) Los elementos del diagrama Box-Whisker son A B 36 Q1 1 1 Q2=Me 2 2 Q3 3 3,5 RIQ 2 2,5 FE 3 3,75 ESTADÍSTICA f1 -2 -2,75 f2 6 7,25 VAI 0 0 VAS 5 5 J. Sánchez - Mª. S. Sánchez 12 Un curso está dividido en cuatro grupos de los que tenemos la siguiente información respecto a las calificaciones en Filosofía: Grupo A Núm. de alumnos nA = 30 Nota media X A = 6’0 Varianza 1’00 B nB = 40 XB = 6’5 1’69 C nC = 50 X C = 5’0 0’81 D nD = 60 180 XD = 4’0 0’64 a) Calcular la nota media del curso completo. b) Calcular el coeficiente de variación de cada grupo. c) Ordenar los grupos según la homogeneidad en las calificaciones. Completando la tabla con las columnas necesarias, tenemos: a) La nota media del curso completo es: X = ∑n x i N i = 930 = 5,17 180 b) Ver tabla. c) CV ( A) < CV (C ) < CV ( B ) = CV ( D ) 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 37 13 Mediante una encuesta por muestreo en cuatro fincas agrícolas se obtienen los siguientes datos relativos a sus producciones de trigo, en Tm, y los correspondientes rendimientos, en Tm/Ha. Calcular un promedio adecuado de los rendimientos. Finca A B C D Producción (Tm) 200 500 1000 700 Rendimientos (Tm/Ha) 20 15 32 27 Completamos la tabla del modo siguiente: Si el rendimiento de la finca i-ésima es de xi Tm/Ha, para producir 1 Tm se requieren 1/xi Ha; si ha producido ni Tm, su extensión será de ni·(1/xi ) Ha. Entonces, la extensión global de las cuatro fincas será igual a la producción total, N = 2400, por N⋅ ∑n i ⋅ 1 . Asimismo, la extensión total es xi 1 . En definitiva: R. Promedio 1 1 = ∑ ni ⋅ R. Promedio xi O sea, el rendimiento promedio es la media armónica de los rendimientos, ponderados por las producciones: R. Prom. = H = 38 N ∑n i ⋅ 1 xi = 2400 = 23,88 (Tm / Ha) 1 1 1 1 + 500 ⋅ + 1000 ⋅ + 700 ⋅ 200 ⋅ 20 15 32 27 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 14 Un jugador de bolsa compra 15000 € de acciones al precio de 250 €/acción, y 8000 € de acciones al precio de 50 €/acción. ¿Cuál es el precio medio de las acciones que ha comprado? Organicemos los datos en una tabla: Gasto (€) ni 15000 8000 N=23000 Precio unitario (€/Acción) xi 250 50 Precio promedio Acciones/€ 1/xi 1/250 1/50 1/Promedio Acciones ni·(1/ xi) 15000·(1/250) 8000·(1/50) N·(1/Promedio) Si 1 acción cuesta xi euros, por 1 euro se pueden comprar 1/xi acciones, y por ni euros se podrán comprar ni·(1/ xi) . Entonces, por N euros a 1/Promedio acciones por euro, se pueden comprar N·(1/Promedio) acciones. Así: N⋅ 1 1 = ∑ ni ⋅ Promedio xi O sea, el precio promedio es la media armónica de los precios unitarios, ponderados por los gastos: Prom. = H = N ∑n i ⋅ 1 xi = 23000 23000 = = 104,55 (€ / Acción) 1 1 220 15000 ⋅ + 8000 ⋅ 250 50 15 Se recorre el 80% de un trayecto a una velocidad media de 60 Km/h, y el 20% restante a una velocidad media de 20 Km/h. ¿Cuál es la velocidad media en el recorrido total? Espacio (Km) ni 80 20 N=100 Velocidad (Km/h) xi 60 20 Velocidad media Tiempo por Km (h/Km) 1/xi 1/60 1/20 1/V. media Tiempo (h) ni·(1/ xi) 80·(1/60) 20·(1/20) N·(1/V. media) También aquí la velocidad media es la media armónica de las velocidades medias, ponderadas por los espacios: V . media = H = Espacio = Tiempo N 1 ∑ ni ⋅ x i = 100 1 1 80 ⋅ + 20 ⋅ 60 20 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES = 42,86 (km / h) 39 16 “El lado de un cuadrado que tiene igual área que el rectángulo de lados a y b es la media aritmética de los lados”. ¿Verdadero o falso? FALSO: El área de un rectángulo de lados a y b es AR = a·b. El área de un cuadrado de lado x es AC = x2. Si ambas áreas son iguales, entonces x2 = a·b, y x es la media geométrica de a y b: x = G = a ⋅b 17 El precio de un determinado artículo subió cada uno de los años 1990, 1991 y 1992 un 5%, durante cada uno de los años 1993 y 1994 subió un 8%, y durante cada uno de los años 1995, 1996, 1997, 1998 y 1999 subió un 10%. ¿Cuál es el porcentaje medio de subida en el decenio? Si x es el precio del bien a principio de 1990, al final de este año su precio será 1,05·x, y al final de 1992 será (1,05)3·x. A final de 1994 será de (1,05)3·(1,08)2 x y a final de 1999 será (1,05)3·(1,08)2·(1,10)5·x. Si llamamos P al porcentaje medio por año (y p = P/100 al tanto por 1 medio), al final de 1999 el bien costará (1+p)10·x. Entonces: (1+p)10·x = (1,05)3·(1,08)2·(1,10)5·x ⇒ 1+p = 10 (1,05)3 ⋅ (1,08 ) 2 ⋅ (1,10 ) 5 ≈ 1,0808 luego p = 0,0808 el porcentaje promedio es del P = 8,08%. El modo más adecuado de efectuar los cálculos anteriores consiste en emplear logaritmos: 1 + p = 10 (1,05)3 ⋅ (1,08) 2 ⋅ (1,10) 5 ⇒ ln(1 + p) = 3 ln(1,05) + 2 ln(1,08) + 5 ln(1,10 ) 10 Es decir, ln(1+p) es la media aritmética de ln(1+pi), ponderada por el número de años. Resulta p = 0,0808, luego el porcentaje promedio es P = 100·p = 8,08 %. 40 ESTADÍSTICA J. Sánchez - Mª. S. Sánchez 18 Una balanza tiene sus dos brazos de longitudes desiguales: a y L− a. Un objeto de masa M se coloca en uno de los platos y, para equilibrar la balanza, hay que colocar pesas de masa m1 (≠ M) en el otro. Se repite la operación cambiando M de plato; entonces son necesarias pesas de masa m2 (≠ M) para alcanzar el equilibrio. ¿Cuál es la masa real del objeto? Para que se dé el equilibrio, se han de cumplir las igualdades de la figura. Dividiendo miembro a miembro, se tiene: M ·a m1 ·( L − a ) = ⇒ m2 ·a M ·( L − a ) M m1 = m2 M ⇒ M 2 = m1 ·m2 Esto es, M es la media geométrica de m1 y m2: M = m1 ·m2 1−EPR−VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 41