¿Recuerdas qué es…? Intervalo El intervalo semiabierto por la derecha [a, b) es el conjunto de todos los números reales mayores o iguales que a y menores que b. [a, b) = {x R| a ≤ x < b} Sector circular y ángulo central Un sector circular es la porción de círculo comprendido entre dos radios, y queda determinado por el ángulo que forman estos radios. Este ángulo se llama central. Estudio estadístico y variable estadística Se hace un estudio estadístico cuando se quiere obtener información sobre algún tema relacionado con un grupo de elementos similares. La información se obtiene a partir de una pregunta llamada variable estadística. Parámetros estadísticos Son valores que sintetizan la información contenida en una variable estadística. Algunos de ellos son la media, la mediana, la moda, la desviación típica, etcétera. 11 TÍTULAR (PUEDE SER DE DOS LÍNEAS) ESTADÍSTICA La Estadística, o «ciencia del Estado», se Texto deen introducción (ajustar la manchade de empleó su origen para la descripción color alResulta texto). lógico Un libro delos recetas de quieran cocina datos. que Estados indica que, para lacaracterísticas elaboración dedeuna estudiar distintas lastarta de manzana ypara personas se necesitan poblaciones sus 4 recursos. los siguientes ingredientes: 200 g de masa, 6 manzanas reineta, g de azúcar, cuEl primer objetivo de150 la Estadística es3hallar charadas de mermelada de albaricoque y procedimientos para representar y sintetizar 200 g de cremaproporcionada pastelera. Si lopor queciertos se desea la información es hacer tarta para 8 personas, es lógico datos. Launa rama denominada Estadística suponer quese laencarga cantidaddenecesaria de cada descriptiva este objetivo. uno de los ingredientes es el doble de la indicada para una tarta de 4 personas. Pero Posteriormente, la Estadística abordó unsi se quiere que la tarta de cinco, realizar seis o siete objetivo mucho mássea ambicioso: raciones, ¿cuál seríasobre la cantidad necesaria predicciones fiables la población departir cada de ingrediente? a una muestra extraída. De ello se encarga la llamada Estadística inferencial. En esta Unidad, vas a ver cómo puedes calcular la cantidad detécnicas cada uno los ingreEl desarrollo de las dede análisis dientes para permite hacer una tarta convariables las raciones de muestras relacionar que desees a partir de la receta dada. físicas y sociales, incluso antes de encontrar el principio que explica su relación. Los objetivos (Objetivos o contenidos) de esta Unidad son: Los objetivos de esta Unidad son: • Dominar los conceptos elementales deQue la Estadística descriptiva. © aprendas a determinar la constante de proporcionalidad. • Aplicar las técnicas y cálculos estadísticos a un conjunto de datos. 00. La Tierra A. Los movimientos de la Tierra 11 1 NOCIONES DE ESTADÍSTICA Supón, a modo de ejemplo, que deseamos estimar el tiempo que puede sobrevivir una determinada especie vegetal sin ser regada. No parece razonable dejar sin agua a todas las plantas de esa especie, pero sí se puede seleccionar un grupo de éstas y someterlas a esta prueba. Pues bien, el conjunto de todas las plantas de esa especie se denomina población, y el grupo de plantas que se somete a la prueba se denomina muestra. Del estudio de la muestra se pretende obtener conclusiones referidas al total de la población. Población es un conjunto de elementos que, por un motivo u otro, estamos interesados en estudiar. Individuo es cada uno de los elementos de la población. Muestra es una parte de la población. La Estadística es la ciencia que, mediante el uso de modelos matemáticos, organiza datos asociados a una cierta población y permite obtener conclusiones a partir de muestras. Reflexiona Otros aspectos asociados a distintas poblaciones son, por ejemplo, «el número de horas que entrenan unos deportistas» o «la profesión de los integrantes de un club de ajedrez». Ten en cuenta En la práctica, los términos carácter y variable se emplean como si fueran equivalentes. Así, hablamos de variables cualitativas y cuantitativas. WEB http://descartes.cnice.mec. es/materiales_didacticos/ iniciacion_estadististica_ fjgarcia/01VariablesEstadisticas. htm En esta página de F. J. García aparecen distintos tipos de variables que hay que identificar, pudiéndose comprobar la respuesta. En una población determinada se pueden estudiar distintos aspectos. Así, en el ejemplo que abre esta sección, el aspecto que estudiamos es «tiempo de vida de una planta sin ser regada». Los distintos aspectos o rasgos de una población se llaman caracteres estadísticos, o simplemente caracteres. Un carácter es cualitativo si toma valores no numéricos. Por ejemplo, el «lugar de nacimiento» es un carácter cualitativo, pues los valores que toma, Madrid, Segovia, Badajoz…, no son numéricos. Los valores que toma un carácter cualitativo reciben el nombre particular de modalidades. Un carácter es cuantitativo si toma valores numéricos. Así, «la edad de una persona» que toma valores como 5 años, 6 años, 30 años…, es un carácter cuantitativo. El conjunto de valores que toma un carácter estadístico se denomina variable estadística, o, si no hay confusión, variable. Una variable cuantitativa es discreta si los valores que toma son aislados. Por ejemplo, «el número de hermanos» o «el número de páginas de un libro». Si la variable puede tomar todos los valores de un intervalo, se denomina continua. Son variables continuas «la talla», «el peso» o «el tiempo que tarda un corredor en concluir una maratón». Ejercicios 202 1 Pon dos ejemplos de carácter estadístico cualitativo y dos de carácter estadístico cuantitativo. 3 Pon dos ejemplos de variable discreta, e indica los valores aislados que pueden tomar. 2 A unos alumnos se les pregunta por el deporte que practican. ¿Es un carácter cuantitativo? 4 Piensa en dos ejemplos de variable continua, e indica los valores que pueden tomar. 2 TABLAS DE FRECUENCIAS Definición El primer problema de la Estadística es la ordenación y tabulación de los datos obtenidos en ciertas observaciones para extraer conclusiones sobre las características de una población. Las tablas de frecuencia de una variable estadística permiten ordenar los datos estadísticos y proporcionar una lectura clara de los mismos. Distinguiremos dos tipos de tablas. A El conjunto de datos obtenidos en un estudio estadístico se llama distribución de datos. Definición VARIABLES DISCRETAS El símbolo , que no es más que la letra griega sigma, en matemáticas se llama sumatorio y sirve para escribir de manera abreviada sumas. Así, la expresión x1 + x2 + ... + x n se Supongamos una variable discreta que toma los valores x1, x2, ..., xi, ... Asociados a estos datos, definimos: — Frecuencia absoluta del valor xi: es el número de veces que se repite el valor xi. Se representa como fi. n n fi . — Tamaño de la población: es N = f1 + f2 + ... + fn = fi . abrevia como i=1 i=1 — Frecuencia relativa hi del valor xi: es el cociente entre la frecuencia f absoluta y el tamaño de la población o de la muestra, esto es, hi = i . N — Porcentaje del valor xi es el tanto por ciento de aparición del valor xi. Se representa como pi, y se calcula con la expresión pi = 100 · hi. Ten en cuenta En el Ejemplo 1, el dato 0 aparece 2 veces, por lo que su frecuencia es f1 = 2. Igualmente con el resto de datos. Con lo anterior, se construye la denominada tabla de frecuencias. Ejemplo 1 A un grupo de 20 socios de una biblioteca se les ha preguntado sobre el número de libros que han leído el mes pasado. Las respuestas son las siguientes: 4, 2, 1, 0, 3, 1, 4, 2, 0, 2, 1, 1, 2, 1, 2, 4, 3, 4, 1, 2. El tamaño de la población es N = 20, y la tabla de frecuencias queda así: xi 0 1 2 3 4 Total fi 2 6 6 2 4 N = 20 hi 2/20 = 0,1 6/20 = 0,3 6/20 = 0,3 2/20 = 0,1 4/20 = 0,2 1 pi 10% 30% 30% 10% 20% 100% Ejercicios 5 Construye la tabla de frecuencias de las siguientes distribuciones de datos, señalando situaciones reales a las que se puedan asociar: a) 4, 3, 2, 2, 0, 1, 4, 1, 1, 3, 0, 0, 0, 4, 5. b) 18, 23, 22, 19, 23, 23, 24, 21, 23, 19, 18, 23, 23, 24, 23, 22, 23, 21. 6 Copia en tu cuaderno y completa la tabla de frecuencias de las edades de los miembros de un club de ajedrez: xi 9 10 11 Total fi hi 0,15 pi 9 40 % 20 203 11 B VARIABLES CONTINUAS Si la variable es continua, o el número de valores distintos de la variable es muy elevado, conviene elaborar una tabla de frecuencias agrupando los datos en intervalos o clases. Ten en cuenta El punto medio de cada clase se denomina marca de clase y se designa como xi. Los intervalos suelen ser del mismo tamaño, aunque no siempre es así. Una vez distribuidos los datos en intervalos y calculadas las marcas de clase, el modo de proceder es análogo al de las variables discretas, sustituyendo la totalidad del intervalo por su marca de clase. Ten en cuenta Ejemplo 2 A modo de ejemplo, la marca de clase de [10,15) es: 10+15 = 12,5 2 Una fábrica elabora varillas de hierro de diferentes longitudes. La longitud, en milímetros, de 30 de ellas es la siguiente: WEB http://descartes.cnice.mec. es/materiales_didacticos/ Recuento_y_agrupacion_datos/ organizacion_datos.htm Página de J.A. González que permite la visualización de la construcción paso a paso de una tabla de frecuencias finalizando con el cálculo de la media. 15 12 11 14 24 17 10 6 10 23 10 15 17 18 19 16 12 23 12 19 24 18 12 13 24 8 21 15 11 14 Se trata de una distribución de variable continua. El dato menor es 6 mm y el mayor es 24 mm, por lo que podemos formar estas cuatro clases: [5, 10), [10, 15), [15, 20) y [20, 25). Efectuando el recuento de los datos y agrupándolos en estas clases, se elabora la tabla de frecuencias: Clases http://descartes.cnice. mec.es/materiales_ didacticos/iniciacion_ estadististica_fjgarcia/ 02TablasDeFrecuencias.htm Esta página de F. J. García permite construir tablas de frecuencia de variable discreta controlando el tamaño de los intervalos. [5, 10) [10, 15) [15, 20) [20, 25) Total Marca de clase x1 7,5 12,5 17,5 22,5 fi hi pi 2 12 10 6 N = 30 2/30 12/30 10/30 6/30 1 6,66 % 40 % 33,33 % 20 % 100 % Ejercicios 7 El número de personas que acudieron a un servicio médico a lo largo del último mes es: 24 23 28 41 22 22 26 35 32 22 25 26 30 43 27 28 41 34 29 27 21 40 24 29 31 35 32 38 43 40 Agrupa los datos anteriores en intervalos de amplitud 5 y elabora la tabla de frecuencias de esta distribución. 204 8 Copia y completa en tu cuaderno la siguiente tabla de frecuencias: Clases [0, 10) [10, 15) [15, 20) [20, 25) [25, 30) Total Marca x1 f1 h1 10 0,20 pi 30 % 5 2 N = 50 4% 3 PARÁMETROS ESTADÍSTICOS Los parámetros estadísticos son un pequeño número de valores que resumen la información de una variable estadística. Se dividen en parámetros de centralización (los datos se agrupan en torno a éstos) y parámetros de dispersión (informan sobre la intensidad con que se agrupan los datos en torno a los valores centrales). A Vocabulario Parámetros de centralización: Media, moda, mediana, cuartiles, percentiles… Parámetros de dispersión: Varianza, desviación típica y coeficiente de variación. MEDIA, VARIANZA Y DESVIACIÓN TÍPICA Considera una variable estadística X, de tamaño N, con la tabla de frecuencias del margen. Los valores x1, x2, xi, ... xn son los valores de la variable, si ésta es discreta, o las marcas de clase, si es continua. La media aritmética de X es: n f x + f x + … + fnxn = x– = 1 1 2 2 f1 + f2 + … + fn n fi xi fi xi i=1 n = fi i=1 N xi x1 x2 · · xn Total fi f1 f2 · · fn N i=1 CD La media aritmética (o por simplicidad, la media) es un valor en torno al cual se concentra la distribución, y se mide en las mismas unidades que los datos. En la pestaña Actividades/ Unidad 11, encontrarás la actividad Relación 2 unidad 11, para calcular la media. Ejemplo 3 En la distribución del margen se ha añadido una columna con los valores de los productos fixi, lo que facilita el cálculo de la n 26 1,73... media. Como N = 15 y fi xi = 26, la media es x– = 15 i=1 n La varianza de X es Var = 2 = –2 fi (xi – x) i=1 = N La desviación típica de X es = Var ≥ 0. n fi xi2 i=1 N xi 0 1 2 3 4 Total fi 2 5 5 1 2 N = 15 fi xi 0 5 10 3 8 26 – x– 2 ≥ 0 La varianza se mide en unidades cuadradas, mientras que la desviación típica lo hace en las mismas unidades que los datos. Ejemplo 4 A partir de la distribución del ejemplo 3, multiplicando la columna xi por la columna fixi obtenemos fi xi2, lo que nos permite calcular: n Var = i=1 f i xi 2 N – x– 2 = = Var = 66 26 – 15 15 2 1,3955... xi 0 1 2 3 4 Total fi 2 5 5 1 2 N = 15 fi xi 0 5 10 3 8 26 fi xi2 0 5 20 9 32 66 1,3955... = 1,1813... 205 11 B COEFICIENTE DE VARIACIÓN La desviación típica representa una medida de la dispersión de los datos respecto a la media. Ahora bien, como media y desviación típica tienen unidades, el que la desviación sea «grande» o «pequeña» es poco relevante si se desconoce lo «grande» o «pequeña» que es la media. En particular, la desviación típica por sí sola no permite comparar grados de dispersión de dos distribuciones de datos. Para resolver este problema, se define el coeficiente de variación (o de dispersión). Ten en cuenta El coeficiente de variación es una magnitud sin unidades y representa una medida relativa de la dispersión. El coeficiente de variación CV de una variable X es el cociente entre la desviación típica y la media. Es decir, CV = – . x Ejemplo 5 Dos vendedores de enciclopedias efectúan, durante la última semana, las ventas siguientes: Vendedor A 4, 3, 8, 0, 4, 6, 8 Vendedor B 4, 6, 4, 2, 1, 6, 6 Para decidir cuál de los dos es más regular en las ventas se calculan los respectivos coeficientes de variación. La media, la desviación típica y el coeficiente de variación de A son: 33 x–A = , 7 A = CVA = –A xA 205 33 – 7 7 2,66 4,714 Ventas xi 0 3 4 6 8 Total fi 1 1 2 1 2 N=7 Vendedor A fi xi fi xi2 0 0 3 9 8 32 6 36 16 128 33 205 2 2,66 0,56 = 56 % La media, la desviación típica y el coeficiente de variación de B son: 145 29 2 – 1,88 7 7 1,88 0,45 = 45 % CVB = –B 4,14 xB Como el coeficiente de variación CVB es menor que CVA , se puede concluir que el vendedor B es más regular que el vendedor A en la venta de enciclopedias. 29 x–B = , 7 B = Ventas xi 1 2 4 6 Total Vendedor B fi xi fi xi2 fi 1 1 1 1 2 4 2 8 32 3 18 108 N=7 29 145 Ejercicios 9 Calcula la media, la varianza, la desviación típica y el coeficiente de variación de las distribuciones asociadas a los ejercicios 7 y 8. 10 Estudia la variable estadística continua «talla en centímetros», aplicada a dos grupos distintos de tu clase, y calcula la media, la varianza, la desviación típica y el coeficiente de variación. Decide en cuál de los dos grupos es mayor la dispersión en la talla. 206 11 Halla la media, la desviación típica y el coeficiente de variación de estas distribuciones: a) 27, 22, 29, 30, 21, 22, 27, 18, 23, 26, 33, 35, 20, 26, 29. b) 26, 21, 27, 31, 19, 24, 26, 19, 20, 24, 31, 32, 18, 23, 30. ¿Cuál de las dos distribuciones tiene mayor grado de dispersión? C MEDIANA Y MODA Estudiamos en esta sección la mediana y la moda. Para definir y calcular la mediana es necesario el concepto de frecuencia absoluta acumulada. En una tabla de frecuencias, la frecuencia acumulada asociada a xi, representada como Fi, es la suma Fi = f1 + f2 + … + fi. El valor de Fi es la suma de las frecuencias absolutas de x1, x2, … y xi. Ten en cuenta Fn = N Ejemplo 6 Consideremos la siguiente tabla de frecuencias a la que se añade la columna de frecuencias absolutas acumuladas: xi 0 1 2 3 4 fi 3 2 3 1 1 Fi 3 3+2=5 5+3=8 8+1=9 9 + 1 = 10 Reflexiona Podemos abordar ya la definición de mediana de una distribución de datos. Supongamos que el número de datos es pequeño. Tras ordenar los datos en orden creciente, la mediana Me es el dato que ocupa la posición central. En el caso en que el número de datos sea par, la mediana Me es la media de los dos valores centrales. Para definir la mediana, es imprescindible que los datos de la distribución aparezcan ordenados. Hecho esto, la mediana deja el 50 % de la población antes de ella, y detrás, el otro 50 %. Ejemplo 7 La distribución (ordenada) 1, 3, 5, 7, 10 tiene 5 datos. La mediana es el dato que ocupa la posición tercera. Esto es, Me = 5. La distribución 9, 10, 12, 15, 15, 16, 19, 24, 30, 45 consta de 10 datos. Los datos centrales, en las posiciones quinta y sexta, son 15 y 16. Por tanto, la mediana es: 15 + 16 Me = = 15,5 2 Ejemplo 8 En la tabla de frecuencias del margen, el número de datos es N = 22, que es un número par. Como la mitad del tamaño de la N población es = 11, las posiciones centrales son la 11.ª y 12.ª, y 2 como ambas están asociadas al valor xi = 1, la mediana es: 1+1 =1 Me = 2 xi 0 1 2 3 4 fi 9 7 4 1 1 Fi 9 9 + 7 = 16 16 + 4 = 20 20 + 1 = 21 21 + 1 = 22 Ejercicios 12 Calcula la mediana de las distribuciones del ejercicio 11. 13 Halla la media, la mediana y la desviación típica de la distribución: 3, 5, 2, 4, 6, 6, 4, 3, 5, 7, 4. 207 11 Supongamos ahora que los datos se agrupan en intervalos. Denominamos clase mediana al primer intervalo cuya frecuencia absoluta acumulada es mayor o igual que la mitad del tamaño de la población. Designamos Fi a esta frecuencia absoluta acumulada, y xi a la marca de la clase mediana. Existen dos posibilidades: Ten en cuenta De este mismo modo, se puede calcular la mediana de una distribución de variable discreta con los datos presentados en una tabla de frecuencias. Altura [0, 20) [20, 40) [40, 60) [60, 80) xi 10 30 50 70 fi 12 16 20 4 Fi 12 28 48 52 N , entonces la mediana es Me = xi. 2 N x +x — Si Fi = , entonces la mediana es Me = i i + 1 . 2 2 — Si Fi > Ejemplo 9 La tabla del margen proporciona la altura, en centímetros, de las plantas de un invernadero. N = 26, por lo que la clase mediana La mitad de la población es 2 N . es [20, 40), con Fi = 28 > 2 La mediana es la marca de clase de [20, 40), esto es, Me = 30 cm. Otro parámetro que puede calcularse es la moda. A la vista de la tabla del ejemplo anterior, se observa que la clase con mayor frecuencia absoluta es [40, 60). Esta clase se denomina clase modal. La marca de la clase modal se denomina moda. Así pues, la moda de esta distribución de alturas es M0 = 50 cm. Si la distribución de datos no necesita agrupación por intervalos (variables discretas con pocos valores), la moda M0 es el valor (o valores) de la variable con mayor frecuencia absoluta. Ejemplo 10 xi 0 1 2 3 4 fi 3 2 3 1 1 N = 10 Fi 3 5 8 9 10 Consideramos la distribución: 0, 1, 3, 0, 2, 1, 0, 2, 4, 2. Al elaborar la tabla de frecuencias, situada al margen, se observa que los valores 0 y 2 tienen frecuencia 3, que es la mayor de todas. Por tanto, la distribución tiene dos modas: M0 = 0 y M0 = 2. N Respecto a la mediana, teniendo en cuenta que = 5 coincide 2 con la frecuencia absoluta acumulada F2 de x2 = 1, se sigue que: Me = x2 + x3 1+2 = 1,5 = 2 2 Ejercicios 208 14 Halla la mediana y la moda de las distribuciones de los ejercicios 7 y 8. 16 Halla la mediana y la moda de las distribuciones A y B asociadas al ejemplo 5. 15 Calcula la media, la mediana y la moda de la distribución: 3, 7, 5, 4, 3, 3, 6, 8, 10, 9. 17 Inventa una distribución de datos con mediana 2 y moda 3. D CUARTILES Y CENTILES Anteriormente se ha comentado que, tras ordenar los datos, la mediana divide éstos es dos partes iguales, dejando a su izquierda la mitad de los datos. Si en vez de dividir la distribución en dos partes iguales, lo hacemos en cuatro partes iguales, los tres puntos de separación asociados se denominan cuartiles y se representan por Q1, Q2 y Q3. — El primer cuartil, Q1, deja a su izquierda la cuarta parte de la distribución, es decir, el 25 %. — El segundo cuartil, Q2, deja a su izquierda la mitad de la distribución y, por tanto, coincide con la mediana, es decir, Q2 = Me. — El tercer cuartil, Q3, deja a su izquierda tres cuartas partes de la distribución, es decir, el 75 %. De la misma forma, si deseamos dividir una distribución en 100 partes iguales, aparecen 99 puntos de separación denominados centiles o percentiles. El percentil de orden k, representado como pk, deja a su izquierda k centésimas partes de la distribución. Se verifica: p25 = Q1, p50 = Q2 = Me y p75 = Q3. Ejemplo 11 Consideramos la distribución definida por la tabla del margen. Vamos a calcular Q1, Q 2, Q 3 y P 7, 31 = 7,75. 4 El primer valor cuya frecuencia absoluta acumulada supera la cuarta parte de los datos es 3. Luego Q1 = 3. La cuarta parte de los datos es La mitad de los datos es 15,5, de donde se desprende que la mediana es Me = Q 2 = 4. 31 = 23,25, Por último, las tres cuartas partes de los datos son 3 · 4 por lo que se tiene Q 3 = 6. Veamos ahora cómo calcular, a modo de muestra, el percentil p7. Siete centésimas partes de los datos son 7 % de 31 = 2,17. El primer valor cuya frecuencia absoluta acumulada supera 2,17 es 2. Por tanto, p7 = 2. En el caso de las distribuciones con datos agrupados en intervalos, los cuartiles se calculan de modo totalmente análogo a como se hace con la mediana. Por ejemplo, para calcular Q1 se busca el primer intervalo cuya frecuencia absoluta acumulada supera la cuarta parte de los datos. Hallado éste, se identifica Q1 con su marca de clase. Análogamente, se repite el mismo proceso para Q3. Clase 1 2 3 4 5 6 7 Total fi 1 2 5 10 4 6 3 31 Fi 1 3 8 18 22 28 31 Ten en cuenta En realidad, los cuartiles y percentiles así calculados son sólo aproximados. El cálculo exacto es algo más complejo. WEB http://www.aulademate.com/ contentid-255.html Página interactiva, al introducir los valores de la variable y sus frecuencias, el programa construye una tabla y calcula los parámetros estadísticos. Ejercicios 18 Halla los cuartiles Q1 y Q3 para las distribuciones de los ejercicios 7 y 8. 19 Halla los percentiles p65 y p93 para la distribución del ejemplo 11. 209 11 GRÁFICOS ESTADÍSTICOS 4 Los gráficos son formas sencillas de representar las frecuencias absolutas y relativas de una distribución de datos asociada a cierto estudio estadístico. Según sea la variable que vamos a estudiar, se emplea uno u otro tipo de gráficos. A 11 DIAGRAMA DE BARRAS Los diagramas de barras se emplean, generalmente, para variables cuantitativas con pocos valores diferentes. En unos ejes de coordenadas, señalamos los valores de la variable en el eje de abscisas. Tras esto, sobre cada valor de la variable se levanta una barra cuya altura sea la frecuencia (absoluta o relativa, según proceda) correspondiente. Frecuencia 10 Ejemplo 12 9 8 Hemos preguntado a 36 parejas el número de veces que salen a comer o cenar fuera mensualmente. Los datos aparecen recogidos en la tabla: 7 6 5 4 N.º de veces que salen 1 2 3 4 5 6 3 N.º de parejas 3 9 2 8 10 4 2 El diagrama de barras asociado a esta distribución es el del margen. 1 0 1 2 3 4 5 6 Valor B 11 POLÍGONO DE FRECUENCIAS Al igual que los diagramas de barras, los polígonos de frecuencias se asocian a variables de pocos valores. En unos ejes de coordenadas se representa un punto por cada valor de la variable. La abscisa de cada punto representa el valor de la variable, mientras que la ordenada representa la frecuencia. Uniendo estos puntos mediante segmentos rectilíneos se obtiene el denominado polígono de frecuencias. Frecuencia 10 9 8 7 6 Es bastante habitual la representación conjunta del diagrama de barras y el polígono de frecuencias. 5 4 3 Ejemplo 13 2 El gráfico del margen es el polígono de frecuencias de la distribución del ejemplo 12. 1 0 1 2 3 4 5 6 Valor Ejercicios 20 La distribución siguiente corresponde al número de hermanos que tiene cada alumno de una clase. Construye en tu cuaderno el diagrama de barras y el polígono de frecuencias asociados. 210 Hermanos 0 1 2 3 4 Frecuencia 6 9 7 4 1 21 Construye en tu cuaderno el diagrama de barras y el polígono de frecuencias de la distribución siguiente: Valor 1 2 3 4 5 Frecuencia 2 5 9 0 7 C Ten en cuenta DIAGRAMA DE SECTORES A un valor x i de frecuencia relativa h i le corresponde un sector circular con ángulo central de i = 360 · h i grados sexagesimales. El diagrama de sectores se emplea habitualmente con variables asociadas a caracteres cualitativos, aunque también es posible su uso con caracteres cuantitativos. En este gráfico, se descompone un círculo en tantos sectores circulares como valores tome la variable. El ángulo central de cada sector es proporcional a la frecuencia del valor correspondiente. En este tipo de gráficos se suele indicar el porcentaje asociado a cada sector. Ejemplo 14 Los 500 empleados de una oficina acuden al trabajo en distintos medios de transporte. Transporte Coche Metro Autobús Bicicleta A pie Total D fi hi pi 200 150 30 20 100 500 0,40 0,30 0,06 0,04 0,20 1 40 % 30 % 6% 4% 20 % 100 % Grados i = 360 · hi 20 % 144º 108º 21,6º 14,4º 72º 360º Coche 40 % 4% Metro Autobús 6% Bicicleta A pie 30 % HISTOGRAMA El histograma se emplea con variables cuantitativas de datos agrupados en intervalos. Asumiendo que éstos son de igual longitud, sobre cada uno se levanta un rectángulo cuya altura es la frecuencia del intervalo correspondiente. Ejemplo 15 Pedro ha hecho un recuento del número de personas que viven en cada una de las calles de un barrio de su pueblo. Los resultados aparecen agrupados en la tabla, y el histograma es: Personas [50, 55) [55, 60) [60, 65) [65, 70) Total 6 fi 3 2 5 4 14 Frecuencia 5 4 3 2 1 0 50 55 60 65 70 Número de personas por calle Ejercicios 22 Dibuja un diagrama de sectores que represente las preferencias literarias de 100 lectores: Género Frecuencia Policiaco 50 Aventuras 20 Terror 30 23 Construye el histograma asociado a la distribución siguiente: 5, 8, 13, 23, 4, 16, 7, 24, 21, 1, 0, 4, 15, 11, 9, 2, 4, 11, 22, 21, 7, 6, 2, 1, 0, 4, 9, 14, 12, 22, 25, 0 211 11 EJERCICIOS RESUELTOS 1 Un jardinero revisa los rosales de su invernadero y anota las alturas de los mismos, representando los datos obtenidos en este histograma. Halla la media, la desviación típica, la mediana y la moda de la distribución de alturas. Frecuencia absoluta 12 11 10 9 8 7 6 5 4 3 2 1 0 20 40 60 80 100 120 Altura de los rosales en cm Para calcular los parámetros estadísticos pedidos, es necesario elaborar la tabla de frecuencias ampliada con las columnas adecuadas. xi fi fi xi fi xi2 Fi [20, 40) 30 10 300 9 000 10 [40, 60) 50 8 400 20 000 18 [60, 80) 70 12 840 58 800 30 [80, 100) 90 5 450 40 500 35 [100, 120) 110 7 770 84 700 42 2 760 213 000 Altura N = 42 Total La clase modal es [60, 80), con frecuencia fi = 12. Por tanto, la moda, que es la marca de clase de [60, 80), es M0 = 70 cm. N Respecto a la mediana, observa que la mitad de la población es = 21. La 2 N primera clase que supera = 21 es también [60, 80), por lo que Me = 70 cm. 2 n Por último, la media es x– fi xi i=1 N = 2 760 = 65,71 cm, y la varianza es: 42 n fi xi 2 213 000 2 760 – 42 42 N la desviación típica es: 2 i=1 – x–2 = = Venta de lavadoras 212 2 2 753,623 753,623 cm2, por lo que se tiene que 27,452 cm. 2 17 7 13 8 5 10 14 9 16 2 Los datos del margen corresponden a la venta de lavadoras de un establecimiento cada día del último mes. 12 19 18 22 20 4 12 0 14 6 17 24 9 16 22 13 10 15 0 7 a) Calcula el número medio de lavadoras vendidas en este periodo. b) Halla la moda. c) Halla la mediana, así como el primer y el tercer cuartiles. Lavadoras vendidas por día [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) Total xi fi fi xi Fi 2,5 7,5 12,5 17,5 22,5 4 7 8 7 4 10 52,5 100 122,5 90 375 4 11 19 26 30 a) Puesto que los datos varían entre 0 y 24, para elaborar la tabla de frecuencias parece razonable distribuirlos en las clases [0, 5), [5, 10), [10, 15), [15, 20) y [20, 25). A la vista de la tabla de frecuencias, la venta media de lavadoras es: n x– = fi xi i=1 N = 375 = 12,5 30 b) La clase modal es [10, 15), con frecuencia 8. Por tanto, la moda es M0 = 12,5. c) El número de datos es 30, y su mitad es 15. La clase mediana es [10, 15), ya que su frecuencia absoluta acumulada excede por primera vez la mitad de los datos. Tomamos como aproximación de la mediana la marca de esta clase, Me = 12,5. La cuarta parte de los datos es 7,5. La clase que contiene el primer cuartil es [5, 10), ya que su frecuencia absoluta acumulada excede por vez primera la cuarta parte de los datos. Luego el primer cuartil es la marca de [5, 10), es decir, Q1 = 7,5. Análogamente se halla Q3 = 17,5. 3 A una proyección cinematográfica asisten 50 niños, 75 jóvenes, 60 adultos y 40 ancianos. Representa estos datos en un diagrama de sectores. Primero se elabora la tabla de frecuencias, incluyendo los grados: Categoría Niños Jóvenes Adultos Ancianos Total fi 50 75 60 40 225 pi 22 % 33 % 27 % 18 % 100 % Grados 79,2º 118,8º 97,2º 64,8º 360º Ancianos 18 % Adultos 27 % Niños 22 % Jóvenes 33 % Para calcular los grados se puede emplear una regla de tres. 100 % 360º 22 % 7 920 = 79,2º, y procedemos de igual Así, al 22 % se le asocia el ángulo = 100 modo con el resto 213 11 EJERCICIOS PROPUESTOS Nociones de Estadística El número de hijos de los empleados de una 7 oficina es el siguiente: 1 A los empleados de una oficina se les pregunta por los aspectos siguientes: • Estado civil. • Número de libros que leen al mes. • Preferencias cinematográficas. • Color de pelo. • Años de antigüedad en la empresa. • Distancia entre la oficina y su vivienda. 0 2 2 0 1 3 1 1 2 4 3 2 2 1 1 1 4 2 0 1 Elabora la tabla de frecuencias de esta distribución de datos. a) Indica si los caracteres anteriores son cualitativos o cuantitativos. b) Señala modalidades posibles de los caracteres cualitativos. c) Señala posibles valores de la variable estadística en el caso de los caracteres cuantitativos. 2 Determina, para cada uno de los estudios estadísticos siguientes, el individuo, la población, la variable estadística, y si ésta es continua o discreta: a) ¿Cuántos alumnos aprueban matemáticas en tu clase? b) ¿Cuántos libros lee cada uno de los habitantes del barrio en que vives? c) ¿Cuál es el gasto mensual en comestibles de cada uno de los vecinos de un bloque de pisos? 3 Diseña un estudio estadístico relativo al uso de medios de transporte. Describe una variable estadística relacionada con este estudio y la población estudiada. 4 Inventa una variable estadística discreta y una variable estadística continua, señalando los posibles valores que pueden tomar. 5 Señala un carácter que pueda adoptar una forma cualitativa y cuantitativa. 214 Las calificaciones de matemáticas de los 20 8 alumnos de una clase son: 0 1 7 8 2 7 5 4 4 5 1 4 5 2 1 3 5 8 3 0 Construye en tu cuaderno la tabla de frecuencias de esta distribución de datos. La tabla siguiente corresponde al número de 9 cigarrillos que un grupo de fumadores (que intentan dejar de fumar) consume al día: N.º de cigarrillos xi 2 3 4 5 6 7 8 o más Total fi 1 5 hi pi 0,2 24 % 16 % 2 4 N = 25 0,16 Tablas estadísticas Copia en tu cuaderno completando esta tabla y responde a las cuestiones: 6 Construye la tabla de frecuencias para la siguiente distribución de datos: a) ¿Cuántos fuman más de 5 cigarrillos? 0 0 0 1 1 2 3 2 1 4 0 b) ¿Qué porcentaje de fumadores fuma menos de 6 cigarrillos? Copia en tu cuaderno y calcula las marcas de 10 clase asociadas a esta tabla: Clase [0, 5) [5, 13) [13, 19) [19, 30) Marca de clase 11 Al final de una semana, una zapatería hace balance de sus ventas. La tabla siguiente refleja las ventas según el precio: Clase [40, 50) [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 500) Marca de clase 60 40 65 82 120 95 54 El empleado de un videoclub selecciona una 14 muestra de sus clientes y anota el número de películas que cada uno de ellos ha sacado durante el último trimestre. Los datos que ha obtenido son: 12 16 23 15 14 21 24 15 11 17 29 24 20 25 21 23 24 29 20 26 19 28 13 24 Agrupa los datos de cinco en cinco y construye la tabla de frecuencias. Parámetros estadísticos Calcula la media y la desviación típica de las 15 siguientes distribuciones: a) 7, 3, 4, 5, 6, 9, 0, 3, 4, 2, 1 b) 2, 1, 8, 6, 5, 3, 3, 2, 10, 3, 7 Elabora la tabla de frecuencias, sin olvidar las marcas de clase. Decide cuál de las dos distribuciones tiene un mayor grado de dispersión. 12 En el estudio de una variable continua X se ha obtenido la siguiente tabla de frecuencias que, por desgracia, está incompleta. ¿Serías capaz de completarla en tu cuaderno? 16 Calcula la mediana, los cuartiles y la moda de las distribuciones del ejercicio anterior. Clases [0, 10) [10, ) [15, 20) Total Marca xi fi hi 0,20 12,5 pi 30 % Escribe en tu cuaderno una distribución cuya 18 media sea 5. N = 50 En el reconocimiento médico al que se somete 13 a los profesores de un pequeño colegio, se han medido sus alturas. Éstos son los resultados obtenidos (en centímetros): 150 174 169 152 171 175 Calcula la media, la desviación típica, el coefi17 ciente de variación y los cuartiles de las distribuciones de los ejercicios 6, 7 y 8. 153 172 178 170 167 180 172 163 174 168 155 181 Agrupa los datos en intervalos y construye la tabla de frecuencias, que debe incluir marcas de clase, frecuencias absolutas y relativas, y porcentajes. Escribe en tu cuaderno una distribución de me19 diana 4. Escribe en tu cuaderno una distribución de me20 dia 0 y mediana 3. Calcula los parámetros estadísticos de la si21 guiente distribución: xi fi 1 10 2 5 3 6 4 9 5 4 6 7 7 2 215 11 EJERCICIOS PROPUESTOS Calcula la media, la desviación típica, el coefi22 ciente de variación, la mediana, los cuartiles y la moda de las distribuciones de los ejercicios 13 y 14. 23 El número de faltas de ortografía cometidas por un grupo de alumnos en una redacción aparece reflejado en la tabla: N.º de faltas N.º de alumnos 0 3 1 7 2 8 3 7 4 9 5 6 a) Halla la media, la desviación típica y el coeficiente de variación. b) Halla la mediana y la moda. 24 Dada la distribución 2, 4, 5, 8, 2, 1, 0, calcula su media. A continuación, suma un valor constante a todos los datos de la distribución anterior y calcula la media de estos nuevos datos. ¿Qué observas? 25 Sea x– la media de una distribución de datos. Prueba que si a cada uno de los datos de esta distribución le sumamos una constante k, la media de la nueva distribución es x– + k. 26 Halla los cuartiles y los percentiles p10 y p30 para la distribución del ejercicio 11. 27 Copia en tu cuaderno y completa la tabla sabiendo que x– = 1,75. 0 2 1 2 3 3 1 4 2 28 Calcula la media, la mediana y la moda de la distribución del ejercicio 11. 29 Halla la media, la desviación típica, la mediana y la moda de la siguiente distribución: 216 Intervalos Frecuencia 30 52 23 45 56 145 11 60 96 90 69 100 123 29 126 67 89 34 a) Agrupa y construye la tabla de frecuencias. b) Halla la media, la desviación típica y el coeficiente de variación. c) Halla la mediana y la moda. d) Halla el primer y tercer cuartiles. e) ¿Cuál es el percentil de una persona que dedica 60 minutos a leer? f) Calcula un percentil que no coincida con ninguno de los cuartiles. c) Halla los cuartiles. xi fi El tiempo, en minutos, que un grupo de socios 30 de una biblioteca dedica cada día a leer es: [0 ,2) 10 [2, 4) 5 [4, 6) 6 lio Ju rne Ve 31 El peso medio de los corredores de fondo de un club de atletismo es 55 kg, y su desviación típica es 2,5 kg. Por otra parte, el peso medio de las corredoras es 49 kg y la desviación típica es 2,1 kg. Compara la dispersión de los pesos de ambos grupos. Gráficos estadísticos En una población de 30 familias se ha estudiado 32 el número de móviles de cada una de ellas. Los datos recopilados son los siguientes: 2 5 3 3 2 6 3 1 4 2 2 2 0 2 6 1 0 1 4 2 3 2 1 2 Una clínica médica que ofrece consultas de 35 distintas especialidades, anota el número de perso nas que acude a cada una de ellas una mañana concreta. Especialidad 1 3 2 5 3 6 a) Construye en tu cuaderno la tabla de frecuencias de esta distribución. N.º de personas Medicina general 30 Neumología 15 Neurología 14 Ginecología 18 Medicina interna 7 Radiología 20 b) Traza el diagrama de barras. c) Elabora el polígono de frecuencias. d) Calcula la media y la desviación típica. e) Halla la mediana y la moda. f) Calcula los cuartiles Q1 y Q3. 33 Hemos preguntado a un grupo de personas cuánto tiempo dedican semanalmente a la práctica de algún tipo de ejercicio físico. Éstos son los resultados obtenidos: N.º de horas [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 8) N.º de personas 6 13 20 18 120 9 a) Confecciona un diagrama de sectores para esta distribución. b) ¿Qué tanto por ciento de personas acuden a Medicina general o a Radiología? Representa en tu cuaderno las distribuciones 36 de los ejercicios 13 y 14. 37 Analiza el histograma siguiente: 20 18 16 14 12 10 8 a) Construye en tu cuaderno la tabla de frecuencias correspondiente. 6 b) Dibuja el histograma asociado. 2 c) Halla la media y la desviación típica. Frecuencia 4 0 10 20 30 40 50 60 d) Halla la mediana y la moda. e) ¿Qué porcentaje dedica menos de dos horas al ejercicio físico? Construye en tu cuaderno el histograma aso34 ciado a los datos de los ejercicios 29 y 30. a) Elabora la tabla de frecuencias asociada a este histograma. b) Calcula la media y la desviación típica. ¿Cuál es el coeficiente de variación? c) Halla los cuartiles Q1 y Q3. 217 11 PARA REPASAR EN GRUPO Elabora con tu grupo de trabajo un esquema con los siguientes conceptos de la Unidad y pon un ejemplo de cada uno de ellos. CONCEPTO DEFINICIÓN Población Conjunto de individuos sometidos a estudio. Muestra Es una parte de la población. Carácter estadístico Rasgo de una población que nos interesa estudiar. Variable estadística Conjunto de valores que toma un carácter. Se dividen en cuantitativas y cualitativas. Frecuencia absoluta Número de veces que se repite un valor determinado. Marca de clase Valor central de cada intervalo de valores. n Media aritmética x– = n Varianza CD En la pestaña Actividades/ Unidad 11, encontrarás la actividad Relación 1 unidad 11, para repasar los conceptos más importantes de la unidad. CD En la pestaña Mapa del CD/ Unidad 11, encontrarás el Test de autoevaluación. Desviación típica Coeficiente de variación 218 N n fi (xi – x–)2 i=1 N = fi xi2 i=1 N σ = Var ≥ 0 σ Es el cociente CV = – . x Moda Si la variable es discreta, es el valor con mayor frecuencia. Si la variable es continua, es la marca de clase del intervalo de mayor frecuencia. Mediana La mediana es el valor que divide los datos de una distribución en dos partes iguales. Gráficos estadísticos Son formas sencillas de representar las frecuencias de una variable estadística. Algunos tipos de gráficos son los diagramas de barras, los polígonos de frecuencias, los diagramas de sectores y los histogramas. CD En la pestaña Mapa del CD/Juegos matemáticos, encontrarás la Animación de Estadística. Var = σ = – –x2 2 fi xi i=1 CURIOSIDADES, JUEGOS Y DESAFÍOS El desconocimiento de la teoría estadística conduce, en muchas ocasiones, a que amplios sectores de la población den por buenas conclusiones que, aunque a simple vista parecen correctas, son erróneas. Un buen ejemplo lo encontramos en un fenómeno denominado la paradoja de Simpson, también conocido como efecto Yule-Simpson. Este fenómeno aparece con frecuencia en estudios estadísticos de la Medicina, la Sociología, etc. Sabías que... Edward H. Simpson, Karl Pearson, Udny Yule, además de otros, describieron este fenómeno. Un caso real, y muy conocido, que ilustra la paradoja de Simpson tuvo lugar cuando una prestigiosa universidad estadounidense fue demandada por discriminación contra las mujeres que solicitaban ingreso. Las cifras sobre admisión en el otoño de 1973 mostraban que el porcentaje de admisión era favorable a los hombres y, siendo la diferencia notable, se juzgó que no se debía al azar. N.º de solicitantes % admitidos Hombres 8 442 44 % Mujeres 4 321 35 % Sin embargo, al examinar las solicitudes distinguiendo los distintos departamentos, se observaba que ninguno discriminaba significativamente a las mujeres y que, de hecho, la mayor parte de los departamentos favorecía, en todo caso, a las mujeres. Hombres Mujeres Departamentos Solicitantes % admitidos Solicitantes % admitidos A 825 62 % 108 82 % B 560 63 % 25 68 % C 325 37 % 593 34 % D 417 33 % 375 35 % E 191 28 % 393 24 % F 272 6% 341 7% La explicación resulta ser que las mujeres tendían a presentar solicitudes en departamentos con bajos porcentajes de admisión, mientras que la tendencia de los hombres era la contraria. Al dividir los datos en especialidades, hemos introducido unas variables (lurking variables, en la literatura científica) que, si son omitidas, pueden conducirnos a una conclusión errónea. La paradoja de Simpson pone de manifiesto que debemos ser precavidos cuando hagamos deducciones basándonos en la asociación de dos variables. Es imprescindible tener en cuenta las lurking variables si se pretende establecer relaciones de causa y efecto. DESAFÍO MATEMÁTICO Trata de encontrar una situación real que ponga de manifiesto la paradoja de Simpson. Si lo necesitas, pide ayuda a tu profesor. 219