Educación secundaria Dirección Xeral de Educación, Formación Profesional e Innovación Educativa para personas adultas Ámbito científico tecnológico Educación a distancia semipresencial Módulo 4 Unidad didáctica 4 Estadística y probabilidad Página 1 de 40 Índice 1. Introducción...............................................................................................................3 1.1 1.2 1.3 2. Descripción de la unidad didáctica................................................................................ 3 Conocimientos previos.................................................................................................. 3 Objetivos didácticos...................................................................................................... 3 Secuencia de contenidos y actividades ..................................................................4 2.1 Estadística .................................................................................................................... 4 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.2 Utilidad de la estadística ....................................................................................................................................4 Población y muestra...........................................................................................................................................5 Recogida de datos .............................................................................................................................................7 Confección de una tabla: frecuencias y significado ...........................................................................................8 Construcción de gráficas adecuadas a cada caso...........................................................................................11 Parámetros estadísticos. Cálculo y significado ................................................................................................16 Probabilidad................................................................................................................ 21 2.2.1 2.2.2 2.2.3 Experimento aleatorio ......................................................................................................................................21 Definición de probabilidad y propiedades ........................................................................................................23 Ley de Laplace para el cálculo de la probabilidad ...........................................................................................24 3. Resumen de contenidos .........................................................................................27 4. Actividades complementarias................................................................................28 5. Ejercicios de autoevaluación .................................................................................30 6. Solucionarios...........................................................................................................32 6.1 6.2 6.3 7. Soluciones de las actividades propuestas.................................................................. 32 Soluciones de las actividades complementarias ........................................................ 36 Soluciones de los ejercicios de autoevaluación .......................................................... 38 Bibliografía y recursos............................................................................................40 Página 2 de 40 1. Introducción 1.1 Descripción de la unidad didáctica Se dedica esta unidad al tratamiento básico de los datos estadísticos, a sus formas de representación gráfica usando el ordenador y al cálculo de parámetros de centralización y dispersión. La frecuencia relativa permite inducir el concepto de probabilidad y la regla de Laplace. 1.2 Conocimientos previos Para estudiar y comprender esta unidad, se debe de tener conocimiento de las operaciones con números reales, del cálculo de porcentajes y de la representación gráfica de funciones sencillas. La construcción de gráficas con la hoja de cálculo exige estar familiarizado con el manejo de la herramienta Excel. 1.3 Objetivos didácticos Comprender la importancia del conocimiento estadístico para la toma de decisiones de todo tipo: económicas, médicas, políticas, académicas, etc. Valorar el modo más conveniente de recoger los datos estadísticos. En el caso de recogerse de una muestra, esta tendrá que ser representativa de la población. Elaborar una tabla, con los datos y las frecuencias absolutas en columnas, organizando el cálculo de las frecuencias relativas y acumuladas. Saber calcular las medidas centrales e interpretar su significado práctico. Saber calcular las medidas de dispersión. Reconocer el significado de la diferencia entre dos muestras con la misma media aritmética y diferente dispersión. Organizar los datos y los cálculos, y elaborar gráficos estadísticos utilizando una hoja de cálculo con el ordenador, e imprimir la hoja con una buena presentación. Explicar el concepto de probabilidad y poner ejemplos sencillos. Discriminar los sucesos equiprobables de los que no lo son. Utilizar correctamente la regla de Laplace para el cálculo de probabilidades en casos sencillos. Valorar la participación en juegos de azar y entender el riesgo de caer en la ludopatía como una adicción de consecuencias personales, familiares y económicas generalmente grave. Página 3 de 40 2. Secuencia de contenidos y actividades 2.1 Estadística Es difícil establecer el origen de la estadística, pero parece que los datos más antiguos que se conocen, de lo que nosotros entendemos por estadística, son los censos chinos allá por el año 2200 antes de Cristo. La palabra estadística está emparentada con Estado, ya que el propósito principal de los gobiernos era establecer registros de población, de nacimientos, defunciones, cosechas, impuestos, etc. Hoy en día, la mayor parte de las personas entiende por estadística los conjuntos de datos distribuidos en tablas, gráficos publicados en los periódicos, etc. 2.1.1 Utilidad de la estadística En la actualidad la estadística se entiende como un método para la toma de decisiones, de ahí la importancia que tiene en multitud de estudios científicos de todas las ramas del saber: ¿Cómo decidir si un nuevo producto comercial tendrá éxito? ¿Influye el IPC en la tasa de desempleo? ¿Qué dirá un sociólogo sobre la intención del voto, después de analizar una encuesta? A partir de un estudio sobre el crecimiento de la población de un país, ¿podrá un experto en geografía humana calcular la población del año 2050? ¿Cuáles serán las necesidades escolares de un país para los próximos cinco años? Muchas de estas preguntas tienen su respuesta gracias a la estadística, ya que a través de procedimientos de inferencia estadística se puede responder a las cuestiones formuladas con un margen de error prefijado. Divisiones de la estadística Estadística descriptiva o deductiva: trata del recuento, la ordenación y la clasificación de los datos obtenidos a partir de las observaciones. Se construyen tablas y se representan en gráficos, que permiten simplificar en gran medida la complejidad de los datos que intervienen en la distribución. A partir de los datos se obtienen los parámetros estadísticos que caracterizan la distribución. Esta parte de la estadística se limita a realizar deducciones directamente a partir de los datos y los parámetros obtenidos. Estadística inferencial o inductiva: formula y resuelve el problema de establecer previsiones y deducciones generales sobre una población a partir de resultados obtenidos de una muestra. Utiliza resultados obtenidos mediante la estadística descriptiva y se apoya fuertemente en el cálculo de probabilidades. Página 4 de 40 Actividad resuelta Se quiere hacer una encuesta para estudiar las aficiones de la gente joven a la lectura. Diga, justificadamente, cuáles de las preguntas siguientes le parecen razonables y cuáles no: a) no. Solución b) sí. c) no. d) sí. Actividad propuesta S1. Realice una pequeña investigación para saber lo qué es el INE y a qué de dedica. 2.1.2 Población y muestra El objeto de estudio de esta unidad será la estadística descriptiva, y para empezar necesitamos definir una serie de conceptos que utilizaremos más adelante. Si necesitamos saber cuáles son las preferencias de los estudiantes gallegos a la hora de elegir carrera, sería complicado hacerle la pregunta a todo el alumnado. Por eso, el Gobierno decide elegir al azar un colectivo para que responda a un formulario previamente diseñado. Estamos ante el primer paso para hacer una estadística: del conjunto del alumnado gallego (población) elegiremos una muestra aleatoria. Cada individuo tiene la misma probabilidad de ser elegido para esta muestra, por eso la llamamos muestra aleatoria; también tendremos en cuenta que esta debe ser proporcional a la composición de la población. Así, como ejemplo, diremos que si la muestra está formada por 1 000 personas, de una población de la que el 60 % son mujeres, ésta debe tener 600 mujeres y 400 hombres para ser representativa. Población Conjunto de elementos que cumplen una característica. A los elementos de la población se les conoce como individuos, debido al origen demográfico de la estadística, o unidades estadísticas. Página 5 de 40 Muestra Cualquier subconjunto de la población. El número de elementos de la muestra se denomina tamaño. Tenemos ahora una muestra de población de la que queremos saber: Deporte que practican: fútbol, baloncesto, atletismo, etc. No se pueden expresar los resultados con números. Número de hermanos: 0, 1, 2, etc. Se pueden expresar con números. Carácter estadístico Un carácter estadístico es un aspecto de la población que se puede observar. Las variantes que puede tomar un carácter son las modalidades del carácter. En el caso anterior, estamos ante dos tipos de caracteres estadísticos. Un carácter será cualitativo si sus modalidades no se pueden expresar con números, y será cuantitativo cuando sí que se pueden expresar. Los caracteres cualitativos se llaman variables estadísticas y pueden ser de dos tipos: Variable estadística discreta Variable estadística continua La que puede tomar un número finito de valores numéricos, o infinito numerable. La que puede tomar, por lo menos teóricamente, todos los valores dentro de un intervalo de la recta real. Resumiendo diremos: Ejemplos Caracteres estadísticos cuantitativos: – La altura de un individuo. – El diámetro de una pieza de precisión. – El cociente intelectual de un individuo. – La renta per capita de una comunidad autónoma. Caracteres estadísticos cualitativos: – La profesión de una persona. – El color de los ojos. – La lengua que habla un individuo. Variables estadísticas discretas: – Numero de empleados de una fábrica. – Número de hijos de una familia. Página 6 de 40 – Número de goles marcados por la selección de fútbol. – Numero de periódicos vendidos en un día. Variables estadísticas continuas: – Presión sanguínea de un paciente. – Diámetro de una rueda. – Medida del cráneo de un bebé. – Horas dormidas en una noche. – Altura de un individuo. Actividad resuelta De cada uno de los siguientes estudios estadísticos, indique cuál es la población a la que se refiere, si considera necesario elegir una muestra, y el carácter estadístico y su tipo. a) Horas diarias de sueño de los habitantes de una provincia. b) Preferencias literarias de las personas mayores de edad que viven en un edificio. Población = habitantes de la provincia. a) Solución b) Muestra = grupo elegido entre la población. Carácter = nº horas dormidas, V.Y. cuantitativa, variable continua. Población: habitantes del edificio mayores de 18 años. Muestra: la misma. Carácter: cualitativo. Actividades propuestas S2. Indique la población, la variable y el tipo (cualitativa, cuantitativa discreta o continua) de: Peso al nacer de los bebés que nacieron en Barcelona en 2009. Profesiones que quieren estudiar los estudiantes de un centro escolar. Número de tarjetas amarillas mostradas en los partidos de fútbol de la liga del año pasado. S3. ¿Cómo debe de ser una muestra para ser correcta? 2.1.3 Recogida de datos La información estadística llega a nosotros mediante gráficas o tablas muy bien construidas, con las que resulta fácil entender la información dada. Pero para llegar a ellas, es necesario realizar un largo proceso, que se inicia ahora. ¿Qué queremos estudiar? Necesitamos saber lo que pretendemos estudiar; por ejemplo, qué aficiones deportivas tienen los alumnos y las alumnas de un centro. Página 7 de 40 Selección de las variables que se van a analizar. Debe ser evidente cuál es la variable y cuáles sus posibles valores. Recogida de datos. Se efectúan las medidas o se realizan las encuestas. Organización de datos. Se ordenan, se pasan a papel, o mejor, se introducen en el ordenador. Los pasos siguientes son la elaboración de tablas y gráficas y el cálculo de parámetros, a los que dedicaremos el resto de la unidad. 2.1.4 Confección de una tabla: frecuencias y significado Después de recogidos los datos hay que tabularlos, es decir, confeccionar una tabla para organizarlos. Esto se consigue con una tabla de frecuencias, es decir, el número de veces que aparece cada dato y el tanto por uno de cada dato. Tendremos en cuenta si la variable que vamos a tabular es discreta o continua. Veamos ambos casos. Ejemplo. En una muestra formada por 50 individuos, se les preguntó a estos el número de veces que van al cine en un mes y las respuestas fueron las siguientes: 01210 20111 10010 31111 01011 11210 21101 11110 11112 11111 Efectuaremos un recuento de los datos ordenándolos en una tabla que muestre la frecuencia absoluta (número de veces que aparece ese dato), que llamaremos fi, y la frecuencia relativa (tanto por uno), que llamaremos hi Veces que asisten al cine xi Frecuencia absoluta fi Frecuencia relativa hi 0 11 11:50 = 0,22 1 33 33:50 = 0,66 2 5 5:50 = 0,10 3 1 1:50 = 0,02 50 1 Observando la tabla podemos ver que hay cinco personas que asisten dos veces al cine y 11 que no van nunca Ejemplo. Se quiere realizar un estudio sobre la longitud de un tipo de tornillos que se hacen en una fábrica. Se elige al azar una muestra de 32 y se obtienen los siguientes resultados en milímetros. 161 171 167 172 170 170 165 169 170 169 172 162 169 166 174 178 167 169 168 176 169 162 168 167 175 168 164 179 172 167 170 173 Ante la dificultad de hacer un recuento de cada valor de la variable, haremos uno de los datos agrupados en intervalos de 5 mm de amplitud. Haremos una tabla donde se muestren los puntos medios (marca de clase) y las frecuencias absolutas y relativas de cada intervalo. El número de clases no debe ser excesivo y todas deben tener la misma longitud. Página 8 de 40 – Si existe un número grande de valores diferentes, los datos se agrupan en clases o intervalos. – La marca de clase será el punto medio de ella y representa todos los datos de la clase. Longitud en mm Marca de clase xi Frecuencia absoluta fi Frecuencia relativa hi 160 ≤ x<165 162,5 4 4:32 = 0,125 165 ≤ x<170 167,5 14 14:32 = 0,4375 170 ≤ x<175 172,5 10 10:32 = 0,3125 175 ≤ x<180 177,5 4 4:32 = 0,125 32 1 Ampliaremos la construcción de la tabla de frecuencias añadiendo la columna de las frecuencias acumuladas, tanto absolutas como relativas. Esto nos va a permitir responder a preguntas del tipo: ¿Cuántos alumnos tienen menos de seis puntos? o ¿qué porcentaje y alumnos tienen menos de 6 puntos?, solo con mirar en la tabla. Frecuencia absoluta acumulada del valor xi (lo representaremos por Fi) es la suma de las frecuencias absolutas de todos los valores anteriores a xi, más la frecuencia absoluta de xi. Frecuencia absoluta acumulada Frecuencia relativa acumulada de xi (lo representaremos por Hi) es el cociente entre la frecuencia absoluta acumulada de xi y el numero total de datos que intervienen en la distribución. Frecuencia relativa acumulada Actividad resuelta Queremos hacer un estudio estadístico del número de técnicos superiores en electricidad (TSE) que existen en las empresas eléctricas de una determinada ciudad. Se hizo una encuesta a 50 empresas y se obtuvieron los siguientes resultados: 2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4 3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1 a) ¿Cuál es la población del estudio? b) ¿Qué variable estamos estudiando? c) ¿Qué tipo de variable es? d) Construya la tabla y frecuencias. e) ¿Cuál es el número de empresas que tienen como máximo dos TSE? f) ¿Cuántas empresas tienen más de un TSE, pero como máximo tres? g) ¿Qué porcentaje de empresas tienen más de tres TSE? Página 9 de 40 a) La población de estudio es las empresas de electricidad de una ciudad. b) La variable es el número de TSE por empresa. c) El tipo de variable es discreta, ya que solo puede tomar valores enteros. d) Para construir la tabla de frecuencias, tenemos que mirar cuántas empresas tienen un determinado número de TSE. Hagamos una tabla, con las frecuencias absoluta, relativa, absoluta acumulada y relativa acumulada. e) El número de empresas que tienen dos o menos es 2 + 4 + 21 = 27, como podemos ver en la columna de las frecuencias absolutas acumuladas, es lo que le corresponde al valor de la variable 2. f) El número de empresas que tienen más de uno y menos de tres TSE, es 21 + 15 = 36. g) El porcentaje de las empresas que tienen más de tres TSE es la de aquellas que tienen cuatro, cinco y seis, es decir 6 + 1 + 1 = 8. El porcentaje será el tanto por uno multiplicado por 100, es decir la frecuencia relativa de esos valores multiplicados por 100 ( 0,12 + 0,02+ 0,02) 100 = 0,16 x 100 = 16 % Vemos con este ejemplo la importancia del cálculo de las frecuencias acumuladas, para responder con agilidad, mirando la tabla. Solución Actividades propuestas S4. Con los siguientes datos, elabore una tabla de frecuencias: 0 2 4 1 0 2 3 3 1 0 4 2 4 3 5 S5. 4 2 3 0 1 4 2 4 1 0 5 2 1 3 0 1 2 3 2 1 3 2 0 1 4 2 3 1 2 0 1 2 3 4 0 Las posibles respuestas a una encuesta son: MB (muy bueno), B (bueno), R (regular), M (malo) y MM (muy malo). Las respuestas de 50 personas fueron las siguientes: R B MB M R R MM MB M R R MM R B R MB R R MB R M R B R MB R R B R R M R B R MB R R B R MM R R B R R M R B B R Página 10 de 40 Ordene los datos en una tabla con las frecuencias. ¿Cuántas personas responden M o MM? ¿Qué porcentaje de personas responden B o MB? S6. La siguiente tabla representa la puntuación obtenida por 100 alumnos en un test que constaba de ocho preguntas. Puntos 0 1 2 3 4 5 6 7 8 Nº alumnos 0 2 6 9 18 22 24 12 7 Realice la tabla de frecuencias. ¿Cuántos alumnos obtienen 5 puntos? ¿Qué porcentaje representan? ¿Cuántos alumnos tienen 6 o más puntos? ¿Qué porcentaje representan? 2.1.5 Construcción de gráficas adecuadas a cada caso Encontramos en los medios de comunicación espléndidas construcciones gráficas que nos permiten con una ojeada entender de qué se nos habla y asimilar la información que allí se nos da. Si tenemos que representar una variable cuantitativa, utilizaremos un diagrama de barras o un histograma, según que las variables sean discretas o continuas. Para representar una variable cualitativa, utilizaremos un diagrama de sectores. Diagrama de barras Diagramas de barras Se utilizan para representar tablas de frecuencias correspondientes a variables cuantitativas discretas. Por eso, las barras son estrechas y se sitúan sobre los valores puntuales de la variable. También pueden utilizarse para representar variables cualitativas. Ejemplo. Con los datos de la tabla, que representan las ventas de una tienda de electrodomésticos en los meses indicados, realice el gráfico correspondiente. Histograma Histograma Se utiliza para distribuciones de variable continua. Por eso, se usan rectángulos tan anchos como los intervalos. Ejemplo. La tabla muestra los pesos en gramos de 42 pollos del mercado. Representaremos los datos mediante un gráfico estadístico. Página 11 de 40 Polígonos de frecuencias Polígonos de frecuencias Se construyen uniendo los puntos medios de los rectángulos, bien de las barras de los diagramas o bien de los rectángulos de los histogramas, y prologando al principio y al final, hasta llegar al eje. Ejemplo Diagramas de sectores Diagramas de sectores A modo de tartas de colores, representan proporcionalmente la frecuencia o ángulo de cada sector. Se puede utilizar para todo tipo de variables, pero frecuentemente se usa para las variables cualitativas. Podemos establecer comparaciones utilizando diagramas de sectores para las mismas variables que correspondan a diferentes años. Ejemplo. La tabla muestra las preferencias deportivas de la juventud de una localidad. Fútbol Baloncesto Natación Atletismo 2 304 1 024 512 256 Para representar los datos en un diagrama de sectores tenemos que calcular el valor de cada sector en función de la frecuencia de cada modalidad. Así, el área de cada sector tiene que ser proporcional a la frecuencia absoluta de la modalidad correspondiente. Página 12 de 40 El desafortunado uso de un gráfico en la prensa El gráfico que se aporta apareció en La Voz de Galicia el pasado 12 de enero de 2008 para ilustrar el incremento del número de casos atendidos en los hospitales gallegos debido a la gripe. La verdad es que es muy desafortunado, ya que a primera vista el gráfico da una idea de que hay un aumento muy grande; pero, si nos fijamos en él, observamos que el gráfico está mal construido, pues no se pueden unir, mediante líneas, modalidades que en principio no tienen relación ninguna. En un carácter estadístico cualitativo (atributo), como es este, en el que las modalidades son las ciudades donde se mide la frecuencia con que se acude a sus hospitales, el gráfico más adecuado sería un diagrama de barras o un diagrama de sectores. Uso de la hoja de cálculo Excel para a realización de un gráfico Para realizar estas representaciones gráficas utilizaremos una hoja de cálculo. Una hoja de cálculo es un cuadro formado por celdas en que se pueden colocar números, textos o fórmulas. Cada celda se identifica con una letra, que indica la columna, y un número, que indica la fila. Algunos programas de ordenador están diseñados para manejar hojas de cálculo: Excel, Spreadpdr, Calco, GS Calc, Freegrid... Página 13 de 40 Se realizó una encuesta a 28 personas para saber el número de hermanos de cada uno y las respuestas fueron las siguientes: 1 2 1 5 1 0 1 2 3 2 1 2 1 3 1 2 4 2 2 0 2 2 1 2 1 2 0 Intentaremos representar estos datos con la ayuda de una hoja de cálculo Excel. Daremos los pasos siguientes: . Abrimos el programa Excel, dentro de Inicio > Programas > Excel y colocamos los datos formando una tabla. En la primera columna colocamos los posibles valores y en la segunda, las frecuencias absolutas de cada uno. Seleccionamos columna de frecuencias y pulsamos en el icono que nos lleva al Asistente para gráficos, que señalamos antes. Elegimos el tipo de gráfico y un subtipo, por ejemplo Columnas y Columna agrupada con efecto 3D. Página 14 de 40 Pulsando Siguiente se pasa por varios menús para definir las características del gráfico. En el menú Serie, seleccionamos Rótulos para el eje de categorías para marcar los datos de la primera columna, que luego aparecerán en el eje horizontal. En el menú Títulos, se indican los nombres que queremos que aparezcan en el eje horizontal (eje de categorías) y en el eje vertical (eje de valores). En Leyenda, se desactiva Mostrar leyenda. Pulsando Finalizar, ya tenemos el gráfico listo. Una vez acabado, llevando el puntero a cada zona se puede modificar el contenido y el formato de esa zona. Página 15 de 40 Actividad resuelta La frecuencia con que acude por semana a la biblioteca el alumnado de un centro escolar se puede observar en la tabla siguiente. Realice un diagrama de barras, uno de sectores y un polígono de frecuencias. Solución Actividad propuesta S7. La tabla siguiente muestra las superficies, en millones de kilómetros cuadrados, de los océanos del mundo. Represéntelos en un diagrama de sectores. Pacífico Atlántico Índico Ártico 165 81 73 27 2.1.6 Parámetros estadísticos. Cálculo y significado Después de obtener los datos de una distribución, necesitamos sintetizar la información para su posterior análisis. Para eso, obtendremos los parámetros estadísticos que serán de dos tipos: de centralización y de dispersión. Parámetros de centralización Parámetros de dispersión Nos indican en torno a qué valor se distribuyen los datos. Nos informan sobre cuánto se alejan del centro los valores de la distribución. Medidas de centralización x1 + x 2 + ........ + x n = x= N ∑x Media Si llamamos, x1, x2, ... xn a los valores que toma una distribución estadística, la media o término medio, se calcula así: Mediana Si ordenamos los datos de la distribución de menor a mayor, la mediana, Me, es el valor que se encuentra en el medio; es decir, deja tantos individuos antes, como después. Si el número de datos fuese par, a la mediana se le asigna el valor medio de los dos términos centrales. Moda Este valor es el que más frecuencia tiene, y lo conocemos por Mo. Página 16 de 40 i N Estos valores son alrededor de los que se distribuyen todos los valores de la distribución. Cuartiles Los cuartiles de una serie estadística son Q1, Q2, y Q3, de tal modo que: – Q1 deja a su izquierda el 25 % de los datos. – Q2 deja a su izquierda el 50 % de los datos y coincide con la mediana. – Q3 deja a su izquierda el 75 % de los datos. Medidas de dispersión Veremos ahora unos parámetros que sirven para medir cómo de dispersos están los datos. En todos ellos, lo fundamental es medir el grado de separación de los datos con respecto a la media. Recorrido o rango Desviación media Varianza Es la diferencia entre el dato mayor y el menor. Viene siendo la longitud del tramo dentro del cual están los datos. Término medio de las distancias de los datos a la media. Se encuentra con la media de las diferencias en valor absoluto. Es el término medio de los cuadrados de las distancias de los datos a la media. La varianza tiene el problema de que las unidades en que se expresa, al estar elevadas al cuadrado, desvirtúan las medidas. Así, por ejemplo, si estudiamos las estaturas, al elevar al cuadrado las unidades serían cm2, y esto no representa una longitud, sino una superficie. Por eso extraemos su raíz cuadrada, es decir, la desviación típica. Desviación típica Es la raíz cuadrada de la varianza. σ = var ianza A partir de ahora prestaremos especial atención a los parámetros, media ( x ) y desviación típica ( σ ). Uso de la calculadora Para el cálculo de estos parámetros podemos utilizar la calculadora, de pantalla sencilla o descriptiva, pero siempre una calculadora científica y trabajando en modo estadístico: modo SD. Página 17 de 40 Prepare la calculadora en modo SD. Borre los datos anteriores: INV AC. Introduzca los datos, escribiendo los valores y pulsando la tecla DATA. Resultados (teclas): – n: da el número de datos introducidos. – x : da el valor de la media. – σ n : da el valor de la desviación típica. Actividades resueltas Juan fue anotando las temperaturas de su pueblo durante los siete días de una semana: 19 Cº 21 Cº 19 Cº 18Cº 18 Cº 20 Cº 18Cº ¿Qué valores representan las temperaturas de esa semana? Calculamos la media: Así que la media será x = 19 Cº Calculamos la mediana: si ordenamos los datos de menor a mayor tendremos: 18, 18, 18,19, 19, 20, 21, Solución así que el término que deja tantos elementos antes como después es 19Cº. Así que la mediana será Me = 19 Cº. Calculamos la moda: si observamos los datos vemos que 18 Cº es la temperatura que más se repite. Así que la moda será Mo = 18 Cº Calculamos los cuartiles: Q1, Q2 y Q3. Q2 coincide con la mediana, por lo que será 19 Cº. Q1 será el término que deje antes el 25 % de los valores. Dados los datos siguientes, los ordenamos en una tabla de frecuencias y calculamos las medidas de centralización. 12 10 11 13 12 11 13 12 13 13 12 13 11 12 13 13 11 12 11 12 11 14 12 14 12 11 12 13 11 13 Haremos primero un recuento de los datos y los ordenaremos en la tabla de frecuencias. Solución Calculamos la media. Tendremos que sumar los datos de la variable y dividir por el número total de datos, Página 18 de 40 pero si nos fijamos en los datos, vemos que varios están repetidos, es decir, su frecuencia absoluta es mayor que 1, por lo que resulta más fácil, multiplicar un determinado valor por su frecuencia. Es más fácil calcular 12 x 10 que sumar el valor 12 diez veces: aplicamos multiplicación en lugar de la suma reiterada. Si nos fijamos en la tercera columna, representa esta operación. Por lo tanto, la media quedará: x = 363 = 12,1 30 Calculamos la moda. Será el valor que tenga mayor frecuencia, ya que esto quiere decir que es el valor que más se repite. Luego, la media será Mo = 12 Calculamos la mediana. Como en este caso tenemos un número de datos par, será la media de los dos términos centrales, cuando estos estén ordenados. Los dos son el 12. Entonces, la mediana será: Solución Me = 12 + 12 = 12 2 Esta información que ofrecen los parámetros de centralización nos dice que estos datos están todos alrededor del valor 12. Surge, entonces, la siguiente pregunta: si todos están alrededor del valor 12, ¿son todos próximos a 12? Esta pregunta tiene sentido, si pensamos que para obtener 12 de media podemos partir de 2 y 22 o bien de 14 y 10. En ambos casos la media es 12, pero los datos de partida son bien diferentes. Esto hace necesario conocer más sobre los datos de la distribución, y para eso tenemos los parámetros de dispersión, que nos informarán de cómo están de aproximados los datos de la tabla Obtener las medidas de dispersión de la siguiente distribución de notas: 2 4 4 4 Recorrido o rango : 10-2= 8 DM = 7 9 9 10 x=6 2 − 6 + 4 − 6 + 4 − 6 + ...... 9 5 = 22 = 2,44 9 2 2 Var = (2 − 6 ) + (4 − 6 ) + ...... = 64 = 7,11 Solución σ 9 = 9 7,11 = 2,67 Después de obtener los parámetros veremos su significado. Conjuntamente, la media y la desviación típica nos informan de cómo están distribuidos los datos; en este caso de cómo son las notas de partida. La media vale 6 y la desviación típica, 2,67. Esto nos dice que entre 6 - 2,67 y 6 + 2,67, se encuentra la mayor parte de las notas, alrededor del 68 %, como se puede comprobar mirando los datos iniciales. El rango vale 8, y está marcándonos el tipo de datos de partida; las notas están muy dispersas. Tendremos en cuenta que para obtener un 6 de media, lo podemos hacer con un 2 y un 10, pero también con un 7 y un 5; en este caso el recorrido sería 2, mucho más corto. Página 19 de 40 Actividad propuesta S8. Dadas las distribuciones siguientes: Determine la media y la desviación típica de cada una. Represente en unos diagramas de barras cada distribución. Comente los resultados relacionando en cada caso la media y la desviación típica. Página 20 de 40 2.2 Probabilidad 2.2.1 Experimento aleatorio En nuestra vida diaria nos encontramos muchas veces con acontecimientos de los que no podemos predecir si ocurrirán o no. Dependen del azar. Intentaremos predecir el resultado de estos experimentos: lanzar un dado, jugar a la bonoloto, lanzar una moneda al aire y medir la longitud de una circunferencia de la que conocemos el radio. Experimento Es aquel en el que no se puede predecir el resultado antes de realizarlo. aleatorio Para estudiar el azar y sus propiedades, realizaremos experimentos aleatorios y analizaremos diferentes situaciones. Tomemos como ejemplo el lanzamiento de un dado. Los posibles resultados del lanzamiento de un dado serian: Todos estos resultados forman el espacio muestral: Y = {1,2,3,4,5,6} Todos los subconjuntos del espacio muestral se llaman sucesos. Algunos de ellos son: A = {1,2} B = {3,6} C = {2,4,6} Diremos, entonces, que experimento aleatorio es aquel que depende del azar. Espacio muestral Sucesos aleatorios Suceso elemental Suceso compuesto Son todos los posibles resultados de un experimento aleatorio. Son subconjuntos extraídos del espacio muestral. A continuación se exponen diferentes tipos de sucesos. Cada uno de los resultados posibles de un experimento. Cada suceso formado por dos o más elementos del espacio muestral. Página 21 de 40 Suceso El suceso que siempre se verifica. seguro Suceso imposible Suceso contrario El que no se realiza nunca. Si C es un suceso, llamaremos C , suceso contrario, al que se verifica cuando no se verifica C. Actividad resuelta Veamos en la práctica los conceptos que aparecen aquí. Tenemos un experimento aleatorio que consiste en lanzar al aire dos monedas; anotamos el resultado. El espacio muestral Y = { cc, cx, xc, xx} Sucesos elementales serán A ={ cc} B = {cx} C = {xc} D = {xx} Suceso compuesto, por ejemplo F = { cc, xc} Suceso seguro será el suceso Y, ya que se verifica siempre uno de los posibles resultados cuando hace- Solución mos un lanzamiento de dos monedas. Suceso imposible será G = {ccc}, ya que solo tenemos dos monedas, nunca pueden salir tres caras. Si queremos buscar un suceso contrario tendremos que partir de un cierto suceso. Si A = { cc} A Si F = {cc, xc} = { xc, cx, xx} F = { cx, xx} Actividades propuestas S9. Determinar si los siguientes experimentos son o no aleatorios. Lanzar una moneda al aire. Observar el número de días con lluvia de un mes. S10. Meter una botella en un cubo de agua y ver qué cantidad vierte. Medir una circunferencia de 2 cm de radio. Extraer una carta de una baraja. Tirar una piedra y medir su acele- ración. Gire la aguja de la ruleta y observa dónde para: ¿Cuál es el espacio muestral en casa caso? Escriba los sucesos elementales y un suceso compuesto. Ponga un ejemplo de suceso seguro para cada caso. Ponga un ejemplo de suceso imposible para cada caso. Página 22 de 40 S11. Lanzamos un par de dados sobre la mesa. Anote el espacio muestral y los siguientes sucesos: Suceso A: obtener una pareja de números iguales. Suceso B: obtener ocho puntos en la tirada. 2.2.2 Definición de probabilidad y propiedades La probabilidad de un suceso indica el grado de confianza que podemos tener de que acontezca. Lo expresaremos mediante un número comprendido entre 0 y 1. Para designar la probabilidad de un suceso S, pondremos P[S]. Cuando la probabilidad sea un número próximo a cero, el suceso será poco probable. Siempre que la probabilidad sea un número próximo a uno, será muy probable. Ejemplo. Se lanza 1 000 veces una moneda y 1 000 veces una chincheta. Resultados: Moneda Chincheta F es la frecuencia absoluta y h la frecuencia relativa. La suma de las frecuencias relativas siempre es 1 Observemos que, en el caso de la moneda, las frecuencias relativas de cara (c) y de cruz (x), son próximas a 0,5. El valor de la frecuencia relativa es muy próximo al valor de la probabilidad. h [c] ≈ 0,5 y a h[x] ≈ 0,5 Página 23 de 40 Entonces P[c] = 0,5 y P[x] = 0,5 Los sucesos cara y el suceso cruz son sucesos contrarios o complementarios. En el caso de la chincheta, las frecuencias relativas de P1 (punta hacia arriba) y P2 (hacia abajo) son muy distintas de 0,5. Sus probabilidades son números desconocidos, pero seguramente próximos a sus frecuencias relativas. Probabilidad de un suceso Es el número al que se acerca la frecuencia relativa cuando un experimento se repite un número grande de veces. Propiedades de la probabilidad: La suma de las probabilidades de los sucesos elementales de un espacio muestral es 1. La suma de la probabilidad de un suceso y la de su contrario es 1. 2.2.3 Ley de Laplace para el cálculo de la probabilidad Cuando estamos ante un experimento aleatorio en que todos los sucesos elementales tienen la misma probabilidad de salir, decimos que son equiprobables. Sería el caso del lanzamiento de un dado, todos los números tienen a misma probabilidad de salir. Si calculamos el espacio muestral, estamos ante un espacio de sucesos equiprobables. En esta situación la regla de Laplace dice lo siguiente: Regla de Laplace La probabilidad de que se verifique un suceso A es: Ejemplo: lanzamos un dado. Encontraremos la probabilidad de los siguientes sucesos: A = { 2, 4, 6} B = {3, 4} C = {2} Y = {1, 2, 3, 4, 5, 6 } A y B son sucesos compuestos, C es un suceso elemental e Y es el suceso seguro. El espacio muestral es Y = {1, 2, 3, 4, 5, 6}, por lo tanto, hay seis casos posibles. Se trata de un espacio de casos equiprobables y podemos aplicar la regla de Laplace. P[A]= 3 1 = 6 2 P[B]= 2 1 = 6 3 P [C ] = 1 6 P[Y]= 6 =1 6 Este último suceso es el suceso seguro, y su probabilidad es 1. Ejemplo: de una rifa se han vendido 1 000 papeletas numeradas del 1 al 1 000. ¿Cuál es la probabilidad de que me toque si he comprado una papeleta? ¿Y si compro siete? Página 24 de 40 Lógicamente, todas las papeletas tienen la misma probabilidad de salir. Si solo compro una papeleta, la probabilidad de ganar será: 1 1000 Si compramos siete papeletas tendremos siete oportunidades entre mil de ganar, por lo que la probabilidad será: 7 1000 Los casos favorables son las papeletas compradas en cada caso, y los posibles son el total de las papeletas de la rifa. Actividad resuelta En una bolsa que contiene una bola blanca y cien negras, sacamos una al azar. a) Si B es el suceso sacar bola blanca y N sacar bola negra, entonces ¿el espacio de sucesos Y ={ B,N } es un espacio de sucesos equiprobables? b) Escriba un espacio muestral correspondiente a esta experiencia aleatoria que esté formado por sucesos elementales equiprobables. Solución a) Evidentemente no, ya que tenemos más bolas negras que blancas. b) Si las bolas negras estuviesen numeradas, y el espacio fuese Y = {B, N1, N2,N3………….N100} Actividades propuestas S12. Indique en cada situación si es posible aplicar la regla de Laplace y, en caso positivo, escriba el espacio muestral correspondiente: Tirar una chincheta sobre la mesa y observar si cae con la punta hacia arriba o apoyada en la punta y en la cabeza. Extraer dos bolas consecutivas de una bolsa que contiene dos bolas blancas y una negra. S13. Un videoclub automático estropeado reparte al azar las películas entre los clientes. Si tiene 30 infantiles, 125 de acción, 200 dramas y 94 comedias, ¿cuál es la probabilidad de que la película sea comedia? ¿Y de que no sea drama? S14. Consideramos un experimento que consiste en lanzar un dado dodecaédrico con las caras numeradas del 1 al 12. Calcule las probabilidades siguientes: Sacar un 3 Sacar un múltiplo de 3 No sacar múltiplo de 3 Página 25 de 40 Sacar número negativo Sacar menos de 20 S15. Lanzamos dos dados y sumamos sus puntuaciones. Puede realizar un cuadro de doble entrada para no olvidar ningún resultado. ¿Cuál es la probabilidad de que la suma sea 2? ¿Cuál es la probabilidad de que la suma sea 1? ¿Có- mo se llama este suceso? ¿Cuál es a probabilidad de que la suma sea menor que 6? ¿Cuál es el suceso contrario? ¿Y su probabilidad? Página 26 de 40 3. Resumen de contenidos Página 27 de 40 4. Actividades complementarias S16. Indique para cada uno de los casos propuestos, la población, la variable y el tipo de variable. Peso al nacer de los niños nacidos en Lugo en 2007 S17. Profesiones que quieren tener los estudiantes de un centro Nº de animales de compañía en los hogares españoles Tiempo semanal dedicado por los vigueses a la lectura del periódico Nº de tarjetas amarillas en los partidos de la 10ª sesión de la liga actual Recogemos en una tabla los vehículos matriculados durante el mes de octubre de 2007, aproximadamente. ¿Cuál es el porcentaje de motocicletas matriculadas? Calcule el número exacto de vehículos matriculados si sabemos que el número de autobuses fue de 279. El conjunto de los vehículos matriculados ¿es población o muestra? ¿De qué tipo de variable se trata? S18. Mostramos la composición del organismo humano en dos edades de la vida. ¿Cómo varia el porcentaje de agua corporal? Si una persona de 25 años pesa 75 kg, ¿cuál es la cantidad de agua que compone su organismo? ¿Y de tejido graso? S19. Preguntados por el numero de libros leídos en el ultimo mes, un grupo de estudiantes respondió lo siguiente: Construya la tabla de frecuencias y realice el diagrama correspondiente. Página 28 de 40 S20. Contando el número de erratas por página en un libro, Ana contó estos datos: Nº de erratas 0 1 2 3 4 5 Nº de páginas 50 40 16 9 3 2 Determine la media y la desviación típica. ¿Cuál es la moda? ¿Cuál es el porcentaje de páginas con menos de dos erratas? ¿Y con más de dos? S21. Las tres distribuciones siguientes tienen la misma media. ¿Cuál es? A B C Sus desviaciones típicas son 3,8; 1,3; y 2,9. Observando las gráficas diga a quién corresponde cada una. S22. De cada una de las siguientes situaciones, indique si se le puede asignar probabilidad por la regla de Laplace, o no. Lanzar una moneda al aire En un equipo de fútbol, que un jugador meta un gol En un laboratorio farmacéutico, que un medicamento cure una enfermedad En una bolsa con tres bolas rojas y dos blancas, sacar una y mirar el color S23. En una fábrica de sifones se seleccionaron 100 sifones de la producción diaria y se comprobó que uno era defectuoso. ¿Qué probabilidad se le puede asignar al suceso sifón defectuoso? S24. Un experimento consiste en extraer una bola de una urna que contiene una bola roja, una amarilla, una azul y una verde. Escriba el espacio muestral y calcule la probabilidad de sacar una bola de cada color. S25. En una urna tenemos nueve bolas numeradas del 1 al 9. Extraemos una bola al azar. Determine la probabilidad de cada suceso: A = “sacar número par” y A = “sacar número impar” S26. B = “sacar número inferior a 15” C = “sacar número negativo” Realice una pequeña investigación sobre los juegos de azar, para comprobar cómo su práctica puede derivar en una enfermedad. Página 29 de 40 5. Ejercicios de autoevaluación 1. Un fabricante de tornillos analiza si cada tornillo es correcto o defectuoso. Indique el tipo de variable. 2. Continua. Cuantitativa. Diagrama de barras. Histograma. Diagrama de sectores. Diagrama de barras. Histograma. Diagrama de sectores. La media y la moda son: 6. Discreta. Tenemos que representar gráficamente una variable cualitativa, ¿qué diagrama la representa mejor? 5. Cualitativa. Tenemos que representar una distribución de variable discreta, ¿cuál es el mejor gráfico? 4. Continua. Un fabricante de tornillos mide los tornillos de una partida para calcular su media. ¿De qué tipo de variable se trata? 3. Discreta. Medidas de centralización. Medidas de dispersión. Miden las estadísticas. ¿Cuál es la media de la siguiente distribución: 2, 4, 4, 4, 5, 7, 9, 9, 10? 6 5 7 Página 30 de 40 7. ¿Y a desviación típica? 8. 3 2,4 2,6 Si tenemos la media y la desviación típica de una distribución, ¿cuántos datos hay en el in- (x − σ , x + σ ) ? tervalo 9. 40 % 50 % 68 % Lanzamos un dado. La probabilidad de obtener número par es: 1 3 1 2 1 10. La probabilidad de un suceso A es 0,6, la probabilidad de su contrario A será: 1 0,7 0,4 Página 31 de 40 6. Solucionarios 6.1 Soluciones de las actividades propuestas S1. A través de la página www.ine.es, podrá comprobar que el INE, es el Instituto Nacional de Estadística y encontrará a qué se dedica. S2. a) Población: bebés nacidos en la provincia de Barcelona. Variable estadística continua. b) Población: alumnado del centro escolar elegido. Variable estadística cualitativa. c) Población: número de partidos jugados en la liga. Variable estadística discreta. S3. Para realizar una muestra lo podemos hacer por sorteo, y diremos que es una muestra aleatoria simple. Si la población se divide en estratos que clasifican sus elementos (edad, tipo de trabajo, sexo) y conocemos su proporción, conviene respetar la proporción al elegir la muestra, se trata de una muestra estratificada. S4. Variable Frecuencia absoluta 0 9 1 10 2 12 3 9 4 8 5 2 Total 50 Variable Frecuencia absoluta MB 6 B 9 R 27 M 5 MM 3 Total 50 S5. Si sumamos el número de personas que responden M o MM, resultan ser 8. Página 32 de 40 Si sumamos el número de personas que responden B o MB, resultan ser 15, que son el 30 % del total. S6. Variable Frecuencia absoluta 0 0 1 2 2 6 3 9 4 18 5 22 6 24 7 12 8 7 total 100 Los alumnos que obtienen 5 puntos son 22 y representan el 22 % del total. Los alumnos que reciben 6 o más puntos son 24+12+7 = 43, y son el 43%. S7. S8. Notas. x = 6 σ = 3,27 Siendo la desviación típica 3,27, parece claro que los datos de esta tabla están bastante dispersos con respecto a la media, lo que se observa en el diagrama de barras: Página 33 de 40 Estaturas. x = 164 σ = 6,1 Aquí, por el contrario, tenemos poca desviación con respecto a la media, los datos están agrupados en torno a ella. S9. Lanzar una moneda y extraer una carta de la baraja son experimentos aleatorios; los otros no. S10. 1) Y = {1,2,3,4,5} Sucesos elementales A = {1}, B = {2}, C = {3}, D= {4}, F ={5} Suceso compuesto G = {1, 2} Suceso seguro = {sacar menos de 5} Suceso imposible = {sacar más de 6}. 2) Y = {verde, amarillo, azul, naranja, carne} Sucesos elementales A = {verde} Suceso compuesto {verde, carne} Suceso seguro ={sacar verde o carne o azul o naranja o amarillo} Suceso imposible ={rojo} S11. Espacio muestral Y = { (1,1,), (1,2),(1,3),(1,4),(1,5),(1,6),(2,1),..................................………(6,1), (6,2),(6,3),(6,4),(6,5),(6,6)} Suceso A = {obtener una pareja de números iguales} = {(1,1), (2,2), (3,3), (4,4), (5,5), (6,6)} Suceso B = {Obtener 8 puntos en la tirada} = { (2,6),(4,4), 6,2) } S12. En el caso de la chincheta, no se trata de sucesos equiprobables, como vimos en el ejemplo. En el caso de las bolas, tampoco, ya que el número de bolas blancas y negras es distinto. S13. p(sea comedia) = 94 449 Página 34 de 40 p(no sea drama) = 249 449 S14. p(sacar 3) = 1 12 p(sacar múltiplo de 3) = 4 12 p(no sacar múltiplo de 3) = 8 12 p(sacar negativo) = 0 ; p(sacar < 20) = 1 S15. p(suma sea 2) = 1 36 p(suma sea 1) = 0 Suceso imposible p(suma sea <6) = 9 36 Su suceso contrario será sacar mayor o igual a 6 y su probabilidad será Página 35 de 40 27 36 6.2 Soluciones de las actividades complementarias S16. 1) Población: niños nacidos en Lugo en el 2007. Variable: cuantitativa continua. 2) Población: el centro escolar. Variable: cualitativa. 3) Población: la población española. Variable: cuantitativa discreta. 4) Población: los habitantes de Vigo. Variable: cuantitativa continua. 5) Población: partidos jugados en la liga de fútbol. Variable: cuantitativa discreta. S17. Porcentaje de motocicletas matriculadas: 100 – 69-17-1,25-015-02.= 12,4. O sea, 12,4% Número total: 279 x 100: 0,15 = 186 000 en total. El conjunto de los vehículos es la población. La variable es cuantitativa discreta. S18. De agua, pasa de 62 a 53; disminuye en un 8,55 % (se calcula haciendo 53/62). Será el 62 % de 75 = 46,5 kg, y el 15 % de 75 = 11,25 kg de grasa. S19. S20. Media = 1,008 d.t. = 1,15 Moda = 0 erratas. Porcentaje con < 2 erratas = 90/120 = 75%. Y con más de 2 erratas el 15% restante Página 36 de 40 S21. La media es 7 y las desviaciones típicas, analizando la distribución de los datos, son: C va con 3,9; A va con 1,3; y B con 2,9. S22. Al lanzar una moneda al aire, sí. Que un jugador meta gol, no. Que un medicamento cure una enfermedad, no. En una bolsa con bolas, sí. S23. Suceso ={sifón defectuoso} = 0,01 S24. Y = {Roja, amarilla, azul, verde} P (sacar roja) = 0,25, e igual para cada uno de los otros. S25. p(A) = 4 9 p(sacar impar) = 5 9 p(B) = 1 p(C) = 0 S26. Este ejercicio pretende analizar las posibilidades de ganar en juegos de azar y comprobar que esta afición puede llegar a ser perjudicial. Página 37 de 40 6.3 Soluciones de los ejercicios de autoevaluación 1. Cualitativa. 2. Continua. 3. Diagrama de barras. 4. Diagrama de sectores. 5. Medidas de centralización. 6 6. 7. 2,6 Página 38 de 40 8. 68 % 9. 1 2 10. 0,4 Página 39 de 40 7. Bibliografía y recursos Bibliografía Matemáticas 3. Editorial Anaya. Ábaco. Matemáticas 3. Editorial SM. Enlaces de internet [www.ine.es] [http://descartes.cnice.mec.es/materiales_didacticos/estadistica_1_ciclo/indice.htm] [http://descartes.cnice.mec.es/materiales_didacticos/Azar_y_probabilidad/index.htm] [http://descartes.cnice.mec.es/materiales_didacticos/Calculadora_estadistica/manual.html] Otros recursos Calculadora y ordenador. Página 40 de 40