Reiman Acuña Jorge Chinchilla Escuela de Matemática Instituto Tecnológico de Costa Rica Estadística y Probabilidad para profesores de matemática 2015 Reiman Y. Acuña & Jorge L. Chinchilla. Compilación Probabilidad para profesores de matemática Alajuela, 27 de junio del 2016 Índice general 1 Estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1 Introducción 5 1.2 Histórica de la Estadística 5 1.3 Medidas de Tendencia Central 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 La media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . La media para frecuencias simples . . . . . . . . . . . . . . . La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media, mediana y moda de subgrupos combinados 1.4 Comparación de las Medidas de Tendencia Central 14 1.5 Medidas de variabilidad 18 1.5.1 1.5.2 1.5.3 Recorrido o amplitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Desviación estándar y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.1 La enseñanza de la probabilidad en secundaria 2.1.1 Historia de la Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2 Conceptos básicos de probabilidad 2.2.1 2.2.2 Experiencias Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2.3 Álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 . 9 10 11 12 13 27 29 2.3 Probabilidad 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 2.3.7 2.3.8 2.3.9 2.3.10 Función de probabilidad . . . . . . . . . . . . . . . Espacio probabilizable o σ −algebra . . . . . Regla de la suma . . . . . . . . . . . . . . . . . . . . . Propiedades de la probabilidad . . . . . . . . . Regla de multiplicación de probabilidades Probabilidad condicionada . . . . . . . . . . . . Teorema de la probabilidad total . . . . . . . . Sucesos independientes . . . . . . . . . . . . . . . La ley de los grandes números . . . . . . . . . . Teorema del Límite Central . . . . . . . . . . . . . Bibliografía 34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 38 38 40 41 44 46 50 50 51 1 — Estadística 1.1 Introducción Actualmente la Estadística es la ciencia que proporciona instrumentos e ideas que permiten utilizar los datos obtenidos por algún medio para profundizar en la comprensión de distintos temas. Pero etimológicamente la Estadística es la ?Ciencia del Estado?, porque desde la antigüedad los Estados han recogido datos sobre sus habitantes con los principales objetivos, aunque no únicos, como veremos, de recaudar impuestos o reclutar jóvenes para el ejército. Pero además de los signifi cados anteriores, la palabra ?estadística? también puede signifi car una colección de datos. Así pues, en muchas lenguas se usa la misma palabra para referirnos a la ciencia que estudia los datos y también para designar a los datos. Estos dos signifi cados se aprecian mejor si pensamos por un lado en la Estadística y por otro en las estadísticas. Y así, con las dos palabras, estadísticas y Estadística, llegamos a los dos grandes bloques en que se suele dividir a la Ciencia Estadística: la Estadística descriptiva y la Estadística inferencial. La Estadística descriptiva describe, representa y resume situaciones prácticas en las que existe incertidumbre y que atañen a colectivos con un número importante de individuos. Podrían ser personas, pero también podría tratarse de objetos producidos industrialmente o de resultados de la cosecha. La Estadística inferencial tiene por objeto obtener conocimiento de la población a partir de observaciones relativas a sólo una parte de ella, lo que se conoce como una muestra de la misma. 1.2 Histórica de la Estadística Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, datos relativos a la población y la riqueza del país. 6 Estadística De acuerdo al historiador griego Heródoto, dicho registro se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de conocer el número de la población. También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operaciones Estadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadística semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality (Observaciones Políticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico. Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación 1.2 Histórica de la Estadística 7 y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros. Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos. Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones. Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia. Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones. Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas. Estadística 8 1.3 Medidas de Tendencia Central Las medidas de tendencia central se utilizan con bastante frecuencia para resumir un conjunto de cantidades o datos numéricos a fin de describir los datos cuantitativos que los forman. En nuestra vida diaria, constantemente nos encontramos de manera más común con un concepto estadístico, el “promedio” . Continuamente estamos expuestos a reportes de promedios: salario promedio, nota promedio, peso promedio, hasta gol promedio. Sin embargo el promedio es una idea ambigua. Cuando se explora un conjunto desordenado de calificaciones de un examen de matemáticas, por ejemplo, para ver si su calificación es alta o baja o por encima o por debajo del promedio, está buscando información estadística relevante que le permitirá interpretar y evaluar su desempeño con más precisión y significado. Las medidas de tendencia central son también frecuentemente usadas para comparar un grupo de datos con otro, por ejemplo: el promedio de ventas obtenido por un grupo de vendedores de una zona, comparado con el promedio de ventas otro grupo de vendedores de otra zona, el promedio de reclamos de clientes de una sucursal, comparado con el promedio de reclamos de otra sucursal. Otras características generales de las medidas de tendencia central son las siguientes: Características 1 Permiten apreciar qué tanto se parecen lo grupos entre sí. 2 Son valores que se calculan para un grupo de datos y que se utiliza para describirlos de alguna manera. 3 Normalmente se desea que el valor sea representativo de todos los valores incluidos en el grupo. 4 Es el valor más representativo o típico de un grupo de datos, no es el valor más pequeño o el más grande, sino un valor que está en algún punto intermedio del grupo, más exactamente, se acerca a estar al centro de todos los valores, por ello se les llama medidas de tendencia central. 5 Se utilizan como mecanismo para resumir una característica de un grupo de datos en particular. 6 También para comparar un grupo de datos contra otro. Sin embargo, una medida de tendencia central o localización media de los conjuntos de datos está lejos y por mucho del tipo de índice estadístico más ampliamente utilizado. Las dos medidas de posición más usadas son la media aritmética, o promedio, y la mediana; en menor medida se usa la moda. Los cálculos se pueden hacer para datos simples, para datos ponderados o para datos agrupados en clases. 1.3 Medidas de Tendencia Central 1.3.1 9 La media La media, llamada también media aritmética, es la medida de tendencia central conocida popularmente como “promedio”. Se define como la suma de todos esos valores dividida por el número de ellos. La media aritmética puede ser simple o ponderada. Definición 1.1 (Media aritmética simple) Sean X1 , X2 , X3 , . . . , Xn−1 , Xn los n valores observados para una variable cuantitativa X. Entonces la media aritmética o promedio de la variable X, que se denota con una barra encima de X, es: X1 + X2 + X3 + . . . + Xn−1 + Xn X= n En notación de sumatoria, la media aritmética se escribe: X= 1 n ∑ Xi n i=1 1.1 Suponga que se tienen las notas obtenidas por un grupo de 20 estudiantes en un examen universitario y que sus valores (ordenados de menor a mayor) son: 15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92 Entonces la media es: X= 15 + 45 + 47 + 53 + 58 + 58 + 60 + · · · + 75 + 78 + 80 + 80 + 81 + 85 + 85 + 85 + 90 + 92 20 es decir, X= 1370 20 Por lo tanto, la nota promedio es 68,50. 1.3.2 Media ponderada A veces interesa dar diferentes pesos o ponderaciones a los diferentes valores de la variable, de acuerdo con su importancia. Ante esto, tenemos la siguiente definición Definición 1.2 (Media ponderada simple) Sean X1 , X2 , X3 , . . . , Xn−1 , Xn los n valores observados para una variable cuantitativa X, donde los datos están ponderados por los p1 , p2 , p3 , . . . , pn , es decir, estos valores pi dan la importancia relativa que tiene cada unidad estadística en el estudio. Estadística 10 Entonces la media ponderada de la variable X es : X= p1 X1 + p2 X2 + p3 X3 + . . . + pn Xn p1 + p2 + . . . + pn En notación de sumatoria, la media ponderada es: X= ∑ni=1 pi Xi ∑ni=1 pi 1.2 Supóngase que un estudiante tiene las siguientes notas en cuatro cursos matriculados un cuatrimestre: 67, 82, 90, 71. El número de créditos que vale cada curso es, respectivamente: 3, 2, 2, 4. Entonces la media ponderada de las notas será: X= 1.3.3 (3 × 67) + (3 × 82) + (2 × 90) + (4 × 71) 829 = = 75,36 3+2+2+4 11 La media para frecuencias simples Cuando los datos recolectados han sido organizados en una tabla de distribución de frecuencias simples, la media, para poblaciones como para muestras, se puede calcular por medio de la fórmula x= ∑ fx n en donde x = media o promedio ∑ fx = suma de las frecuencias por su correspondiente dato nominal. n = suma de todas las frecuencias (número de datos recolectados) Calificaciones x 0 1 2 3 4 5 6 7 8 9 10 Total f 2 3 3 6 8 9 17 22 10 6 5 91 1.3 Medidas de Tendencia Central 11 1.3 Las calificaciones de Matemáticas de los grupos ”A” y ”B” se muestran en la tabla de la derecha. Calcular el promedio (la media) obtenido por esos grupos. Solución: Debe añadirse a la tabla original una columna encabezada por f x en donde se anotarán los resultados correspondientes a las multiplicaciones de cada valor nominal x por su frecuencia f respectiva. Por ejemplo, para la primera fila de la tabla: f x = 2 × 0 = 0 La tabla completa con las tres columnas queda como se muestra a la derecha. La suma de los valores de la columna f x es Calificaciones 544, de manera que utilizando la fórmux la para el promedio,recordando que n es 0 la suma de todas las f , se obtiene: 1 544 2 x = 91 3 x = 5,97 4 5 6 7 8 9 10 Total 1.3.4 f 2 3 3 6 8 9 17 22 10 6 5 91 fx 0 3 6 18 32 45 102 154 80 54 50 544 La mediana La mediana es el valor que esta en el “centro” de todos los valores, si éstos se ordenan. Es decir, es un valor tal que no más de la mitad de las observaciones son mayores que él y que no más de la mitad son menores que él. La mediana se denota Me. Esto es Definición 1.3 (Mediana) Supóngase que se tienen las observaciones X X1 , X2 , X3 , . . . , Xn−1 , Xn de una variable cuantitativa y que estas observaciones están ordenadas. Entonces el valor de la mediana dependerá de si el número n de datos es par o impar: I Si n es impar, entonces la mediana se encuentra en la posición (n + 1) ÷ 2, que es exactamente la posición que separa los datos en dos grupos de igual cantidad: Me = X(n+1) 2 Estadística 12 II Si n es par, entonces la mediana estará entre la posición n/2 y la posición n/2 + 1, para que los datos se dividan en dos grupos de n/2 valores cada uno. Es usual entonces tomar la mediana como la media aritmética entre los datos Xn /2 + Xn /2 + 1, es decir: Me = (Xn /2 + Xn /2 + 1) ÷ 2 (Observe que ambos valores pueden coincidir). 1.4 Supóngase que se tienen los siguientes datos ordenados de una variable cuantitativa: −3, −3, −2, 0, 0, 1, 3 , 3, 5, 8, 8, 10, 10. Como hay n = 13 datos, que es un número impar, entonces la mediana está en la posición (n + 1) ÷ 2 = (13 + 1) ÷ 2 = 7 , es decir, que Me = 3. Esto significa que el 50 % de los datos son mayores o iguales que 3 y el otro 50 % de los datos on menores que 3. Nótese que a partir de la fórmula se obtiene la posición de la mediana y no el valor de ésta. 1.5 Consideremos las notas obtenidas por un grupo de 20 estudiantes universitarios: 15, 45, 47, 53, 58, 58, 60, 62, 67, 74 , 75 , 78, 80, 80, 81, 85, 85, 85, 90, 92 Como el número de datos es 20, que es par, entonces la mediana será la media aritmética entre los datos que están en la posición n/2 = 10 y la posición n/2 + 1 = 11. Estos datos son: 74 y 75. Entonces la mediana es: Me = (74 + 75) ÷ 2 = 74,5 1.3.5 La moda La moda es la medida de posición más simple de definir: Definición 1.4 (Moda) Dada una serie de observaciones para una variable cuantitativa, entonces la moda, denotada MO , es el valor más frecuente (si existe), o los valores más frecuentes (si son varios). Si un grupo de datos presenta una sola moda, diremos que es unimodal. Si presenta dos modas, diremos que es bimodal. La moda es la medida de posición que menos se usa por una sencilla razón: en muchas ocasiones no existe. Peor aún, cuando existe, frecuentemente no es única, sino que existen muchas modas para una misma serie de datos. Por lo tanto, advertimos al estudiante acerca de su uso y su interpretación. 1.3 Medidas de Tendencia Central 13 1.6 Consideremos de nuevo la siguiente serie de datos, correspondiente a las notas de un grupo de estudiantes: 15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92 Entonces la moda es 85, que tiene frecuencia 3. O sea, que la nota más frecuente es 85. 1.7 Supóngase que se tienen observadas las siguientes estaturas de 10 personas, en centímetros: 168, 162, 181, 180, 169, 171, 175, 159, 173, 160 Como no hay ningún valor que sea más frecuente que los demás, entonces la moda no existe. 1.8 En una pequeña empresa familiar, se tienen los siguientes salarios mensuales de los empleados, en miles de colones: 30, 35, 35, 35, 40, 90, 120, 120, 120, 150 Entonces hay dos modas: 35 y 120, ambas con frecuencia 3. 1.3.6 Media, mediana y moda de subgrupos combinados Suponga que se conocen la media, la mediana y la moda de calificaciones de examen para cada una de tres escuelas por separado (subgrupos), pero deseamos encontrar las tres medidas de tendencia central para el grupo compuesto (es decir, las tres escuelas combinadas en un grupo grande). Dadas las medidas de los tres subgrupos y sus respectivas n, podemos calcular la media compuesta (llamada media mayor simbolizada por X. ), mediante la ecuación: X. = N ∑ X1 + ∑ X2 + . . . + ∑ X j n1 + n2 + . . . n j Advertencia: A La media mayor no sólo es la media de las medias de los subgrupos a menos que los tamaños de las muestras de los subgrupos sean idénticas. La media mayor (X) de grupos medida diferente se calcula dividiendo la suma de las sumas de los subgrupos entre la suma de las n del grupo, como esta implícito en la ecuación anterior. B Las modas o medianas del conjunto de datos compuesto no puede calcularse a partir de las modas o medianas de los subgrupos. Para la moda y mediana , debemos tener los datos originales a la mano y formar una distribución de frecuencias combinada simple antes de que la moda o la mediana de los datos agregados pueda encontrarse. Estadística 14 C Con muestras de subgrupos pequeños, la media, moda y mediana del grupo compuesto son simples de determinar. Si embargo, en el caso de conjuntos grandes de datos que están involucrados, solo la media mayor es razonablemente simple de calcular. Sólo la media se define algebraicamente por la ecuación X = ∑ X/n . 1.4 Comparación de las Medidas de Tendencia Central El propósito de las medidas de posición ( tendencia central) es resumir o representar un conjunto de datos. Dichas medidas se complementan y en conjunto, permiten una mejor descripción de las características de la distribución de los datos. El problema reside en escoger cuál de las medidas representa mejor dicho conjunto de datos, para ello es necesario tener una idea acerca de la forma de su distribución. Las ventajas y limitaciones de usar la media, la moda y la mediana para describir un conjunto de datos depende estrictamente de la forma (tipo) de la distribución de datos. Siempre que se pueda usar, en general se prefiere la media para describir la tendencia central, aunque algunas distribuciones se describen mejor por medio de la moda y la mediana. A continuación evaluaremos la aplicabilidad de nuestros tres “promedios” a diferentes tipos de distribuciones. Comparaciones 1 En una distribución normal (simétrica), la media, moda y mediana tienen un valor idéntico (Figura 1). Esto en realidad es evidente, dado que una distribución normal es perfectamente simétrica, y la curva tiene un sólo punto máximo (moda) que también se encuentra en el centro. Así, la media debe ser nuestra medida preferida de tendencia central para los conjuntos de datos que se distribuyen normalmente, puesto que es más fácil de calcular y de usar en forma matemática. Figura 1 2 Una distribución bimodal tiene dos puntos máximos (Figura 2). Esto hace que la media 1.4 Comparación de las Medidas de Tendencia Central y la mediana no sean de utilidad, puesto que sus valores estarán en algún lugar entre los dos puntos máximos y distorsionarán enormemente la descripción de la distribución. La moda, y observe que en este caso hay dos modas, pasa a ser la única medida útil de tendencia central. Sin embargo, una distribución bimodal es poco común y en general podemos decir que consta de dos distribuciones que se pueden analizar en forma independiente. 3 Si hay mucha asimetría, se debe evitar usar la media, ya que ésta es muy sensible a la presencia de valores extremos. Cuando se describen distribuciones asimétricas (sesgadas) positivas o negativas, la media no es la mejor medida de tendencia central disponible. Mientras mayor sea la asimetría o sesgo de los datos, mayor utilidad tendrá la mediana (y más engañosa será la media), porque la mediana estará más cerca del “valor promedio” real de las observaciones. Por ejemplo, en el caso de una distribución asimétrica positiva, la media se encuentra “inflada” por la minoría de las observaciones que tienen un valor mayor. Esto sucede, por ejemplo, con el ingreso percápita, puesto que las distribuciones del ingreso son asimétricas positivas. En las siguientes figuras se muestran las posiciones relativas de la media, la moda y la mediana en cuatro distribuciones asimétricas. Figura 2 Observe que cuando la distribución es asimétrica “positiva”, (es decir, el extremo más largo de la distribución apunta hacia el este o hacia su derecha), la moda está a la izquierda de la mediana, y a su vez, la mediana está a la izquierda del promedio. Sucede 15 Estadística 16 lo contrario cuando la distribución es asimétrica negativa o sesgada negativamente. Esto nos lleva a una consideración final: si una distribución es asimétrica, es decir, notoriamente sesgada, la mediana será mejor que la media (promedio aritmético) para describir la tendencia central de la distribución de los datos. Observe las figuras anteriores. Note que en todas las distribuciones asimétricas, la mediana efectivamente se acerca más que la media al valor “promedio” o “normal” de las observaciones o, en otras palabras, refleja mejor la existencia de un sesgo en los datos. Para elegir una medida de posición en un grupo de datos, las siguientes consideraciones pueden ser de utilidad: Consideraciones 1 La media de un conjunto de datos es la medida que conlleva mayores cálculos aritméticos y su valor está afectado por los valores individuales de todos los datos, mientras que la mediana y la moda pueden no ser afectadas por todos los valores. Por ejemplo, véase el siguiente conjunto de datos, en el que el último valor es aumentado: Datos 1, 2, 4, 4, 4, 6, 7, 8 1, 2, 4, 4, 4, 6, 7, 26 Media 36 ÷ 8 = 4,5 54 ÷ 8 = 6,75 Mediana 4 4 Moda 4 4 Puede observarse que la media cambia (es sensible al valor extremo 26), mientras que la moda y la mediana permanecen iguales. 2 En grupos pequeños, la moda puede ser muy inestable o puede no existir. 3 La mediana no se afecta por el tamaño de los valores por encima o por debajo de ella. 4 La media es influida por el tamaño de cada valor en el grupo de datos. 5 Algunos grupos de datos simplemente no manifiestan una posición en forma significativa, siendo en este caso engañoso calcular una medida de posición. 6 La posición de grupos de datos con valores extremos se mide probablemente mejor por la mediana, si las observaciones son unimodales. Sin embargo, si lo que se quiere es que la medida utilizada refleje el efecto de los valores extremos, entonces es conveniente utilizar la media. 7 La media aritmética es muy útil para estimar la suma total de las observaciones si se conoce el número de observaciones. 1.4 Comparación de las Medidas de Tendencia Central 17 Ejercicios 1.1 1.1 Los 16 ejecutivos de una empresa ganaron los siguientes salarios para un mes determina- do: 170000 205000 190000 170000 215000 200000 170000 250000 300000 170000 250000 300000 185000 280000 190000 280000 a.) Calcule la media, la mediana y la moda e interprételas desde el punto de vista del problema b.) ¿Qué tipo de asimetría tiene la distribución? ¿Por qué? 1.2 En un curso se han hecho 6 exámenes cortos (quices), y tres estudiantes obtuvieron las siguientes notas: Estudiantes A B C 90 77 88 85 78 72 Notas 83 12 82 83 10 90 75 77 72 90 85 85 a.) Calcule todas las medidas de posición. b.) Si usted fuera el estudiante A, ¿qué medida de posición escogería para tener la nota máxima? c.) Si usted fuera el estudiante B, ¿qué medida de posición escogería? d.) Si usted fuera el estudiante C, ¿qué medida de posición escogería? 1.3 Repecto a los siguientes datos, que corresponden al tiempo, en minutos, redondeado a la unidad inferior, que duran 30 empleados para ensamblar ciertas piezas: 10 15 12 14 18 10 15 9 17 13 14 16 17 14 12 16 9 11 12 15 16 14 11 12 11 13 14 13 11 15 a.) Construya una distribución de frecuencias completa usando 5 clases, tal que la primera clase tenga límite inferior 9 b.) ¿Qué porcentaje de empleados duran menos de 15 minutos? c.) Construya el histograma correspondiente a la distribución de frecuencias d.) Calcule la media, la mediana, la moda, la desviación estándar y la varianza 1.4 Considere la siguiente tabla de frecuencias que muestra el tiempo que se requiere para pocesar órdenes de alimentos en un restaurante Tempo (minutos) 5 a menos de 8 8 a menos de 11 11 a menos de 14 14 a menos de 17 17 a menos de 20 Número de órdenes 10 17 12 6 2 Estadística 18 a.) ¿Qué porcentaje de órdenes se procesan en menos de 14 minutos? b.) Construya el polígono de frecuancias acumuladas “menos de”. c.) Calcule la media, la mediana, la moda, la desviación estándar y la varianza 1.5 Medidas de variabilidad En el apartado anterior se estudiaron las medidas de tendencia central, que son un indicador de cómo los datos se agrupan o concentran en una parte central del conjunto. Sin embargo, para una información completa de dicho conjunto de datos hace falta saber el comportamiento opuesto, es decir, de qué manera se dispersan o se alejan algunos datos de esa parte central. Para tener una idea de ello, es necesario medir el grado de variabilidad o dispersión de los datos. Las medidas de variabilidad, también llamadas medidas de dispersión, miden qué tan concentrados está los datos de una variable cuantitativa alrededor de la medida de posición. Es decir, la variabilidad o dispersión nos indica si esas puntuaciones o valores están próximas entre sí o si por el contrario están o muy dispersas. Si el valor de la medida de variabilidad es pequeño, entonces los datos se parecen mucho entre sí. En el caso contrario, hay muchos datos diferentes o están muy dispersos. Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar una medida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos. Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos. Una segunda razón para estudiar la variabilidad de una serie de datos es para comparar como están esparcidos los datos en dos o más distribuciones. Por ejemplo, al tomar las temperaturas en una región “A” durante diferentes épocas del año y a distintas horas del día, se registraron los datos que se muestran en la columna “A” ; por su parte, las de otra región diferente “B”, son las de la columna “B” . 1.5 Medidas de variabilidad 19 Promedio A 19,3◦ 20◦ 20,2◦ 20,4◦ 21◦ 21,3◦ 21,3◦ 22◦ 20,68◦ B −3◦ 0◦ 6◦ 22◦ 31,5◦ 34◦ 36◦ 39◦ 20,68◦ Al obtener la media, en ambos casos resultó que la temperatura promedio fue de 20,68, cuya interpretación podría ser que en torno, al rededor o cerca a 20,68 fluctúan los demás valores. Como puede verse, eso es bastante aproximado para los datos de la columna “A”, no así para los de la “B”. Los datos más alejados en “A” son 19.3º y 22º, que realmente están próximos a 20.68º; en cambio, los datos más alejados en “B” son -3º y 39º, que están muy distantes del promedio. ¿Por qué si en ambos casos se tiene igual promedio, no se puede afirmar lo mismo de los valores que están a su alrededor?. La respuesta está en que no se ha tomado en cuenta la dispersión, es decir, la manera en que se disgregan los datos respecto de la media, pues en “A” casi no se dispersan mientras que en “B” sí, .Cabría decir que el conjunto de datos “A” es bastante compacto mientras que el “B” es muy dilatado. Las medidas de variabilidad más usadas son la amplitud o recorrido, la desviación estándar, la varianza y el coeficiente de variación. Al igual que las medidas de posición pueden calcularse para datos simples o datos agrupados en clases. 1.5.1 Recorrido o amplitud Definición 1.5 (Recorrido o Amplitud) El recorrido o amplitud de una serie de datos es la diferencia entre el valor máximo (M) y el valor mínimo (m) de esa serie. También se conoce como rango y se denota como A. Luego, A = M−m Cuanto mayor sea la amplitud, mayor será la dispersión de los datos de una distribución. A pesar de lo simple de su cálculo, el recorrido no es muy usado debido a que presenta la dificultad de que su valor depende de los valores extremos del conjunto de observaciones a que se refiere. En efecto, como sólo se utilizan dos observaciones para su cálculo, puede suceder que todos los valores de las observaciones sean muy homogéneos, excepto los dos extremos, el mayor y el menor, que son precisamente los dos casos que se usan para calcular el recorrido. Por otra parte, la introducción de nuevas observaciones puede afectar su valor ya que entre las nuevas observaciones puede haber valores mayores que M o valores menores que m, por lo que el valor de A se aumentaría. Estadística 20 En los casos de las temperaturas del ejemplo anterior, el rango de “A” esR = 22 − 19,3 = 2,7, en cambio, el de “B” es B = 39 − (−3) = 42. 1.5.2 Desviación estándar y varianza Definición 1.6 (Desviación Estándar) La desviación estándar es el promedio de desviación o diferencia de las observaciones con respecto a la media aritmética. Se denota como s. Cuanto mayor es la dispersión de los datos alrededor de la media aritmética, mayor es la desviación estándar. La desviación estándar es: r s= ∑ni=1 (Xi − X)2 n−1 donde : Xi son los datos X es la media n número total de datos la fórmula anterior se puede simplificar como: s 1 n 2 n s= Xi − (X)2 ∑ n − 1 i=1 n−1 Definición 1.7 (Varianza) La varianza es una medida muy importante para la inferencia estadística, es el cuadrado de la desviación estándar y se denota s2 . O, lo que es lo mismo, la desviación estándar es la raíz cuadrada positiva de la varianza. 1.9 Consideremos el ejemplo de las notas obtenidas por un grupo de 20 estudiantes en un examen universitario: 15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92 Teníamos que la media de estos datos es 68,50. Para calcular la varianza, primero calculamos la suma de los cuadrados de los datos: 20 ∑ = 152 + 452 + 472 + . . . + 902 + 922 = 100714 i=1 1.5 Medidas de variabilidad 21 Entonces la varianza (de la muestra) es: s2 = 100714 20 − (68,5)2 = 361,53 19 19 Luego, la desviación estándar (de la muestra) es: p s = 361,53 = 19,01 La desviación estándar se interpreta como “cuánto se desvía -en promedio- con respecto a la media aritmética, un conjunto de observaciones”. En el ejemplo, las notas de los estudiantes se desvían -en promedio-en 19.01 puntos con respecto a la media aritmética. El lector debe observar que las unidades de medida de la varianza son el cuadrado de las unidades de medida de la variable observada, por lo que su interpretación práctica debe ser cuidadosa. Para una comparación con la media o con los datos, debe usarse la desviación estándar. 1.10 Tú y tus amigos han medido las alturas de tus perros (en milímetros): Figura 3 Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm. Calcula la media, la varianza y la desviación estándar. X= 600 + 470 + 170 + 430 + 300 = 394 5 así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico: Figura 4 Estadística 22 Ahora calculamos la diferencia de cada altura con la media: Figura 5 Para calcular la varianza: s2 = (206)2 + (76)2 + (−224)2 + 362 + (−94)2 = 27130 4 Así que la varianza es 21 130. Y la√ desviación estándar es la raíz de la varianza, así que: s = 21130 = 145,36 ahora veremos qué alturas están a distancia menos de la desviación estándar (145mm) de la media: Figura 6 Así que usando la desviación estándar tenemos una manera “estándar” de saber qué es normal, o extra grande o extra pequeño. Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos... Nota: ¿por qué al cuadrado? Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar que los números negativos reduzcan la varianza) 1.5.3 Coeficiente de variación Las medidas de variabilidad que se han mencionado están afectadas por la unidad de medida en que se expresa la variable. Con frecuencia interesa comparar dos o más series de observaciones en 1.5 Medidas de variabilidad 23 cuanto a su dispersión y para ello se requiere eliminar el efecto de las unidades de medida y de la magnitud general de los datos que se consideran. Definición 1.8 El coeficiente de variación mide la variabilidad porcentual o relativa de un conjunto de datos respecto a su media. Se denota CV : CV = s × 100 X El coeficiente de variación sirve para comparar la variabilidad de diferentes conjuntos de datos, y es particularmente útil cuando: Utilidad 1 Los datos están en unidades diferentes. 2 Los datos están en las mismas unidades, pero las medias son muy diferentes. 1.11 Dos empresas de la industria electrónica, A y B, tienen en el mercado de valores acciones comunes. El precio medio de cierre en el mercado de valores durante un mes fue, para la acción A, de ¢15000, con desviación estándar de ¢500. Para la acción B, el precio medio fue de ¢5000, con desviación estándar de ¢300. Haciendo una comparación absoluta, resultó ser superior la variabilidad en el precio de la acción A debido a que muestra una mayor desviación estándar. Pero, con respecto al nivel de precios, deben compararse los respectivos coeficientes de variación: sA CV (A) = × 100 = (500/15000) × 100 = 3 % XA sB CV (B) = × 100 = (300/5000) × 100 = 6 % XB Por ello, puede concluirse que el precio de la acción B ha sido casi 2 veces más variable que el precio de la acción A (con respecto al precio medio para cada una de las dos acciones). Ejercicios 1.2 1.5 Calcule la desviación estándar para los datos que se refieren a los salarios de 16 ejecutivos de una empresa del ejemplo ya realizado. 1.6 Considere las notas de tres estudiantes del ejercicio visto en este documento. ¿De cuál de los tres estudiantes podría decirse que tuvo notas más homogéneas? Estadística 24 1.7 En una empresa, una muestra de 20 trabajadores calificados tienen un salario mensual medio de ¢55000, con una desviación estándar de ¢67970. En la misma empresa, el salario mensual medio de una muestra de supervisores es de ¢146150, con una desviación estándar de ¢91040. Compare la variabilidad de los salarios de los trabajadores de la empresa. 1.8 Tras encuestar a 25 familias sobre el número de hijos que tenían, se obtuvieron los siguientes datos Número de hijos Número de familias 0 5 1 6 2 8 3 4 4 2 Calcular la media, la varianza, la desviación típica y el coeficiente de variación de Pearson. 1.9 Un fabricante de neumáticos ha recabado, de los diferentes concesionarios, información sobre la cantidad de miles de kilómetros recorridos por un modelo concreto de esos neumáticos hasta que se ha producido un pinchazo o un reventón del neumático. Los concesionarios la han proporcionado los siguientes datos: a.) Construir una taba de frecuencias para esos datos tomando como número de intervalos el que proporciona la fórmula de Sturgessa . Interpretas la tabla. b.) Construir las tablas de frecuencias acumuladas ascendente y descendente. c.) Dibujar el histograma de frecuencias relativas sin acumular y acumulado. d.) Calcular las principales medidas de tendencia central e interpretarlas. e.) Obtener las medidas de dispersión más importantes e interpretarlas. f.) Analizar la asimetría y el apuntamiento de la distribución de frecuencias resultante. g.) Si el fabricante quiere proponer un kilometraje para realizar el cambio de neumáticos, 1.5 Medidas de variabilidad ¿qué valor propondría para que solo 3 de cada 10 coches hayan tenido un pinchazo o reventón antes de ese kilometraje? a La fórmula de Sturgess propone como número k de intervalos, para agrupar un conjunto de N observaciones en intervalos por k = 1 + [3,3 · log N] En este caso N = 100, luego k = 7. Al ser el valor mínimo 4.3068 se propone 4 como límite inferior del primer intervalo, y al ser 7 intervalos se propone como anchura 13 para cada uno de ellos, para que sea un valor entero, con lo cual el límite superior del último intervalo es 95 25 2 — Probabilidad 2.1 La enseñanza de la probabilidad en secundaria De acuerdo con el enfoque propuesto por el Ministerio de Educación Pública, se enfatiza la enseñanza basada en la experimentación y desarrollo de temas con fuerte apego a la contextualización del educando, por lo que la labor del docente no debe ser vista como el de “resolver” todos los problemas y ejercicios planteados en el salón de clase. De acuerdo con Batanero(2013), la enseñanza de la probabilidad en el nivel no universitario debe de estar marcado bajo una metodología experimental, en donde se plantea a los estudiantes situaciones probabilísticas bajo contextos prácticos y cercanos a su entorno. Se espera que ellos anoten lo que sucede a medida que realizan la actividad e ir descubriendo progresivamente que puede saberse “cuando un suceso es más probable” y “cuánto más probable es”. Esta autora señala que no debe abordarse el conocimiento de las fórmulas, ni que los estudiantes realicen cálculos probabilísticos desvinculados de la realidad, al contrario, se busca que ellos exploren sucesos y situaciones acordes a su entorno. La propuesta del Ministerio de Educación procura que los estudiantes logren mediante actividades concretas alcanzar ciertas nociones básicas de probabilidad, mediante orientaciones y actividades sobre su utilidad en diversos contextos (no sólo juegos de azar), posibilitando el desarrollo de problemas interesantes respecto a la toma de decisión y previsión, relacionados con problemas a los que tendrán que enfrentarse a lo largo de la vida. En este sentido, Batanero(2013) nos recuerda tener presente que el azar está en la vida cotidiana de muchos contextos en los que aparecen nociones de incertidumbre, riesgo y probabilidad. Hay situaciones en la vida diaria en las que no podemos saber qué resultado va a salir, pero sí sabemos los posibles resultados; son situaciones que dependen del azar. Probabilidad 28 Al lanzar una moneda al aire no sabemos si saldrá escudo o corona, pero sí conocemos los posibles resultados. Cuando lanzamos un dado no sabemos el número que saldrá, pero sabemos que hay seis posibles resultados. El próximo partido de la Selección Nacional, no sabemos el marcador, pero sabemos que hay tres posibles resultados, así como el pronóstico del tiempo, diagnóstico médico, estudio de la posibilidad de tomar un seguro de vida o efectuar una inversión, evaluación de un estudiante, etc. Así pues, consideramos importante que antes de iniciar este tema en nuestros salones de clase en los distintos colegios del país, es necesario dedicar un tiempo a investigar aspectos relacionados con el tema en estudio, que puedan resultar motivadores tanto para nosotros mismos como para los alumnos, de manera que logremos desarrollar el interés y la predisposición a la exploración en el tema de probabilidad. Sin embargo, debemos señalar que la Probabilidad por su parte, además de ser una disciplina íntimamente ligada a la Estadística ya que justifica su desarrollo formal y ha aumentado el alcance de sus aplicaciones, tiene la enorme cualidad, en sí misma, de ser capaz de representar adecuadamente la realidad de muchos procesos sociales y naturales. Su conocimiento es fundamental para la formación de un individuo capaz de comprender el mundo en que vivimos. A continuación algunos aspectos importantes..... 2.1.1 Historia de la Probabilidad El azar es inherente a nuestras vidas. Se nos presenta de distintas formas en múltiples situaciones cotidianas que exigen ser resueltas, recurriendo generalmente a la intuición. Pero las intuiciones en probabilidad con frecuencia nos engañan y una enseñanza formal es insuficiente para superar los sesgos de razonamiento que pueden llevar a decisiones incorrectas (Batanero, 2006) La idea de probabilidad surgió con los juegos de azar, como cartas, lanzamiento de dados, etc. Cuando la humanidad se enfrentaba a fenómenos para los que no se conocía su causa, como los asociados al clima, lluvias, tormentas, etc., o a la vida, como el sexo del bebé que va a nacer, las enfermedades, etc., se atribuían éstos a la voluntad de los dioses. Tal vez por ello los juegos de azar estuvieron prohibidos en muchas culturas antiguas. En el Renacimiento italiano del siglo XV, algunos científicos como Galileo (1564-1642) observaron que se producían regularidades en los resultados de repetir muchas veces el lanzamiento de dados. Gerolamo Cardano (1501-1576) escribió el primer libro sobre la teoría del azar. Se titulaba El libro sobre los juegos de azar. La percepción de Cardano sobre como trabaja el azar la expresó en el concepto de ?espacio muestral?. En ella se basó la descripción matemática de la incertidumbre en los siglos posteriores. Hasta el siglo XVII, hacia el 1651, no se realizó el estudio sistemático de un juego de azar. Lo realizaron Pascal (1623-1662) y Fermat (1601-1675) en Francia. Aunque los juegos de azar estaban 2.2 Conceptos básicos de probabilidad 29 prohibidos en esa época, se practicaban bastante. El Caballero de Meré, amigo de Pascal y jugador asiduo, preguntó a Pascal la razón por la que al lanzar dos dados ciertas sumas salían con más frecuencia que otras. Pascal y Fermat desarrollaron un método para calcular las probabilidades de las apuestas en los juegos de azar. Aunque estos estudios no parecían estar relacionados con los conocimientos matemáticos de esa época, ambos estaban convencidos de que llegarían a ser importantes en la ciencia que estudiara los fenómenos aleatorios. En los siglos XVIII y XIX los científicos se dieron cuenta que se podían estudiar los fenómenos aleatorios con los mismos métodos que se empleaban para estudiar los juegos de azar. Pero el avance más importante de la Estadística se debió a la necesidad de estimar cantidades desconocidas en la población a partir de los datos de las muestras. Este problema llevó a Gauss (1777-1855) a introducir la ?distribución normal? que usaría Quetelet (1796-1874) para estimar las características medias de los miembros de una comunidad. En Inglaterra, a finales del siglo XIX, Francis Galton (1822-1911), primo segundo de Darwin, y Karl Pearson (1857-1936) inventaron métodos para medir relaciones entre diversas variables e introdujeron la idea de regresión y de coeficiente de correlación. Desde mediados del siglo XIX, el desarrollo de la teoría de la probabilidad está muy relacionada, y en deuda, con los descubrimientos de científicos rusos, entre los que destacan Chevichev, Markov, Lyapunov y Bunyakovsky. Chevichev introdujo la ley de los grandes números que dice que cuando un experimento se realiza un número grande de veces, la frecuencia relativa tiende a la probabilidad del mismo. Markov introdujo las cadenas de su nombre, que son series de eventos en los que la probabilidad de que ocurra un evento depende del resultado del evento anterior. Lyapunov descubrió el teorema central del límite que expresa que para cualquier población (aunque no se distribuya normalmente) la distribución muestral de la media tiende a distribuirse normalmente cuando el tamaño de la muestra es suficientemente grande. Bunyakovsky desarrolló aplicaciones de la teoría de la probabilidad a la Estadística, en particular en el campo de los seguros y en la demografía. Escribió el primer curso ruso sobre probabilidad. 2.2 Conceptos básicos de probabilidad Hay situaciones en la vida diaria en las que no podemos saber qué resultado va a salir, pero sí sabemos los posibles resultados; son situaciones que dependen del azar. Al lanzar una moneda al aire no sabemos si saldrá escudo o corona, pero si conocemos los posibles resultados. Cuando lanzamos un dado no sabemos el número que saldrá, pero sabemos que hay seis posibles resultados. El resultado en el lanzamiento de una moneda o en el lanzamiento de un dado depende del azar. El lanzamiento de una moneda o de un dado es un fenómeno aleatorio. Qué el próximo niño que nazca en una clínica sea niño o niña es un fenómeno aleatorio, pero la hora de la salida del sol o las paradas por las que pasará el bus en la carretera no son fenómenos aleatorios porque conocemos de antemano lo que va a suceder. Llamamos fenómenos aleatorios a aquellos cuyos resultados dependen del azar. Es decir, son Probabilidad 30 fenómenos que no se pueden predecir con certeza, mientras que aquellos que son predecibles se llaman determinísticos. Cada uno de los resultados de un fenómeno aleatorio se llama suceso. Los sucesos posibles de lanzar dos monedas al aire son los que aparecen en el diagrama de árbol. Figura 7 2.2.1 Experiencias Aleatorias La probabilidad es un modelo matemático de los fenómenos aleatorios. Sin embargo, la cantidad de fenómenos aleatorios es tan grande que una teoría que los abarque a todos es imposible; con el fin de reducirlos se hablará en este trabajo de experiencias aleatorias. Definición 2.1 (Experiencia Aleatoria) Una experiencia aleatoria es un fenómeno que tiene tres características 1. Se conocen todos los posibles resultados antes de realizarse el experimento. 2. No se sabe cuál de los posibles resultados se obtendrá en un experimento particular. 3. El experimento puede repetirse. Veamos un ejemplo donde se implementas estas definiciones 2.1 El lanzamiento de un dado es un fenómeno aleatorio estudiado por la probabilidad, pues sus posibles resultados son 1, 2, 3, 4, 5 y 6. Además no se tiene certeza de cuál resultado se obtiene al lanzar el dado, y el dado se puede lanzar varias veces se desee en condiciones similares. 2.2 Conceptos básicos de probabilidad Ejercicios 2.1 2.1 Formen equipos de 5 personas y discutan cuáles de los siguientes fenómenos o experi- mentos se pueden repetir en condiciones similares y cuáles se pueden considerar experiencias aleatorias. 1. Se lanza una moneda y se observa la cara (Escudo, corona) que queda hacia arriba cuando queda en reposo. Se puede repetir No se puede repetir ¿Por qué? ¿Es una experiencia aleatoria? 2. Al lanzar un dado de seis puntos anotamos todos los resultados mayores que ocho. Se puede repetir No se puede repetir ¿Por qué? ¿Es una experiencia aleatoria? 3. En una bolsa metemos seis bolas rojas y seis azules, sacamos una y anotamos su color. Se puede repetir No se puede repetir ¿Por qué? ¿Es una experiencia aleatoria? 4. Al extraer una carta de la baraja observamos si sale un As. Se puede repetir No se puede repetir ¿Por qué? ¿Es una experiencia aleatoria? 2.2.2 Espacio muestral y eventos Definición 2.2 (Espacio Muestral) Es el conjunto de todos los posibles resultados, este se denota: Ω Definición 2.3 (Eventualidad) Es un resultado particular, es decir un elemento de Ω : x es una eventualidad ⇔ x ∈ Ω Definición 2.4 (Evento) Es un conjunto de resultados, es decir un subconjunto de Ω : A es una evento ⇔ A ⊆ Ω Definición 2.5 (Ocurrencia de un evento) Se dice que un evento ocurre si sucede una y solo una de sus eventualidades. 31 Probabilidad 32 Definición 2.6 (Evento casi seguro) Ω Definición 2.7 (Evento casi imposible) 0/ 2.2 Considere el experimento “Tirar un dado ” El espacio muestral es: Ω = {1, 2, 3, 4, 5, 6} Observe que 6 es una eventualidad. Algunos eventos son: A: el resultado del dado es impar, B : el resultado del dado es mayor a 4 Note que: A = {1, 3, 5} ⊆ Ω, B = {5, 6} ⊆ Ω Si el resultado del dado es 3 entonces se dice que el evento A ocurre, el Evento B no ocurre. Teorema 2.1 (Eventos Compuestos) Si A y B son eventos entonces: A ∪ B, A ∩ B, A r B y A4B son eventos 2.3 Se tiene una canasta con 15 bolas enumeradas del uno al quince. Las bolas con número del 1 al 7 son rojas y las demás son verdes. Considere el experimento que consiste en elegir una bola al azar de la canasta. Dados los eventos: A: la bola elegida es verde B : la bola elegida es roja C : la bola elegida tiene un número par entonces: el evento B ∪C ocurre si la bola elegida es roja o tiene número par, el evento A ∩C ocurre si la bola elegida es verde con número par, el evento C r A ocurre si la bola elegida es roja con número impar y el evento C4B ocurre si la bola elegida tiene número par ó es roja. 2.4 Una bolsa contiene bolas blancas y negras. Se extraen sucesivamente tres bolas. 2.2 Conceptos básicos de probabilidad E = {(b, b, b); (b, b, n); (b, n, b); (n, b, b); (b, n, n); (n, b, n); (n, n, b); (n, n, n)} Ejercicios 2.2 2.2 En los mismos grupos formados en los ejercicios 2.1, resuelva lo siguiente: 1. El suceso A = {extraer tres bolas del mismo color}. 2. El suceso B = {extraer al menos una bola blanca}. 3. Se lanza un dao una sola vez. Responda las siguientes preguntas: a) ¿Puede ocurrir el evento formado por los resultados {1, 2, 3, 4, 5, 6}? Si No ¿Por qué? b) ¿Puede ocurrir el evento formado por 1 o 2? Si No ¿Por qué? c) ¿Es posible que ocurra el evento sale el número par y sale número primo? Si No ¿Por qué? 2.3 Considerar el experimento de lanzar dos dados de forma consecutiva y se registrar los números que aparecen en cada dado (36 casos posibles). S = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6))} Marcar los resultados que corresponden a los siguientes eventos: I ) Evento A = “No sale seis ”. II ) Evento B = “Sale exactamente un seis”. III ) Evento C = “Salen exactamente dos seis”. IV ) Evento D = “Sale al menos un seis”. 33 Probabilidad 34 2.2.3 Álgebra de eventos Sean A y B dos eventos de una experiencia aleatoria con espacio muestral Ω; a partir de esos dos eventos se pueden definir en términos de la ocurrencia de A y B. El evento complementario de A es el evento Ac , se dice que Ac ocurre cuando A no ocurre. Se dice que A y B son eventos mutuamente excluyentes cuando no pueden ocurrir simultáneamente, ésto es A ∩ B = 0/ 2.3 Probabilidad Dado un experimento, la probabilidad o medida de posibilidad de que ocurra un evento determinado A será un número entre 0 y 1, que se interpreta como un porcentaje. Así si la probabilidad de A es 0.8, esto indica que el evento tiene un 80 % de posibilidad de ocurrir. ¿Cómo determinar intuitivamente la probabilidad de que ocurra un evento? Para que la probabilidad sea útil debe existir una correspondencia entre la probabilidad y la realidad, es decir si el experimento se repite varias veces, la frecuencia relativa observada con que ocurre un evento debe ser cercana a la medida de la posibilidad de que ocurra ese evento. Está frecuencia relativa observada se le llamará probabilidad frecuencial, la cual se espera que, bajo ciertas condiciones, se aproxime a la probabilidad de que ocurra el evento (llamada probabilidad teórica) Definición 2.8 (Definión clásica de probabilidad) Ley de Laplace: Dado un experimento aleatorio con un espacio de n sucesos elementales Ω, la probabilidad del suceso A, que designamos mediante P(A), es la razón entre la cantidad de casos favorables para la ocurrencia de A y la de casos posibles. En otros términos P(A) = |A| |Ω| 2.5 Dado el fenómeno de lanzar un dado, ¿Cuál es la probabilidad de que salga un 6? Se lanza un dado 100 veces y se observa que en 15 veces se obtiene un 6, por lo tanto la probabilidad 15 frecuencial observada de obtener un 6 es = 15 % que es cercana a la probabilidad teórica 100 1 de = 16.6 %, la que en las próximas secciones veremos cómo obtener. Pero, ¿cuántas veces 6 debe repetirse el experimento para que la probabilidad frecuencial se acerque a la real? 2.3 Probabilidad 35 2.6 (¿Juegas o no?) En las fiestas cívicas de Zapote hay un puesto donde por 1000 colones se puede jugar DADOS A SEIS. Este juego consiste en lazar dos dados distintos, si la suma de los resultados de los dados es menor igual a 6 se gana el juego sino se pierde. Karla, Jorge y Anthony desean determinar si vale la pena jugar el juego, para ello deciden que cada uno juegue veinte veces DADOS A SEIS obteniendo los siguientes resultados: # de veces que se ganó Probabilidad frecuencial de ganar ¿Vale la pena Jugar? # de veces que se ganó probabilidad frecuencial de ganar ¿Vale lapena jugar? Karla 7 7 = 35 % 20 No Jorge 10 10 = 50 % 20 Es Indiferente Anthony 12 12 = 60 % 20 Si Se puede apreciar que los resultados obtenidos utilizando la probabilidad frecuencial son muy distintos. Tal parece que algunas probabilidades frecuenciales no se acercar al valor real de la probabilidad. ¿Cuál es realmente la probabilidad de ganar DADOS A SEIS? El último ejemplo revela que no necesariamente la probabilidad frecuencial se va a acercar a la probabilidad real. Entonces ¿qué condiciones deben cumplirse para que la frecuencia relativa observada se acerque a la probabilidad teórica? Las condiciones las establece la Ley de los Grandes Números: Dado un experimento, sea A un evento. Si el experimento se repite un número suficientemente grande de veces, entonces la probabilidad frecuencial de A será muy cercana al valor real de la probabilidad. Curiosidades 1 El naturalista francés Count Buffon (1707-1788) lanzó una moneda 4040 veces. Resultado: 2048 caras, proporción 2048/4040=0,5069 o 50,69 % de caras. 2 Alrededor del 1900, el estadístico inglés Karl Pearson ¡lanzó una moneda 24 mil veces! Resultado: 12012 caras, proporción 12012/24000=0,5005 o 50,05 % de caras. 3 Durante la II guerra mundial, el matemático australiano John Kerrich, mientras estaba en prisión lanzó una moneda 10 mil veces. Resultado: 5067 caras, proporción 5067/10000=0,5067 o 50,67 % de caras. Probabilidad 36 Definición 2.9 (Condiciones de una Probabilidad) Si Ω es el espacio muestral y A es un evento, entones: 1. 0 ≤ P(A) ≤ 1 2. P(0) / = 0 y P(Ω) = 1 3. P(a1 ) + P(a2 ) + . . . + P(an ) = 1; donde Ω = {a1 , a2 , . . . , an } 2.7 Lanzamos un dado normal al aire. Consideramos el suceso A= “sale par”. Calcular P(A). Casos posibles hay 6, pues Ω = {1, 2, 3, 4, 5, 6} . Casos favorables al suceso A = {2, 4, 6} Por tanto P(A) = 3 1 = = 0,5 6 2 (Notemos que la probabilidad siempre es un número positivo y menor, o a lo sumo, igual a 1). Ejercicios 2.3 2.4 De una urna que contiene 8 bolas rojas, 5 amarillas y 7 verdes se extrae una bola al azar. Calcula la probabilidad de que la bola extraída sea a.) roja b.) verde c.) amarilla 2.5 Una caja contiene una bola roja, una negra y una verde. Considerar el experimento sacar dos bolas de la siguiente manera: se extrae una bola al azar y sin restituirla se saca otra bola al azar. Considere los siguientes eventos: A0 ={no se obtiene ninguna bola roja} A1 ={ se obtiene exactamente una bola roja} A2 ={ se obtienen dos bolas rojas} Encontrar las probabilidades de A0 , A1 , A2 2.6 Se lanzan dos dados no cargados de manera simultanea, determine: 2.3 Probabilidad 37 ¿Cuál es la probabilidad de obtener dos pares? R/ 14 ¿Cuál es la probabilidad de obtener suma par?R/ 21 ¿Cuál es la probabilidad de obtener suma impar?R/ 21 ¿Cuál es la probabilidad de obtener un 2 o un 5? ¿Cuál es la probabilidad de obtener suma mayor que 4? 2.7 Se arrojan dos dados. Sea A el evento de que la suma de las caras es impar; B el evento de que sale por lo menos un número 1. Describir los eventos: a.) A ∪ B b.) A ∩ B c.) A ∩ Bc 2.8 Una rifa del cole consiste en sacar una ficha al azar de una urna que contiene 100 fichas enumeradas del 1 al 100. Se define el evento A como el número de la ficha extraída que contenga entre sus dígitos la cifra 5. Calcular: a.) P(A) b.) P(Ac ) a.) b.) c.) d.) e.) 2.3.1 Función de probabilidad Para definir la función de probabilidad, que toma un evento y le asigna un valor que indique la posibilidad de ocurrencia, es necesario poner condiciones sobre su dominio, el cual es un conjunto de eventos o sea un subconjunto de P(Ω). 2.3.2 Espacio probabilizable o σ −algebra Definición 2.10 (σ −algebra) Sea A un conjunto de eventos, es decir A ⊆ P(Ω)a . Se dice que A es un espacio probabilizable o una σ −algebra sobre Ω si y solo si cumple los siguientes axiomas: Axioma 1 Ω ∈ A Axioma 2 X ∈ A ⇒ X ∈ A Axioma 3 X,Y ∈ A ⇒ X ∪Y ∈ A a Se denota con P(X) el conjunto de subconjuntos de Ω, para diferenciarlo de P(X), la probabilidad de X 2.8 Los conjuntos {0, / Ω} y P(Ω) son σ −algebra sobre Ω. Probabilidad 38 2.3.3 Regla de la suma Teorema 2.2 (Regla de la suma) La probablidad de la suma de dos sucesos mutuamente excluyentes (incompatibles )A y B es la suma de sus probabilidades, es decir P(A ∪ B) = P(A) + P(B) Decimos que los sucesos A1 , . . . , Am son incompatibles dos a dos cuando todas las parejas posibles de sucesos distintos son incompatibles, es decir, cuando Ai ∩A j = 0. / Si A, B y C son tres sucesos incompatibles no es difícil establecer, teniendo en cuenta el teorema anterior, que P(A ∪ B ∪C) = P(A) + P(B) + P(C). Más en general, si A1 , . . . , An son sucesos incompatibles dos a dos, la regla de la suma es la fórmula n P(A1 ∪ . . . ∪ An ) = P(A1 ) + . . . + P(An ) = Xn = ∑ P(An ) k=1 Esta fórmula incluye a las dos anteriores en los casos en que n = 2 y n = 3, y se demuestra mediante la aplicación sucesiva de la fórmula. 2.3.4 Propiedades de la probabilidad La definición de probabilidad junto a la regla de la suma permiten obtener importantes propiedades para el cálculo de probabilidades. Propiedad 1 Para cualquier suceso A se tiene P(A) = 1 − P(A). Propiedad 2 Si A ⊂ B, entonces P(A) ≤ P(B). Propiedad 3 Para sucesos A y B arbitrarios vale la igualdad P(A ∪ B) = P(A) + P(B) − P(A ∩ B). N Importante: A Si los sucesos A yB son incompatibles, entonces P(A ∩ B) = 0, y de la propiedad 3 se obtiene la igualdad ya conocida P(A ∪ B) = P(A) + P(B). B En forma análoga, no es difícil demostrar, que para tres sucesos A, B y C arbitrarios, tiene lugar la igualdad P(A ∪ B ∪C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩C) − P(B ∩C) + P(A ∩ B ∩C). 2.3 Probabilidad 39 2.9 Se tira una moneda 3 veces. Calcular la probabilidad de obtener alguna cara. Los problemas de este tipo, en los que se pide la probabilidad de obtener “alguna” cosa, se suelen resolver muy bien por paso al complementario. En este caso concreto, A = “obtener alguna cara”. A= “no obtener ninguna cara”= “obtener 3 cruces”. 1 Entonces, p(A) = , pues hay 8 casos posibles (2·2·2, ¡haz el diagrama de árbol!) y sólo uno 8 favorable (XXX, 3 cruces), por tanto: p(A) = 1 − p(A) = 1 − 1 7 = 8 8 2.10 Se lanza un dado dos veces y se suman las dos caras. Sea A el suceso A=“la suma de resultados es mayor o igual que 10” y B= “la suma de los resultados es múltiplo de 6”. Calcular p(A), p(B) y p(A ∩ B). Hay 36 posibles resultados al lanzar dos veces un dado. ¿Cuántos de ellos suman 10 o más? Que sumen 10: (4,6), (5,5), (6,4) Que sumen 11: (5,6), (6,5) Que sumen 12: (6,6) Por tanto, p(A) = 6 1 = 36 6 ¿Cuántos hay que sumen múltiplo de 6? Que sumen 6: (1,5), (2,4),(3,3), (4,2), (5,1) Que sumen 12: (6,6) 6 1 Por tanto, p(B) = = 36 6 En cuanto a A ∩ B = (6, 6), luego p(A ∩ B) = 1 6 . Para la siguiente actividad se solicita reunirse en grupos de 4 personas Probabilidad 40 Ejercicios 2.4 2.9 Se ha encargado la impresión de una encuesta a una imprenta, que imprime 12 folios defectuosos de cada 1000. Hallar la probabilidad de que elegido un folio de la encuesta al azar: a.) Esté mal impreso. b.) Esté correctamente impreso 2.10 Una bolsa contiene 8 bolas numeradas. Se extrae una bola y anota su número. Sean los sucesos: A= “salir par”, B= “salir impar”, C= “salir múltiplo de 4”. Calcular las probabilidades de A ∪ B, A ∪C, B ∪C, A ∪ B ∪C. 2.11 En el banquete posterior a una boda se sientan en la presidencia 10 personas, entre los cuales se encuentran los novios. Calcular la probabilidad de que los novios estén juntos en el centro de la mesa. 2.3.5 Regla de multiplicación de probabilidades Si se tienen varios eventos sucesivos e independientes entre sí, la probabilidad de que ocurran todos ellos a la vez corresponde a la multiplicación de las probabilidades de cada uno de los eventos. 2.11 Si se responden al azar cuatro preguntas con cinco opciones cada una, ¿cuál es la probabilidad de acertar a todas? La probabilidad de acierto en cada una de las preguntas es 1/5. Por lo tanto, la probabilidad de acertar en las cuatro es: 1 1 1 1 1 P(A) = · · · = 5 5 5 5 625 2.12 1 Suponiendo que la probabilidad de tener un hijo o una hija es , ¿cuál es la probabilidad de 2 que al tener tres hijos, 2 solamente sean varones? Si H representa el nacimiento de un hombre y M el de una mujer, tenemos los siguientes casos favorables: HHM − HMH − MHH 3 1 1 La probabilidad de cada uno de estos eventos es: = 2 8 2.3 Probabilidad 2.3.6 41 Probabilidad condicionada Hasta ahora nos hemos limitado a calcular probabilidades únicamente partiendo de un experimento aleatorio, sin tener más información. Pero, ¿qué ocurre si conocemos alguna información adicional?. A menudo se requiere calcular la probabilidad de un evento A sabiendo de antemano que ha ocurrido otro evento, digamos B. Esta nueva probabilidad, que se denota por P(A|B), se llama la probabilidad condicional de A dado el evento B. Estudiaremos un ejemplo antes de dar una definición formal de este concepto. 2.13 Consideremos el lanzamiento de tres monedas. Sabemos que el espacio muestral correspondiente es: S = {ccc, cce, cec, ecc, cee, ece, eec, eee}. Sean A y B los eventos definidos como A: “ cae a lo más una corona” B: “en la primera moneda cae corona”. Es claro que A = {eee, cee, ece, eec} y B = {ccc, cce, cec, cee}. Véase la Figura 8: Figura 8 Supóngase que deseamos calcular la probabilidad de que al lanzar tres monedas cae a lo más una corona, pero por otra parte, en alguna forma nos hemos enterado de que la primera moneda cayó corona. Antes de conocer esta información, cada uno de los eventos eee, cee, ece, eec tenía probabilidad 1/8. Pero ahora nuestro espacio muestral se ha “restringido”; es decir, sabemos ya que el evento B ha ocurrido (la primera moneda cayó corona). Luego, la única forma en que puede ocurrir que cae a lo más una corona es que ocurra el resultado cee, cuya probabilidad es ahora 1/4, pues B consta de 4 resultados únicamente. Así pues, P(A) = 4/8, pero P(A|B) = 1/4. Analizaremos con más cuidado la situación: si deseamos calcular la probabilidad de A (“cae a lo más un corona”) dado que el evento B (“en la primera moneda cae corona”) ha ocurrido, entonces podemos suponer que nuestro espacio muestra no es todo S, sino únicamente el conjunto B, y en este Probabilidad 42 caso, P(A|B)es la probabilidad de los resultados que están en A y en B con respecto al nuevo “espacio muestral” B. En particular, si el espacio S es equiprobable, entonces B también lo es y tendremos que: P(A|B) = P(A ∩ B) P(B) (1) Volviendo al ejemplo 2.13, como A ∩ B = {cee}, vemos que P(A ∩ B) = 1/8. Asimismo P(B) = 4/8. Luego se tiene: (A|B) = 1/8 = 1/4 4/8 Definición 2.11 Sean A y B eventos en un espacio muestral S y supóngase que P(B) > 0. EntoncesP(A|B), la probabilidad condicional del evento A dado el evento B, se define como P(A|B) = P(A ∩ B) P(B) Aunque esta fórmula es importante en sí misma tiene la ventaja adicional de que nos da una expresión para la probabilidad de la intersección de dos eventos. En efecto, de (1), P(A ∩ B) = P(B)P(A|B), (2) o bien, puesto que P(B|A) = P(B ∩ A)/P(A), también podemos escribir P(A ∩ B) = P(A)P(B|A). (3) Nota: Para evitar repeticiones, al hablar de la probabilidad condicional P(A|B) siempre supondremos que P(B) > 0. La expresión (2) o la (3) se conoce también como teorema de la multiplicación y se puede extender a cualquier número finito de eventos, o sea, P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) · · · P(An |A1 ∩ A2 ∩ · · · ∩ An?1 ). Por ejemplo, para n = 3, P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 ). (4) 2.14 De una clase de 8 varones y 6 mujeres se seleccionan al azar tres estudiantes, uno tras otro. ¿Cuál es la probabilidad de que los tres sean varones? Solución: En otras palabras, deseamos calcular la probabilidad 2.3 Probabilidad 43 P(A1 ∩ A2 ∩ A3 ), en donde Ai es el evento: “el i-ésimo estudiante selecionado es varón”, i = 1, 2, 3. Como en total son 14 estudiantes, de los cuales 8 son varones, P(A1 ) = 8/14. Si el primer estudiante seleccionado fue varón, quedan 13 estudiantes, de los cuales 7 son varones. Por lo tanto, P(A2 |A1 ) = 7/13. Análogamente, la probabilidad de que el tercer estudiante seleccionado sea varón dado que los dos primeros eran varones es P(A3|A1 ∩ A2) = 6/12. (¿Por qué?) Luego, de (4), P(A1 ∩ A2 ∩ A3 ) = 2 8 7 6 · · = 14 13 12 13 2.15 En un aula hay 100 alumnos, de los cuales: 40 son hombres, 30 usan gafas, y 15 son varones y usan gafas. Si sabemos que el alumno seleccionado no usa gafas, ¿qué probabilidad hay de 5 que sea hombre? R P(h|gc ) = 14 En grupos de 5 personas resuelva los siguientes ejercicios Ejercicios 2.5 2.12 Consideremos una urna que contiene 4 bolillas rojas y 5 blancas. De las 4 bolillas rojas, 2 son lisas y 2 rayadas y de las 5 bolillas blancas, 4 son lisas y una sola es rayada. Supongamos que se extrae una bolilla y, sin que la hayamos mirado, alguien nos dice que la bolilla es roja, ¿cuál es la probabilidad de que la bolilla sea rayada? R/ 0.5 2.13 Consideremos una población en la que cada individuo es clasificado según dos criterios: es o no portador de HIV y pertenece o no a cierto grupo de riesgo que denominaremos R. La correspondiente tabla de probabilidades es: Pertenece a R (B) No pertenece a R (Bc ) Portador (A) 0.003 0.003 0.006 No portador (Ac ) 0.017 .977 0.994 0.020 0.980 1.000 Dado que una persona seleccionada al azar pertenece al grupo de riesgo R, a.) ¿cuál es la probabilidad de que sea portador? R/ 0.150 b.) ¿Cuál es la probabilidad de que una persona sea portadora de HIV, dado que no pertenece al grupo de riesgo R?./R 0.00306 2.14 Se lanzan dos dados: a.) ¿Cuál es la probabilidad de obtener una suma de puntos igual a 7? R/ 1/6 Probabilidad 44 b.) Si la suma de puntos ha sido 7, ¿cuál es la probabilidad de que en alguno de los dados haya salido un tres?R/ 1/3 2.3.7 Teorema de la probabilidad total Si E es un evento en un espacio muestral S, es posible conocer P(E) en términos de las probabilidades condicionales de los eventos en una partición de S. Decimos que los eventos en S A1, A2 , · · · , An forman una partición de S si estos conjuntos son ajenos por parejas y su unión es S; es decir, a) Ai ∩ A j = 0/ ; si i 6= j, b) S = ni=1 Ai = A1 ∪ A2 ∪ · · · ∪ An El nombre de “partición” es muy sugestivo; nos dice que los eventos A1 , A2 , · · · , An dividen (particionan o “parten”) el espacio S en conjuntos ajenos (Ver figura 9) S Ahora, sea A1 , A2 , · · · , An una partición de S, y sea E un evento cualquiera en S. Es claro que E se puede escribir como una unión de conjuntos ajenos: E = (E ∩ A1 ) ∪ (E ∩ A2 ) ∪ · · · ∪ (E ∩ An ). Figura 9 Entoces por la propiedad aditiva P(A ∪ B ∪C) = P(A) + P(B) + P(C). se tiene que P(E) = P(E ∩ A1 ) + P(E ∩ A2 ) + · · · + P(E ∩ An ). Finalmente, por el teorema de multiplicación P(E) = P(A1 )P(E|A1 ) + P(A2 )P(E|A2 ) + · · · + P(An )P(E|An ), 2.3 Probabilidad 45 o en forma más compacta: n P(E) = ∑ P(Ai )P(E|Ai ) i=1 Este resultado se conoce como teorema de la probabilidad total. 2.16 En una fábrica, tres máquinas, M1, M2, M3 elaboran respectivamente el 30 %, el 50 % y el 20 % de la producción total. Los porcentajes de artículos defectuosos producidos por estas máquinas son 1 %, 3 %, 2 %, respectivamente. Si se selecciona un artículo al azar, calcule la probabilidad de que sea: (a) Defectuoso (b) No defectuoso Solución: Si denotamos por Ai el evento: “el artículo seleccionado fue producido por la máquina Mi ” , i = 1, 2, 3, es claro que A1 , A2 y A3 forman una partición del espacio muestral que resulta del experimento de tomar un artículo y ver si es defectuoso (d) o no defectuoso de . ; E ∩ Ai sería el evento: “el artículo es defectuoso y fue elaborado en la máquina Mi ”, i = 1, 2, 3. En la Figura 10 aparece un diagrama de árbol que ilustra el problema. (a) Con probabilidades 0.3, 0.5 y 0.2, respectivamente, el artículo puede ser de cualquiera de las máquinas M1 , M2 , M3 . Además, dependiendo de la máquina en que se elaboró, el artículo tiene probabilidades 0.01, 0.03 y 0.02 de ser defectuoso. Entonces P(d) = P(A1 )P(d|A1 ) + P(A2 )P(d|A2 ) + P(A3 )P(d|A3 ) = (0,3)(0,01) + (0,5)(0,03) + (0,2)(0,02) = 0,022. e = 1 − P(d) = (b) El evento “no defectuoso” es el complemento del evento “defectuoso”. Luego, P(d) 0,978. Figura 10 Probabilidad 46 2.17 En un colegio se imparten sólo los idiomas inglés y francés. El 80 % de los alumnos estudian inglés y el resto francés. El 30 % de los alumnos de inglés son socios del club musical del colegio y de los que estudian francés son socios de dicho club el 40 %. Se elige un alumno al azar. Calcular la probabilidad de que pertenezca al club musical. Solución En estos problemas es importante elegir el sistema completo de sucesos. En este caso: A1 = estudiar inglés A2 = estudiar francés B= ser del club musical. Nos piden p(B). Por el teorema anterior: p(B) = p(A1 ) · p(B/A1 ) + p(A2 ) · p(B/A2 ) = 20 40 80 30 · + · = 100 100 100 100 8 25 = 0,32 Mediante el diagrama de árbol: Figura 11 Se obtiene el mismo resultado 2.3.8 Sucesos independientes Si bien el conocer cierta información adicional modifica la probabilidad de algunos sucesos, puede ocurrir que otros mantengan su probabilidad, pese a conocer dicha información. 2.18 En el lanzamiento de un dado, consideremos los sucesos: A=“ sacar un número par” y B= “sacar un número menor o igual que 2”. Es claro que A = {2, 4, 6} y B = {1, 2}. 2.3 Probabilidad 47 Calculemos la probabilidad de A conociendo que se ha realizado el suceso B, es decir,p(A/B). p(A/B) = p(A ∩ B) = 0,5 p(B) 1 1 puesto que p(A ∩ B)=p(sacar par y menor o igual que 2)= y p(B) = . 6 3 Pero si no conociésemos la información B, ¿cuál sería la probabilidad de A?. 3 p(A)=p(sacar par)= = 0,5, es decir que p(A/B) = p(A), y por tanto el conocer la información 6 B no modifica la probabilidad de A. Cuando esto ocurre es decir, cuando p(A/B) = p(A), diremos que los sucesos A y B son independientes (el hecho de que ocurra B no modifica la probabilidad de A). Propiedad 4 A y B son sucesos independientes ⇔ P(A ∩ B) = p(A) · (B) Teorema 2.3 (Eventos Independientes) A y B son eventos independientes si y solo si P(A|B) = P(A) Teorema 2.4 (Regla del producto 2) En general se cumple que P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 ) · P(A2 |A1 ) · P(A2 |(A1 ∩ A2 )) . . . · P(An |(A1 ∩ A2 ∩ . . . ∩ An−1 )) Probabilidad 48 Algunos ejemplos de eventos independientes Figura 12 2.19 Una caja contiene 4 canicas rojas, 3 canicas verdes y 2 canicas azules. Una canica es eliminada de la caja y luego reemplazada. Otra canica se saca de la caja. Cuál es la probabilidad de que la primera canica sea azul y la segunda canica sea verde? Solución Ya que la primera canica es reemplazada, el tamaño del espacio muestral (9) no cambia de la primera sacada a la segunda así los eventos son independientes. P(azul ∩ verde) = P(azul) · P(verde) = 2 3 2 · = 9 9 27 2.20 En una escuela el 20 % de los alumnos tiene problemas visuales, el 8 % tiene problemas auditivos y el 4 % tienen tanto problemas visuales como auditivos, Sean: V los que tienen problemas visuales y V C los que no lo tienen. A los que tienen problemas auditivos y AC los que no los tienen. a) ¿Son los dos eventos de tener problemas visuales y auditivos, eventos independientes? b) ¿Cuál es la probabilidad de que un niño tenga problemas auditivos si sabemos que tiene problemas visuales? 2.3 Probabilidad 49 V V c total 0,04 0,08 A Ac Total 0,20 1,00 d) ¿Cuál es la probabilidad de que un niño no tenga problemas auditivos si tiene problemas visuales? c) Complete la siguiente tabla Solución a. P(V )P(A) = (0,2)(0,08) = 0,016yP(V ∩ A) = 0,04. Como P(V ∩ A) 6= P(V )P(A), se concluye que V y A no son independientes. P(A ∩V ) 0,04 P(V ) = = 0,20 0,02 c. Por diferencias podemos completar la tabla, ya que P(V C ) = 1?0,20 = 0,80 y P(AC ) = 1?0,08 = 0,92, por lo tanto d. V V c total A 0,04 0,04 0,08 c A 0,16 0,76 0,92 Total 0,20 0,80 1,00 P(Ac ∩V ) 0,16 e. P(Ac |V ) = = = 0,80 P(V ) 0,02 b. P(A|V ) = Ejercicios 2.6 2.15 Se tiene una urna con 12 bolas enumeradas del 1 al 8. Considere la experiencia aleatoria de extraer bolas de la urna, al azar y de una en una, de acuerdo con la siguiente regla: si la bola extraída tiene un número impar se retorna a la urna antes de la siguiente extracción, Se finaliza cuando se halla extraído, con o sin reposición, dos bolas con números impares. en caso contrario no se retorna. a.) ¿Cuál es la probabilidad de extraer 4 bolas en total? b.) Considere los eventos Ii : la i-ésima bola extraída es impar. Pi : la i-ésima bola extraída es par. Calcule la probabilidad: P((I1 P2 P3 I4 ) ∪ (P1 P2 I3 I4 ) ∪ (P1 I2 P3 I4 )) R/ 73/294 Probabilidad 50 2.3.9 La ley de los grandes números La ley de los grandes números, también llamada ley del azar, afirma que al repetir un experimento aleatorio un número de veces, la frecuencia relativa de cada suceso elemental tiende a aproximarse a un número fijo, llamado probabilidad de un suceso. Observa la siguiente tabla, en la que se han anotado las frecuencias del suceso “salir cara al lanzar una moneda”. Figura 13 Al aumentar los lanzamientos, las frecuencias relativas se aproximan a un valor 0.5. Ésa es la probabilidad del suceso salir cara al lanzar una moneda. La probabilidad de un suceso es el número al que se aproxima su frecuencia relativa cuando el experimento se repite un gran número de veces. Figura 14 2.3.10 Teorema del Límite Central El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal. 2.3 Probabilidad 51 La variable “tirar una moneda al aire” sigue la distribución de Bernouilli. Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye según una distribución normal. Este teorema se aplica tanto a suma de variables discretas como de variables continuas. Los parámetros de la distribución normal son: Media: n · µ (media de la variable individual multiplicada por el número de variables independientes) Varianza: n · σ 2 (varianza de la variable individual multiplicada por el número de variables individuales) 2.21 Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0. Cada lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100 lanzamientos salgan más de 60 caras. La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribución normal. Media = 100 · 0, 5 = 50 Varianza = 100 · 0, 25 = 25 Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada equivalente: Y= 60 − 50 =2 5 Nota: 5 es la raiz cuadrada de 25, o sea la desviación típica de esta distribución. Por lo tanto: P(X > 60) = P(Y > 2, 0) = 1 − P(Y < 2, 0) = 1 − 0, 9772 = 0, 0228 Es decir, la probabilidad de que al tirar 100 veces la moneda salgan más de 60 caras es tan sólo del 2,28 %. 2.22 La renta media de los habitantes de un país se distribuye uniformemente entre 4,0 millones ptas. y 10,0 millones ptas. Calcular la probabilidad de que al seleccionar al azar a 100 personas Probabilidad 52 la suma de sus rentas supere los 725 millones ptas. Cada renta personal es una variable independiente que se ditribuye según una función uniforme. Por ello, a la suma de las rentas de 100 personas se le puede aplicar el Teorema Central del Límite. La media y varianza de cada variable individual es: µ = (4 + 10)/2 = 7 σ 2 = (10 − 4)2 /12 = 3 Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son: Media: n · µ = 100 · 7 = 700 Varianza: n · σ 2 = 100 · 3 = 300 Para calcular la probabilidad de que la suma de las rentas sea superior a 725 millones ptas, comenzamos por calcular el valor equivalente de la variable normal tipificada: Y= 725 − 700 = 1,44 17,5 Luego: P(X > 725) = P(Y > 1, 44) = 1 − P(Y < 1, 44) = 1 − 0, 9251 = 0, 0749 Es decir, la probabilidad de que la suma de las rentas de 100 personas seleccionadas al azar supere los 725 millones de pesetas es tan sólo del 7,49 % [1] Barreras, Miguel (2008).¡AH!, EL AZAR? Recopilado el 14 de junio del 2013 de: http://ocw.uniovi.es/file.php/66/Elazar.pdf [2] Batanero, C. (2013).La comprensión de la probabilidad en los niños. ¿Qué podemos aprender de la investigación? En J. A. Fernandes, P. F. Correia, M. H. Martinho, & F. Viseu, (Eds..) (2013). Atas do III Encontro de Probabilidades e Estatística na Escola. Braga: Centro de Investigação em Educação. Universidade Do Minho. [3] Hernández, José (2007). EStadística Administrativa I. Instituto Tecnològico de Apizaco. México.Recopilado el 16 de junio del 2013 de: http: //www.itapizaco.edu.mx/~joseluis/apuntes/estadistica/estadistica% 20administrativa%20I.pdf [4] Hopkins, K.; Hopkins, B.; Glass, G.(1997).Estadística básica para las ciencias sociales y del comportamiento. Prentice-Hall Hispanoamericana, Naucalpán de Juarez. México. [5] Molina, M; Rodrigo, M. (2010). Estadísticos de dispersión. Universidad de Valencia. España. Recopilado el 20 de setiembre del 2014 de: http://ocw.uv.es/ ciencias-de-la-salud/pruebas-1/1-3/t_04.pdf [6] Pajares, A.; Tomeo, V. (2009). Enseñanza de la Estadística y la Probabilidad en Secundaria: experimentos y materiales. En M. J. González; M. T. González y J. Murillo (eds.), Investigación en Educación Matemática. Comunicaciones de los grupos de investigación. XIII Simposio de la SEIEM. Santander.Recopilado el 16 de junio del 2013 de: http://estudiosestadisticos.ucm.es/data/cont/docs/ 12-2013-02-06-CT03_2009.pdf [7] Trejos, J.; Moya, E. (2012). Introducción a la Estadística Descriptiva.Ediciones el Roble. Costa Rica. 54 BIBLIOGRAFÍA [8] Triolla, F.(2013). Estadística.Editorial Pearson. México. [9] (s.a.). (2013) .Varianza y desviación estándar. La desviación sólo significa qué tan lejos de lo normal. Recopilado el 20 de setiembre del 2014 de: http://www. disfrutalasmatematicas.com/datos/desviacion-estandar.html