Análisis de Datos y Probabilidad Grado 10-12 Espacio para las piernas “Legroom” (Fuente: http://www.thestar.com/ ) Distribución normal y diseño de aviones 1 Introducción La distribución normal tiene muchos usos en diferentes áreas del conocimiento. En particular, se puede usar para diseñar objetos que se ajusten a la mayoría de las personas. Por ejemplo, se usa para diseñar asientos o sillas dependiendo de las medidas de las extremidades de las personas. A propósito, ¿alguna vez se ha preguntado por qué las sillas de un comedor miden más o menos lo mismo de largo y ancho, o las puertas de los vehículos, entre otros ejemplos? En esta actividad los estudiantes identificarán el concepto de la distribución normal y cuándo es razonable usarla para resolver un problema. Además, aplicarán la regla empírica para resolver problemas de probabilidad asociados con la distribución normal. Vale la pena mencionar que estos problemas son “normales” en las pruebas estandarizadas del Departamento de Educación. Materiales Plantilla de la actividad. Tabla de la distribución normal (adjunta a la plantilla de la actividad). Calculadora Una computadora con Excel (opcional). Tiempo Estimado: 50 minutos. Objetivos de Aprendizaje Al finalizar la actividad, el estudiante: 1. Identificará las propiedades de la distribución normal. 2. Aplicará la distribución normal para estimar porcentajes y áreas usando tablas de la distribución normal y la regla empírica. 3. Resolverá problemas reales usando la distribución normal. Estándares y Expectativas (PR Common Core) Estándar de Contenido: Análisis de Datos y Probabilidades ES.E.41.1 Usa la media y la desviación estándar de un conjunto de datos para ajustarla a una distribución normal y para estimar porcentajes de población. Sabe que hay conjuntos de datos para los cuales dicho proceso no es adecuado. Usa calculadoras, hojas de cálculo y tablas para estimar las áreas bajo una curva normal. ES.E.41.2 Identifica escenarios donde la distribución normal es de utilidad. Describe las características de la distribución normal. Repositorio Virtual para la Enseñanza de Estadística y Probabilidad en Escuela Superior (RepASA) Disponible en la página web: http://pegasus.uprm.edu/~pedro.torres/RepASA Distribución normal y diseño de aviones Este material se distribuye gratuitamente para uso en los salones de clase. Su venta está prohibida. Su desarrollo fue posible gracias al apoyo de la American Statistical Association (ASA), Capítulo de Puerto Rico de la ASA y el proyecto AFAMaCMatemáticas de la Universidad de Puerto Rico – Mayagüez. 2 Actividad Muchas de las aerolíneas de pasajeros han incrementado el número de asientos en las cabinas para aumentar las ganancias. Esto a su vez conlleva a la reducción en el espacio entre asientos o espacio para las piernas (en inglés el “legroom” o “seat-pitch” 1 ), lo cual suele ser incómodo para los viajeros. Una solución para los viajeros sería dejar bastante espacio para las piernas. Sin embargo, esa no es una buena solución para las aerolíneas ya que no pueden acomodar suficientes asientos que le permiten tener buenos márgenes de ganancia. En esta actividad vamos a usar la distribución normal para modelar el largo del muslo de los pasajeros para determinar cuál debería ser el espacio para las piernas de acuerdo a las medidas de los pasajeros y que al mismo tiempo le permita a las aerolíneas obtener ganancias. Para este propósito, se seleccionó una muestra de 30 hombres adultos y se les tomaron medidas desde las rodillas hasta los glúteos (ver figura). Vamos a usar hombres adultos porque ellos son los que se espera tengan medidas más largas que las mujeres y los jóvenes. Distribuya la hoja de la actividad junto con la hoja de la regla empírica y la tabla de la distribución normal. De acuerdo con el períodico Huffingtonpost, las aerolíneas de Estados Unidos con el espacio más largo para las piernas son: Jet Blue (33 pulgadas), Virgin America (32) y Southwest (32). Este espacio corresponde a sus aviones de mayor uso. En el mundo, Aeroméxico tiene el espacio más largo: 34 pulgadas. Medida Tabla 1. Largo del muslo (en pulgadas) de 30 hombres. 24.0 22.4 24.0 23.9 23.5 28.8 27.0 29.1 27.6 27.7 Distribución normal y diseño de aviones 25.0 25.6 25.9 25.0 25.0 27.0 26.9 27.0 27.4 27.0 26.0 25.8 26.0 26.1 26.0 26.0 26.3 26.0 26.0 26.2 3 Discusión 1. Construya una tabla de distribución de frecuencias usando un ancho de clase de una pulgada. Complete la siguiente tabla (incluya el límite derecho en la clase). Clase (pulgadas) (22-23] (23-24] (24-25] (25-26] (26-27] (27-28] (28-29] (29-30] Frecuencia 1 4 3 9 8 3 1 1 2. Dibuje un histograma para el largo del muslo usando la tabla de distribución de frecuencias. Diga qué forma tiene el histograma y qué significa la forma en términos de la distribución del largo del muslo de los hombres. Johann Carl Friedrich Gauss (1777-1855). Matemático alemán. Hizo grandes contribuciones a la teoría de números, álgebra, estadística, geometría diferencial, geodesia, geofísica, mecánica, electroestática, astronomía, teoría de matrices y óptica. También se le conoce como el Príncipe de las Matemáticas. (Fuente: Wikipedia). La forma de distribución del largo de los muslos es aproximadamente simétrica. La mayoría de los hombres tienen medidas alrededor de 26 pulgadas. Hay hombres con longitudes cercanas a 22 y 30 pulgadas, pero en menor frecuencia. Dado los resultados anteriores, la distribución normal podría ser un buen modelo para describir estos datos. Es más, a continuación mostramos el histograma con la curva normal superpuesta. Esta curva corresponde a la fórmula de la función de densidad de distribución normal con el promedio y la desviación estándar de los 30 datos, calculados en los ejercicios 3) y 4). Esto apoya la idea que la curva normal, a pesar de no ajustar perfectamente, es un modelo razonable para describir las longitudes del muslo. 1 Billete de 10 Marcos Alemanes mostrando el rostro de Gauss y la curva normal con su fórmula. Actualmente esta moneda fue reemplazada por el euro. http://www.cntraveler.com/stories/2014-09-18/which-airline-has-the-most-legroom-a-complete-guide?mbid=synd_huffpo Distribución normal y diseño de aviones 4 En la distribución normal el promedio, la mediana y la moda son iguales. 3. Calcule la media aritmética o el promedio del largo del muslo. Redondee el resultado a una cifra decimal. 𝑥̅ = 𝑥̅ = 22.4 + 23.5 + 23.9 + ⋯ + 27.6 + 28.8 + 29.1 30 46 + 48 + 150 + 260 + 162 + 56 + 58 780.2 = = 26.00667 30 30 ≈ 26 𝑝𝑢𝑙𝑔𝑎𝑑𝑎𝑠 4. Calcule la desviación estándar de los datos. Redondee los cálculos de la tabla a dos cifras decimales y el valor final a una cifra decimal. Medida (𝒙𝒊 ) )𝟐 ̅ 𝒙𝒊 − 𝒙 (𝒙𝒊 − 𝒙 ̅ 22.4 -3.6 12.96 23.5 -2.5 6.25 23.9 -2.1 4.41 24 -2 4 24 -2 4 25.6 -0.4 0.16 25 -1 1 25 -1 1 25 -1 1 25.9 -0.1 0.01 25.8 -0.2 0.04 26 0 0 26.1 0.1 0.01 26 0 0 26 0 0 26.3 0.3 0.09 Distribución normal y diseño de aviones Recuerde que la varianza se mide en unidades cuadradas mientras que la desviación en unidades de la variable original. 5 𝑠2 = 26.2 0.2 0.04 26 0 0 26 0 0 26 0 0 26.9 0.9 0.81 27 1 1 27.4 1.4 1.96 27 1 1 27 1 1 27 1 1 27.7 1.7 2.89 27.6 1.6 2.56 28.8 2.8 7.84 29.1 3.1 9.61 Total 64.64 𝑡𝑜𝑡𝑎𝑙 64.64 64.64 = = = 2.2289660 𝑝𝑢𝑙𝑔𝑎𝑑𝑎𝑠 2 𝑛 − 1 30 − 1 29 𝑠 = √𝑠 2 = √2.2289660 ≈ 1.492972 ≈ 1.5 𝑝𝑢𝑙𝑔𝑎𝑑𝑎𝑠 Regla Empírica: 68.2%, 95.4%, 99.7% Si la distribución de una variable aleatoria se ajusta a una distribución normal con promedio 𝜇 y desviación estándar 𝜎 entonces: Aproximadamente el 68.2% de los datos están dentro de una desviación estándar de la media: [𝜇 − 1𝜎, 𝜇 + 1𝜎 ]. Aproximadamente el 95.4% de los datos están dentro de dos desviaciones estándar de la media: [𝜇 − 2𝜎, 𝜇 + 2𝜎 ]. Aproximadamente el 99.7% de los datos están dentro de tres desviaciones estándar de la media: [𝜇 − 3𝜎, 𝜇 + 3𝜎 ]. Estos porcientos quizás los encuentren redondeados en algunas versiones. Por ejemplo, 68%, 95% y 99.7%. 5. Calcule las siguientes cantidades: Valor 𝑥̅ − 3𝑠 21.5 𝑥̅ − 2𝑠 23 𝑥̅ − 𝑠 24.5 𝑥̅ + 𝑠 27.5 𝑥̅ + 2𝑠 29 𝑥̅ + 3𝑠 30.5 Si los datos siguen aproximadamente una distribución normal entonces la regla empírica se debe cumplir. Ahora, si se cumple la regla empírica, en general, no es cierto que los datos sigan una distribución normal. 6. Vamos asumir que la distribución normal es una buena opción para modelar la longitud del muslo de los hombres. Grafique una curva de la distribución normal e identifique la media de la distribución y las longitudes correspondientes a ±1, 2, 3 desviaciones estándar del promedio. Distribución normal y diseño de aviones 6 Recuerde que si X es el valor de la variable aleatoria que queremos estandarizar, y μ y 𝜎 es el promedio y la desviación estándar, respectivamente, entonces el puntaje estandarizado Z se calcula como Z= X−μ . σ Esta cantidad indica a cuántas desviaciones estándar se encuentra X del promedio de la distribución. En muchas áreas, tales como psicología, estos puntajes Z son importantes ya que individuos con puntajes Z mayores a 3 o menores a -3 son etiquetados como no típicos de acuerdo a la distribución de los resultados de las pruebas psicológicas. Note que si usted tiene el puntaje Z entonces pueden recuperar el valor de X si conoce el promedio y la desviación estándar: X = μ + Zσ. Para responder los ejercicios del 7) al 13) use la regla empírica de la siguiente figura: Figura. Regla empírica de la distribución normal. 7. ¿Cuál es la probabilidad de que un hombre elegido al azar mida 26 pulgadas de largo del muslo? Sea X: = Medida del muslo de un hombre. Como esta medida corresponde a una variable aleatoria continua, entonces P(X = 26) = 0. Este resultado es cierto para cualquier variable aleatoria continua. 8. ¿Cuál es la probabilidad de que un hombre elegido al azar mida más de 26 pulgadas de largo del muslo? Z= X − μ 26 − 26 = =0 σ 1.5 P(X > 26) = P(z > 0) = 0.5. Distribución normal y diseño de aviones 7 Note que este resultado se puede deducir rápidamente ya que 26 es el promedio de la distribución. Como la distribución normal es simétrica alrededor del promedio, y el promedio es igual a la mediana, entonces la probabilidad pedida es igual a 0.5. 9. ¿Cuál es la probabilidad de que un hombre elegido al azar mida más de 29 pulgadas de largo del muslo? 𝑍= 𝑋 − 𝜇 29 − 26 = =2 𝜎 1.5 𝑃(𝑋 > 29) = 𝑃(𝑍 > 2) ≅ 0.0215. 10. ¿Cuál es la probabilidad de que un hombre elegido al azar mida menos de 24.5 pulgadas de largo del muslo? 𝑍= 𝑋 − 𝜇 24.5 − 26 = = −1 𝜎 1.5 𝑃(𝑋 < 24.5) = 𝑃(𝑍 < −1) ≅ 0.1575. 11. ¿Cuál es la probabilidad de que el largo de muslo de un hombre mida entre 24.5 y 27.5 pulgadas? 𝑍𝑖 = 𝑍𝑠 = 𝑋𝑖 − 𝜇 24.5 − 26 = = −1 𝜎 1.5 𝑋𝑠 − 𝜇 27.5 − 26 = =1 𝜎 1.5 𝑃(24.5 < 𝑋 < 27.5) = 𝑃(−1 < 𝑍 < 1) = 𝑃(𝑍 < 1) − 𝑃(𝑍 < −1) = 0.682. 12. Para ayudar a la distribución de los asientos al diseñar el avión la aerolínea quiere que aproximadamente el 97% de los pasajeros les sobre al menos 5 pulgadas de espacio para las piernas. ¿De cuánto debe ser el espacio entre las piernas (“legroom”)? Si sumamos los porcientos de la regla empírica, aproximadamente el 97.55% de los individuos caen por debajo de dos desviaciones estándar del promedio. Esto corresponde a 𝑋 = 𝜇 + 𝑍𝜎 = 26 + 2(1.5) = 29 𝑝𝑢𝑙𝑔𝑎𝑑𝑎𝑠. Por lo tanto, una aerolínea que quiera que aproximadamente el 97.5% de los pasajeros tenga un sobrante de al menos 5 pulgadas de espacio para las piernas (“legroom”) debería dejar un espacio de 29+5=34 pulgadas entre las sillas. Distribución normal y diseño de aviones 8 13. Si una aerolínea diseña su avión con 30 pulgadas de espacio para las piernas (“legroom”), ¿qué porciento de los pasajeros tiene espacio suficiente para acomodar sus piernas? 𝑍= 𝑋 − 𝜇 30 − 26 = ≅ 2.67 𝜎 1.5 𝑃(𝑋 < 30) = 𝑃(𝑍 < 2.6667) ≅ 0.9962. Esta cantidad se obtiene buscando en la tabla de la distribución normal estándar que se adjunta a la actividad. Note que este ejercicio no se puede resolver con la regla empírica ya que el puntaje Z no es igual a ninguno de los valores para ±1, 2, 3 desviaciones estándares. Distribución normal y diseño de aviones 9 Adaptaciones e ideas adicionales Cálculos de probabilidades usando Excel Las probabilidades anteriores se pueden calcular usando las funciones NORM.DIST() y NORM.S.DIST() de Excel. La función NORM.DIST() calcula la probabilidad asociada a un valor de X para una distribución normal con un promedio y desviación estándar dadas. Es decir, no hay necesidad de estandarizar a puntajes Z. La función NORM.S.DIST() calcula la probabilidad de un valor Z en una distribución normal estándar, es decir, el valor de entrada debe estar estandarizado. Por ejemplo, si queremos calcular P(X<29) entonces seguimos las siguientes instrucciones: Si queremos calcular P(X>29) entonces calculamos 1-P(X<9): =1-NORM.DIST(B4, B1, B2, TRUE) En lugar de las celdas, usted puede ingresar valores numéricos para el promedio y la desviación estándar. De otro lado, si queremos calcular P(X<27), esto es equivalente a calcular P(Z<0.6667). En este caso podemos usar la función NORM.S.DIST(): Ambas funciones son útiles para hallar probabilidades o valores de X que no se asocian con la regla empírica. Existen otras funciones que pueden resolver fácilmente algunos problemas asociados a la distribución normal. Por ejemplo, supongamos que queremos saber para qué longitud de muslo el 95% de los individuos se encuentran por debajo este valor. En este caso podemos usar la función de Excel que calcula los percentiles en lugar de los valores de la variable. =NORM.INV(0.95, 26, 1.5) La respuesta es 28.47 pulgadas. Ejercicio Distribución normal y diseño de aviones 10 Resuelva los ejercicios del 7) al 13) usando Excel. Compare los resultados con los obtenidos usando la regla empírica. Estos problemas también los puede resolver usando la tabla de la distribución normal estándar que se adjunta con la actividad. A diferencia de Excel, los valores de la variable aleatoria siempre se deben estandarizar para usar la tabla de valores. Además, en la tabla los puntajes Z se redondean a dos cifras decimales y las probabilidades a cuatro cifras decimales. Excel provee respuestas más precisas. Otras ideas Para una variante de esta actividad podría indicarles a los estudiantes que diseñen la distribución de las sillas de un avión para estudiantes de edades similares. En este caso, pídales a los hombres y mujeres que recolecten los datos entre parejas del mismo sexo y use esos datos para llevar a cabo los análisis y responder las preguntas de la actividad. Los cálculos del promedio y la desviación estándar en los ejercicios 3) y 4) los puede sustituir por el uso de las funciones AVERAGE() y STDEV.S() de Excel. Distribución normal y diseño de aviones 11