Instituto Tecnológico de Celaya Departamento de Ingeniería química Distribución normal La distribución continua de probabilidad más importante en todo el campo de la estadística es la distribución normal. Se ha usado en una gran variedad de aplicaciones prácticas en las que las variables son altura, peso de una persona, coeficientes de inteligencia, mediciones científicas, mediciones físicas en áreas tales como los experimentos meteorológicos, los estudios acerca de las lluvias y las mediciones sobre partes manufacturadas, etc. A la distribución normal, frecuentemente, se le llama distribución gaussiana, en honor de Karl Friedrich Gauss (1777-1855), quien en investigaciones realizadas sobre la naturaleza de errores experimentales, observó que las discrepancias existentes entre mediciones repetidas de la misma cantidad física mostraban un sorprendente grado de regularidad; sus patrones (distribución), como se descubrió, se podían aproximar muy cercanamente por medio de cierto tipo de curva de distribución continua, que se denomina “curva normal de errores” y que se atribuye a las leyes de la casualidad. Se dice que una variable aleatoria X sigue una distribución normal de parámetros µ y σ , lo que representamos del modo X → n(µ, σ ) . Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la función de densidad que corresponde a tales distribuciones viene dado por la fórmula: 2 2 Características Representación gráfica de esta función de densidad Características: • Puede tomar cualquier valor (- ∞, + ∞) . • Es simétrica con respecto a su eje vertical. • Es asintótica con respecto a su eje horizontal; esto quiere decir que jamás va a tocar el eje de las equis. Autor: Rosalba Patiño Herrera Agosto del 2002 Instituto Tecnológico de Celaya Departamento de Ingeniería química • Son más probables los valores cercanos la media µ • El área total bajo la curva es 1. • Conforme nos separamos de ese valor µ, la probabilidad va decreciendo de igual forma a derecha e izquierda (es simétrica). • Conforme nos separamos de ese valor µ la probabilidad va decreciendo de forma más o menos rápida dependiendo de un parámetro σ , que es la desviación típica. • Ésta curva alcanza un único máximo (moda) en µ, que es simétrica con respecto al mismo, y en ese máximo coinciden la media, la mediana y la moda. La mayor parte de la masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente a los ejes, de modo que cualquier valor "muy alejado" de la media es posible (aunque poco probable). • σ 2 (o equivalentemente) será el parámetro de dispersión. Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada alrededor de la media (grafo de f muy apuntado cerca de µ ) y cuanto mayor sea "más aplastado" será. • La función que nos define esta distribución es: Al dar a la función los valores de µ,, σ2 y valores a x, obtendremos la distribución en cuestión, la que tiene forma de campana, por lo que también se le conoce como campana de Gauss. Hay un número infinito de funciones de densidad Normal, una para cada combinación de µ, y σ. La media µ, mide la ubicación de la distribución y la desviación estándar σ mide su dispersión. F(x) es el área sombreada de esta gráfica Autor: Rosalba Patiño Herrera Agosto del 2002 Instituto Tecnológico de Celaya • Departamento de Ingeniería química Sí sumamos la µ, ± σ, se observará que aproximadamente el 68.26% de los datos se encuentran bajo la curva, si sumamos a µ, ± 2σ, el 95.44% de los datos estará entre esos límites y si sumamos a µ, ± 3σ, entonces el 99.74% de los datos caerá dentro de esos límites. Esta característica es a la vez una forma empírica y rápida de demostrar si los datos que se analizan tienen una distribución Normal; ya que para trabajar los datos con esta distribución, debe verificarse que efectivamente así se distribuyen, ya que de no hacerlo, las decisiones que en un momento dado se tomarán de un análisis de los datos con la distribución Normal, serían erróneas. TIPIFICACIÓN ¿Cómo se determinan probabilidades con la distribución Normal? Lo más lógico es que la función f(x, µ,, σ2), se integre entre los límites de la variable x; esto es, La integral anterior nos daría el área bajo la curva de la función, desde a hasta b, que corresponde o es igual a la probabilidad buscada. Como es físicamente imposible, e innecesario, construir tablas separadas para todas las parejas de valores concebibles de µ y σ se ha logrado estandarizar la distribución normal por un nuevo conjunto de observaciones de una variable aleatoria para una distribución que tiene µ=0 y σ=1. Si la variable x es N(µ, σ) entonces la variable tipificada x es: Autor: Rosalba Patiño Herrera Agosto del 2002 Instituto Tecnológico de Celaya Departamento de Ingeniería química a la variable Z se la denomina variable tipificada de X, y a la curva de su función de densidad curva normal tipificada. z= x−µ σ Característica de la distribución normal tipificada (reducida, estándar) • No depende de ningún parámetro • Su media es 0, su varianza es 1 y su desviación típica es 1. • La curva f(x) es simétrica respecto del eje Y • Tiene un máximo en este eje • Tiene dos puntos de inflexión en z =1 y z = -1 z= x−µ σ n Donde Caso uno: Caso tres: Autor: Rosalba Patiño Herrera σx = σ n es el error estándar. CASOS MÁS FRECUENTES Caso dos: Caso cuatro: Agosto del 2002 Instituto Tecnológico de Celaya Caso cinco: Departamento de Ingeniería química Caso seis: Ejemplo El acero que se utiliza para tuberías de agua a menudo se recubre internamente con un mortero de cemento para evitar la corrosión. En un estudio de los recubrimientos de mortero de una tubería empleada en un proyecto de transmisión de agua en California (Transportation Engineering Journal, Noviembre de 1979) se especificó un espesor de 7/16 pulgadas para el mortero. Un gran número de mediciones de espesor dieron una media de 0.635 pulgadas y una desviación estándar de 0.082 pulgadas. Sí las mediciones de espesor, tenían una distribución Normal, ¿qué porcentaje aproximado fue inferior a 7/16 de pulgada? x = variable que nos define el espesor del mortero en pulgadas µ = 0.635 pulgadas σ = 0.082 pulgadas 7 − 0.635 16 Z= = −2.4085 ≈ 2.41 0.082 p(z = -2.41) = 0.492 p(x < 7/16 pulgadas) = 0.5- p(z = -2.41) = 0.50.492 = 0.008 Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor menor de 7/16 pulgadas. Autor: Rosalba Patiño Herrera Agosto del 2002 Instituto Tecnológico de Celaya Departamento de Ingeniería química Ejemplo Un tubo fluorescente estándar tiene una duración distribuida Normalmente, con una media de 7,000 horas y una desviación estándar de 1,000 horas. Un competidor ha inventado un sistema de iluminación fluorescente compacto que se puede insertar en los receptáculos de lámparas incandescentes. El competidor asegura que el nuevo tubo compacto tiene una duración distribuida Normalmente con una media de 7,500 horas y una desviación estándar de 1,200 horas. a. ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de 9,000 horas? b. ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5,000 horas? a) Tubo 1 X1 = variable que nos define la duración en horas de un tubo fluorescente µ = 7,000 horas σ = 1,000 horas Tubo 2 X2 = variable que nos define la duración del tubo fluorescente del competidor µ = 7,500 horas σ = 1,200 horas z= 9000 − 7000 = 2.0 1000 p(z1 = 2.00) = 0.4772 p(x1 > 9,000 horas) = 0.5 – p(z1 = 2.00) = 0.5 – 0.4772 = 0.0228 z= 9000 − 7500 = 1.25 1200 p(z2 = 1.25) = 0.3944 p(x2 > 9,000 horas) = 0.5 – p(z2 = 1.25) = 0.5 –0.3944 = 0.1056 Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor de durar más de 9,000 horas. b) z = 5000 − 7000 = −2.0 1000 p(z1 = -2.00) = 0.4772 p(x1 < 5,000 horas) = 0.5 – p(z1 = -2.00) = 0.5 – 0.4772 = 0.0228 Autor: Rosalba Patiño Herrera Agosto del 2002 Instituto Tecnológico de Celaya z= Departamento de Ingeniería química 5000 − 7500 = −2.8 1200 p(z2 = -2.08) = 0.4812 p(x2 < 5,000 horas) = 0.5 – p(z2 = - 2.08) = 0.5 – 0.4812 = 0.0188 Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar menos de 5,000 horas es el del primer fabricante. Ejemplo La distribución de la demanda (en número de unidades por unidad de tiempo) de un producto a menudo puede aproximarse con una distribución de probabilidad Normal. Por ejemplo, una compañía de comunicación por cable ha determinado que el número de interruptores terminales de botón solicitados diariamente tiene una distribución Normal, con una media de 200 y una desviación estándar de 50. a) ¿En qué porcentaje de los días la demanda será de menos de 90 interruptores? b) ¿En qué porcentaje de los días la demanda estará entre 225 y 275 interruptores? c)Con base en consideraciones de costos, la compañía ha determinado que su mejor estrategia consiste en producir una cantidad de interruptores suficiente para atender plenamente la demanda en 94% de todos los días. ¿Cuantos interruptores terminales deberá producir la compañía cada día? a) X = variable que nos indica el número de interruptores demandados por día a una compañía de cable µ = 200 interruptores por día σ = 50 interruptores por día z= 90 − 200 = −2.2 500 p(z = - 2.20) = 0.4861 p(x < 90) = 0.5 – p(z = -2.20) = 0.5 – 0.4861 = 0.0139 Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una demanda menor de 90 interruptores. 225 − 200 = 0.5 p(z1= 0.50) = 0.1915 50 275 − 200 z= = 1.5 50 p(z2 = 1.50) = 0.4332 ≤ x ≥ p(225 275) = p(z2) – p(z1) = 0.4332 – b) z = 0.1915 = 0.2417 Por tanto, 0.2417 x 100% = 24.17% de los días se tendrá una demanda entre 225 y 275 Autor: Rosalba Patiño Herrera Agosto del 2002 Instituto Tecnológico de Celaya Departamento de Ingeniería química interruptores. c) En este caso se trata de determinar que valor toma x cuando se pretende cumplir con el 94% de la demanda de todos los días. Por tanto despejaremos de la fórmula de z; x = µ + zσ x = µ + z(p = 0.44)σ = 200 + z(p = 0.44)(50) = 200 + (1.55)(50) = 277.5 = 278 interruptores terminales por día ¿cómo se obtiene el valor de z? En la tabla buscamos la z que corresponde a una probabilidad de 0.94 y nos damos cuenta de que no existe un valor exacto de 0.94 por lo que tomamos los valores de área más cercanos; luego, z(p = 0.94394) = 1.50; z(p = 0.94406) = 1.60 Por tanto si interpolamos, encontramos que el valor de z para una probabilidad de 0.944 es de 1.55, y es el valor que se sustituye en la ecuación. A proximación normal a la distribución binomial Una dstribución binomial B(n,p) se puede aproximar por una distribución normal, siempre que n sea grande y p no esté muy próxima a 0 o a 1. La aproximación consiste en utilizar una distribución normal con la misma media y desviación típica que la distribución binomial. En la practica se utiliza la aproximación cuando : n ≥ 30 , np ≥ 5 , nq ≥ 5 µ = np σ = npq Y tipificando se obtiene la normal estándar correspondiente: z= x − np npq La distribución normal algunas veces ofrece una aproximación muy exacta a la distribución binomial. Esto sucede cuando n (el número de intentos) es alto y p (la probabilidad de éxito en un intento individual) se aproxima a ½. En la siguiente figura se puede apreciar que aumentando n se aproxima al patrón en forma de campana simétrica. Autor: Rosalba Patiño Herrera Agosto del 2002 Instituto Tecnológico de Celaya Departamento de Ingeniería química Se puede apreciar en los gráficos anteriores como a medida que aumenta n mejora el parecido de las gráficas de barras de las distribuciones binomiales (discretas) a la gráfica de la distribución normal estándar (continua), pero con el inconveniente de que se produce un desplazamiento hacia la derecha de la distribución binomial a medida que aumenta n. Cuando n aumenta, la longitud de las barras disminuye, cosa lógica, porque la suma de las longitudes de todas las barras es 1 (función de probabilidad definida sobre una variable aleatoria discreta); mientras que el área bajo la función de densidad (definida sobre una variable aleatoria continua) de la distribución normal estándar, también es 1. De hecho, se pueden usar las distribuciones normales para obtener una aproximación de las probabilidades binomiales cuando n no es un número tan alto y p difiere un poco de ½. T eorema del límite central Para muestras grandes, se puede obtener una aproximación cercana de la distribución muestral de la media con una distribución normal. Autor: Rosalba Patiño Herrera Agosto del 2002 Instituto Tecnológico de Celaya Departamento de Ingeniería química Teniendo en cuenta que ya sabemos la media y desviación típica de la distribución muestral, podemos decir que: µx =µ y σx = σ para muestras aleatorias infinitas con media n z= µ y desviación típica σ y n x −µ σ n grande, entonces: Este teorema es muy importante, puesto que justifica el uso de los métodos de la curva normal en una gran cantidad de problemas. se utiliza para poblaciones infinitas y para poblaciones finitas cuando n a pesar de ser grande representa una porción muy pequeña de la población. Es difícil señalar con precisión qué tan grande debe ser n de modo que podamos aplicar el Teorema Central del límite, pero a no ser que la distribución sea muy inusual, por lo general se considera que n =30 es lo suficientemente alto. Autor: Rosalba Patiño Herrera Agosto del 2002