Distribución normal - Departamento de Ingeniería Química

Anuncio
Instituto Tecnológico de Celaya
Departamento de Ingeniería química
Distribución normal
La distribución continua de probabilidad más importante en todo el campo de la
estadística es la distribución normal. Se ha usado en una gran variedad de aplicaciones
prácticas en las que las variables son altura, peso de una persona, coeficientes de
inteligencia, mediciones científicas, mediciones físicas en áreas tales como los
experimentos meteorológicos, los estudios acerca de las lluvias y las mediciones sobre
partes manufacturadas, etc.
A la distribución normal, frecuentemente, se le llama distribución gaussiana, en honor de
Karl Friedrich Gauss (1777-1855), quien en investigaciones realizadas sobre la naturaleza
de errores experimentales, observó que las discrepancias existentes entre mediciones
repetidas de la misma cantidad física mostraban un sorprendente grado de regularidad;
sus patrones (distribución), como se descubrió, se podían aproximar muy cercanamente
por medio de cierto tipo de curva de distribución continua, que se denomina “curva
normal de errores” y que se atribuye a las leyes de la casualidad.
Se dice que una variable aleatoria X sigue una distribución normal de parámetros µ y σ ,
lo que representamos del modo X → n(µ, σ ) . Empleando cálculos bastante laboriosos, puede
demostrarse que el modelo de la función de densidad que corresponde a tales
distribuciones viene dado por la fórmula:
2
2
Características
Representación gráfica de esta función de densidad
Características:
•
Puede tomar cualquier valor (- ∞, + ∞) .
•
Es simétrica con respecto a su eje vertical.
•
Es asintótica con respecto a su eje horizontal; esto quiere decir que jamás va a tocar
el eje de las equis.
Autor: Rosalba Patiño Herrera
Agosto del 2002
Instituto Tecnológico de Celaya
Departamento de Ingeniería química
•
Son más probables los valores cercanos la media µ
•
El área total bajo la curva es 1.
•
Conforme nos separamos de ese
valor µ, la probabilidad va
decreciendo de igual forma a
derecha
e
izquierda
(es
simétrica).
•
Conforme nos separamos de ese
valor µ la probabilidad va
decreciendo de forma más o
menos rápida dependiendo de un parámetro σ , que es la desviación típica.
•
Ésta curva alcanza un único máximo (moda) en µ, que es simétrica con respecto al
mismo, y en ese máximo coinciden la media, la mediana y la moda. La mayor parte de
la masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se
encuentra concentrado alrededor de la media, y las ramas de la curva se extienden
asintóticamente a los ejes, de modo que cualquier valor "muy alejado" de la media es
posible (aunque poco probable).
•
σ 2 (o
equivalentemente) será el parámetro de dispersión. Cuanto menor sea, mayor
cantidad de masa de probabilidad habrá concentrada alrededor de la media (grafo de f
muy apuntado cerca de µ ) y cuanto mayor sea "más aplastado" será.
•
La función que nos define esta distribución es:
Al dar a la función los valores de µ,, σ2 y valores a x, obtendremos la distribución en
cuestión, la que tiene forma de campana, por lo que también se le conoce como
campana de Gauss. Hay un número infinito de funciones de densidad Normal, una para
cada combinación de µ, y σ. La media µ, mide la ubicación de la distribución y la
desviación estándar σ mide su dispersión.
F(x) es el área sombreada de esta
gráfica
Autor: Rosalba Patiño Herrera
Agosto del 2002
Instituto Tecnológico de Celaya
•
Departamento de Ingeniería química
Sí sumamos la µ, ± σ, se observará que aproximadamente el 68.26% de los datos se
encuentran bajo la curva, si sumamos a µ, ± 2σ, el 95.44% de los datos estará entre
esos límites y si sumamos a µ, ± 3σ, entonces el 99.74% de los datos caerá dentro de
esos límites. Esta característica es a la vez una forma empírica y rápida de demostrar
si los datos que se analizan tienen una distribución Normal; ya que para trabajar los
datos con esta distribución, debe verificarse que efectivamente así se distribuyen, ya
que de no hacerlo, las decisiones que en un momento dado se tomarán de un análisis de
los datos con la distribución Normal, serían erróneas.
TIPIFICACIÓN
¿Cómo se determinan probabilidades con la distribución Normal?
Lo más lógico es que la función f(x, µ,, σ2), se integre entre los límites de la variable x;
esto es,
La integral anterior nos daría el área bajo la curva de la función, desde a hasta b, que
corresponde o es igual a la probabilidad buscada.
Como es físicamente imposible, e innecesario, construir tablas separadas para todas las
parejas de valores concebibles de µ y σ se ha logrado estandarizar la distribución normal
por un nuevo conjunto de observaciones de una variable aleatoria para una distribución
que tiene µ=0 y σ=1. Si la variable x es N(µ, σ) entonces la variable tipificada x es:
Autor: Rosalba Patiño Herrera
Agosto del 2002
Instituto Tecnológico de Celaya
Departamento de Ingeniería química
a la variable Z se la denomina variable tipificada de X, y a la curva de su función de
densidad curva normal tipificada.
z=
x−µ
σ
Característica de la distribución normal tipificada (reducida, estándar)
•
No depende de ningún
parámetro
•
Su media es 0, su varianza es
1 y su desviación típica es 1.
•
La curva f(x) es simétrica
respecto del eje Y
•
Tiene un máximo en este eje
•
Tiene dos puntos de inflexión
en z =1 y z = -1
z=
x−µ
σ
n
Donde
Caso uno:
Caso tres:
Autor: Rosalba Patiño Herrera
σx =
σ
n
es el error estándar.
CASOS MÁS FRECUENTES
Caso dos:
Caso cuatro:
Agosto del 2002
Instituto Tecnológico de Celaya
Caso cinco:
Departamento de Ingeniería química
Caso seis:
Ejemplo
El acero que se utiliza para tuberías de agua a menudo se recubre
internamente con un mortero de cemento para evitar la corrosión. En un
estudio de los recubrimientos de mortero de una tubería empleada en un
proyecto de transmisión de agua en California (Transportation
Engineering Journal, Noviembre de 1979) se especificó un espesor de
7/16 pulgadas para el mortero. Un gran número de mediciones de
espesor dieron una media de 0.635 pulgadas y una desviación estándar
de 0.082 pulgadas. Sí las mediciones de espesor, tenían una distribución
Normal, ¿qué porcentaje aproximado fue inferior a 7/16 de pulgada?
x = variable que nos define el espesor del mortero
en pulgadas
µ = 0.635 pulgadas
σ = 0.082 pulgadas
7
− 0.635
16
Z=
= −2.4085 ≈ 2.41
0.082
p(z = -2.41) = 0.492
p(x < 7/16 pulgadas) = 0.5- p(z = -2.41) = 0.50.492 = 0.008
Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor
menor de 7/16 pulgadas.
Autor: Rosalba Patiño Herrera
Agosto del 2002
Instituto Tecnológico de Celaya
Departamento de Ingeniería química
Ejemplo
Un tubo fluorescente estándar tiene una duración distribuida
Normalmente, con una media de 7,000 horas y una desviación estándar
de 1,000 horas. Un competidor ha inventado un sistema de iluminación
fluorescente compacto que se puede insertar en los receptáculos de
lámparas incandescentes. El competidor asegura que el nuevo tubo
compacto tiene una duración distribuida Normalmente con una media de
7,500 horas y una desviación estándar de 1,200 horas.
a. ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una
duración mayor de 9,000 horas?
b. ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos
de 5,000 horas?
a) Tubo 1
X1 = variable que nos define la duración en horas de un tubo fluorescente
µ = 7,000 horas
σ = 1,000 horas
Tubo 2
X2 = variable que nos define la duración del tubo fluorescente del competidor
µ = 7,500 horas
σ = 1,200 horas
z=
9000 − 7000
= 2.0
1000
p(z1 = 2.00) = 0.4772
p(x1 > 9,000 horas) = 0.5 – p(z1 = 2.00) = 0.5 –
0.4772 = 0.0228
z=
9000 − 7500
= 1.25
1200
p(z2 = 1.25) = 0.3944
p(x2 > 9,000 horas) = 0.5 – p(z2 = 1.25) = 0.5 –0.3944 = 0.1056
Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor de durar más
de 9,000 horas.
b) z =
5000 − 7000
= −2.0
1000
p(z1 = -2.00) = 0.4772
p(x1 < 5,000 horas) = 0.5 – p(z1 = -2.00) = 0.5 –
0.4772 = 0.0228
Autor: Rosalba Patiño Herrera
Agosto del 2002
Instituto Tecnológico de Celaya
z=
Departamento de Ingeniería química
5000 − 7500
= −2.8
1200
p(z2 = -2.08) = 0.4812
p(x2 < 5,000 horas) = 0.5 – p(z2 = - 2.08) = 0.5 – 0.4812 = 0.0188
Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar menos de
5,000 horas es el del primer fabricante.
Ejemplo
La distribución de la demanda (en número de unidades por unidad de
tiempo) de un producto a menudo puede aproximarse con una
distribución de probabilidad Normal. Por ejemplo, una compañía de
comunicación por cable ha determinado que el número de interruptores
terminales de botón solicitados diariamente tiene una distribución
Normal, con una media de 200 y una desviación estándar de 50.
a) ¿En qué porcentaje de los días la demanda será de menos de 90
interruptores?
b) ¿En qué porcentaje de los días la demanda estará entre 225 y 275
interruptores?
c)Con base en consideraciones de costos, la compañía ha determinado
que su mejor estrategia consiste en producir una cantidad de
interruptores suficiente para atender plenamente la demanda en 94% de
todos los días. ¿Cuantos interruptores terminales deberá producir la
compañía cada día?
a) X = variable que nos indica el número de
interruptores demandados por día a una
compañía de cable
µ = 200 interruptores por día
σ = 50 interruptores por día
z=
90 − 200
= −2.2
500
p(z = - 2.20) = 0.4861
p(x < 90) = 0.5 – p(z = -2.20) = 0.5 – 0.4861 = 0.0139
Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una demanda menor de 90
interruptores.
225 − 200
= 0.5 p(z1= 0.50) = 0.1915
50
275 − 200
z=
= 1.5
50
p(z2 = 1.50) = 0.4332
≤
x
≥
p(225
275) = p(z2) – p(z1) = 0.4332 –
b) z =
0.1915 = 0.2417
Por tanto, 0.2417 x 100% = 24.17% de los días
se tendrá una demanda entre 225 y 275
Autor: Rosalba Patiño Herrera
Agosto del 2002
Instituto Tecnológico de Celaya
Departamento de Ingeniería química
interruptores.
c) En este caso se trata de determinar que valor toma x cuando se pretende cumplir con
el 94% de la demanda de todos los días.
Por tanto despejaremos de la fórmula de z;
x = µ + zσ
x = µ + z(p = 0.44)σ = 200 + z(p = 0.44)(50)
= 200 + (1.55)(50) = 277.5 = 278
interruptores terminales por día
¿cómo se obtiene el valor de z?
En la tabla buscamos la z que corresponde a
una probabilidad de 0.94 y nos damos cuenta
de que no existe un valor exacto de 0.94 por lo
que tomamos los valores de área más
cercanos; luego,
z(p = 0.94394) = 1.50; z(p = 0.94406) = 1.60
Por tanto si interpolamos, encontramos que el valor de z para una probabilidad de
0.944 es de 1.55, y es el valor que se sustituye en la ecuación.
A
proximación normal a la distribución binomial
Una dstribución binomial B(n,p) se puede aproximar por una distribución normal, siempre
que n sea grande y p no esté muy próxima a 0 o a 1. La aproximación consiste en utilizar
una distribución normal con la misma media y desviación típica que la distribución
binomial.
En la practica se utiliza la aproximación cuando : n ≥ 30 , np ≥ 5 ,
nq ≥ 5
µ = np
σ = npq
Y tipificando se obtiene la normal estándar correspondiente:
z=
x − np
npq
La distribución normal algunas veces ofrece una aproximación muy exacta a la
distribución binomial. Esto sucede cuando n (el número de intentos) es alto y p (la
probabilidad de éxito en un intento individual) se aproxima a ½. En la siguiente figura se
puede apreciar que aumentando n se aproxima al patrón en forma de campana simétrica.
Autor: Rosalba Patiño Herrera
Agosto del 2002
Instituto Tecnológico de Celaya
Departamento de Ingeniería química
Se puede apreciar en los gráficos anteriores como a medida que aumenta n mejora el
parecido de las gráficas de barras de las distribuciones binomiales (discretas) a la gráfica
de la distribución normal estándar (continua), pero con el inconveniente de que se produce
un desplazamiento hacia la derecha de la distribución binomial a medida que aumenta n.
Cuando n aumenta, la longitud de las barras
disminuye, cosa lógica, porque la suma de las
longitudes de todas las barras es 1 (función de
probabilidad definida sobre una variable
aleatoria discreta); mientras que el área bajo
la función de densidad (definida sobre una
variable aleatoria continua) de la distribución
normal estándar, también es 1.
De hecho, se pueden usar las distribuciones normales para obtener una aproximación de
las probabilidades binomiales cuando n no es un número tan alto y p difiere un poco de ½.
T
eorema del límite central
Para muestras grandes, se puede obtener una aproximación cercana de la distribución
muestral de la media con una distribución normal.
Autor: Rosalba Patiño Herrera
Agosto del 2002
Instituto Tecnológico de Celaya
Departamento de Ingeniería química
Teniendo en cuenta que ya sabemos la media y desviación típica de la distribución
muestral, podemos decir que:
µx =µ y
σx =
σ
para muestras aleatorias infinitas con media
n
z=
µ y desviación típica σ y n
x −µ
σ
n
grande, entonces:
Este teorema es muy importante, puesto que justifica el uso de los métodos de la curva
normal en una gran cantidad de problemas. se utiliza para poblaciones infinitas y para
poblaciones finitas cuando n a pesar de ser grande representa una porción muy pequeña
de la población.
Es difícil señalar con precisión qué tan grande debe ser n de modo que podamos aplicar el
Teorema Central del límite, pero a no ser que la distribución sea muy inusual, por lo
general se considera que n =30 es lo suficientemente alto.
Autor: Rosalba Patiño Herrera
Agosto del 2002
Descargar