Variable Aleatoria Continua y Distribuciones Continuas de

Anuncio
UNIDAD II: PROBABILIDAD
DISTRIBUCIONES DE PROBABILIDAD
DE VARIABLES ALEATORIAS DISCRETAS
TEMA
8.1. INTRODUCCIÓN
8.2. DISTRIBUCIÓN UNIFORME CONTINUA
8.3. DISTRIBUCIÓN NORMAL (DN)
8.3.1. Generalidades
8.3.2. Propiedades del modelo normal
8.4. DISTRIBUCIÓN NORMAL TIPIFICADA (DNT)
8.4.1. Generalidades
8.4.2. Propiedades de la distribución de probabilidad normal tipificada
8.4.3. Tablas probabilísticas de la DNT
8.4.4. Aplicaciones de la DNT para el cálculo de probabilidades
8.4.5. Ajustamiento del modelo normal
8.5. LA DISTRIBUCIÓN NORMAL COMO APROXIMACIÓN DE DIVERSAS DISTRIBUCIONES
DISCRETAS DE PROBABILIDAD
8.5.1. Corrección por continuidad
8.5.2. Necesidades de la corrección para el ajuste por continuidad
8.5.3. Aproximación a la distribución binomial
8.5.4. Obtención de una aproximación de probabilidad para un valor individual
8.5.5. Aproximación a la distribución de Poisson
8.1.
INTRODUCCIÓN
En el capítulo anterior se presentaron algunos modelos específicos para modelar la distribución
de variables aleatorias discretas, caracterizada porque sus posibles valores constituyen un conjunto
finito o infinito contable. Este capítulo estará destinado a las distribuciones continuas de probabilidad, es
decir, cuando los posibles valores de la variable aleatoria pertenecen a un intervalo completo sobre la
recta numérica, de modo que la probabilidad de que la variable aleatoria continua (VAC) tome un
determinado valor es nula , P(X=x)=0. Entre los modelos de probabilidad para variables aleatorias
continuas (VAC) desarrollados, en este curso se hará mención a las siguientes: uniforme, normal,
normal tipificada, exponencial, gamma y otras derivadas como la distribución t de Student, la F
de Snedecor y Ji cuadrado.
Sin embargo este capítulo estará focalizado a los dos primeros de estos modelos probabilísticos,
aunque el énfasis se pondrá en la distribución de probabilidades normal tipificada o distribución “zeta”
que está asociada a un tipo general de variable, la variable Z, por su amplio uso en el estudio de
numerosos fenómenos aleatorios de interés que trascienden al del campo de aplicación de las carreras
de la Facultad de Ciencias Agrarias. El abordaje al estudio será análogo al ya visto para los modelos de
probabilidad de VAD. Se discutirán las propiedades de cada modelo y se aplicarán a una variada
problemática para proporcionar una idea y comprensión suficiente de la utilidad del modelo para utilizar
estos modelos de manera apropiada.
8.2. DISTRIBUCIÓN UNIFORME CONTINUA
Una de las distribuciones continuas más simples, es la distribución uniforme continua. Esta
distribución se caracteriza por una función de densidad que es “plana”, y por ello la probabilidad es
uniforme para cualquiera de los infinitos intervalos cerrados, [a, b], que pueden ser definidos en el
recorrido que tiene la variable. Aunque las aplicaciones del modelo uniforme continuo no son tan
abundantes como acontece con las otras distribuciones que se presentan en este capítulo, se la utilizará
por su sencillez para iniciar el tratamiento de las distribuciones continuas.
Definición 8.1
La función de densidad de la variable aleatoria uniforme continua X en el intervalo [α, β] es
1
, ≤ ≤ ; , = − 0
Debido a la naturaleza simple de la función de densidad, el cálculo de probabilidades resulta sencillo.
A continuación se muestra la representación gráfica de la función de densidad (Gráfico 8.1), para
una variable aleatoria uniforme en el intervalo [1,3,] con un valor de ordenada constante igual a = 1/2 .
Se debe notar que esta función forma un rectángulo, con base b-a y altura constante 1/(b-a), de ahí que
135
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
a menudo se la llama también distribución rectangular. Su aplicación, se basa en la suposición de
que la probabilidad de caer en un intervalo de longitud fija [a,b] es constante.
f (x)
1
2
0
1
3
x
Gráfico 8.1 Función de densidad para una variable aleatoria en el intervalo [1,3]
8.3. DISTRIBUCIÓN NORMAL (DN)
8.3.1. GENERALIDADES
La distribución normal o Gausiana1 es indudablemente la más importante y la de mayor uso de
todas las distribuciones de probabilidad. Se la considera la piedra angular para resolver el cálculo de
probabilidades vinculado a cualquier tipo de fenómeno. La distribución normal es de vital importancia en
estadística por tres razones principales:
1º) Numerosos fenómenos naturales, sociales y psicológicos parecen seguirla. Todos ellos se
caracterizan porque los mecanismos subyacentes son desconocidos por la enorme cantidad de
variables incontrolables que los determinan, pero en una gran cantidad de casos se ha
comprobado empíricamente que el modelo normal expresa fielmente el patrón de
comportamiento en masa de observaciones que se corresponden con la suma del efecto de
varias causas independientes entre sí. Algunos ejemplos específicos incluyen datos
meteorológicos tales como la temperatura y la precipitación pluvial, mediciones efectuadas en
organismos vivos (talla y peso), en educación calificaciones en pruebas de actitud, mediciones
físicas , errores de instrumentación y otras desviaciones de las normas establecidas, etc. Sin
embargo, hay que ser cautelosos a la hora de usar dogmáticamente un modelo de probabilidad
normal, dado que su errónea utilización puede llevar a errores muy serios. Es posible que una
distribución normal proporcione de manera razonable una buena aproximación alrededor de la
media de una variable aleatoria; sin embargo, puede resultar inapropiada para valores extremos
que se encuentren en cualquier dirección. Por ejemplo, si se diseña una tela antigranizo para
resistir una cierta cantidad de presión por impactos de granizo, suponiendo que la resistencia se
encuentra distribuida normalmente alrededor de un valor promedio, y el diseño se hace con base
en esta suposición, el material puede llegar a tener un comportamiento muy diferente frente a
valores máximos de presión. Durante el siglo XIX se empleó de manera extensa, cuando los
científicos observaron que los errores, al llevar a cabo mediciones físicas, frecuentemente
seguían un patrón que sugería→ la distribución normal.
2º) se puede utilizar para aproximar varias distribuciones discretas de probabilidad y de esta
manera evitar molestos cálculos (cálculos aproximados de probabilidad).
3º) Proporciona la base para la Inferencia estadística clásica por su relación con el teorema del
límite central, que será desarrollado en el capítulo siguiente.
8.3.2. PROPIEDADES DEL MODELO NORMAL
Si se recuerda al presentar la VAC, se indicó que para representar el modelo matemático de
probabilidad correspondiente se ha adoptado la función de densidad de probabilidad (f.d.p),
representada en forma general por f(x).
1
Esta distribución debe su nombre de “normal” al hecho de que modela el comportamiento de la gran mayoría de
las VAC que interesa estudiar para comprender la naturaleza, y el de “gaussiana” en honor a Johann Carl Friedrich
Gauss (1777-1855), quien fue un matemático, astrónomo y físico alemán que la citó en un artículo que publicó en
1809. Sin embargo el modelo específico o función de densidad de probabilidad de la distribución normal, fue
descubierto por el francés Abraham de Moivre en 1733 como una forma límite de la función de probabilidad
binomial (n→ ∞), posteriormente fue estudiada por Laplace.
136
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
Definición 8.2.
Se dice que una variable aleatoria X se encuentra normalmente distribuida con media µ y varianza σ2,
si su función de densidad de probabilidad f(x) o f.d.p.,
f.d.p. está dada por
= #; $, % =
&
√()*
- ;<= .
? @
. >
+, /
(8.1)
#0 − ∞ B B ∞;−∞ B $ B ∞; % C 0
Donde:
e y π son constantes matemáticas (e ≅ 2,71828, π ≅ 3,14159)
µ y σ, son los parámetros de la distribución normal y por tanto en definitiva, quienes determinan en
forma completa la función de densidad de probabilidad. Como se verá posteriormente estos
parámetros son la media y la desviación típica de X, respectivamente.
Siguiendo
uiendo con la notación introducida para VAD, se pued
puede
e escribir para la variable aleatoria
normal que ~ ; !, ". Debe notarse que al ser µ y σ los valores paramétricos, ccada
ada vez que se
especifica una combinación particular de µ y σ, se tiene una distribución de probabilidad normal
diferente. Se desprende entonces que el número posible de curvas norm
normales
ales es infinito. Algunos
ejemplos se muestran
an en el gráfico 8.1, donde en (a) hay tres curvas que tienen diferente centrado pero
su dispersión es idéntica y, lo contrario acontece en (b).. Es importante notar con relación a las
propiedades de forma, que en cualquier caso la distribución tiene forma campanular y es simétrica,
simétrica pero
el tipo de curtosis no es único.
único
f(x)
f(x)
µ=4
=4
µ=5 µ=6
µ=6
(a)
(b)
Gráfico 8.2.
8. Gráficas de la función de densidad normal para diferentes valores de µ y σ.
(a) diferente centrado e idéntica dispersión,(b)
dispersión,(b) idéntico centrado y diferente dispersión
f(x)
x
Gráfico 8.3:
8. . Distribuciones campanulares, con diferentes coeficientes de curtosis
Si se obtienen las dos primeras derivadas de N(x; µ, σ) con respecto a x, y se igualan a cero, se
tiene: 1º) que el valor máximo de N(x; µ , σ) ocurre cuando x =µ y 2º) que los valores de x = µ + σ son
los valores de abscisas que se corresponden con los puntos de inflexión de la curva.
Definición 8.3
7
La media de una variable aleatoria continua se encuentra definida por:
0
$1 = 2345 = 6 0
,7
1 −$
:− /
? D
1
$1 = 2345 =
6 2 %
0
√29%
,7
7
reemplazando f(x) por su igual, se tiene que la media de una distribución de probabilidad normal es
2
137
Cátedra de Cálculo
culo Estadístico y Biometría – Facultad de Cien
iencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
Definición 8.4
La probabilidad de que una variable aleatoria normalmente distribuida X tome un valor menor o
igual a un valor específico x, está dada por la función de distribución de probabilidades
acumuladas (f.d.a)
G− H
1
2
E =
6
F29% −∞
1 −$I2 J
%
0
El siguiente cuadro resume varias propiedades teóricas interesantes de la distribución normal.
Función de densidad de probabilidad
= #; $, % =
1
& 1,K
+, /
? @
( *
.
√29%
0#0 − ∞ B B ∞
Parámetros
$: − ∞ B $ B ∞
%:% C 0
Media
varianza
Desviación
media
Recorrido
intercuantílico
Recorrido
interdecílico
Coeficiente
asimetría
Curtosis
relativa
µ
σ2
0,7979 σ
1,35 σ
2,56 σ
0
3
1) La curva normal tiene forma de campana
2) Es simétrica con respecto a la media de distribución, y la media resulta igual a la mediana.
3) El recorrido de la variable es MN = O⁄ ∈ ℝS.
4) Cada distribución normal está completamente especificada por su media y desviación
típica; existe una distribución normal diferente para cada combinación de media y
desviación típica.
5) El área total bajo la curva normal tiene valor unitario, por tanto es una función de
probabilidad
6) El área bajo la curva, comprendida entre dos puntos a y b, resulta igual a la probabilidad de
que la variable, distribuida normalmente, tome un valor que pertenezca a ese intervalo.
7) Dado que existe un número ilimitado de valores en el intervalo que va de −∞ B 4 B ∞, la
probabilidad de que una variable aleatoria distribuida con normalidad sea exactamente igual
a cualquier valor puntual, es cero 3T4 = = 05. Por lo tanto, las probabilidades para
valores puntuales de una VAC son nulas, siempre hay que asociar la idea de que el valor
puntual pertenece a un intervalo de valores [a, b], y que por ende hay que calcular la
probabilidad del intervalo.
8) El área bajo la curva, entre la media y cualquier otro punto, es una función del número de
desviaciones estándar que el punto se encuentra respecto a la media.
En la práctica se observará que, la distribución de los datos de una muestra obtenida a partir de
una población que se supone distribuida normalmente, presenta aspectos que recuerdan a la
distribución campanular (curva en forma de campana):
a)
b)
c)
d)
el polígono tiende a tener una apariencia más o menos simétrica (respecto al valor central)
los valores de la media y la mediana ( x , x d ) no difieren entre sí.
el valor del rango intercuartílico puede diferir ligeramente de 1,33 desviaciones estándar.
el recorrido o amplitud no es infinito, sino que por lo general se encontrará que el intervalo
definido por tres desviaciones típicas por encima y por debajo de la media ̅ ± 3, abarca casi
al 100% de los valores observados de x. De este modo, se puede establecer la siguiente relación
que resulta útil para tener una estimación rápida de la desviación típica, s ≅ recorrido / 6.
Como un caso pertinente obsérvese la figura 8.3 que representa el histograma de frecuencias
relativas y el polígono para la distribución de frecuencia según los valores del espesor, en pulgadas, de
10,000 arandelas de bronce. Los datos en masa parecen satisfacer las primeras dos propiedades
teóricas de la distribución normal (campanular, simétrica) pero, el recorrido dista mucho de ser infinito.
Físicamente es imposible que la variable aleatoria de interés, el espesor de una arandela, tenga valores
iguales a cero o inferiores, así como que sea exageradamente grande porque estará fuera de
especificación y no se podrá utilizar. Esta situación se da con frecuencia al analizar casos reales.
138
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
0,2
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
Espesor
(pulgadas)
< 0,180
0,180 < 0,182
0,182 < 0,184
0,184 < 0,186
0,186 < 0,188
0,188 < 0,190
0,190 < 0,192
0,194 < 0,196
0,204
0,202
0,200
0,198
0,196
0,194
0,192
0,190
0,188
0,186
0,184
0,182
0,180
0,178
0,192 < 0,194
0
fi
Tabla 8.1. Espesores de 10.000 arandelas
de bronce fabricadas por una compañía
0,196 < 0,198
Espesor (pulgadas)
0,198 < 0,200
0,200 < 0,202
Gráfico 8.4. Histograma de frecuencias relativas y polígono
del espesor de 10.000 arandelas de bronce
> 0,202
Frecuencia relativa o
probabilidad
48/10000 = 0,0048
122/10000 = 0,0122
325/10000 = 0,0325
695/10000 = 0,0695
1198/10000 = 0,1198
1664/10000 = 0,1164
1896/10000 = 0,1896
1664/10000 = 0,1664
1198/10000 = 0,1198
695/10000 = 0,0695
325/10000 = 0,0325
122/10000 = 0,0122
48/10000 = 0,0048
1,0000
8.4. DISTRIBUCIÓN NORMAL TIPIFICADA (DNT)
8.4.1. GENERALIDADES
En realidad la distribución normal generalizada es una “familia” de distribuciones infinitamente
grande, hay una para cada combinación posible de la media y la desviación típica. En consecuencia,
será inútil intentar elaborar tablas que satisfagan tantas necesidades como las que tengan los posibles
usuarios. Por otra parte, la fórmula para la distribución normal no es muy adecuada para calcular las
probabilidades frente a cada situación práctica. Existe, sin embargo, una alternativa sencilla que evita
estos problemas.
El problema de trabajar con una familia infinita de distribuciones normales se puede evitar
completamente, utilizando valores relativos en lugar del valores reales. Esto equivale a utilizar como
punto de referencia la media y, la desviación típica como una medida de la desviación del valor de la
variable original respecto al punto de referencia. Este nuevo escalamiento se conoce como Escala Z, o
transformación Z.
Definición 8.5
Se define a la variable aleatoria Z como:
Z=
X −µ
σ
Notar que X es una V.A, y la función de una V.A resulta otra V.A, se tiene que Z es una V.A. cuyos
valores son conocidos como desvíos normales tipificados o simplemente, los desvíos z.
8.4.2. PROPIEDADES DE LA DISTRIBUCIÓN DE PROBABILIDAD NORMAL TIPIFICADA
Cualquier variable aleatoria normal X puede ser transformada en una variable normal tipificada Z.
Mientras que la variable aleatoria X tiene una media de µ x y desviación típica σx, que puede tomar
infinitos valores, la variable aleatoria tipificada Z siempre tendrá una media µz = 0 y una desviación
típica σz = 1. En otras palabras, si X se encuentra normalmente distribuida con media µ y desviación
típica σ, entonces Z = (x - µ) /σ también se encuentra normalmente distribuida, pero con media cero y
desviación típica unitaria.
Definición 8.5.
Al sustituir en la fórmula 8.1. resulta que la función de densidad de probabilidad de una variable
normal tipificada Z es
Luego
^; 0; 1 =
1
√29%
&
_, ` . a
( P( X ≤ x) ≡ P( Z ≤ z ) y: Fx ( x; µ , σ ) ≡ Fz ( z;0,1)
Donde Fz (z; 0,1) es la función de distribución de probabilidades acumuladas de la
variable normal tipificada o de desvíos normales tipificados (DNT)
139
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
En el Gráfico 8.5 se proporciona la gráfica de la función de distribución para la variable aleatoria
normal tipificada Z
Gráfico 8.5. Función de distribución de probabilidades acumuladas de la variable normal tipificada Z
En el gráfico 8.6 se muestran comparativamente las funciones f(z) y F(z). Notar que:
a) en el caso de f(z) las probabilidades están dadas en el gráfico por las áreas bajo la curva
normal,
b) en el caso de la F(z) estas probabilidades se encuentran en las ordenadas del gráfico.
A modo de ejemplo, si se quiere conocer la probabilidad de que la variable z tome un valor menor a (-1),
se observa en ^ en el área sombreada y en E^ sobre el eje de ordenadas.
(a)
(b)
Gráfico 8.6. Área bajo la f.d.p normal y ordenadas de la f.d.p.a normal
Tb B −1,0 = T−∞ < b < −1,0) = 0,1587
Para saber cómo aplicar la ecuación de transformación (definición 8.5) y usar los resultados, a
continuación se da el problema siguiente: Supóngase que un consultor está estudiando cuanto tiempo
necesitarían los obreros de una fábrica para llenar una caja de envases de mermelada. A partir de datos
históricos se determinó que el tiempo (en segundos) estaba distribuido normalmente con una media µx
de 75 segundos y una desviación típica σx de 6 segundos. Algunas aplicaciones útiles de esta
información son:
1)
Valores de X transformados a valores de Z: de la figura 8.7 se observa que a cada
medición x (dato medido) le corresponde una medición z (desvío normal tipificado), obtenida aplicando la
ecuación de transformación (definición 8.5). Así, según el gráfico 8.7, el tiempo de 81 segundos que
necesita un obrero para completar la tarea equivale a una unidad tipificada, z=1, es decir, se aleja una
desviación típica por encima de la media, puesto que
z=
81 − 75
=1
6
Mientras que, los 57 segundos que necesita el obrero para llenar la caja equivale a 3 unidades
tipificadas (es decir, se aleja de la media 3 desviaciones típicas) por debajo de la media porque
z=
57 − 75
= −3
6
140
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
Gráfico 8.7. Relación entre la escala de una VA distribuida normalmente (X) y, la escala de la VA
normal tipificada (Z)
El signo del dnt: Obsérvese que los desvíos normales tipificados z tienen signo negativo en el
caso de valores de variable menores que la media, y signo positivo para valores mayores que la media.
Por lo tanto, la desviación típica se ha convertido en la unidad de medición. En otras palabras 81
segundos, es 6 segundos más (una desviación típica, σ = 6) que el tiempo promedio de 75 segundos,
mientras que un tiempo de 57 segundos es 18 segundos menos (es decir, 3 desviaciones típicas, 3σ)
que el tiempo promedio: en el primer caso, el “tiempo de llenado de cajas más lento que el promedio” y,
en el segundo, ese “tiempo es más rápido”.
2) Valores de Z llevados a valores de X: Es necesario también ser capaces de trabajar en
orden inverso, pasando de los valores de d.n.t. a valores reales. Por ejemplo, se quiere saber qué valor
real sería el equivalente de z = +2. Suponiendo que se conoce la media y la desviación típica, y
suponiendo que la distribución es normal, la conversión asume la forma
Valor real = µ + zσ
A continuación se dan algunos ejemplos de lo anterior. Dado X ~ N (x; 20, 1)
Z
-3
-2
-1
0
1
2
3
zσ
-3
-2
-1
0
1
2
3
x = µ + zσ
20 – 3 = 17
20 – 2 = 18
20 – 1 = 19
20 – 0 = 20
20 + 1 = 21
20 + 2 = 22
20 + 3 = 23
Existe una gran ventaja en pensar y trabajar con valores relativos. En lugar de tener que emplear
una familia ilimitada de distribuciones normales, se puede utilizar una única distribución, la distribución
normal tipificada, para transformar los valores de cualquier VA normal en una sola variable Z. El
resultado de la transformación (zi) indicará a cuántas desviaciones estándar está el valor considerado de
la media de distribución. Esto permite determinar varias probabilidades con base en la curva normal,
mediante el uso de una tabla única de probabilidades.
Dado un intervalo definido por dos valores de zi, las áreas comprendidas entre f(z) y el eje de
abscisas, reciben el nombre de áreas normales. Existen diferentes tablas para hallar el valor de éstas
áreas: algunas consideran intervalos del tipo -∞ < Z < zi, donde zi puede ser +∞ (acumulan áreas hasta
el caso del área total bajo la curva normal tipificada, o sea hasta el valor de probabilidad 1), en tanto en
otras zi puede tomar valores cuando más iguales a cero (acumulan áreas y cuando más considera la
mitad del área bajo la curva normal tipificada, o sea hasta el valor de probabilidad 0,5), y aprovecha la
propiedad de simetría para obtener las otras probabilidades. En nuestro caso, utilizaremos la tabla de
valores de la función de distribución acumulada F(z), que cubre el intervalo -3,5 < Z < 3,5.
Regla empírica de la normal (comparar con Chebychev)
Si una variable está distribuida normalmente, entonces
• el 68,26% de los datos caen dentro de los límites µ±0,674σ (alrededor del 68% de sus
valores quedarán dentro de una desviación típica de la media
• el 95,46% de los datos caen dentro de los límites µ±1,96σ (alrededor del 95,5% caerá
dentro de dos desviaciones típica de la media
• el 99,73% de los datos caen dentro de los límites µ±2,576σ (alrededor del 99% quedarán
dentro de tres desviaciones típicas de la media.
Esta idea se ilustra en el gráfico 8.8. Esto es cierto independientemente de que la media y la
desviación estándar presenten una determinada distribución normal, esto se cumple en el caso de
todas las distribuciones normales.
141
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
Gráfico 8.8. Área bajo una curva normal
normal dentro de 1, 2 y 3 desviaciones típicas de la media.
(µ + σ ; µ + 2σ ; µ + 3 σ )
8.4.3. TABLAS PROBABILÍSTICAS DE LA DNT
La estructura de una tabla típica de la Función de distribución de probabilidades acumuladas,
puede ser la siguiente:
Z
.00
.01
-3.5
0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
.02
.03
.04
.05
.06
.07
.08
.09
.
.
.
0.0
0.5000
.
3.5
0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
Es decir, que la tabla se refiere a los valores de la función de distribución (probabilidades
acumuladas) de la variable aleatoria Z, P ( Z ≤ z i ) , es decir que contiene los valores de probabilidad de
que la variable aleatoria tipificada Z tome un valor que sea menor o igual a un z dado. Por ejemplo
P ( Z ≤ 0,0) = 0,50 .
Existen dos formas de utilizarla:
1º caso:: interesa averiguar valores de probabilidad. Se entra en la tabla con los valores de d.n.t.,
zi por filas con el valor entero y el primer decimal y el segundo decimal por la columna, y se lee el valor
de probabilidad acumulado hasta ese zi.
P ( Z ≤ z ) = Fz ( z;0;1) =
1
2π
z
∫ exp(−t
2
/ 2)dt
−∞
2º caso:: se busca averiguar el valor de un percentil. Se entra con valores de probabilidad
acumulada y se lee el valor de z.
8.4.4. APLICACIONES DE LA DNT PARA EL CÁLCULO DE PROBABILIDADES
1º CASO:: Sea el ejemplo de la fábrica de mermeladas.. Determinar la probabilidad de que un obrero
seleccionado en forma aleatoria:
a) necesite entre 75 y 81 segundos para terminar la tarea
b) pueda llenar la caja en menos de 75 segundos ó en más de 81
c) pueda llenar la caja en 69 a 81 segundos
a) Dado que la media es de 75 segundos y la desviación típica es 6 segundos, en otras palabras se
está preguntando ¿cuál es la probabilidad de que el tiempo del tra
trabajador
bajador se encuentre entre la
media de la planta y una desviación típica por encima de la misma?
1° paso: Usando la ecuación de transformación los
os valores de la variable original, 75 y 81 segundos,
son transformados a valores de d.n.t., resultando:
z1 = (75--75)/6 y z2 = (75-81)/6,
81)/6, esto es igual a 0 y 1, respectivamente.
142
Cátedra de Cálculo Es
Estadístico y Biometría – Facultad de Ciencias
ias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
2° paso: queda hallar los valores de F(z) correspondientes, y hacer la diferencia
P(75<X<81) = P(0<Z<1) = 0,8413 – 0,5000 = 0,3413
Gráfico 8.9. Determinación de T(75 < 4 < 81) ≡ T(0 < b < 1)
b) Para determinar la probabilidad de que un obrero ensamble la pieza en menos de 75 segundos o en
más de 81, se puede razonar como sigue: los eventos indicados son mutuamente excluyentes, por lo
tanto:
P(X<75 ó X>81) = P(Z<0 ó Z>1) = 0,5000 + 0,1587 = 0,6587
O bien por el teorema del evento complementario esa probabilidad, la probabilidad buscada se
calcula, a partir del resultado obtenido en a) como
P(X<75 ó X>81) = P(Z<0 ó Z>1) = 1 – 0,3413 = 0,6587
Gráfico 8.10. Determinación de P(X<75 ó X>81)
c) En este último caso, se pide determinar la probabilidad de que un obrero aleatoriamente
seleccionado pueda terminar la pieza de 69 a 81 segundos, es decir, P(69 ≤ x ≤ 81). En la figura se
observa que uno de los valores de interés está por encima del tiempo de montaje medio de 75
segundos, mientras que el otro valor está por debajo de él. Puesto que la fórmula de transformación
(8.3) solo permite determinar probabilidades desde un valor de interés hasta la media, se puede
obtener la probabilidad deseada en tres pasos:
1º) Determinar la probabilidad desde la media hasta 81 segundos.
2º) Determinar la probabilidad desde la media hasta 69 segundos.
3º) Sumar los dos resultados mutuamente excluyentes. Esto es :
P(69 ≤ X ≤ 81)= P(- 1 ≤ Z ≤ 1)= 0,3413 + 0,3413 = 0,6826
143
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
z=
x − µx
σx
z=
= −1.00
x − µx
σx
= +1.00
Gráfico 8.11. Determinación de P(69 ≤ X ≤ 81)
Se supondrá ahora que el consultor llevó a cabo el mismo estudio de tiempos y movimientos en
una planta de automóviles BMW, donde los obreros estaban entrenados para montar la pieza mediante
un método diferente y usando equipo diferente. Se considerará que en esta planta se determinó que el
tiempo para realizar la tarea estaba distribuido normalmente con una media µ x de 60 segundos y
desviación estándar σx de 3 segundos. En la figura 8.12 se observa que, independientemente del valor
de µx y σx, se llega a una distribución de Z (la distribución normal tipificada es única).
Procedimiento general para hallar la probabilidad de un intervalo P(x1 < X < x2)
(xi − µ x )
1°)
Calcular los valores de z como z i =
2°)
Obtener las probabilidades F(zi) en la tabla
3°)
Hacer la diferencia
σx
P(z1 < Z < z2 ) = F(z2) – F(z1)
X ∼ N(x; 60, 3)
X ∼ N(x; 75, 62)
Z ∼ N(z; 0, 1)
Gráfico 8.12
2° CASO: La demanda mensual de cierto producto alimenticio se encuentra aproximada por una variable
aleatoria normal con media de 200 y desviación estándar igual a 40 unidades. ¿Qué tan grande debe ser
el intervalo disponible a principio de un mes para que la probabilidad de que la existencia se agote no
sea mayor de 0,05?
De la información dada se tiene que: X ∼ N(x;200 , 40) ; es decir que “la VA se distribuye normalmente
con µ=200 y σ2 = 402 ”
Lo que se desea obtener es el valor del percentil 95, esto es x0,95, para el nivel de inventario a
principio del mes, de manera tal que la probabilidad de que la demanda exceda a x0,95 (existencias
agotadas) no sea mayor de 0,05.
P(X > x0,95 ) = 0.05
P(X > x0,95 ) = 0.95
De lo anterior se sigue que:
P[Z ≤ (x0.95 – 200/ 40] = 0.95
o
P(Z ≤ z0.95 ) = Fz (z0.95 ;0, 1) = 0.95
Donde z0.95 = (x0.95 – 200)/40 es el valor cuantil correspondiente a la variable aleatoria normal
estándar. Para obtener z0.95 de la tabla D, primero se busca la probabilidad más cercana a 0.95. Una vez
que se encuentra ese valor, se toma los correspondientes valores del renglón y la columna y se interpola
para encontrar el valor deseado de z0.95 . Por ejemplo, z0.95 tiene un valor aproximado de 1.645 y dado
que z0.95 = (x0.95 – 200)/40, z0.95 tiene un valor de 265.8. Esto significa que el intervalo a principio de cada
144
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
mes no debe ser menor de 266 unidades para que la probabilidad de agotar las existencias no sea
mayor de 0.05.
8.4.5. AJUSTAMIENTO DEL MODELO NORMAL
Ejemplo 8.1. La primera columna de la tabla 8.2. Contiene los intervalos de respuestas correctas para la
prueba de matemáticas (SAT); la segunda columna, el correspondiente número de calificaciones
observadas para el período 1998-1999, la tercera columna, las frecuencias relativas, las restantes,
información con respecto a si las calificaciones para la prueba de matemáticas obtenida por hombres
estaba distribuida normalmente con media 491 y desviación estándar igual a 120.
Mientras que, de manera aparente, existe una similitud entre las frecuencias teóricas y las
observadas, queda aún por contestar la pregunta acerca de cuándo puede rechazarse o no (consulte
Inferencia, prueba de bondad de ajuste) la hipótesis de que las calificaciones de la prueba de
matemáticas se distribuyeron normalmente con media 491 y desviación estándar igual a 120. Como se
mencionó, siempre es importante verificar lo que ocurre en los extremos de la distribución observada.
Por ejemplo, se sabe que para la prueba de matemáticas es imposible obtener calificaciones para los
eventos X < 200 y X > 800. Sin embargo, si X ∼ N (x;491, 120), las correspondientes probabilidades
son
P( X < 200) = 0.0075 y P(X > 800) = 0.005.
Tabla 8.2. Calificaciones obtenidas en la prueba de matemáticas (SAT) por los estudiantes del tercer año en el
ciclo 1998-1997.
Número de
respuestas
correctas
ef − g h
Número de
exámenes
#f
Intervalo normal
estándar
e^f − ^g h
Función de
distribución
Ee^g h
Probabilidad del
intervalo
Te^f < b < ^g h
Número
esperado
#if
<200
0
(-∞ - -2,425)
0,0076
0,0076
3634,27
(200 – 249)
3423
(-2,425 - -2,01)
0,0222
0,0146
6981,62
(250 – 299)
18434
(-2,01 - -1,59)
0,0559
0,0337
16115,18
(300 – 349)
39913
(-1,59 - -1,18)
0,1190
0,0631
30173,98
(350 – 399)
51603
(-1,18 - -0,76)
0,2236
0,1046
50018,90
(400 – 449)
61691
(-0,76 - -0,34)
0,3669
0,1433
68525,18
(450 – 499)
72186
(-0,34 - 0,075)
0,5299
0,1630
77945,49
(500 – 549)
72814
(0,075 - 0,49)
0,6879
0,1580
75554,49
(550 – 599)
58304
(0,49 - 0,91)
0,8186
0,1307
62499,81
(600 – 649)
46910
(0,91 - 1,325)
0,9074
0,0888
42463,54
(650 – 699)
30265
(1,325 - 1,74)
0,9591
0,0517
24772,78
(700 – 749)
16246
(1,74 - 2,16)
0,9846
0,0255
12193,92
(750 – 800)
6414
(2,16 - 2,575)
0,9950
0,0104
4973,21
>800
0
(2,575 - ∞)
1,0000
Totales
478193
0,0050
2390,97
0,9874
478193,00
8.5. LA DISTRIBUCIÓN NORMAL COMO APROXIMACIÓN DE DIVERSAS
DISTRIBUCIONES DISCRETAS DE PROBABILIDAD
8.5.1. CORRECCIÓN POR CONTINUIDAD
En la sección anterior se demostró la importancia de la función de densidad de probabilidad
normal debido a los numerosos fenómenos que parecen seguirla o cuyas distribuciones se pueden
aproximar mediante ella. En esta sección se demostrará otro aspecto importante de la distribución
normal, como se puede usar para aproximar varias funciones de distribución de probabilidad discretas
importantes como son: binomial, hipergeométrica y Poisson.
8.5.2. NECESIDADES DE LA CORRECCIÓN PARA EL AJUSTE POR CONTINUIDAD (O
CORRECCIÓN DE MEDIO INTERVALO, + 0,5)
Hay dos razones importantes para utilizar aquí corrección para el ajuste por continuidad.
1º) Recuerde que una variable aleatoria discreta sólo puede tener valores específicos, mientras
que una variable aleatoria continua, usada para aproximarla, puede tener cualquier valor
dentro de un intervalo en torno a esos valores específicos. Por lo tanto, cuando se utiliza la
distribución normal para obtener valores aproximados de probabilidad a los que dan las
funciones de distribución discreta (binomial, Poisson), es más probable que se obtengan
mejores aproximaciones si se utiliza la corrección para el ajuste por continuidad.
2º) Recuerde que en una distribución continua (como la normal), la probabilidad de obtener un
valor en particular de una variable aleatoria es cero. Por otra parte, cuando se usa la
distribución normal para aproximar una distribución discreta se puede emplear la corrección
145
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
para el ajuste por falta de continuidad con el fin de aproximar la probabilidad de un valor
específico de la distribución discreta.
Ejemplo 8.2. Considere un experimento en el cual se lanza al aire 12 veces una moneda y se observa el
número de caras. Se desea calcular la probabilidad de obtener exactamente 4 caras.
La idea de que una VAC se puede utilizar para obtener valores aproximados de probabilidad se
demuestra con la escala que se presenta a continuación.
2.5
3
3.5
4
4.5
5
5.5
x
El punto medio del intervalo creado es el valor x, en este caso x=4 → P(3,5 < X < 4,5)
La corrección para el ajuste por falta de continuidad requiere sumar o restar 0,5 al valor o
valores de la variable aleatoria discreta X, según sea necesario. Por lo tanto, para usar la distribución
normal para aproximar la probabilidad de obtener exactamente 4 caras (es decir, = 4), se determinaría
el área bajo la curva normal desde = 3,5 hasta = 4,5, los límites inferior y superior de 4. Más aún,
para determinar la probabilidad aproximada de observar por lo menos 4 caras, se encontraría el área
bajo la curva normal desde = 4,5 y por debajo, puesto que, en un intervalo, 4,5 es el límite superior de
X.
Cuando se utiliza la distribución normal para aproximar funciones de distribución de probabilidad
discreta de nuevo se observa que la semántica es importante. Para determinar la probabilidad
aproximada de observar menos de 4 caras, ser debe encontrar el área bajo la curva normal desde
= 3,5 y por debajo; para determinar la probabilidad aproximada de observar desde 4 más de 4 caras,
se debe encontrar el área bajo la curva normal desde = 4,5 y por encima; y para determinar la
probabilidad aproximada de observar desde 4 hasta 7 caras, se debe encontrar el área bajo la curva
normal desde = 3,5hasta = 7,5.
8.5.3. APROXIMACIÓN A LA DISTRIBUCIÓN BINOMIAL
Anteriormente se dijo que al distribución binomial será simétrica (al igual que la distribución
normal) siempre que 9 = 0,5. Cuando 9 ≠ 0,5 la distribución binomial no será simétrica. Sin embargo,
mientras más cerca se encuentre 9 de 0,5 y mayor sea el número de observaciones de muestra n, la
distribución se vuelve más simétrica.
Por otra parte, mientras mayor sea el número de observaciones en la muestra, resulta más
tedioso calcular las probabilidades de éxito exactas mediante el uso de la fórmula binomial.
Afortunadamente, como la muestra es grande se puede utilizar la distribución normal para aproximar las
probabilidades de éxito exactas que, de lo contrario, se tendrían que obtener mediante complejos
cálculos.
Como regla práctica, esta aproximación normal se puede usar cada vez que se cumplan las
dos condiciones siguientes:
1. El producto de los dos parámetros c y π es igual o excede a 5.
2. El producto c(1 –π) es igual o excede a 5.
Recuerde que la media y la desviación típica de la distribución binomial se obtiene mediante
$1 = 9 y %1 = F9(1 − 9)
z=
Al sustituir el la fórmula
x − cπ
cπ (1 − π )
Por lo que, una n suficientemente grande, la variable aleatoria z sigue una distribución en forma
aproximadamente normal.
Por consiguiente, para encontrar las probabilidades aproximadas correspondientes a los
valores de la variable aleatoria discreta X se tiene
z=
xα − cπ
cπ (1 − π )
Ejemplo 8.3. Para demostrar lo anterior, suponemos que en el control de calidad de la elaboración de
latas para conserva se obtiene en forma aleatoria una muestra de n=1.600 latas de un proceso
constante de producción en el cual el 8% de las latas producidas son defectuosas. ¿Cuál es la
probabilidad de que en una muestra así haya no más de 150 latas defectuosas?
Bajo la distribución binomial la probabilidad de obtener no más de 150 latas defectuosas consiste de
todos los eventos, incluyendo 150 defectuosas, es decir,
146
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2014
UNIDAD II: PROBABILIDAD
P(X ≤ 150 )= P(X=0) + P(X =1
=1)+ ...+ P(X =150)
Y la probabilidad real se puede calcular laboriosamente a partir de
1.600 
(0,08) x (0,92)1.600− x
x 
x =0 
150
∑ 
puesto que tanto cπ = (1.600)(0,08)
(1.
=128, como c(1 –π) = (1.
(1.600)(0,92) = 1.472 son mayores que 5, se
puede usar la distribución normal para aproximar la binomial:
z=
xα − cπ
cπ (1 − π )
=
150.5 − 128
(1.600)(0,08)(0,92)
=
22,5
= +2.07
10,5
En este caso, xα , el número
o ajustado de éxitos, es de 150,
150,5, por lo tanto la probabilidad
aproximada de que X no exceda a este valor corresponde, en la escala Z estandariza
estandarizada,
da, a un valor
val de
no más de + 2,07. En
n la figura 8.13 se muestra:
P(X ≤ 150,5) = P(Z ≤ 2,07)
07) =
0,9808
Área = 0,9808
Gráfico 8.13.. Aproximación de la distribución binomial.
8.5.4. OBTENCIÓN DE UNA APROXIMACIÓN DE PROBABILIDAD PARA UN VALOR INDIVIDUAL
Suponga que ahora se desea calcular
calcular la probabilidad de obtener exactamente 150 latas
defectuosas.
P (149,5 ≤ X ≤ 150,5) =
P (1,98 ≤ Z ≤ 2,07 ) =
F ( z = 2,07 ) − F ( z = 1,98 ) =
0,9808 − 0,9761 = 0,0047
Gráfico 8.14.. Aproximación de una probabilidad binomial exacta.
8.5.5. APROXIMACIÓN A LA DISTRIBUCIÓN DE POISSON
La distribución normal también se puede utilizar para ap
aproximar el modelo
delo de Poisson, siempre
que el λ,, el número esperado de éxitos, iguale o exceda a 5. Puesto que le valor de la media y la
varianza de una distribución de Poisson son iguales, se tiene µx = λ y
σx = λ
al sustituir, z =
x−λ
λ
por lo que, para una n suficientemente grande, la variable aleatoria z tiene una
distribución aproximadamente normal.
Por lo tanto, para determinar las probabilidades aproximadas que corresponden a los valores de
la variable aleatoria
ria discreta X se tiene
z=
donde
( xα − λ )
λ
λ= número de éxitos esperados o media de la distribución de Poisson
σx= desviación de la distribución de Poisson.
xα= número ajustado de éxitos, x, para la variable aleatoria discreta X, de modo que
xα=x–0.5
0.5 o xα = x + 0.5, según se necesite.
Las probabilidades aproximadas de éxito se obtienen de la tabla de áreas normales, aplicando el
criterio de continuidad.
147
Cátedra de Cálculo
culo Estadístico y Biometría – Facultad de Cien
iencias Agrarias – UNCUYO / Ciclo 2014
Descargar