DISTRIBUCIONES DE PROBABILIDAD. DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL. En estadística, la distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija “p” de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno de éstos se denomina éxito y tiene una probabilidad de ocurrencia “p” y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución binomial el experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de Bernoulli. Características de la distribución binomial: • • • • En cada prueba del experimento sólo son posibles dos resultados: el suceso A (éxito) y su contrario B (fracaso). El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. La probabilidad de éxito “p” y la probabilidad de fracaso “q” son constantes. El experimento consta de un número n de pruebas. Todo experimento que tenga estas características diremos que sigue el modelo de la distribución binomial. A la variable x que expresa el número de éxitos obtenidos en cada prueba del experimento, la llamaremos variable aleatoria binomial. La probabilidad en una distribución de probabilidad binomial se puede obtener con el siguiente modelo matemático. Donde: P( x = k ) = C n p k q n −k k Media µ = np x es la variable aleatoria. k es el número de éxitos. n es el número de ensayos. Varianza σ 2 = npq Desviación estándar. σ = npq p es la probabilidad de éxito. q es la probabilidad de fracaso q=1-p Ejemplos resueltos. Ejemplo 1. 1.- ¿Cuál es la probabilidad de obtener seis águilas al lanzar una moneda diez veces? x= es que salga águila en la moneda. P ( x = k ) = C n p k q n −k k k es el número de éxitos = 6 6 10−6 P( x = 6) = C10 6 (0.5) (0.5) n es el número de ensayos= 10 P( x = 6) = ( 210)(0.01562 )(0.0625) = 0.2050 p es la probabilidad de éxito= 0.5 q es la probabilidad de fracaso q=1- 0.5=0.5 Ejemplo 2. Hallar la probabilidad de que en cinco lanzamientos de un dado el número tres aparezca cuatro veces. x= es que aparezca el número 3. P( x = k ) = C nk p k q n −k k es el número de éxitos = 4 P( x = 4) = C 54 (0.16) 4 (0.84) 5−4 n es el número de ensayos= 5 P ( x = 4) = (5)(0.00065)(0.84) = 0.027 1 p es la probabilidad de éxito= = 0.16 6 q es la probabilidad de fracaso q= 1- 0.16=0.84 Ejemplo 3. El 20% de los focos producidos por una máquina son defectuosos, determinar la probabilidad de que al elegir cuatro focos al azar dos de ellos estén defectuosos. x= Número de focos defectuosos. P( x = k ) = C nk p k q n −k k es el número de éxitos = 2 n es el número de ensayos= 4 P( x = 2) = C 42 (0.2) 2 (0.8) 4−2 p es la probabilidad de éxito= 20% = 0.2 P ( x = 4) = (6)(0.04)(0.64) = 0.1536 q es la probabilidad de fracaso q= 1-0.2=0.8 DISTRIBUCIÓN DE PROBABILIDAD DE POISSON. La distribución de Poisson, se aplica a varios fenómenos discretos de la naturaleza (esto es, aquellos fenómenos que ocurren 0, 1, 2, 3 ...n veces durante un periodo definido de tiempo o en un área determinada) cuando la probabilidad de ocurrencia del fenómeno es constante en el tiempo o el espacio. Ejemplos de estos eventos que pueden ser modelados por la distribución de Poisson incluyen: • • • • • El número de autos que pasan a través de un cierto punto en una ruta durante un período definido de tiempo. El número de errores de ortografía que uno comete al escribir una página. El número de llamadas telefónicas en una central telefónica por minuto. El número de animales muertos encontrados por unidad de longitud de ruta. El número de estrellas en un determinado volumen de espacio. Características de los procesos que producen una distribución de probabilidad de Poisson. • El promedio (la media) del número de eventos que se producen por hora, puede estimarse a partir de datos que se tengan disponibles. • Si dividimos la hora pico en periodos (intervalos) de un segundo cada uno, encontraremos que las siguientes afirmaciones son verdaderas: • La probabilidad de que exactamente un evento ocurra por segundo es muy pequeña y es constante para cada intervalo de un segundo. • La probabilidad de que dos o más eventos ocurran en un intervalo de un segundo es tan pequeña que le podemos asignar un valor cero. • El número de eventos que ocurren en un intervalo de un segundo es independiente del tiempo en que dicho intervalo se presente en la hora pico. • El número de eventos en un intervalo de un segundo no depende del número de ocurrencias en cualquier otro intervalo de un segundo. La distribución de Poisson se puede determinar por medio de la siguiente fórmula. e −λt (λt ) x x! Pero como λt = media µ P( x ) = µ = λt ó µ = np De tal manera que: −µ e (µ) x P( x ) = x! Media µ = µ Varianza σ 2 = µ Donde: x es el número de ocurrencias. e es la base de los logaritmos (2.7182) λ es la razón media por unidad. t es el número de unidades. n es el tamaño de la muestra. p es la probabilidad del evento. Desviación estándar σ = µ La distribución de Poisson como una aproximación a la distribución binomial. La distribución de Poisson puede tener una aproximación a la distribución binomial, pero sólo bajo ciertas condiciones. Tales condiciones se presentan cuando n es grande y p es pequeña, esto es, cuando el número de ensayos es grande y la probabilidad binomial de tener éxito es pequeña. La regla que utilizan con más frecuencia los estadísticos es que la distribución de Poisson es una buena aproximación de la distribución binomial cuando n es igual o mayor que 20 y p es igual o menor que 5%( 0,05). En los casos en que se cumplen estas condiciones, podemos sustituir la media µ = np Ejemplos resueltos. Ejemplo 1. Mediante un proceso mecánico se producen alfombras de buena calidad que presentan un promedio de 2 defectos por m2. Determinar la probabilidad de que en 1 m2 exista sólo un defecto. x es el número de incidencias= 1 defecto. Media µ = 2 −µ e (µ ) x P( x) = x! 2 =1 = 1! 0.1353 2 = 0.2706 =1 1 Ejemplo 2. Al puerto de Acapulco arriban a una razón media ( λ ) de 2 bar cos hora , si se observa este proceso durante un periodo t= 1/ 2 hora encuentre la probabilidad de que arriben 3 barcos en la siguiente media hora. λ = 2 bar cos hora t= 1 hora 2 1 µ = λt = ( 2)( ) = 1 2 P( x ) = e −µ (µ) x x! Sustituimos datos. P( x = 3bar cos) = e −1 (1) 3 3! P( x = 3bar cos) = (0.3678)(1) = 0.0613 6 DISTRIBUCIÓN DE PROBABILIDAD NORMAL. Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a este tipo de distribución. La importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal. • Caracteres morfológicos de individuos, animales o plantas de una especie. por ejemplo: Tallas, pesos, envergaduras, diámetros, perímetros, entre otras. • Caracteres fisiológicos, por ejemplo; efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. • Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, • puntuaciones de un examen. • Caracteres psicológicos, por ejemplo; coeficiente intelectual, grado de adaptación a un medio. La gráfica de una distribución normal se asemeja mucho a la forma de una campana. Por ello es posible aproximarla a una distribución matemática conocida con el nombre de distribución de Gauss. Una característica muy importante es que una distribución normal es posible especificarla de manera amplia por medio de 2 parámetros; la media y la desviación estándar. Otra cosa importante es que la probabilidad de que una variable aleatoria tenga un valor entre dos puntos cualesquiera es igual al área bajo la curva normal entre esos dos puntos. Propiedades importantes de la curva normal. a) Tiene forma de campana. b) Es simétrica con respecto a la media. c) Se extiende de − ∞ hasta ∞ . d) El área bajo la curva normal es igual a 100% ó a 1. e) Cada distribución normal está completamente especificada por su media y su desviación estándar, dada por: Donde: Z= x −µ σ x Es algún valor de la variable en estudio. µ Es la media de la distribución normal. σ Es la desviación estándar. Z Es el número de desviaciones estándar a partir de la media. 0.5 -3 -2 -1 0.5 0 1 2 3 Valores de Z Pasos para resolver este tipo de problemas. 1. Tipificar el valor de la variable “x” en estudio a un valor de Z. 2. Si existen 2 valores de “x” a analizar, encontrar el valor de Z1 y Z2. 3. Hallar el área bajo la curva utilizando la tabla que está en el anexo 1. Nota: Si nos piden que el valor de “x” sea mayor a algún valor, entonces el área bajo la curva es hacia la derecha del valor de z. Si nos piden que el valor de “x” sea menor a algún valor, entonces el área bajo la curva es hacia la izquierda del l valor de z. Si nos piden que el valor de “x” este entre dos valores, entonces el área bajo la curva es la que esté comprendida entre Z1 y Z2. Ejemplos resueltos. Ejemplo 1. La media de los pesos de un grupo de estudiantes de bachillerato se distribuye en forma normal con una media µ = 65 Kg y una desviación estándar de 5 Kg. Hallar la probabilidad de que al seleccionar a un estudiante al azar su peso sea mayor a 70Kg. x =peso sea mayor a 70Kg. µ = 65Kg σ = 5Kg Z= x −µ σ Z= 70 − 65 5 = =1 5 5 .3413 P(x>70Kg)=? El área buscada es la zona sombreada, en la que de acuerdo a la tabla del anexo 1 el área de z=o a z=1 es igual a 0.3413, por lo que el área sombreada es igual a 0.5-0.3413= 0.1587 Entonces la probabilidad P(x>70Kg)=0.1587 Ejemplo 2. En una ciudad se estima que la temperatura máxima en el mes de junio (30 días) tiene una distribución normal, con media 23° y desviación est ándar de 5°. Calcular el número de días del mes en los que se espera alcanzar una temperatura máximas entre 21° y 27°. x =temperatura alcanzada. P(21°C < x < 27°C)=? µ = 23°C σ = 5°C Z= x −µ σ Z1 = 21 − 23 − 2 = = −0.4 5 5 Z2 = 27 − 23 4 = = 0.8 5 5 Área de z=0 a z=-0.4 es 0.1554 Área de z=0 a z=0.8 es 0.2881 Área buscada=0.1554+0.2881=0.4435 P(21°C < x <27°C)=0.4435 x 30 días = 13 dias. Ejemplo 3. Se supone que los resultados de un examen siguen una distribución normal con media µ 78 y varianza σ 2 =36. ¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una calificación superior a 72? x =Resultado del examen. P(x>72puntos) µ = 78puntos σ 2 = 36puntos σ = 36 =6 Z= x −µ σ 72 − 78 − 6 Z= = = −1 6 6 Mayor Área de z=0 a z=-1 es 0.3413 Área buscada= 0.5+0.3413=0.8413 P(x>72puntos)=0.8413 Ejemplo 4. Un fabricante de sobres de correo sabe por experiencia que el peso de los sobres está distribuido normalmente con media de µ =1.95gr y una desviación estándar de 0.3gr. ¿Cuál es la probabilidad de que un sobre elegido al azar pese menos de 1.5gr? x =Peso del sobre. P(x<1.5gr) µ = 1.95gr σ = 0.3gr Z= x −µ σ Z= 1.5 − 1.95 − 0.45 = = −1.5 0.3 0.3 Menor Mayor Área de z=0 a z=-1.5 es 0.4332 Área buscada= 0.5-0.4332=0.0668 P(x<1.5gr)=0.0668 CON MUESTRAS PEQUEÑAS (distribución t Student). Si la muestra es pequeña n<30, la estimación de los intervalos de confianza se deberá de realizar por medio de otra distribución continua llamada distribución t, esta distribución también tiene forma de campana, pero sus colas son un poco más elevadas, su forma depende de un parámetro llamado grados de libertad, que es n-1, esto es el tamaño de la muestra menos uno. Distribución t- Student La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación de artículos científicos debido a una difusión previa de secretos industriales. De ahí que Gosset publicase sus resultados bajo el seudónimo de Student. En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra. El teorema del límite central mencionado anteriormente, hace referencia a que la distribución de la media muestral x era aproximadamente normal con media µ (media de la población) y varianza (σ es la varianza de la población y n el tamaño de la muestra). También que el estadístico z se obtiene con Z= x −µ σ En la generalidad de los casos, no disponemos de la desviación estándar de la población, sino de una estimación calculada a partir de una muestra extraída de la misma y por tal razón no es posible calcular Z. Sin embargo, si utilizamos una estimación de y n es pequeño (n˂30) entonces z no tendrá una distribución normal, en tales circunstancias se presenta la distribución t de student , que es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. CARACTERISTICAS DE LA DISTRIBUCION t DE STUDENT 1.-El valor de la media es cero. 2.-Tiene forma de campana (como una distribución normal) y es simétrica con respecto a la media. La distribución t es más ancha y más plana en el centro que la distribución normal, como resultado de ello, se tiene una mayor variabilidad en las medias de muestras calculadas a partir de muestras más pequeñas. Comparación entre las distribuciones normal (N) y distribución (t) 3.-La distribución t tiene una varianza mayor que 1, pero en la medida en que aumentan los grados de libertad, el valor de la varianza se aproxima a 1, lo cual lleva a que la distribución t se aproxime a la distribución normal estándar; es decir, en la medida en que aumenta el tamaño de la muestra. Por eso es que la distribución t student se utiliza para muestras pequeñas y la distribución normal, para muestras grandes. En el anexo 2 se pueden observar los valores de t correspondientes a los valores de t α = t0.05, t0.025, t0.001 y t0.005 que corresponden a los grados de confianza del 90%, 95%, 2 98% y 99% respectivamente. Analicemos el siguiente ejemplo. Un laboratorio realizo un estudio del nivel de morfina de 20 pastillas producida por otro laboratorio. Se considera un intervalo de confianza del 95%. La siguiente tabla nos muestra la cantidad de morfina contenida en cada una de las pastillas. 22.5 28.1 24.6 23.9 26 23.6 23.4 24.7 25.2 27 26.7 24.3 24.5 22.7 23.6 24.1 25.8 27.3 24.8 25.2 Obtenemos la media aritmética de la muestra: x= ∑ xi n x= 498 20 x = 24.9mg Posteriormente obtenemos la desviación estándar de la muestra: s= 2 ∑ (x − x ) n −1 s= (225 − 24.9)2 + ... + (25.2 − 24.9) 19 s = 1.53mg Vamos a determinar el intervalo de confianza del 95%. Buscamos en la tabla de valores de t el cociente de 0.05 / 2 = 0.025, en el renglón que corresponde a 19 grados de libertad (n-1). Por lo tanto el valor de t= 2.093, por lo que el intervalo de confianza para 95% es: x − tα • 2 s s < µ < x + tα • 2 n n Sustituyendo los valores: 24.9 − 2.093 • 1.53 1.53 < µ < 24.9 + 2.093 • 20 20 24.9 − 0.72 < µ < 24.9 + 0.72 24.18 < µ < 25.62 Por tanto, con un nivel de confianza del 95% , el nivel medio de morfina está entre 24.18 y 25.62mg, o bien, que al estimar el nivel medio de morfina como 24.9 miligramos con un grado de confianza del 95%.el error es menor a 0.72mg.