PROBABILIDAD Y ESTADISTICA DISTRIBUCIONES DISCRETAS DE PROBABILIDAD rv> 1 INTRODUCCIÓN. Hasta ahora hemos estado refiriéndonos a los modelos de probabilidad en general, sin hacer referencia a ninguno en particular. Sin embargo, algunas distribuciones específicas juegan un papel importante tanto en Probabilidad como en la Estadística. Veremos algunos modelos de probabilidad de tipo discreto o de variable aleatoria discreta. Por modelo probabilístico se entiende el tipo de distribución esperada para una variable determinada. rv> 2 RECORDEMOS: I) Se sabe que un dado cae del lado con número par dos veces más a menudo que del lado con número impar. Este dado se arroja 3 veces. Sea X el número de veces que el dado cae con número par: 1. Dar la distribución de probabilidades de X. Verificar que es función de probabilidad. 2. Dar la función de distribución acumulativa de X. 3. Construir el gráfico correspondiente a cada una. 4. Calcular la esperanza matemática de X. 5. Calcular la varianza de X. Para hallar la probabilidad de que caiga un número par (PP), se tiene el siguiente sistema de ecuaciones: a) Se sabe que X es el número de veces que en el dado cae un número par. Entonces, las probabilidades correspondientes son: 1 1 1 1 P(0) P (0) 0,037037 3 3 3 27 2 1 1 2 2 1 2 1 2 2 P(1) P(1) X 1 P(1) 9 3 3 3 3 3 3 3 3 3 X 0 P(0) rv> 0,2222 3 2 2 1 2 1 2 1 2 2 4 P(2) 3 3 3 3 3 3 3 3 3 9 8 2 2 2 X 3 P(3) P(3) 27 P (3) 0,2962 3 3 3 X 2 P(2) P(2) 0,4444 Como P(0) + P(1) + P(2) + P(3) = 1, y todos positivos, entonces es función de probabilidad . 2) si x 0 0 3) 1 / 27 si 0 x 1 F ( X ) 7 / 27 si 1 x 2 19 / 27 si 2 x 3 1 si 3 x ¿Cuál es el error? 4) i41 xi . p( xi ) 0 1/ 17 1 2 / 9 2 4 / 9 3 8 / 27 E ( x ) 2 5) V ( X ) E X E x E ( x 2 ) E ( x) 2 2 E ( x 2 ) 0 2 1 / 27 12 2 / 9 2 2 4 / 9 32 8 / 27 14 / 3 E ( x)2 4 V (x) 14 / 3 4 V ( x) 2 / 3 rv> 4 II) ¿Cuál es el secreto fundamental guardado con siete llaves, que diferencia la solución del inc.a con inc.b. del siguiente problema?: Halle la probabilidad que al seleccionar dos cartas de una baraja , ambas sean de oros. Si la extracción se realiza : a) Con reposición b) Sin reposición rv> 5 Iniciemos recordando un problema similar, algo mas generalizado, al resuelto en la unidad anterior Una evaluación de respuestas múltiples, está formada por “n” ítems con cuatro respuestas cada uno, de las cuales una sola es verdadera. Suponiendo que el alumno contesta totalmente al azar, para ello usa un tetraedro numerado de 1 a 4 en sus caras, lo arroja y elije como respuesta de cada ítem el número de la cara que queda como base. ¿Cuál es la probabilidad que tiene el alumno de aprobar?, si se exigen “u” ítems bien. rv> 6 Observamos que este experimento aleatorio – para el alumno- se puede pensar como formado por 20 ensayos (pruebas) idénticas. Analicemos una prueba. Si bien la prueba consta de un espacio de 4 elementos, nos interesa el suceso “éxito” , el espacio queda particionado en dos subconjuntos que denominaremos “éxito” y “fracaso”, por tanto la variable aleatoria asociada al espacio de resultados se puede modelar como : 1 si Exito X 0 si Fracaso Con función de distribución de probabilidad: P( Exito) P( X 1) 1 / 4 P( Fracaso ) P( X 0) 1 1 / 4 3 / 4 Presentando en tabla: X P( X ) 1 0 1/ 4 3/ 4 rv> 7 Formalicemos: DEFINICION: Una prueba de Bernoulli es un experimento aleatorio cuyos posibles resultados son agrupados en dos conjuntos excluyentes que llamaremos éxito ( E) y fracaso ( F), con P(E)=p y P( F)= 1-p= q DEFINICION: La distribución de Bernoulli es la distribución de la variable aleatoria X=1 si se produce éxito, X=0 si se produce fracaso; con función de probabilidad : X P( X ) P( X 1) p P( X 0) 1 p 1 0 p 1 p Cálculo de la Esperanza matemática y de la varianza de una variable de Bernoulli. X B( p) E ( X ) 1 P( X 1) 0 P( X 0) p 0 p V ( X ) E ( X 2 ) E ( X ) 2 12 p 0 q p 2 p(1 p) p q A partir de las pruebas de Bernoulli , se generan distintos modelos de probabilidad, algunos de ellos muy utilizados. rv> 8 Siguiendo con nuestro problema, podemos ahora decir que el mismo está formado por n pruebas de Bernoulli independientes y que además en cada prueba la probabilidad de Éxito, permanece constante e igual a 1/3. Además aprobar, significa obtener “u” éxitos. Nuestra nueva variable entonces es el número de éxitos que la simbolizamos con X y de la cual u es un valor particular. El número de éxitos “X” depende de los éxitos que se obtengan en cada prueba de Bernoulli y por tanto podemos modelar como: n X X 1 X 2 ..... X n X i ; i 1 cada X i : var .Bernoulli . X puede por lo tanto tomar n+1 valores desde o hasta n. rv> 9 Para que ocurran “u” éxitos en las n pruebas, deben ocurrir “n-u” fracasos con probabilidad “1-p” también constante. La probabilidad de obtener en un orden dado “u” éxitos y “n-u” fracasos, por el teorema de la multiplicación de pruebas independientes es: p.p.p…p.(1-p).(1-p)…(1-p)= pu qn-u u veces n-u veces Un mismo resultado puede ser obtenido, de todas las formas en que se pueden ordenar estos n objetos: Cn,u = Cn,(n-u) Es decir que, para obtener “u” éxitos, en las “n” pruebas independientes, con P( E)=p, constante en todas las pruebas, responde a la fórmula: n u n u P(u, n, p) p q u Función de probabilidad binomial n P( X u ) (1 / 3) u (3 / 4) n u u Esta es por lo tanto la probabilidad de obtener u éxitos y aprobar. rv> 10 El modelo de probabilidad más importante generado a partir de pruebas de Bernoulli es el modelo Binomial: DEFINICION: Realizamos n pruebas de Bernoulli independientes, con P( E)=p en cada prueba. La distribución binomial B(n,p) es la distribución de la variable aleatoria X= “número de éxitos obtenidos en n pruebas”. Su función de probabilidad es : n x n x P( X x) p q ; para x 0,1, 2..., n x Si una variable aleatoria X tiene distribución binomial, la simbolizaremos: X~ B( n, p) rv> 11 ¿NOS PREGUNTAMOS SI LA FÓRMULA HALLADA ES REALMENTE UNA FUNCION DE PROBABILIDAD? •Cada término P(X=x) es positivo . Sus tres factores son positivos. •La suma de todos los valores de P(X=x) para cada valor de x es: n n 0 n n n 1 n n 0 p q pq ... p q p x q n x x 0 0 1 n ( p q) n 1 Con frecuencia nos encontramos con problemas donde necesitamos utilizar la función de distribución acumulada, para hallar P(X<x) o P(a<x<b) que corresponden a: n P( X r ) p x q n x x 0 x b n x n x a n x n x P(a X b) p q p q x 0 x x 0 x r rv> 12 Calcular probabilidades correspondientes a la distribución binomial no es nada complicado mediante calculadora. Puede utilizarse también la tabla correspondiente a esta distribución. Para usar tablas sólo hay que hacer notar que, si p>0.5, tendremos que usar la siguiente propiedad: Si X~ B(n,p) e Y ~ B(n, 1-p), tenemos que P(X=x)= P(Y=n-x). Esto es cierto ya que: n x n x P( X x) p q x n n x x q p P(Y n x) n x rv> 13 Distribucion Binomial en Excel. Para calcular en Excel: en Funciones estadísticas, buscar: •DISTRI.BINOM (k; n; p; FALSO)= probabilidad binomial para k éxitos. •DISTRI.BINOM (k; n; p; VERDADERO)= acumulada hasta k éxitos. rv> probabilidad binomial 14 Para obtener la esperanza y la varianza de la variable con distribución binomial, podemos hacer dos cosas: intentar aplicar las definiciones, o utilizar las propiedades que conocemos. Vamos a hacer lo segundo, ya que nos permite ahorrar esfuerzos. Para esto definimos: 1 si obtenemos éxito en la prueba i ésima. Xi 0 si obtenemos fracaso en la prueba i ésima i 1,2,.... , n De esta forma, tenemos que X1. . . . . Xn son variables aleatorias independientes con distribución de Bernoulli y, además , X= X1+X2+. . .+Xn. Por lo tanto: E ( X ) E ( X 1 ... X n ) E ( X 1 ) E ( X 2 ) ... E ( X n ) p p ..... p np V ( X ) V ( X 1 .... X n ) V ( X 1 ) .... V ( X n ) pq pq ... pq npq rv> 15 MODELO DE PROBABILIDAD : HIPERGEOMETRICO. Generalizamos algunos aspectos de un problema resuelto en la unidad anterior: Un mercado contiene N máquinas impresoras, k de las cuales están defectuosas. Si seleccionamos n máquinas para llevar a una sucursal de la empresa. ¿Cuál es la probabilidad de que “u” de ellas sean defectuosas? Nuevamente nos interesa el suceso Éxito en cada prueba y el número de éxitos en las n pruebas, que en este caso es obtener defectuosa. La probabilidad de obtener en un orden dado “u” éxitos y “n-u” fracasos, debido a que los ensayos no son independientes, la probabilidad no permanece constante de un ensayo a otro: P( E1) P( E 2 / E1) P( E3 / E1E 2)........P( Eu / E1...Eu 1) P( F1)P( F 2 / F1 )....P( Fn u / F1..Fn u 1 ) u exitos n-u fracasos Para obtener en todos los ordenes posibles, debemos multiplicar la expresión anterior por Cn,u. rv> 16 Veamos otra forma de resolver: utilizando la definición de Laplace Los casos posibles: son los grupos de n elementos de los N dados. Los casos favorables : por cada grupo de u de los k éxitos, tenemos otro de n-u de los N-k fracasos. Quedando: k N k u n u P(u ; N , n, k ) N u rv> 17 DISTRIBUCION HIPERGEOMETRICA : DEFINICION: La Distribución de Probabilidad de la variable aleatoria Hípergeométrica X, el número de éxitos en una muestra aleatoria de tamaño n que se selecciona de N artículos de los que k se denominan éxito y N-k fracasos, es: k N k x n x P( x ; N , n, k ) N n rv> 18 LA ESPERANZA MATEMÁTICA Y LA VARIANZA DE LA DISTRIBUCION HIPERGEOMETRICA X~ h (x; N, n, k) son: nk N N n k k V (X ) n 1 N 1 N N E( X ) Relación entre las distribuciones Hipergeometrica y binomial. Si n es pequeño comparado con N, entonces k/N varía muy poco de una prueba a otra y por tanto juega un papel similar a p en la binomial. Como consecuencia , la distribución Binomial puede pensarse como una versión de población grande de la Hipergeometrica y sus parámetros : k np N k k V ( X ) n (1 ) npq N N E( X ) n rv> 19 Otros modelos basados en la prueba de Bernoulli. DISTRIBUCIÓN GEOMÉTRICA DEFINICION: Realizamos pruebas de Bernoulli independientes , con P( E )=p en cada prueba, hasta la aparición del primer éxito. La distribución Geométrica es la distribución de la variable aleatoria X: “número de fracasos hasta la aparición del primer éxito”. Su función de probabilidad es: P( X x) q x p para x 0,1,... También se puede definir a X “número de pruebas hasta obtener el primer éxito”: P( X x) q x 1 p x 1, 2, ... rv> 20 Cálculo de la Esperanza matemática de una variable geométrica E( X ) x q x p x 1 q 2 2 q q q q2 qn p 3 p( ... ...) 3 3 p p p q q q . . . .. . q 2 n q q ... q .... p sumando por columnas E( X ) q / p V (X ) q / p2 rv> 21 DISTRIBUCION POISSON Sea un intervalo continuo (soporte) de amplitud H, en el que se producen en promedio l éxitos de un acontecimiento A, con P(A) constante en todo el intervalo Por ejemplo: numero de casos en un año l 4 /año Si el soporte se subdivide en un número (n) muy grande ( n ) de subintervalos, la probabilidad de obtener 1 éxito en cualquiera de ellos es pi l n y tiende a CERO manteniéndo l : constante, finita y distinta de 0 Probabilidad de encontrar 1 caso en un dia = rv> 4 /365 = 0.01 22 Cada intervalo constituye 1 ensayo de Bernouilli ( solo puede producirse o 1 éxito o 1 fracaso) con pi constante En los n intervalos, x (numero de éxitos) tendrá Distribución Binomial n x nx p ( x) C x p q Y la distribución esperada con l constante será: n l p( x, l ) lim C x n n l cte . x rv> 1 l n nx lx .e l x! 23 MEDIA Y VARIANZA DE LA DISTRIBUCIÓN POISSON Si l = cte = np y n tiende a , entonces p tiende a 0 por lo tanto q tiende a 1 La media es np = l La varianza será s 2 = npq = l q = l rv> 24 Mostremos la obtención de la fórmula de Poisson , como el límite de la Binomial B(n;p), si n ; p 0; np l n n(n 1)..( n x 1) x n x lim p x q n x lim p q x! x n(n 1)...( n x 1) x n x lim ( np ) q x x!n n 1 n n 1 n x 1 x q lim .... (np ) x x! n n n q e l l x x! rv> 25 APROXIMACION DE LA BINOMIAL POR LA POISSON Por la forma que fue generada la distribución Poisson, se deduce que puede suministrar una buena aproximación de la binomial n p 0 BINOMIAL np l POISSON es constante EN LA PRACTICA: LA APROXIMACION ES MUY BUENA SI np 5 siendo rv> n 50 26 EJEMPLO Una enfermedad tiene una incidencia (prop.nuevos casos/tiempo) de 0.01 por dia . En muestras de 100 sujetos cada una: 1. ¿Cuál es el numero de enfermos esperado al finalizar el primer dia? np = 100 x 0.01 = 1 2. ¿Cuál es la varianza del numero de enfermos? npq = 100 x 0.01x0.99 = 0.99 3. ¿Cuál es la probabilidad de que al finalizar el primer dia no haya ningún enfermo? p( x = 0) Por la Binomial C 100 0 0.01 0.99 0 100 0.36603 ¿Puede usarse la aproximación Poisson? Condiciones np 5 y n se cumplen 0 1 Por la Poisson 1 e 0! 50 0.36788 rv> 27 DISTRIBUCION MULTINOMIAL Cuando hay más de dos acontecimientos posibles (A1, A2, A3...) con probabilidades p1 , p2 , p3... constantes y tales que pi 1 x1 x2 x3 n! p( x1 , x2 , x3 ...) p1 . p2 . p3 .... x1! x2 ! x3!.. E ( xi ) npi rv> 28 EJERCICIOS 1. Un método de diagnóstico tiene 3 resultados posibles: positivo (P), negativo (N) y dudoso (D) Se sabe que, en la población, el 10% de los sujetos son positivos, el 70% negativos y el resto dudosos. ¿Qué probabilidad hay de, en una muestra de 5 individuos, obtener exactamente 1 positivo , 1 negativo y 3 dudosos ? p( x ) p(1,3,1) 5! 0.11 0.71 0.23 0.0112 1!.3!.1! rv> 29 EJERCICIOS 2. Un acontecimiento ocurre, en la población, en el 10% de los casos. ¿Qué tamaño de muestra debo tomar para tener una probabilidad del 95% de obtener- al menos- un éxito ? 0.95 n x 1 0.95 0.1. n x 1 q pq x 1 p. q 1 x1 pq x 1 x 0.9 1 0.9 1 0.95 (0.9 x 1) 0.95 0.9 x 1 ln 0.05 x 0.05 0.9 ln 0.05 x ln 0.9 x 28.4 29 ln 0.9 rv> 30 EJERCICIOS 4. En un muestreo con reposición de una población de tamaño 100 con p = 0.1 y tomando una muestra de tamaño 10 ¿qué probabilidad hay de obtener más de 1 éxito ? p( x 1) 1 ( p(0) p(1)) 10 0 10 1 (C0 0.1 0.9 10 1 9 C1 0.1 0.9 ) 1 (0.3487 0.3874 ) 0.2639 rv> 31 EJERCICIOS 5. ¿Cuál es la probabilidad de obtener más de 1 éxito si el muestreo se hace sin reposición ? 10 90 C0 C10 p( x 1) 1 ( 100 C10 10 90 C1 C9 ) 100 C10 1 (0.3305 0.408 ) 0.2615 rv> 32 EJERCICIOS 6. A un puesto de vacunación llegan, en promedio, 10 personas por hora. Calcule la probabilidad de que en una hora lleguen menos de 3 personas p( x 3) p(0) p(1) p(2) 0 10 10 e 0! 1 10 10 e 1! 2 10 10 e 2! 0.00277 GRACIAS UNED Y FAC VETERINARIA . rv> 33