M. Iniesta Universidad de Murcia Estadística con Práctica 3: Probabilidad Introducción En esta práctica vamos a tratar con los modelos de probabilidad más comunes, puesto que ellos pueden describir la mayoría de situaciones experimentales. Cada modelo es en sí una familia de distribuciones de probabilidad por la posibilidad que tenemos de jugar con el parámetro o parámetros de los que depende. Para cada modelo de los estudiados en clase, estudiaremos grácamente el comportamiento de la distribución en función de dicho parámetro, calcularemos probabilidades asociadas a dichos modelos y percentiles. También aprenderemos a extraer muestras aleatorias de dichos modelos aunque será en la próxima práctica donde trataremos con ellas en problemas simulación y aproximación de probabilidades. Mas concretamente, para cada modelo estarán disponibles funciones que nos permitirán obtener: Probabilidades puntuales: Probabilidad de que la variable tome un valor concreto. (Las probabilidades puntuales sólo se calculan en modelos discretos, pues recordemos que las probabilidades puntuales asociadas a variables continuas son nulas). Probabilidades acumuladas: Probabilidad de que la variable tome valores menores o iguales a uno dado x, es decir, es el valor de la función de distribución de dicha variable en x. Puntos críticos o cuantiles: Valores de la variable que deja a su izquierda una pro- babilidad determinada. Para modelos continuos siempre existirá y será único. En modelos discretos podrían suceder otras situaciones al ser la función de distribución escalonada, es decir, discontinua en los puntos muestrales. Se indicará en el momento oportuno la salida que ofrece en R en el caso discreto. Grácas de la distribución: Para analizar el comportamiento de una variable en su espacio muestral y sobre todo para conocer la inuencia de sus parámetros en dicho comportamiento. Muestras aleatorias: Extrae muestras aleatorias de dicha distribución, posiblemente con el objetivo de simular un experimento aleatorio que se rige por las mismas hipótesis que el modelo. Estas funciones se verán en la siguiente práctica. 1. Modelos discretos En las clases de teoría hemos estudiado un catálogo de modelos de probabilidad discretos que recogían un amplio abanico de situaciones experimentales. La clave para resolver problemas de probabilidad es reconocer las hipótesis en las que se basa cada situación y enmarcarlas dentro de uno de los modelos estudiados. Evidentemente ni R Página: 1 M. Iniesta Universidad de Murcia ni ningún otro software nos ayudará en esa importante tarea, pero sí nos ayudará a obtener unos resultados numéricos que en muchas ocasiones resultan de cierta complejidad cuando se resuelven de forma manual. La tabla siguiente recoge los modelos discretos que hemos estudiado junto con las funciones de R y los parámetros que los determinan. DISTRIBUCIÓN BINOMIAL B. NEGATIVA GEOMÉTRICA HIPERGEOMÉTRICA POISSON 1.1. Parámetros Probabilidad Puntual k, p dbinom(x,k,p) k, p dnbinom(x,k,p) Probabilidad Acumulada pbinom(x,k,p) pnbinom(x,k,p) dgeom(x,p) pgeom(x,p) dhyper(x,N1 , N2 , n) phyper(x,N1 , N2 , n) dpois(x,λ) ppois(x,λ) p N1 , N2 , n λ Modelo Binomial Si X representa el número de veces que ocurre cierto suceso A con P (A) = p, en k repeticiones idénticas de un experimento en el que puede suceder A o su complementario A, decimos que X sigue una distribución Binomial de parámetros k y p. 1.1.1. Gráca La gráca de la distribución binomial es un diagrama de barras simétrico en el caso de ser p = 0.5, es asimétrica a la derecha si p < 0.5 y asimétrica a la izquierda si p > 0.5. La siguiente gura muestra una sesión para construir los grácos de las distribuciones de probabilidad B(6, 0.20), B(6, 0.50) y B(6, 0.80). 0.4 0.3 0.0 0.05 0.1 0.2 P(X=x) 0.10 0.15 P(X=x) 0.2 0.1 0.0 P(X=x) 0.20 0.3 0.25 0.30 0.4 >pdf(file="binom.pdf", width=7, height=5) >par(mfrow=c(1,3)) >x<-seq(0,6,1) >b1<-dbinom(x,6,0.2); b2<-dbinom(x,6,0.5); b3<-dbinom(x,6,0.8) >plot(x,b1, type=h) >plot(x,b2, type=h) >plot(x,b3, type=h) >dev.off() 0 1 2 3 x 4 5 6 0 1 2 3 x 4 5 6 0 1 2 3 4 5 6 x Página: 2 M. Iniesta Universidad de Murcia 1.1.2. Cálculo de probabilidades R posibilita calcular probabilidades binomiales, tanto puntuales como acumuladas. A título de ejemplo supongamos que lanzamos una moneda equilibrada 10 veces. La siguiente ventana muestra una sesión de R para calcular algunas probabilidades binomiales B(10, 0.5). 2. Modelos continuos Para los modelos continuos estudiados existen funciones en R que nos permiten calcular probabilidades acumuladas, es decir valores de la función de distribución o áreas a izquierda de la función de densidad para valores x de la variable, así como cuantiles o valores inversos de la función de distribución. Es decir, dado x podemos calcular P (X ≤ x) o bien dado p podemos calcular x que cumple P (X ≤ x) = p. Además de esas funciones básicas, para cada modelo es posible obtener valores de la función de densidad que podemos utilizar para construir grácas. Volvemos a recordar que las probabilidades puntuales asociadas a variables continuas son nulas. La tabla siguiente recoge los modelos continuos que hemos estudiado junto con las funciones de R y los parámetros que los determinan. En todos los casos x indica un valor concreto de la variable y p indicará un valor de probabilidad a izquierda para la obtención de cuantiles. Página: 3 M. Iniesta Universidad de Murcia DISTRIBUCIÓN EXPONENCIAL UNIFORME NORMAL T-STUDENT CHI-CUADRADO F-SNEDECOR 2.1. Parámetros Probabilidad acumulada Cuantiles λ a, b µ, σ n = df n = df n = df 1, m = df 2 pexp(x,λ) punif(x,a,b) pnorm(x,µ,σ ) pt(x,n) pchisq(x,n) pf(x,n,m) qexp(p,λ) qunif(p,a,b) qnorm(p,µ,σ ) qt(p,n) qchisq(p,n) qf(p,n,m) Distribución Normal y Distribución t de Student Ya se ha comentado en clase de teoría la importancia de la distribución normal en el estudio de fenómenos reales. R nos posibilita la obtención de probabilidades y cuantiles asociados a la familia de distribuciones normales, pero antes de ello analizaremos sus propiedades mediante la representación gráca de las funciones más importantes asociadas a ella. También se verá grácamente cómo varían estas grácas en función de los parámetros µ y σ de los que depende. Además, la distribución t de Student, cuando el número de grados de libertad es grande, se aproxima a la distribución normal N (0, 1). Grácas 0.3 0.1 0.2 dnorm(x, 0, 1) 0.6 0.4 0.0 0.0 0.2 pnorm(x, 0, 1) 0.8 1.0 0.4 Las siguientes grácas se han construido mediante la sucesión de funciones siguiente: curve(pnorm(x,0,1),-3,3) curve(dnorm(x,0,1),-3,3) curve(dnorm(x,0,1),-3,3,add=TRUE) curve(dt(x,10),-3,3,add=TRUE) curve(dt(x,20),-3,3,add=TRUE) curve(dt(x,30),-3,3,add=TRUE) −3 −2 −1 0 x 1 2 3 −3 −2 −1 0 1 2 3 x En la de la izquierda se representa la función de densidad f (x) y la función de distribución F (x) de la N(0,1) que debemos interpretar de la siguiente manera: para cierto valor x, el área a la izquierda de dicho valor x y bajo la curva f (x) es igual al valor de la ordenada de la función de distribución F (x). La gráca de la derecha muestra la representación simultánea de la curva normal N (0, 1) junto con las curvas correspondientes a los modelos t10 , t20 y t30 , donde podemos apreciar elgrado de aproximación entre ellas. A continuación, en la siguiente gura, representamos las funciones de densidad de N(0,1), N(2,1) y N(4,1) (gráco de la izquierda) y de N(0,1), N(2,1.5) y N(4,2) (gráco Página: 4 M. Iniesta Universidad de Murcia 0.4 0.3 y 0.2 0.1 0.0 0.0 0.1 y 0.2 0.3 0.4 de la derecha), mediante las funciones que se indican a continuación y que ilustran otra vía de representar funciones superpuestas. x<-seq(-4,8,length=7) x<-seq(-4,8,length=7) y<-seq(0,0.4,length=7) y<-seq(0,0.4,length=7) plot(x,y,type="n") plot(x,y,type="n") x<-seq(-4,4,length=1000) x<-seq(-4,4,length=1000) points(x,dnorm(x,0,1),type="l") points(x,dnorm(x,0,1),type="l") x<-seq(-2,6,length=1000) x<-seq(-2,6,length=1000) points(x,dnorm(x,2,1),type="l") points(x,dnorm(x,2,1.5),type="l") x<-seq(0,8,length=1000) x<-seq(0,8,length=1000) points(x,dnorm(x,4,1),type="l") points(x,dnorm(x,4,2),type="l") −4 −2 0 2 4 6 8 x −4 −2 0 2 4 6 8 x Cálculo de probabilidades y cuantiles Recordemos que los sucesos asociados a variables aleatorias continuas son los intervalos de la recta real a los que podemos asignar probabilidad. En este cometido interviene la función de distribución F (x) de la variable y la propiedad siguiente: P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = F (b) − F (b) También recordamos que un cuantil es un valor x de la variable tal que, dado p, se cumple F (x) = p. Es decir, es el cálculo de valores inversos de la función de distribución, que en los procedimientos de inferencia también se llaman puntos críticos. Las siguientes guras ilustran la obtención de probabilidades y puntos cuantiles de la distribución normal N (0, 1) y de la distribución de Stundent t30 , apreciando el grado de aproximación entre los valores hallados con R. Página: 5 M. Iniesta Universidad de Murcia 3. Prácticas 1. Representa en la misma gráca las funciones puntual de probabilidad del modelo de Poisson para los parámetros λ = 0.1, λ = 5 y λ = 10. Aprecia dónde se encuentra la moda del modelo de Poisson. 2. Calcular probabilidades referentes a los modelos anteriores. Por ejemplo, vamos a suponer que el número de llamadas por minuto a una centralita sigue un modelo de Poisson de parámetro λ = 10. Calcula: a) La probabilidad de que en un minuto haya más de tres llamadas. b ) La probabilidad de que no haya ninguna llamada en 30 segundos. c ) Vamos a suponer que otra centralita recibe por término medio 5 llamadas por minuto. Vamos a calcular la probabilidad de que entre ambas se reciban en un minuto dado exactamente 12 llamadas. d ) Repetir el apartado anterior, sabiendo que si X1 ∼ P (λ1 ) y X2 ∼ P (λ2 ), entonces X1 + X2 ∼ P (λ1 + λ2 ). 3. Vamos a comprobar que la distribución Binomial B(n, p) se aproxima a la distribución de Poisson P (λ = np) cuando n es grande y p pequeño. Por ejemplo, si en una población hay una tasa de infección de una determinada enfermedad de 1:100000 al año, ¾cuál es la probabilidad de que en núcleo urbano de 364000 habitantes aparecan más de 6 casos en un año?. 4. Sin embargo, cuando p toma valores en el intervalo (0.2, 0.8) la aproximación que se lleva a cabo es a la distribución normal. Por ejemplo, calcula la probabilidad de obtener entre 45 y 55 caras cuando tiramos una moneda equilibrada 100 veces y aproxima esta probabilidad usando el modelo Normal N (50, 5). 5. En el ejercicio anterior, si calculamos P (44.5 < X < 55.5) donde X sigue un modelo normal N (50, 5) la aproximación es mayor. Se debe a que hemos aplicado lo que se denomina Corrección por continuidad. Página: 6 M. Iniesta Universidad de Murcia 6. Calcula las probabilidades puntuales de la distribución hipergeométrica asociada a la variable X =nº de aciertos en la lotería primitiva. Calcula la probabilidad de acertar menos de tres números de la combinación ganadora. 7. Supongamos un juego en el que participamos de forma semanal que tiene probabilidad de éxito 0.02. ¾cuál es la probabilidad de obtener premio en las primeras 20 semanas?. ¾Y en las 100 primeras semanas?. 8. A pesar de que en términos generales no existe un valor único x tal que, dado p se cumpla P (X ≤ x) = p para los modelos discretos, R nos posibilita hallar el menor valor de x que cumple P (X ≤ x) ≥ p. Por ejemplo, con referencia al problema anterior, si deseamos conocer cuántas semanas consecutivas debemos jugar para tener una probabilidad de 0.95 de obtener premio, necesitamos el valor de la variable x tal que P (X ≤ x) ≥ 0.95. A continuación, mediante la función qnbinom(p,k,p) obtenemos que el valor x = 148. Comprobamos también los valores de la función de distribución para los valores x = 148 y x = 147. qnbinom(0.95,1,0.02) 148 pnbinom(148,1,0.02) 0.9507183 pnbinom(147,1,0.02) 0.9497126 9. a) Llevar a cabo las grácas superpuestas de las distribuciones Exponenciales de parámetros λ = 0.1, λ = 0.5, λ = 2. b ) Para cada modelo, calcular las probabilidades P (X ≤ 3) y P (X > 2.5). c ) Para cada modelo calcular los cuantiles para p = 0.05 y p = 0.95. 10. Llamando χ2n y Fn,m a las distribuciones Chi-cuadrado con n grados de libertad y F de Snedecor con grados de libertad n, m y denotando por χ2n,p y Fn,m,p los p cuantiles, calcular: a) P (χ25 > 1.7), P (χ212 > 1.5), P (F5,10 > 3.5), P (F10,5 < 3.5). b) χ10,0.025 , χ12,0.95 , F5,10,0.05 , F10,5,0.95 . Página: 7