to get the file - OCW - Universidad de Murcia

Anuncio
M. Iniesta
Universidad de Murcia
Estadística con
Práctica 3: Probabilidad
Introducción
En esta práctica vamos a tratar con los modelos de probabilidad más comunes, puesto
que ellos pueden describir la mayoría de situaciones experimentales. Cada modelo es en
sí una familia de distribuciones de probabilidad por la posibilidad que tenemos de jugar
con el parámetro o parámetros de los que depende. Para cada modelo de los estudiados
en clase, estudiaremos grácamente el comportamiento de la distribución en función de
dicho parámetro, calcularemos probabilidades asociadas a dichos modelos y percentiles.
También aprenderemos a extraer muestras aleatorias de dichos modelos aunque será en
la próxima práctica donde trataremos con ellas en problemas simulación y aproximación
de probabilidades. Mas concretamente, para cada modelo estarán disponibles funciones
que nos permitirán obtener:
Probabilidades puntuales: Probabilidad de que la variable tome un valor concreto.
(Las probabilidades puntuales sólo se calculan en modelos discretos, pues recordemos que las probabilidades puntuales asociadas a variables continuas son nulas).
Probabilidades acumuladas: Probabilidad de que la variable tome valores menores
o iguales a uno dado x, es decir, es el valor de la función de distribución de dicha
variable en x.
Puntos críticos o cuantiles: Valores de la variable que deja a su izquierda una pro-
babilidad determinada. Para modelos continuos siempre existirá y será único. En
modelos discretos podrían suceder otras situaciones al ser la función de distribución escalonada, es decir, discontinua en los puntos muestrales. Se indicará en el
momento oportuno la salida que ofrece en R en el caso discreto.
Grácas de la distribución: Para analizar el comportamiento de una variable en su
espacio muestral y sobre todo para conocer la inuencia de sus parámetros en dicho
comportamiento.
Muestras aleatorias: Extrae muestras aleatorias de dicha distribución, posiblemente
con el objetivo de simular un experimento aleatorio que se rige por las mismas
hipótesis que el modelo. Estas funciones se verán en la siguiente práctica.
1.
Modelos discretos
En las clases de teoría hemos estudiado un catálogo de modelos de probabilidad
discretos que recogían un amplio abanico de situaciones experimentales. La clave para
resolver problemas de probabilidad es reconocer las hipótesis en las que se basa cada
situación y enmarcarlas dentro de uno de los modelos estudiados. Evidentemente ni R
Página: 1
M. Iniesta
Universidad de Murcia
ni ningún otro software nos ayudará en esa importante tarea, pero sí nos ayudará a obtener unos resultados numéricos que en muchas ocasiones resultan de cierta complejidad
cuando se resuelven de forma manual.
La tabla siguiente recoge los modelos discretos que hemos estudiado junto con las
funciones de R y los parámetros que los determinan.
DISTRIBUCIÓN
BINOMIAL
B. NEGATIVA
GEOMÉTRICA
HIPERGEOMÉTRICA
POISSON
1.1.
Parámetros Probabilidad Puntual
k, p
dbinom(x,k,p)
k, p
dnbinom(x,k,p)
Probabilidad Acumulada
pbinom(x,k,p)
pnbinom(x,k,p)
dgeom(x,p)
pgeom(x,p)
dhyper(x,N1 , N2 , n) phyper(x,N1 , N2 , n)
dpois(x,λ)
ppois(x,λ)
p
N1 , N2 , n
λ
Modelo Binomial
Si X representa el número de veces que ocurre cierto suceso A con P (A) = p, en k
repeticiones idénticas de un experimento en el que puede suceder A o su complementario
A, decimos que X sigue una distribución Binomial de parámetros k y p.
1.1.1. Gráca
La gráca de la distribución binomial es un diagrama de barras simétrico en el caso
de ser p = 0.5, es asimétrica a la derecha si p < 0.5 y asimétrica a la izquierda si p > 0.5.
La siguiente gura muestra una sesión para construir los grácos de las distribuciones
de probabilidad B(6, 0.20), B(6, 0.50) y B(6, 0.80).
0.4
0.3
0.0
0.05
0.1
0.2
P(X=x)
0.10
0.15
P(X=x)
0.2
0.1
0.0
P(X=x)
0.20
0.3
0.25
0.30
0.4
>pdf(file="binom.pdf", width=7, height=5)
>par(mfrow=c(1,3))
>x<-seq(0,6,1)
>b1<-dbinom(x,6,0.2); b2<-dbinom(x,6,0.5); b3<-dbinom(x,6,0.8)
>plot(x,b1, type=h)
>plot(x,b2, type=h)
>plot(x,b3, type=h)
>dev.off()
0
1
2
3
x
4
5
6
0
1
2
3
x
4
5
6
0
1
2
3
4
5
6
x
Página: 2
M. Iniesta
Universidad de Murcia
1.1.2. Cálculo de probabilidades
R posibilita calcular probabilidades binomiales, tanto puntuales como acumuladas.
A título de ejemplo supongamos que lanzamos una moneda equilibrada 10 veces. La siguiente ventana muestra una sesión de R para calcular algunas probabilidades binomiales
B(10, 0.5).
2.
Modelos continuos
Para los modelos continuos estudiados existen funciones en R que nos permiten calcular probabilidades acumuladas, es decir valores de la función de distribución o áreas
a izquierda de la función de densidad para valores x de la variable, así como cuantiles o
valores inversos de la función de distribución.
Es decir, dado x podemos calcular P (X ≤ x) o bien dado p podemos calcular x que
cumple P (X ≤ x) = p.
Además de esas funciones básicas, para cada modelo es posible obtener valores de la
función de densidad que podemos utilizar para construir grácas. Volvemos a recordar
que las probabilidades puntuales asociadas a variables continuas son nulas.
La tabla siguiente recoge los modelos continuos que hemos estudiado junto con las
funciones de R y los parámetros que los determinan. En todos los casos x indica un
valor concreto de la variable y p indicará un valor de probabilidad a izquierda para la
obtención de cuantiles.
Página: 3
M. Iniesta
Universidad de Murcia
DISTRIBUCIÓN
EXPONENCIAL
UNIFORME
NORMAL
T-STUDENT
CHI-CUADRADO
F-SNEDECOR
2.1.
Parámetros
Probabilidad acumulada Cuantiles
λ
a, b
µ, σ
n = df
n = df
n = df 1, m = df 2
pexp(x,λ)
punif(x,a,b)
pnorm(x,µ,σ )
pt(x,n)
pchisq(x,n)
pf(x,n,m)
qexp(p,λ)
qunif(p,a,b)
qnorm(p,µ,σ )
qt(p,n)
qchisq(p,n)
qf(p,n,m)
Distribución Normal y Distribución t de Student
Ya se ha comentado en clase de teoría la importancia de la distribución normal en el
estudio de fenómenos reales. R nos posibilita la obtención de probabilidades y cuantiles
asociados a la familia de distribuciones normales, pero antes de ello analizaremos sus
propiedades mediante la representación gráca de las funciones más importantes asociadas a ella. También se verá grácamente cómo varían estas grácas en función de los
parámetros µ y σ de los que depende. Además, la distribución t de Student, cuando el
número de grados de libertad es grande, se aproxima a la distribución normal N (0, 1).
Grácas
0.3
0.1
0.2
dnorm(x, 0, 1)
0.6
0.4
0.0
0.0
0.2
pnorm(x, 0, 1)
0.8
1.0
0.4
Las siguientes grácas se han construido mediante la sucesión de funciones siguiente:
curve(pnorm(x,0,1),-3,3)
curve(dnorm(x,0,1),-3,3)
curve(dnorm(x,0,1),-3,3,add=TRUE)
curve(dt(x,10),-3,3,add=TRUE)
curve(dt(x,20),-3,3,add=TRUE)
curve(dt(x,30),-3,3,add=TRUE)
−3
−2
−1
0
x
1
2
3
−3
−2
−1
0
1
2
3
x
En la de la izquierda se representa la función de densidad f (x) y la función de distribución F (x) de la N(0,1) que debemos interpretar de la siguiente manera: para cierto
valor x, el área a la izquierda de dicho valor x y bajo la curva f (x) es igual al valor de la
ordenada de la función de distribución F (x). La gráca de la derecha muestra la representación simultánea de la curva normal N (0, 1) junto con las curvas correspondientes a
los modelos t10 , t20 y t30 , donde podemos apreciar elgrado de aproximación entre ellas.
A continuación, en la siguiente gura, representamos las funciones de densidad de
N(0,1), N(2,1) y N(4,1) (gráco de la izquierda) y de N(0,1), N(2,1.5) y N(4,2) (gráco
Página: 4
M. Iniesta
Universidad de Murcia
0.4
0.3
y
0.2
0.1
0.0
0.0
0.1
y
0.2
0.3
0.4
de la derecha), mediante las funciones que se indican a continuación y que ilustran otra
vía de representar funciones superpuestas.
x<-seq(-4,8,length=7)
x<-seq(-4,8,length=7)
y<-seq(0,0.4,length=7)
y<-seq(0,0.4,length=7)
plot(x,y,type="n")
plot(x,y,type="n")
x<-seq(-4,4,length=1000)
x<-seq(-4,4,length=1000)
points(x,dnorm(x,0,1),type="l") points(x,dnorm(x,0,1),type="l")
x<-seq(-2,6,length=1000)
x<-seq(-2,6,length=1000)
points(x,dnorm(x,2,1),type="l") points(x,dnorm(x,2,1.5),type="l")
x<-seq(0,8,length=1000)
x<-seq(0,8,length=1000)
points(x,dnorm(x,4,1),type="l") points(x,dnorm(x,4,2),type="l")
−4
−2
0
2
4
6
8
x
−4
−2
0
2
4
6
8
x
Cálculo de probabilidades y cuantiles
Recordemos que los sucesos asociados a variables aleatorias continuas son los intervalos de la recta real a los que podemos asignar probabilidad. En este cometido interviene
la función de distribución F (x) de la variable y la propiedad siguiente:
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = F (b) − F (b)
También recordamos que un cuantil es un valor x de la variable tal que, dado p, se
cumple F (x) = p. Es decir, es el cálculo de valores inversos de la función de distribución,
que en los procedimientos de inferencia también se llaman puntos críticos.
Las siguientes guras ilustran la obtención de probabilidades y puntos cuantiles de
la distribución normal N (0, 1) y de la distribución de Stundent t30 , apreciando el grado
de aproximación entre los valores hallados con R.
Página: 5
M. Iniesta
Universidad de Murcia
3.
Prácticas
1. Representa en la misma gráca las funciones puntual de probabilidad del modelo de
Poisson para los parámetros λ = 0.1, λ = 5 y λ = 10. Aprecia dónde se encuentra
la moda del modelo de Poisson.
2. Calcular probabilidades referentes a los modelos anteriores. Por ejemplo, vamos a
suponer que el número de llamadas por minuto a una centralita sigue un modelo
de Poisson de parámetro λ = 10. Calcula:
a)
La probabilidad de que en un minuto haya más de tres llamadas.
b ) La probabilidad de que no haya ninguna llamada en 30 segundos.
c ) Vamos a suponer que otra centralita recibe por término medio 5 llamadas por
minuto. Vamos a calcular la probabilidad de que entre ambas se reciban en
un minuto dado exactamente 12 llamadas.
d ) Repetir el apartado anterior, sabiendo que si X1 ∼ P (λ1 ) y X2 ∼ P (λ2 ),
entonces X1 + X2 ∼ P (λ1 + λ2 ).
3. Vamos a comprobar que la distribución Binomial B(n, p) se aproxima a la distribución de Poisson P (λ = np) cuando n es grande y p pequeño. Por ejemplo,
si en una población hay una tasa de infección de una determinada enfermedad
de 1:100000 al año, ¾cuál es la probabilidad de que en núcleo urbano de 364000
habitantes aparecan más de 6 casos en un año?.
4. Sin embargo, cuando p toma valores en el intervalo (0.2, 0.8) la aproximación que
se lleva a cabo es a la distribución normal. Por ejemplo, calcula la probabilidad de
obtener entre 45 y 55 caras cuando tiramos una moneda equilibrada 100 veces y
aproxima esta probabilidad usando el modelo Normal N (50, 5).
5. En el ejercicio anterior, si calculamos P (44.5 < X < 55.5) donde X sigue un
modelo normal N (50, 5) la aproximación es mayor. Se debe a que hemos aplicado
lo que se denomina Corrección por continuidad.
Página: 6
M. Iniesta
Universidad de Murcia
6. Calcula las probabilidades puntuales de la distribución hipergeométrica asociada
a la variable X =nº de aciertos en la lotería primitiva. Calcula la probabilidad de
acertar menos de tres números de la combinación ganadora.
7. Supongamos un juego en el que participamos de forma semanal que tiene probabilidad de éxito 0.02. ¾cuál es la probabilidad de obtener premio en las primeras
20 semanas?. ¾Y en las 100 primeras semanas?.
8. A pesar de que en términos generales no existe un valor único x tal que, dado p se
cumpla P (X ≤ x) = p para los modelos discretos, R nos posibilita hallar el menor
valor de x que cumple P (X ≤ x) ≥ p. Por ejemplo, con referencia al problema anterior, si deseamos conocer cuántas semanas consecutivas debemos jugar para tener
una probabilidad de 0.95 de obtener premio, necesitamos el valor de la variable x
tal que P (X ≤ x) ≥ 0.95. A continuación, mediante la función qnbinom(p,k,p)
obtenemos que el valor x = 148. Comprobamos también los valores de la función
de distribución para los valores x = 148 y x = 147.
qnbinom(0.95,1,0.02)
148
pnbinom(148,1,0.02)
0.9507183
pnbinom(147,1,0.02)
0.9497126
9.
a)
Llevar a cabo las grácas superpuestas de las distribuciones Exponenciales de
parámetros λ = 0.1, λ = 0.5, λ = 2.
b ) Para cada modelo, calcular las probabilidades P (X ≤ 3) y P (X > 2.5).
c ) Para cada modelo calcular los cuantiles para p = 0.05 y p = 0.95.
10. Llamando χ2n y Fn,m a las distribuciones Chi-cuadrado con n grados de libertad
y F de Snedecor con grados de libertad n, m y denotando por χ2n,p y Fn,m,p los p
cuantiles, calcular:
a)
P (χ25 > 1.7), P (χ212 > 1.5), P (F5,10 > 3.5), P (F10,5 < 3.5).
b)
χ10,0.025 , χ12,0.95 , F5,10,0.05 , F10,5,0.95 .
Página: 7
Descargar