Práctica 4 - OCW - Universidad de Murcia

Anuncio
M. Iniesta
Universidad de Murcia
Estadística con
Práctica 4: Simulación
Introducción
En esta práctica se tiene por objetivo poner de maniesto algunas propiedades de
los estadísticos básicos mediante la generación de muestras aleatorias. Para algunos de
estos estadísticos, como la media muestral, se estudia en clase de teoría su distribución
en el muestreo; sin embargo para otros, como el mínimo y el máximo, no se estudia
su distribución teórica y es en estos casos donde los mecanismos de simulación cobran
especial interés, para aproximar las características teóricas de los mismos mediante las
características muestrales observadas en la simulación de grandes muestras.
1.
Simulación del modelo Uniforme discreto
Se trata del modelo de probabilidad más simple y se asocia a aquellas variables
aleatorias que toman un número nito de valores distintos con idéntica probabilidad; es
decir, la variable aleatoria X sigue un modelo de probabilidad uniforme discreto si
P (X = x) =
1
;
n
x ∈ ℵ = {x1 , x2 , ..., xn }
Observar que el único parámetro del que depende este modelo es el número n de puntos muestrales que contiene el espacio muestral ℵ y su gráca es tan sencilla como un
diagrama con n barras de alturas constantes n1 . Los parámetros más importantes son
E(X) =
1
n
Pn
V (X) = ( n1
i=1
Pn
xi
i=1
x2i ) − E(X)2
El ejemplo más corriente de esta situación es el lanzamiento de dados equilibrados o
las extracciones con reemplazamiento de bolas de urnas.
Las funciones de R más útiles para este modelo son:
Crea la variable discreta X con distribución uniforme
mean(X)
Media teórica de X
var(X)
Varianza teórica de X
sample(X,m,replace=TRUE)->muestra Genera m valores al azar de X con
reemplazamiento
mean(muestra)
Media muestral
var(muestra)
Varianza muestral
c(x1 , x2 , ..., xn )->X
Ejemplo 1
Sea
X
el valor de la cara obtenida cuando lanzamos al aire un dado equi-
librado de 6 caras. Vamos a calcular la media y la varianza (teóricas) de
X,
así como
Página: 1
M. Iniesta
Universidad de Murcia
la media y la varianza de muestras aleatoria de tamaño grande. Recordar que la media
muestral y la varianza muestral son estadísticos que varían en el conjunto de todas las
muestras. Ello signica que los valores obtenidos de estos estadísticos serán distintos
cada vez que los apliquemos a una muestra aleatoria; sin embargo serán razonablemente
aproximados a los valores teóricos cuando el tamaño de la muestra es grande.
2.
Otros modelos discretos
Podemos generar muestras aleatorias de los modelos discretos estudiados mediante
las funciones que aparecen en la siguiente tabla:
DISTRIBUCIÓN
BINOMIAL
B. NEGATIVA
GEOMÉTRICA
HIPERGEOMÉTRICA
POISSON
3.
Parámetros Muestra Aleatoria
n, p
rbinom(m,n,p)
n, p
rnbinom(m,n,p)
p
N1 , N2 , n
λ
rgeom(m,p)
rhyper(m,N1 , N2 , n)
rpois(m,λ)
La probabilidad como límite de proporciones
Uno de los enfoques de la probabilidad se deriva del hecho de la propiedad de regularidad de las frecuencias relativas de un suceso cualquiera, dado que cuando el tamaño
muestral es grande éstas tienden a estabilizarse al valor de la probabilidad del suceso en
cuestión.
Página: 2
M. Iniesta
Universidad de Murcia
Más concretamente, si A es un suceso con probabilidad P (A) = p, la variable de
Bernoulli X ∼ B(p) toma el valor 1 si sucede A y el valor 0 si no sucede A. Eso
signica que si {X1 , ...., Xn } es una muestra aleatoria simple procedente de X , la media
muestral X es un estadístico que indica la frecuencia relativa del suceso A en n pruebas
independientes, cuyos valores deben ser aproximaciones el valor teórico p.
Ejemplo 2
Supongamos que
A
P (A) = 0.75.
es un suceso con probabilidad
También
recordemos que el modelo de Bernoulli es el modelo Binomial con parámetro 1. Vamos
a simular la distribución de Bernoulli para tamaños muestrales cada vez más grandes y
calculemos para cada muestra la frecuencia relativa del suceso
A
(media muestral), para
ver que esta medida descriptiva cada vez se aproxima más a la probabilidad teórica
p.
La siguiente gura muestra un ejemplo de sesión con R para la nalidad del problema,
0.80
junto con el gráco de puntos obtenidos en la simulación.
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
2000
4000
●
●
●
0.70
frecuencia
0.75
● ●
●●
●
●
●
●
0.65
●
●
0
6000
8000
10000
lanzamientos
El gráco anterior obtenidos de R con las funciones:
>
>
>
>
pdf(le=regu.pdf",width=6,height=6)
plot(puntos)
abline(0.75,0)
dev.o()
muestra el plot de la simulación realizada junto con la recta
y = 0.75
para visualizar la
regularidad de las frecuencias relativas cuando el tamaño muestral es grande.
4.
Distribución de la suma de variables
En esta sección y en las siguientes vamos a suponer que (X1 , ...., Xn ) es una muestra
aleatoria simple de tamaño n procedente de X con
P E(X) = µ y D(X) = σ .
En clase se denió el estadístico suma: Sn = ni=1 Xi , que cumple:
√
Si X ∼ N (µ, σ), entonces Sn ∼ N (nµ, nσ)
Si la distribución de X no es normal, pero n es grande
√ podemos aproximar la
distribución de Sn a una normal, es decir, Sn ∼ N (nµ, nσ)
Página: 3
M. Iniesta
Universidad de Murcia
Un caso particular del punto
panterior es el caso de la aproximación de la Binomial
B(n,
Pn p) a la Normal N (np, np(1 − p)) puesto que si X ∼ B(n, p) entonces X =
i=1 Xi con Xi ∼ B(p).
Ejemplo 3
El siguiente ejemplo muestra la obtención de datos binomiales, a partir de
sumas de valores aleatorios de variables de Bernoulli para el caso particular
p = 0.75.
Además se muestra junto con el histograma la curva normal que aproxima teóricamente
0.00
0.02
0.04
0.06
0.08
la simulación obtenida.
55
60
65
70
75
80
85
90
sumas
5.
Distribución de la media muestral
Algunos resultados vistos en teoría son los siguientes:
σ
Si X ∼ N (µ, σ), entonces X̄ ∼ N µ, √ , donde X̄ se construye a partir de una
n
muestra aleatoria de tamaño n procedente de X .
σ
En el caso de que X no sea normal, X̄ ∼ N µ, √
aproximadamente cuando
n
el tamaño muestral n es grande.
Como caso particular de lo anterior,
si X! ∼ B(p) (Bernoulli), donde p = P (A),
p
entonces X̄ = f rA ∼ N
p,
p(1 − p)
√
n
aproximadamente cuando el tamaño
muestral n es grande.
Ejemplo 4
En el siguiente ejemplo se obtiene mediante simulación una muestra de
tamaño 10000 de frecuencias relativas de cierto suceso
A
con
P (A) = p,
mediante la media de 100 valores aleatorios de una distribución de Bernoulli
obtenidas
B(0.75).
Una vez obtenida la simulación, mediante las funciones que aparecen en la siguiente
gura, se comparan los resultados teóricos y muestrales de la media y desviación típica y llevamos a cabo el histograma de los valores obtenidos de la simulación en un
gráco donde se incrusta la densidad teórica (normal) que aproxima a la distribución
Página: 4
M. Iniesta
Universidad de Murcia
de probabilidad de la variable frecuencia relativa del suceso A en el caso particular
0
2
4
6
8
P (A) = 0.75.
0.60
0.65
0.70
0.75
0.80
0.85
0.90
frecuencias
6.
Distribución aproximada de estadísticos
Como hemos visto en clase, si (X1 , ...., Xn ) es una muestra aleatoria simple de tamaño
n procedente de X , cualquier función de la misma H(X1 , ...., Xn ) es un estadístico, cuya
distribución de probabilidad en el muestreo puede tener cierta complejidad para ser
obtenida a partir de la distribución de probabilidad de X .
Para salvar los aspectos técnicos necesarios para obtener la distribución de probabilidad en el muestreo de ciertos estadísticos, una solución aproximada y aceptable es llevar
a cabo simulaciones cuyas descripciones nos apuntarían las características de dichos
estadísticos, al menos de manera aproximada.
A modo de ejemplo, si (X1 , ...., Xn ) es una muestra aleatoria simple de tamaño n
procedente de X donde X indica el tiempo de funcionamiento de un componente electrónico,
el estadístico máx{X1 , ...., Xn } = M indicaría el tiempo de funcionamiento de n
componentes idénticos e independientes conectadas en paralelo, mientras que
el estadístico mı́n{X1 , ...., Xn } = m indicaría el tiempo de funcionamiento de n
componentes idénticos e independientes conectadas en serie.
Evidentemente, para conocer el comportamiento probabilístico del funcionamiento
de sistemas que están congurados mediante subsistemas que están ligados en serie o en
paralelo, habría que conocer las distribuciones de M y m. Como alternativa al cálculo
forma de dichas distribuciones haremos simulaciones y obtendremos las características
deseadas que serán aproximadas a las características teóricas de los estadísticos en cuestión.
Ejemplo 5
n = 5 componentes
parámetro λ = 0.1.
Supongamos
es exponencial de
idénticas cuyo tiempo de funcionamiento
La siguiente imagen recoge una sesión de R para obtener valores aleatorios de los
estadísticos
m
y
M
en este caso, junto con una descripción básica de la simulación
obtenida mediante la función summary.
Página: 5
M. Iniesta
Universidad de Murcia
Además de los histogramas y Boxplot que aparecen en la siguiente gura.
Tiempos 5 componentes en paralelo
0.0
0.00
0.1
0.02
0.2
0.3
0.04
0.4
Tiempos 5 componentes en serie
4
6
8
10
10
20
30
●
●
●
●
●
50
2
8
0
40
50
60
40
30
20
●
0
10
2
4
6
●
●
Página: 6
M. Iniesta
Universidad de Murcia
7.
Prácticas
1. Obtener muestras aleatorias de los modelos estudiados en clase y lleva a cabo
descripciones de dichas muestras.
2. Simular el lanzamiento de dos monedas equilibradas y estima mediante las frecuencias relativas las probabilidades asociadas a la variable número de caras obtenidas.
3. Simular el lanzamiento de dos dados equilibrados y estima la probabilidad de cada
uno de los valores posibles de la suma de las caras que resultan mediante el cálculo
de frecuencias relativas.
4. Genera muestras aleatorias de la variable uniforme discreta asociada al lanzamiento
de un dado equilibrado y mediante ellas comprueba grácamente la aproximación
de la media muestral a cierta distribución normal.
Página: 7
Descargar