M. Iniesta Universidad de Murcia Estadística con Práctica 4: Simulación Introducción En esta práctica se tiene por objetivo poner de maniesto algunas propiedades de los estadísticos básicos mediante la generación de muestras aleatorias. Para algunos de estos estadísticos, como la media muestral, se estudia en clase de teoría su distribución en el muestreo; sin embargo para otros, como el mínimo y el máximo, no se estudia su distribución teórica y es en estos casos donde los mecanismos de simulación cobran especial interés, para aproximar las características teóricas de los mismos mediante las características muestrales observadas en la simulación de grandes muestras. 1. Simulación del modelo Uniforme discreto Se trata del modelo de probabilidad más simple y se asocia a aquellas variables aleatorias que toman un número nito de valores distintos con idéntica probabilidad; es decir, la variable aleatoria X sigue un modelo de probabilidad uniforme discreto si P (X = x) = 1 ; n x ∈ ℵ = {x1 , x2 , ..., xn } Observar que el único parámetro del que depende este modelo es el número n de puntos muestrales que contiene el espacio muestral ℵ y su gráca es tan sencilla como un diagrama con n barras de alturas constantes n1 . Los parámetros más importantes son E(X) = 1 n Pn V (X) = ( n1 i=1 Pn xi i=1 x2i ) − E(X)2 El ejemplo más corriente de esta situación es el lanzamiento de dados equilibrados o las extracciones con reemplazamiento de bolas de urnas. Las funciones de R más útiles para este modelo son: Crea la variable discreta X con distribución uniforme mean(X) Media teórica de X var(X) Varianza teórica de X sample(X,m,replace=TRUE)->muestra Genera m valores al azar de X con reemplazamiento mean(muestra) Media muestral var(muestra) Varianza muestral c(x1 , x2 , ..., xn )->X Ejemplo 1 Sea X el valor de la cara obtenida cuando lanzamos al aire un dado equi- librado de 6 caras. Vamos a calcular la media y la varianza (teóricas) de X, así como Página: 1 M. Iniesta Universidad de Murcia la media y la varianza de muestras aleatoria de tamaño grande. Recordar que la media muestral y la varianza muestral son estadísticos que varían en el conjunto de todas las muestras. Ello signica que los valores obtenidos de estos estadísticos serán distintos cada vez que los apliquemos a una muestra aleatoria; sin embargo serán razonablemente aproximados a los valores teóricos cuando el tamaño de la muestra es grande. 2. Otros modelos discretos Podemos generar muestras aleatorias de los modelos discretos estudiados mediante las funciones que aparecen en la siguiente tabla: DISTRIBUCIÓN BINOMIAL B. NEGATIVA GEOMÉTRICA HIPERGEOMÉTRICA POISSON 3. Parámetros Muestra Aleatoria n, p rbinom(m,n,p) n, p rnbinom(m,n,p) p N1 , N2 , n λ rgeom(m,p) rhyper(m,N1 , N2 , n) rpois(m,λ) La probabilidad como límite de proporciones Uno de los enfoques de la probabilidad se deriva del hecho de la propiedad de regularidad de las frecuencias relativas de un suceso cualquiera, dado que cuando el tamaño muestral es grande éstas tienden a estabilizarse al valor de la probabilidad del suceso en cuestión. Página: 2 M. Iniesta Universidad de Murcia Más concretamente, si A es un suceso con probabilidad P (A) = p, la variable de Bernoulli X ∼ B(p) toma el valor 1 si sucede A y el valor 0 si no sucede A. Eso signica que si {X1 , ...., Xn } es una muestra aleatoria simple procedente de X , la media muestral X es un estadístico que indica la frecuencia relativa del suceso A en n pruebas independientes, cuyos valores deben ser aproximaciones el valor teórico p. Ejemplo 2 Supongamos que A P (A) = 0.75. es un suceso con probabilidad También recordemos que el modelo de Bernoulli es el modelo Binomial con parámetro 1. Vamos a simular la distribución de Bernoulli para tamaños muestrales cada vez más grandes y calculemos para cada muestra la frecuencia relativa del suceso A (media muestral), para ver que esta medida descriptiva cada vez se aproxima más a la probabilidad teórica p. La siguiente gura muestra un ejemplo de sesión con R para la nalidad del problema, 0.80 junto con el gráco de puntos obtenidos en la simulación. ● ● ● ● ● ● ● ● ●● ● ● ● ● ● 2000 4000 ● ● ● 0.70 frecuencia 0.75 ● ● ●● ● ● ● ● 0.65 ● ● 0 6000 8000 10000 lanzamientos El gráco anterior obtenidos de R con las funciones: > > > > pdf(le=regu.pdf",width=6,height=6) plot(puntos) abline(0.75,0) dev.o() muestra el plot de la simulación realizada junto con la recta y = 0.75 para visualizar la regularidad de las frecuencias relativas cuando el tamaño muestral es grande. 4. Distribución de la suma de variables En esta sección y en las siguientes vamos a suponer que (X1 , ...., Xn ) es una muestra aleatoria simple de tamaño n procedente de X con P E(X) = µ y D(X) = σ . En clase se denió el estadístico suma: Sn = ni=1 Xi , que cumple: √ Si X ∼ N (µ, σ), entonces Sn ∼ N (nµ, nσ) Si la distribución de X no es normal, pero n es grande √ podemos aproximar la distribución de Sn a una normal, es decir, Sn ∼ N (nµ, nσ) Página: 3 M. Iniesta Universidad de Murcia Un caso particular del punto panterior es el caso de la aproximación de la Binomial B(n, Pn p) a la Normal N (np, np(1 − p)) puesto que si X ∼ B(n, p) entonces X = i=1 Xi con Xi ∼ B(p). Ejemplo 3 El siguiente ejemplo muestra la obtención de datos binomiales, a partir de sumas de valores aleatorios de variables de Bernoulli para el caso particular p = 0.75. Además se muestra junto con el histograma la curva normal que aproxima teóricamente 0.00 0.02 0.04 0.06 0.08 la simulación obtenida. 55 60 65 70 75 80 85 90 sumas 5. Distribución de la media muestral Algunos resultados vistos en teoría son los siguientes: σ Si X ∼ N (µ, σ), entonces X̄ ∼ N µ, √ , donde X̄ se construye a partir de una n muestra aleatoria de tamaño n procedente de X . σ En el caso de que X no sea normal, X̄ ∼ N µ, √ aproximadamente cuando n el tamaño muestral n es grande. Como caso particular de lo anterior, si X! ∼ B(p) (Bernoulli), donde p = P (A), p entonces X̄ = f rA ∼ N p, p(1 − p) √ n aproximadamente cuando el tamaño muestral n es grande. Ejemplo 4 En el siguiente ejemplo se obtiene mediante simulación una muestra de tamaño 10000 de frecuencias relativas de cierto suceso A con P (A) = p, mediante la media de 100 valores aleatorios de una distribución de Bernoulli obtenidas B(0.75). Una vez obtenida la simulación, mediante las funciones que aparecen en la siguiente gura, se comparan los resultados teóricos y muestrales de la media y desviación típica y llevamos a cabo el histograma de los valores obtenidos de la simulación en un gráco donde se incrusta la densidad teórica (normal) que aproxima a la distribución Página: 4 M. Iniesta Universidad de Murcia de probabilidad de la variable frecuencia relativa del suceso A en el caso particular 0 2 4 6 8 P (A) = 0.75. 0.60 0.65 0.70 0.75 0.80 0.85 0.90 frecuencias 6. Distribución aproximada de estadísticos Como hemos visto en clase, si (X1 , ...., Xn ) es una muestra aleatoria simple de tamaño n procedente de X , cualquier función de la misma H(X1 , ...., Xn ) es un estadístico, cuya distribución de probabilidad en el muestreo puede tener cierta complejidad para ser obtenida a partir de la distribución de probabilidad de X . Para salvar los aspectos técnicos necesarios para obtener la distribución de probabilidad en el muestreo de ciertos estadísticos, una solución aproximada y aceptable es llevar a cabo simulaciones cuyas descripciones nos apuntarían las características de dichos estadísticos, al menos de manera aproximada. A modo de ejemplo, si (X1 , ...., Xn ) es una muestra aleatoria simple de tamaño n procedente de X donde X indica el tiempo de funcionamiento de un componente electrónico, el estadístico máx{X1 , ...., Xn } = M indicaría el tiempo de funcionamiento de n componentes idénticos e independientes conectadas en paralelo, mientras que el estadístico mı́n{X1 , ...., Xn } = m indicaría el tiempo de funcionamiento de n componentes idénticos e independientes conectadas en serie. Evidentemente, para conocer el comportamiento probabilístico del funcionamiento de sistemas que están congurados mediante subsistemas que están ligados en serie o en paralelo, habría que conocer las distribuciones de M y m. Como alternativa al cálculo forma de dichas distribuciones haremos simulaciones y obtendremos las características deseadas que serán aproximadas a las características teóricas de los estadísticos en cuestión. Ejemplo 5 n = 5 componentes parámetro λ = 0.1. Supongamos es exponencial de idénticas cuyo tiempo de funcionamiento La siguiente imagen recoge una sesión de R para obtener valores aleatorios de los estadísticos m y M en este caso, junto con una descripción básica de la simulación obtenida mediante la función summary. Página: 5 M. Iniesta Universidad de Murcia Además de los histogramas y Boxplot que aparecen en la siguiente gura. Tiempos 5 componentes en paralelo 0.0 0.00 0.1 0.02 0.2 0.3 0.04 0.4 Tiempos 5 componentes en serie 4 6 8 10 10 20 30 ● ● ● ● ● 50 2 8 0 40 50 60 40 30 20 ● 0 10 2 4 6 ● ● Página: 6 M. Iniesta Universidad de Murcia 7. Prácticas 1. Obtener muestras aleatorias de los modelos estudiados en clase y lleva a cabo descripciones de dichas muestras. 2. Simular el lanzamiento de dos monedas equilibradas y estima mediante las frecuencias relativas las probabilidades asociadas a la variable número de caras obtenidas. 3. Simular el lanzamiento de dos dados equilibrados y estima la probabilidad de cada uno de los valores posibles de la suma de las caras que resultan mediante el cálculo de frecuencias relativas. 4. Genera muestras aleatorias de la variable uniforme discreta asociada al lanzamiento de un dado equilibrado y mediante ellas comprueba grácamente la aproximación de la media muestral a cierta distribución normal. Página: 7