1 Práctica de SIMULACIÓN 1. Objetivos En esta práctica vamos a simular datos procedentes de diversos modelos probabilísticos. En la sección 2, comprobaremos visualmente que los datos que simulamos se ajustan al modelo del que provienen. Finalmente, en la sección 3, veremos que aplicando ciertas transformaciones a nuestros datos, cambiamos el modelo de distribución que siguen. 2. Simulación Los datos con los que trabajaremos a lo largo de esta práctica los vamos a construir nosotros artificialmente. En este apartado vamos a simular 1000 valores de una variable normal de media 3 y desviación típica 2. Seleccionamos las opciones: PLOT / PROBABILITY DISTRIBUTIONS / NORMAL. Pinchamos en el botón Tabular Options y seleccionamos la opción números aleatorios, Random Numbers. Pinchamos el botón derecho del ratón sobre el panel de texto y vamos a la opción Analysis Options, donde seleccionamos media 3 y desviación típica 2. Volvemos a pinchar el botón derecho del ratón sobre el panel de texto y vamos ahora a la opción Pane Options, donde seleccionamos el tamaño de la muestra que queremos generar, debajo de Size escribimos 1000.. A continuación, procedemos a guardar los datos generados. Pinchando sobre el botón Save Results nos pedirán el nombre de la variable en la que queremos almacenar nuestros datos. Aceptamos el nombre que nos da por defecto RAND1 y pinchamos en el recuadro de Save (Random Numbers for Dist. 1). Ahora veremos brevemente qué tal se ajustan nuestros datos al modelo según el que fueron simulados. Como esto es propio de la práctica “Ajuste de distribuciones”, pasaremos sobre este punto brevemente. Seleccionamos las opciones: DESCRIBE / DISTRIBUTIONS / DISTRIBUTION FITTING (UNCENSORED DATA) y en la casilla para los datos (Data) introducimos el nombre de nuestra variable RAND1. En el panel de texto obtenemos los parámetros del mejor ajuste de nuestros datos a una normal. 1 2 Fitted normal distribution: mean = 3,05381 standard deviation = 1,94736 Pinchamos en Graphical Options y pedimos Density Trace, Frequency Histogram y Quantile Pot. Con un número tan elevado de observaciones (1000) es de esperar que el ajuste sea extraordinario. Podríamos continuar el análisis con cualquier test de bondad de ajuste, que se estudiarán posteriormente. 3. Transformación Simulamos ahora 100 valores de una variable uniforme en el intervalo (0,1), para lo que procedemos como en la Sección 2. Seleccionamos las opciones: PLOT / PROBABILITY DISTRIBUTIONS / UNIFORM. Pinchamos en el botón Tabular Options y seleccionamos la opción números aleatorios, Random Numbers. Pinchamos el botón derecho del ratón sobre el panel de texto y vamos a la opción Analysis Options, donde seleccionamos Lower Llimit 0 y Upper Limit 1. Volvemos a pinchar el botón derecho del ratón sobre el panel de texto y vamos ahora a la opción Pane Options, donde seleccionamos el tamaño de la muestra que queremos generar, debajo de Size escribimos 100. A continuación, procedemos a 2 3 guardar los datos generados. Pinchando sobre el botón Save results nos pedirán el nombre de la variable en la que queremos almacenar nuestros datos. Aceptamos el nombre que nos da por defecto RAND1 y pinchamos en el recuadro de Save (Random Numbers for Dist. 1). En lugar de hacer ningún análisis con estos datos, vamos a estudiar una transformación suya. Pinchamos una nueva columna en el Visor de datos Vamos a crear una nueva variable a partir de los datos que tenemos en RAND1. Seleccionamos: EDIT / GENERATE DATA. Transformamos cada valor x que toma la variable RAND1 en –ln(1–x) 3 4 Pinchando con el botón derecho sobre el nombre de la variable, vamos a Modify Column y le cambiamos el nombre, la llamamos, por ejemplo, NUEVO. Seleccionamos las opciones: DESCRIBE / DISTRIBUTIONS / DISTRIBUTION FITTING (UNCENSORED DATA) y en el hueco para los datos (Data) introducimos el nombre de la nueva variable NUEVO. En el panel de texto obtenemos los parámetros del mejor ajuste de nuestros datos a una normal. Pinchamos en Graphical Options Histogram y Quantile Plot. y pedimos Density Trace, Frequency Veremos que nuestros datos no se ajustan bien a una normal 4 5 Pinchamos el botón derecho del ratón sobre el panel de texto y vamos a la opción Analysis Options, donde seleccionamos la distribución exponencial, obteniendo así un ajuste de los datos de la variable NUEVO a una distribución exponencial. Los gráficos que teníamos se transforman en gráficos para ajuste a una exponencial. 5 6 Nuestros datos se ajustan a una exponencial mucho mejor que a una normal. En realidad nuestros datos siguen distribución exponencial de media 1. Hemos partido de una variable uniforme en (0,1), a la que podemos denotar como X y hemos construido la nueva variable Y = g(X) = –ln(1–X). Así, la función de distribución de la nueva variable Y será para cualquier y>0 F(y) = P(–ln(1–X) ≤ y) = P(1–X ≤ e–y)=P(X ≤ 1– e–y)=1– e–y . Observa que –ln(1–x) es la transformación inversa de 1– e–x y esta segunda es la función de distribución de una exponencial de media 1. 4. Ejercicios propuestos 1. Realiza uno a uno los siguientes apartados. a) Simula 100 observaciones de una variable uniforme (0,1). b) Aplícales la transformación g(x)=1–x. c) Pídele al ordenador la media y varianza de la nueva variable. d) De los modelos probabilísticos que te ofrece el ordenador, ¿a cuál se ajustan mejor los datos? Pide las gráficas al ordenador. e) Demuestra que, efectivamente, los datos provienen de la distribución que has contestado en el apartado anterior. f) ¿Concuerdan la media y varianza que obtuviste en el apartado c) con las del modelo teórico? 2. Realiza uno a uno los siguientes apartados. a) Simula 1000 observaciones de una variable de Poisson con λ=10. b) ¿Qué proporción de las observaciones es mayor que 10’5? c) ¿A qué distribución continua se aproxima la distribución anterior?, ¿cuáles son sus parámetros? d) Pídele al ordenador los parámetros para el mejor ajuste de tus datos según la distribución que has contestado en c). Dibuja un histograma de tus datos sobre el que aparezca la función de densidad del modelo teórico al que se aproximan. e) Para la distribución a la que se aproximan tus datos, calcula la probabilidad de que tome un valor mayor que 10’5. Da dos probabilidades, una con los parámetros que obtienes para una variable de Poisson con λ=10 y otra con los parámetros que te indica el ordenador para el mejor ajuste de tus datos. 6