Simulación de Eventos Discretos Instituto Tecnológico de Tepic Selección del tamaño de la muestra La elección del tamaño de la muestra depende del grado de precisión que se espere del resultado. Este grado de precisión esta representado por el intervalo de confianza, esto es, la característica de un intervalo de confianza deseado puede conducir a la determinación del propio tamaño. Paradójicamente, para encontrar los parámetros de la población necesarios para el tamaño de la muestra, el modelo debe ser primero simulado. En otras palabras, para encontrar el tamaño de la muestra (que afecta la longitud de la simulación) dados el deseado intervalo y nivel de confianza, primero se debe simular el modelo para una longitud de corrida arbitraria para estimar la desviación estándar de la variable aleatoria. El valor de la desviación estándar es requerido en la relación del intervalo de confianza. El valor del tamaño de la muestra es entonces calculado usando estas estimaciones iniciales de la desviación estándar y la amplitud deseada del intervalo de confianza. Tamaño de la muestra basado en la media de la población Dado un intervalo de confianza para la media de una cierta variable en el sistema que esta siendo simulada, un analista pudiera desear encontrar el tamaño apropiado del tamaño de la muestra para realizar un experimento de simulación que produce las características de los intervalos de confianza. Si se denota a d como la mitad del ancho del tamaño del intervalo de confianza (ejemplo; la mitad del ancho de la diferencia entre los limites inferior y superior), entonces de acuerdo a la definición de los intervalos de confianza tenemos P x-d x + d = 1 - La anterior ecuación asume que el intervalo de confianza es simétrico alrededor de la media. Comparando esta ecuación con la ecuación de los intervalos de confianza para la media, la siguiente relación es obtenida: d=Z S /2 n Ahora podemos derivar el tamaño de la muestra de la ecuación anterior n= S Z d /2 2 2 Note que la desviación estándar de la población debe de ser conocida para determinar el tamaño de la muestra: En raros ocasiones y para ciertas variables en el modelo la información sobre la desviación estándar puede ser obtenida usando datos históricos. En la mayoría de las ocasiones, sin embargo, no hay datos históricos aplicables disponibles. Como se menciono previamente, la alternativa es correr el modelo para una muestra de tamaño arbitrario elegida. El producto de esta simulación piloto puede proveer un estimado (tal ves uno burdo) de el valor de la desviación estándar para la variable en cuestión. Este estimado puede entonces ser usado en la ecuación anterior para él calculo del tamaño de la muestra Debe ser notado que el tamaño de la muestra puede ser estimado independientemente de la desviación estándar de la población si el tamaño del intervalo de confianza es expresado en términos del número de la desviación estándar de la población de la variable aleatoria. Por ejemplo, si se desea que d sea 2/10 de la desviación estándar de la población, entonces substituyendo el valor de d en la ecuación del tamaño de la muestra produce lo siguiente; n= S Z /2 2 2S /10 2 n = 25Z 2 /2 Note que los cálculos del tamaño de la muestra anterior requieren únicamente el valor de la variable estándar normal para un dado nivel de confianza. Sin embargo, debido a que d esta expresado en términos de una desviación estándar desconocida, el tamaño actual del intervalo de confianza no es conocido en este caso. Ejemplo #4: Basado en el problema #1, suponga que una estación de gasolina esta localizada en la autopista que conecta dos ciudades A y B. El administrador de la estación ordena de gasolina desde las dos ciudades. El intervalo de tiempo entre las ordenes a la ciudad A se distribuye uniformemente entre 5 y 9 horas. El M.C. Héctor Martínez Rubin Celis 1/1 Simulación de Eventos Discretos Instituto Tecnológico de Tepic intervalo entre ordenes a la ciudad B esta uniformemente distribuido entre 10 y 14 horas. El tiempo del viaje de los camiones de gasolina desde la ciudad A se distribuye normalmente con media de 7 horas y una desviación estándar de .5 de hora. El tiempo del viaje de los camiones de gasolina desde la cuidad B se distribuye normalmente con media de 12 horas y una desviación estándar de 2 horas. Asuma que inmediatamente después de que se realiza la orden de gasolina, un camión es enviado a la estación de gasolina. Se desea estimar el tiempo promedio entre arribos de los camiones a la estación de gasolina tal que la probabilidad sea 0.95 de que nuestras estimaciones este dentro de .1 hora de la media de la población. Para obtener una estimación para la desviación estándar de la población usada en la formula del tamaño de la muestra, se tomará el resultado de una simulación realizada como una prueba piloto con una muestra de 100, como se especificó es este ejemplo. De acuerdo al resultado de la simulación piloto, se obtuvo un a desviación estándar del tiempo del sistema de 2.39 horas. n= (2.39) 2 (1.96) (0.1 ) 2 = 2194 Tamaño de la muestra basado en la proporción Dado un intervalo de confianza deseado para la proporción de una cierta ocurrencia en el sistema que esta siendo simulado, un analista puede desear encontrar un tamaño de muestra apropiado para realizar un experimento de simulación que produzca las características de ese intervalo de confianza. Considerando que el intervalo de confianza es simétrico alrededor de la proporción de la población, y denotando un medio del tamaño del intervalo de confianza por d, entonces de acuerdo a la definición de los intervalos de confianza tenemos; P p - d p p + d = 1 - d=Z p( 1- p ) /2 n Resolviendo la ecuación anterior para n produce la siguiente formula para el tamaño de muestra; n= Z 2 /2 p( 1- p ) d 2 Note que en la anterior ecuación debe ser conocida p promedio para calcular el tamaño de la muestra. Una corrida de simulación piloto de una longitud arbitraria puede proveer de nueva cuenta una estimación para este parámetro. Un enfoque más confiable, sin embargo, es tomar ventaja del hecho de que valor máximo posible de este termino en el tamaño de: p( 1- p ) es 0.25, cuando p promedio es igual a 0.5. Sustituyendo el máximo valor de este termino en el tamaño de la muestra provee la siguiente ecuación, la cual generalmente produce un tamaño de muestra que es mayor de lo necesario; 2 n = Z 2/2 4d La ventaja principal de la ecuación anterior es que es independiente de los parámetros de la población; por lo que libera al usuario de realizar la corrida de simulación piloto. M.C. Héctor Martínez Rubin Celis 2/2 Simulación de Eventos Discretos Instituto Tecnológico de Tepic Ejemplo #5: Basado en el ejemplo #1 para una red de actividades la cual representa las actividades requeridas para hacer una unidad de un producto, considere que se desea determinar la proporción de productos que son producidos en 15 días o menos tal que la probabilidad es 0.95 que la estimación este dentro de 0.03 de la actual proporción de las unidades del producto. 2 n = Z 2/2 4d n= ( 1.96 ) 2 4( 0.03 ) 2 = 1067 Este calculo indica que al menos 1067 entidades deben ser especificadas para reunir las especificaciones para los intervalos de confianza sobre la proporción de las unidades de los productos. Tamaño de la muestra basado en la diferencia de las Medias Dados los intervalos de confianza deseados y un nivel de significancia para las diferencias entre las dos medias de cierta variable, donde cada media esta asociada con una diferente condición del modelo, se desea encontrar el tamaño de muestra apropiado para realizar un experimento de simulación que produzca las características deseadas de los intervalos de confianza. Considere que los intervalos de confianza son simétricos alrededor de las diferencias en las medias de la población, y denote un medio del intervalo de confianza por d, tenemos; P ( x - y ) - d x - y ( x + y )+ d = 1 - Comparando la anterior relación con la de la de los intervalos de confianza para la diferencia entre medias, se obtiene la ecuación siguiente; 2 n= Z /2 2 S x S y + nx ny Usando el mismo tamaño en ambas muestras, se obtiene la siguiente ecuación para la simulación del tamaño de muestra; n= Z 2 /2 ( S d 2 x +S 2 y ) 2 Por lo anterior, la simulación para uno de los dos escenarios de modelación debería generar estimaciones de las medias basados en el anterior tamaño de muestra que resulta de las características deseadas del intervalo de confianza. Como se discutió en el caso del intervalo de confianza para diferencias entre medias, usar la misma corriente de números aleatorios y el mismo tamaño de muestra para las corridas de la simulación piloto de los dos escenarios (se intenta proveer estimaciones para las desviaciones estándar) es preferible en el anterior proceso. Ejemplo #6: Basado en el ejemplo #3, suponga que se desea determinar el tamaño de la muestra para los dos escenarios de simulación para el problema que a continuación se describe. Asúmase que el tamaño de la muestra será tan grande que permita un intervalo de confianza de un 95% con una amplitud de 0.5 de año (d=0.25) para la diferencia entre las dos medias de la vida del instrumento. Dados los valores de la desviación estándar para una corrida piloto, la cual se baso en 100 observaciones para cada uno de los dos escenarios, así; M.C. Héctor Martínez Rubin Celis 3/3 Simulación de Eventos Discretos Instituto Tecnológico de Tepic La desviación estándar de la primer media es igual a 3.74 y La desviación estándar de la segunda media es igual a 4.18 y fueron obtenidas en una simulación piloto. 2 n= 2 2 (1.96 ) [( 3.74 ) + (4.18 ) ] (0.25 ) 2 = 503 Esto significa que cada escenario debe ser al menos simulado 503 repeticiones para proveer la amplitud deseada para el intervalo de confianza sobre la diferencia entre la vida de las medias. Técnicas de reducción de varianza Generalmente, conforme el tamaño de la muestra estadística crece, la varianza de la muestra decrece. Como se mostró en las formulas del intervalo de confianza, la precisión de la estimación depende de la varianza de la muestra ( el cuadrado de la desviación estándar). No es muy deseable tomar tamaños de muestra grandes en la simulación de sistemas de gran escala, sin embargo, debido a que puede tomar muchas horas para su ejecución en el estudio de varios escenarios del modelo. Las técnicas de reducción de varianza son recomendadas para reducir el tamaño requerido de muestra y aún lograr una varianza relativamente pequeña. Estas técnicas fueron especialmente populares cuando las computadoras eran lentas y caras. Para un dado tamaño de muestra, el uso de los resultados de las técnicas de reducción de varianza es lograr una mejor precisión en la estimación. Dicho de otra manera, dada una requerida precisión en la estimación, los analistas requieren un tamaño de muestra menor si ellos usan una técnica de reducción de varianza en sus estudios de simulación. Métodos como muestreo estratificado, muestreo correlacionado, variantes anti-éticas, y la ruleta Rusa han sido desarrollados para la reducción de varianza. Debe de ser mencionado que las técnicas de reducción de varianza, cuando se usan de forma incorrecta, pueden generar resultados con efectos adversos (ejemplo: pudieran incrementar la varianza). Estas técnicas no tienen mucha utilidad para modelos pequeños y sencillos para los cuales el tamaño de muestra grande generalmente no toma mucho tiempo para ser ejecutados, y para modelos de gran escala es difícil usarlos apropiadamente. Debido a estos inconvenientes, y debido al incremento en la velocidad y disponibilidad de las computadoras, en la actualidad las técnicas de reducción de varianza no son muy usadas. ( Para lecturas futuras sobre este tema de la reducción de varianza en la simulación ver Law and Kelton, 1991; Moy, 1971, Pristker, 1986; Wilson, 1984.) M.C. Héctor Martínez Rubin Celis 4/4