Determinación del tamaño de la muestra

Anuncio
Simulación de Eventos Discretos
Instituto Tecnológico de Tepic
Selección del tamaño de la muestra
La elección del tamaño de la muestra depende del grado de precisión que se espere del resultado. Este grado
de precisión esta representado por el intervalo de confianza, esto es, la característica de un intervalo de
confianza deseado puede conducir a la determinación del propio tamaño. Paradójicamente, para encontrar los
parámetros de la población necesarios para el tamaño de la muestra, el modelo debe ser primero simulado. En
otras palabras, para encontrar el tamaño de la muestra (que afecta la longitud de la simulación) dados el
deseado intervalo y nivel de confianza, primero se debe simular el modelo para una longitud de corrida
arbitraria para estimar la desviación estándar de la variable aleatoria. El valor de la desviación estándar es
requerido en la relación del intervalo de confianza. El valor del tamaño de la muestra es entonces calculado
usando estas estimaciones iniciales de la desviación estándar y la amplitud deseada del intervalo de confianza.
Tamaño de la muestra basado en la media de la población
Dado un intervalo de confianza para la media de una cierta variable en el sistema que esta siendo simulada, un
analista pudiera desear encontrar el tamaño apropiado del tamaño de la muestra para realizar un experimento
de simulación que produce las características de los intervalos de confianza. Si se denota a d como la mitad
del ancho del tamaño del intervalo de confianza (ejemplo; la mitad del ancho de la diferencia entre los limites
inferior y superior), entonces de acuerdo a la definición de los intervalos de confianza tenemos
P
x-d
   x + d = 1 - 
La anterior ecuación asume que el intervalo de confianza es simétrico alrededor de la media. Comparando
esta ecuación con la ecuación de los intervalos de confianza para la media, la siguiente relación es obtenida:
d=Z
S
 /2
n
Ahora podemos derivar el tamaño de la muestra de la ecuación anterior
n=
S
Z
d
 /2
2
2
Note que la desviación estándar de la población debe de ser conocida para determinar el tamaño de la
muestra: En raros ocasiones y para ciertas variables en el modelo la información sobre la desviación estándar
puede ser obtenida usando datos históricos. En la mayoría de las ocasiones, sin embargo, no hay datos
históricos aplicables disponibles. Como se menciono previamente, la alternativa es correr el modelo para una
muestra de tamaño arbitrario elegida. El producto de esta simulación piloto puede proveer un estimado (tal
ves uno burdo) de el valor de la desviación estándar para la variable en cuestión. Este estimado puede
entonces ser usado en la ecuación anterior para él calculo del tamaño de la muestra
Debe ser notado que el tamaño de la muestra puede ser estimado independientemente de la desviación
estándar de la población si el tamaño del intervalo de confianza es expresado en términos del número de la
desviación estándar de la población de la variable aleatoria. Por ejemplo, si se desea que d sea 2/10 de la
desviación estándar de la población, entonces substituyendo el valor de d en la ecuación del tamaño de la
muestra produce lo siguiente;
n=
 S Z  /2 2
 2S /10 2
n = 25Z
2
 /2
Note que los cálculos del tamaño de la muestra anterior requieren únicamente el valor de la variable estándar
normal para un dado nivel de confianza. Sin embargo, debido a que d esta expresado en términos de una
desviación estándar desconocida, el tamaño actual del intervalo de confianza no es conocido en este caso.
Ejemplo #4: Basado en el problema #1, suponga que una estación de gasolina esta localizada en la autopista
que conecta dos ciudades A y B. El administrador de la estación ordena de gasolina desde las dos ciudades.
El intervalo de tiempo entre las ordenes a la ciudad A se distribuye uniformemente entre 5 y 9 horas. El
M.C. Héctor Martínez Rubin Celis
1/1
Simulación de Eventos Discretos
Instituto Tecnológico de Tepic
intervalo entre ordenes a la ciudad B esta uniformemente distribuido entre 10 y 14 horas. El tiempo del viaje
de los camiones de gasolina desde la ciudad A se distribuye normalmente con media de 7 horas y una
desviación estándar de .5 de hora. El tiempo del viaje de los camiones de gasolina desde la cuidad B se
distribuye normalmente con media de 12 horas y una desviación estándar de 2 horas.
Asuma que inmediatamente después de que se realiza la orden de gasolina, un camión es enviado a la estación
de gasolina. Se desea estimar el tiempo promedio entre arribos de los camiones a la estación de gasolina tal
que la probabilidad sea 0.95 de que nuestras estimaciones este dentro de .1 hora de la media de la población.
Para obtener una estimación para la desviación estándar de la población usada en la formula del tamaño de la
muestra, se tomará el resultado de una simulación realizada como una prueba piloto con una muestra de 100,
como se especificó es este ejemplo.
De acuerdo al resultado de la simulación piloto, se obtuvo un a desviación estándar del tiempo del sistema de
2.39 horas.
n=
 (2.39)
2
(1.96)
(0.1 )
2
= 2194
Tamaño de la muestra basado en la proporción
Dado un intervalo de confianza deseado para la proporción de una cierta ocurrencia en el sistema que esta
siendo simulado, un analista puede desear encontrar un tamaño de muestra apropiado para realizar un
experimento de simulación que produzca las características de ese intervalo de confianza. Considerando que
el intervalo de confianza es simétrico alrededor de la proporción de la población, y denotando un medio del
tamaño del intervalo de confianza por d, entonces de acuerdo a la definición de los intervalos de confianza
tenemos;
P

p - d  p  p + d = 1 - 
d=Z
p( 1- p )
 /2
n
Resolviendo la ecuación anterior para n produce la siguiente formula para el tamaño de muestra;
n= Z
2
 /2
p( 1- p )
d
2
Note que en la anterior ecuación debe ser conocida p promedio para calcular el tamaño de la muestra. Una
corrida de simulación piloto de una longitud arbitraria puede proveer de nueva cuenta una estimación para
este parámetro. Un enfoque más confiable, sin embargo, es tomar ventaja del hecho de que valor máximo
posible de este termino en el tamaño de:
p( 1- p )
es 0.25, cuando p promedio es igual a 0.5. Sustituyendo el máximo valor de este termino en el tamaño de la
muestra provee la siguiente ecuación, la cual generalmente produce un tamaño de muestra que es mayor de lo
necesario;
2
n = Z  2/2
4d
La ventaja principal de la ecuación anterior es que es independiente de los parámetros de la población; por lo
que libera al usuario de realizar la corrida de simulación piloto.
M.C. Héctor Martínez Rubin Celis
2/2
Simulación de Eventos Discretos
Instituto Tecnológico de Tepic
Ejemplo #5: Basado en el ejemplo #1 para una red de actividades la cual representa las actividades
requeridas para hacer una unidad de un producto, considere que se desea determinar la proporción de
productos que son producidos en 15 días o menos tal que la probabilidad es 0.95 que la estimación este dentro
de 0.03 de la actual proporción de las unidades del producto.
2
n = Z  2/2
4d
n=
( 1.96 )
2
4( 0.03 )
2
= 1067
Este calculo indica que al menos 1067 entidades deben ser especificadas para reunir las especificaciones para
los intervalos de confianza sobre la proporción de las unidades de los productos.
Tamaño de la muestra basado en la diferencia de las Medias
Dados los intervalos de confianza deseados y un nivel de significancia para las diferencias entre las dos
medias de cierta variable, donde cada media esta asociada con una diferente condición del modelo, se desea
encontrar el tamaño de muestra apropiado para realizar un experimento de simulación que produzca las
características deseadas de los intervalos de confianza. Considere que los intervalos de confianza son
simétricos alrededor de las diferencias en las medias de la población, y denote un medio del intervalo de
confianza por d, tenemos;


P ( x - y ) - d   x -  y  ( x + y )+ d = 1 - 
Comparando la anterior relación con la de la de los intervalos de confianza para la diferencia entre medias, se
obtiene la ecuación siguiente;
2
n= Z
 /2
2
S x S y
+
nx
ny
Usando el mismo tamaño en ambas muestras, se obtiene la siguiente ecuación para la simulación del tamaño
de muestra;
n=
Z
2
 /2
( S
d
2
x
+S
2
y
)
2
Por lo anterior, la simulación para uno de los dos escenarios de modelación debería generar estimaciones de
las medias basados en el anterior tamaño de muestra que resulta de las características deseadas del intervalo
de confianza.
Como se discutió en el caso del intervalo de confianza para diferencias entre medias, usar la misma corriente
de números aleatorios y el mismo tamaño de muestra para las corridas de la simulación piloto de los dos
escenarios (se intenta proveer estimaciones para las desviaciones estándar) es preferible en el anterior
proceso.
Ejemplo #6: Basado en el ejemplo #3, suponga que se desea determinar el tamaño de la muestra para los dos
escenarios de simulación para el problema que a continuación se describe.
Asúmase que el tamaño de la muestra será tan grande que permita un intervalo de confianza de un 95% con
una amplitud de 0.5 de año (d=0.25) para la diferencia entre las dos medias de la vida del instrumento. Dados
los valores de la desviación estándar para una corrida piloto, la cual se baso en 100 observaciones para cada
uno de los dos escenarios, así;
M.C. Héctor Martínez Rubin Celis
3/3
Simulación de Eventos Discretos
Instituto Tecnológico de Tepic
La desviación estándar de la primer media es igual a 3.74 y La desviación estándar de la segunda media es
igual a 4.18 y fueron obtenidas en una simulación piloto.
2
n=
2
2
(1.96 ) [( 3.74 ) + (4.18 ) ]
(0.25 )
2
= 503
Esto significa que cada escenario debe ser al menos simulado 503 repeticiones para proveer la amplitud
deseada para el intervalo de confianza sobre la diferencia entre la vida de las medias.
Técnicas de reducción de varianza
Generalmente, conforme el tamaño de la muestra estadística crece, la varianza de la muestra decrece. Como
se mostró en las formulas del intervalo de confianza, la precisión de la estimación depende de la varianza de
la muestra ( el cuadrado de la desviación estándar). No es muy deseable tomar tamaños de muestra grandes en
la simulación de sistemas de gran escala, sin embargo, debido a que puede tomar muchas horas para su
ejecución en el estudio de varios escenarios del modelo. Las técnicas de reducción de varianza son
recomendadas para reducir el tamaño requerido de muestra y aún lograr una varianza relativamente pequeña.
Estas técnicas fueron especialmente populares cuando las computadoras eran lentas y caras.
Para un dado tamaño de muestra, el uso de los resultados de las técnicas de reducción de varianza es lograr
una mejor precisión en la estimación. Dicho de otra manera, dada una requerida precisión en la estimación,
los analistas requieren un tamaño de muestra menor si ellos usan una técnica de reducción de varianza en sus
estudios de simulación. Métodos como muestreo estratificado, muestreo correlacionado, variantes anti-éticas,
y la ruleta Rusa han sido desarrollados para la reducción de varianza.
Debe de ser mencionado que las técnicas de reducción de varianza, cuando se usan de forma incorrecta,
pueden generar resultados con efectos adversos (ejemplo: pudieran incrementar la varianza). Estas técnicas no
tienen mucha utilidad para modelos pequeños y sencillos para los cuales el tamaño de muestra grande
generalmente no toma mucho tiempo para ser ejecutados, y para modelos de gran escala es difícil usarlos
apropiadamente. Debido a estos inconvenientes, y debido al incremento en la velocidad y disponibilidad de
las computadoras, en la actualidad las técnicas de reducción de varianza no son muy usadas. ( Para lecturas
futuras sobre este tema de la reducción de varianza en la simulación ver Law and Kelton, 1991; Moy, 1971,
Pristker, 1986; Wilson, 1984.)
M.C. Héctor Martínez Rubin Celis
4/4
Documentos relacionados
Descargar