EL METODO DE LA URNA PARA GENERAR DE DATOS DE UNA POBLACION BINOMIAL REINALDO ALARCÓN GUARÍN* ____________________________________________________________________ Resumen El método aquí propuesto consiste en que mediante programación se recreó un modelo físico para generar números aleatorios, como es el de extraer bolas numeradas de una urna. El objetivo es generar 30.000 muestras por cada procedimiento: método de urna y la función rbinom de R y compararlas con tres criterios: Prueba de frecuencias, prueba de aleatoriedad y error estándar relativo. Palabras claves: Números aleatorios, método de urna, distribución binomial . Introducción La simulación se refiere al proceso que genera números aleatorios y los trata como si hubieran sido generados por un experimento científico real (Navidi, 2006). Los números aleatorios generados por computadora, no son verdaderamente aleatorios. La generación de números aleatorios de forma totalmente aleatoria, es muy sencilla con alguno de los siguientes métodos: mediante una ruleta, mediante una moneda o un dado (udl, 2005). El método de urna consiste en que mediante programación se recrea un modelo físico para generar números aleatorios, como es el de extraer bolas numeradas de una urna. El propósito es generar 30.000 muestras aleatorias por cada procedimiento: método de urna y por el método congruencial multiplicativo y compararlas con tres criterios: i) Prueba de Frecuencias: Se usa la prueba de Kolmogorov-Smirnov, para comparar la distribución de los números generados con una distribución binomial. ii) Prueba de aleatoriedad: se usa la prueba de rachas. iii) Error estándar relativo de estimación del parámetro p, de la distribución binomial. Fundamentos teóricos Variable Aleatoria Binomial. Considérese una serie de m ensayos Bernoulli1 independientes, cada uno con probabilidad de éxito p. Sea X la variable aleatoria que indica el número de éxitos en los m ensayos Bernoulli, se dice que X tiene distribución de probabilidad binomial si ( ) , x = 0, 1, . . . , m (1) donde m representa el número de ensayos independientes, y p ,la probabilidad de éxito en cada ensayo, son los parámetros de la distribución (Santos 2011). El valor esperado y la varianza de la variable aleatoria X están dados, respectivamente, por 1 Una variable aleatoria X es una variable aleatoria Bernoulli o variable aleatoria indicadora, si X = 0, 1 y existe p Є [0, 1], tal que P(X = 1) = p, P(X= 0) = 1-p. Se dice que p es la probabilidad de éxito y 1-p es la probabilidad de fracaso en el ensayo o experimento. * Grupo GIE.Escuela de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de Colombia, Seccional Duitama. E-mail: reyalag@uptc.edu.co E (X) =m p, y V(X)= mp(1-p) (2) Muestreo aleatorio simple. Es un método de selección de n unidades de un conjunto de N unidades de tal modo que cada una de las NCn muestras distintas tengan la misma oportunidad de ser elegidas. En la práctica, un muestreo se realiza unidad por unidad. Se enumeran las unidades de 1 a N. Posteriormente se extrae una series de n números aleatorios entre 1 y N, ya sea utilizando una tabla de números aleatorios o mediante un programa de computación que produce una tabla semejante. En cada extracción, el proceso debe otorgar la misma oportunidad de selección a todos y cada uno de los números que no hayan salido. Las unidades que llevan estos n números constituyen la muestra (Cochran, 1980). Para la primera extracción todos los elementos tienen probabilidad de selección igual a 1/N. Para la segunda selección el elemento extraído tiene probabilidad cero, los restantes tienen probabilidad de selección igual a 1/(N-1), así sucesivamente. Todas las muestras tienen probabilidad igual a 1/ NCn. Existen dos formas de extraer una muestra aleatoria con remplazo y sin remplazo. Procesos de simulación. La simulación se refiere al proceso que genera números aleatorios y los trata como si hubieran sido generados por un experimento científico real. A los datos generados de esta forma se les denomina simulados o sintéticos (Navidi 2006). Los métodos de simulación tienen muchos usos, incluyendo la estimación de probabilidades, estimación de medias y varianzas, comprobación de una hipótesis de normalidad, y estimación de sesgos (Ross, 2009). La simulación es una técnica experimental iterativa de resolución de problemas. La recopilación, análisis e interpretación de resultados requiere buenos conocimientos de probabilidad y estadística (Meelamkavil, 1987). Los números aleatorios generados por computadora, no son verdaderamente aleatorios. Los algoritmos internos necesarios son determinísticos en último término, pero producen secuencias de valores que aproximan propiedades estadísticas aceptablemente similares a las esperadas por la distribución. Método de urna. La generación de números aleatorios de forma totalmente aleatoria, es muy sencilla con alguno de los siguientes métodos: mediante una ruleta, mediante una moneda o un dado (udl, 2005). El que se denominará método de urna consiste en que mediante programación, en este caso R, se recrea un modelo físico para generar números aleatorios, como es el de extraer de una urna bolas numeradas. Lo que se hace es construir una población Ρ conformada por lo números {0, 1, . . . m}, la cantidad de valores en Ρ es proporcional a la probabilidad del valor bajo una distribución binomial (m, p). De dicha población se extrae una muestra aleatoria; que se tratará como una secuencia de números aleatorios. Contraste de Kolmogorov-Smirnov (K-S). El test de K-S es un test de bondad de ajuste que se utiliza para determinar si los datos de una determinada muestra se ajustan a una hipotética distribución. Dada una muestra aleatoria simple x1, . . . , xn, la función de distribución empírica de la muestra es Grupo GIE, Escuela de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de Colombia, Seccional Duitama. E-mail: reyalag@uptc.edu.co ∑ Las hipótesis son: H0 : Fn = F0 (3) H1 : Fn ≠ F0, donde F0 es la hipotética función de distribución. El estadístico de contraste para el test K-S es Dn = max {|Fn(x) − F0(x)|} cuya distribución exacta, bajo la hipótesis nula se ha tabulado o se encuentra en paquetes estadísticos. Si el máximo no existes, se usa el “supremun” o minima cota superior (Díaz, Morales, 2012). Metodología. El procedimiento usado fue generar 30 000 secuencias de números aleatorios por cada uno de tres métodos. i) Método 1. De la población P, indicada en el método de urna, se extraen muestras aleatorias simples sin reemplazo de tamaño n, para lo cual se usó la función sample del R. ii) Método 2. Corresponde al método congruencial multiplicativo del software R para generar números aleatorios (García-Ligero, Román Román), mediante la función rbinom (n,m,p). iii) Método 3. Nuevamente, de la población P se generan muestras aleatorias de tamaño n, pero en esta ocasión sin reemplazo. A cada una de las secuencias generadas se les aplica la prueba de bondad de ajuste a la distribución binomial y la prueba de aleatoriedad. En la tabla 1 se reportan los porcentajes de rechazo de las respectivas hipótesis y el sesgo relativo; que corresponde a la diferencia entre el parámetro y la estimación del parámetro dividida en el parámetro, expresada en porcentaje. Para la prueba K-S se usó el valor crítico correspondiente a un nivel de significancia de 0.01. Los parámetros de la distribución binomial cuyos resultados se reportan en este trabajo fueron m= 10 y m= 5, con p = 0.5 en ambos casos. Se repitió el proceso con otras poblaciones pero los resultados, en esencia son los mismos. Los tamaños de muestra usados fueron tres: 5, 10, 15 y 20. Resultados y discusión. En tabla 1 se observa que los porcentajes de rechazo de la hipótesis nula, según la prueba K-S, son muy similares para los tres métodos, es de notar que estos porcentajes aumentan a medida que aumenta n. Referente a los porcentajes de rechazo de la hipótesis de aleatoriedad, se nota que con el método tres se nota más rechazos, esto indica que, especialmente en muestras pequeñas, la selección con reemplazo tiende a generar más secuencias no aleatorias. Conclusiones. Tomando en cuenta el porcentaje 1 y el sesgo relativo los tres procedimientos generar secuencias aleatorias con características similares. El método de urna sin reemplazo genera un 1% más de secuencias aleatorias. Grupo GIE, Escuela de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de Colombia, Seccional Duitama. E-mail: reyalag@uptc.edu.co Tabla 1: Porcentajes de rechazos y sesgo relativo Población N 5 10 Binomial (10; 0.5) 15 20 5 10 Binomial (5; 0.5) 15 20 Criterio Porcentaje 1 Sesgo relativo Porcentaje 2 Porcentaje 1 Sesgo relativo Porcentaje 2 Porcentaje 1 Sesgo relativo Porcentaje 2 Porcentaje 1 Sesgo relativo Porcentaje 2 Porcentaje 1 Sesgo relativo Porcentaje 2 Porcentaje 1 Sesgo relativo Porcentaje 2 Porcentaje 1 Sesgo relativo Porcentaje 2 Porcentaje 1 Sesgo relativo Porcentaje 2 Método para generar números aleatorios MAS Congruencial MCR 1.13 1,11 1.35 0.04 -0.02 0.04 - - - 2.35 2.53 2.33 0.04 0.02 0.03 7.48 8.50 8.00 2.24 2.23 2.04 0.03 0.04 0.07 8.5 8.26 8.57 3.69 3.84 3.65 0.05 -0.04 0.02 8.95 8.93 9.19 0.75 0.76 0.74 -0.13 -0.04 0.01 - - - 2.40 2.35 2.39 0.10 0.04 -0.04 - - - 1.15 1.12 1.07 -0.02 -0.02 -0.02 7.85 8.23 9.53 1.34 1.33 1.42 0.00 0.003 -0.04 7.70 9.53 9.10 Bibliografía Cochran, W. G. (1980). Técnicas de muestreo. Editorial Continental, Mexico. Díaz, L. G., Morales, M.A. (2012). Análisis estadístico de datos multivariados. Facultad de Ciencias Universidad Nacional de Colombia. Meelamkavil, F. (1987). Simulación Modelado y Análisis. McGraw-Hill. García-Ligero M.J., Román Román P. SIMULACIÓN CON R. Recuperado http://cms.dm.uba.ar/academico/materias/.../Simulacion_R-garcia-roman.pdf de Navidi, W. (2006). Estadística para ingenieros y científicos. McGraw-Hill Paradis, E., (2003). R para Principiantes. Institut des Sciences de l’E´volution Universit Montpellier II Francia Ross, S., (2009). A First Course in Probablity. Prentice Hall Santos, D. A. (2011). Probability and Introduction. Jones and Bartlett Publishers Simulación. (s. f.). Recuperado dettp://web.udl.es/usuaris/MatFDiE/OptiSim/MonteCarlo.pdf Grupo GIE, Escuela de Matemáticas y Estadística, Universidad Pedagógica y Tecnológica de Colombia, Seccional Duitama. E-mail: reyalag@uptc.edu.co