Teoría del muestreo El total de un grupo de datos de llama población o universo, y una porción representativa de este grupo se llama muestra. Las muestras desempeñan un papel muy importante en los trabajos estadísticos, porque a menudo es imposible o muy costoso analizar a la población entera. La información obtenida de una muestra o un grupo de muestras es útil en la estimación de parámetros de población desconocidos, tales como la media, la varianza, etc. Esto se llama inferencia estadística o estimación. Además, a menudo deseamos comparar dos muestras de la misma población para determinar la hipótesis de si ciertas diferencias son significativas o no. Esto es parte de la teoría de decisiones. Teoría de muestras grandes o pequeñas. Se recordara que al calcular la desviación estándar y en la correlación deben hacerse ciertos ajustes a las formulas cuando la cantidad de datos es pequeña (n<30), y debe utilizarse una teoría de muestreo para muestras pequeñas. En realidad, las formulas desarrolladas para teoría de muestreo de muestras pequeñas se aplican a muestras de todos tamaños, pero suele ser más complicadas, y las formulas más sencillas para muestras grandes se utilizan siempre que esto sea posible. La parte inicial de este texto tratara sobre muestras grandes, y las muestras pequeñas se estudiaran en las partes finales Tipos de muestras Existen algunas diferentes maneras de seleccionar muestras de una población. Muestreo aleatorio: cada miembro de la población tiene la misma posibilidad de ser seleccionado Muestreo estratificado: Una población heterogénea deberá dividirse en subgrupos homogéneos y, entonces, se seleccionan muestras aleatorias de cada uno de estos grupos. Las proporciones de los subgrupos en la muestra deberán ser iguales a las proporciones de los subgrupos en la población Muestreo de juicio: Esta es una selección deliberada de una muestra por el estadístico, para obtener una muestra representativa de la población. Este método se utiliza a menudo en la construcción de un modelo para representar una población. Las técnicas de este texto no se aplicaran a muestreo de juicio. Varios otros términos se utilizan para representar variantes de estas tres divisiones, tales como el sistemático, doble, secuencial, de rea, de grupo agregado, de cuota y proporcional Métodos para obtener muestras aleatorias: En muchos problemas cada unidad tiene, o puede asignársele, un número. Las personas tiene un numero en su carnet de identidad, las casas tienen los números de sus calles, y los automóviles tienen números de serie y números de patente. Si cada número de nuestra población se escribiera en un trozo de papel y se mesclaran perfectamente entonces, seleccionando papeles de la urna, se podría obtener una muestra aleatoria de cualquier tamaño deseado. Es posible considerar muchos casos en donde esta idea teórica puede ser no practica, como por ejemplo cuando la población total es grande o Profesor Eduardo Flores innumerable. A menudo puede obtenerse una muestra seleccionando cada número que tenga como último digito un 4 (por ejemplo), o 56 (por ejemplo), en la serie de números. Es necesario determinar que la selección en esta forma no incluirá sesgos, y cuando se sospeche que esto ocurre deberá utilizarse en su lugar una tabla de nueros aleatorios o una función de ramdom. Ejemplo Se desea obtener una muestra de todos los teléfonos de una ciudad. ¿Cuál seria el defecto de seleccionar todos los números terminados en dos dígitos seleccionados, ( digamos 45)? Hint: Los números de empresas suelen terminar en 000. Muestreo con o sin reemplazo En el procedimiento de la urna descrito anteriormente, cada papel es sacado de la urna debe reemplazarse después de que el numero quedo registrado. Esto da un proceso de selección aleatoria que permite al mismo número ser seleccionado más de una vez. Cualquier procedimiento donde esto sucede se llama muestreo con reemplazo. Suponiendo que la población es grande, esto no tiene importancia, pero en una población pequeña la diferencia es importante El muestreo con reemplazo hace que se utilicen forman apropiadas a poblaciones infinitas. Distribución de medias de las muestras Se toma un número de muestras, todas de tamaño N, de cierta población y se calcula la media de cada muestra. Entonces tenemos una nueva distribución – la distribución de las medias de muestras-. Estas medias de las muestras tiene una distribución normal, aun si la población no tenia una distribución normal, suponiendo que el tamaño de la muestra, N, es grande. La media de esta distribución es µp , la media de la población y la desviación estándar es p N , la desviación estándar de la población. Esta desviación estándar se llama error estándar de la distribución de las medias de muestreo Ejemplo: una población consiste en todos los números de 0 a 99- Se selecciona de 5 en 5 por medio de una función ramdom obteniendo lo 51 77 27 46 40 que sigue 42 33 12 90 44 62 16 28 98 Calcúlese la media de estas muestras, , la media 46 58 20 41 86 y la desviación estándar de estas medias de las 93 19 64 8 70 56 muestras Solución Sumando los números de cada muestra y dividiendo por 5 las medias de las muestras son Profesor Eduardo Flores 51 42 46 93 19 77 33 62 58 64 27 12 16 20 8 46 90 28 41 70 40 44 98 86 56 suma 241 221 250 298 217 medias 48,2 44,2 50 59,6 43,4 La media de las muestras es 48, 2 44, 2 50 59, 6 43, 4 245, 4 49, 08 5 5 La varianza es 0,88 4,88 0,92 10,52 5, 68 2 2 2 2 2 2 5 0, 7744 23,8144 0,8464 110, 6704 32, 2624 5 168,368 33, 6736 5 Y la desviación estándar 33,6736 5,80289583 Ejemplo Una población tiene una medida de 50, y una desviación estándar de 30. Si se selecciona un gran número de muestras de cada una de tamaño 36. ¿Cuál es la media y la desviación estándar de las medias de las muestras? media 50 desviacion 30 30 5 36 6 Otras distribuciones de muestreo Considérese una proporción P, y una población grande, Obtenida al arrojar un dado o por otros métodos, basados sobre la proporción. Si se toman muestras de esta población la distribución de las muestras se la proporción de sucesos será P y la desviación estándar ( error estándar) será Profesor Eduardo Flores p 1 p N pq N Donde q 1 p A pesar de que la población es una distribución binomial, la distribución de muestras de la proporción es próxima a la normal. Si se timan dos grupos independientes de muestras de dos poblaciones separadas con medias 1 y 2 , y desviaciones estándar de 1 y 2 , entonces la media de la suma de las medias será 1 2 ; y la media de las diferencias será 1 2 . En cuales quiera de estos casos, la desviación estándar de la distribución de las sumas o de las diferencias de las medias será 12 N1 22 N2 , donde N1 y N 2 , son los tamaños de las muestras. Para un N grande la distribución maestral de la desviación estándar de las muestras es casi normal y su error estándar es 2N Ejemplo Se toman dos muestras de tamaño 30 y 50 de la población mencionada en el problema anterior. ¿Cuáles son: Las medias y las desviaciones estándar de las medias de los dos grupos de muestras? la media y la desviación estándar de la distribución muestral de la suma y de la diferencia de las muestras Solución media desviación estándar grupo 1 50 30 = 5,5 √30 Suma de la media de las muestras Media=50 Desviación estándar 302 302 30 18 6,9 30 50 Diferencia de las medias de las muestras Media=0; desviación estándar=6,9 Profesor Eduardo Flores grupo 2 50 30 = 4,2 √50 Ejemplo La población A consiste de los números 3 y 5 distribuidos en iguales proporciones. La población B consiste de los números 1 y 5 distribuidos en iguales proporciones. Ambas poblaciones son infinitas. Un grupo de muestras X de tamaño 50 se toma de la población A. Esta tendrá por lo general un número aproximadamente igual a números 3 y números 5, pero cualquier distribución hasta 50 es posible. Un grupo de muestras Y, de tamaño 100 se toma de la población B. Se forma un nuevo grupo de muestras combinando la media de cualesquier de las muestras X con la media de cualesquiera de las muestras Y. ¿Cuál es la media y la desviación estándar de esta distribución? Para la población A la media es 4 y la desviación es 1. Para la población B la media es 3 y la desviación es 2. La media de la distribución será 1 2 4 3 7 La desviación estándar será 12 N1 22 N2 1 2 2 1 50 100 50 5 = Corrección para poblaciones finitas si el tamaño de la muestra es N y el tamaño de la población es M, la media de la distribución de medias de las muestras es también igual a la media de la población p Pero para la desviación estándar 2 p2 M N N M 1 Ejemplo ¿Cuál es el factor de corrección que deberá aplicarse a la desviación estándar para una población finita donde la población es 100 y el tamaño de muestra es 10? 2 El factor d corrección de la varianza es M N 100 10 90 0,91 M 1 100 1 99 El factor que deberá aplicarse a la desviación estándar es 0,91 0.95 Profesor Eduardo Flores Si la población es 100. ¿ que tamaño de muestra corresponde a un factor de corrección a la desviación estándar de 0,9? Solución 100 N 2 0,9 100 1 De donde 100 N 99 0,81 N 100 80 N 20 Distribución T de Student Se estableció anteriormente que si el tamaño de la muestra es grande, las medias de las muestras siguen una distribución normal, Aun si la isma población no es normal. Aun para muestras pequeñas esto es cierto si la población tiene una distribución normal. Expresado matemáticamente z x es una curva normal estándar, donde y se refieren a la población. En la N mayoría de los casos es desconocida y debemos sustituir por est N s donde s es la N 1 desviación estándar de la muestra. La ecuación t x s N 1 normal cuando n es grande. La distruçib Profesor Eduardo Flores se llama distribución t de student, y se aproxima a la distribución