MUESTRAS Y POBLACIONES Un investigador social al tratar de sacar conclusiones acerca de grandes grupos de individuos, se supone investiga el grupo en su totalidad, este grupo conocido como población o universo, que consiste en un grupo de individuos que comparten por lo menos una característica. Debido a que el investigador cuenta con limitaciones como tiempo, energía y recursos económicos, analiza sólo una muestra, que es un número pequeño de individuos tomado de alguna población. A través del proceso de muestreo el investigador social busca generalizar de su muestra a la totalidad de la población de donde la obtuvo. La preocupación del investigador es asegurarse de que los miembros de su muestra sean lo suficientemente representativos de la población entera como para permitir hacer generalizaciones precisas acerca de ella. Por eso es necesario escoger un método de muestreo apropiado para ver a todos y cada uno de los miembros de la muestra tienen igual oportunidad de ser integrados en ella, si es así, se esta utilizando un método aleatorio, de no ser así, el método empleado sería no aleatorio. El método de muestreo no aleatorio más usual es el muestreo por accidente que es el que menos difiere con los procedimientos diarios de muestreo, ya que se basa exclusivamente en lo que es conveniente para el investigador, éste método incluye los casos más convenientes en su muestra y excluye de ella los casos inconvenientes. Otro tipo no aleatorio es el muestreo por cuota, que toma las características de una población para ser muestreadas de acuerdo con el porcentaje que ocupan dentro de la población. Una tercer tipo de muestra no aleatoria se conoce como muestreo intencional o de juicio, la idea de este método es que la lógica, el sentido común o el sano juicio, pueden usarse para seleccionar una muestra que sea representativa de una población. Ahora se explicará el muestreo aleatorio, cuya característica es que cada miembro de la población debe ser identificado antes de obtener dicha muestra aleatoria, requisito que generalmente se llena obteniendo una lista que incluya a todos y cada uno de los miembros de la población. El tipo básico de muestra aleatoria, es el muestreo aleatorio simple, que se hace haciendo uso de una tabla de números aleatorios tal como la tabla H, que se construye en forma tal que genere series de números aleatorios para que se produzca una muestra imparcial. Para obtener una muestra aleatoria se obtiene primero la lista de la población y se asigna un número de identificación único a todos y cada uno de sus miembros, y después se hace uso de la tabla para escoger a un miembro. Todos los métodos de muestro aleatorio son en realidad variaciones del procedimiento de muestreo simple. Por ejemplo el muestreo sistemático se hace con una muestra con una lista de miembros de la población por intervalos fijos. La ventaja de este método es que no se requiere de una tabla de números aleatorios, es por eso que es menos demorado que el procedimiento aleatorio simple. Otro tipo de muestro aleatorio es el muestreo estratificado que involucra la división de la población en subgrupos o estratos más homogéneos de los que se toman entonces muestras aleatorias simples. Después habiendo identificado los estratos, se procede a tomar una muestra aleatoria simple de cada subgrupo hasta que hayamos muestreado la población entera; cada subgrupo se trata como una población entera y se aplica el muestreo aleatorio simple. Específicamente se le da a cada miembro de un subgrupo un número de identificación, se pone en lista y se saca una muestra por medio de una tabla de números aleatorios, al final los miembros de cada subgrupo se 1 combinan para lograr tener una muestra de toda la población. La estratificación se basa en la idea de que un grupo homogéneo requiere una muestra más pequeña que un gripo heterogéneo. Las muestras aleatorias estratificadas tienen una gran semejanza con el método no aleatorio por cuotas ya que ambos requieren usualmente que se incluyan características de la muestra en las proporciones exactas en que contribuyen a la población. A pesar de sus semejanzas superficiales son esencialmente diferentes, ya que mientras los miembros de la muestras por cuotas se toman por cualquier método que escoja el investigador, los miembros de las muestras estratificadas se seleccionan siempre sobre una base aleatoria (tabla de números aleatorios) El último tipo de muestro aleatorio, especialmente popular se conoce como el método de cúmulos, que se utiliza para reducir costos. En este método se realizan por lo menos dos niveles de muestreo: • La unidad primario de muestreo o cúmulo, que es aquella área bien delineada en la que se considera que están incluidos características que se encuentran en toda la población. • Los miembros de la muestra dentro de cada cúmulo De esta manera, los entrevistadores no necesitan cubrir todos y cada una de las poblaciones, sino sólo un número mucho menos de tales áreas que han sido seleccionadas aleatoriamente para ser incluidas. Para distinguir entre las características de las muestras y las poblaciones las cuales esperamos generalizar, no podemos seguir usando los mismos símbolos para representar la media y la desviación estándar tanto de la muestra como de la población. Debemos emplear diferentes símbolos, dependiendo de si nos estamos refiriendo a características de la muestra o de la población. Así simbolizaremos ala media de una muestra como X y a la media de una población como . A la desviación estándar de una muestra como s y a la desviación estándar de su población como . Haya alguna diferencia entre una muestra aleatoria o de otro tipo y la población de la que se ha extraído. X casi nunca será exactamente igual a y s rara vez será exactamente igual a . Esta diferencia, conocida como error de muestro, resulta sin importar qué también se haya diseñado y realizado el plan de muestreo. Las distribuciones de frecuencia de los puntajes crudos pueden obtenerse tanto de muestras como de poblaciones. De modo semejante podemos construir una distribución muestral de medias, que es una distribución de frecuencia de gran número de medias de muestras aleatorias que se han extraído de la misma población. El modelo teórico conocido como distribución muestral de medias tiene ciertas propiedades que le otorgan un importante papel en el proceso de muestreo. Sus características son: • La distribución muestral de medias se aproxima a una curva normal. • La media de una distribución muestral de medias (la media de las medias) es igual a la verdadera media de la población. • La desviación estándar de una distribución muestral de medias es menor que la desviación estándar de la población. Ahora nos encontramos trabajando con una distribución de medias maestrales que se han extraído de la población total de puntajes y deseamos hacer afirmaciones de probabilidad acerca de esas medias maestrales. Esta distribución toma la forma de la curva normal, podemos decir que la probabilidad disminuye a medida que nos alejamos de la media de media (la verdadera media de la población). Dado que la distribución muestral toma la forma de la curva normal, podemos usar también los puntajes z y la 2 tabla B para obtener la probabilidad de cualquier media muestral y no sólo aquellas que son múltiplos exactos de la desviación estándar. El investigador social rara vez recoge datos sobre más de una o dos muestras de las que aún espera generalizar a una población completa. Extraer una distribución muestral de medias requiere el mismo esfuerzo que tomaría estudiar a todos y cada uno de los miembros de la población. Como resultado, el investigador no tiene un conocimiento real sobre la media de medias o la desviación estándar de la distribución muestral. Sin embargo, sí tiene un buen método para estimar la desviación estándar de la distribución muestral de medias sobre la base de los datos recogidos en una sola muestra., esta estimación se le llama estimación muestral de la media y se simboliza por . Por formula: Con la ayuda del error estándar de la media, podemos encontrar el rango de valores de la media dentro de la cual es probable que fluctúe la verdadera media poblacional. Podemos también estimar la probabilidad de que nuestra media poblacional, a esto se le llama intervalo de confianza. Se ha convertido en una cuestión convencional utilizar intervalos de confianza amplios, menos precisos, que tengan mejores probabilidades de hacer una estimación exacta de la media poblacional. Tal modelo se encuentra en el intervalo de confianza del 95%, por modelo del cual se estima la media poblacional sabiendo que hay 95 oportunidades entre 100 de estar en lo cierto. Debe tenerse en mente el hecho de que la media muestral del investigador podría ser una de esas cinco medias maestrales que caen fuera del intervalo establecido. El procedimiento para obtener el intervalo de confianza del 95% es el siguiente: • Encontrar la media de la muestra. • Obtener la desviación estándar de la muestra. • Obtener el error estándar de la media. • Multiplicar el error estándar de la media por 1.96 • Sumar y restar este producto de la media muestral para encontrar el rango de puntajes promedio dentro de los cuales cae la media poblacional. Un intervalo de confianza aún más riguroso es el intervalo de confianza del 99%, que abarca más del área total bajo la curva normal y, por lo tanto, a un mayor número de medias maestrales. Esta banda más amplia de puntajes promedios nos da mayor confianza en que hemos estimado la verdadera media poblacional con exactitud. El procedimiento que se sigue para encontrar el intervalo de confianza del 99% es el siguiente: • Encontrar la media de la muestra • Obtener la desviación estándar de la muestra • Obtener el error estándar de la media • Multiplicar el error estándar de la media por 2.58 • Sumar y restar este producto de la media muestral para encontrar el rango de puntajes promedio dentro del cual cae la media poblacional. El investigador social a menudo busca presentar una estimación de una proporción poblacional estrictamente con base en la proporción que obtiene en una muestra aleatoria, así estimamos las proporciones por medio del procedimiento que acabamos de usar para estimar las medias. Tal como encontramos antes, el error estándar de la media, podemos buscar ahora el error de la proporción. La formula es: El procedimiento para estimar una proporción por medio del intervalo de confianza es el siguiente: 3 • Obtener el error estándar de la proporción. • Multiplicar el error estándar de la proporción por 1.96 el intervalo de confianza del 95%= P+ (1.96) • Sumar y restar este producto de la proporción muestral para encontrar el rango de proporciones dentro de la que cae la proporción poblacional. ESCUELA PREPARATORIA DEL ESTADO COMITAN RESUMEN ESTADISTICA 6to SEMESTRE 13 / JUNIO / 2002 4