TEORÍA DE MUESTREO

Anuncio
TEORÍA DE MUESTREO
(HAMLET Mata Mata prof. Del Tecnologico de El Tigre)
www.mipagina.cantv.net/hamletmatamata
POBLACIÓN Y MUESTRA
Una población está determinada por sus características definitorias. Por lo tanto, el conjunto de
elementos que posea esta característica se denomina población o universo. Población es la totalidad del
fenómeno a estudiar, donde las unidades de población poseen una característica común, la que se
estudia y da origen a los datos de la investigación.
Entonces, una población es el conjunto de todas las cosas que concuerdan con una serie determinada de
especificaciones. Un censo, por ejemplo, es el recuento de todos los elementos de una población.
Cuando seleccionamos algunos elementos con la intención de averiguar algo sobre una población
determinada, nos referimos a este grupo de elementos como muestra. Por supuesto, esperamos que lo
que averiguamos en la muestra sea cierto para la población en su conjunto. La exactitud de la
información recolectada depende en gran manera de la forma en que fue seleccionada la muestra.
Cuando no es posible medir cada uno de los individuos de una población, se toma una muestra
representativa de la misma.
La muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las
características que definen la población de la que fue extraída, lo cual nos indica que es representativa.
Por lo tanto, la validez de la generalización depende de la validez y tamaño de la muestra.
Leyes del método de muestreo.
El método de muestreo se basa en ciertas leyes que le otorgan su fundamento científico, las cuales son:

Ley de los grandes números: si en una prueba, la probabilidad de un acontecimiento o suceso es
P, y si éste se repite una gran cantidad de veces, la relación entre las veces que se produce el
suceso y la cantidad total de pruebas (es decir, la frecuencia F del suceso) tiende a acercarse
cada vez más a la probabilidad P.

Cálculo de probabilidades: La probabilidad de un hecho o suceso es la relación entre el número
de casos favorables (p) a este hecho con la cantidad de casos posibles, suponiendo que todos los
casos son igualmente posibles. El método de establecer la probabilidad es lo que se denomina
cálculo de probabilidad.
De estas dos leyes fundamentales de la estadística, se infieren aquellas que sirven de base más
directamente al método de muestreo:

Ley de la regularidad estadística: un conjunto de n unidades tomadas al azar de un conjunto N,
es casi seguro que tenga las características del grupo más grande.

Ley de la inercia de los grandes números: esta ley es contraria a la anterior. Se refiere al hecho
de que en la mayoría de los fenómenos, cuando una parte varía en una dirección, es probable
que una parte igual del mismo grupo, varíe en dirección opuesta.

Ley de la permanencia de los números pequeños: si una muestra suficientemente grande es
representativa de la población, una segunda muestra de igual magnitud deberá ser semejante a la
primera; y, si en la primera muestra se encuentran pocos individuos con características raras, es
de esperar encontrar igual proporción en la segunda muestra.
Inferencia Estadística
La Inferencia Estadística es la parte de la estadística matemática que se encarga del estudio de los
métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan
la función de distribución) que sigue una variable aleatoria de una determinada población, a través de
una muestra (parte de la población) obtenida de la misma.
La inferencia estadística es el proceso a través del cual se extraen conclusiones relativas a una
población a partir de una muestra . La expresión inferencia se utiliza también para designar su
resultado y la rama de la estadística que se ocupa de ella.
Los estadísticos son funciones de los valores observados en la muestra. (ya se han visto algunos, como
la media, la desviación típica, percentiles)
Por ser funciones de una variable aleatoria, los estadísticos son también variables aleatorias y por lo
tanto a cada uno de ellos se le puede asociar una distribución de probabilidad llamada distribución
en el muestreo del estadístico dado. Es posible pasar de la Teoría de la Probabilidad a la
Inferencia Estadística.
En la mayor parte de las técnicas que se describen aquí, las inferencias (conclusiones) se refieren a
parámetros poblacionales. Sin embargo, es posible realizar inferencias que no se relacionen con
parámetros (ver análisis de frecuencias). Según la finalidad de la Inferencia Estadística se puede
dividir en:
* TEORÍA DE LA VERIFICACIÓN DE HIPÓTESIS.
* TEORÍA DE LA ESTIMACIÓN.
Los dos problemas fundamentales que estudia la inferencia estadística son el "Problema de la
estimación" y el "Problema del contraste de hipótesis". Cuando se conoce la forma funcional de la
función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los
parámetros que la determinan, estamos en un problema de inferencia estadística paramétrica; por el
contrario cuando no se conoce la forma funcional de la distribución que sigue la variable aleatoria
objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica.
En lo que sigue nos vamos a limitar a problemas de inferencia estadística paramétrica, donde la
variable aleatoria objeto de estudio sigue una distribución normal, y sólo tendremos que tratar de
estimar los parámetros que la determinan, la media y la desviación típica.
Esta situación se presenta con frecuencia debido a que es posible a menudo conocer la forma funcional
de la distribución de probabilidad, por consideraciones teóricas, quedando únicamente indeterminados
los parámetros que determinan la función de distribución.
Como las poblaciones en las que se pretende estudiar una determinada variable aleatoria, son grandes,
es muy caro o imposible, estudiar a todos sus individuos; lo que se hace, es estudiar una muestra ( una
parte) de la población. En todos estos problemas que estudia la inferencia estadística juega un papel
fundamental la "Teoría de la Probabilidad" (distintas formas funcionales de las distribuciones de
probabilidad) y la "Teoría de Muestras" (procedimientos para tomar muestras de manera apropiada).
TEORÍA DEL MUESTREO.
La teoría de muestreo frecuentemente es llamada teoría de Nyquist o Shannon por los investigadores
del primer trabajo sobre el tema, lo cual ocurrió en los años cuarenta.Conceptualmente definida como
el estudio de las relaciones existentes entre una población y muestras extraídas de la misma. La teoría
del muestreo tiene especial utilidad para determinar si las diferencias que se pueden observar entre dos
muestras son debidas a la aleatoriedad de las mismas o si por el contrario son realmente significativas;
lo que nos lleva a los procesos denominados ensayos e hipótesis de significación, fundamental para
comprensión de la teoría de la decisión, en el área de la inferencia estadística. Abarca el estudio de las
relaciones que existen entre una población y las muestras extraídas de la misma. Permite estimar los
parámetros poblacionales (media, varianza, etc.) a partir de los correspondientes valores muestrales,
denominados estadísticos. La teoría del muestreo también permite determinar si las diferencias
observadas entre dos muestras son significativas o, por el contrario, debidas al azar, lo que supone la
realización de ensayos e hipótesis de significación.
Pues bien, la teoría del muestreo estudia las técnicas y procedimientos que debemos emplear para que
las muestras sean representativas de la población que pretendemos estudiar, de forma que los errores en
la determinación de los parámetros de la población objeto de estudio sean mínimos. Para conseguirlo,
la muestra tiene que ser representativa de la población. Para que la extracción de la muestra sea
representativa se deben cumplir dos principios básicos:
Que haya independencia en la selección de los individuos que forman la muestra.
Que todos los individuos tengan la misma probabilidad de ser incluidos en la muestra.
El propósito de un estudio estadístico suele ser, extraer conclusiones acerca de la naturaleza de una
población. Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de los
casos, las conclusiones obtenidas deben basarse en el examen de solamente una parte de ésta, lo que
lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de muestreo.
Los primeros términos obligados a los que se debe hacer referencia,
estimador.
serán los de estadístico y
Dentro de este contexto, será necesario asumir un estadístico o estimador como una variable aleatoria
con una determinada distribución, y que será la pieza clave en las dos amplias categorías de la
inferencia estadística: la estimación y el contraste de hipótesis.
El concepto de estimador, como herramienta fundamental, se caracteriza mediante una serie de
propiedades que servirán para elegir el ``mejor" para un determinado parámetro de una población, así
como algunos métodos para la obtención de ellos, tanto en la estimación puntual como por intervalos.
¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población cuando sólo se
conoce una muestra?
Este es un problema que se enfrenta cuando por ejemplo se trata de estudiar la relación entre el
fumar y el cáncer de pulmón y se intenta extender las conclusiones obtenidas sobre una muestra al
resto de individuos de la población.
La tarea fundamental de la estadística inferencial, es hacer inferencias acerca de la población a partir
de una muestra extraída de la misma.
Las técnicas estadísticas para ser utilizados requieren datos, cuya adquisición es un compromiso difícil.
La teoría de muestras o muestreo tiene por objeto proporcionar una metodología que guíe los
problemas de recogida de datos, es decir, cómo se hace para recoger esos datos. Por lo tanto, El
muestreo es una herramienta de la investigación científica. Su función básica es determinar que parte
de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias
sobre dicha población. El error que se comete debido a hecho de que se obtienen conclusiones sobre
cierta realidad a partir de la observación de sólo una parte de ella, se denomina error de muestreo.
Obtener una muestra adecuada significa lograr una versión simplificada de la población, que
reproduzca de algún modo sus rasgos básicos.
En el muestreo se utilizan por lo general las siguientes Terminologías:
UNIVERSO: Se define como un conjunto finito o infinito de elementos, seres o cosas que presentan
características comunes entre si.
POBLACIÓN: Está constituida por el conjunto de medidas de las variables en estudio, en cada una de
las unidades que conforman el universo. Es decir, cada una de las variables en estudio constituye una
población que viene dada por el conjunto de valores que ella toma de la realidad que conforman el
universo.
MUESTRA:
Es un subconjunto del universo o de la población, dependiendo de que se haya
seleccionado a un grupo de elementos o a un grupo de mediciones. Es el conjunto de unidades o
elementos de análisis sacados del marco.
UNIDADES ESTADÍSTICAS O UNIDAD DE INVESTIGACIÓN: Es la unidad mínima que
mantiene la integridad de los datos que interesan estudiar y analizar. Es decir, el ente que contiene las
partes que se van a analizar.
UNIDAD DE ANÁLISIS: Está definida como el elemento que se examina y del que se busca la
información dentro de la unidad de investigación. Es por lo tanto el objeto o individuo del que hay que
obtener la información.
UNIDAD DE OBSERVACIÓN: Se denomina a la unidad a través de la cual se obtiene la
información, esta puede o no coincidir con el elemento. También se denomina unidad respondiente.
UNIDADES DE MUESTREO: Son aquellas que contienen las unidades de análisis de la población y
que se utilizarán para confeccionar o seleccionar la muestra. En general, es la selección de los
conjuntos que serán tomados en cuenta para la conformar la muestra final en la investigación. En otras
palabras es un número de elementos de la población, no reservados, que se van a estudiar. Todo
miembro de la población pertenecerá a una y sólo una unidad de muestreo.
MUESTREO: Es la técnica empleada para la selección de elementos (unidades de investigación)
representativos de la calidad y condiciones medias de un todo que conformarán una muestra. Este
muestre puede ser: No Probabilístico y Probabilístico.
MARCO MUESTRAL: Es el proceso de definir y enumerar los elementos sobre los cuales se realizan
las inferencias estadísticas en el muestreo probabilística. Es importante la construcción de un marco
muestral lo más perfecto posible a fin de que exista una correspondencia biunívoca entre las unidades
muestrales poblacionales y las listas físicas que lo conforman. Entre los factores que contribuyen a
distorsionar la calidad de un buen marco muestral están: a) Elementos faltantes, b) Unidades ocultas
por estar pareadas con otras, c) Unidades muestrales repetidas y d) Elementos extraños.
Parámetro: Son las medidas o datos que se obtienen sobre la población.
Estadístico. Son los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación
de los parámetros.
Error Muestral, de Estimación o Estándar. Es la diferencia entre un estadístico y su parámetro
correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al
valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación
basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo.
Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué medida
podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varían
muestra a muestra). Varía según se calcule al principio o al final. Un estadístico será más preciso en
cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución
muestral de un estadístico y su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier
información que queremos recoger está distribuida según una ley de probabilidad (Gauss o Student),
así llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un
estadístico capte el verdadero valor del parámetro.
Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el número de
entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más
pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios
previos.
SIGNIFICANCIA ESTADÍSTICA.- Este concepto es una forma de expresar matemáticamente si dos
grupos son o no diferentes dentro de una muestra o si dos variables tienen diferencias dentro de un
mismo grupo y esas diferencias no son debidas a factores aleatorios. El método utilizado para hallar la
significación estadística, es un tipo especial de método matemático que se llama análisis estadístico. Es
necesario crear una unidad de medida para lo cual se usa el valor de p, al estudiar distribución de
frecuencias, o el estudio de las colas de las distribuciones, o el área bajo una determinada curva, etc.
Por lo tanto p es la probabilidad de error al comparar dos o más muestras o grupos cuando aseguramos
que ambos son diferentes. O sea que p es la probabilidad en el sentido de la significación estadística.
Obtener una p < 0.05 significa que tenemos un 5% de probabilidades de error en las conclusiones, por
lo cual la probabilidad de equivocarnos es baja. En otras palabras, en la estadística, se dice que un
evento, suceso o valor, es significativo, cuando es poco probable y por lo tanto, seguramente no se debe
al azar, sino a factores específicos.
De forma más estricta, significación estadística, hace referencia a la cuestión de determinar
estadísticamente, si un valor o resultado obtenido de una muestra, es poco probable, de modo que no
puede explicarse por las fluctuaciones propias de esa muestra en cuestión.
El diseño de muestras tiene dos procesos fundamentales:
Proceso de selección: Reglas y operaciones mediante las cuales se incluyen algunas unidades de la
muestra.
Proceso de estimación: A partir de los datos seleccionados se estiman ciertos valores desconocidos de
la muestra.
El uso de una encuesta por muestreo tiene una serie de ventajas, como que su coste es mucho menor, es
más rápida de realizar y los datos se obtienen con mayor exactitud debido al poco volumen de
encuestados.
VENTAJAS DEL MUESTREO:
a) Costos reducidos.
b) Mayor rapidez para obtener resultados.
c) Mayor exactitud o mejor calidad de la información: debido a los siguientes factores
1.- Volumen de trabajo reducido.
2.- Puede existir mayor supervisión en el trabajo.
3.- Se puede dar más entrenamiento al personal.
4.- Menor probabilidad de cometer errores durante el procesamiento de la información.
d) Factibilidad de hacer el estudio cuando la toma de datos implica técnicas destructivas, por ejemplo:
- Pruebas de germinación.
- Análisis de sangre.
- Control de calidad.
Tipos de muestreo
Los investigadores proponen diversos criterios de clasificación para los diferentes tipos de muestreo,
aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticas y
métodos de muestreo no probabilísticas.
Métodos de muestreo probabilísticas
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad.
El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y
dicha probabilidad no es nula para ningún elemento.
Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para
formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la
misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los
métodos de muestreo probabilísticos encontramos los siguientes tipos:
PROPIEDADES DEL MUESTREO PROBABILÍSTICO
a) Existe la posibilidad de definir inequívocamente un conjunto de muestras M1, M2, .... , Mt mediante la
aplicación del procedimiento a una población. Esto significa que podemos indicar cuales unidades de
muestreo pertenecen a M1, M2 y así sucesivamente.
b) A cada posible muestra Mi se le asigna un probabilidad conocida de selección Pi.
c) Seleccionamos una de las Mi por un proceso mediante el cual, cada Mi tiene una probabilidad Pi de ser
seleccionada.
d) El método de estimación se realiza en base a la muestra, siendo único para cualquiera de las posibles
muestras Mi.
PRINCIPALES ETAPAS DE UN ESTUDIO POR MUESTREO:
Definición de objetivos: Esta etapa comprende la identificación del problema y el establecimiento de las
metas del estudio.
Definición del marco de muestreo: El marco de muestreo es el conjunto de las unidades de muestreo que
constituyen una población. Este generalmente puede ser de dos tipos:
a) Marco lista: Es una lista depurada (sin traslapes o duplicaciones) que permite identificar a cada unidad
de muestreo. Por ejemplo, una lista que contenga el nombre de todos los proveedores de caña de azúcar de
un ingenio. Es recomendable que además de identificar a cada unidad muestral, incluya algunas otras
características de interés, por ejemplo, tamaño de la finca de cada proveedor.
b) Es un plano o mapa que permite identificar pequeñas áreas usadas como unidades de muestreo en las
que se ha dividido el área total.
Variables a medir y Métodos de medición: Es importante considerar el tipo de variable a medir, por
ejemplo: si se va a estudiar el rendimiento de caña de azúcar, la variable es de tipo continuo, si interesa
estimar la proporción de agricultores que utilizan herbicidas para el control de malezas, se medirá una
variable de tipo binomial. El tipo de variable a medir ayuda a definir el esquema o tipo de muestreo. Los
métodos de medición deben de tener las siguientes características:
a) uniformidad.
b) practicabilidad.
c) deber ser comprensibles para el grupo de trabajo.
Tipo o Esquema de Muestreo: Existen actualmente una gran variedad de tipos o esquemas de muestreo
que han sido desarrollados para diferentes situaciones, entre los más usados están: muestreo simple
aleatorio, muestreo aleatorio estratificado, muestreo sistemático.
Determinación del tamaño de muestra (n): Este punto depende de que es lo que se desea estimar y el
esquema o tipo de muestreo seleccionado.
Selección de las unidades de muestreo: Consiste en extraer un número n de unidades muestrales de una
población de tamaño N.
Premuestreo y pruebas de campo: En un estudio, es conveniente someter el método a un prueba previa
por las siguientes razones:
a) Algunas veces es imprescindible realizar un Premuestreo para tener una estimación preliminar de la
variabilidad de la población.
b) Verificar la funcionalidad de un método de muestreo.
c) Estimar costos.
d) Conocer la eficiencia de la organización del trabajo de campo.
e) Captar la aceptación, rechazo o dificultad para obtener la información.
Organización del trabajo de campo: Incluye la capacitación de personal y todas las operaciones
necesarias para obtener la información buscada.
Análisis y Edición de resultados: Puede consistir sólo en la presentación e interpretación de
distribuciones simples, tabulaciones, gráficas o puede considerar un análisis estadístico más complejo
(Estimación, pruebas de hipótesis, etc.) esto depende básicamente de los objetivos del trabajo.
Muestreo aleatorio simple:
(es el más importante): cada elemento de la población tiene la
misma probabilidad de ser elegido, las observaciones se realizan con reemplazamiento, de manera que
la población es idéntica en todas las extracciones, o sea, que la selección de un individuo no debe
afectar a la probabilidad de que sea seleccionado otro cualquiera aunque ello comporte que algún
individuo pueda ser elegido más de una vez. .( "se hacen tantas papeletas numeradas como individuos
hay , se coge una y se devuelve , se vuelve a coger otra y se devuelve , etc" ) En el muestreo
sistemático los elementos de la población están ordenados por listas . Se elige un individuo al azar y a
continuación a intervalos constantes se eligen todos los demás hasta completar la muestra. Si el orden
de los elementos es tal que los individuos próximos tienden a ser más semejantes que los alejados, el
muestreo sistemático tiende a ser más preciso que el aleatorio simple, al cubrir más homogéneamente
toda la población.
El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y
2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números
aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario
para completar el tamaño de muestra requerido.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población
que estamos manejando es muy grande.
COMO SE SELECCIONA UNA MUESTRA ALEATORIO
El procedimiento o sistema utilizado para la selección de las unidades de la muestra reviste vital
importancia, ya que de dicha método depende básica y fundamentalmente el carácter representativo de
la misma y la validez de la inducción estadística.
Si el método de selección, no esta suficientemente ajustado a la condición casual de las unidades, la
muestra estaría expuesta a una inclinación viciada, perjuicio o preferencia que desvirtuaría sus
resultados.
En la selección no pueden intervenir fuerzas especiales que efectúen la. Composición de la muestra,
ya que la extracción de las unidades deben ser resultado de una combinación de factores
entremezclados y exentos de propensión es decir, que la selección antes que todo debe hacerse de
acuerdo al conjunto de causas fluctuantes conocidas como azar. Es necesario recalcar que la selección
final de los elementos de la muestra habrá de estar basada en un método de azar, sea cual fuere el tipo
de muestreo probabilística que se piensa utilizar.
En relación con la pregunta, cómo tomamos una muestra aleatoria en la práctica, por suerte podemos
tomarla sin recurrir en realidad al tedioso proceso de citar todas las muestras posibles. En cambio
podemos citar los N elementos individuales de una población finita y después tomar una muestra
aleatoria mediante la selección de los elementos que se incluirán en la muestra, uno a la vez sin
sustitución, asegurándonos que en cada una de las elecciones sucesivas, cada uno de los elementos
restantes de la población tenga la misma oportunidad de ser seleccionado. Esto nos conduce a la misma
probabilidad de cada muestra posible. Por ejemplo, para tomar una muestra aleatoria de 20 cuentas
vencidas de un archivo de 257 cuenta de este tipo, se pudiese escribir cada número de cuenta en un
pedazo de papel, colocar los papeles en una caja y mezclarlos vigorosamente; luego tomaríamos (sin
ver) 20 papeles, uno tras otro, sin sustitución.
En la práctica, a menudo este procedimiento relativamente simple resulta innecesario, ya que la
manera más simple de tomar una muestra aleatoria consiste en utilizar una tabla de cifras aleatorias (o
números aleatorios). Las tablas publicadas de números aleatorios constan de paginas en las cuales se
colocan los números 0, 1, 2, …….y 9 casi de la misma manera en que podrían figurar si hubiesen
sido generadas por un dispositivo o juego de oportunidad que dé a cada cifra la misma probabilidad de
figurar en cualquier sitio dado de la tabla. Hoy en día, estas tablas se elaboran mediante uso de
computadoras.
Existen diferentes métodos de selección al azar de uso frecuente, entre 1os que se pueden considerar
los siguientes:
a) Selección por sorteo
b) Uso de tablas de números aleatorios.
a).- Selección por Sorteo
Bajo este método se enumera correlativamente la totalidad del universo y se procede más o menos
similarmente a como se realiza un sorteo de lotería preparándose bolitas o similares que representan el
universo y que son introducidas en una bolsa, bombo, globo, etc. , las cuales deben
ser mezcladas y extraídas al azar tal como se efectúa un sorteo cualquiera. Los numeras extraídos en
esa forma se confrontan con las unidades cuyos números concuerdan en la lista previamente
elaborada, constituyendo los elementos de la muestra.
b).- Uso de la Tabla de Números Aleatorios
El objeto de las tablas de números aleatorios es facilitar la obtención de los elementos que han de
constituir la muestra, sin tener que usar bombos, cajas para bolas u otros utensilios má s o menos
complicados, pero consiguiendo que el procedimiento de selección no esté influenciado por la
característica en estudio.
Las tablas de numeras al azar son tablas con miles de números obtenidos por un procedimiento como
el de la lotería, es decir, por un procedimiento al azar. La tabla puede empezarse a leer en cualquier
parte, pero debe escogerse al azar la columna y fila de comienzo para lo cual es suficiente colocar a
ciegas un dedo sobre el cuerpo de la tabla y empezar desde ese sitio la lectura.
Un Ejemplo de una tabla aleatoria es la presentada en el cuadro N° 1.
El procedimiento para seleccionar una muestra al azar de tamaño “ n” de una población de
elementos ( n < N) es el siguiente:
“N”
1).- Se obtiene un listado de todos los “N” elementos (unidades de muestreo) que componen a la
población.
2).- Se numeran todos los elementos de la población del 1 al N.
3).- En una tabla de números aleatorios, se elige al azar una columna (o fila) comenzando en cualquier
lugar. Se recomienda no comenzar en el mismo sitio si hay que tomar varias muestras.
4).- Una vez elegida la columna se procede a seleccionar los números que estén comprendidos entre 1
y N. Desechando aquellos que estén fuera de este intervalo y los números que aparezcan repetidos se
consideran sólo una vez.
OBSERVACIONES: Si el tamaño de la población es un número de un digito, como por ejemplo,
N = 8, la numeración seria así: 1, 2, 3, 4, 5, 6, 7, 8. Si fueran de dos dígitos como por ejemplo, N = 20,
la numeración sería: 01, 02, 03, 04, …….19, 20. Si la muestra fuese de N = 250, es decir de tres dígitos
la numeración sería: 001, 002, 003, 004,….012,…099, 100,……250; y así sucesivamente se procede
con los diferentes caso que se presenten.
EJEMPLO: Supongamos que tenemos una población hipotética de 12 personas y queremos tomar una
muestra aleatoria de 4 individuos, mediante el uso de una tabla de números aleatorios.
Para realizar este problema, se siguen los pasos dados anteriormente.1).- Obtención del listado de los
individuo de la población. Los nombres de los electos son:
Juan Rojas
Luis Mata
Pedro Rodríguez
Miguel Juárez
Nicolás Mata
Juan Marín
José Mota
Maria Peña
Carlos Mata
Ligia Larez
Raúl Ron
Magdalys Medías
2).- Se enumeran los elementos de la población así:
010203040506070809101112-
Juan Rojas
Luis Mata
Pedro Rodríguez
Miguel Juárez
Nicolás Mata
Juan Marín
José Mota
Maria Peña
Carlos Mata
Ligia Larez
Raúl Ron
Magdalys Medías
Aplicando la tabla N° 1 de números aleatorios se seleccionan las n = 4 personas. Elegimos por
ejemplo la primera y segunda columna (aquí se tienen que tomarse dos columnas, ya que la numeración
de los elementos está hecha con dos dígitos) y comenzando en la primera fila se tiene que las personas
seleccionadas son las siguientes:
04020312-
Miguel Juárez
Luis Mata
Pedro Rodríguez
Magdalys Mejias
Si sucediera que el número de individuos a seleccionar no se alcance con las dos primeras columnas
seleccionadas, se continúa con las dos siguientes columnas hasta completar el tamaño de la muestra
requerida.
TABLA N° 1 DE NÚMEROS ALEATORIOS *
04433
80674
24520
18222
l0610
05794
37515
60298
47829
72648
37414
75755
04717
29899
67884
5965l
67533
68123
17730
95862
08034
32653
01895
12506
88535
36553
23757
34209
95913
15405
13772
76638
48423
25018
99041
55864
21694
13122
44115
01601
50541
00147
35334
49810
91601
40617
72876
33967
73830
57729
32196
76487
11622
96297
24160
09903
86648
13697
63677
70119
94739
25875
38829
30574
47609
07967
32422
76791
39725
53711
83580
79974
45929
85113
26872
8l307
43694
02410
54905
79007
54939
21410
86980
91772
18969
75274
52233
62319
08598
09066
95288
87863
82384
66860
62297
80198
19347
73234
68397
7l708
15438
62311
72844
60203
46412
28529
54447
58729
10854
99058
l8260
38765
44285
06372
l5867
70418
57012
72122
36634
86299
83430
33571
23309
57040
29285
67870
84842
68668
90894
61658
15001
94055
36308
56970
83609
52098
04184
54967
72938
56834
83125
71257
60490
44369
66130
72936
69848
55503
52423
02464
26141
68779
66388
75242
47019
76273
33203
29608
54553
25971
69573
84828
32592
79526
29554
84580
37859
28504
68921
08141
79227
05748
51276
57143
31926
36458
96045
30424
98420
72925
40729
22337
95752
59445
36847
87729
81679
59126
59437
26768
47323
58454
56958
20575
76746
49878
42613
37056
43636
58085
06766
60227
96414
95457
30566
65482
25596
02678
54592
63607
95276
17894
63564
95958
39150
64379
46059
66954
52324
64776
92345
95110
59448
77249
17457
18481
14113
62462
02798
54977
48349
03704
36872
83214
59337
01695
60666
97410
21538
86497
33210
60337
27976
70661
08250
57178
67619
98310
70348
11317
71623
55510
31048
97558
94953
55866
96283
46620
52087
69799
55380
16498
80733
96422
58078
99643
90595
61867
59231
17772
67831
33317
00520
33570
04981
98939
78784
09977
29398
93896
15340
93460
57477
13898
48431
72936
78160
64079
42483
36512
56186
99098
48850
72521
63491
05546
67118
62063
74958
20946
28147
92003
63868
41034
28260
79708
00770
88643
52360
46658
66511
04172
73085
11795
52594
74622
12142
68355
65635
21828
39539
18988
04157
50079
61343
64315
70836
82857
35335
86003
60070
66241
32836
27573
11479
94114
41268
80187
20351
09636
84668
42486
71303
* Fuente: Basada en partes de Table of
105 000 Random Decimal Digits (Washington,p:.9.: 1nterstate Córnmerce Commission, Bureau óf Transport
Economici anll Statistic
TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA CON
ALEATORIO
MUESTREO SIMPLE
Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente
relación:
n
N .S 2 Z 2 2
N .d 2  S 2 Z 2 2
de donde:
n = tamaño de la muestra.
N = tamaño de la población.
Z  2 = variable estandarizada de distribución normal.
S² = varianza de la muestra.
d(e) = precisión del muestreo.
 = Nivel de significancia.
Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una primera
estimación de S².
Ejemplo: En un lote de frascos para medicina, con una población de 8000 unidades, se desea estimar la
media de la capacidad en centímetros cúbicos de los mismos.
A través de un premuestreo de tamaño 35 se ha estimado que la desviación estándar es de 2 centímetros
cúbicos. Si queremos tener una precisión 0.25 cms3, y un nivel de significancia del 5%. ¿De que tamaño
debe de ser la muestra?
DATOS:
S = 2 cms3; N = 8000; d = 0.25 cms3;  = 0.05 (5%)
Z  2 = 1.96
n
N .S 2 Z 2 2
Nd  S 2 Z 2 2

8000 ( 2 )2 ( 1.96 )2
8000 ( 0.25 )2  ( 2 )2 ( 1.96 )2

122931 .2
 239 Frascos.
515 .37
Solo faltaría muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo válidos.
TAMAÑO DE LA MUESTRA PARA ESTIMAR PROPORCIONES CON MUESTREO SIMPLE
ALEATORIO
En bastantes ocasiones, la variable bajo estudio es de tipo binomial, en ese caso para calcular el tamaño de
muestra bajo el muestreo simple aleatorio, se haría de la siguiente manera:
n
N . p.q.Z 2 2
N .d 2  p.q.Z 2 2
De donde:
p = probabilidad de éxito.
q = probabilidad de fracaso.
d = precisión expresada en porcentaje.
En este caso para la estimación de la varianza, tenemos dos opciones:
a) hacer un premuestreo.
b) asumir varianza máxima.
Ejemplo: En una investigación, se desea determinar en que proporción los niños de una región toman
leche en el desayuno. Si se sabe que existen 1.500 niños y deseamos tener una precisión del 10 %, con un
nivel de significancia del 5 % . ¿De que tamaño debe de ser la muestra?
DATOS:
N = 1500; d = 10 % = 0.1; α = 5 %
p = 0.5 y q = 0.5 (asumiendo varianza máxima).
Zα/2 = 1.96
n
N . p.q.Z 2 2
N .d 
2
p.q.Z 2 2

1500 ( 0.5 )( 0.5 )(1.96 )2
1500 ( 0.1 )  ( 0.5 )( 0.5 ) / 1.96 )
2
2

1440 .6
 90
15 ,96
Se deben de muestrear 90 niños.
Muestreo aleatorio sistemático: es cuando los elementos de la población están ordenados por
listas. Se elige un individuo al azar y a continuación a intervalos constantes se eligen todos los demás
hasta completar la muestra. Si el orden de los elementos es tal que los individuos próximos tienden a
ser más semejantes que los alejados, el muestreo sistemático tiende a ser más preciso que el aleatorio
simple, al cubrir más homogéneamente toda la población.
Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar
de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un
número elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i + k,
i + 2k, i + 3k,...,i + (n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el
tamaño de la población entre el tamaño de la muestra: k = N/n. El número i que empleamos como
punto de partida será un número al azar entre 1 y k.
El riesgo se este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que
al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una
homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre
listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un
muestreo aleatorio sistemático con k =10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no
podría haber una representación de los dos sexos.
Muestreo aleatorio estratificado: es aquel que se utiliza cuando se esta interesado en que la
muestra tenga la misma composición a la de la población la cual se divide en clases o estratos. Si por
ejemplo en la población el 20% son mujeres y el 80% hombres, se mantendrá la misma proporción en
la muestra. Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos
y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías
típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se
puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil,
etc.). Una muestra aleatoria estratificada es la obtenida mediante la separación de los elementos de la
población en grupos que no se oculten maliciosamente (traslapen), llamados estratos y la selección
posterior de una muestra irrestrictamente aleatoria simple en cada estrato. En resumen, los motivos
principales para utilizar un muestreo aleatorio estratificado son los siguientes:
a) La estratificación puede producir un error de estimación más pequeño que el que generaría una muestras
del mismo tamaño. Este resultado es particularmente cierto si las mediciones dentro de los estratos son
homogéneas.
b) El costo por observación en la encuesta puede ser reducido mediante la estratificación de los elementos
de la población en grupos convenientes.
c) Se pueden obtener estimaciones de parámetros poblacionales para subgrupos de la población. Los
subgrupos deben de ser entonces estratos identificables.
Lo anterior debe de tomarse en cuenta cuando se está planeando estratificar o no una población o
decidiendo en que forma se definirán los estratos.
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán
representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos
concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado
grandes, pues exige un conocimiento detallado de la población (tamaño geográfico, sexos, edades,...).
La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser
de diferentes tipos:
Afijación Simple: A cada estrato le corresponde igual número de elementos muestrales.
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en
cada estrato.
Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la
desviación.
Supongamos que estamos interesados en estudiar el grado de aceptación que la implantación de la
reforma educativa ha tenido entre los padres de una determinada provincia. A tal efecto seleccionamos
una muestra de 600 sujetos. Conocemos por los datos del ministerio que de los 10000 niños
escolarizados en las edades que nos interesan, 6000 acuden a colegios públicos, 3000 a colegios
semiprivados y 1000 a colegios privados. Como estamos interesados en que en nuestra muestra estén
representados todos los tipos de colegio, realizamos un muestreo estratificado empleando como
variable de estratificación el tipo de centro. Si empleamos una afijación simple elegiríamos 200 niños
de cada tipo de centro, pero en este caso parece más razonable utilizar una afijación proporcional pues
hay bastante diferencia en el tamaño de los estratos. Por consiguiente, calculamos que proporción
supone cada uno de los estratos respecto de la población para poder reflejarlo en la muestra.
Colegios públicos: 6000/10000 = 0.60
Colegios semiprivados: 3000/10000 = 0.30
Colegios privados: 1000/10000 = 0.10
Para conocer el tamaño de cada estrato en la muestra no tenemos más que multiplicar esa proporción
por el tamaño muestral.
Colegios públicos: 0.60x600 = 360 sujetos
Colegios semiprivados: 0.30x600 =180 sujetos
Colegios privados: 0.10x600 = 60 sujetos
TAMAÑO DE MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO ALEATORIO
ESTRATIFICADO
Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relación:
 N i2 Si2
n
wi
N 2D 
 N i Si2
De donde:
Ni = tamaño del i ésimo estrato.
N = tamaño de la población.
S²i = varianza del i ésimo estrato.
wi = importancia o peso del i ésimo estrato.
D
B2
, Donde B = Precisión
4
Ejemplo: En un Ingenio, se desea hacer una estimación del promedio de grados Brix con que llega la caña
a la fábrica. Para tal el efecto, se desea realizar un muestreo aleatorio estratificado, puesto que la caña
proviene de tres tipos de proveedores. Proveedor tipo A (estrato 1) la caña proviene de lotes de la misma
finca. Proveedor tipo B (estrato 2) la caña proviene de fincas de particulares en donde el ingenio ha
prestado servicios. Proveedor tipo C (estrato 3) la caña proviene de fincas de particulares en donde el
ingenio no ha tenido ningún servicio. De estudios anteriores, se conoce el tamaño y desviación estándar de
cada estrato y además se desea tener una precisión de un grado brix en el estudio. ¿De que tamaño debe de
ser la muestra total y de cada estrato? En es siguiente cuadro se presentan los datos de Ni, Si, y Wi de los
diferentes estratos.
DATOS:
ESTRATO
Si
1
558
3.5
558/998 = 0.56
2
190
5.4
190/998 = 0.19
3
250
6.2
250/998 = 0.25
Total
998
* con distribución proporcional.
N = Σ Ni = 998
 N12 Si2
n
wi
N 2D 
wi*
Ni
 N i Si2
N
2
i
S i2
wi
N
2
i
S i2
wi
N
2
i
S i2
wi
N
2
i
S i2
wi
N
2
i
S i2
wi

N12 S12 N 22 S 22 N 32 S 32


w1
w2
w3

(558) 2 (3.5) 2 (190) 2 (5.4) 2 (250) 2 (6.2) 2


0.56
0.19
0.25

3814209 1052676 2402500


0.56
0.19
0.25
 6811087,5  5540400  9610000
 21961487.5
N S
2
i
 N1 S12  N 2 S 22  N 3 S 32
N S
2
i
 558(3.5) 2  190(5.4) 2  250(6.2) 2
N S
2
i
 6835.5  5540.4  9610
N S
2
i
 21985.9
i
i
i
i
La.. Pr esision..B..es..1.
B 2 12
  0.25
4
4
2
N D  (998) 2 (0.25)  249001.
D
N
n
2
i
S i2
wi
21961487.5
21961487.5


 81,..es..el ..tamaño..de.
2
249001  21986
270987
N D   N i Si
2
.la..muestra..total .
Como se utilizó distribución proporcional, a cada estrato le tocaría el siguiente tamaño de muestra:
n1 = 81(558/998) = 45 ; n2 = 81(190/998) = 15; n3 = 81(250/998) = 20.
Muestreo polietápico o por conglomerados: Los métodos presentados hasta ahora están
pensados para seleccionar directamente los elementos de la población, es decir, que las unidades
muestrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es
un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las
unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son
conglomerados naturales.
En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas
electorales. Cuando los conglomerados son área geográfica suele hablarse de "muestreo por áreas". El
muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de
conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después
todos los elementos pertenecientes a los conglomerados elegidos. En una investigación en la que se
trata de conocer el grado de satisfacción laboral los profesores de instituto necesitamos una muestra de
700 sujetos. Ante la dificultad de acceder individualmente a estos sujetos se decide hacer una muestra
por conglomerados. Sabiendo que el número de profesores por instituto es aproximadamente de 35, los
pasos a seguir serían los siguientes:
1. Recoger un listado de todos los institutos.
2. Asignar un número a cada uno de ellos.
3. Elegir por muestreo aleatorio simple o sistemático los 20 institutos (700/35=20) que nos
proporcionarán los 700 profesores que necesitamos.
Ventajas e inconvenientes de los distintos tipos de muestreo Probabilístico
CARACTERÍSTICAS
VENTAJAS
INCONVENIENTES
Se selecciona una muestra de tamaño
n de una población de N unidades,
cada elemento tiene una probabilidad
de inclusión igual y conocida de n/N.
Sencillo y de fácil comprensión.
Cálculo rápido de medias y
varianzas. Se basa en la teoría
estadística, y por tanto existen
paquetes informáticos para analizar
los datos
Requiere que se posea
antemano un listado completo
toda la población. Cuando
trabaja con muestras pequeñas
posible que no represente a
población adecuadamente.
Conseguir un listado de los N
elementos
de
la
población.
Determinar tamaño muestral n.
Definir un intervalo k=N/n. Elegir un
número aleatorio, r, entre 1 y k (r
=arranque aleatorio). Seleccionar los
elementos de la lista.
Fácil de aplicar. No siempre es
necesario tener un listado de toda la
población. Cuando la población está
ordenada siguiendo una tendencia
conocida, asegura una cobertura de
unidades de todos los tipos.
Si la constante de muestreo está
asociada con el fenómeno de
interés, las estimaciones obtenidas
a partir de la muestra pueden
contener sesgo de selección
Tiende a asegurar que la muestra
represente adecuadamente a la
población en función de unas
variables seleccionadas. Se obtienen
estimaciones más precisa
Su
objetivo es conseguir una muestra lo
mas semejante posible a la población
en lo que a la o las variables
estratificadoras se refiere.
Se ha de conocer la distribución en
la población de las variables
utilizadas para la estratificación.
Estratificado
En ciertas ocasiones resultará
conveniente estratificar la muestra
según ciertas variables de interés.
Para ello debemos conocer la
composición estratificada de la
población objetivo a muestrear. Una
vez calculado el tamaño muestral
apropiado, este se reparte de manera
proporcional entre los distintos
estratos definidos en la población
usando una simple regla de tres.
Conglomerados
Se realizan varias fases de muestreo
sucesivas (polietápico) La necesidad
de listados de las unidades de una
etapa se limita a aquellas unidades de
muestreo seleccionadas en la etapa
anterior.
Es muy eficiente cuando la
población es muy grande y
dispersa. No es preciso tener un
listado de toda la población, sólo de
las unidades primarias de muestreo.
El error estándar es mayor que en
el muestreo aleatorio simple o
estratificado. El cálculo del error
estándar es complejo.
Aleatorio
simple
Sistemático
de
de
se
es
la
PLANES DE MUESTREO ALEATORIO
TIPO
CARACTERÍSTICAS
SIMPLE
Cada elemento de la población tiene la misma
probabilidad "a priori" de ser incluido en la muestra
Es el muestreo más sencillo desde el punto de vista
matemático. Es costoso y no provee información
respecto a subpoblaciones
ESTRATIFICADO
La población se divide en subpoblaciones (estratos)
identificados por niveles en los factores. En cada
estrato se realiza MAS
Se usa cuando se desea información precisa para cada
estrato o cuando razones administrativas lo hacen
conveniente
La población se divide en subpoblaciones
(conglomerados) que se consideran " a priori "
similares en los factores. Se seleccionan
conglomerados y dentro de éstos, unidades
secundarias.
Se usa cuando es imposible o muy caro construir un
marco de muestreo o cuando los elementos están
conglomerados en forma natural (p.ej. cercanía
geográfica)
La población se ordena con algún criterio (puede ser
aleatorio). Se sortea un elemento primero para ser
muestreado y se continúa muestreando uno cada
tantos (paso)
( Por ejemplo 5, 15, 25,...,85)
Es fácil de realizar cuando no se dispone de
identificación de los elementos. Puede introducir
variaciones cíclicas en los resultados
POR
CONGLOMERADO
SISTEMÁTICO
OBSERVACIONES
Técnicas de muestreo sobre una población
La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de
un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras.
Las ventajas de estudiar una población a partir de sus muestras son principalmente:
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la
población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando
se realizan encuestas previas a un referéndum, es más barato preguntar a 4.000 personas su
intención de voto, que a 30.000.000;
Mayor rapidez:
Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas
electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones,
muchas horas antes de que el recuento final de votos haya finalizado;
Más posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es
posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que
vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás.
De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas:


Elección de la muestra (muestreo).
Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población
(inferencia).
El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la
población tienen la misma probabilidad de ser extraídos; Aunque dependiendo del problema y con el
objetivo de reducir los costes o aumentar la precisión, otros tipos de muestreo pueden ser considerados.
Métodos de muestreo no probabilísticas
En los muestreos no probabilísticos no se usa el azar, sino el criterio del investigador, suele presentar
grandes sesgos y es poco fiable; no garantizan la representatividad de la muestra y por lo tanto no
permiten realizar estimaciones inferenciales sobre la población.
Se utilizan a veces, para estudios exploratorios, ya que el muestreo Probabilístico resulta
excesivamente costoso y se acude a métodos no probabilísticos, aun estando conscientes de que no
sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea
representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos.
En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea
representativa. Estos muestreos pueden ser:
Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre
la base de un buen conocimiento de los estratos de la población y/o de los individuos más
"representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con
el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen
unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y
residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que
cumplan esas características. Este método se utiliza mucho en las encuestas de opinión.
Por ejemplo, la Oficina de Sanidad desea estudiar la incidencia de las drogas en la adolescencia. Lo que
deberíamos hacer sería: conocer por los informes de la Consejería de Educación cuales son los centros
más afectados por el problema, fijar un número de sujetos a entrevistar proporcional a cada uno de los
estratos (cuotas) y finalmente dejar en manos de los responsables del trabajo de campo a que sujetos
concretos se deberá entrevistar
Muestreo opinático o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de
obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente
típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores
votaciones han marcado tendencias de voto.
Muestreo casual o incidental: Se trata de un proceso en el que el investigador selecciona directa e
intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el
utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad
emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios.
Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios
con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.
SELECCIÓN ALEATORIA DE LAS MUESTRAS
A veces no es fácil lograr una muestra aleatoria. Si la población de que se trata es pequeña, uno de los
métodos más sencillos para obtenerla es formular una lista de integrantes (en pequeñas tiras de papel) y
escoger la muestra al azar.
Cuando se trata de poblaciones más grandes, se puede asignar un número entero a cada miembro y usar
una tabla de números aleatorios, integrada por dígitos escogidos al azar. Para lograr la muestra
aleatoria, se comienzan a leer los números de la tabla en un lugar también escogido al azar, así, para
cada número seleccionado el miembro de la población consta de 100 miembros, se pueden asignar los
números de 10 al 99. Si en la tabla se leen los números 2, 7, 22, 34, etc., se incluían dichos números en
la muestra aleatoria. La muestra en estudio en cualquier investigación debe ser representativa del
universo estadístico (población ideal que abarca a todos los individuos que posean las mismas
características y en la misma proporción del colectivo). Cuando más grande sea la muestra, más
representativa resultará; sin embargo, no necesita ser más grande cuando es suficiente representativa.
Esta es la prueba de estabilidad de la muestra.
TAMAÑO DE LA MUESTRA
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios
factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza
poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del
tamaño muestral delimitemos estos factores.
Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la
población total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización.
3. El nivel de variabilidad que se calcula para comprobar la hipótesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los
resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe
ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos
de la población. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser
prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza
menor. Comúnmente en las investigaciones sociales se busca un 95%.
El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa
como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por considerarla falsa. Al igual
que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%,
entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo
de equivocarse.
Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son
complementarios la confianza y el error.
La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se
quiere investigar en alguna investigación anterior o en un ensayo previo a la investigación actual. El
porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y el porcentaje con el que
se rechazó se la hipótesis es la variabilidad negativa
El muestreo es el proceso de tomar una proporción o parte de un universo de elementos, con la
finalidad de analizar en dichos elementos, características sujetas a estudio o fenómenos factibles de
observación y en base al análisis de la muestra o proporción tomada obtener conclusiones que se
refieran no sólo a la muestra sino a todo el universo. Para fines estadísticos, el universo puede
considerarse finito o infinito. Se considera finito si el número de elementos que lo constituyen es
menor a 500,000 e infinito si es igual o mayor a este número. Siempre que hagamos la elección de una
muestra, debemos tener cuidado de que ésta reúna las siguientes características:
· Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se requiere para
que el nivel de confiabilidad sea el que se ha establecido previamente.
· Que sea representativa: esto quiere decir que los elementos seleccionados deberán presentar
características similares a las de la población o universo.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las más importantes
son:
· El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte del universo
(muestra tomada) y no por la totalidad de él.
· Si la muestra es representativa, las deducciones resultantes sobre el universo serán confiables.
· Como solamente se estudia una parte del universo, la información obtenida se realiza en menor
tiempo.
¿Cómo obtener el tamaño de la muestra a utilizar?
Una de las preguntas planteadas con mayor frecuencia al iniciar una investigación y difícil de contestar,
sobre todo por falta de información del problema, es: ¿cuántas observaciones se deben obtener para que
el tamaño de la muestra sea realmente representativo del universo estadístico? En este sentido -la
decisión del tamaño de la muestra de una población -, es necesario considerar que las muestras varían
en su composición de una a otra. La magnitud de la variación depende del tamaño de la muestra y de la
variabilidad original de la población. Así, el tamaño de la muestra queda determinada por el grado de
precisión que se desea obtener y por variabilidad inicial de la población.
La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:
1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a
dicho nivel de confianza, un nivel de confianza igual o mayor al 92% es aceptable estadísticamente.
2. Evaluar la probabilidad a favor de que suceda un evento o situación esperada (esta probabilidad se le
denomina p).
3. Evaluar la probabilidad en contra de que suceda en un evento o situación esperada (a esta
probabilidad se le denomina q= 1 – p).
4. Determinar el error (e) máximo para el nivel de precisión que vayamos a permitir en los resultados
(error máximo de estimación), comúnmente se trabaja con errores de estimación entre el 2% y el 6%,
ya que la validez de la información se reduce demasiado para valores mayores del 6%.
· Determinamos el tamaño de la población o universo.
5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra; dependiendo de si la población o
universo sujeto a estudio se va a considerar infinito ó infinito. (Una población o universo se considera
infinito si el número de elementos de los que consta es igual o mayor a 500,000 y es considerado finito
si el número de elementos es menor a esta cantidad).
Diferentes niveles de confianza utilizados en la práctica
Nivel de Confianza
Valores de Z
99.73%
3.00
99%
2.58
98%
2.33
96%
2.05
95.45%
2.00
95%
1.96
90%
1.645
80%
1.28
68.27%
1.00
50%
0.6745
TAMAÑO DE LA MUESTRA
Una de las primeras preguntas que debe realizarse antes de emprender cualquier encuesta o estudio es:
¿qué tamaño de muestra necesito? La respuesta dependerá del diseño del estudio; es decir, de los
objetivos, naturaleza y alcance del mismo, y del resultado previsto del mismo. Todo esto deberá tenerse
en cuenta en la fase de planificación del estudio.
El tamaño de la Muestra es importante porque tiene relación estrecha con el costo de la Muestra. Para
reducir Costos se procura tomar una Muestra menor pero representativa y significativa.
La cuestión de que tan grande tomar una muestra surge inmediatamente en la planificación de cualquier
investigación o experimento. Esto es muy importante y no debe tratarse con ligereza. Tomar una
muestra más grande de lo necesario para alcanzar los resultados deseados, es un desperdicio de
recursos y tiempo, mientras que muestras muy pequeñas pueden conducir a conclusiones erróneas. El
tamaño de la muestra depende de la desviación estándar (S), del grado de confiabilidad (Z) y del ancho
del intervalo de confianza (e), o precisión.
El tamaño de la Muestra se calcula mediante procedimientos estadísticos. Vamos a presentar la
Fórmula que se aplican en el caso de que no se conozca con precisión el tamaño de la población, o
universos considerados infinitos o desconocido o Cuando se trata de medir una variable binomial
(acierto-error), es decir una proporción y que el tamaño de la población estudiada es grande, se puede
emplear la fórmula siguiente:
n
Z 2 pq
e2
2
Z2
Z 
, Si p = q = 50 %, entonces: n     n  2 .(1)
4e
 2e 
Donde n número de puntos de muestreo, p y q son la confiabilidad, e = error (medio intervalo de
confianza) y Z  = 1.96 para  = 0.05. Como se puede observa en la ecuación (1), el intervalo de
2
confianza del estimado de esta confiabilidad depende del número de unidades de muestreo (más
grande el tamaño de muestra, más pequeño el intervalo de confianza) y de la confiabilidad de la clase
(con el mismo número de unidades de muestreo, la confiabilidad se estima con menos precisión si está
cerca de 50 %).
Cuando se requiere determinar el tamaño de la muestra para estimar una proporción se tienen que
definir tres incógnitas:
1.- El nivel de confianza (Z) deseado.
2.- El error muestral permitido, e.
3.-La proporción real de éxito, p y la proporción de fracaso q = 1 – p.
En la práctica con frecuencia resulta difícil seleccionar estas tres cantidades. Una vez que se determina
el nivel de confianza deseado se estará en posibilidad de obtener el valor Z de la distribución normal
apropiado. El error muestral e señala la cantidad de error qué se está dispuesto a aceptar al estimar la
proporción de la población. La tercera cantidad, la proporción real de éxito, p, en realidad es el
parámetro de la población que se esta intentando determinar. Para ello hay dos alternativas:
l.-En muchas situaciones se cuenta con información anterior o con experiencias relevantes que
permiten obtener un estimado o información de p.
2.- Si no se cuenta con información anterior o con experiencias relevantes se intenta proporcionar un
valor para p que nunca subestime el tamaño de la muestra necesaria Es conveniente determinar el valor
de p de una forma tal que el producto p.q sea lo mayor posible, alcanzándose el máximo producto
cuando p = q = 0.50, entonces p.q = 0.25. Por lo tanto cuando se desconoce o no hay un estimado
previo de la proporción real de p se debe utilizar un p = 0.5 como la forma mas conservadora para
determinar el tamaño de la muestra. Sin embargo, la utilización de p puede dar como resultado una
sobrestimación en el tamaño de la muestra, pero es un riego que se debe asumir.
PROBLEMAS 1.- Un investigador social pretende que al investigar la proporción de deportistas
existentes actualmente en una universidad no se cometa un error mayor del 15 %. ¿Cuál deberá ser el
tamaño de la muestra para poder tener la certeza, con un grado de confianza del 99 %, de que la
estimación sea correcta?
SOLUCIÓN: Se puede observar que ante el desconocimiento, por cualquier medio, del parámetro p,
debemos obtener el tamaño de la muestra requerida para satisfacer las exigencias del investigador por
medio de la expresión:
2
Z2
Z 
n  n 2
4e
 2e 
Donde se tendrá que sustituir tanto el valor de Z correspondiente a un coeficiente de confianza de 99 %
que no es otro que 2,58 como el error máximo admitido que es 0.15 y como no se conoce un valor
estimado para p y q se tomara el máximo valor para este producto, es decir, p = q = 0.5. Luego se
aplica la formula:
2
Z2
(2.58) 2
6.66
Z 
n  n 2 

 70.0 . Por lo tanto el tamaño de la muestra será de 74.
2
4(0..023)
4e
4(0.15)
 2e 
2.- Supóngase que por estudios anteriores se tenga el conocimiento de que la proporción de deportistas
entre los estudiantes de una universidad es de 0.65. Se pregunta ¿Qué tamaño de muestra deberá
tomarse si se quiere que el error no exceda del 15 % Y con un grado de confianza del 99 %.
SOLUCIÓN: Tomando en cuenta que se tiene conocimiento de que la proporción de estudiantes que
practican algún deporte, en esa universidad, es de 0.65, se puede utilizar este valor como una
estimación de la proporción verdadera, en cuyo caso nos valdremos de la siguiente formula matemática
para obtener el tamaño de la muestra necesaria. Entonces, p  0.65,.q  0.35,.e  0.15.. y..Z   2.58.
2
2
n
Z 2 pq
e2
, sustituyendo los datos conocidos en esa formula se tiene:
(2.58) 2 (0.65)(0.35) 6.66 x0.23

 67. El tamaño de la muestra es entonces, 67.
0.23
(0.15) 2
n
Puede observarse como el conocimiento de alguna estimación del parámetro p ha hecho disminuir el
tamaño de la muestra necesaria para satisfacer la misma precisión. Esto demuestra que el valor que
tiene la información de experiencias pasadas sobre el hecho que se estudia.
En el caso de que sí se conozca el tamaño de la población, cuando la variable crítica es
dicotomica o Binomial, para la estimación de proporciones poblacionales o Universos
considerados finitos entonces el tamaño de la muestra se determina con la siguiente
formula:
n
Z2 2 N . p.q
e 2 N  Z2 2 p.q
, esta.. formula..se..usa.. para..N  30.
Cuando N<30 la formula que se tiene que utilizar es:
n
Z2 2 N . p.q
e 2 ( N  1)  Z2 2 p.q
.
Donde
n es el tamaño de la muestra;
Z es el nivel de confianza;
p es la variabilidad positiva;
q es la variabilidad negativa;
N es el tamaño de la población;
e es la precisión o el error.
Al conocer exactamente el tamaño de la población, el tamaño de la muestra resulta con mayor precisión
y se pueden incluso ahorrarse recursos y tiempo para la aplicación y desarrollo de una investigación.
Ejemplo 1: En los Colegios de Curas extendido por todo América del sur, se desea realizar una
investigación sobre los alumnos inscritos en primer y segundo años, para lo cual se aplicará un
cuestionario de manera aleatoria a una muestra, pues los recursos económicos y el tiempo para procesar
la información resultaría insuficiente en el caso de aplicársele a la población estudiantil completa.
En primera instancia, suponiendo que no se conoce el tamaño exacto de la población pero con la
Z 2 pq
seguridad de que ésta se encuentra cerca de los diez millardo, se aplicará la formula n  22 .
e
Se considerará una confianza del 95 %, un porcentaje de error del 5% y la máxima variabilidad (p.q)
por no existir antecedentes en la institución sobre la investigación y porque no se puede aplicar una
prueba previa.
Primero habrá que obtener el valor de Z de tal forma que la confianza sea del 95 %, es decir, buscar un
valor de Z tal que P(-Z<z<Z) = 0.95. Utilizando las tablas resulta que Z = 1.96.
De esta manera se aplica la formula n 
Z 2 pq
2
e2
, se realiza la sustitución y se obtiene n así:
(1.96) 2 (0.5)(0.5) (3,8416)(0.25) 0.9604
n


 384. Esto quiere decir que el tamaño de la muestra
0.0025
0.0025
0.05 2
es de 384 alumnos.
Supongamos ahora que sí se conoce el tamaño de la población estudiantil y es de 9,750, entonces se
Z 2 2 Np.q
n
aplicará la fórmula
. Utilizando los mismos parámetros la sustitución queda
Ne 2  Z  2 pq
como:
n
(1.96) 2 (0.5)(0.5)(9750)
9363.9

 369.5  370.0
2
2
(9750)(0.05)  (1.96) (0.5)(0.5) 25.34
Con lo que se tiene una cota mínima de 370 alumnos para la muestra y así poder realizar la
investigación sin más costo del necesario, pero con la seguridad de que las condiciones aceptadas para
la generalización (confiabilidad, variabilidad y error) se mantienen. Es importante destacar que el
resultado que se obtiene cuando no se conoce N (384) es muy similar al que se obtiene cuando N es
conocida (370).
EJEMPLO 2: El jefe del Departamento de Control de Estudio del IUTJAA, quiere comprobar a través
de una muestra aleatoria la proporción de estudiantes que han desertado del IUTJAA, cuya población
esta constituida por 7.000 alumnos. El jefe del departamento especifica que el error máximo admisible
no debe ser más de 5 % de la verdadera proporción, para el trabajo se requiere un nivel de confianza de
98 %, y el valor de p es estimado en 50 %. Encuentre el tamaño de la muestra requerido.
DATOS:
N = 7000
e = 0.05
Z al 98 % =2.33
P = 0.5
q = 0.5
n =?
SOLUCIÓN: Como lo muestra solicitada se refiere a las proporciones se aplicara la siguiente formula:
n
Z2 2 N . p.q
e 2 N  Z2 2 p.q

(2.33) 2 (2000)(0.5)(0.5)
2714.45

 426.80  427.0
2
2
6.36
(0.05) (2000)  (2.33) (0.5)(0.5)
Luego el tamaño de la muestra necesario para el estudio es de 427 alumnos, que tendrá que Tamar por
un muestreo del total.
Cuando el muestreo es sin reemplazo a partir de una población finita, SUPONIENDO UNA
DISTRIBUCIÓN NORMAL, se requiere la corrección por población finita, entonces la ecuación para
obtener el TAMAÑO DE LA MUESTRA para la estimación de la media poblacional, queda así:
e
n
N n
N 1
ZS
n
N 2 Z2 2
e 2 ( N  1)   2 Z2 2
Los investigadores consideran que esta formula solo se utiliza cuando N<30.
n
N 2 Z2 2
e 2 N   2 Z2 2
, Se utiliza para N>30..
Donde
n = es el tamaño de la muestra;
Z = es el nivel de confianza o valor critico correspondiente al nivel de confianza elegido
  Varianza poblacional o en su defecto la desviación típica muestral (S).
N = es el tamaño de la población o universo muestral
e  es la precisión o el error.
El grado de confiabilidad se toma de la tabla de t de Student si n  30..o..de..Z ..si..n  30.
La formula para el tamaño de la muestra requiere que se conozca  2 pero, generalmente este
parámetro no se conoce; entonces hay que estimarla. Las fuentes de estimación para la varianza
poblacional son:
Se puede extraer una muestra piloto para usarse la varianza calculada a partir de la muestra como una
estimación de  2 .
Puede contarse con estimaciones de  2 , obtenidas de estudios previos o semejantes.
EJEMPLO 1: Se desea determinar el tamaño de una muestra apropiada para medir la longitud de una
serie de tubos para hacer un gasducto, con una precisión de 5 cm. en la longitud de cada tubo y un
nivel de confianza de 95 %. Para tal efecto se tomo una muestra piloto de 10 tubos que arrojo una
varianza de 30.
DATOS:
N = 20
σ2 = 30
Z = 1.96
e=5
SOLUCIÓN: Como se sabe que número de tubos por lotes es de 20, se requiere la corrección por
población finita; luego se aplica la formula así:
n
N 2 Z2 2
e 2 ( N  1)   2 Z2 2
20.30(1.96) 2
2304.96
 2

 4.0
2
590.25
5 (19)  30(1.96)
Se concluye que con la variación observada y la precisión escogida, el tamaño de muestra adecuada es
4 tubos por lote.
EJEMPLO 2: Sea una población de obreros de tamaño N = 2000, de la que nos proponemos obtener
una muestra mediante un muestreo aleatorio, para estimar el sueldo promedio. Se quiere que la
estimación muestral no se aparte en más de 0.5 puntos (error máximo admisible) del promedio
verdadero, con un nivel de confianza de 95 %. La varianza poblacional es de 2.5 puntos.
DATOS:
N = 2000
e = 0.5
Z al 95 % = 1.96
σ2 = 2.5
n =?
SOLUCIÓN: Como se trata de la estimación de la media poblacional mediante muestreo aleatorio, se
aplicara la siguiente formula:
n
N 2 Z2 2
e 2 N   2 Z 2 2
2000(2.5)(1.96) 2
19208
19208



 37.69  38.0
2
2
500  9,604 509,604
(0.5) 2000  2.5(1.96)
Entonces el número de obreros que hay que seleccionar para que la estimación esté en el intervalo
(  0.5;..  0.5) con un nivel de confianza del 95 % es de n = 38 obreros.
Teorema Central del Límite
El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientes y
todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se
distribuye según una distribución normal.
Es decir, Si x1, x2,.....en son variables aleatorias independientes cada una con media
varianza   i2 , se cumple que cuando n tiende a infinito el cociente
 xi   i
 i2
i  y
tiende a
distribuirse normalmente con media = 0 y varianza  2 =1, aunque las distribuciones de las xi
sean distintas entre si.
Ejemplo: La variable "tirar una moneda al aire" sigue la distribución Binomial. Si lanzamos la moneda
al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye según una
distribución normal.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas. Los parámetros
de la distribución normal son:
Media: nµ (media de la variable individual multiplicada por el número de variables independientes)
2
Varianza: n.
individuales)
Ejemplo: Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale sello el valor
0. Cada lanzamiento es una variable independiente que se distribuye según el modelo Binomial, con
media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100 lanzamientos salgan más de 60
caras.
La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribución
normal.
Media = 100 x 0,5 = 50, Varianza = 100 x 0,25 = 25
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada
equivalente:
Z
X   60  50


5*
(*) 5 es la raíz cuadrada de 25, o sea la desviación típica de esta distribución
Por lo tanto:
P (X > 60) = P (Z > 2,0) = 1- P (Z < 2,0) = 1 - 0,9772 = 0,0228
Es decir, la probabilidad de que al tirar 100 veces la moneda salga más de 60 caras es tan sólo del
2,28%
Descargar