Distribuciones en el muestreo

Anuncio
2. Distribuciones de Muestreo
Conceptos básicos
Para introducir los conceptos básicos consideremos el siguiente ejemplo:
Supongamos que estamos interesados en determinar el número medio de televisores por
hogar en la ciudad de Caracas.
Para ello consideraremos primeramente:
Población: Conjunto de personas u objetos de interés en una Investigación.
Ej: Todos los hogares de la ciudad de Caracas
Muestra
Es una porción representativa de elementos de una población, elegida para su examen o
medición directa.
Note que generalmente es costoso el análisis de todos los datos, así que se hace necesario
realizar las mediciones de interés sólo en una porción representativa de la población e
inferir de ella resultados que corresponden a la población entera.
Ej: Medir la cantidad de televisores en un grupo de hogares de varias localidades,
municipios de la ciudad de Caracas, escogidos aleatoriamente de manera conveniente.
Parámetro
Es cualquier característica de una población, como la media de la población, la
desviación de la población, etc.
Ej: Número promedio de televisores por hogar en toda la ciudad de Caracas.
Estadístico
Es cualquier característica de una muestra, como la media de la muestra, la desviación de
la muestra, etc.
Ej: Número promedio de televisores calculado sólo a partir de los hogares que fueron
seleccionados en la muestra.
Muestreo
Proceso de selección de muestras, se utiliza cuando no es posible contar o medir todos los
elementos de la población objeto de estudio.
Tipos de Muestreo
Existen dos métodos para seleccionar muestras de poblaciones:
a) Muestreo no aleatorio o de juicio: Se emplea el conocimiento y la opinión personal
para identificar aquellos elementos de la población que deben incluirse en la muestra.
b) Muestreo aleatorio o de probabilidad: En el cual todos los elementos de la población
tienen la oportunidad de ser escogidos para la muestra. Dentro de este tipo de muestreo se
encuentran:
b.1) Muestreo aleatorio simple: el cual es un método de selección de muestras que
permite que cada muestra posible pueda ser elegida con la misma probabilidad. Por su
parte cada elemento de la población tiene la misma oportunidad igual de ser incluido en
la muestra.
b.2) Muestreo sistemático: método en el cual los elementos que se muestrearán se
seleccionan de la población en un intervalo uniforme que se mide con respecto al tiempo,
al orden o al espacio.
b.3) Muestreo estratificado: método en el que la población se divide en grupos
homogéneos, o estratos, y después se toma una muestra aleatoria simple de cada estrato.
Aquí la variabilidad dentro de cada grupo es pequeña y entre los grupos es grande.
b.4) Muestreo de racimo: método en el que la población se divide en grupos o racimos de
elementos, y luego se selecciona una muestra aleatoria de estos racimos. La variabilidad
dentro de cada grupo es grande y entre los grupos es pequeña; es como si cada racimo
fuese un pequeña representación de la población en si mima.
El seleccionar uno u otro tipo de muestreo depende del problema en cuestión.
Analicemos nuestro ejemplo.
Imagine que decidiéramos seleccionar una muestra simple aleatoria para nuestro
propósito, ésto significaría que podría darse el caso que la mayoría de las familias
seleccionadas para formar parte de la muestra fueran de un sitio de clase alta donde
quizás las casas tienen múltiples habitaciones y cada una de ellas con un televisor, de
manera que podríamos concluir que el promedio de televisores por familia es mucho
mayor que el que realmente es en promedio por vivienda en una familia venezolana.
En este ejemplo, quizás fuese más conveniente construir algunos estratos, que
representen las diferentes zonas de Caracas, y de cada uno de ellos escoger de manera
aleatoria un grupo de familia para realizar el estudio.
Error Muestral
Es la diferencia entre el parámetro de la población y el estadístico de la muestra utilizado
para estimar el parámetro.
Distribución muestral
Es una lista de todos los valores posibles de un estadístico y la probabilidad asociada a
cada valor. Se considerarán la distribución muestral de medias y la de proporciones.
Distribución muestral de medias
1. Definición: es la distribución de probabilidad de todas las medias posibles de
muestras de un tamaño dado, n, de una población.
2. Media de las medias muestrales: es el promedio de todos los valores posibles de
las medias que se pueden generar mediante las diversas muestras aleatorias
simples. Se puede demostrar que el valor esperado de las medias muestrales es
én se tiene que
igual a la media poblacional; es decir, E (x ) = x
x=
∑x
k
en donde k es el número de muestras.
3. Error estándar de la media: es la desviación estándar de la distribución de
muestreo de la media, por lo que mide el grado en que se espera que varíen las
medias de las diferentes muestras de la media de la población, debido al error
aleatorio en el proceso de muestreo. Al disminuir el error estándar, el valor de
cualquier media de muestra probablemente se acercará al valor de la media de la
población. (efecto del tamaño de la muestra sobre el error típico, es decir, a
medida que aumenta el tamaño de la muestra, se incrementa la precisión con la
que se puede usar la media de muestra para estimar la media de la población, sin
embargo, rara vez vale la pena tomar muestras excesivamente grandes ya que el
error estándar de la media varía inversamente con n , por lo que hay una utilidad
decreciente en el muestreo).
Usos: indica el tamaño del error de azar que se ha cometido, y además señala la
probable precisión que obtendremos si utilizamos una estadística de muestra para
estimar un parámetro de población.
La distribución
muestral de medias tiene un error estándar igual a:
Para población infinita con n>30, muestreo con reemplazo
o población normal :
x
=
n
n
Para población finita o muestreo sin reemplazo con
≥ 0,05 :
N
N-n
=
⋅
x
N -1
n
!
ón estándar de la población y n el tamaño de la
N -n
se le denomina factor de corrección
muestra. Al factor
N -1
4. Teorema del límite central: es un teorema a través del cual se asegura que la
distribución de muestreo de la media se aproxima a la normal, al incrementarse el
tamaño de la muestra. Este teorema permite usar estadística de muestra para hacer
inferencias con respecto a los parámetros de la población, sin saber nada sobre la
forma de la distribución de frecuencias de esa población más que lo que podamos
obtener de la muestra. Para efectos prácticos el tamaño de la muestra debe ser n
"$#%
Nota: si la distribución de la población es bastante simétrica, la distribución
muestral de la
media se aproxima a la normal si se seleccionan muestras pequeñas.
Aplicaciones:
Una aplicación muy corriente y útil de la distribución muestral es determinar la
probabilidad de que la media de una muestra caiga dentro de un intervalo
determinado. Puesto que la distribución muestral seguirá una distribución normal (ya
" #% sea porque la muestra se toma de una distribución normal, o porque n
teorema del límite central garantice la normalidad en el proceso de muestreo), se
podrá utilizar la variable tipificada para obtener la información necesaria en la toma
de decisiones.
x−
z=
x
Ejemplo 2.1:
El precio medio de ventas de casa nuevas en una ciudad americana es de $115 000 con
una desviación típica de $25 000. Se toma una muestra aleatoria de 100 casas nuevas de
esta ciudad.
a)¿Cuál es la probabilidad de que la media muestral de los precios de venta sea menor de
$110 000?
X: Precios de venta de las casas.
Dado que el tamaño de muestra n=100 > 30 podemos utilizar el Teorema Central del
Límite, así que tenemos que:
µ x = µ = 115000
25000
σ
=
= 2500
10
n
110000 − 115000 

P( X < 110000) = P Z <
 = Φ (−2) = 1 − 0.9772 = 0.0228.
2500


b) ¿Cuál es la probabilidad de que la media muestral se encuentre a menos de $500 de la
media poblacional?
σx =
(
)
P X − µ < 500 = P(114500 < X < 115500) = P(−2 < Z < 2) = 0.9772 − 0.0228 = 0.9544
Ejemplo 2.2
Se ha tomado una muestra de 16 directores de 100 oficinas de una ciudad con el fin de
estimar el tiempo medio diario que emplean en desplazarse hasta su trabajo. Si la media
de los tiempos es de 87 minutos y la desviación típica de 20 minutos, calcule la
probabilidad de que la media muestral sea menor de 100 minutos.
Como la población es finita y la muestra es sin reemplazo, debemos verificar si es o no
necesario el empleo del factor de corrección para calcular el error muestral.
Tenemos que: N = 100, n = 16 ,
n
= 0.16 > 0.05 , por lo que es necesario el Factor de
N
Corrección.
Entonces:
µ x = 87
σx =
20 100 − 16
= 4.605
4 100 − 1
100 − 87 

P(X < 100 ) = P Z <
 = Φ (2.82) = 0.9976
4.605 

Ejemplo 2.3:
Supongamos que el incremento porcentual de los salarios de los funcionarios de todas las
corporaciones medianas se distribuye normal con una media de 12.2% y una desviación
típica de 3.6%. Si se toma una muestra aleatoria de nueve observaciones de esta
población, calcule la probabilidad de que el incremento medio muestral porcentual sea
menor del 10%.
Como la distribución de la población es normal, tenemos que los parámetros de la
distribución muestral de la media son:
µ x = 12.2
3.6
= 1.2
σx =
3
− 2.2 

P(X < 10 ) = P Z <
 = Φ (−1.83) = 0.0306
1. 2 

Es realmente muy poco probable que el incremento medio porcentual esté por debajo del
10%.
Distribución muestral de proporción
1. Definición: es la distribución de probabilidad de todos los valores posibles de la
proporción muestral ( p̂ ).
2. Media de las proporciones muestrales: es la media de todos los valores posibles
de las proporciones que se pueden generar mediante las diversas muestras
aleatorias simples. Se puede demostrar que la media de las proporciones
muestrales p será igual a ón de la población). El valor esperado de las
proporciones muestrales es igual a la proporción poblacional; es decir, E ( pˆ ) = p .
3. Error estándar de la proporción: es la desviación estándar de la distribución de
muestreo de la proporción, por lo que mide el grado en que se espera que varíen
las proporciones de las diferentes muestras de la proporción de la población,
debido al error aleatorio en el proceso de muestreo.
La distribución de muestreo tiene un error estándar igual a:
Para población infinita con n>30 o muestreo con reemplazo:
p(1 − p )
p =
n
n
Para población finita y muestreo sin reemplazo con
> 0,05
N
p (1 − p )
N-n
⋅
p̂ =
N -1
n ón en la población y n el tamaño de la muestra.
En ambos caso
4. Teorema del límite central: es un teorema a través del cual se asegura que la
distribución muestral de la proporción se aproxima a la distribución normal, al
incrementarse el tamaño de la muestra. Este teorema permite usar estadística de
muestra para hacer inferencias con respecto a los parámetros de la población, sin
saber nada sobre la forma de la distribución de frecuencias de esa población más
que lo que podamos obtener de la muestra. Para efectos prácticos el tamaño de la
muestra debe ser n
n(1-p) deben ser mayores a 5.
!#"%$ &')(* 5. Aplicaciones: una aplicación muy corriente y útil de distribución muestral es
determinar la probabilidad de que la proporción de una muestra caiga dentro de
un intervalo determinado. Puesto que la distribución muestral seguirá una
distribución normal (ya sea porque la muestra se toma de una distribución normal,
o porque n
nˆp como n(1 − pˆ ) deben
ser mayores a 5, (el teorema del límite central garantiza la normalidad en el
proceso de muestreo), se podrá utilizar la variable tipificada para obtener la
información necesaria en la toma de decisiones.
p̂ − p
z=
+-,-./"01234-56798:$;;<
p̂
Observación:
En la terminología estadística, la distribución de muestreo que se obtendría al tomar todas
las muestras de un tamaño dado constituye una distribución teórica de muestreo. En la
práctica, el tamaño y el carácter de la mayor parte de las poblaciones impiden que los
responsables de las decisiones tomen todas las muestras posibles de una distribución de
población, sin embargo, se han desarrollado fórmulas para estimar las características de
estas distribuciones teóricas de muestreo, haciendo innecesario que se recolecten grandes
números de muestras. En casi todos los casos, los responsables de las decisiones sólo
toman una muestra de la población, calculan estadísticas para esa muestra y de esas
estadísticas infieren algo sobre los parámetros de toda la población.
Ejemplo 2.4
Se toma una muestra de 250 casas de una población de edificios antiguos para estimar la
proporción de casas de este tipo. Supongamos que el 30% de todos los edificios son
antiguos. Hallar la probabilidad de que la proporción de edificios antiguos esté entre 0.25
y 0.35.
Tenemos que p = 0.3 y n = 250 , note que aquí la población es infinita. Así que
p (1 − p )
n
0.3 * 0.7
= 0.029 y con ello:
250
 0.25 − 0.3 pˆ − 0.3 0.35 − 0.3 
P(0.25 < pˆ < 0.35) = P
<
<
 = Φ (1.72) − Φ (−1.72) = 0.9146
0.029
0.029 
 0.029
σp =
=
Es muy probable que la probabilidad de que la proporción de edificios antiguos esté en
ese intervalo.
Ejemplo 2.5:
Se ha estimado que el 43% de los licenciados en economía consideran que es muy
importante que se imparta un curso de ética en economía. De una población de 800
estudiantes se tomó una muestra de 80. Calcular la probabilidad de que más de la mitad
de ellos opinen de ese modo.
En este necesitamos el factor de corrección dado que:
n 80
=
= 0.1 > 0.05 por lo que obtenemos :
N 800
0.43 * 0.57 800 − 80
σp =
= 0.0525
80
800 − 1
La probabilidad que se nos pide es:
0.5 − 0.43 

P( pˆ> 0.5) = P Z >
 = P( Z > 1.33) = 1 − Φ (1.33) = 1 − 0.9082 = 0.0918
0.0525 

Por tanto es pequeña la probabilidad de que más de la mitad de los estudiantes consideren
necesario que se imparta ética en la licenciatura de economía.
Descargar