20 = n

Anuncio
Capítulo 7: Distribuciones muestrales
En este capítulo entraremos al final del ciclo del método científico, usando la información de la muestra para generalizar y llegar
a conclusiones acerca de la población de interés.
Recordemos algunas definiciones:
Parámetro es una medida de resumen numérica que se calcularía usando todas las unidades de la población. Es un número
fijo. Generalmente no lo conocemos.
Estadística es una medida de resumen numérica que se calcula de las unidades de la muestra. El valor de la estadística se
conoce cuando tomamos una muestra, pero varia de muestra en muestra Æ variación muestral
Inferencia estadística: es el proceso de sacar conclusiones acerca de la población basados en la información de una muestra de
esa población
Objetivos de la inferencia: estimación de parámetros, intervalos de confianza y docimasia, prueba o test de hipótesis (o prueba
de significación estadística)
Supongamos que se conocen las estaturas de todos los individuos de una población. Una medida que describa la
posición central de esta población sería el promedio de todas las estaturas Æ el parámetro µ.
Si sólo tuviéramos información sobre las estaturas de una muestra extraída de esta población, el promedio x calculado en la
muestra sería la estadística correspondiente.
Si nos interesa la dispersión de los valores individuales de las estaturas, calcularíamos la desviación estándar, que para la
población se simbolizará por σ y para la muestra por S.
La estimación de parámetros consiste en el cálculo de estadísticas en muestras, con el fin de obtener información sobre el valor de
los parámetros de la población. Esta inducción se basa en la teoría de probabilidades y sólo es posible cuando se conoce la
conducta o "distribución muestral" de las estadísticas.
La docimasia de hipótesis consiste en conocer la probabilidad de ocurrencia, bajo la hipótesis nula, del resultado obtenido en la
investigación, basándose en la distribución muestral de la estadística utilizada para medir tal resultado.
Distribuciones muestrales
Una estadística muestral proveniente de una muestra aleatoria simple tiene un patrón de comportamiento (predecible) en repetidas
muestras. Este patrón es llamado la distribución muestral de la estadística.
Si conocemos la distribución muestral podemos hacer inferencia. Las distribuciones muestrales adoptan diferentes formas según
las estadísticas investigadas y las características de la población estudiada.
7.1 Distribución muestral de una proporción muestral
La distribución muestral de la proporción muestral es la distribución de los valores de las proporciones muestrales de
todas las posibles muestras del mismo tamaño n tomadas de la misma población.
Suponga que estamos interesados en conocer la proporción de mujeres en Chile. Nuestro parámetro de interés es:
P=
número de mujeres en Chile
número de habitantes en Chile
La población es demasiado grande. Hacer un censo sería demasiado caro. Decidimos estimar el verdadero parámetro a partir de
una muestra.
La proporción muestral es:
pˆ =
Supongamos que sabemos que
número de mujeres en la muestra
tamaño de la muestra
P = 0,5 ¿Qué pasa si tomamos una muestra tamaño n = 20 ?
Muestra #1: H M H H H M M M H H H M H M M H H M H M
Muestra #2: M M H M H M M H H H H M H H M M M H M M
Muestra #3: H H M M M H H M H M H M H M M H H M M H
= 9/20 = 0,45
Proporción de mujeres p
= 11/20 = 0,55
Proporción de mujeres p
= 10/20 = 0,50
Proporción de mujeres p
1
En la práctica el investigador toma una muestra. El conocimiento de la distribución muestral nos servirá de base teórica para
hacer inferencia estadística.
Para conocer la distribución muestral de una estadística deberíamos considerar todas las posibles muestras de un tamaño n,
de una población. En la práctica, podemos simular la distribución muestral aproximada o empírica, de la siguiente manera:
1.
2.
3.
Seleccione "muchas" muestras aleatorias de mismo tamaño de una población.
En cada muestra calcule la estadística muestral
Determine la distribución muestral aproximada
Recuerden que al mirar una distribución nos interesa:
1.
2.
3.
Forma (simétrica o sesgada)
Posición central - la media de una distribución muestral nos dice si la estadística es un "buen" (insesgado)
estimador del parámetro o es sesgado.
Dispersión - nos da una idea del error de muestreo.
Sesgo y Precision
La figura adjunta ilustra la diferencia entre sesgo y precisión. El gráfico de la izquierda arriba muestra una estadística
precisa pero sesgada. El gráfico a la derecha arriba muestra una estadística insesgada, pero imprecisa. El gráfico de la
izquierda abajo muestra una estadística sesgada e imprecisa. Por último, el gráfico de la derecha abajo muestra una
estadística sesgada y precisa.
¿Cuál es la proporción de números pares de la tabla de números aleatorios?
Usando tabla de números aleatorios. Asumamos que el 50% de la población es par, es decir
P = 0,5 . Vamos a tomar 50
muestras de tamaño n = 4 de esta población. Seleccionamos un punto de partida y elegimos 4 números.
Tabla:
Número de pares
0
1
2
3
4
Total
Proporción muestral
0/4 = 0,00
1/4 = 0,25
2/4 = 0,50
3/4 = 0,75
4/4 = 1,00
Frecuencia
Proporción de todas las muestras
50
1
a) ¿Cuál fue la proporción más frecuente?
b) Dibuje la distribución muestral empírica. ¿Qué forma tiene?
2
Cada vez que tomamos una muestra tenemos una estimación para el parámetro P . Estas estimaciones varían entre muestras Æ
variación muestral.
Se puede demostrar que si tomamos una m.a.s. de tamaño n de una población con parámetro P , la desviación estándar de p̂ es:
σ pˆ =
P(1 − P)
n
que depende de la verdadera proporción P y del tamaño muestral n .
Si el tamaño muestral es n = 4 y la proporción en la población es P = 0,5 entonces la desviación estándar de
σ pˆ =
p es:
P(1 − P)
0,5(1 − 0,5)
=
= 0,25
n
4
¿Que pasa si aumentamos el tamaño muestral?
¿Que pasa con P ? ¿Cómo afecta el valor de P en la desviación estándar?
Distribución muestral de una proporción (recapitulación)
Si P representa la proporción de elementos en una población con cierta característica de interés, es decir, la proporción de
“éxitos”, donde “éxito” corresponde a tener la característica. Si sacamos muestras aleatorias simples de tamaño n de la población
donde la proporción de “éxitos” es P , entonces la distribución muestral de la proporción muestral tiene las siguientes
propiedades:
1.
El promedio de todos los valores posibles de p es igual al parámetro P . En otras palabras, p es un estimador insesgado de
P.
µ =P
p̂
2.
Error estándar de la proporción muestral: Es la desviación estándar de las posibles proporciones muestrales y mide la
dispersión de la proporción muestral.
σ pˆ =
P (1 − P )
n
Si analizamos la fórmula, vemos que la desviación estándar de p disminuye si el tamaño de la muestra aumenta.
3.
Si n es “suficientemente” grande, la distribución de la proporción muestral es aproximadamente Normal:
pˆ ~ N ( P,
P(1 − P)
) cuando nP ≥ 5
n
y n(1-P) ≥ 5
3
Sangre
En Chile el 5,3% de la población tiene sangre factor Rh(-). En una muestra aleatoria de 400 sujetos de esa población, se
encuentra que un 8,8% tiene factor Rh(-).
a)
¿cuál es el valor del parámetro?
b) ¿cuál es el valor de la estadística?
c)
¿Cuál es la probabilidad de que en una nueva muestra aleatoria de tamaño 400 de esa población contenga al menos un
8,8% de personas con sangre factor Rh(-)?
d) Suponga que se toma una muestra aleatoria simple de tamaño 10 de la misma población. Queremos calcular la
probabilidad de que 8,8% o más tenga sangre factor Rh(-).
7.2 Distribución muestral de la media muestral
La distribución muestral de la media muestral es la distribución de los valores de las medias muestrales de todas las
posibles muestras del mismo tamaño n tomadas de la misma población.
Considere una población cuya variable aleatoria X es discreta y con la siguiente distribución:
La media de la población es
Suponga que no conocemos la población o el valor de
µ =
µ . Podemos tomar una m.a.s. de tamaño n=2 de esta población.
¿Cuál sería una muestra de tamaño n=2 de esta población?
¿Cuál sería la media muestral?
¿Es igual a la media de la población?
Si tomamos otra muestra de tamaño n=2,
¿obtendríamos la misma media muestral?
4
Distribución muestral de la media muestral (resumen)
Si sacamos muestras aleatorias de tamaño n de una población con media µ y desviación estándar σ, entonces la distribución
muestral de la media muestral tiene las siguientes propiedades:
1.
El promedio de todos los valores posibles de medias muestrales es igual al parámetro µ. En otras palabras, la media muestral
x es un estimador insesgado de µ.
µ =µ
2.
x
Error estándar de la media muestral: Es la desviación estándar de las posibles medias muestrales.
σ =
x
σ
n
El error estándar disminuye si el tamaño de la muestra aumenta.
3.
Si la población original tiene distribución Normal, entonces para cualquier tamaño muestral n la distribución de la media
muestral es también Normal
Si X ~ N ( µ , σ ) ⇒ x ~ N ( µ ,
4.
σ
n
)
Si la población de origen no es Normal pero podemos calcular su media y desviación estándar y el tamaño muestral (n) es
“suficientemente” grande la distribución de la media muestral es aproximadamente Normal
Aún si X no es N ( µ , σ ) ⇒ x ~ N ( µ ,
σ
n
)
Notas:
- Un tamaño muestral de 30 es considerado suficiente.
- El resultado en (4) se conoce como el Teorema del Límite Central.
5
Suponga que X = peso de carga de camionetas en kilos, tiene distribución normal con media = 300 k y desviación
estándar = 25 kilos.
Se toma una muestra aleatoria de 40 camionetas cargadas y se calcula la media muestral.
Haga un esquema de las distribuciones de la variable aleatoria X y de la media muestral
Suponga que X = la edad de las madres en los nacimientos en Chile el año 1995, tiene distribución normal con media =
26,5 años y desviación estándar 6,3 años.
a) Dibuje la curva que representa la distribución de la edad de la madre.
b) ¿Cuál es la probabilidad de que una madre elegida al azar tenga más de 30 años?
c) Suponga que tomamos una muestra aleatoria de n=25 madres ¿cuál es la probabilidad de que la media muestral sea
mayor a 30?
d) ¿porqué las respuestas en (b) y (c) son distintas?
6
Descargar