TEMA 1: TEORÍA DE MUESTRAS. DISTRIBUCIONES EN...

Anuncio
TEMA 1: TEORÍA DE MUESTRAS. DISTRIBUCIONES EN EL MUESTREO
0. INTRODUCCIÓN
En el curso anterior hemos estudiado conceptos fundamentales, como era el concepto de variable
aleatoria y su distribución de probabilidades, estudiamos diferentes modelos de distribuciones tanto
de tipo discreto como de tipo continuo y analizábamos sus características básicas (media, varianza,
etc.). A partir de ahora estaremos interesados en saber qué modelo sigue la población, y para ello nos
basaremos en la información que se obtenga de un subconjunto o parte de esa población que
llamaremos muestra.
Cuando realizamos una introducción general de la estadística decimos que uno de los objetivos
fundamentales es obtener conclusiones basándonos en datos que se han observado, proceso que se
conoce con el nombre de inferencia estadística, es decir utilizando la información que nos proporciona
una muestra de la población se obtienen conclusiones o se infieren valores sobre características
poblacionales.
En este capítulo daremos una serie de conceptos básicos que serán fundamentales para el desarrollo
posterior de la inferencia estadística.
1. POBLACIÓN Y MUESTRA. CONDICIONES DE REPRESENTATIVIDAD DE UNA
MUESTRA.
a) Población.
Cuando una investigación estadística va referida a un conjunto, colección o colectivo de elementos,
este colectivo se llama población.
El tamaño de la población es el número de elementos o unidades estadísticas que la componen. La
población, por su tamaño, puede ser finita o infinita.
b) Muestra.
En ciertos estudios, cuando la población es muy grande, no se suele hacer una observación exhaustiva,
se estudia una parte de la misma llamada muestra. Para poder obtener conclusiones acerca de la
población, es imprescindible que la muestra sea representativa.
Muestra es una parte de la población, debidamente elegida, que se somete a la observación científica
en representación de la misma, con el propósito de obtener resultados válidos para toda la población.
El número de elementos de una muestra se denomina tamaño de la muestra.
Para que una muestra se considere válida debe cumplir que:
1 - Su tamaño sea proporcional al tamaño de la población.
2 - No haya distorsión en la elección de los elementos de la muestra.
3 - Sea representativa.
Los principales motivos que inducen a tomar muestras son:
1 - El coste económico y de tiempo.
2 - Que la población sea homogénea, pudiendo obtener buenos resultados a partir de cualquier
muestra.
3 - La falta de personal preparado para llevar a cabo un buen estudio general.
4 - La necesidad de obtener unos datos de forma rápida.
El uso del muestreo presenta limitaciones, entre ellas:
1 - El riesgo que supone la toma de una muestra que puede no ser representativa.
2 - Cuando se necesita información de todos los elementos de la población.
1
3 - Cuando no se domina bien la técnica del muestreo.
4 - Cuando la población está formada por un número muy pequeño de elementos, ya que una
ligera equivocación en la toma de la muestra puede originar grandes errores.
La forma de obtener conclusiones válidas para la población a partir de los datos de una muestra es el
objetivo principal de la inferencia estadística.
2. MUESTREO. TIPOS DE MUESTREO.
En un estudio estadístico de una población debemos decidir la forma en que seleccionamos las
muestras (muestreo) de tal manera que resulten representativas del total de la población. Los errores
en que podemos incurrir en la elección de muestras pueden sesgar las conclusiones.
Ejemplos típicos son:
 Muestreo de conveniencia. Cuando tomamos las muestras que cuestan menos esfuerzo.
 Voluntarısmo. Cuando se obtienen datos solo de aquellos individuos que deciden
espontáneamente dar su opinión, su propia actitud los selecciona como una muestra selecta.
Veamos cuáles son los tipos de muestras más comunes:
a) Muestreo aleatorio simple.
La muestra se puede elegir por distintos procedimientos. El principio que debe presidir la elección de
una muestra es el principio aleatorio, mediante el cuál todos y cada uno de los elementos de la
población tengan la misma probabilidad de ser elegidos y formar parte de la muestra. Se puede llevar a
cabo mediante un sorteo riguroso, obteniendo una serie de unidades estadísticas (con o sin
reemplazamiento) hasta completar la muestra fijada.
El muestreo aleatorio simple consiste en seleccionar n elementos sin reemplazamiento de entre los N
que componen la población, de tal modo que todas las muestras de tamaño n que se pueden formar
tengan la misma probabilidad de ser elegidos.
En la práctica, la muestra se obtiene unidad a unidad. Para ello, se enumeran los elementos de la
población desde el 1 hasta N y se extraen a continuación n elementos al azar o bien se introducen en
un bombo tantas bolas numeradas como elementos de la población. Removiendo el bombo se van
sacando bolas y anotando los números de los elementos de la muestra.
Este procedimiento, aunque simple, requiere tener unos medios materiales: bombo, bolas suficientes,
etc., por lo que a veces se utilizan en su lugar otras alternativas como las tablas de números aleatorios.
Las tablas de números aleatorios están formadas por grupos de dígitos obtenidos al azar y ordenados
por filas y columnas.
b) Muestreo aleatorio sistemático.
Se empiezan numerando todos los elementos de la población desde 1 a N. Para seleccionar los n
elementos que constituyen la muestra, es preciso obtener el coeficiente de elevación: h=(N/n).
Después se elige al azar un número i, llamado origen, comprendido entre 1 y h (1≤i≤h), que nos indica
el punto de arranque de la selección.
La muestra está formada por los elementos:
i , i+h , i+2h ,...., i + (n-1)h.
Este procedimiento exige, para que se pueda aplicar correctamente, que la población no presente
ninguna ordenación por la variable objeto de estudio y, si la hay, previamente habrá que desordenarla.
c) Muestreo aleatorio estratificado
2
En este caso, la población de N elementos está dividida en subpoblaciones o estratos de elementos
N1  N2  ...  Nk y, para elegir la muestra efectuamos un muestreo aleatorio estratificado.
I1
I2
I3
…
Ik
Total
Subpoblación
N1
N2
N3
…
Nk
N
Muestra
n1
n2
n3
…
nk
n
Se llama muestreo aleatorio estratificado al procedimiento completo de seleccionar, en cada estrato o
subpoblación, la muestra por muestreo aleatorio. La elección, en cada subpoblación, la podemos hacer
bien por muestreo aleatorio simple o bien sistemático.
Este tipo de muestreo se utiliza para obtener muestras en poblaciones no homogéneas, consiguiéndose
así una mayor precisión y menor error.
La muestra total está formada por la suma de las muestras correspondientes a cada estrato.
Cuando todas las muestras tienen un mismo tamaño en cada estrato, se dice que es un muestreo
aleatorio estratificado constante (o de afijación igual ).
Así, si hemos dividido la población en L subpoblaciones y la muestra es de tamaño n, en cada estrato
tomamos el mismo número de unidades estadísticas o elementos:
n1  n2  ...  nL 
n
L
Cuando el número de elementos seleccionados en cada estrato o subpoblación es proporcional a su
tamaño, se trata de un muestreo aleatorio estratificado proporcional (o de afijación proporcional).
n1
n
n
n
 2  ...  L 
N1 N 2
NL N
La muestra ni en cada estrato se toma de forma proporcional a su tamaño Ni
d) Muestreo por conglomerados
Es otro procedimiento de muestreo aleatorio en el que la unidad muestral, denominada conglomerado,
está formada por un grupo de unidades elementales, como bloques de viviendas, familias, colegios,
etc.
Este tipo de muestreo tiene la ventaja de que la muestra está más concentrada y, por tanto, es mucho
más fácil obtener las respuestas o los datos de las unidades últimas (individuos, alumnos, etc.)
Cuando los conglomerados se corresponden con zonas geográficas y se define el conglomerado como
área o parte bien definida del terreno, se habla de muestreo por áreas en lugar de hablar de muestras
por conglomerados.
El muestreo por conglomerado puede realizarse:
a) En una etapa: Si en los conglomerados que han pasado a formar parte de la muestra se toman
todas las unidades.
b) En dos o más etapas: Tenemos N individuos en una población, dividido en K grupos que
podemos tomar como conglomerados. Si queremos elegir n individuos de la muestra en K de estos
conglomerados, hemos de tomar una muestra a su vez en cada conglomerado seleccionado.
3
3. DISTRIBUCIONES EN EL MUESTREO
En este apartado estudiaremos las distribuciones de algunas variables aleatorias para muestras
procedentes de poblaciones normales, cuyos parámetros pueden, o no, ser conocidos.
Sabemos que muchos fenómenos que se observan en la realidad tienen distribuciones de frecuencias
relativas que al representarlas tienen una forma parecida a la distribución normal, por ello podemos
suponer que la mayoría de las poblaciones con las que nos encontraremos serán normales y las
variables aleatorias observadas en una muestra aleatoria ( X1 , X 2 ,... X n ) serán independientes y tienen
la misma distribución.
a) Distribución en el muestreo de una proporción.
Las chinchetas de una determinada marca no salen todas buenas y algunas resultan defectuosas. Sea p
la proporción de chinchetas buenas.
No sabemos el valor de p, pero podemos aproximarnos de alguna manera. Para ello, tomamos una
muestra aleatoria de 100 chinchetas y observamos que 86 de ellas están bien.
Al valor 86/100 lo llamamos p̂ , ya que no es el valor de p, pero sí da la proporción de chinchetas
buenas en la muestra elegida. Si elegimos otras muestras de tamaño 100, evidentemente el valor de p̂
varía.
Los distintos valores de p dan lugar a una variable aleatoria que representaremos por p̂ y que
llamaremos estadístico.
La distribución de los valores de p̂ se llama distribución muestral o distribución en el muestreo de
una proporción. Se demuestra que:
La variable aleatoria p̂ tiene las siguientes características:
1. Media: μ=p
2. Desviación típica: σ= p 1  p 
n
3. A medida que n crece, la distribución de p̂ se aproxima a la normal, siempre que p no se
acerque ni a 0 ni a 1.
b) Distribución en el muestreo de la media
Supongamos que se desea saber la altura media de los niños de 11 años de una ciudad. La altura
media poblacional la representaremos por μ, y por σ la desviación típica poblacional.
Con el fin de hacernos una idea de cómo puede ser μ, elegimos una muestra aleatoria formada por 40
niños, y se obtiene que:
* La altura media muestral es: x1 =140 cms.
* La desviación típica muestral es: s1 =16,5 cms.
Si elegimos otras muestras de tamaño 40 y calculamos sus medias y sus desviaciones típicas,
obtendremos: x2 , x3 ,…, xn y s 2 , s3 ,…, s n .
Los distintos valores de dan lugar a una variable aleatoria que representamos por X . La distribución
de los valores de X se llama distribución de las medias muestrales por depender de las muestras o
distribución en el muestreo de la media, y se demuestra que:
La variable aleatoria X tiene las siguientes características:
1. Media: μ
2. Desviación típica:

n
4
3. A medida que n crece, la distribución de X se aproxima a una normal.
 
Así X  N   ,

n

* Si σ es desconocida y n ≥30, la sustituiremos por s 
 x  x
i
n 1
2
(desviación típica muestral)
* Si σ es desconocida y n<30 los valores de s² varían considerablemente de muestra en muestra,
pues s² disminuye a medida que n aumenta, y la distribución de X ya no sería normal. "Si
( X1 , X 2 ,... X n ) es una muestra aleatoria simple de tamaño n, procedente de una población N(μ,σ) con
σ desconocida, entonces:
X  t-Student con n-1 grados de libertad"
c) Distribución de las sumas muestrales
El encargado del registro civil de una ciudad quiere saber cuánto suman las tallas de las parejas que
van allí a inscribirse. Supongamos que la suma de las tallas de la población tiene por media μ y
desviación típica σ.
Con el fin de hacernos una idea de cómo puede ser μ, elegimos una muestra aleatoria formada por 35
parejas, y se obtiene que:
* la talla suma media es: t1 = 2,35 m.
* la desviación típica de la muestra es: s1 = 0,15 m.
Si elegimos otras muestras de tamaño 35 y calculamos sus medias y sus desviaciones típicas,
obtendremos: t2 , t3 ,..., tn y s2 , s3 ,..., sn .
Los distintos valores de ti dan lugar a una variable aleatoria que representamos por T. La distribución
de los valores de T se llama distribución de las sumas muestrales, por depender de las muestras, o
distribución en el muestreo de las sumas, y se demuestra que:
La variable aleatoria T tiene las siguientes características:
1. Media: nμ
2. Desviación típica: σ n
3. A medida que n crece, la distribución de T se aproxima a la normal.
d) Distribución en el muestreo de la diferencia de medias.
Supongamos que la medida de los espárragos de La Rioja tienen de media 1 y desviación tipica 1 y
que los espárragos de Aranjuez tienen de media 2 y desviación típica  2 . Supongamos también que
ambas poblaciones se distribuyen normalmente y de forma independiente.
Tomamos una muestra de tamaño n1 de espárragos de La Rioja y una muestra de tamaño n2 de
espárragos de Aranjuez. Sean x1 y x2 sus longitudes medias respectivas.
Si elegimos otras muestras de tamaños n1 y n2 , respectivamente, y calculamos sus medias y las
diferencias de medias, se obtiene:
x1 ' x2' ;x1 " x2 " ;x1 '" x2 '",...
Estos distintos valores dan lugar a una variable aleatoria que representamos por X1  X 2 . La
distribución de X1  X 2 se llama distribución en el muestreo de la diferencia de medias, y se
demuestra que:
La variable aleatoria X1  X 2 tiene las siguientes características:
5
1. Media: 1  2
2
1
2. Desviación típica:  1   2
n1
n2
3. A medida que n1 y n2 crecen, la distribución de X1  X 2 se aproxima a la normal.
Si las desviaciones típicas son desconocidas y las muestras son grandes, sustituiremos 1 y  2 por s1
y s2 , respectivamente.
6
EJERCICIOS TEMA 1
1. Supongamos que el 30% de la población de viviendas de un país tienen más de un cuarto de aseo.
Con el fin de obtener una información más precisa se toma una muestra aleatoria de tamaño 400
viviendas. Obtener la probabilidad de que la proporción de viviendas de la muestra con más de un aseo
esté comprendida entre 0’25 y 0’32.
2. El 3% de las piezas producidas por una máquina son defectuosas. Se toma una muestra aleatoria de
100 piezas.
a) ¿Cuál es la distribución que sigue la proporción de piezas defectuosas en la muestra?
b) ¿Hallar la probabilidad de que en la muestra existan menos de 28 piezas defectuosas.
3. Después de unas elecciones se sabe que el candidato que ha sido elegido presidente obtuvo el 42%
de los votos. Hallar la probabilidad de que de 1.000 individuos elegidos al azar de entre los votantes
hubiese obtenido el candidato más de 450 votos.
4. Las notas de un grupo de alumnos es aproximadamente normal con media μ=5,5 y desviación típica
σ=0,8.
a) Hallar la media y la desviación típica de las medias muestrales y de las sumas para muestras de
tamaño 4.
b) Calcular la probabilidad de que la media muestral de 4 alumnos elegidos al azar sea mayor que
5,2.
c) Hallar la probabilidad de que la suma de las calificaciones obtenidas por los 4 alumnos sea
inferior a 21.
5. Se sabe que los niños españoles de enseñanza primaria ante una prueba de discriminación visual se
distribuyen según una N(4,2). Extraemos una muestra aleatoria formada por 39 niños y les pasamos la
prueba. Hallar la probabilidad de que la media muestral:
a) Sea menor que 3,5.
b) Sea mayor que 3,9.
c) Esté comprendida entre 3,8 y 4,1.
6. En una universidad se sabe que las tallas de los alumnos se distribuyen normalmente con media 172
cms. y desviación típica 17,5 cms. Se toman muchas muestras de 35 estudiantes.
a) ¿Cuál es la media y la desviación típica de la distribución de las medias muestrales?
b) Hallar la probabilidad de que la media muestral sea inferior a 171 cms.
7. El peso de los toros de una determinada ganadería se distribuye según una normal de media 500
kgs. y 45 kgs. de desviación típica. Se toman muestras de 35 toros y se calcula el peso medio.
Hallar la probabilidad de que la media muestral:
a) Sea mayor que 540 kgs.
b) Sea menor que 480 kgs.
c) Esté entre los 480 y 495 kgs.
8. El peso de las truchas de una piscifactoría sigue una ley N(200,50). Se toman muestras de 60
truchas y se calcula su peso medio.
Hallar las probabilidades de que la media muestral:
a) Sea mayor que 210 kgs.
b) Sea menor que 185 kgs.
c) Esté entre 210 y 225 kgs.
7
9. Se sabe que la talla media de los niños recién nacidos en la Comunidad Autónoma A se distribuyen
según una N(66,6), mientras que los de la Comunidad Autónoma B se distribuyen según una N(62,4).
Si se toman muestras al azar de 50 niños recién nacidos de cada Comunidad Autónoma:
a) ¿Cuáles son los parámetros media y desviación típica de la diferencia de medias muestrales?
b) Hallar la probabilidad de que la diferencia de medias de las tallas de los niños recién nacidos de
una de las muestras sea inferior a 3 cms.
10. En las pruebas de acceso a la Universidad A se ha obtenido una calificación media de 5,8 con una
desviación típica de 1,25; mientras que en las pruebas de acceso a la Universidad B se ha obtenido una
calificación media de 5,6 con una desviación típica de 1,5. Si se toman al azar 100 alumnos de cada
universidad, ¿cuál es la probabilidad de que los alumnos de A tengan una calificación media de al
menos 3 décimas superior a los alumnos de la Universidad B?
11. La compañía aérea A sabe que el tiempo de retraso de sus aviones se distribuye normalmente con
una retraso medio de 10 minutos y desviación típica 2 minutos, mientras que en otra compañía B su
retraso medio es de 15 minutos y desviación típica 4 minutos. Si se toman muestras al azar de 100
vuelos, hallar la probabilidad de que la diferencia en los tiempos medios de retraso sea menor que 1,5
minutos.
EJERCICIOS DE AMPLIACIÓN
1. Analizando los salarios de los trabajadores de dos comunidades autónomas se deduce que en la
comunidad A el salario medio es de 775€ con una varianza de 15€, y en la comunidad B el salario
medio es de 773€ con una varianza de 18€. Si tomamos una muestra aleatoria de 36 personas en A y
de 49 en B, determinar la probabilidad de que la muestra procedente de A tenga un salario medio que
sea al menos 1€ superior al salario medio de la comunidad B.
2. Las lámparas de un fabricante A tienen vida media de 1400 horas con una desviación típica de 200
horas, mientras que las de otro fabricante B tienen vida media de 1200 horas con una desviación típica
de 100 horas. Si se toma una muestra de 125 lámparas de cada clase.
a) ¿Cuál es la probabilidad de que las de A tengan una vida media que sea al menos de 160 horas
más que las de B?
b) ¿Cuál es la probabilidad de que las de A tengan una vida media que sea al menos de 250 horas
más que las de B?
3. Las bolas de rodamiento de cierto fabricante pesan 0,5 g. de media, con una desviación típica 0,02
g. ¿Cuál es la probabilidad de que dos lotes de 1000 bolas cada una difieran en peso en más de 2g.?
4. Un cierto tipo de lámparas tiene una vida media de 1500 h y una desviación típica de 150 h. Se
conectan tres de ellas de manera que en cuanto una falle es encenderán otra. Suponiendo que las vidas
medias están normalmente distribuidas:
a) ¿Cuál es la probabilidad de que den luz durante al menos 500 horas?.
b) ¿Cuál es la probabilidad de que den luz durante a lo sumo 4200 horas?.
8
Descargar