tema 7: teoría de muestras. estimación

Anuncio
Estadística Aplicada
Tema 7
TEMA 7: TEORÍA DE MUESTRAS. ESTIMACIÓN
1. INTRODUCCIÓN
Hasta ahora, hemos estudiado estadística descriptiva, una serie de procedimientos y técnicas, que
permitían un conocimiento descriptivo de las características básicas de una población.
Pero en general, no podremos casi nunca tratar con poblaciones al completo. Ya sea porque la
población a estudiar es muy grande, ya sea por motivos económicos, de falta de personal
cualificado, o para una mayor rapidez en la recogida y presentación de los datos, lo que se suele
hacer es obtener los datos, de tan sólo una muestra de la población. No podemos estudiar todos los
coches que salen de una cadena de producción para determinar su calidad, ni es posible ensayar un
medicamento en todas las personas, ni podemos costearnos preguntar a todos los españoles sobre
una cuestión cualquiera (salvo en un referéndum, votaciones, o en el censo, siendo estos los pocos
casos en que un estudio comprende a toda la población).
En consecuencia, deberemos contentarnos con utilizar muestras, que sean capaces de revelarnos
algo acerca de la población de las que han sido extraídas. De la forma de elegirlas, y las condiciones
que han de verificar, hablaremos en el siguiente epígrafe.
La Estadística inferencial se ocupa de extender o extrapolar a toda una población, informaciones
obtenidas de una muestra, así como de la toma de decisiones.
Al trabajar con muestras, hay que diferenciar los valores observados en la muestra, que llamaremos
estadísticos, de los valores reales correspondientes a la población, que llamaremos parámetros
poblacionales.
Observa desde muy de cerca la imagen de la izquierda. Observar esa imagen de esta manera, es
equivalente a tomar una muestra de una población. En principio solo tienes en tu mente un conjunto
de datos, que no te dicen nada. Sin embargo, si te alejas unos 5 metros y observas de nuevo la
imagen, empezarás a extraer más información, y posiblemente adivines que representa esta imagen.
Habrás hecho una inferencia de los datos muestrales, para tener una imagen del conjunto. Esta es en
resumidas cuentas el objeto de las técnicas que se describen en este curso: obtener muestras e inferir
datos sobre la población.
1 / 25
Estadística Aplicada
Tema 7
Así por ejemplo, cuando se pretende conocer de antemano los resultados de unas elecciones, se
suelen hacer encuestas sobre intención de voto, a una muestra de ciudadanos. Se trata en este caso,
de extrapolar para toda la población, los resultados derivados de la encuesta. La Estadística
Inferencial nos ayuda en este caso, aunque siempre existirá una probabilidad de equivocarse, y un
margen de error en los resultados obtenidos.
En otros casos, lo que se pretende es tomar decisiones, ya sea a partir de la estimación o de la
contrastación de un test, y aquí también la estadística inferencial nos lo permite, siempre con un
margen controlado de error.
2.- TEORÍA DE MUESTRAS
Como ya hemos dicho, nuestro objetivo va a ser a partir de ahora, el tratamiento estadístico de
muestras. ¿Pero bajo que condiciones, resulta apropiada una muestra? Existen una serie de factores
que inciden en la respuesta de esta pregunta, y que resultan fundamentales en estadística inferencial.
Para que los resultados obtenidos a partir de una muestra sean fiables, esta tiene que cumplir dos
condiciones fundamentales:
• Tener un tamaño adecuado.
• Que sus elementos hayan sido seleccionados de manera aleatoria.
Si cumple estas dos condiciones diremos que la muestra es representativa. En el caso en que la
selección no sea aleatoria se dirá que la muestra es sesgada.
Respecto a la primera condición, el tamaño que ha de tener la muestra, parece evidente, que a
mayor tamaño, más se acercaran los parámetros que calculemos a los de la población. En la práctica
real, el número de elementos de una muestra está determinado por una serie de factores: grado de
fiabilidad deseado, dificultad en la elección de los elementos que la compongan, tiempo necesario
para la elección, gastos originados,...
Respecto a la segunda condición, la cuestión más importante es ¿cómo deben ser elegidos los
elementos que la compongan? Será necesario que en el momento de la elección de los elementos de
la muestra, verifiquemos que todos los elementos de la población tienen igual probabilidad de ser
elegidos.
Cuando no se tienen en cuenta estos dos principios básicos, las inferencias realizadas son
deficientes. Existe una variedad de “mentiras estadísticas”, procedentes de afirmaciones basadas en
pequeñas muestras, o en muestras no representativas. Así por ejemplo, si se dice “7 de cada 10
dentistas consultados recomiendan el dentífrico X”, no debemos inferir que el 70% de los dentistas
los recomiendan, hasta saber de que forma fueron elegidos los dentistas consultados, y cuántos
fueron en total.
Ejercicio 1: En los años treinta, en Estados Unidos, se hizo una encuesta telefónica para pronosticar
el ganador de las siguientes elecciones presidenciales. El pronóstico fue que ganaría el candidato
republicano, pero en realidad ganó el candidato demócrata. ¿Crees que la muestra elegida fue
representativa? ¿Por qué? Ayuda: Piensa en la situación en los Estados Unidos en los años treinta.
Las consideraciones referentes al tamaño de la muestra, se estudiarán más adelante. Las referentes a
la forma de elegir la muestra, serán estudiadas ahora.
2 / 25
Estadística Aplicada
Tema 7
2.1 Tipos de muestreos
Existen básicamente dos tipos de muestreo, los aleatorios y los no aleatorios.
En los primeros, el aspecto principal, es que todos los miembros de la muestra han sido elegidos al
azar, de forma que cada miembro de la población tuvo igual oportunidad de salir en la muestra. Este
tipo de muestreo, que es el más consistente, es al mismo tiempo el que resulta más costoso, y el que
utilizaremos siempre en el desarrollo de los próximos epígrafes. Los centros oficiales como el INE,
utilizan siempre muestreos aleatorios.
Los segundos, carecen del grado de representatividad de los primeros, pero permiten un gran ahorro
en los costes. Se eligen los elementos, en función de que sean representativos, según la opinión del
investigador. Es el método que utilizan generalmente las empresas privadas, y presenta el
inconveniente de que la precisión de los resultados no es muy grande, y es difícil medir el error de
muestreo.
2.1.1 Muestreo aleatorio simple
Su utilización es muy sencilla, una vez que todos los elementos de la población han sido
identificados y numerados (y éste es probablemente su mayor inconveniente). A partir de aquí,
decidido el tamaño n de la muestra, los elementos que la compongan se han de elegir aleatoriamente
entre los N de la población.
El método más adecuado para la elección en nuestro caso, es la utilización de tablas de números
aleatorios.
Si queremos elegir una muestra formada por 40 elementos de una población de 600, iremos
tomando cifras aleatorias de tres en tres. Si la cifra considerada es menor de 600, ya tendremos
elegido un elemento de la muestra. Siguiendo este proceso, y saltándonos las cifras superiores a
600, podremos elegir todos los elementos que compondrán la muestra.
2.1.2 Muestreo aleatorio sistemático
Es análogo al anterior, aunque resulta más cómoda la elección de los elementos. Si queremos
obtener una muestra de tamaño n, en una población de tamaño N, procederemos así. Se ordenan y
numeran los elementos de la población. El primer elemento de la muestra, llamado origen, se
N
. Los demás valores se
obtiene al azar. Posteriormente, hallamos el entero k más próximo a
n
obtienen sumando al primer elemento el número k, teniendo en cuenta que, al sobrepasar N,
debemos empezar de nuevo.
Ejemplo: Si hemos de elegir 40 elementos de un grupo de 600. Se elige al azar un elemento de
salida, que supongamos es el 6. Posteriormente se calcula el cociente 600 : 40 = 15. El resto de los
elementos serán los que tengan los números: 6 + 15, 6 + 2 · 15, ..., 6 + 39 · 15.
Este procedimiento simplifica enormemente la elección de elementos, pero puede dar al traste con
la representatividad de la muestra, cuando los elementos se hayan numerados por algún criterio
concreto, y los k-ésimos tienen todos una determinada característica, que haga conformarse una
muestra no representativa.
Ejercicio 2: En un centro escolar estudian 350 alumnos de ESO y 150 de bachillerato. Explica
cómo se puede elegir por muestreo aleatorio simple una muestra de 25 alumnos.
3 / 25
Estadística Aplicada
Tema 7
2.1.3 Muestreo aleatorio estratificado
Cuando la población no es homogénea respecto a la variable aleatoria objeto de estudio, para
mejorar las estimaciones, conviene distinguir en ella, clases o estratos, y proceder a lo que se llama
un muestreo aleatorio estratificado.
En este tipo de muestreo los estratos se deben elegir de manera que sean lo más homogéneos
posible respecto a la variable aleatoria a estudiar y que entre ellos exista la mayor diferencia
posible.
Afijación: Es el reparto del tamaño de la muestra entre los diferentes estratos en que hemos dividido
la población.
Afijación Uniforme: Consiste en tomar para la muestra el mismo número de individuos por
cada estrato.
Afijación Proporcional: Consiste en distribuir los individuos que forman la muestra
proporcionalmente al número de individuos de cada estrato.
Una vez determinado el número de individuos que deben pertenecer a cada estrato, se procede a la
selección de individuos de cada estrato por muestreo aleatorio simple.
Ejemplo: En un instituto de enseñanza secundaria en que se ofertan los siguientes tipos de
enseñanza:
• Ciclos de grado superior: 110 alumnos.
• Bachillerato: 162 alumnos.
• Ciclos de grado medio: 210 alumnos.
• 2º ciclo de enseñanza secundaria obligatoria: 338 alumnos.
Se pretende valorar las faltas de ortografía que cometen los alumnos del centro mediante la
realización de una prueba consistente en un dictado de un texto de 20 líneas; la prueba se pasará a
una muestra de 50 alumnos, para minimizar el coste en tiempo y medios. En esta situación parece
conveniente utilizar para la extracción de la muestra el muestreo aleatorio estratificado con afijación
proporcional. Dividimos la población en cuatro estratos: ciclos de grado superior, ciclos de grado
medio, bachillerato y 2º ciclo de enseñanza secundaria obligatoria.
Como el número total de alumnos son 820 y la muestra debe estar formada por 50 alumnos, el
cálculo del número de alumnos que se han de tomar de cada estrato es:
Ciclos de grado superior:
820 
→ 110
50·110
≈7
 ⇒ x=
50 
820
→ x 
Bachillerato:
820 
→ 162
50·162
≈ 10
 ⇒ x=
50 
820
→ x 
Ciclos de grado medio:
820 
→ 210 
50· 210
≈ 13
 ⇒ x=
50 
820
→ x 
2º ciclo de Enseñanza Secundaria Obligatoria:
820 
→ 338
50·338
≈ 20
 ⇒ x=
50 
820
→ x 
4 / 25
Estadística Aplicada
Tema 7
Ejercicio 3: En un centro, hay 2000 alumnos, 720 en 3º de ESO, 700 en 4º de ESO, 340 en 1º de
Bachillerato, y 240 en 2º de Bachillerato. Si deseamos tomar una muestra de 100 alumnos, para
conocer la opinión que tiene el alumnado sobre una medida que ha tomado el Consejo Escolar,
¿cómo elegirías una muestra de 100 alumnos por muestreo aleatorio estratificado?
Solución: 3º de ESO: 36 alumnos; 4º de ESO: 35 alumnos; 1º de Bachillerato: 17 alumnos; 2º de Bachillerato: 12
alumnos.
2.1.4 Muestreo aleatorio por conglomerados
A veces, para simplificar los procesos de toma de datos, se empieza por elegir ciertos
conglomerados (que pueden ser bloques de viviendas, municipios, urnas electorales,...) y dentro de
ellos se realiza el muestreo aleatorio.
Si no disponemos de la relación de los elementos de la población, o de los posibles estratos, no
podemos aplicar los muestreos anteriores. Entonces, entra en escena el llamado muestreo por
conglomerados, donde en lugar de elegir individuos directamente, se eligen unidades más amplias
donde se clasifican los elementos de la población, llamados conglomerados. En cada etapa del
muestreo en lugar de seleccionar elementos al azar seleccionamos conglomerados. Los
conglomerados deben ser tan heterogéneos como la población a estudiar, para que la represente
bien. Luego se elegirían algunos de los conglomerados al azar, y dentro de éstos, se analizan todos
sus elementos o se toma una muestra aleatoria simple.
No debemos confundir estrato y conglomerado. Un estrato es homogéneo (sus elementos tienen las
mismas características), mientras que un conglomerado es heterogéneo (debe representar bien a la
población)
Ejemplo: Supongamos que queremos extraer una muestra aleatoria de los estudiantes universitarios
del país. Necesitaríamos una lista con todos ellos para poder realizar algún muestreo del tipo de los
3 anteriores, lo cual es muy difícil de conseguir. Sin embargo, los estudiantes están clasificados por
Universidades, Facultades y Clases.
Podemos seleccionar en una primera etapa algunas Universidades, después algunas facultades al
azar, dentro de las facultades algunas clases y dentro de las clases, algunos estudiantes por muestreo
aleatorio simple. Los conglomerados en cada etapa serían las diferentes Universidades, las
diferentes facultades y las diferentes clases.
Como vemos los conglomerados son unidades amplias y heterogéneas.
Ejercicio 4: Utilizando una tabla de números aleatorios, elige 15 elementos de una población
numerada del 1 al 89.
Ejercicio 5: Di de que forma elegirías una muestra de 50 alumnos de tu instituto, por muestreo
aleatorio simple, sistemático y estratificado (cada estrato una clase, o un nivel).
Ejercicio 6: De los 500 directores de complejos turísticos de nuestras Islas, 300 corresponden a
complejos de 20 o menos habitaciones, 150 a complejos de entre 20 y 50 habitaciones y por último
50 corresponden a complejos de más de 50 habitaciones. Si pretendieras hacer una encuesta a una
muestra de tamaño 50, ¿cómo la tomarías?
Ejercicio 7: Un hospital dispone de un listado de los pacientes, organizados por áreas de atención
(neurología, traumatología,....). Di que tipos de muestreo podrían realizarse, y como los harías.
5 / 25
Estadística Aplicada
Tema 7
Ejercicio 8: Alberto trabaja en un tren revisando que los viajeros llevan el billete correcto. Como
hoy el tren va totalmente lleno, 300 viajeros, no puede comprobar que todos los viajeros llevan el
billete correcto. Por ello va a revisar el billete a 75 pasajeros que los elegirá mediante un muestreo
sistemático. Explica cómo lo hará.
Nota: Aunque hemos descrito los más importantes métodos de muestreo aleatorio, en lo que sigue
supondremos siempre que el muestreo utilizado es el aleatorio simple.
3.- DISTRIBUCIONES MUESTRALES DE LAS MEDIAS.
TEOREMA CENTRAL DEL LÍMITE
Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la población lo que
obtengamos de una muestra. Imagina que de la población formada por todos los alumnos del
instituto, extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad,
encontrando que la edad media obtenida es de 15,8 años. Pero, ¿qué ocurriría, si extrajéramos otra
muestra? ¿Coincidirían las medias? ¿Y coincidirían con la media de la población? Lo cierto es que
parece lógico pensar que aunque no tengan porqué coincidir, si deberían estar bastante próximas.
Pero, ¿cuánto de próximas? ¿Dependería esta proximidad del tamaño de las muestras que elegimos?
Parece necesario, que estudiemos la variabilidad de las medias obtenidas de las muestras que
repetidamente se extraigan. El siguiente resultado, responde claramente a las preguntas planteadas.
3.1 Distribución muestral de las medias
Supongamos que se quiere estudiar la media µ de una población. Para ello consideramos todas las
muestras de tamaño n de la población objeto de estudio, M1, M2, … y calculamos sus medias, x1 ,
x2 , …
X
Sea X la variable aleatoria que asigna a cada muestra su media: Mi 
→ xi
La variable aleatoria X se denomina media muestral y la distribución que sigue se llama
distribución muestral de las medias.
Si µ y σ son la media y la desviación típica poblacionales, y µ X y σ X son la media y la desviación
típica de X , se verifica que:
•
La media de los datos, es la media µ de la población, es decir la media de las medias de las
muestras, µ X , es igual que la media de la población.
µX = µ
•
Estas medias se distribuyen alrededor de la media de la población, con una desviación típica
(llamada desviación típica de la media), igual a la de la población dividida por la raíz de n,
σ
es decir, la desviación típica de la media muestral es
.
n
σ
σX =
n
6 / 25
Estadística Aplicada
Tema 7
3.2 El teorema central del límite (TCL)
Si una población tiene media µ y desviación típica σ, y tomamos muestras de tamaño n (n ≥ 30, o
cualquier tamaño, si la población de partida es “normal”), las medias de estas muestras siguen
aproximadamente la distribución:
 σ 
N  µ,

n

Por tanto, la distribución de las medias muestrales, es una distribución de tipo “normal”, siempre
que la población de procedencia lo sea, o incluso si no lo es, siempre que el tamaño de las muestras
sea 30 o mayor.
ɵ n−1 :
Nota: Si σ es desconocida y n ≥ 30, se sustituye por la cuasidesviación típica muestral, σ
ɵ n−1 =
σ
n
σn
n −1
siendo σn la desviación típica muestral.
σ
, que
n
es el grado de variabilidad de las medias muestrales. Cuanto menor sea, más ajustadas a la media de
la población serán las medias que obtengamos de una muestra. De su propia definición, es fácil
darse cuenta de que cuanto mayor es el tamaño de la muestra, menor es este grado de variabilidad, y
por tanto más similar a la media de la población será la media obtenida de la muestra. Es decir,
cuanto mayor es el valor de n, mejor es la aproximación “normal”.
Hemos citado una cosa importante: la desviación típica de la distribución de las medias es
En términos más coloquiales, lo que en definitiva establece el TCL, es que la distribución de la
media, o de las sumas, de diferentes valores da como resultado una distribución normal. De ahí la
omnipresente aparición de distribuciones normales. Piensa en los factores biológicos y
antropométricos. Por ser el resultado de diferentes combinaciones genéticas y suma de muchos
diferentes factores, dan como resultados distribuciones normales. También por análogas razones
muchísimos parámetros sociológicos, económicos, físicos,… siguen distribuciones de este tipo.
Ejemplo: Una compañía aérea sabe que el equipaje de sus pasajeros tiene como media 25 kg. con
una desviación típica de 6 kg. Si uno de sus aviones transporta a 50 pasajeros, el peso medio de los
equipajes de dicho grupo estará en la distribución muestral de medias:
6 

N  25,
 = N (25; 0,84)
50 

La probabilidad de que el peso medio para estos pasajeros sea superior a 26 kg sería:
26 − 25 

P ( X > 26) = P  Z >
= P (Z > 1,18) = 0,1190 ≈ 11,90 %
0,84 

Ejercicios 9: Una variable aleatoria X sigue una distribución normal de desviación típica 3. Si se
consideran muestras de tamaño 16, ¿qué distribución sigue la media muestral?
Solución: Sigue una distribución normal con la misma media y desviación típica 0,75.
7 / 25
Estadística Aplicada
Tema 7
Ejercicios 10: Si una población sigue una distribución N (5; 0,5) y elegimos todas las muestras de
tamaño 100.
a) ¿Cuál es el valor de la media de las medias muestrales?
b) ¿A qué valor se aproxima la desviación típica?
Solución: a) µ = 5; b) σ = 0,05
Ejercicios 11: La masa de las peras de una cosecha se distribuyen normalmente con media 125 g y
una desviación típica de 20 g.
a) ¿Cuál es la probabilidad de que una pera elegida al azar pese más de 130 g?
b) ¿Cuál es la probabilidad de que el peso medio en una muestra de 25 peras sea mayor de
130 g?
Solución: a) 0,4013; b) 0,1056
4.- DISTRIBUCIÓN MUESTRAL DE LAS PROPORCIONES
Supongamos que se quiere estudiar qué proporción, p, de una población cumple cierta
característica. Para ello consideramos todas las muestras posibles de tamaño n de la población
p1 , p2 , …
objeto de estudio, M1, M2, … y calculamos la proporción en cada una de ellas, P
la variable aleatoria que asigna a cada muestra su proporción: Mi 
Sea P
→ pi
se llama distribución muestral de las
La distribución de probabilidad de esta variable aleatoria P
proporciones.
, respectivamente, se verifica que:
Si µ P y σ P son la media y la desviación típica de P
•
µ P = p
•
σ P =
•
se aproxima a una normal (siempre que
A medida que n crece (n ≥ 30), la distribución de P
p no se acerque a 0 o a 1):
∼ N  p, pq 
P

n 

p·q
=
n
p ·(1 − p)
n
Ejemplo: Imaginemos que sabemos que la proporción del alumnado de nuestro centro que es
favorable a realizar una huelga es del 60 %. Cuando elegimos a un alumno, y nos preguntamos si es
favorable a la huelga, es como si realizáramos una prueba binomial con probabilidad de éxito
p = 0,6.
Cuando elegimos muestras aleatorias de 70 alumnos, el número de ellos favorable a la huelga,
deberá seguir una distribución B (70; 0,6), o bien, la proporción de ellos que es favorable se debe
distribuir según:
∼ N  0, 6; 0, 6·0, 4  = N (0,6; 0,058)
P

70 

Es decir, las proporciones que vayamos encontrando para muestras de tamaño 70, se irán
distribuyendo de forma “normal” alrededor del 60 %, con una desviación típica del 5,8 %.
8 / 25
Estadística Aplicada
Tema 7
Ejercicios 12: En unas elecciones, el 52 % de la población votó al candidato A. Si antes de las
elecciones se hubiese hecho un sondeo en una muestra de 500 habitantes, ¿cuál hubiese sido la
probabilidad de obtener menos de un 50 % de votos para ese candidato, suponiendo que se ha
mantenido la intención de voto?
Solución: 0,1814
Ejercicios 13: Al 75 % de los jóvenes de una ciudad les gusta el cine. Si seleccionamos 25 muestra
de 100 jóvenes cada una, ¿en cuántas cabe esperar que el porcentaje de jóvenes cinéfilos esté
comprendido entre el 70 % y el 80 %? ¿Y si las muestras fueses de 1000 jóvenes?
Solución: 19; 25
5.- DISTRIBUCIÓN DE LAS SUMAS MUESTRALES
Supongamos que en la cafetería de una fábrica hay una máquina dispensadora de botellas de agua.
La empresa suministradora de agua desea averiguar ¿cuántas botellas se consumen al día por
término medio?
Supongamos que el consumo de botellas de agua por empleado tiene una media µ y una desviación
típica σ. Para hacerse una idea de cómo puede ser µ, podemos hacer lo siguiente.
Consideramos todas las muestras posibles de tamaño n de la población objeto de estudio,
M1, M2, … y calculamos la media en cada una de ellas, t1, t2, …
T
Sea T la variable aleatoria que asigna a cada muestra su media: Mi 
→ ti
Los distintos valores de ti dan lugar a una variable aleatoria que se representa por T. La distribución
de los valores de T se llama distribución de las sumas muestrales.
Dicha variable aleatoria T tiene las siguientes características:
•
•
•
Media: nµ
Desviación típica: σ n
A medida que n crece (n ≥ 30), la distribución de T se aproxima a una normal:
T ∼ N (nµ, σ n )
Ejemplo: Se sabe que el peso medio de los pasajeros de un avión es de 74 kg con una desviación
típica de 6 kg. Por las normativas de seguridad, la suma de los pesos de los pasajeros no puede
superar las 3 toneladas. Si la compañía aérea ha vendido 40 pasajes, ¿cuál es la probabilidad de que
cumpla con esa normativa de seguridad?
La suma de los pesos sigue una distribución N (nµ, σ n ) = N (40 · 74, 6 ·
40 ) = N (2960; 37,95).
La probabilidad pedida es, por tanto:
3000 − 2960 

P (T ≤ 3000) = P  Z ≤
= P (Z ≤ 1,05) = 0,8531
37, 95 

Ejercicio 14: Las notas de PAU de los estudiantes de una localidad tienen una media de 5,35 y
desviación típica de 1,26. Se toma al azar una muestra de 100 estudiantes. ¿Cuál es la distribución
que sigue la suma de las notas de la muestra?
Solución: N (535; 12,6)
9 / 25
Estadística Aplicada
Tema 7
Ejercicios 15: El ascensor de cierto edificio puede transportar una carga máxima de 300 kg.
a) Si el peso en kilogramos de los usuarios de ese ascensor tiene distribución N (63, 12), ¿cuál
es la probabilidad de que un grupo aleatorio de cuatro de ellos sobrepase el peso límite?
b) Se sabe que el 64,8 % de las veces que el ascensor es usado por un grupo de 4 personas, el
peso total de los usuarios no excede cierto peso x0 ¿Cuál es el valor de x0?
Solución: a) 0,0228; b) 261,12 kg
Ejercicios 16: Sabemos que las bolsas de azúcar producidas en una fábrica tienen una media de 500
gramos de peso y una desviación típica de 35 gramos. Dichas bolsas se empaquetan en cajas de 100
unidades. Calcula la probabilidad de que una caja pese más de 51 kilogramos.
Solución: 0,0021
6.- DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE MEDIAS
Supongamos que se quieren comparar las medias µ1 y µ2 de dos poblaciones diferentes. Para ello
consideramos todas las muestras posibles de tamaño n1 de la primera población, M11, M12, … y se
calculan sus medias, x11 , x12 , ... De forma análoga, se toman todas las muestras posibles de tamaño
n2 de la segunda población, M21, M22, … y se calculan sus medias, x 21 , x 22 , ...
Sea X 1 − X 2 la variable aleatoria que asigna a cada par de muestras de una y otra población la
X1 − X 2
diferencia de sus medias: (M1i, M2j) 
→ x1i − x 2 j
La distribución de probabilidad de esta variable aleatoria, X 1 − X 2 , se llama distribución muestral
de la diferencia de medias.
Si X 1 y X 2 son independientes y µ X − X
1
2
y σX −X
1
son la media y la desviación típica,
2
respectivamente, de X 1 − X 2 , respectivamente, se cumple que:
•
µ X − X = µ1 – µ2
•
σX −X =
•
•
Si las poblaciones tienen una distribución normal, X 1 − X 2 es normal.
Si las poblaciones no tienen una distribución normal, a medida que n1 y n2 crecen (n1 ≥ 30 y
n2 ≥ 30), la distribución de X 1 − X 2 se aproxima a una normal.
1
1
2
2
σ12 σ2 2
+
, siendo σ1 y σ2 las desviaciones típicas poblacionales.
n1
n2

σ2 σ 2 
X 1 − X 2 ∼ N  µ1 − µ 2 , 1 + 2 

n1
n2 

Nota: En el caso de que σ1 y/o σ2 sean desconocidas, pero n1 ≥ 30 y n2 ≥ 30, podemos considerar las
aproximaciones:
n1
n2
σ1 ≈ σɵ n1 −1 =
σn1
y
σ2 ≈ σɵ n2 −1 =
σn
n1 − 1
n2 − 1 2
siendo σn1 y σn2 las desviaciones típicas de las muestras de sendas poblaciones.
10 / 25
Estadística Aplicada
Tema 7
Ejemplo: La duración media, en años, de los frigoríficos de la marca A es 18, y la de los de la marca
B, 16. Las desviaciones típicas son 3 y 5 años respectivamente. Se toman 75 frigoríficos de la marca
A y 50 de la marca B, y se observa su duración media. ¿Cuál es la probabilidad de que la duración
media de la muestra A supere en más de un año a la duración de la muestra B?
Consideramos la variable aleatoria X 1 − X 2 que asigna a cada par formado por una muestra de A y
una de B la diferencia de sus duraciones medias.
Los datos del enunciado son: µ1 = 18, µ2 = 16, σ1 = 3 y σ2 = 5, n1 = 75 y n2 = 50.
Como se cumple que n1 = 75 ≥ 30 y n2 = 50 ≥ 30, se tiene que:

σ2 σ 2 
X 1 − X 2 ∼ N  µ1 − µ 2 , 1 + 2  = N

n1
n2 


32 52 
+  = N (2; 0,787)
18 − 16,

75
50 

Así:
1− 2 

P ( X 1 − X 2 > 1) = P  Z >
= P (Z > –1,27) = P (Z< 1,27) = 0,8980
0, 787 

Ejercicios 17: En la Comunidad A, el salario medio es de 1290 € con una varianza de 0,25 €, y el
Comunidad B, el salario medio es de 1286,21 € con una varianza de 0,3.
Si tomamos una muestra aleatoria de 36 personas en la Comunidad A y de 49 en la B, determina la
probabilidad de que la muestra procedente de A tenga un salario medio que sea al menos 4 €
superior al salario medio de B.
Solución: 0,0281
Ejercicios 18: Se selecciona una muestra de 16 observaciones que sigue una ley N (0, 4).
Seleccionamos otra muestra de 36 observaciones de una N (1, 3). Calcula la probabilidad de que la
media de la primera supere a la de la segunda.
Solución: 0,1867
7. ESTIMACIÓN
El objetivo principal de la estadística inferencial es el estudio de la población, y realizar
predicciones a cerca de ella pero a partir de una muestra, no de la población entera.
Distinguiremos, por tanto, entre:
1. Parámetros poblacionales o parámetros: Son los índices centrales y de dispersión que
definen a una población. Representaremos la media poblacional por µ, y la desviación típica
poblacional por σ. En el caso de proporciones, la proporción de población que tiene una
determinada característica la denotaremos por p y la proporción que no la cumple por
q = 1 – p.
2. Estadísticos poblacionales o estadísticos: Son los índices centrales y de dispersión que
definen a una muestra. Representaremos la media muestral por x y la desviación típica
muestral por σn. En el caso de proporciones, la proporción de muestra que tiene una
determinada característica la denotaremos por p y la proporción que no la cumple por
qɵ = 1 – p .
11 / 25
Estadística Aplicada
Tema 7
Llamaremos estimación, al procedimiento utilizado cuando se quiere conocer las características de
un parámetro poblacional, a partir del conocimiento de un estadístico de la muestra.
La estimación se puede realizar mediante dos procedimientos diferenciados:
•
Puntual: se toma como valor del parámetro poblacional el calculado para el estadístico
muestral.
•
Por intervalos de confianza: consiste en determinar un intervalo (a, b) tal que, para un
nivel de confianza 1 – α, se verifique que: P (parámetro ∈ (a, b)) = 1 – α.
7.1 Estimación puntual
En una primera aproximación, parece lógico pensar que si queremos determinar la media de una
cierta población, si hemos cogido una muestra representativa de dicha población, la media de la
muestra (que es fácilmente calculable) será muy parecida a la de la población y por tanto sirva para
estimarla.
Diremos que realizamos una estimación puntual, si de la muestra obtenemos un sólo valor que
extrapolamos directamente para el parámetro desconocido.
A la hora de estimar el valor del parámetro poblacional se exige al estadístico una serie de
propiedades:
− Centrado o insesgado: La media de la distribución muestral coincide con la media
poblacional.
− Eficiente: es el de menor varianza de entre todos los insesgados.
− Consistente: Al aumentar el tamaño de la muestra, las desviaciones o errores tienden a
desaparecer.
− Suficiente: facilita toda la información que tiene la muestra acerca del parámetro poblacional.
Si el estimador elegido cumple estas condiciones, tendremos una probabilidad alta de que el
parámetro estimado a partir de una muestra difiera poco del valor real. Esta probabilidad será mayor
cuanto más eficiente sea el estimador.
De lo estudiado en apartados anteriores podemos deducir que algunos buenos estimadores utilizados
para estimar puntualmente parámetros poblacionales son:
Muestra
Población
(Parámetro) (Estadístico)
µ
x
p
p
µ1 – µ2
X1 − X 2
σ
ɵ n−1
σ
12 / 25
Estadística Aplicada
Tema 7
7.2 Estimación por intervalos de confianza
La estimación anterior, la puntual, se utiliza poco, pues no tenemos datos suficientes que nos
indiquen el grado de fiabilidad del parámetro poblacional estimado.
Más completa que la estimación puntual es la estimación por intervalos de confianza, ya que en
lugar de proporcionarnos un solo valor como estimación del parámetro desconocido, nos da todo un
intervalo donde puede encontrarse dicho valor.
Este procedimiento de estimación nos permite calcular dos valores entre los que esperamos que esté
el parámetro buscado con un cierto nivel de confianza, que llamaremos 1 – α, donde α es el nivel
de riesgo fijado de antemano.
Supongamos que decidimos estimar el valor de un parámetro A por intervalos de confianza.
Nuestro objetivo será encontrar un intervalo I, obtenido a partir de una muestra, tal que exista una
probabilidad elevada de que contenga al parámetro λ.
Llamamos intervalo de confianza para un parámetro λ, con un nivel de confianza, 1 – α, siendo
0 < α < 1 (a α se le llama nivel de significación), a un intervalo real (a, b), tal que la probabilidad de
que el parámetro λ pertenezca a dicho intervalo es 1 – α, es decir:
P (a ≤ λ ≤ b) = 1 – α
Se llama error de estimación, al radio de anchura del intervalo de confianza.
A continuación, vamos a determinar el intervalo de confianza. Supongamos que queremos hacer
una estimación por intervalos de confianza con nivel de confianza 1 – α del parámetro λ.
Sea S un estimador insesgado del parámetro λ, y supongamos que S tiene distribución normal de
media µS (µS = λ) y desviación típica σS. Se trata de determinar un intervalo I tal que:
P (λ ∈ I) = 1 – α
Puesto que S ~ N (λ, σS), al tipificar obtenemos:
Z=
S −λ
~ N (0, 1)
σS
Puesto que la distribución de Z está tabulada,
podemos hallar el intervalo (– zα/2, zα/2) tal que:
P (– zα/2 ≤ Z ≤ zα/2) = 1 – α
El valor zα/2 se llama valor crítico de nivel de
confianza 1 – α.
Pero se verifica que:
S −λ
≤ zα/2
⇔
σS
–S – zα/2 · σS ≤ –λ ≤ S + zα/2 · σS
⇔
– zα/2 ≤ Z ≤ zα/2
⇔
⇔
– zα/2 ≤
13 / 25
– zα/2 · σS ≤ S – λ ≤ zα/2 · σS
S – zα/2 · σS ≤ λ ≤ S + zα/2 · σS
⇔
Estadística Aplicada
Tema 7
Por tanto, se cumple que:
P (– zα/2 ≤ Z ≤ zα/2) = 1 – α
⇔
P (λ ∈ (S – zα/2 · σS, S + zα/2 · σS)) = 1 – α
Vemos, pues, que conocido el valor del estimador en una muestra M, S (M) = λɵ , el intervalo de
confianza con nivel de confianza 1 – α viene dado por:
Iα ( λɵ ) = ( λɵ – zα/2 · σS, λɵ + zα/2 · σS)
A continuación puedes ver el procedimiento que debemos seguir para calcular estos valores críticos.
•
•
Fijamos el nivel de confianza 1 – α.
Buscamos zα/2 tal que:
1 – α = P (–zα/2 ≤ Z ≤ zα/2) = P (Z ≤ zα/2) – P (Z ≤ – zα/2) =
= P (Z ≤ zα/2) – [1 – P (Z ≤ zα/2)] = 2 P (Z ≤ zα/2) – 1
Entonces:
P (Z ≤ zα/2) = 1 –
•
α
2
Usando las tablas de la distribución normal estándar se obtiene el valor zα/2.
Ejemplo: Si 1 – α = 0,95, entonces α/2 = 0,025. Luego si zα/2 deja a su derecha un área igual a
0,025, a su izquierda dejará un área igual a 1 – α/2 = 1 – 0,025 = 0,975.
Buscando en las tablas de la N (0, 1), tenemos que zα/2 = 1,96.
Ejercicio 19: Calcula los valores críticos para unos niveles de confianza del 90 % y del 99 %.
Solución: 1,65; 2,58
7.2.1 Intervalo de confianza para la media µ
 σ 
Sabemos que si la población de partida es normal, o si n ≥ 30, entonces X ~ N  µ,
.
n

14 / 25
Estadística Aplicada
Tema 7
Así, si calculamos el valor de la media correspondiente a la muestra M de tamaño n, X (M) = x , se
tiene que el intervalo de confianza para la media con nivel de confianza 1 – α es:
σ
σ 

, x + zα / 2
 x − zα / 2

n
n

Recuerda: En el caso de que σ sea desconocida, como estamos suponiendo n ≥ 30, podemos
aproximar σ por el valor:
n
σ ≈ σɵ n−1 =
σn
n −1
siendo σn la desviación típica asociada a la muestra.
Ejemplo: Las especificaciones de un fabricante de botes de pintura dicen que el peso de los botes
sigue una distribución normal de media 1 kg de pintura y una desviación estándar de 0,1 kg.
a) ¿Cuál es la media y la desviación estándar de la media muestral de los pesos de una muestra
aleatoria simple de 20 botes?
b) Se ha comprado un lote del que se ha tomado una muestra de 20 botes y en el que la media
de los pesos obtenidos es de 0,98 kg, Construye un intervalo de confianza del 95 % para la
media.
a) La distribución de la media muestral de tamaño n obtenidas en una población de media µ y
 σ 
desviación típica σ, N (µ, σ), se distribuye según una normal N  µ,
 . En nuestro caso:
n

Población: X ≈ N (1; 0,1)
 0,1 
Media muestral: X ≈ N 1,
 ≈ N (1; 0,022)
20 

b) El intervalo de confianza de la media poblacional, para las muestras de tamaño muestral n de
media x , es:
σ
σ 

, x + zα / 2
 x − zα / 2

n
n

siendo σ la desviación típica poblacional y zα/2 el valor correspondiente en la tabla normal para una
confianza de 1 – α.
En este caso: x = 0,98, σ = 0,1, n =20 y, para el 95 % de confianza, zα/2 = 1,96. El intervalo pedido
es:
σ
σ  
0,1
0,1 

, x + zα / 2
, 0,98 + 1, 96
 = (0,937; 1,023)
 x − zα / 2
 =  0,98 − 1,96
n
n 
20
20 

Ejercicios 20: Las alturas, expresadas en centímetros, de los estudiantes de segundo de Bachillerato
se distribuyen normalmente con una desviación típica de 20 cm. En un colectivo de 500 estudiantes
de segundo de Bachillerato se ha obtenido una media de 160 cm. Calcula, con una probabilidad del
98 %, entre qué valores estará la media de la altura de la población total de estudiantes de segundo
de Bachillerato. Interpreta el significado del intervalo obtenido.
Solución: I = (157,16; 162,08); En al menos el 98 % de las posibles muestras, la media de la altura de la población está
entre (157,162,08)
15 / 25
Estadística Aplicada
Tema 7
Ejercicios 21: Se quiere conocer la permanencia media de pacientes en un hospital, con el fin de
estudiar una posible ampliación del mismo. Se tienen datos referidos a la estancia, expresada en
días, de 800 pacientes, obteniéndose los siguientes resultados: x = 8,1 días; s = 9 días. Se pide
obtener un intervalo de confianza del 95 % para la estancia media.
Solución: I = (7,476; 8,723)
Ejercicios 22: Se hizo una encuesta aleatoria entre 130 estudiantes universitarios, de los cuales 85
eran mujeres, sobre el número de horas que estudian diariamente fuera del aula, obteniéndose una
media de 3,4 horas.
a) Si la desviación típica es de 1,1 horas, obtener un intervalo de confianza, al 98 %, para la
media del número de horas que estudian diariamente fuera del aula los estudiantes
universitarios.
b) Obtener un intervalo de confianza, al 90 %, para la proporción de mujeres entre los
estudiantes universitarios.
Solución: a) I = (3,175; 3,625)
b) I = (0,6123; 0,6957)
7.2.2 Intervalo de confianza para la proporción p
Veamos ahora cómo calcular el intervalo de confianza para la proporción p de individuos de una
población que cumplen cierta característica.

Sabemos que si n ≥ 30, entonces, p ~ N  p,

p ·(1 − p ) 
 . Así, si calculamos el valor de la
n

(M) = p , se tiene que el intervalo de
proporción correspondiente a la muestra M de tamaño n, P
confianza para la proporción con un nivel de confianza 1 – α es:

 p − zα/2

p (1 − p ) , p + zα/2
n
p (1 − p ) 

n

En la práctica p es desconocido, pero como n ≥ 30, se sustituye p por p . Así, en la práctica el
intervalo de confianza que se utiliza es el que viene dado por la fórmula:

p (1 − p )
p (1 − p ) 
 p − zα/2

, p + zα/2


n
n


Ejemplo: Si en una muestra de tamaño 30 hay 12 alumnos con dos o más hermanos, halla un
intervalo de confianza del 75 % para la proporción de dichos alumnos en la población.
12
La proporción de la muestra es p =
= 0,3. El intervalo de confianza para la proporción de la
30
población es:

p (1 − p )
p (1 − p ) 
 p − zα/2

, p + zα/2


n
n


siendo p la proporción de la muestra, n el tamaño muestral y zα/2 el valor correspondiente en la
tabla normal para una confianza de 1 – α. En nuestro caso, para el 75 % de confianza, zα/2 = 0,8092;
16 / 25
Estadística Aplicada
Tema 7
p = 0,3, n = 30. Luego, el intervalo de confianza será:

p (1 − p )
p (1 − p ) 
 p − zα/2
=
, p + zα/2


n
n



0, 3·0, 7
0,3·0, 7 
=  0,3 − 0,8092
,
0,3
+
0,8092
 = (0,232; 0,368)

30
30


Ejercicios 23: De una muestra aleatoria de 2100 personas de una población hay 630 que leen un
determinado diario. Calcular el intervalo de confianza para la proporción poblacional para un nivel
de confianza del 99 %.
Solución: I ≈ (0,274, 0,326)
Ejercicios 24: Tomada al azar una muestra de 60 alumnos de la universidad se encontró que un
tercio hablaban el idioma inglés. Hallar, con un nivel de confianza del 90 %, un intervalo para
estimar la proporción de alumnos que hablan el idioma inglés entre los alumnos de la universidad.
Solución: I ≈ (0,23; 0,43)
7.2.3 Intervalo de confianza para la diferencia de medias
Hemos visto que si las dos poblaciones de partida tienen distribución normal, o si n1 ≥ 30 y n2 ≥ 30,
entonces:

σ2 σ 2 
X 1 − X 2 ∼ N  µ1 − µ 2 , 1 + 2 

n1
n2 

Así, si calculamos el valor de la diferencia de medias correspondientes a las muestras M1 y M2 de
tamaños n1 y n2, respectivamente, X 1 − X 2 (M1, M2) = x1 – x2 , se tiene que el intervalo de
confianza para la diferencia de medias a un nivel de confianza 1 – α es:

σ12 σ 2 2
σ12 σ2 2 
+
, x1 − x2 + zα / 2
+
 x1 − x2 − zα / 2


n1
n2
n1
n2 

Recuerda: En el caso de que σ1 y/o σ2 sean desconocidas, pero n1 ≥ 30 y n2 ≥ 30, podemos
considerar las aproximaciones:
n1
n2
σ1 ≈ σɵ n1 −1 =
σn1
y
σ2 ≈ σɵ n2 −1 =
σn
n1 − 1
n2 − 1 2
Ejemplo: Dos fábricas A y B empaquetan bombones en cajas. Los pesos de las cajas de A se
distribuyen según una N (µ1, 15) y los pesos de B según una N (µ2, 10). En una muestra de 18 cajas
de A se ha observado un peso medio de 256 g, y en una muestra de 20 cajas de B, un peso medio de
245 g. Halla el intervalo de confianza para la diferencia de medias, con un nivel de confianza del
92 %.
Los datos del enunciado son:
1 – α = 0,92 ; x1 = 256 ; x2 = 245 ; σ1 = 15 ; σ2 = 10 ; n1 = 18 ; n2 = 20
17 / 25
Estadística Aplicada
Tema 7
A partir de las tablas de la normal tipificada, deducimos que para un nivel de confianza 1 – α = 0,92
el valor crítico zα/2 = 1,76. Por lo que el intervalo de confianza para la diferencia de medias es:

σ2 σ 2
σ2 σ 2 
 x1 − x2 − zα / 2 1 + 2 , x1 − x2 + zα / 2 1 + 2  =

n1
n2
n1
n2 


152 102
152 102 
+
, 256 − 245 + 1, 76
+
 256 − 245 − 1, 76
 = (3,637; 18,363)


18
20
18
20


Ejercicios 25: Una muestra de 50 bombillas de la marca A dio una vida media de 1500 h y una
desviación típica de 100 h. Una muestra de 65 bombillas de la marca B dio una vida media de
1400 h y una desviación típica de 150 h. Halla el intervalo de confianza para la diferencia de medias
de ambas marcas, con un nivel de significación del 6 %. Si ambas marcas venden las bombillas al
mismo precio, ¿cuáles conviene comprar? ¿Por qué?
Solución: (55,45; 144,55). Las de la marca A.
Ejercicios 26: Se desea comprobar la eficacia de dos tipos de somnífero en pacientes con insomnio.
El somnífero A dio, en una muestra de 60 pacientes, una media de 7,15 h de sueño, con una
desviación típica de 0,65 h. El somnífero B dio, en una muestra de 80 pacientes, una media de
6,85 h de sueño, con una desviación típica de 1,15 h. Halla el intervalo de confianza para la
diferencia de medias, con un nivel de significación del 5 %.
Solución: (–0,003; 0,603)
8. ERROR DE ESTIMACIÓN Y TAMAÑO MUESTRAL
Al iniciar la unidad vimos diferentes maneras de seleccionar una muestra para que fuera
representativa de la población. Otro problema que se ha de resolver a la hora de elegir una muestra
es el de determinar su tamaño n.
Cabe esperar que la fiabilidad de las estimaciones sea mayor cuanto más grande sea la muestra,
pero condicionantes económicos, operativos, de tiempo, ... aconsejan no trabajar con muestras muy
grandes.
El tamaño de la muestra se elige en función del error máximo que queramos asumir en las
estimaciones que hagamos a partir de ella.
Supongamos, por ejemplo, que deseamos aproximar el parámetro poblacional λ utilizando el
estimador S. Para tener una medida de la fiabilidad de tal estimación, consideramos el intervalo de
confianza para el parámetro con un nivel de confianza 1 – α, Iα( λɵ ).
Al ser Iα( λɵ ) = ( λɵ – zα/2 · σS, λɵ + zα/2 · σS), y puesto que P (λ ∈ Iα( λɵ )) = 1 – α, podemos asegurar
con probabilidad 1 – α que:
| λ – λɵ | ≤ zα/2 · σS
Luego es posible afirmar que el error máximo, E, que cometeremos aproximando λ por λɵ es:
E = zα/2 · σS
18 / 25
Estadística Aplicada
Tema 7
Observa que zα/2 está predeterminado, pero σS depende de n, con lo que podemos hacer que el error
aumente o disminuya según el tamaño n de la muestra.
En el caso en que estemos estimando una media poblacional, el error vendrá dado por:
E = zα/2
σ
n
Con un nivel de confianza del (1 – α) admitimos que la diferencia entre la estimación para la media
y su valor real es menor que E, el error máximo admisible.
El tamaño de la muestra depende del nivel de confianza que se desee para los resultados y de la
amplitud del intervalo de confianza, es decir, del error máximo que se esté dispuesto a admitir.
Fijados estos, 1 – α y E, podemos calcular el tamaño mínimo de la muestra que emplearemos:
σ

n =  zα / 2 
E

2
De la expresión del tamaño de la muestra, se deduce muy fácilmente, que deberá ser mayor cuanto
mayor sea:
a) El nivel de confianza asignado.
b) El grado de variabilidad de los datos originales.
Por el contrario, cuanto mayor sea el tamaño de la muestra, menor será el error de la estimación.
En el caso en que estemos estimando una proporción poblacional, el error vendrá dado por:
E = zα / 2
p(1 − p)
n
Con un nivel de confianza del (1 – α) admitimos que la diferencia entre la estimación para la
proporción a partir de la muestra y su valor real es menor que E, el error máximo admisible.
El tamaño de la muestra depende del nivel de confianza que se desee para los resultados y de la
amplitud del intervalo de confianza, es decir del error máximo que se esté dispuesto a admitir.
Fijados estos, 1 – α y E, podemos calcular el tamaño mínimo de la muestra que emplearemos:
2
z 
n =  α / 2  p (1 − p )
 E 
Nota: Si no disponemos de información sobre p , podemos suponer que p = 0,5, ya que este valor
corresponde al caso de máxima varianza.
Ejemplo: Para conocer el cociente intelectual de los estudiantes de una universidad, ¿de qué tamaño
conviene tomar la muestra para que, con una confianza del 98 %, la media muestral y la poblacional
no difieran en más de 3 puntos? Se sabe que la desviación típica poblacional es de 15 puntos.
Los datos que aparecen en el enunciado son:
1 – α = 0,98
;
σ = 15
19 / 25
;
E=3
Estadística Aplicada
Tema 7
A partir de las tablas de la normal tipificada, se tiene que zα/2 = 2,33. Sustituyendo en la fórmula
que nos da el error máximo, se obtiene:
E = zα/2
σ
n
⇒
3 = 2,33 ·
15
n
⇒
n =
2, 33·15
= 11,65
3
⇒
n = 135,72
Como n ha de ser entero, se toma n = 136 (aproximación por exceso del valor de n obtenido, para
que el error sea algo menor que el pedido, y no algo mayor). Por tanto, la muestra debe ser, por lo
menos, de 136 estudiantes.
Ejemplo: En el Juzgado de cierta ciudad se presentaron en el año 2005 un total de 5500 denuncias.
Se seleccionó una muestra aleatoria de un 5 % de ellas. Entre las denuncias seleccionadas se
determinó que 55 habían sido producidas por violencia doméstica. Determinar, justificando la
respuesta:
a) La estimación puntual que podríamos dar para el porcentaje de denuncias por violencia
doméstica en esa ciudad en el año 2005.
b) El error máximo que cometeríamos con dicha estimación puntual con un nivel de confianza
del 99 %.
a) El tamaño muestral fue de 5500 · 0,05 = 275 denuncias. De ellas, 55 habían sido producidas por
violencia doméstica, luego la proporción de denuncias por violencia doméstica fue:
55
= 0,20
275
Esto es, el 20 %.
p(1 − p)
b) El error admitido E, viene dado por E = zα / 2
, siendo: p = 20, (1 − p ) = 0,80, n = 275
n
y zα/2 el valor de la variable normal correspondiente a una confianza 1 − α = 0,99 (zα/2 = 2,58).
Por tanto:
0, 20·0,80
E = 2,58 ·
= 2,58 · 0,0241 = 0,062
275
Se puede cometer un error máximo del 6,2 %. Esto es, el porcentaje de denuncias por violencia
doméstica pertenece al intervalo (20 − 6,2, 20 + 6,2) = (13,8; 26,2), es decir, estará entre el 13,8 %
y el 26,2 %.
Ejercicios 27: ¿Qué error máximo admisible cometemos si como intervalo de confianza damos el
intervalo (9,6; 10,3)?
Solución: 0,35
Ejercicios 28: Supongamos que queremos estudiar la producción media de leche al día de un
determinado tipo de vacas con un error menor que 0,5 litros y un nivel de confianza del 0,95 %. Si
de estudios anteriores sabemos que la desviación típica es de 1,5 litros, ¿qué tamaño de muestra
debemos tomar?
Solución: n = 35
Ejercicios 29: Queremos determinar el porcentaje de estudiantes que necesitan gafas. De un estudio
realizado hace tres años sabemos que el 65 % de ellos usaban gafas.
a) ¿Qué tamaño de muestra debemos coger para cometer un error máximo del 5 % con un
nivel de riesgo del 5 %?
b) Si no tenemos información previa, ¿qué tamaño de muestra debemos tomar?
Solución: a) n = 350; n = 385
20 / 25
Estadística Aplicada
Tema 7
EJERCICIOS
1. Un mayorista de alimentos, quiere enviar muestras de sus productos, a una muestra de
supermercados. Elige de las 5 grandes cadenas de supermercados, una muestra de cada, y manda
sus productos para ponerlos a prueba. ¿Qué tipo de muestreo está utilizando?
2. Con el objetivo de controlar la calidad de sus productos, la fábrica de conservas “PEZ” ha
decidido seleccionar parte de su producción para un análisis detallado. La producción diaria es de
6000 latas de las que el 80 % son de tamaño normal y el 20 % restante corresponde a la lata
“familiar”. Sabiendo que el tamaño muestral es n = 30, justificar cuántas latas de cada tipo
“deberían” estudiarse.
Solución: La muestra debe estar formada por 24 latas de tamaño normal y 6 latas de tamaño familiar.
3. Una variable aleatoria tiene media µ = 30 y desviación típica σ = 3,5. Se eligen al azar muestras
de tamaño n. ¿Qué se puede decir de la distribución de las medias muestrales es los siguientes
casos?
a) n = 20
b) n = 40
4. Solución: a) No se puede decir nada pues n < 30 y no se sabe si la población de partida es normal. Por tanto no se
puede aplicar el teorema central del límite. B) N (30; 0,5534)
5. Una máquina fabrica bombillas que tienen una duración media de 700 horas y una desviación
típica de 150 horas. ¿Cuál es la probabilidad de que la media de duración en una muestra de 100
bombillas sea menor o igual a 650 horas?
Solución: 0,0004
6. Una población de un tipo de plantas tiene una talla media de 15 cm y desviación típica de 2,5
cm. Se toma al azar una muestra de 45 plantas. ¿Cuál es la probabilidad de que la media de las tallas
de la muestra sea superior a 12,5 cm?
Solución: 1
7. Una fábrica produce piezas con una longitud media de 10 cm y una desviación típica de 1 cm.
a) ¿Cuál es la probabilidad de que la longitud media en una muestra de 50 piezas sea superior
a 10,5 cm?
b) Si se toman 25 muestras de 50 piezas cada una, ¿en cuantas cabe esperar que la longitud
media esté comprendida entre 9,8 cm y 10,3 cm?
Solución: a) 0,0002; b) 23
8. El 5 % de los pasteles que hace un pastelero tiene exceso de peso. Se toma una muestra de 45
pasteles.
a) ¿Cuál es la distribución que sigue la proporción de pasteles con exceso de peso en la
muestra?
b) Halla la probabilidad de que en la muestra existan al menos cuatro pasteles con exceso de
peso.
Solución: a) N (0,05; 0,0325); b) 0,1093
9. En la elección para formar parte del consejo escolar, un alumno ha recibido el 50 % de los votos
favorables. Si se elige una muestra de 40 alumnos que han votado.
a) ¿Cuál es la distribución que sigue la proporción de votantes que han votado?
b) Halla la probabilidad de que más del 40 % de la muestra le votasen.
Solución: a) N (0,5; 0,079); b) 0,8980
21 / 25
Estadística Aplicada
Tema 7
10. El sueldo medio en cierta provincia es de 1200 euros, con una desviación típica de 400. Calcula
la probabilidad de que la nómina mensual de los 200 trabajadores de una empresa de esa provincia
supere los 250000 euros.
Solución: 0,0384
11. Los paquetes recibidos en una oficina de correos tienen un peso medio de 20 kg con una
desviación típica de 5 kg. Calcula la probabilidad de que el peso de 50 paquetes elegidos al azar
supere el límite de seguridad del ascensor, que es de 1000 kg.
Solución: 0,5
12. Las consultas de un médico de cabecera duran una media de 8 minutos, con una desviación
típica de 2,3 minutos. Si una tarde tiene citados 32 pacientes, ¿cuál es la probabilidad de que los
atienda en menos de 4 horas?
Solución: 0,1093
13. Las estaturas, en centímetros, de los soldados de un regimiento es una normal N (173, 6). Las
guardias están formadas por 12 soldados. Suponiendo que se eligen al azar, halla la probabilidad de
que la suma de las estaturas de los soldados de una guardia sea menor de 21 metros.
Solución: 0,8749
14. Se sabe que el peso X de la grasa corporal en adultos que no hacen ejercicio sigue una
distribución con media de 24,3 kg y desviación típica de 2,4. En cambio, el peso Y de la grasa en
adultos que hacen ejercicio regularmente se distribuye con una media de 20,1 kg y desviación típica
de 1,7. Si se eligen en ambas poblaciones muestras aleatorias de 50 personas, ¿cuál es la
probabilidad de que la diferencia de la grasa corporal medias sea mayor de 3 kg?
Solución: 0,9981
15. Uno de los principales fabricantes de televisores compra piezas a dos compañías. Las piezas de
la compañía A tienen una vida media de 7,2 años con una desviación típica de 0,8 años, mientras
que las de la compañía B tienen una vida media de 6,7 años con una desviación típica de 0,7.
Determina la probabilidad de que una muestra aleatoria de 34 piezas de la compañía A tenga una
vida media de al menos un año más que la de una muestra aleatoria de 40 piezas de la compañía B.
Solución: 0,0023
16. El peso de los bebés al nacer sigue una ley normal de media µ = 3200 gramos y desviación
típica σ = 312.
a) ¿Cuál es la probabilidad de que un niño pese más de 3,4 kg al nacer?
b) Para una muestra de 169 niños, ¿cuál es la probabilidad de que el peso medio sea menor que
3150 gramos?
c) Encuentra el intervalo donde se encuentra el 95 % de todos los pesos medios de las muestras
de 169 recién nacidos.
Solución: a) 0,2611; b) 0,0188; c) I = (3152,96, 3247,04)
17. En un país se selecciona aleatoriamente una muestra de 900 personas. A la salida de los colegios
electorales se les preguntó si habían votado al partido político X y 289 contestaron que sí y el resto
que no. Determinar un intervalo que nos dé el porcentaje de votos del partido X con un nivel de
confianza del 95 %, explicando los pasos realizados para su obtención.
Solución: I = (28,96; 35,04)
22 / 25
Estadística Aplicada
Tema 7
18. Un estudio realizado sobre 144 usuarios de automóviles revela que la media anual de kilómetros
recorridos es de 18000 km. Si el número de km. recorridos anualmente sigue una distribución
normal con desviación típica de 2000 km. Calcula, con una probabilidad del 97 %, entre qué valores
estará la media del número de km. recorridos anualmente por la población total de usuarios de
automóviles. Interpreta el significado del intervalo obtenido.
Solución: a) I = (17638,3; 18361,7)
19. Se ha obtenido que el intervalo de confianza correspondiente al 95 % de una variable es
(6,66; 8,34). Calcule la media y el tamaño de la muestra que se ha estudiado para obtener el
intervalo sabiendo que la desviación típica poblacional es igual a 3. Explica cada uno de los pasos
realizados.
Solución: x = 7,5
n = 49
20. Tomada al azar una muestra de 500 personas de una determinada comunidad, se encontró que
300 leían la prensa regularmente. Hallar, con una confianza del 90 %, un intervalo para estimar la
proporción de lectores ente las personas de esa comunidad.
Solución: I = (0,564; 0,636)
21. Para estimar, por medio de un intervalo de confianza, la proporción p de individuos miopes de
una población, se ha tomado una muestra de 80 individuos con la que se ha obtenido un porcentaje
de individuos miopes del 35 %. Determine, usando un nivel de confianza del 99 %, el
correspondiente intervalo de confianza para la proporción de miopes de toda la población.
Solución: I = (0,213; 0,488)
22. Tomada una muestra aleatoria de 300 personas mayores de edad de una gran ciudad, se obtuvo
que 105 habían votado a un determinado partido X. Halle, con un nivel de confianza del 90 %, un
intervalo de confianza que permita estimar la proporción de votantes del partido X en esa ciudad.
Solución: I = (0,322; 0,376)
23. En una muestra aleatoria de 600 coches de una ciudad, 120 son de color blanco. Construya un
intervalo de confianza de la proporción de coches de color blanco con un nivel de confianza del
98 %.
Solución: I = (0,162; 0,238)
24. Se sabe que los pesos medios de los caballos de carreras se distribuyen normalmente, los de la
cuadra A con una desviación típica de 45 kg, y los de la cuadra B con una desviación típica de
51 kg. Se desea estimar la diferencia de pesos medios de los caballos de ambas cuadras; para ello se
elige una muestra de 50 caballos de la cuadra A y 38 caballos de la cuadra B. Se calculan los pesos
medios muestrales y se obtiene xA = 490 kg y xB = 475 kg. Halla el intervalo de confianza para la
diferencia de medias de pesos al nivel de confianza del 95 %.
Solución: I = (–5,46; 35,46)
25. Halla el intervalo de confianza al nivel del 90 % para la diferencia de salarios medios de los
trabajadores y las trabajadoras de una gran empresa:
a) Cuando se ha elegido una muestra de 40 hombres y 35 mujeres, siendo el salario medio de
los hombres 1051 euros, y el de las mujeres, 1009 euros, y las desviaciones típicas, de 90 y
78 euros, respectivamente.
b) Suponiendo que no se conocen las desviaciones típicas poblacionales y se calculan las
cuasivarianzas muestrales, que valen σ12 = 872 y σ22 = 762.
Solución: a) I = (10,19; 73,81); b) I = (11,13; 72,87)
23 / 25
Estadística Aplicada
Tema 7
26. Un fabricante de pilas alcalinas sabe que el tiempo de duración, en horas, de las pilas que
fabrica sigue una distribución normal de media desconocida y varianza 3600. Con una muestra de
su producción, elegida al azar, y un nivel de confianza del 95 % ha obtenido para la media el
intervalo de confianza (372,6; 392,2).
a) Calcula el valor que obtuvo para la media de la muestra y el tamaño muestral utilizado.
b) ¿Cuál sería el error de su estimación, si hubiese utilizado una muestra de tamaño 225 y un
nivel de confianza del 86,9 %?
Solución: a) x = 382,4 ; n = 144; b) E = ± 6,04
27. El peso de los paquetes enviados por una determinada empresa de transportes se distribuye
según una normal, con una desviación típica de 0,9 Kg. En un estudio realizado con una muestra
aleatoria de 9 paquetes, se obtuvieron los siguientes pesos en kilos:
9,5
10
8,5
10,5 12,5 10,5 12,5 13
12
a) Halla un intervalo de confianza, al 90 %, para el peso medio de los paquetes enviados por
esa empresa.
b) Calcula el tamaño mínimo que debería tener una muestra, en el caso de admitir un error
máximo de 0,3 Kg, con un nivel de confianza del 90 %.
Solución: a) I = (10,23; 11,77); b) n mínimo = 25
28. En una población escolar se ha comprobado que la estatura sigue un modelo normal de
probabilidad. A partir de una muestra de 81 escolares de dicha población se ha calculado una
estatura media de 159 cm y una cuasivarianza de 169 cm2. Teniendo en cuenta esta información:
Determinar el error máximo que cometeríamos, con una confianza del 99 %, si estimamos en 159
cm la estatura media en esa población escolar.
Solución: E = ± 3,698
29. Se sabe que el gasto semanal (en euros) en ocio para los jóvenes de una cierta ciudad sigue una
distribución normal con desviación típica σ conocida.
a) Para una muestra aleatoria de 100 jóvenes de esa ciudad, el intervalo de confianza al 95 %
para el gasto medio semanal µ es (27; 33). Hallar la correspondiente media muestral x y el
valor de σ.
b) ¿Qué número de jóvenes tendríamos que seleccionar al azar, como mínimo, para garantizar,
con una confianza del 95 %, una estimación de dicho gasto medio con un error máximo no
superior a 2 euros semanales?
Solución: a) x = 30 ; σ = 15,3; b) n mínimo = 225
30. En un país se sabe que la altura de la población se distribuye según una normal cuya desviación
típica es igual a 10 centímetros.
a) Si dicha media fuera de 170 centímetros, calcular la probabilidad de que la media muestral,
de una muestra de 64 personas, difiera menos de un centímetro de la media de la población.
b) ¿Cuál es el tamaño muestral que se debe tomar para estimar la media de la altura de la
población con un error menor de 2 centímetros y con un nivel de confianza del 95 %?
Solución: a) P (169 < x < 171) = 0,5762; b) n mínimo = 97
31. La estatura de los miembros de una población se distribuye según una normal de media
desconocida y desviación típica 9 cm. Con el fin de estimar la media se toma una muestra de 9
individuos de la población, obteniéndose para ellos una media aritmética igual a 170 cm.
a) Calcula el intervalo de confianza al nivel del 95 % para la estatura media de la población.
b) Calcula el tamaño muestral necesario para estimar la media de la población con una
precisión de ± 5 cm y un nivel de confianza del 99 %.
Solución: a) I = (164,12; 175,88); b) n mínimo = 22
24 / 25
Estadística Aplicada
Tema 7
32. El precio de ciertos electrodomésticos puede considerarse una variable aleatoria con
distribución normal de desviación típica 100 euros. Los precios en euros correspondientes a una
muestra de 9 de estos electrodomésticos son
255 85
120 290 80
80
275 290 135
a) Construir un intervalo de confianza al 98 % para la media poblacional.
b) Hallar el tamaño mínimo que debe tener la muestra, para que con un nivel de confianza del
99 %, el error de estimación del precio no supere los 50 euros.
Solución: a) I = (101,21; 256,54); b) n mínimo = 27
33. Con los datos del ejercicio anterior, se pretende repetir la experiencia para conseguir que la cota
del error que se comete al estimar, por un intervalo de confianza, la proporción de alumnos que
hablan inglés en esa Universidad no sea superior a 0,05, con un nivel de confianza del 99 %.
¿Cuántos alumnos tendríamos que tomar, como mínimo, en la muestra?
Solución: n = 659
34. Se desea estimar, por medio de un intervalo de confianza, la proporción p de individuos
daltónicos de una población a través del porcentaje observado en una muestra aleatoria de
individuos de tamaño n. Si el porcentaje de individuos daltónicos en una muestra aleatoria es igual
al 30 %, calcule el valor mínimo de n para que, con un nivel de confianza del 95 %, el error que se
cometa en la estimación sea inferior a 0,031.
Solución: n = 840
35. Para conocer la audiencia de uno de sus programas (proporción de televidentes que lo
prefieren), una cadena de TV ha encuestado a 1000 personas elegidas al azar obteniendo una
proporción muestral del 33 % de personas favorables a ese programa. Calcule el error máximo de
estimación, por medio de un intervalo de confianza, con un nivel del 92 %.
Solución: E = 0,026
36. Se va a tomar una muestra aleatoria de 600 recién nacidos en este año en una ciudad para
estimar la proporción de varones entre los recién nacidos de esa ciudad, mediante un intervalo de
confianza con un nivel del 95 %. ¿Cuál será el error de estimación a ese nivel si se observan 234
varones en la muestra?
Solución: E = 0,039
37. Una muestra aleatoria de automóviles tomada en una zona turística ha permitido obtener un
intervalo de confianza, al nivel del 95 %, para estimar de la proporción de matrículas extranjeras de
esa zona, siendo sus extremos 0,232 y 0,368.
a) Determine el valor de la proporción estimada a través de esa muestra y un el error máximo
de estimación a este nivel de confianza.
b) Utilizando el mismo nivel de confianza, ¿cuál sería el error máximo admisible, si esa misma
proporción se hubiera observado en una muestra de 696 matrículas?
Solución: a) p̂ = 0,3 y E = 0,068. b) E = 0,034.
38. Se va a tomar una muestra aleatoria de 600 recién nacidos en este año en una ciudad para
estimar la proporción de varones entre los recién nacidos de esa ciudad, mediante un intervalo de
confianza con un nivel del 95 %. ¿Con qué proporción estimada será máxima la amplitud de ese
intervalo? ¿Cuál es la amplitud máxima?
Solución: p̂ = 0,5. Amplitud máxima = 2E = 0,08
39. Se desea estimar la proporción de adultos que leen un determinado diario local por medio de un
intervalo de confianza. Obtenga el tamaño mínimo de la muestra que garantice, aún en la situación
más desfavorable, un error de la estimación inferior a 0.03, con un nivel de confianza del 95 %.
Solución: Caso más desfavorable para p̂ = 0,5. n = 1068
25 / 25
Descargar