Resumen de estimación - IES Gabriela Mistral

Anuncio
INFERENCIA ESTADÍSTICA Y ESTIMACIÓN
La estadística inferencial se ocupa de extender o extrapolar a toda una población,
informaciones obtenidas a partir de una muestra, así como de tomar de decisiones. El
muestreo es el proceso seguido para la extracción de una muestra.
- Muestreo Aleatorio: Es aquel en que todos los miembros de la muestra han sido
elegidos al azar, de forma que cada miembro de la población tuvo igual oportunidad de
salir en la muestra. Y puede ser:
Simple: Elegido el tamaño de la muestra, los elementos que la compongan se han de
elegir aleatoriamente entre los N de la población.
Sistemático: Se ordenan previamente los individuos de la población; después se
elige uno de ellos al azar, a continuación, a intervalos constantes, se eligen todos los
demás hasta completar la muestra. Los intervalos vienen definidos por el salto (h).
Que es el cociente entre el tamaño de la población y el tamaño de la muestra.
Estratificado Se divide la población total en clases homogéneas, llamadas estratos;
por ejemplo, por grupos de edades, por sexo. Hecho esto la muestra se escoge
aleatoriamente en número proporcional al de los componentes de cada clase o estrato.
- Muestreo No aleatorio: En ocasiones no queda más remedio que trabajar con
muestras que no son elegidas aleatoriamente. Pueden ser:
Erráticas o casuales. Por ejemplo las que se realizan boca a boca a pie de urna en
las elecciones.
Intencionadas o racionales: Son seleccionadas por un experto. Son más rápidas
pero pueden no ser representativas.
Por cuotas. Al entrevistador se le dan los criterios de selección.
Por Bola de nieve:
Un problema importante de la inferencia estadística es la estimación de parámetros
de la población (media, desviación típica …), a partir
de los correspondientes
estadísticos de la muestra (media, desviación típica..).
Si consideremos todas las posibles muestras de tamaño n en una población,
para cada muestra podemos calcular un estadístico (media, desviación
típica,...) que variará de una a otra. Así obtenemos una distribución de los
estadísticos que se llama distribución muestral.
Una estimación de un parámetro de la población dada por un solo número se dice que
es una Estimación de PUNTO (por ejemplo x =5,26m). Mientras que una estimación
dada por dos números entre los cuales se puede considerar encajado el parámetro, se
dice que es una Estimación por INTERVALO (por ejemplo x =5,26m ±0,03m)
─ Nivel de confianza: Es la probabilidad de que el parámetro estimado se
encuentre en el intervalo citado. De suele representar mediante 1-α.
─ Nivel de significación: Es la diferencia entre la certeza y el nivel de confianza.
se representa por α
─ Valor crítico es el valor de la variable que deja a su derecha una superficie igual a
α
2
.
Se suele representar por: z α
2
─ Margen de error: Es la diferencia entre los extremos superior e inferior del intervalo.
─ Error máximo admisible: Es la mitad del margen de error.
Sea X una variable aleatoria que sigue una distribución N(0,1).
Un intervalo característico es un intervalo
simétrico entorno a la media (-k, +k) en
el que la probabilidad de que un valor de
la variable esté en ese intervalo
es 1- α , es decir:
•
P(-k < x <+k)= 1- α
→ Intervalo: (-k,k) ⇔ (- z
α/2 ,
Siendo k el valor de la variable que deja una superficie
Si la distribución es N( µ , σ ) entonces
correspondiente a una probabilidad 1 - α es:
•





el
α
2
z
α/2 )
a su derecha
intervalo
característico

P  − z α ≤ z ≤ z α  = 1 − α → Intervalo  µ − z α ⋅ σ , µ + z α ⋅ σ 

2
2
2
2

Teorema Central del Límite:
Dada una población de media µ y desviación típica σ , no necesariamente
normal, y dado un conjunto de muestras extraídas de dicha población, la
distribución de muestras de tamaño n verifica que:
i)
La media de la población será la media de las medias de las muestras
ii)
Su desviación típica es
iii)
Si n ≥ 30, se comporta como una distribución normal
σ
n
Esto nos permite Inferir la media de la población a partir de una muestra y establecer
un intervalo donde podemos localizar la media con un nivel de confianza previamente
establecido (1- α )
EJEMPLOS:
1º) Si el contenido en gr. de un determinado medicamento X sigue una distribución
N(7.5,0.3), calcular la probabilidad de que para una muestra de tamaño n=5, se
obtenga un contenido medio menor que 7, Pr ( X < 7).
Sol:
Como la población sigue una distribución normal N(7´5 ,0´3), la media muestral
0,3
) por lo que:
5
p ( x < 7) = p ( z < −3,7269) = p ( z > 3,7269) = 1 − p ( z < 3,7269) = 0,0001
seguirá una N(7´5 ,
Donde si x x< 7
z<
x − 7,5
1,342
2º) En el último año, el peso en gramos de los recién nacidos en una maternidad se
ha distribuido según una distribución: N (3100, 150). ¿Cuál será la probabilidad de que
la media de una muestra de 100 recién nacidos sea superior a 3130 gr?
µ=3100; σ=150;
n=100
Dado que n>30, la media muestral será la poblacional: x =µ=3100
La desviación típica de la muestra será: σ=
150
=15
100
Por tanto la media muestral seguirá una distribución: N(3100, 15)
Nos piden P( x >3130)=P(z>
3130 − 3100
)=P(z>2)=1-P(z≤2)=1-0,9772=0,0228
15
3º) Supongamos que la media de estatura de las alumnas de un instituto es de 165
cm, con una desviación típica de 8 cm. ¿Cuál es la probabilidad de que una muestra de
36 alumnas tenga una media de 167 cm o más?
8
4
4
= → x sigue una N (165, )
3
36 3
167 − 165
)=P(z≥1,50)=1-P(z<1,50)=1-0,9332=0,0668
Nos piden P( x >167)=P(z>
4
3
x = 165; σ=
4º) En un test de Matemáticas que se pasó a 1000 alumnos de 2º de bachillerato, se
encontró que las
puntuaciones obtenidas seguían una normal N(67,20). Si
consideramos muestras de 15 alumnos que hicieron el test:
a) ¿Qué porcentaje de las muestras tienen una puntuación media superior a 75?
b) Halla un intervalo dónde se encuentren el 93,73% de las puntuaciones medias de
los alumnos de cada muestra.
Sol: Por el teorema central del límite, sabemos que las medias muestrales se
distribuyen según una normal N(67,
a) p( x > 75) = p ( z >
20
)
15
75 − 67
) = p( z > 1,55) = 1 − p( ≤ 1,55) = 1 − 0,9394 = 0,0606
20
15
En el 6,06% de las muestras, la puntuación media es superior a 75
α
B )1-α=0,9373
2
= 0,00135
2
p( z ≤ z α ) = 1 − 0,00135 = 0,99865
2

El intervalo será:  67 − 2,995

p( z > z α ) = 0,00135
α
2
=
2,99 + 3
= 2,995
2
20
20 
,67 + 2,995
 es decir: (51´53 ,82´47)
15
15 
Por tanto, en el 93,73% de las muestras, la puntuación media está comprendida entre
51,53 y 82,47 puntos
INTERVALOS DE CONFIANZA
La estimación por intervalos de confianza tiene por objeto proporcionar, a
partir de la información recogida en la muestra, un intervalo que contenga con alto nivel
de confianza (probabilidad), al parámetro objeto de nuestro interés, por ejemplo, la
media.
Supongamos desconocida la media poblacional de una cierta variable que deseamos
estudiar, sacamos una muestra y se trata de obtener un intervalo (L1,L2) de forma que
tengamos una probabilidad alta de que la media poblacional esté en ese intervalo.
El nivel de confianza del intervalo lo fijamos nosotros., se suele trabajar con 95% y a
veces con 90% o el 99% es decir, con nivel de significación: 0.05; 0.1; o 0.01.
El intervalo de confianza para la media poblacional es:

σ
σ 
 µ − zα ⋅

µ
,
+
z
⋅
α


n
n
2
2


•
Donde z α es el valor que en la distribución N(0,1) deja a su derecha un área de
2
α
2
.
µ es el valor supuesto de la media de la población y σ , la desviación típica. Si no
conocemos la media poblacional, tendremos que utilizar la media muestral: x .
A partir de dicho intervalo obtendremos el error máximo cometido al aproximar
puntualmente el parámetro, este error vendrá dado por el radio del intervalo de
confianza es decir:
•
E = zα ⋅
2
σ
n
Es deseable para un intervalo de confianza, que tenga la menor amplitud posible. Esta
amplitud dependerá de:
•
•
El tamaño de la muestra. Mientras mayor sea el tamaño mejor será la estimación,
aunque se incurre en un aumento de costes
Nivel de confianza. Si se pide mayor nivel de confianza, el intervalo será mayor.
EJEMPLOS:
1º) Una muestra aleatoria de 36 cigarrillos de una marca determinada dio un
contenido promedio de nicotina de 3 miligramos. Suponga que el contenido de nicotina
de estos cigarrillos sigue una distribución normal con una desviación estándar de 1
miligramo.
a. Obtenga e interprete un intervalo de confianza del 95% para el verdadero
contenido promedio de nicotina en estos cigarrillos.
b. El fabricante garantiza que el contenido promedio de nicotina es de 2,9
miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado?
Sol:

a)  3 − 1,96

1
1 
,3 − 1,96
 = (2,67; 3,33)
36
36 
Tenemos una certeza con un nivel de confianza del 95%, de que el verdadero
contenido promedio de nicotina se halla entre 2´67 y 3´33 miligramos
b) Como 2´9 se encuentra en el intervalo hallado, podemos aceptar la hipótesis de
que el contenido promedio de nicotina es de 2,9
2º) Se ha tomado una muestra de los precios de un mismo producto alimenticio en
16 comercios, elegidos al azar en un barrio de una ciudad, y se han encontrado los
siguientes precios:
95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110.
Suponiendo que los precios de este producto se distribuyen según una ley normal de
varianza 25 y media desconocida:
a) ¿Cuál es la distribución de la media muestral?
b) Determine el intervalo de confianza, al 95%, para la media poblacional.
95 + 108 + 97 + 112 + 99 + 106 + 105 + 100 + 99 + 98 + 104 + 110 + 107 + 111 + 103 + 110
16
x = 104
5
Por lo tanto la distribución de la media muestral será: N (104,
)
16
a) x =
b)
que
α
2
Como nos piden al 95%, quiere decir con una probabilidad P= 0,95=1-α por lo
= 0,025, es decir: P ( z ≤
α
2
) = 1 − 0,025 = 0,975 → z α = 1,96
2
El intervalo de confianza será:
(104 − 1,96 ⋅1.25
, 104 + 1,96 ⋅1.25) =(101´55 , 106´45)
3º) La media de las estaturas de una muestra aleatoria de 400 personas de una
ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es una variable
aleatoria que sigue una distribución normal con varianza σ2 = 0,16 m2.
Construye un intervalo, de un 95% de confianza, para la media de las estaturas de la
población.
N=400; x =1,74; σ=0,4; 1- α =0,95;
α
2
=1,96
(1.75 - 1.96 · 0.4/20 , 1.75 + 1.96 · 0.4/20 ) → (1.7108, 1.7892)
4º) El peso en kg. de un determinado colectivo se distribuye según una normal de
desviación típica 5 kg. ¿Cuántos individuos debemos escoger en la muestra si queremos
que la media de ésta no difiera en más de 1 kg. De la media de la población con un
nivel de confianza del 95%.
El error viene dado por:
E = zα ⋅
σ
2
n
; y debe ser:
como 1- α =0,95
zα ⋅
2
σ
n
<1
z α = 1,96 por tanto: 1,96 ⋅
2
5
<1
n
n>96,4
Hay que tomar una muestra de, al menos 97 individuos
n > 1,96 ⋅ 5
n > (9,8) 2
Descargar