Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA

Anuncio
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
1. Objetivos:
a) Calcular los parámetros de la distribución de medias o proporciones muestrales de
tamaño n, extraídas de una población de media y varianza conocidas.
b) Calcular el intervalo de confianza para la media con varianza conocida y desconocida.
c) Hallar el intervalo de confianza para la varianza con media desconocida.
d) Calcular el intervalo de confianza para la diferencia de medias con varianzas
conocidas y desconocidas pero iguales.
e) Utilizar distintos tamaños muestrales para controlar el nivel de confianza y el error
máximo admitido.
2. Introducción a la inferencia estadística:
Podemos definir “Inferencia estadística” como el conjunto de técnicas estadísticas que nos
permiten extraer conclusiones de una población a partir de una muestra representativa de la
misma. El muestreo es necesario ya que por motivos de tiempo, dinero o naturaleza del
experimento (prueba de una vacuna, resistencia de materiales, etc.) no podemos hacer el
estudio de la población completa. Nos hacemos las siguientes preguntas:
a) ¿Qué error se comete al trabajar con una muestra de la población?
b) ¿Cómo controlamos ese error?
c) ¿Cómo extrapolamos los resultados muestrales a los poblacionales?
Esquemáticamente:
INFERENCIA
ESTADÍSTICA
PARAMÉTRICA
ESTIMACIÓN
NO PARAMÉTRICA
CONTRASTE HIPÓTESIS
ESTIMACIÓN
INTERVALOS DE CONFIANZA
1
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
3. Muestreo
El estudio de determinadas características de una población se efectúa a través de
diversas muestras que pueden extraerse de ella.
3.1. Tipos de muestreo
a) Probabilístico: garantiza que cada individuo de la población tanga la misma
probabilidad de ser incluido en la muestra y, en consecuencia, que la muestra sea
representativa.
b) No probabilístico: no garantiza tal representatividad
3.2. Tipos de muestreo probabilístico
a)
MUESTREO ALEATORIO SIMPLE: es el muestreo prototipo fundamental
usado por casi toda la ciencia. Es el proceso de seleccionar observaciones a
partir de una población, de modo que toda observación de la población
tenga la misma probabilidad de ser incluida en la muestra que cualquier otra
y además toda observación es independiente de cualquier otra.
b)
MUESTREO ALEATORIO ESTRATIFICADO: se utiliza principalmente con
el objeto de prevenir SESGOS en la muestra cuando trabajamos con
poblaciones muy heterogéneas. Se divide la población en ESTRATOS, por
ejemplo, N1 , N2 , N3 , cumpliendo que sean “mutuamente excluyentes” (N1
, N2 , N3 ttienen intersección vacía) y “exhaustivos” (N1 +N2 + N3 = toda la
población). La muestra debe ser proporcional a cada estrato.
c)
MUESTREO POR CONGLOMERADOS: se utiliza para reducir costes.Los
conglomerados serán unidades naturales de agrupación (bloques de
viviendas, familias, colegios, urnas electorales, etc.). Este muestreo consiste
en aplicar un muestreo aleatorio simple a los conglomerados.Se puede hacer
en una etapa ( en los conglomerados que pasan a formar parte de la
muestra se toman todos los elementos) o en varias ( bietápico,...), se toman
aleatoriamente los conglomerados dentro del total y a éstos se les aplica un
muestreo aleatorio estratificado proporcional.
3.3. Muestra aleatoria simple
Sea X una la variable aleatoria con función de distribución F(x). Sean X1, X2 , ...., Xn
variables aleatorias independientes e idénticamente distribuidas (v.a.i.i.d.) con función de
distribución común F(x).
El conjunto ( X1 , X2 , ...., Xn) recibe el nombre de muestra aleatoria simple de tamaño n de
la variable aleatoria X .
4. Estadísticos
Dada una m.a.s. ( X1 , X2 , ...., Xn) un “estadístico”, T , es cualquier función observable de la
muestra, que no dependa de parámetros desconocidos. Al ser una transformación de una v.a.
n-dimensional, será también una variable aleatoria. No deben confundirse los estadísticos
muestrales con las características poblacionales de la v.a. X.Nótese que las características
poblacionales son números (por ejemplo la MEDIA POBLACIONAL µ de una N (µ, σ ) )
mientras que los estadísticos son variables aleatorias que no toman un valor hasta que no se
disponga de una realización muestral.
2
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
4.1. Algunos estadísticos importantes : Dada una m.a.s. ( X1 , X2 , ...., Xn)
a) Media muestral : X =
∑X
i
n
b) Varianza muestral : s 2 =
(
1
∑ XI −X
n
c) Cuasivarianza muestral : S c2 =
)
2
(
1
∑ XI −X
n −1
)
2
d) Otro estadístico de interés es la PROPORCIÓN MUESTRAL , que se obtiene
cuando la m..a.s. procede de una Bernoulli de parámetro p = b(p), y se define :
n
X
P=
, siendo X = ∑ X i , una B(n ; p)
n
i =1
5. Muestreo en poblaciones normales
5.1.
Distribución de la media muestral
Sea ( X1 , X2 , ...., Xn) una m.a.s. de una población N ( µ, σ ), entonces la distribución del
estadístico media muestral es :
1) Cuando conocemos la varianza poblacional :
X−µ
σ
→ N (0 ;1)
n
2)Cuando no conocemos la varianza poblacional :
5.2.
X−µ
→ t n −1 ≡ n≥30 N (0;1)
Sc
n
Distribución de la varianza muestral
Sea ( X1 , X2 , ...., Xn) una m.a.s. de una población N ( µ, σ ), entonces la distribución del
estadístico varianza muestral es :
El estadístico
nS 2
σ
2
≡ χ 2 n −1 (chi − cuadrado con n - 1 grados de libertad)
3
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
5.3.
Distribución de la diferencia de medias muestrales
Suponemos dos poblaciones normales N ( µ1 , σ1 ) y N ( µ2 , σ2 ), de las cuales se extraen
dos m.a.s. ( X1, X2 , ...., Xn) e ( Y1, Y2 , ...., Ym), la distribución de la diferencia de medias
1) Cuando conocemos la varianza poblacional
es:
(X − Y )− (µ
σ
2
−µ 2)
1
σ
1
2
→ N (0 ;1)
2
+
n
m
2) Varianzas poblacionales desconocidas pero iguales σ 1 = σ 2 = σ :
(X − Y )− (µ
n1 S 2 1 + mS
n +m-2
5.4.
1
2
− µ2 )
n+m
n.m
2
→ t n + m-2
Distribución del cociente de varianzas muestrales
Suponemos dos poblaciones normales N ( µ1 , σ1 ) y N ( µ2 , σ2 ), de las cuales se extraen
dos m.a.s. ( X1, X2 , ...., Xn) e ( Y1, Y2 , ...., Ym), la distribución de la diferencia de medias
es:
Los estadísticos :
nS1
σ1
2
≡ χ 2 n −1 y
2
mS2
σ2
2
2
≡ χ 2 m −1
Si recordamos que la F de SNEDECORD se define como
cociente de CHI - CUADRADO por s n us grados de libertad,
tendremos :
nS1
2
: (n − 1)
σ 12
mS2
5.5.
σ 22
2
: (m − 1)
2
Sc σ 2
= 1 2 22 ≡ F n -1,m -1
Sc 2 σ 1
Distribución de la proporción muestral
Supongamos una m.a.s. obtenida de una Bernoulli de parámetro p = b(p). Si n es grande, la
distribución de la proporción muestral
P=
X
n
n
siendo X = ∑ X i , una B(n ; p)
sigue:
i =1
X
p.q
; E ( P) = p; Var ( P) =
n
n
P-p
→ N(0;1)
p.q
n
P=
4
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
5.6.
Distribución de la diferencia de proporciones muestrales
Cuando tengamos dos poblaciones Bernoulli b(p1) y b(p2), de las cuales se seleccionan
dos muestras de tamaños m y n respectivamente, la distribución de la diferencia de
proporciones está dada por:
(P1 - P2 ) - (p1 − p 2 ) → N(0;1)
p1.q1 p 2 .q 2
+
n
m
6. Intervalos de confianza en poblaciones normales N(µ , σ)
Para una muestra de tamaño n y un nivel de confianza 1- α
6.1. Intervalo de confianza para µ conocida σ

µ ∈  X − Z α ⋅

σ
n
2
, X + Zα ⋅
2
σ 
n 
con un nivel de confianza 1- α
6.2. Intervalo de confianza para µ desconocida σ

µ ∈  X − t α ⋅

2
s
n −1
, X + tα ⋅
2

 con un nivel de confianza 1- α
n − 1 
s
6.3. Intervalo de confianza para σ2 conocida µ

 ∑ ( X I − µ )2 ∑ ( X I − µ )2
2
σ ∈
,
ℵ2 α
ℵ2 α

n;
n ;1− ;
2
2



 con un nivel de confianza 1- α


6.4. Intervalo de confianza para σ2 desconocida µ

 ns 2
ns 2
σ 2 ∈ 2
, 2
 ℵ n −1;α ℵ n −1;1− α ;
2
2



 con un nivel de confianza 1- α


6.5. Intervalo de confianza para µ1−µ2 conocidas σ1, σ2

σ 12 σ 22
σ 12 σ 22 

+
+
, X1 − X 2 + Zα ⋅
µ1 − µ 2 ∈ X 1 − X 2 − Z α ⋅

n
m
n
m 
2
2


(
)
(
)
con un nivel de confianza 1- α
5
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
6.6. Intervalo de confianza para µ1−µ2 desconocidas pero iguales ( σ1, =σ2 )

n + m ns12 + ms 22
n + m ns12 + ms 22

µ1 − µ 2 ∈ X 1 − X 2 − t α ⋅
, X1 − X 2 + tα ⋅

nm
n+m−2
nm
n+m−2
2
2

(
)
(
)




con un nivel de confianza 1- α
7. Algunas propiedades de los intervalos de confianza:
7.1.
Para un nivel de significación α FIJO :
Si aumentamos el tamaño muestral n disminuye la amplitud.
EJEMPLO: IC para µ con σ2 conocida. Si α =0.05 y σ =3, entonces tendremos:
valor de n :
10
20
30
σ
amplitud = 2.Z α
amplitud:
3.7188
2.6296
2.1470
n
2
7.2.
Para un tamaño muestral n FIJO :
Si aumentamos el NIVEL DE CONFIANZA 1-α aumenta la amplitud
EJEMPLO: IC para µ con σ2 conocida.Si n=25 y σ=3, entonces tendremos:
Nivel confianza : 0.9
0.95
0.975
0.99
amplitud:
1.9738
2.3519
2.6896
3.091
7.3.
Determinación del tamaño muestral en función del error:
En un IC para µ con σ2 conocida:
ERROR = ε = X − µ = Z α
2
σ
n
⇒ n = Zα
2
2
σ2
ε2
8. Intervalos de confianza usando EXCEL:
8.1.Intervalo para la media conocida la desviación
= INTERVALO.CONFIANZA(alfa;desv_estándar;tamaño)
Devuelve el intervalo de confianza para la media de una población.
¾ Sintaxis
=INTERVALO.CONFIANZA(alfa;desv_estándar;tamaño)
Alfa es el nivel de significación . El nivel de confianza es igual a 100 (1 - alfa)%, es decir,
un alfa de 0,05 indica un nivel de confianza de 95%.
Desv_estándar es la desviación típica de la población para el rango de datos y se
presupone que es conocida.
Tamaño es el tamaño de la muestra.
6
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
¾ Ejemplo
Supongamos que observa una muestra de 50 personas que realizan diariamente un
trayecto, y que la duración media de dicho trayecto es de 30 minutos, con una desviación
típica de la población de 2,5. Hallar el intervalo de confianza al 95 por ciento para la media
de la población.
Datos
Descripción
A1 = 0,05
Nivel de significación
A2 = 2,5
Desviación típica de la población
A3 = 50
Tamaño de la muestra
Fórmula
Descripción (Resultado)
=INTERVALO.CONFIANZA(A2;A3;A4) Se obtiene el valor = 0,692951 = semiamplitud
del intervalo de confianza para la media de
una población.
En otras palabras, la longitud media de
desplazamiento es 30 ± 0,692951 minutos, o
¾ Observación
Esta fórmula también se puede aplicar en el caso de diferencia de medias con varianzas
conocidas. Debemos introducir en la fórmula la media y la desviación típica de la variable
diferencia.
Análogo para los contrastes de proporciones y diferencia de proporciones.
8.2. Inversa de la función de distribución de una Chi-cuadrado
= PRUEBA.CHI.INV(probabilidad;grados_de_libertad)
Devuelve, para una probabilidad dada, el valor de la variable aleatoria siguiendo una
distribución chi cuadrado. Si el argumento probabilidad = DISTR.CHI(x;...), entonces
PRUEBA.CHI.INV(probabilidad,...) = x.
¾ Sintaxis
PRUEBA.CHI.INV(probabilidad;grados_de_libertad)
Probabilidad es una probabilidad asociada a la distribución chi cuadrado.
Grados_de_libertad es el número de grados de libertad.
¾ Ejemplo: en la práctica2.
7
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
8.3. Inversa de la función de distribución de una t de Student
Devuelve el valor t de la distribución t de Student como función de la probabilidad y los
grados de libertad.
¾ Sintaxis
=DISTR.T.INV(probabilidad;grados_de_libertad)
Probabilidad es el nivel de significación α (dos colas) y 2*α ( 1 cola)
Grados_de_libertad es el número de grados de libertad de la distribución.
¾ Observaciones
Puede calcularse un valor t de una cola reemplazando probabilidad por 2*probabilidad. Para
una nivel de significación de 0,05 y grados de libertad de 10, el valor de dos colas se calcula
con DISTR.T.INV(0,05;10), que devuelve 2,28139. El valor de una cola para la misma
probabilidad y los mismos grados de libertad puede calcularse con DISTR.T.INV(2*0,05;10),
que devuelve 1,812462.
¾ Ejemplo
Datos
Descripción
A2= 0,054645 = α
Nivel de significación para t de Student de dos colas.
A3 = 60
Grados de libertad
Fórmula
Descripción (Resultado)
=DISTR.T.INV(A2;A3)
Valor t α =1,959997462
2
9. Caso práctico
9.1. Intervalos de confianza en una población Normal :
8
AMPLIACIÓN DE ESTADÍSTICA
Departamento de Métodos Cuantitativos e Informáticos
Práctica 3
MUESTREO E INTERVALOS DE CONFIANZA
9.1.1. Crea una hoja de cálculo (HOJA1) mediante la cual se pueda calcular el intervalo
de confianza para la media con varianza conocida. Utilizando la HOJA1 resuelve el
siguiente problema:
Un individuo decide buscar trabajo en el sector servicios y le ofrecen un empleo con un
sueldo mensual de 12 u.m. Antes de aceptarlo, desea conocer el rango de valores para el
salario esperado en esa categoría del sector. Para ello recoge una muestra de salarios que
aparece en la HOJA1.
Sabiendo además que el salario mensual sigue una distribución Normal con desviación típica
igual a 2 u.m., se pide:
i.
Estimar los intervalos de confianza para el salario esperado con un nivel de confianza
del 99%, 98%,…, 90%.
ii.
Realiza un gráfico que relacione la semiamplitud y el nivel de confianza.¿Qué le ocurre
a la amplitud de los intervalos a medida que disminuye el nivel de confianza?
9.1.2. Crea una hoja de cálculo (HOJA2) mediante la cual se pueda calcular el intervalo
de confianza para la media con varianza desconocida. Utilizando la HOJA 2 resuelve el
siguiente problema:
Una empresa desea ofrecer una información resumida a sus accionistas sobre el salario
de su personal de fábrica. Para ello selecciona la m.a.s. recogida en la HOJA 2. Calcular:
i.
Intervalos de confianza para el salario esperado con un nivel de confianza del 99%,
98%,…, 90%, sabiendo que la distribución del salario sigue una Normal.
ii.
Con los valores muestrales obtenidos en el apartado anterior, calcula los intervalos
de confianza para el salario esperado para muestras de tamaño 10, 20, 30,...,100 y un
nivel de confianza del 99%. ¿Cómo afecta a la amplitud del intervalo el incremento del
tamaño de la muestra?
iii.
Representa gráficamente la semiamplitud de los intervalos y el tamaño muestral.
9.1.3. Crea una hoja de cálculo (HOJA3) mediante la cual se pueda calcular el intervalo
de confianza para la varianza con media desconocida. Utilizando la HOJA 3 resuelve el
siguiente problema:
Se desea invertir una gran cantidad de dinero en una empresa del IBEX-35. Para tomar
una decisión un analista nos proporciona un rango de valores del riesgo sobre el beneficio
mensual de la empresa, medido a través de su desviación típica. Con los datos sobre el
beneficio mensual recogidos en la HOJA3 y sabiendo que éste sigue una distribución
Normal, se pide:
i. Una estimación del beneficio medio mensual.
ii. Los intervalos de confianza para el riesgo (varianza) con un nivel de confianza del
99%, 98%,…, 90%.
9
Descargar