4 Intervalos de confianza

Anuncio
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 3.  Prohibida su reproducción
ESTIMACION
CONFIANZA
DE
INTERVALOS
DE
Una muestra permite realizar estimaciones
puntuales de los parámetros de la población.
Utilizando las propiedades de las distribuciones
muestrales, es posible construir un intervalo que
contiene el valor exacto del parámetro, un
cierto porcentaje del total de las veces que se
realicen estas construcciones. Procediendo de
esta forma, también se obtiene una medida
probabilística del riesgo de decidir que el
parámetro sí se encuentra en tal intervalo.
En una estimación puntual, el parámetro de
interés se estima por medio de un estadístico que
reúne
ciertas
bondades
(insesgamiento,
eficiencia, consistencia).
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 4.  Prohibida su reproducción
Ejemplos
1. La media x de una muestra entrega una
estimación puntual de la media poblacional µ.
2. La proporción p de una muestra es una
estimación puntual de la proporción p.
Un intervalo de confianza para un parámetro,
establece un rango en el cual se encuentra el
parámetro de interés.
Los extremos (límites) del intervalo se obtienen
seleccionando, en primer lugar, un nivel de
confianza.
Nivel de Confianza
El nivel de confianza es la probabilidad
deseada para acertar en nuestras
decisiones; usualmente, 90%, 95%, o
99%.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 5.  Prohibida su reproducción
Lo usual es que el intervalo de confianza se
construya en torno a una estimación puntual.
Por ejemplo, si n es suficientemente grande
(n ≥ 30), los intervalos de confianza para µ
toman la forma
x ± RADIO
x − RADIO
x
x + RADIO
144444444
42444444444
3
DECISION:
En este intervalo
encuentra µ.
se
El RADIO que se utiliza se calcular desde
Excel,
con
la
función
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 6.  Prohibida su reproducción
INTERVALO.CONFIANZA(alfa;desv_estandar
;tamaño), según sea el nivel de confianza
elegido y los datos maestrales obtenidos.
“Alfa” corresponde a 1-nivel de confianza. Por
ejemplo, para un 95% de confianza, alfa=5%.
El valor para “desv_estandar” debe ser la
desviación estándar de la muestra.
“Tamaño” se refiere al tamaño de la muestra
tomada, es decir n.
Otra forma en que se puede calcular, si no se
tiene Excel a mano, es calculando el intervalo:
x±z σ
n
Donde σ puede estimarse por su valor muestral,
y z se encuentra en la siguiente tabla:
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 7.  Prohibida su reproducción
Nivel de confianza
Calificación z
0,90
1,645
0,95
1,96
0,98
2,33
0,99
2,575
Así, por ejemplo, para construir un intervalo
para la media µ, con un nivel de confianza del
90%, determinamos z .
De la tabla,
z = 1,645.
El intervalo es
x ±1,645 σ .
x
144424443
Estimación puntual
La media
µ
se
encuentra
en
este
ADNE: area bajo normal estándar, donde la curva normal
estándar es aquella que tiene
intervalo.
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 8.  Prohibida su reproducción
PROCEDIMIENTO DE CALCULO DE UN
IC PARA LA MEDIA USANDO EXCEL
PARA:
• σ CONOCIDO O
• σ DESCONOCIDO PERO n ≥ 30.
1.- Utilice una muestra aleatoria simple de
tamaño n para determinar una estimación
puntual de la media.
Sea x esta estimación puntual.
2.- Seleccione el nivel de confianza a utilizar.
3.- Calcule el nivel de significancia de la
estimación: alfa=1-nivel de confianza.
4.- Calcule el radio del intervalo utilizando la
función de Excel:
radio=
INTERVALO.CONFIANZA(α;desv_estándar; n)
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 9.  Prohibida su reproducción
α=1-nivel de confianza
Desviación estándar es σ , la varianza conocida
de la población, o s , su estimación muestral,
cualquiera de las dos. NO DIVIDIR s POR n .
5.- El Intervalo de confianza requerido es:
x ± radio
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 10.  Prohibida su reproducción
Procedimiento de construcción de un
intervalo de confianza para la media de una
población sin Excel para:
• σ CONOCIDO O
• σ DESCONOCIDO PERO n ≥ 30..
1. Utilice una muestra aleatoria simple de
tamaño n para determinar una estimación
puntual de la media.
Sea x esta estimación puntual.
2. Seleccione el nivel de confianza a utilizar.
3. Determine el valor z que corresponde a este
nivel de la tabla dada.
4. El intervalo se obtiene calculando
x ±zσ .
x
123
σ
x
=
σ
n
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 11.  Prohibida su reproducción
Ejemplo
En una muestra aleatoria de 30 viajes en bus
entre la ciudad A y la ciudad B, se obtuvo un
tiempo promedio de viaje de 105 minutos. La
desviación estándar de la población se ha
estimado en 8 minutos.
Obtener un intervalo de confianza para el
verdadero tiempo promedio de viaje. Utilice un
nivel de confianza del 95%.
1. x =105
2. Nivel de confianza = 95%
3. z = 1,96 (obtenido de tabla)
4.
En
= 8 =1,46 .
x
30
intervalo buscado es:
σ
consecuencia,
105 ± 1,96 * 1,46 = 105 ± 2,86.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
el
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 12.  Prohibida su reproducción
Podemos asegurar, con un nivel de confianza del
95%, que un viaje promedio toma entre 102,14
y 107,86 minutos.
Interpretación del Nivel de Confianza
La probabilidad correspondiente al nivel
de confianza, debe entenderse referida a
la construcción reiterada de intervalos de
confianza.
Por ejemplo, si utilizamos un nivel de confianza
de un 90%, la interpretación apropiada de esta
probabilidad es que de
100
intervalos
construidos, aproximadamente 90 de ellos
contendrán a la media poblacional.
(Una
explicación teórica de esta interpretación se
encuentra en el Apéndice 1.)
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 13.  Prohibida su reproducción
En el ejemplo siguiente, se ha extraído 100
muestras aleatorias simples de tamaño 30, de
una población que consiste de los números
enteros de
0
a
50,
distribuidos
uniformemente.
A partir de cada una de estas muestras, se ha
calculado 100 estimaciones puntuales de µ
(recordar que µ = 25). Luego, utilizando estas
estimaciones puntuales, se ha construido 100
intervalos de confianza para la media µ, con un
nivel de confianza de un 90%.
Se esperaría que la media µ esté contenida en
aproximadamente 90 de estos 100 intervalos.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 14.  Prohibida su reproducción
12 de las 100 estimaciones puntuales para la media µ
Media
27,8
24,9
23,8
27,1
24,7
29,9
23,2
25,1
27,4
28,5
26,7
31,2
12 de los 100 intervalos de confianza para la media µ
inf.
sup.
23,4
32,2
20,5
29,3
19,4
28,2
22,7
31,5
20,3
29,1
25,5
34,3
18,8
27,6
20,7
29,5
23
31,8
24,1
32,9
22,3
31,1
26,8
35,6
25
25
25
25
25
25
25
25
25
25
25
25
µ
1
1
1
1
1
0
1
1
1
1
1
1: µ está en el intervalo
0: µ no está en el intervalo
Los 100 intervalos de confianza para la media µ
Porcentaje de intervalos que contienen a la media µ
0,91
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
0
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 15.  Prohibida su reproducción
Observaciones
1. Si σ no se conoce y el tamaño de la muestra
es 30 ó más, se puede estimar σ por medio de
s1 .
2. Si σ no se conoce y el tamaño n de la
muestra es menor que 30, siempre que la
distribución de la población pueda suponerse
normal, podemos hacer uso de la distribución t
para encontrar un intervalo de confianza
(estimado) para la media poblacional.
La distribución
t
es una familia de
distribuciones.
Para decidir cuál de estas
distribuciones es la adecuada, se debe
especificar el número de grados de libertad (gl)
que corresponde utilizar. Hay una distribución t
para cada posible número de grados de libertad.
En este caso, se debe tomar gl = n – 1.
1
En este caso, se habla de “intervalo de confianza estimado”.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 16.  Prohibida su reproducción
3. Si σ es conocida y la distribución de la
población es normal, entonces lo apropiado es
utilizar la distribución normal estandarizada,
cualesquiera sea el tamaño n de la muestra.
4. Si el tamaño n de la muestra es menor que
30 y la distribución de la población no puede
suponerse normal, otros métodos deberían
usarse.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 17.  Prohibida su reproducción
PROCEDIMIENTO DE CÁLCULO DE UN
IC PARA LA MEDIA USANDO EXCEL
PARA:
• σ DESCONOCIDO y n < 30.
1.- Utilice una muestra aleatoria simple de
tamaño n para determinar una estimación
puntual de la media.
Sea x esta estimación puntual.
2.- Seleccione el nivel de confianza a utilizar.
3.- Calcule el nivel de significancia de la
estimación:
α = 1 - nivel de confianza.
4.- Calcule tα Excel usando la función Excel
DISTR.T.INV.
tα = DISTR.T.INV(α;g.l).
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 18.  Prohibida su reproducción
g.l. son los grados de libertad, es decir el
tamaño de la muestra menos 1. g.l. = n-1 .
4.- El intervalo de confianza estará dado por:
x ±tα s
n
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 19.  Prohibida su reproducción
Ejemplo
Se sabe que el rendimiento promedio de los
fondos de inversión (con capital mínimo de 100
millones) fue de 13,42% durante el año 1989.
Un inversionista desea comparar esta cifra con
el rendimiento promedio de similares fondos de
inversión disponibles en la actualidad.
Se selecciona una muestra de 25 fondos de
inversión y se calcula la media y la desviación
estándar de sus rendimientos. Los valores
obtenidos fueron
9,43%
y 2,79%,
respectivamente.
Debido al tamaño de la muestra, suponemos que
la distribución de los rendimientos de los fondos
de inversión considerados, es normal.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 20.  Prohibida su reproducción
1. x = 9,43
2. Nivel de confianza = 90%, alfa=10%.
3. Para gl = 24, se tiene, de excel, que
t = 1,711
4.
σ̂ = s = 2,79 = 0,558.
x
n
25
En consecuencia, el intervalo buscado es:
9,43 ± 1,71 * 0,558 = 9,43 ± 0,95.
Es decir, de 8,48% a 10,38 %
Podemos asegurar, con un nivel de confianza del
90%, que el rendimiento promedio de los
fondos actuales es más bajo que el
correspondiente al año 1989.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 21.  Prohibida su reproducción
Estimaciones de intervalos de otros parámetros
poblacionales siguen el mismo patrón.
Procedimiento para estimar un intervalo de
confianza para la proporción de una
población.
1. Utilice una muestra aleatoria simple de
tamaño n para encontrar una estimación
puntual de la proporción.
Sea p esta estimación puntual.
2. Seleccione el nivel de confianza de la
estimación.
3. Determine el RADIO (o el valor de z que
corresponde a este nivel.)
4. El intervalo de confianza se obtiene
calculando p ± RADIO , calculando RADIO
en
Excel
con
la
función
INTERVALO.CONFIANZA, con
desv _ est =
p (1 − p )
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 22.  Prohibida su reproducción
5.Si no se cuenta con excel,
el intervalo de confianza se obtiene
calculando p ± z σ̂ . Como la proporción p es
p
123
σ̂ =
p
p (1 - p)
n
desconocida,
el
error
estándar se calcula estimando
p por medio de p .
Ejemplo
Radio Castle prueba una muestra de 200
transistores y encuentra que
25
son
defectuosos.
Estime un intervalo de confianza para la
proporción p de transistores defectuosos.
(Utilice un nivel de confianza del 95%.)
1. p = 25 = 0,125
200
2. Nivel de confianza = 95%, luego
ALFA=5%.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 23.  Prohibida su reproducción
3. z = 1,96 (obtenido de tabla)
4. σ̂p = p(1n– p) = 0,125*0,875 = 0,0234.
200
En consecuencia, el intervalo buscado es:
0,125 ± 1,96 * 0,0234 = 0,125 ± 0,0459
Es decir, de 0,0791 a 0,171.
Para un nivel de confianza dado, si el tamaño
de la muestra aumenta, entonces el error
estándar disminuye y el intervalo de la
estimación necesariamente es más pequeño.
Así se puede determinar el tamaño de muestra
apropiado para que la diferencia entre el
estadístico y el parámetro no exceda de un
cierto número dado.
En un intervalo de confianza, se denomina error
tolerable máximo (o margen de error) a la
máxima diferencia que podría producirse entre
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 24.  Prohibida su reproducción
el estadístico y el parámetro; dado un cierto
nivel de confianza.
E
6444
474444
8
x – zσx
x
x + zσx
E = error tolerable máximo
A continuación, calculemos el tamaño n de la
muestra, dado un error tolerable máximo E.
En el caso de un intervalo de confianza para la
media, sabemos que
E = zσx =
zσ
,
n
Resolviendo para n, obtenemos:
2σ2
z
n= 2 .
E
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 25.  Prohibida su reproducción
En el caso de un intervalo de confianza para la
proporción, se obtiene
z2p1 − p
n=
.
2
E
NOTA: En ambos casos, el valor de z es el
correspondiente al nivel de confianza elegido.
Ejemplo
Don Stuart, cliente de la agencia de bienes raices
Davis, desea saber el valor promedio por acre de
terreno en el condado Bend.
Don requiere que la estimación no difiera en
más de $2.000 del valor correcto, con un nivel
de confianza del 99%. Datos anteriores hacen
pensar que la desviación estándar es de $8.000.
¿Qué tamaño de muestra debe utilizar Don?
E = 2.000
z = 2,575
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 26.  Prohibida su reproducción
σ = 8.000
2
2
= 106,1
n = 2,575 8.000
2
2.000
El tamaño de la muestra para la estimación
solicitada es 107.
Observación
Las fórmulas para el tamaño de muestra
requieren conocer σ y p, respectivamente.
En el primer caso, una apreciación razonable del
rango, permite obtener una estimación razonable
de σ:
Utilice como estimación de σ, la sexta
parte del rango estimado para la variable.
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 27.  Prohibida su reproducción
En el segundo caso:
Tome p = 0,5; lo que corresponde a
elegir la peor de las situaciones.
Ejemplos
1. Calcule tamaño de muestra para estimar la
compra promedio por individuo en un Mac
Donald, si el nivel de confianza es de un 95%.
2. Se estima que la proporción de clientes que
poseen la tarjeta de crédito de una cierta
multitienda, no sobrepasa el cuarto de la
población. ¿Qué tamaño de muestra se requiere
si se desea estimar esta proporción con un error
tolerable máximo igual a 0,03?
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 28.  Prohibida su reproducción
Apéndice 1
La proporción de intervalos
x ± zσ
que
x
contienen a µ es igual al nivel de confianza
utilizado; es decir, es igual a ADNE(–z↔z).
Distribución muestral de las medias
0.4
Distribución
normal,
con media µ y
desviación
estándar
0.3
σx =
σ
.
n
0.2
Y
Nivel de
Confianza
0.1
0.0
-4
-3
-2
µ – zσ
-1
0
µ
x
x
x
2
µ+ zσ
3
4
x
X
x − zσ
x – z σ < µ < x+ z σ
1
x
si y sólo si
Esto ocurre con
probabilidad igual al
área achurada.
x
x+ zσ
x
µ –z σ < x < µ + z σ
x
14444
4244444
3
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
x
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 29.  Prohibida su reproducción
Apéndice 2
Un supuesto de los modelos estadísticos
utilizados, es que el muestreo se realiza con
reemplazo. Por otro lado, estos modelos pueden
aplicarse sin modificaciones a poblaciones
grandes que se muestrean sin reemplazo, ya que
el tamaño de la población garantiza
prácticamente los mismos resultados.
Si la población es pequeña y el muestreo se
realiza sin reemplazo, los modelos vistos
necesitan ser ajustados.
Regla
Si el tamaño n de la muestra es mayor que
el 5% del tamaño N de la población (y el
muestreo se realiza sin reemplazo) los
errores estándares se corrigen multiplicando
por el llamado
factor de corrección
de población finita
= N–n .
N–1
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal
pag 30.  Prohibida su reproducción
Ejemplo
Supongamos que en el ejemplo de los fondos de
inversión, la población consiste en 250 fondos
de inversión disponibles; es decir, N = 250.
Entonces, el factor de corrección de población
finita es
f. c. p. f. =
N − n = 250 − 25 = 0,95
N −1
250 −1
En consecuencia, el intervalo buscado es:
9,43 ± 1,71 * 0,558 * 0,95 = 9,43 ± 0,91.
Es decir, de 8,52% a 10,34 %
ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene
desviación estandar 1 y media 0.
Descargar