Intervalos de confianza estimación confidencial

Anuncio
Versión 3.1
240
Intervalos de confianza
La estimación confidencial consiste en determinar un
posible rango de valores o intervalo, en los que pueda precisarse -con una determinada probabilidad-- que el valor de un parámetro se
encuentra dentro de esos límites. Este parámetro será
habitualmente una, proporción en el caso de variables dicotómicas y
la media o la varianza para distribuciones continuas.
La técnica de la estimación confidencial consiste en
asociar a cada muestra un intervalo que se sospecha que debe
contener al parámetro. A éste se le denomina intervalo de
confianza
Evidentemente ésta técnica no tiene porqué dar siempre un
resultado correcto. A la probabilidad de que hayamos acertado al
valor del parámetro que esta contenido en dicho intervalo se la
denomina nivel de confianza. También se denomina nivel de
significación a la probabilidad de equivocarnos.
Dada una variable aleatoria de distribución continua N  ( ,  ) ,
nos interesamos en primer lugar, en calcular intervalos de confianza
para sus dos parámetros,  y  2
2
Intervalo de confianza para la media si se conoce la varianza
Este caso que planteamos es más a nivel teórico que práctico:
difícilmente vamos a poder conocer con exactitud  2 mientras que 
es desconocido. Sin embargo nos aproxima del modo más simple a
la estimación confidencial de medias.
Para estimar  , el estadístico que mejor nos va a ayudar es X n , del
que conocemos su ley de distribución:
 2

xn ~ N   ,
n 
 


con parámetro
desconocido
Versión 3.1
241
Esa ley de distribución depende de  (desconocida). Lo más
conveniente es hacer que la ley de distribución no dependa de
ningún parámetro desconocido, para ello tipificamos:
z
xn  

~ N (0,1)
n



par . desconocido

estimador

cos as conocidas
Este es el modo en que haremos siempre la estimación puntual:
buscaremos una relación en la que intervengan el parámetro
desconocido junto con su estimador y de modo que estos se
distribuyan según una ley de probabilidad conocida.
De este modo, fijado un valor pequeño de   0,1 , consideramos la
 
v.a. Z ~ N 0,1 y tomamos un intervalo que contenga una masa de
probabilidad de 1   . Este intervalo lo queremos tan pequeño como
sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la
media (0), ya que allí es donde se acumula más masa. Así las dos
colas de la distribución (zonas más alejadas de la media) se
repartirán a partes iguales el resto de la masa de probabilidad, .
Figura: La distribución N(0,1) y el intervalo más pequeño posible
cuya probabilidad es 1   . Por simetría, los cuantiles Z  y Z 1 sólo
2
difieren en el signo.
Vamos a precisar cómo calcular el intervalo de confianza:
2
Versión 3.1
Sea Z  el percentil 100

2
2
242
de Z, es decir, aquel valor de IR que deja
por debajo de la cantidad

de la masa de probabilidad de Z, es
2
decir:

 
IP Z  z  
2
2 

 
z   1  
2
2

Sea Z 1 el percentil 100
2



IP Z  z    1 
1
2
2 


1
, es decir:
2
z
1

2
 
  1 1  
2

Es útil considerar en este punto la simetría de la distribución normal,
y observar que los percentiles anteriores son los mismos aunque
con el signo cambiado:
z   z

1
2
2
El intervalo alrededor del origen que contiene la mayor parte de la

 

z
,
z


z
,
z
masa 1    es el intervalo siguiente   1    1  1  
2
2
2
 2

Lo que habitualmente escribiremos como: z  z1
2
De este modo podemos afirmar que existe una probabilidad de
1    que al extraer una muestra aleatoria de la variable en estudio,
ocurra:
z z
1

2

xn  

z
1

2
 xn    z
1


2
n
n
De este modo un intervalo de confianza al nivel 1    para la
esperanza de una normal de varianza conocida es el comprendido
entre los valores
Versión 3.1
x  xn  z
2
1

2


n
&
x
1

2
 xn  z
1

2

243

n
La forma habitual de escribir este intervalo (con su anotación


  
 
x

z

,
x

z


x

z

  n 1 
 esto se
abreviada) es  n 1 
n

1
n
n 
n
2
2
2

puede ver en la Figura siguiente:
Figura: Intervalo de confianza para la media.
Versión 3.1
244
Intervalo para la media con varianza desconocida
Como hemos mencionado, los casos anteriores se presentarán
poco en la práctica, ya que lo usual es que sobre una población
quizás podamos conocer si se distribuye normalmente, pero el valor
exacto de los parámetros  y  2 no son conocidos. De ahí nuestro
interés en buscar intervalos de confianza para ellos. El problema
que tenemos en este caso es más complicado que el anterior, pues
no es tan sencillo eliminar los dos parámetros a la vez. Para ello
nos vamos a ayudar en lo siguiente:
z
xn  

~ N (0,1)
Debemos encontrar un estimador insesgado
n
para la varianza ˆ n21 .Por el Teorema de Cochran se sabe que:
xi  xn 2 ~  2
 2
n1 Y se tiene que
n
i 1

S 
2
1 n xi  xn 


n  1 i 1  2
2
2
n 1
Y que además estas dos últimas distribuciones son independientes.
A partir de estas relaciones podemos construir una distribución T de
student con n-1 grados de libertad.
fT (t)
t
Figura: La distribución t n es algo diferente a la distribución normal
N 0,1 cuando n es pequeño, pero conforme éste aumenta, ambas
distribuciones se aproximan.
Versión 3.1
245
xn  

Podemos ver que Tn1 
Z
1
 n21
n 1

n
1 n xi  xn 
 2
n  1 i 1
2

xn  
~ t n1
S
n
Dado el nivel de significación 1    buscamos en una tabla de T
student: t n 1 el percentil 100 1   2, tn 1,1 , el cual deja por
2
encima de la cantidad  2 de la masa de probabilidad. Por simetría
de la distribución de Student se tiene que t n 1,  t n 1,1 , luego
2
2
Figura: La distribución de Student tiene las mismas propiedades de
simetría que la normal tipificada.
El intervalo de confianza se obtiene a partir del siguiente cálculo:

S
S  
S 
, xn  t
  xn  t
 xn  tn 1,1  


 
 
n 1,1
n 1,1
n
n 
n
2
2
2

Figura: Intervalo de confianza para  cuando  2 es desconocido
(caso general).
Versión 3.1
Donde se tiene que x  xn  t n1,1
2
2
Sˆn1
n
&
x
1

 xn  t
2
n 1,1

2
246
Sˆn1
n
Intervalo de confianza para la varianza
Para estimar un intervalo de confianza para la varianza, nos
ayudaremos de la siguiente propiedad de la distribución Chin
cuadrado  2

i 1
xi  xn 2  n  1S 2 ~  2
2
2
n 1
Consideremos dos cuantiles de ésta distribución que nos dejen una
probabilidad 1   
Figura: Cuantiles de la distribución  n21
Versión 3.1
247
Entonces un intervalo de confianza al nivel (1-) para la varianza
de una distribución gaussiana (cuyos parámetros desconocemos) lo
obtenemos teniendo en cuenta que existe una probabilidad (1-) de
que:

 

 


IP Y   2   
& IP Y   2     IP  2   Y   2    1  
n 1,
n1,1
n 1,1
2
2
2 
2 
2 


 n1, 2
de donde se tiene que  2

n1,
donde se deduce que
Y  2
n  1S

2

n1,1
2
2
 2 

n1,1
2
2
 2

n1,

2
n  1S 2   2
 de
2
n1,1

2
n  1S .Por tanto el intervalo
2
2


n1,
2


2
2
 n  1S n  1S 
;
que buscamos para la varianza es  2

2  

 n1,1

n 1,
2
2


RESUMEN DE INTERVALOS DE CONFIANZA
A
ESTIMACIÓN DE LA MEDIA
A1
Suponga que X1 , X 2 ,....., X n , es una muestra aleatoria de
una población normal N(, 2 ) y que se quiere obtener un
intervalo de confianza del (1   )100% para . El estimador de
n
x
 es ˆ n  xn   i .
i 1 n
2
 CONOCIDO
Cantidad pivotal
Z=
xn - 
~ N(0,1)
/ n
Intervalo

   xn 



z1-/2
n

Versión 3.1
248
Nota: Teorema del Límite Central: “Si X1 , X 2 ,....., X n es una muestra
aleatoria, de una población X con media  y varianza finita 2
xn - 
~ N(0,1)“. Debido a este teorema, el
entonces Z =
/ n
intervalo anterior es válido para estimar la media de cualquier
distribución especialmente cuando n .
A2
 2 DESCONOCIDO. Se reemplaza
(X  x )
2
insesgado Sˆn1   i n
n 1
i 1
Cantidad pivotal
n
2
Intervalo


Sˆn 1
tn 1,1 / 2 
IC(  )   xn 
n


x 
T n
~ tn 1
Sˆn 1 / n
Nota:
a)
 2 por su estimador
Si n>60 se puede aproximar t n11,   / 2 por z1 / 2
pues la distribución t-student converge a la distribución
normal.
b)
El intervalo también es útil cuando la población es
aproximadamente normal.
B
COMPARACIÓN DE DOS MEDIAS
X1, X 2 ,.....,X n1
Sean
normal
una
N (1 , 12 )
población
e
muestra aleatoria de una población
Y1 , Y2 ,.....,Yn2
normal
N ( 2 , 22 ) .
muestra aleatoria de
Ambas
muestras
independientes. Las medias poblacionales 1 y  2 pueden
ser comparadas usando la diferencia 1 -  2 , cuyo estimador
es ˆ1 - ˆ 2  xn1  yn2 .
Casos:
Versión 3.1
B1
12 y  22 CONOCIDAS
Cantidad Pivotal
Z
( xn1  yn2 )  ( 1   2 )
 12
n1
B2
249

Intervalo
~ N (0,1)
 22


 12  22
IC( 1   2 )  ( xn1  yn2 ) 

z1 
2
n1 n2


n2
12 y  22 DESCONOCIDAS PERO IGUALES
Se
usa
el
estimador
(n  1)Sˆ12  (n2  1)Sˆ22
ˆ 2  Sˆ p2  1
con
n1  n2  2
2
de
2
2
2
( 1 =  2   )
dado
por:
n2
2
2
Sˆ   ( X i  xn ) /(n1  1) & Sˆ2   (Yi  yn2 ) /(n2  1) .
n1
2
1
2
1
i 1
i 1
Cantidad Pivotal
T
( xn1  yn2 )  ( 1   2 )
Sˆ p
B3
1 1

n1 n2


~ tn1n2 2 IC( 1   2 )  ( xn  yn )  Sˆ p 1  1 tn n 2,1 / 2 

1
2
n1
n2
1
2

12 y 22 DESCONOCIDAS Y DISTINTAS
Cantidad Pivotal
T
Intervalo
( xn1  y n2 )  ( 1   2 )
Sˆ12 Sˆ22

n1 n2
~ t
Intervalo


Sˆ12 Sˆ22
IC( 1   2 )  ( xn1  yn2 ) 
 t 
n1 n2  ,1 2 


2
con
 Sˆ12 Sˆ22 
  
n
n2 
1


  Sˆ 2  2  Sˆ 2  2 
 1   2  
  n1   n2  
     
n2  1 
 n1  1




Versión 3.1
C
COMPARACIÓN
PAREADOS
DE
DOS
MEDIAS
PARA
250
DATOS
Sean los pares (X1,Y1), (X2,Y2),.....,(Xn,Yn) donde X1 , X2 ,....., X n
puede ser considerada una muestra aleatoria de una población
normal N(1, 12 ) e Y1, Y2 ,....., Yn una muestra aleatoria de una
población normal N( 2 ,  22 ) . Se supone que X i e Yi no son
independientes pero si lo son ( Xi , Yi ) de ( X j , Yj ), i  j . Se trata
de hacer inferencia respecto a 1  2 .
Cantidad pivotal
T
Intervalo
d  D
~ t n 1
ˆ
SD / n
con  D

 1  2 ,


Sˆ
IC( 1 -  2 )  d  D tn1,1 / 2 
n


d i  X i  Yi ,
n
d   di / n  X n  Yn ,
i 1
n
SˆD2   (di  d ) 2 /(n  1)
i 1
D
ESTIMACIÓN DE LA VARIANZA
Suponga que X1 , X2 ,....., X n , es una muestra aleatoria de una
población normal N(, 2 ) y que se quiere obtener un intervalo
de confianza del (1   )100% para  2 cuyo estimador es
n
S 2   ( X i  X n ) 2 /(n  1) .
i 1
D1
 DESCONOCIDO
Cantidad Pivotal
n
Q
(n  1) Sˆ 2
2

(X
i 1
i
Intervalo
 X n )2
2
~X
2
n 1
 (n  1) Sˆ 2 (n  1) Sˆ 2 
IC( )   2
; 2


 n 1,1 / 2  n 1, / 2 
2
Versión 3.1
 CONOCIDO
D2
Cantidad Pivotal
n

Q
251
( Xi  ) 2
i 1
E

2
Intervalo
 n
 ( Xi  ) 2

IC( 2 )   i 1 2
;

n ,1  / 2




~ n
2
n
 ( Xi  ) 2
i 1
 2n, / 2







COMPARACIÓN DE DOS VARIANZAS
Sean X1, X 2 ,.....,X n1
muestra aleatoria de una población
2
normal N(1 , 1 ) e Y1, Y2 ,.....,Yn2 muestra aleatoria de una
población normal N( 2 , 22 ) . Ambas muestras independientes con
1 y  2 desconocidas. Las varianzas poblacionales 1 y  2
2
2
pueden ser comparadas usando el cuociente cuyo estimador
es
ˆ /ˆ  Sˆ12 / Sˆ22
2
1
2
2
n1
,
con
Sˆ12   ( X i  X n1 ) 2 /(n1  1)
y
i 1
n2
Sˆ22   (Yi  Yn2 ) 2 /(n2  1) .
i 1
Cantidad Pivotal
F
F
Sˆ / 
~ Fn1 1, n2 1
Sˆ / 
2
1
2
2
2
1
2
2
Intervalo
 Sˆ22

Sˆ22
IC( /  )   2 Fn11,n2 1, / 2 ; 2 Fn11,n2 1,1 / 2 
ˆ
Sˆ1
 S1

2
2
2
1
ESTIMACIÓN DE UNA PROPORCIÓN
Sea X1 , X 2 ,..., X n una muestra aleatoria de una población
 n

  Xi  n

p

Bernoulli de parámetro p cuyo estimador es
,


 i 1 
Xi 0,1 , 0  p  1 . Usando el teorema del Límite Central se
puede obtener un intervalo aproximado para p si n es
grande(n>20):
Versión 3.1

IC( p)   pˆ 

G
252

pˆ (1  pˆ )
z1 / 2 
n

COMPARACIÓN DE PROPORCIONES
Sean X1 , X 2 ,.....,X n1 e Y1 , Y2 ,.....,Yn2 muestras aleatorias
independientes de poblaciones Bernoulli de parámetros
p1 y p 2 respectivamente. Las proporciones poblacionales
pueden ser comparadas a través de un intervalo de confianza
aproximado, para muestras grandes, dado por:

IC( p1  p2 )  ( pˆ1  pˆ 2 ) 

H

pˆ1 (1  pˆ1 ) pˆ 2 (1  pˆ 2 )

z1 / 2 
n1
n2

ESTIMACIÓN DE CUALQUIER PARÁMETRO
Si X1 , X2 ,....., X n es una muestra aleatoria de una población X

con función de densidad f ( x, ) y  MV es el estimador máximo
verosímil de  entonces se pueden usar las propiedades de
normalidad asintótica de estos estimadores para obtener un
intervalo aproximado para 
Como
 2 ln f ( x, ) 
n 
 N(0,1) con I1 ()   E 

1 / nI1 ()
2


 MV  
entonces el intervalo de confianza asintótico es :


1
ˆ
IC( )   MV 
z1 / 2 
ˆ


nI1 ( MV )


De esta forma también se pueden obtener los intervalos F y
G.
Versión 3.1
253
Ejercicio 1
Se sabe que cierta proporción (fija), p, de detonantes es
defectuosa. De una partida, se eligen n al azar y se prueban.
Definimos las variables aleatorias siguientes: X i  1 si el i-ésimo
detonante es defectuoso y 0 en otro caso, i = 1,2,... ,n. Encontrar un
intervalo del 95% para p, si en una muestra de tamaño 64 se obtuvo
un promedio de 0.55.
Solución
X 1 , X 2 ,..., X n es una muestra aleatoria que tiene la distribución de
probabilidades:
P x  0   1  p
Px  1  p
Luego f ( x, p)  p x 1  p1 p ; X = 0,1
n
Luego hacemos: Lf x, pˆ    p X 1  p 1 X
i
i
i 1
luego ln Lf x, pˆ  
n
 ln p
i 1
n
xi
  ln(1  p)1 xi
i 1
n
n
i 1
n
i 1
 .   X i ln p   (1  X i ) ln(1  p)
n
 (ln p) X i  n ln(1  p)  ln(1  p) X i
i 1
i 1
luego haciendo:
n
 ln( f ( x, pˆ )
0
p

 Xi
i 1
p
n
n
 Xi
n

 i 1
 0  pˆ 
1 p 1 p
X
i 1
i
n
Comprobar que es un máximo
n
 Xi
n
Xi

 2 ln( f ( x, pˆ )
n
i 1
i 1



 .......
p 2
p2
1  p 2 1  p 2
ˆ MV  0.55
Por lo tanto, p


0.45 0.55
IC( p)  0.55 
1.96  0.55  0.12189  0.428;0.672
64


Versión 3.1
254
Ejercicio 2
Sea X 1 , X 2 ,..., X n muestra aleatoria proveniente de una familia:
f ( X , )  1   X  I 0,1  X 
i ) Encontrar el estimador máximo verosímil de  y analice sus
propiedades.
ii) Encontrar un intervalo de confianza asintótico del 95%.
iii) Obtener el estimador de momentos para  . ¿Cuál es mejor
estimador?.
Solución;
i) Sea X 1 , X 2 ,..., X n m.a.  f ( X , )  1   X  I0,1 X 
Luego la función de verosimilitud ésta dada por:
n
L X ,    1   X i I 0,1  X i 
i 1
y la función soporte por:
 n

 n

 n

n
l x,   ln  1   X i I 0,1  X i   ln1     ln  X i   ln  I 0,1  X i 
 i1

 i1

 i1

n
n


 n * ln1       ln(X i )  ln  I 0,1  X i 
i 1
 i1

Derivando respecto a  e igualando a cero:
n
dl
 1  n
1     n  n
ˆ  n
1
 n
   ln(X i )  0
d
 1    i 1
 ln(X i )
 ln(X i )
i 1
i 1
Verificando condición de Segundo Orden:
d 2l
n

0
2
d
1   2
con   ˆ
Propiedades
 Asintóticamente insesgado
 Consistente simple
 Asintóticamente normal
 Es suficiente

n




n
1 
 1
n


  ln(X i ) 
i 1


2
 0  ˆ  ˆMV
Versión 3.1
255
 Asintóticamente de varianza mínima
 Invariante bajo transformaciones biunívocas
ii) ˆ  es asintóticamente normal:
ˆ  N  , CICR
 
 d 2l 
1  ˆ
con: CICR   2  
n
 dp 
1
2




n
1 
 1
n


  ln(X i ) 
i 1


n
2
P[X<x]=0,975  x=1,96
P[X<x]=0,025  x=-1,96
P[-1,96< Q < 1,96] = 0,95


ˆ  
P  q 
 q   0,9
CICR




P ˆ  q CICR    ˆ  q CICR  0,95
 IC1 0,95

 




n
n 

 n
 1  1,96 n
 ln(X )  
ln(X i ) 

i
 


i 1
i 1
 

1
iii ) Para la población tenemos: EX    x1   x dx 
0
 1
 2
Luego, igualando el momento muestral con el poblacional;
n
 1 1 n
  X i y despejando  , se obtiene: ˆ 
  2 n i 1
n  2 X i
i 1
n
X
i 1
i
n
Es preferible el estimador de máxima verosimilitud, ya que
bajo condiciones generales cumplen con las propiedades
enunciadas anteriormente.
Versión 3.1
256
Ejercicios Propuestos
Ejercicio 3
La vida útil de un artefacto se supone que es una variable
aleatoria que tiene una distribución de densidad exponencial.
A) Calcule el estimador de máxima verosimilitud para el parámetro
B) Si una muestra de tamaño 90 dio un promedio de vida de 4 años.
Estime el intervalo de confianza del 90% para el parámetro.
Ejercicio 4
Si el número de llamadas telefónicas es en promedio 1 cada
20 segundos en un conteo de 10 días.
A) Estime el intervalo de confianza para el parámetro de 90%
B) Calcule el estimador de máxima verosimilitud para el parámetro
Considere que el número de llamadas en una hora es una
variable aleatoria que tiene una distribución de Poisson.
Ejercicio 5
Se sabe que en una ciudad en promedio nacen 505 varones
de cada 1000 recién nacidos. Determine el intervalo de confianza
del 95% para la probabilidad "ser varón" en un recién nacido.
Ejercicio 6
En una prueba a nivel nacional, una muestra da: 3,2; 3,5; 3,6;
3,8; 4,2; 4,5; 4,5; 4,9; 5,1; 5,2; 5,2; 6,2; 6,3; 6,5. Si se supone una
distribución normal N(  ,  2).Determine el intervalo de confianza del
90% para  .
Ejercicio 7
Un agrónomo está interesado en averiguar el peso (se supone
normal) de una nueva variedad de manzana. Una muestra en
gramos:
180, 190, 170, 185, 195, 200, 200, 240, 170, 204, 165, 238,
230, 160, 210, 150, 235, 150, 215, 220, 175, 170, 243, 185, 192.
Versión 3.1
a) Determine el intervalo de confianza para  del 95%
b) Determine el intervalo para  del 95% si se sabe que  =15 gr
c) ¿Cuál intervalo da mayor información?. ¿Por qué?
257
Descargar