Tema 5: Inferencia Estad´ıstica. Estimación

Anuncio
53
Estadı́stica
Tema 5: Inferencia Estadı́stica. Estimación
1
Introducción a la Inferencia Estadı́stica
En los temas anteriores se ha hecho énfasis en la teorı́a de la probabilidad y en determinados modelos
probabilı́sticos. En este tema y los siguientes nos centraremos en el estudio de procedimientos que nos
permitan tomar decisiones referidas a determinados problemas que presentan incertidumbre. Estos procedimientos se engloban en lo que denominamos Inferencia Estadı́stica.
El objetivo de la Inferencia Estadı́stica es obtener información sobre la ley de probabilidades (o modelo
probabilı́stico) de un fenómeno, a partir de algunos datos experimentales.
Existen distintos tipos de procedimientos de Inferencia. Nosotros nos vamos a centrar en los llamados
procedimientos clásicos, en los que se supone que la única información disponible sobre el modelo son los
datos correspondientes a una muestra representativa de la población objeto de estudio, y los problemas
concretos que vamos a abordar se resumen en los siguientes:
1. Problemas en los que la distribución de la variable se conoce, pero los parámetros (todos o parte) que la
caracterizan son desconocidos. El problema es, en este caso, cómo obtener un valor o valores numéricos,
a partir de los datos, que sea un pronóstico o estimación razonable de ese parámetro. Cuando la
solución proporcionada es un solo valor numérico, hablaremos de procedimientos de estimación puntual.
Cuando la solución proporcionada es un intervalo de valores en el que “probablemente” estará el
parámetro, hablaremos de procedimientos de estimación por intervalos.
2. Problemas en los que se trata de constatar que una afirmación acerca de la distribución de probabilidades
del fenómeno estudiado es o no cierta. En este caso, hablaremos de procedimientos de contraste de
hipótesis.
Ejemplo 1: Supongamos que estamos estudiando el tiempo hasta el fallo de un determinado componente
electrónico. Se ha seleccionado una muestra representativa de este tipo de componente y se han mantenido
en funcionamiento hasta fallar, anotándose la duración de cada uno. Nos podemos plantear los siguientes
interrogantes:
1. Si sabemos ya que el tiempo hasta el fallo sigue una distribución exponencial, ¿cuál es el tiempo medio
hasta el fallo para este tipo de componentes? (Corresponde a un problema de estimación puntual).
2. En las mismas condiciones que antes (sabiendo que la distribución es exponencial), ¿qué rango de
valores para la duración media parece razonable? (Corresponderı́a a un problema de estimación por
intervalos).
3. Los componentes provienen de dos procesos de fabricación distintos y se quiere determinar si existen
diferencias en cuanto al tiempo medio hasta el fallo. (Problema de contraste).
54
Estadı́stica
2
Muestreo aleatorio simple
En una gran parte de los estudios experimentales es imposible disponer de los datos correspondientes a todos
los elementos de la población objeto de estudio (por razones económicas o de tiempo, o porque el estudio
suponga la destrucción del elemento estudiado, o porque los elementos estudiados no existan en la realidad).
En esos casos es necesario trabajar a partir de los datos de sólo una parte de la población y para que el
estudio tenga validez interesa que esa parte sea representativa de toda la población.
Ya habı́amos definido anteriormente muestra como una parte representativa de la población; un procedimiento de muestreo es un procedimiento para seleccionar muestras representativas. El método más
usual para obtener estas muestras es el muestreo aleatorio simple, que consiste en seleccionar elementos de
una población, de forma que cada elemento tiene idéntica probabilidad de ser elegido en cada una de las
extracciones. En los casos en los que la muestra se extrae de una población finita, corresponde a extracciones
con reemplazamiento.
Gran parte de los métodos estadı́sticos que vamos a desarrollar son válidos sólo si la muestra se ha
seleccionado por este procedimiento.
Definición 1 Sea X una v.a.; llamaremos muestra aleatoria simple (m.a.s.) de tamaño n de X a un
conjunto de variables aleatorias (X1 , . . . , Xn ) independientes y con idéntica distribución que la variable
X. Por tanto, una m.a.s. es un vector aleatorio, cada uno de cuyos elementos representa los posibles valores
de la componente i-ésima de una muestra aleatoria de tamaño n de la población.
Ejemplo 2: Consideremos una población formada por 10 matrimonios, sobre la que se observa la caracterı́stica “número de hijos”.
1
2
3
4
5
6
7
8
9
10
Matrimonio
Alonso Pérez
Bueno Pongo
Delgado Delgado
Delgado Grueso
Luis Calle
Martı́nez Juez
Pérez Pérez
Ramos Ramos
Rodrı́guez Ruiz
Ruiz Maya
número de hijos
1
2
2
1
3
3
3
2
3
1
Sea X la variable aleatoria que asigna a cada matrimonio el “número de hijos” del matrimonio. El
soporte de esta variable es SX = {1, 2, 3}, y su ley de probabilidades viene dada por :
p(X = 1) = 0.3
p(X = 2) = 0.3
p(X = 3) = 0.4
Vamos a considerar ahora todas las posibles muestras de tamaño 3 de X, y la probabilidad de extraer
cada una de esas muestras:
55
Estadı́stica
Muestra
(1, 1, 1)
(1, 1, 2)
(1, 2, 1)
(2, 1, 1)
(1, 2, 2)
(2, 1, 2)
(2, 2, 1)
(1, 1, 3)
(1, 3, 1)
Probabilidad
(0, 3)3 = 0, 027
(0, 3)3 = 0, 027
(0, 3)3 = 0, 027
(0, 3)3 = 0, 027
(0, 3)3 = 0, 027
(0, 3)3 = 0, 027
(0, 3)3 = 0, 027
(0, 3)2 (0, 4) = 0, 036
(0, 3)2 (0, 4) = 0, 036
Muestra
(3, 1, 1)
(1, 3, 3)
(3, 1, 3)
(3, 3, 1)
(2, 2, 3)
(2, 3, 2)
(3, 2, 2)
(2, 2, 2)
(2, 3, 3)
Probabilidad
(0, 3)2 (0, 4) = 0, 036
(0, 3)(0, 4)2 = 0, 048
(0, 3)(0, 4)2 = 0, 048
(0, 3)(0, 4)2 = 0, 048
(0, 3)2 (0, 4) = 0, 036
(0, 3)2 (0, 4) = 0, 036
(0, 3)2 (0, 4) = 0, 036
(0, 3)3 = 0, 027
(0, 3)(0, 4)2 = 0, 048
Muestra
(3, 2, 3)
(3, 3, 2)
(3, 3, 3)
(1, 2, 3)
(1, 3, 2)
(2, 3, 1)
(2, 1, 3)
(3, 1, 2)
(3, 2, 1)
Probabilidad
(0, 3)(0, 4)2 = 0, 048
(0, 3)(0, 4)2 = 0, 048
(0, 4)3 = 0, 064
(0, 3)2 (0, 4) = 0, 036
(0, 3)2 (0, 4) = 0, 036
(0, 3)2 (0, 4) = 0, 036
(0, 3)2 (0, 4) = 0, 036
(0, 3)2 (0, 4) = 0, 036
(0, 3)2 (0, 4) = 0, 036
Lo que acabamos de dar es la ley de probabilidades del vector aleatorio (X1 , X2 , X3 ), donde cada Xi
representa el valor de X en el elemento i-ésimo de la muestra y podemos ver que cada Xi es también una
variable aleatoria con la misma distribución que X.
En general: puesto que una m.a.s. es un vector aleatorio, quedará definido si conozco su soporte y su
ley de probabilidades. Teniendo en cuenta que las componentes del vector son v.a. independientes y con la
misma distribución que X,
• si X es discreta y p es su función de probabilidad, entonces p(x1 , x2 , . . . , xn ) = p(x1 ) p(x2 ) · · · p(xn ).
• si X es continua y f es su función de densidad, entonces f (x1 , x2 , . . . , xn ) = f (x1 ) f (x2 ) · · · f (xn ).
3
Estadı́sticos y Estimadores
En cualquiera de los procedimientos de Inferencia descritos anteriormente, un concepto que juega un papel
importante es el de estadı́stico:
Definición 2 Dada una v.a. X, y un tamaño muestral n, llamaremos estadı́stico T a una aplicación del
conjunto de muestras aleatorias simples de la población en IRk .
Un estadı́stico es, por tanto, un vector aleatorio, cuya distribución depende de la del vector aleatorio
(X1 , . . . , Xn ), y por tanto de la de la v.a. X.
Ejemplo 3: Con los mismos datos que en el ejemplo 2, podemos considerar los siguientes estadı́sticos,
definidos sobre el conjunto de muestras de tamaño 3 de la variable X:
• T1 (X1 , X2 , X3 ) = máx{X1 , X2 , X3 }
Este estadı́stico es una variable aleatoria cuyo soporte es S T1 = {1, 2, 3}, y su ley de probabilidades
viene dada por:
p(T1 = 1) = p(muestras (x1 , x2 , x3 ) para las que máx{x1 , x2 , x3 } = 1) = p((1, 1, 1)) = 0.027
p(T1 = 2) = p(muestras (x1 , x2 , x3 ) para las que máx{x1 , x2 , x3 } = 2) =
= p({(2, 1, 1) ; (1, 2, 1) ; (1, 1, 2) ; (2, 2, 1) ; (2, 1, 2) ; (1, 2, 2) ; (2, 2, 2)}) = 7(0.027) = 0.189
p(T1 = 3) = p(muestras (x1 , x2 , x3 ) para las que máx{x1 , x2 , x3 } = 3) =
= 12(0.036) + 6(0.048) + 0.064 = 0.784
56
Estadı́stica
• T2 (X1 , X2 , X3 ) = M ed{X1 , X2 , X3 }
Este estadı́stico es una variable aleatoria con soporte S T2 = {1, 2, 3}, y ley de probabilidades dada por:
p(T2 = 1) = p(muestras (x1 , x2 , x3 ) para las que M ed{x1 , x2 , x3 } = 1) =
= p({(1, 1, 1) ; (1, 1, 2) ; (2, 1, 1) ; (1, 2, 1) ; (1, 1, 3) ; (1, 3, 1) ; (3, 1, 1)}) =
= 4(0.027) + 3(0.036) = 0.216
p(T2 = 2) = p(muestras (x1 , x2 , x3 ) para las que M ed{x1 , x2 , x3 } = 2) =
= 4(0.027) + 9(0.036) = 0.432
p(T2 = 3) = p(muestras (x1 , x2 , x3 ) para las que M ed{x1 , x2 , x3 } = 3) =
= 6(0.048) + 0.064 = 0.352
• T3 (X1 , X2 , X3 ) = X1 +X32 +X3
Este estadı́stico es una variable aleatoria con soporte S T3 = {1, 34 , 53 , 2, 37 , 83 , 3}, y ley de probabilidades:
p(T3 = 1) = p((1, 1, 1)) = 0,027
p(T3 = 43 ) = 3 (0,027) = 0,081
p(T3 = 53 ) = 3 (0,027) + 3(0,036) = 0,189
p(T3 = 2) = 0,027 + 6 (0,036) = 0,243
p(T3 = 73 ) = 3 (0,036) + 3(0,048) = 0,252
p(T3 = 83 ) = 3 (0,048) = 0,144
p(T3 = 3) = 0,064.
Definición 3
1. Cuando el objetivo es estimar un parámetro θ, llamaremos espacio paramétrico al
conjunto de todos los posibles valores de θ y lo denotaremos por Θ.
Se llama estimador a un estadı́stico θ̂ que se utiliza para estimar el valor de un parámetro θ y cuyo
conjunto de llegada coincide con el espacio paramétrico.
2. Se llama estimación al valor del estimador para una muestra concreta.
Ejemplo 4:
• El espacio paramétrico del parámetro p de una variable aleatoria B(p) es el intervalo [0,1].
• El espacio paramétrico del parámetro λ de una variable aleatoria P(λ) es (0, ∞).
• El espacio paramétrico del parámetro µ de una variable aleatoria N (µ, σ) es IR.
Ejemplo 5:
• La aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn ), le asigna
el valor X̄ =
n
∑
Xi es un estadı́stico; si este estadı́stico se utiliza para estimar la media poblacional,
n
i=1
diremos que es un estimador. Si (x1 , . . . , xn ) es una muestra concreta de la variable, el valor x̄ =
n
∑
xi
i=1
será una estimación de la media poblacional.
n
57
Estadı́stica
• Igualmente, la aplicación que a cada muestra aleatoria de tamaño n de la variable X, (X1 , . . . , Xn ) le
asigna el valor M ed(X) = mediana{(X1 , . . . , Xn )} es un estadı́stico; si este estadı́stico se utiliza para
estimar la media poblacional, diremos que es un estimador. Si (x1 , . . . , xn ) es una muestra concreta
de la variable, el valor M ed{x1 , . . . , xn } será una estimación de la media poblacional.
4
Propiedades deseables en un buen estimador
Para un mismo parámetro se pueden elegir varios estimadores (por ejemplo, para estimar la media de la
población puede considerarse la media muestral, la mediana muestral, la moda, etc). Se plantea el problema
de elegir el estimador más adecuado entre varios posibles. Vamos a explicar algunas de las propiedades que
serı́a deseable que un estimador tuviese.
1. Centrado o insesgado:
Si θ̂ es un estimador del parámetro θ, se dice que es centrado si E(θ̂) = θ. En otro caso se dice que
es sesgado y se define el sesgo de θ̂ como:
sesgo(θ̂) = E(θ̂) − θ.
Ejemplo 6:
• La media muestral es un estimador insesgado de la media de la población, µ.
Sea X la variable aleatoria correspondiente a la caracterı́stica de la población y (X1 , X2 , . . . , Xn )
una m.a.s. de X; sea X̄ =
n
∑
Xi . Entonces:
n
i=1
)
( n
( ) ∑
n
n
∑
∑ Xi
E(Xi )
Xi
=
E
=
E(X̄) = E
n
n
n
i=1
i=1
i=1
(aquı́ se aplica que la media de una suma de v.a. es la suma de sus medias, y que la media de
una constante por una v.a. es la constante por la media de la variable).
Como las variables Xi son igualmente distribuidas que la variable X, tendrán también su misma
media, µ; por tanto,
n
n
∑
E(Xi ) ∑
µ
E(X̄) =
=
= µ.
n
n
i=1
i=1
• La varianza muestral s2 es un estimador sesgado de la varianza de la población, σ 2 , puesto que
n
2
2 = ∑ (Xi − X̄) , en cambio, sı́ que es un
E(s2 ) = σ 2 n−1
.
Puede
deducirse
fácilmente
que
ŝ
n
n−1
i=1
estimador centrado de σ 2 .
A continuación, se demuestra que E(s2 ) = σ 2 n−1
n . No es difı́cil, aunque sı́ algo ”lioso”:
Sea X la variable aleatoria correspondiente a la caracterı́stica de la población; (X1 , X2 , . . . , Xn )
una m.a.s. de X, y sea s2 =
n
∑
i=1
2
E(s ) = E
(Xi −X̄)2
n
la varianza muestral. Entonces:
( n
)
∑ (Xi − X̄)2
i=1
n
=E
( n
)
∑ (Xi − µ + µ − X̄)2
i=1
n
=
58
Estadı́stica
=E
( n
)
∑ (Xi − µ)2 + (µ − X̄)2 + 2(Xi − µ)(µ − X̄)
n
i=1
=E
( n
∑ (Xi − µ)2
=E
( n
)
∑ (Xi − µ)2
n
i=1
=
+
n
i=1
=
i=1
n
i=1
σ2
n
+
n
∑
E(µ − X̄)2
n
i=1
+
n
∑
i=1
=
+ 2(µ − X̄)
( n
)
∑ (µ − X̄)2
+E
n
n
∑
n
i=1
n
∑
E(Xi − µ)2
i=1
n
∑
(µ − X̄)2
=
n
∑
(Xi − µ)
)
=
n
i=1
+ 2E((µ − X̄)(X̄ − µ)) =
− 2E((X̄ − µ)2 ) = 1
E(µ − X̄)2
− 2E((X̄ − µ)2 ) = 2
n
n
∑
σ2
i=1
n
−
σ2
n−1
= σ2
.
n
n
2. Varianza mı́nima:
Se define estimador insesgado de mı́nima varianza como aquel estimador del parámetro que entre todos
los insesgados, es el de menor varianza. (Dicho estimador no existe siempre).
Observación 1 La importancia de esta propiedad se comprende a partir del teorema de Chebychev,
que( afirmaba
E(θ̂) ± kσ(θ̂) se concentra al menos
) que, para una variable aleatoria θ̂, en el
( intervalo
)
1
1
el 1 − 2 100% de la probabilidad, es decir, que el 1 − k2 100% de las veces que obtenga de forma
k
aleatoria un valor de la variable, ese valor estará en dicho intervalo.
(
)
Por tanto, si θ̂ es un estimador del parámetro θ, “al menos para el 1 − 12 100% de las muestras”, el
k
estimador(θ̂ tomará
) un valor en E(θ̂) ± kσ(θ̂). Si el estimador es centrado, eso significa que para “al
1
menos el 1 − 2 100% de las muestras” el error cometido al estimar θ por medio de θ̂ será menor
k
que kσ(θ̂), y se deduce que este error es menor cuanto menor sea σ 2 (θ̂).
En ocasiones, los estimadores que se utilizan no son centrados. En ese caso, la propiedad equivalente
a ser de varianza mı́nima es tener error cuadrático medio mı́nimo:
Definición 4 Se define el error cuadrático medio (ECM) de un estimador θ̂ como:
ECM (θ̂) = E(θ̂ − θ)2 .
Proposición 1 Se verifica que: ECM (θ̂) = (sesgo(θ̂))2 + V ar(θ̂).
1
E(Xi − µ)2 = V ar(Xi ) = σ 2 , por tener las variables
(
)Xi la misma distribución que X.
2
E(µ − X̄)2 = E(X̄ − µ)2 = V ar(X̄) = V ar
n
∑
i=1
X1 , . . . , Xn son independientes, por ser una m.a.s..
Xi
n
=
1
V
n2
ar(
n
∑
i=1
Xi ) =
1
n2
n
∑
i=1
V ar(Xi ) =
nσ 2
n2
=
σ2
,
n
ya que las variables
59
Estadı́stica
Demostración
ECM (θ̂) = E(θ̂ − θ)2 = E(θ̂ − E(θ̂) + E(θ̂) − θ)2 =
= E((θ̂ − E(θ̂))2 + (E(θ̂) − θ)2 + 2(θ̂ − E(θ̂))(E(θ̂) − θ)) =
= E(θ̂ − E(θ̂))2 + E(E(θ̂) − θ)2 + E(2(θ̂ − E(θ̂))(E(θ̂) − θ)) =
= V ar(θ̂) + (E(θ̂) − θ)2 + 2(E(θ̂) − θ)E(θ̂ − E(θ̂)) = 3 = V ar(θ̂) + (sesgo(θ̂))2 .
En el resultado anterior puede verse que, si el estimador es centrado, entonces el ECM coincide con la
varianza del estimador.
3. Consistencia:
Los estimadores, en general dependen del tamaño n de la muestra (por ejemplo, X̄ en realidad deberı́a
escribirse como X̄n ). Por tanto, en general, para cada n vamos a tener un estimador θ̂n ; se dice entonces
∞
que {θ̂n }n=1 es una sucesión de estimadores consistentes si cumple las dos condiciones siguientes:
(a) lim E(θ̂n ) = θ.
n→∞
(b) lim V ar(θ̂n ) = 0.
n→∞
Esta propiedad nos asegura que aunque un estimador no sea insesgado y con varianza pequeña, basta
aumentar el tamaño de la muestra para poder disminuir el ECM, y en este sentido, los estimadores
con esta propiedad pueden ser estimadores razonables del parámetro.
Ejemplo 7:
(a) La media muestral es un estimador consistente de la media poblacional.
En efecto, anteriormente hemos probado que para cualquier tamaño muestral n, la media muestral
2
es centrada y que V ar(X̄n ) = σn . Por tanto, se cumplen las dos propiedades de la definición de
consistencia.
(b) El estimador θ̂n =
n
∑
Xi
i=1
n−1
es un estimador consistente de la media poblacional.
n X̄. Por tanto:
En efecto, θ̂n = (n−1)
• E(θ̂n ) =
n
(n−1) E(X̄)
• V ar(θ̂n ) =
5
2
n
(n−1)2
=
n
(n−1) µ
V ar(X̄) =
−→ µ si n → ∞ .
n2
σ2
(n−1)2 n
=
n
(n−1)2
σ 2 −→ 0 si n → ∞.
Obtención de estimadores
En general, conviene observar que si el parámetro que queremos estimar es la media de la variable, en el
punto anterior hemos visto que la media muestral es un estimador adecuado, pues es centrado y consistente.
Por otra parte, en algunas ocasiones no disponemos de un estimador centrado, pero es fácil deducirlo a
partir de otro estimador. Por ejemplo, si un estimador θ̂ de un parámetro θ, no es centrado pero cumple
que E(θ̂) = kθ, es fácil deducir que (1/k)θ̂ será un estimador centrado de θ. Para obtener estimadores de
3
Obsérvese que E(θ̂ − E(θ̂)) = 0.
60
Estadı́stica
otros parámetros, un método que proporciona estimadores razonables es el método de máxima verosimilitud.
Tiene el inconveniente de que no siempre proporciona una solución al problema de encontrar estimador.
El método de máxima verosimilitud se basa en la búsqueda de aquel valor del parámetro que hace más
probable obtener la muestra que precisamente se ha obtenido. Vamos a desarrollar esta idea con un ejemplo:
Ejemplo 9: Supongamos que X es una v.a. con distribución de Bernouilli de parámetro p y que (x1 , . . . , xn )
son los valores (concretos) de una muestra aleatoria de tamaño n, (X1 , . . . , Xn ).
Si p ≃ 1, parece lógico pensar que en esta muestra casi todos los valores xi sean 1, mientras que si
p ≃ 0, será más probable que los elementos sean casi todos nulos. Si p ≃ 1/2, entonces esperarı́amos que
aproximadamente hubiese igual número de 0 que de 1.
Sin embargo, no conocemos p, pero sı́ los valores que hemos obtenido en la muestra, x1 , . . . , xn . Ya hemos
visto que la proporción de 0 y 1 en la muestra es más probable con unos valores de p que con otros, y la
pregunta que nos vamos a formular es ¿cuál es el valor de p ∈ [0, 1] que hace que la probabilidad de obtener
precisamente esta muestra sea máxima?.
La probabilidad de obtener esta muestra es:
p(x1 , x2 , . . . , xn ) = p(x1 ) . . . p(xn ) = pk (1 − p)n−k ,
donde k es el número de 1 en la muestra, es decir, k =
n
∑
xi .
i=1
El problema de encontrar el valor de p ∈ [0, 1] que hace máxima esta probabilidad es un problema de
extremos absolutos en [0, 1].
Si llamamos l(p) = pk (1 − p)n−k ( k ≥ 0), derivando en (0, 1) e igualando a 0:
l′ (p) = kpk−1 (1 − p)n−k − pk (n − k)(1 − p)n−k−1 =
= pk−1 (1 − p)n−k−1 [k(1 − p) − (n − k)p] = pk−1 (1 − p)n−k−1 [k − np]
n
∑
xi
El punto crı́tico que se obtiene es: p = nk = i=1n .
Calculando l′′ (p) y substituyendo, se obtiene que éste es un punto de máximo relativo. Como l(0) =
l(1) = 0, se concluye que también es un máximo absoluto, pues la función es continua y no tiene más
extremos relativos en (0, 1).
n
∑
xi
i=1
De esta forma hemos obtenido un estimador de p, p̂ = n . A este estimador se le denomina estimador
máximo verosı́mil (EMV) de p (Como puede observarse, coincide con la media muestral X̄).
Método:
- Formar la función de verosimilitud para una muestra arbitraria de tamaño n.
- Resolver el correspondiente problema de máximos absolutos en el dominio de los parámetros.
- Definir como EMV las expresiones obtenidas al determinar el máximo absoluto.
Observación 2 En muchas ocasiones, en lugar de maximizar la función de verosimilitud es más fácil
maximizar la función L(θ) = ln (l (θ)), llamada función soporte. Si la función l(θ) es estrictamente positiva
en el dominio de θ, entonces los máximos de una y otra función se corresponden y por tanto maximizar una
es equivalente a obtener los máximos de la otra.
( )
Proposición 2 (Teorema de invarianza) Si θ̂ es el E.M.V. de θ y g es una función de θ, entonces g θ̂
es el E.M.V. de g (θ) .
61
Estadı́stica
6
Estimación por intervalos de confianza
Cuando tratamos la estimación puntual, uno de los problemas que se plantearon es que el valor de la
estimación es sólo uno de los valores (posiblemente infinitos) del estimador, obtenido al extraer una muestra
concreta, de forma que si extraemos dos muestras distintas, las estimaciones serán distintas. Al hacer
cualquier estimación se está cometiendo un error, y serı́a deseable proporcionar una medida de la precisión
de la estimación del parámetro.
En este tema vamos a introducir el concepto de intervalo de confianza como un intervalo cuyos extremos
son variables que dependen de la muestra, y en el cual se confı́a que esté el valor de parámetro. El intervalo
se obtendrá a partir de un estadı́stico generalmente relacionado con un estimador puntual, cuya distribución
no depende del parámetro desconocido, y una medida de la validez del intervalo es el nivel de confianza, que
indica la proporción de intervalos de todos los que se podrı́an construir a partir de muestras distintas, que
realmente contienen al parámetro.
Definición 5 Sea X una v.a. con distribución que depende de un parámetro θ desconocido y sea X1 , . . . , Xn
una m.a.s. de X. Llamaremos intervalo de confianza de nivel 1 − α, (siendo α ∈ (0, 1)) a un intervalo
(L1 (X1 , . . . , Xn ), L2 (X1 , . . . , Xn )), cuyos extremos son variables aleatorias que dependen de la muestra, tal
que el (1−α)100% de los intervalos construidos a partir de las posibles muestras de tamaño n, contiene a θ.
Para comprender mejor el concepto de intervalo de confianza y la forma en que estos se construyen,
vamos a comenzar presentando un ejemplo sencillo:
Ejemplo:
Intervalo de confianza para la media de una v.a. con distribución normal y varianza (σ 2 ) conocida.
Sea X una v.a. con distribución N (µ, σ) y sea X1 , . . . , Xn una m.a.s. de esta distribución. Como ya
hemos visto en el tema anterior, el estimador X de µ, que se define como:
X=
n
∑
Xi
i=1
n
es una suma de variables aleatorias con distribución normal e independientes (pues X1 , . . . , Xn lo son) y,
2
por tanto, tiene distribución normal. Su media es µ y su varianza σn . Si estandarizamos esta variable, se
tiene que:
X −µ
√ ; N (0, 1).
σ/ n
Obsérvese que esta variable aleatoria tiene distribución conocida e independiente del valor del parámetro
µ, que por otra parte es el único valor desconocido de la variable una vez extraı́da una m.a.s. concreta de
tamaño n. Esto es lo que nos va a permitir construir el intervalo de confianza para µ.
Si fijamos un nivel 1−α de confianza, pretendemos que para un (1−α)100% de las muestras de tamaño
n posibles, el valor de µ esté incluido en el intervalo que vamos a construir. Para ello, vamos a considerar el
valor z ∈ IR para el cual p(−z ≤ Z ≤ z) = 1−α , donde Z es una variable aleatoria con distribución N (0, 1).
(Recuérdese que esto significa que el (1 − α)100% de los valores de la variable Z que extraigamos al azar,
estarán en el intervalo (−z, z)).
(
)
µ
√ ≤ z = 1−α.
En particular, p −z ≤ X −
σ/ n
62
Estadı́stica
¿Qué significa esto? Que para el (1−α)100% de las muestras de tamaño n de la v.a. X, al obtener X y
formar el cociente anterior, ese valor estará entre −z y z. Si en:
−z ≤
despejamos µ, se obtiene:
X −µ
√ ≤ z
σ/ n
σ
σ
≤ µ ≤ X +z √
n
n
X −z √
que es el intervalo correspondiente.
Observación 3
1. Los extremos del intervalo, X ± z √σn , son variables aleatorias que dependen de la
muestra; es decir, para cada muestra distinta, tomarán un valor diferente.
2. El valor del parámetro, aunque desconocido, es un valor fijo.
3. El valor z que interviene en el intervalo, es el valor que corresponde a una probabilidad acumulada de
1 − α2 , y se obtiene fácilmente a partir de la tabla de la N (0, 1); denotaremos este punto por z 1− α .
2
(Como en el intervalo (−z, z) debe haber una probabilidad 1−α, en las colas debe quedar distribuida
una probabilidad de α, y de ahı́ que p(Z ≤ z) = 1− α2 .) Podrı́amos elegir otros valores z1 y z2 , tales
que p(z1 ≤ Z ≤ z2 ) = 1−α, y a partir de ellos obtendrı́amos también intervalos de confianza de nivel
1−α, de la forma
σ
σ
X − z2 √ ≤ µ ≤ X + z1 √ ,
n
n
pero estos intervalos tendrı́an mayor amplitud, y por tanto, la estimación de µ serı́a menos precisa.
Para obtener el intervalo anterior, hemos utilizado un estadı́stico que depende de la muestra y del
X −µ
√ , cuya distribución es conocida e independiente del parámetro. Esto sugiere que para
parámetro σ/
n
construir intervalos de confianza para otros parámetros o en otras condiciones (por ejemplo, si no se
conoce σ 2 ), es necesario utilizar estadı́sticos similares, con distribución conocida. Esta es la forma en
que procederemos en general:
• Consideraremos un estadı́stico T (X1 , . . . , Xn , θ) que depende de la muestra X1 , . . . , Xn y del parámetro
que queremos estimar, θ, cuya distribución sea conocida e independiente de dicho parámetro.
• Para dicha distribución, y fijado el nivel de confianza 1 − α, seleccionaremos un intervalo [a, b] del
soporte que tenga probabilidad 1−α.
• En la desigualdad a ≤ T (X1 , . . . , Xn , θ) ≤ b despejamos θ, obteniendo el intervalo deseado.
Naturalmente, como nos interesa obtener intervalos ”pequeños” en amplitud, trataremos de elegir el
intervalo [a, b] de menor amplitud posible. Hay que señalar que, en los casos en los que la distribución
del estadı́stico sea simétrica, los intervalos que vamos a construir son de amplitud mı́nima, para un nivel
de confianza fijado. En los demás casos, la construcción de un intervalo de amplitud mı́nima resulta
excesivamente complicado y conduce a fórmulas poco manejables en la práctica, y por tanto, los intervalos
construidos, lo serán, buscando una mayor sencillez.
Vamos a estudiar algunos de estos estadı́sticos y a introducir algunas distribuciones importantes, relacionadas
con la distribución normal.
63
Estadı́stica
7
Distribuciones utilizadas en la construcción de intervalos de confianza
1. Distribución χ2n .
Definición 6 Sean Z1 , . . . , Zn v.a. con distribución N (0, 1) e independientes. Entonces la v.a. X =
Z12 + Z22 + . . . + Zn2 se dice que tiene una distribución chi-cuadrado con n grados de libertad y se denota
por χ2n .
i. SX = [0, ∞).
Propiedades 1
ii. E(X) = n y V ar(X) = 2n.
iii. Propiedad de reproductividad:
Si
2
X1 , . . . , Xk tienen distribuciones χni , para
i = 1, . . . , k, y son independientes, entonces
k
∑
la variable X =
con n =
k
∑
i=1
Xi tiene distribución χ2n
ni grados de libertad.
i=1
iv. Si Z es una v.a. con distribución χ2n , X es una v.a. con distribución χ2n1 con n > n1 , y Z = X + Y,
siendo X e Y v. a. independientes, entonces Y tiene distribución χ2n−n1 .
Esta nueva distribución es la que siguen algunos estadı́sticos que utilizaremos para obtener intervalos
de confianza. En particular, el estadı́stico que describimos a continuación y que se utiliza para construir
el intervalo de confianza de la varianza de una v. a. X con distribución N (µ, σ)
Proposición 3 Sea X una v.a. con distribución N (µ, σ) y sea X1 , . . . , Xn una m.a.s. de esta distribución.
2
Entonces, el estadı́stico n S2 tiene distribución χ2n−1 .
σ
Demostración
Vamos a desarrollar
n
∑
2
nS
=
σ2
n
∑
(Xi − X)2
i=1
=
σ2
σ2
i=1
=
=
n
∑
(Xi − µ)2
i=1
Por tanto,
n
∑
(Xi − µ)2
i=1
σ2
=
σ2
n
∑
(Xi − µ)2 + (µ − X)2 + 2(Xi − µ)(µ − X)
=
n
∑
(Xi − µ + µ − X)2
i=1
+
σ2
(µ − X)2
i=1
+ 2(µ − X)
σ2
∑
(µ − X)2
(µ − X)2
− 2n
=
2
2
σ
σ
i=1
)2
n (
∑
Xi − µ
i=1
σ
n
∑
(Xi − µ)
i=1
n
+n
=
=
(
σ2
Xi − µ
σ
(µ − X)2
nS 2
+
.
2
σ
σ 2 /n
=
)2
−
(µ − X)2
.
σ 2 /n
64
Estadı́stica
X −µ
√
Para cada i = 1, . . . , n, la variable Xiσ−µ tiene distribución N (0, 1). La variable σ/
n
tiene también distribución N (0, 1); por último, aunque no lo demostraremos, las variables
nS 2
σ2
−
√ µ son independientes (ello se debe a que, si X es una v. a. con distribución
y X
σ/ n
normal, entonces las variables X y S 2 son independientes). Por tanto,
una distribución χ2n , mientras que
(X −µ)2
σ 2 /n
)
n (
∑
Xi −µ 2
i=1
σ
tiene
tiene distribución χ21 . Aplicando la propiedad
2
(iv), se deduce que nS2 tiene una distribución χ2n−1 .
σ
2
Observación 4 Puede observarse que nS2 =
σ
utilizarse indistintamente para el estadı́stico.
(n−1)Sc2
σ2
, de forma que ambas expresiones pueden
2. Distribución t de Student.
Definición 7 Sea Z una v. a. con distribución N (0, 1), y sea Y una v. a. con distribución χ2n . Si Z
e Y son independientes, la variable X = √Z
se dice que tiene una distribución t de Student con n
Y /n
grados de libertad. Esta distribución se denota por tn .
Propiedades 2 (a) SX = (−∞, ∞).
n , si n > 2.
(b) E(X) = 0 y V ar(X) = n−2
(c) La distribución es simétrica respecto de x = 0,
y es similar a la normal (distribución a la que
tiende cuando el número de grados de libertad
tiende a ∞.) Tiene colas más amplias que la
normal.
Esta distribución aparece, por ejemplo, al construir el intervalo de confianza para el parámetro µ de
una variable X con distribución N (µ, σ), y σ desconocido. O también, a la hora de estimar el valor de
la diferencia de medias µ1 −µ2 de dos v. a. independientes, X1 ; N (µ1 , σ) e X2 ; N (µ2 , σ) , con
varianzas desconocidas pero iguales.
Proposición 4 Sea X una variable aleatoria con distribución N (µ, σ) y sea X1 , . . . , Xn una m.a.s.
de esta distribución. Entonces el estadı́stico
X
√−µ
S/ n−1
tiene distribución tn−1 .
Demostración
En efecto, ya habı́amos visto anteriormente que la variable
Por otra parte, la variable
Por tanto,
nS 2
σ2
tiene distribución N (0, 1).
tiene una distribución χ2n−1 y es independiente de la anterior.
X −µ
√
σ/ n
√
tiene distribución tn−1 .
X−µ
√
σ/ n
nS 2 /σ 2
n−1
=
X −µ
√
S/ n−1
65
Estadı́stica
Observación 5 Puede observarse que:
X −µ
X −µ
√
√ .
=
Sc / n
S/ n − 1
Al construir intervalos de confianza pueden utilizarse cualquiera de los dos estadı́sticos (generalmente,
en función de la información disponible, es decir, según que lo que se conozca sea S o Sc .)
Proposición 5 Sean X ; N (µ1 , σ) e Y ; N (µ2 , σ) dos v. a. independientes, con varianzas iguales;
si X1 , . . . , Xn1 es una m.a.s. de la variable X, e Y1 , . . . , Yn2 es una m.a.s. de la variable Y , entonces
el estadı́stico
X − Y −(µ1 −µ2 )
√
,
n1 S12 + n2 S22
1
1
+
n1
n2
n +n −2
1
2
tiene distribución t n1 +n2 −2 .
Observación 6 Notar que también se verifica:
n1 S12 + n2 S22
n1 + n2 − 2
=
(n1 −1)(Sc )21 + (n2 −1)(Sc )22
.
n1 + n2 − 2
3. Distribución F de Fisher-Snedecor
Definición 8 Sean X e Y dos variables chi-cuadrado con n y m grados de libertad, respectivamente,
X/n
e independientes. Entonces, la variable F = Y /m se dice que tiene distribución F de Fisher-Snedecor
con n, m grados de libertad. Esta distribución se denota por F n,m .
Propiedades 3 (a) SF = [0, ∞).
m , si m > 2,
(b) E(F ) = m−2
y
2
V ar(F ) =
2m (n + m−2)
,
n(m−2)2 (m−4)
si m > 4.
(c) Si X tiene una distribución Fn,m e Y tiene
una distribución Fm,n , entonces el punto
x ∈ IR para el cual p(X ≤ x) = 1−α, verifica
que p(Y ≤ x1 ) = α.
(d) La distribución F tiene una gráfica (su función
de densidad) similar a la de la chi-cuadrado.
Esta distribución es la que utilizaremos para obtener el intervalo de confianza del cociente de varianzas
de variables normales independientes.
Proposición 6 Sean X ; N (µ1 , σ1 ) e
estadı́stico
(Sc )21 /σ12
(Sc )22 /σ22
Y ; N (µ2 , σ2 ) dos v. a. independientes.
tiene distribución F n 1 −1 , n 2 −1 .
Entonces, el
66
Estadı́stica
En efecto, hemos visto anteriormente que las variables
χ2n1 −1
vamente distribuciones
variable
(
y
χ2n2 −1 .
(n1 −1)(Sc )21
σ12
y
(n2 −1)(Sc )22
σ22
tienen respecti-
Además son independientes, por serlo X e Y . Por tanto, la
)
(
(n1 − 1)(Sc )21 /σ12
(n2 − 1)(Sc )22 /σ22
:
(n1 − 1)
(n2 − 1)
)
=
(Sc )21 /σ12
(Sc )22 /σ22
tiene distribución F n 1 −1 , n 2 −1 .
En la Tabla 1, aparecen los estadı́sticos y principales intervalos de confianza de parámetros de variables
con distribución normal.
8
Otros intervalos de confianza
Se pueden construir también intervalos de confianza para algunos parámetros de los que depende la distribución
de algunas variables aleatorias no normales, por ejemplo el parámetro p de una variable B(p), o el parámetro
λ de una variable con distribución P(λ). En general, dada una variable aleatoria X cuya media E(X) = µ,
el estadı́stico X verifica
X −µ
; N (0, 1)
σ/n
si el tamaño de la muestra, n, es suficientemente grande. Si la varianza de X es conocida, a partir del
estadı́stico anterior podrı́amos deducir un intervalo de confianza para µ con un nivel de confianza 1−α:
σ
σ
X − √ z 1− α ≤ µ ≤ X + √ z 1− α
2
2
n
n
Si σ es desconocido, se puede sustituir en la expresión del estadı́stico por una estimación de la misma,
obtenida a partir de la m.a.s. En ese caso, el estadı́stico tiene aproximadamente una distribución N (0, 1).
Por ejemplo, si X ; B(p), una estimación de p la proporciona el valor de X, y el estadı́stico:
√
X −µ
X(1 − X)/n
≃ N (0, 1);
por tanto, el intervalo de nivel 1−α para p es:
√
X − z 1− α
2
X(1 − X)
≤ µ ≤ X + z 1− α
2
n
√
X(1 − X)
n
Igualmente, se pueden construir intervalos de confianza para la diferencia de medias de v. a. independientes,
no necesariamente normales, a partir de sendas muestras aleatorias simples, siempre que el tamaño de éstas
sea lo suficientemente grande.
La Tabla 2 contiene los estadı́sticos e intervalos de confianza asintóticos más usuales para parámetros de
distribuciones no normales.
9
Algunas aplicaciones de los intervalos de confianza.
1. Toma de decisiones:
Además de servirnos para estimar el valor de un parámetro, proporcionando una medida del error de
estimación, los intervalos de confianza permiten tomar ciertas decisiones en cuánto al valor de dichos
parámetros; por ejemplo:
67
Estadı́stica
• Si un valor determinado podrı́a ser o no el valor del parámetro.
• Si las medias de dos variables pueden ser o no iguales.
• Si las varianzas de dos variables pueden ser o no iguales.
• Si la probabilidad p de una caracterı́stica en dos poblaciones distintas, puede ser o no igual.
...
Todas estas decisiones se basan en el significado del nivel de confianza: si un intervalo tiene nivel 1−α,
sabemos que eso significa que para el (1−α)100% de los intervalos construidos a partir de muestras
de tamaño n, el parámetro estará en el intervalo; cuando seleccionamos una muestra, existe por tanto
probabilidad 1−α de elegir una de estas muestras ”buenas”, de forma que si determinado valor no está
en el intervalo, parece poco creı́ble que pudiera ser el valor del parámetro, mientras que si lo está, es
admisible que sea el valor del parámetro. La forma de expresar lo anterior no es casual y está llena de
matices: no tiene el mismo significado ”no ser creı́ble” que ”ser admisible”.
Respecto de los ejemplos citados, si quiero decidir si es posible, por ejemplo que las medias de dos
variables sean iguales, construirı́a el intervalo de confianza para la diferencia de medias y si el 0
estuviera en él, concluirı́a que la igualdad es posible, mientras que si no está concluirı́a que las medias
son diferentes. De la misma forma, si quiero decidir si es posible que las varianzas de dos variables
sean iguales, construirı́a el intervalo de confianza para el cociente de varianzas y si el 1 estuviera en él,
concluirı́a que la igualdad es posible, mientras que si no está concluirı́a que las varianzas son diferentes.
Se procede igual con los otros ejemplos.
2. Determinación del tamaño muestral para garantizar una precisión en la estimación de un parámetro.
La precisión de un intervalo simétrico consideramos que es la semilongitud del mismo; para intervalos
no simétricos, se considera la longitud del intervalo. En ocasiones se puede determinar qué tamaño de
muestra mı́nimo es necesario para garantizar que la precisión del intervalo es un valor prefijado. Por
ejemplo, si X es una variable con distribución N (µ, σ), con σ conocido, y queremos que la precisión
del intervalo sea ε, basta despejar n en la desigualdad:
σ
√ z 1− α < ε
2
n
(Recordad que el intervalo para µ en este caso tiene la forma: X − z 1− α √σn ≤ µ ≤ X + z 1− α √σn )
2
2
Descargar