La Función de distribución Empírica

Anuncio
Métodos de Remuestreo
Tema 2. Distribución Empı́rica
basado en
B. Efron, R. Tibshirani (1993). An Introduction to the bootstrap.
O. Kirchkamp (2014). Resampling methods.
Curso 2014/15
Parámetros, distribuciones y el principio de plug-in
I
El mejor modo de visualizar las muestras aleatorias es en términos
de poblaciones finitas o un universo U de unidades individuales
U1 , U2 , . . . , UN cada una de las cuales tiene la misma probabilidad
de ser seleccionada.
I
En cada unidad Ui se toma una unidad de interés Xi de modo que
se obtiene un censo X1 , X2 , . . . , XN o X.
I
Una muestra aleatoria de tamaño n es una colección de n unidades
u1 , u2 , . . . , un seleccionadas al azar del universo U.
I
En cada unidad seleccionada ui se obtiene una medida de interés xi
de modo que el total se denota como x.
I
Los problemas en estadı́stica en general se refieren a estimar algún
aspecto de la distribución de probabilidad F basada en una muestra.
Ejemplo sobre el principio de plug-in
I
Se toma el ejemplo de los centros de máster en leyes
library ( bootstrap )
with ( law82 , plot (100 * GPA ∼ LSAT , ylab = " GPA " ))
points ( law , pch =3)
legend ( " bottomright " , c ( " poblacion " , " muestra " ) ,
pch = c (1 ,3))
Ejemplo sobre el principio de plug-in
I
La población está compuesta por 82 centros de enseñanza de máster
en leyes (dataset law82). La muestra contiene 15 observaciones.
I
Interesa calcular la correlación entre GPA (la puntuación media en
los cursos de grado) y LSAT (calificación de admisión).
I
La verdadera puntuación:
with ( law82 , cor ( GPA , LSAT ))
I
El estimador plug-in es
with ( law , cor ( GPA , LSAT ))
Función de distribución empı́rica
I
La distribución empı́rica denominada Fb es un estimador simple de la
función de distribución teórica F .
I
El principio de plug-in consiste en estimar algún aspecto de F como
la media, mediana etc. mediante Fb.
I
El bootstrap es una aplicación directa de este principio.
I
Supongamos que se observa una muestra aleatoria de tamaño n con
función de distribución F
F → (x1 , x2 , . . . , xn )
Función de distribución empı́rica
I
La función de distribución empı́rica Fb se define como la distribución
1
discreta que asigna probabilidad a cada valor xi donde
n
i = 1, 2, . . . , n
De este modo Fb asigna a un conjunto A del espacio muestral de x la
probabilidad empı́rica
# {xi ∈ A}
b
P(A)
=
n
que es la proporción de la muestra observada x que ocurre en A.
Función de distribución empı́rica
# Simulo datos de cal ificacio nes
mu <- 6 .5
sigma <- 0 .5
y <- rnorm ( n =20 , mean = mu , sd = sigma )
y <- round (y ,3)
t <- mean ( y )
cat ( " La muestra es " , sort ( y ) ,
" \ n en que se obtiene una media muestral igual a " ,
t, "\n")
Función de distribución empı́rica
# EDF
X11 ()
plot.ecdf ( x =y , verticals = TRUE , do.p = FALSE ,
main = " EDF de Calific aciones " , lwd =2 ,
panel.first = grid ( col = " gray " , lty = " dotted " ) ,
ylab = " Empirical F " )
Función de distribución empı́rica
plot.ecdf ( x =y , verticals = TRUE , do.p = FALSE ,
main = " Empirical vs Real F " , lwd =2 , xlab = " x " ,
panel.first = grid ( nx = NULL , ny = NULL ,
col = " gray " , lty = " dotted " ) , ylab = " EDF " )
curve ( expr = pnorm (x , mean = mu , sd = sigma ) , col = " red " ,
add = TRUE , lw =3)
Función de distribución empı́rica
I
Se define la función de distribución empı́rica como
n
Número de elementos de la muestra ≤ x
1X
Fbn (x) =
=
1 {xi ≤ x}
n
n
i=1
I
I
donde 1 {A} es la función indicatriz del suceso A.
En general, Fbn (x) se puede considerar como una función de
distribución discreta que asigna probabilidad igual a 1/n a cada uno
de los n valores x1 , . . . , xn .
Ası́ Fbn (x) es una función escalón con un salto de tamaño 1/n en
cada punto xi (i = 1, . . . , n).
Función de distribución empı́rica
I
I
I
Si se ordenan los valores de la muestra de menor a mayor
x(1) < x(2) < · · · < x(n) entonces then Fbn (x) = 0 para x < x(1)
Fbn (x) salta al valor 1/n en x = x(1) y se mantiene igual a 1/n para
x(1) ≤ x < x(2)
Fbn (x) salta al valor 2/n en x = x(2) y se mantiene igual a 2/n para
x(2) ≤ x < x(3) y ası́ sucesivamente
I
Si se fija el valor de x entonces la variable aleatoria 1 {xi ≤ x} es
una v.a. Bernoulli de parámetro p = F (x)
Entonces nFbn (x) es una v.a binomial de media nF (x) y varianza
I
nF (x)(1 − F (x)).
De este modo Fbn (x) es un estimador insesgado de F (x).
I
Propiedades de la función de distribución empı́rica
I
Si se denota como F (x) la función de distribución de la v.a. de la
que procede la muestra entonces, para todo número
(−∞ < x < ∞), la probabilidad de que una observación dada Xi sea
menor o igual que x es F (x).
I
Por tanto, por la ley de los grandes números, cuando n → ∞, la
proporción Fbn (x) de observaciones en la muestra que son menores o
iguales que x convergen en probabilidad a F (x).
p
Fbn (x) → F (x)
−∞ < x < ∞
Propiedades de la función de distribución empı́rica
I
I
Se tiene un resultado más potente: Fbn (x) converge a F (x) de
manera uniforme para todos los valores de x
Lemma de Glivenko-Cantelli Sea Fbn (x) una función de
distribución empı́rica de una m.a.s X1 , . . . , Xn de una función de
distribución F entonces,
p
Dn = Sup Fbn (x) − F (x) → 0
−∞<x<∞
I
Nota: Antes de que los valores X1 , . . . , Xn hayan sido observados Dn
es una v.a.
I
El lema implica que cuando el tamaño n de la muestra es grande la
función de distribución empı́rica Fbn (x) está muy próxima a F (x)
sobre la recta real.
I
Ası́, cuando se desconoce la función de distribución F (x) se puede
considerar que Fbn (x) es un estimador de F (x).
Intervalos de confianza basados en la función de
distribución empı́rica
I
Teorema de Dvoretzky-Kiefer-Wolfowitz (DKW)
Sea X1 , . . . , Xn una muestra aleatoria de una v.a. con función de
distribución F . Entonces, para todo ε > 0
2
b
P sup F (x) − Fn (x) > ε ≤ 2e −2nε
x
I
Se pueden construir ası́ los intervalos de confianza
Intervalos de confianza basados en la función de
distribución empı́rica
I
Se define
L(x)
=
n
o
máx Fbn (x) − εn , 0
U(x)
=
n
o
mı́n Fbn (x) + εn , 1
s
donde εn
I
=
1
log
2n
2
α
de este modo, para toda función de distribución F y para todo x se
tiene que
P (L(x) ≤ F (x) ≤ U(x)) ≥ 1 − α
Función de distribución empı́rica
library ( sfsmisc )
# Simulas datos de una distribucion chi cuadrado con 3 g.l.
x <- rchisq (50 ,3)
X11 ()
plot ( ecdf ( x ))
X11 ()
ecdf.ksCI (x , ci.col = " blue " , lwd =2)
Descargar