Estimación no paramétrica de intervalos de confianza con datos de encuestas de muestreo Omar De La Riva Torres* Resumen Proponemos un nuevo enfoque de verosimilitud empı́rica (VE) que puede ser usado para construir intervalos de confianza (IC) basados en diseño con probabilidades de inclusión desiguales y sin reemplazo. El enfoque propuesto genera IC que pueden tener un desempeño mejor que los estándares basados en el teorema del lı́mite central (TLC). No dependen en estimaciones de varianza, remuestreo, probabilidades de inclusión conjunta o linealización. Puede ser aplicado al estimador de Horvitz-Thompson, el estimador Hájek o al estimador de regresión. El enfoque ofrece además una justificación unificada basada en verosimilitud para enfoques basados en diseño, como la calibración, que son usados en encuestas de muestreo. 1. Introducción Sea U una población finita de N unidades. Sean yi y xi , los valores de la variable de interés y el vector de variables auxiliares asociados a la unidad i, respectivamente. N es fija pero no necesariamente una P cantidad conocida. Supóngase que se busca estimar un total poblacional Y = i∈U yi que una muestra s de tamaño n es seleccionado con probabilidades desiguales sin reemplazo con una fracción de muestreo n/N . La probabilidad de inclusión de la unidad i se denota con πi . El total Y puede ser estimado por el estimador de Horvitz-Thompson [6] YbHT = n X yi , π i i=1 (1) por el estimador de razón de Hájek [5] N YbH = Pn i=1 πi−1 n X yi , π i=1 i (2) por estimadores de regresión [9] o por estimadores de VE. Consideramos un enfoque basado en diseño donde la distribución muestral esta definida por el diseño muestral. El estimador YbHT es más eficiente que YbH cuando la variable de interés esta correlacionada con las probabilidades de inclusión [8]. Los IC basados en el TLC pueden tener un desempeño insatisfactorio cuando la distribución no es normal [10]. Por otro lado, los IC de VE pueden ser mejores en esta situación, debido a que están determinados por la distribución de los datos y el rango del espacio de los parámetros es preservado [10]. Chen & Sitter [3] propusieron un enfoque de * Estudiante de doctorado en: University of Southampton, Faculty of Human and Social Sciences, Division of Social Statistics, Southampton, SO17 1BJ, UK. O.De-La-Riva@soton.ac.uk pseudo verosimilitud empı́rica que puede usado para construir IC. El enfoque de pseudo VE no es completamente atractivo desde el punto de vista teórico, debido a que no es aplicable al estimador de Horvitz-Thompson y depende de estimación de varianza. Este enfoque no es un enfoque genuino de VE. Sin embargo, puede ser usado para obtener IC para YbH . La principal contribución de este artı́culo es mostrar que bajo un conjunto de condiciones de regularidad, la distribución del coeficiente log verosimilitud empı́rica converge a una distribución χ2 con un grado de libertad sin la necesidad de ajuste por un efecto de diseño. 2. Enfoque de verosimilitud empı́rica con probabilidades de inclusión desiguales Berger & De La Riva Torres [1] mostraron que usando muestreo condicional de Poisson, la función de verosimilitud empı́rica es dada por ! n Y πi mi Pn . (3) L(m) = π m j j j=1 i=1 Kim [7] propuso una función de VE similar para muestreo de Poisson con masas de probabilidad en lugar de las masas mi . Los estimadores de máxima verosimilitud de mi son los valores m b i que maximizan la función de log verosimilitud empı́rica `(m) = log(L(m)), (4) sujeto a las restricciones mi ≥ 0 y n X mi ci = C; (5) i=1 donde ci es un vector conocido de dimensión Q×1 asociado con la i−ésima unidad muestreada y C es un vector conocido de dimensión Q×1. Usando multiplicadores de Lagrange es posible P hallar la solución al problema de minimización. Debido a que (5) es tal que ni=1 mi πi = n se cumple, la solución es m b i = (πi + η 0 ci ) −1 (6) El parámetro η es tal que la restricción (5) se cumple. El parámetro η puede ser calculado usando un procedimiento iterativo usando el método de Newton-Raphson descrito en [1]. 2.1 Estimador de máxima verosimilitud empı́rica para un total poblacional El estimador de máximo verosimilitud empı́rica de un total está definido como la siguiente función de los estimadores de máxima verosimilitud empı́rica de las masas de medida. n X τb = m b i yi (7) i=1 donde m b i está definido por (5). Un estimador alternativo es el siguiente estimador de razón de máxima verosimilitud empı́rica de un total. Pn m b i yi τbr = N Pi=1 , (8) n bi i=1 m Nótese que ambos estimadores dependen de los valores de ci y de C y que los m bi toman el papel de los pesos muestrales. Bajo condiciones de regularidad especificadas en [1], Berger & De La Riva Torres [1] mostraron que el estimador de máxima verosimilitud empı́rica es asintóticamente equivalente a b 0 (C − C bπ ) + op (N ), τb = YbHT + B (9) b es un vector de coeficientes de regresión definidos por donde B !−1 n n X 1 X 1 b= . B π 2 c c0 π2y c i=1 i i i i=1 i i i (10) El estimador generalizado de regresión [9] se obtiene cuando en (9) ci es un vector de variables auxiliares y C es el vector asociado a los totales poblacionales. Nótese que existe una clara analogı́a entre el enfoque propuesto de VE y la calibración [4], basado en que la función (4) puede ser vista como una función de distancia de calibración y además el estimador de VE es asintóticamente equivalente al estimador de regresión de usado en calibración. 3. Intervalos de confianza de verosimilitud empı́rica Sean m b i los valores que maximizan (4) sujeta a las restricciones mi ≥ 0 y (5) para los valores de ci y C. Sea `(m) b el valor máximo que puede tomar (4). ∗ Sean mi los valores que maximizan (4) sujeta a las restricciones mi ≥ 0 y (5) con ci = (c0i , yi )0 y C = (C 0 , yi )0 . Sea `(m b ∗ ) el valor máximo de (4). La función de cociente de log-verosimilitud empı́rica esta definida por la siguiente función de y. rb(y) = 2{`(m) b − `(m b ∗ )} (11) Nótese que para un valor dado de y es una variable aleatoria con una distribución especificada por el diseño muestral. La ventaja principal de la VE es su capacidad para derivar IC que no dependen de estimaciones de varianza. Berger & De La Riva Torres [1] mostraron que P r{b r(Y ) ≤ χ21 (α)} l 1 − α, (12) donde Y denota un total poblacional y P r{·} denota la probabilidad con respecto al diseño muestral. El α−cuantil superior de una distribución Ji cuadrada con un grado de libertad está definida por χ21 (α). Mientras la propiedad (12) se cumpla, el (1 − α) IC de VE para el total poblacional Y está definido por mı́n{y|b r(y) ≤ χ21 (α)}; máx{y|b r(y) ≤ χ21 (α)} . (13) Es importante notar que rb(y) es función convexa asimétrica con un mı́nimo cuando y es el estimador máximo verosı́mil empı́rico. Este intervalo puede ser hallado usando un método de bisección dentro del intervalo [N mı́n{yi |i ∈ s}; máx{yi |i ∈ s}] [11]. Éste procedimiento involucra estimaciones de rb∗ (y) para diferentes valores y. Tabla 1: Probabilidades de cobertura observadas, errores de cobertura inferiores y superiores y longitudes promedio de los IC del 95 %. N = 800. El estimador puntual es el estimador de Horvitz-Thompson [6]. Tipo de intervalo Probabilidades Errores de cobertura Longitud cor(yi , ŷi ) n de confianza de cobertura inferior superior promedio 0.3 40 VE 93.8 % 1.3 % 4.9 % 1455 Estándar 91.4 % 0.4 % 8.2 % 1386 80 VE 94.6 % 1.8 % 3.6 % 1047 Estándar 93.0 % 0.9 % 6.1 % 972 0.8 40 VE 93.9 % 2.1 % 4.0 % 448 Estándar 92.9 % 1.2 % 5.9 % 425 80 VE 95.4 % 1.5 % 3.1 % 319 Estándar 94.1 % 1.1 % 4.8 % 294 4. Estudio de simulación Considérese N = 800 observaciones dados por yi = 3 + ai + ϕei [10], donde ai provienen de una distribución exponencial estándar y ei ∼ χ21 − 1. The πi son proporcionales a ai + 2. La constante 2 se agregó para eliminar valores muy pequeños de πi . El parámetro ϕ se uso para obtener correlación débil (0.30) o alta (0.80) entre los valores de yi y ŷi = 3 + ai , usamos el muestreo de Chao [2] para seleccionar 1000 muestras y comparar el desempeño de los IC de VE del 95 % con los intervalos de confianza basados en el TLC. Se consideraron dos tamaños de muestra: n = 40 y 80. En este caso ci = πi y C = n y el estimador máximo verosı́mil empı́rico es el estimador de Horvitz-Thompson. En la Tabla 3 destaca que IC de VE en todos los casos tienen una mejor cobertura y balance en los errores de cobertura superiores e inferiores, en comparación de los IC estándares. REFERENCIAS [1] Berger, Y. G., and De La Riva Torres, O. A unified theory of empirical likelihood ratio confidence intervals for survey data with unequal probabilities and non negligible sampling fractions. http://eprints.soton.ac.uk/337688/ Southampton Statistical Sciences Research Institute (S3RI Methodology Working Papers) (2012), 24pp. [2] Chao, M. T. A general purpose unequal probability sampling plan. Biometrika 69 (1982), 653- 656. [3] Chen, J., and Sitter, R. R. A pseudo empirical likelihood approach to the effective use of auxiliary information in complex surveys. Statistica Sinica 9 (1999), 385-406. [4] Deville, J. C., and Särndal, C. E. Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 418 (1992), 376-382. [5] Hájek, J. Comment on a paper by D. Basu. in Foundations of Statistical Inference. Toronto : Holt, Rinehart and Winston, 1971. [6] Horvitz, D. G., and Thompson, D. J. A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association 47, 260 (1952), 663-685. [7] Kim, J. K. Calibration estimation using empirical likelihood in survey sampling. Statistica Sinica 19 (2009), 145-157. [8] Rao, J. N. K. Alternative estimators in pps sampling for multiple characteristics. Sankhyā A28 (1966), 47-60. [9] Särndal, C.-E., Swensson, B., and Wretman, J. Model Assisted Survey Sampling. SpringerVerlag, New York, 1992. [10] Wu, C., and Rao, J. N. K. Pseudo-empirical likelihood ratio confidence intervals for complex surveys. The Canadian Journal of Statistics 34, 3 (2006), 359-375.