ESTADISTICA ESPAÑOLA Vot. 37, Núm. 138, 1995, págs. 5 a 13 Estimadores de regresión y razón para proporciones por J. SANTIAGO MURGUI y CRISTINA AYBAR ©epartamento de Economfa Aplicada Universidad de valencia RESUMEN La estimación de proporcior^es con información auxilia^r de una variable dicotómica es resuelta en el contexto d• dos moc^elos de superpoblación. Se proponen dos estimadores, uno de tipo «regresión» y otro de tipo «razán». Los resultados presentan analogías con los asociados a otros planteamientos que se apoyan en el diseño muestral. Palabras clave: modelo de superpoblación, estimadores de regresión y razón, diseño aleatorio estratificado. C/asificaci6n A MS: 62 D 05 . 1. INTRODUCCION La estimación de una proporción en el ^mbito de una población finita es un problema frecuente en la práctica estadística de encuestas e investigaciones por muestreo. Los estimadores tradicionalmente utilizados están vinculados a los diferentes diseños muestrales, principalmente estratificados y polietáp^cos. E:,STADISTICA ESPAÑOLA (^ Sin embargo, en la literatura sobre muestreo estadístico no se encuentran estimadores para proporciones capaces de incorporar información de una variable auxiliar. Los estirnadores de <^ regresión» y«razón» son habitualmente propuestos cuando se pretende estimar características poblacionales asaciadas a una variable de tipo contínuo Y, y para el mismo universo se dispone de información referente a una variable auxiiiar X, también continua. EI análisis estadístico de tales poblaciones puede plantearse sobre los modelos estocásticos que subyacen en la selección aleatoria de las muestras, o bien en el contexto de un modelo de superpoblación. Una referencia obligada para el primero de los planteamientos es el texto de Cochran (1981). EI segundo planteamiento ha sido desarrollado, entre otros, por Ericson (1969), Royall (1971) y óasulto y Murgui (1987). En este trabajo se comprueba que las misrnas expresiones que definen los estimadores de «regresión» y«razón» también son apropiadas cuando las variables principal y auxiliar son discretas y la característica poblacional a estimar es una proporción. Los resultados obtenidos se desarrollan en tres apartados. Tras la introducción, en el segundo apartado se define un modelo de superpoblación y se construye un estimador para la proporción poblacional basado en los estimadores máximo-verosímiles de los parámetros. En el último apartado, se modifica el modelo para adecuarlo a otras situaciones reales, proponiéndose un estimador alternativo. 2. ESTIMADOR DE REGRESION PARA UNA PROPORCI®N Considérese un universo U=(u1, u2, ..., uN) integrado por N unidades. Sea X una variable auxiliar que toma los valores 0 y 1, para la que se suponen conocidas sus observaciones (x^, x2, ..., xN) sobre las unidades del colectivo U. Sea Y la variable de interés, que también toma los valores 0 y 1, para la que no se conoce el vector de observaciones (y^, y2, ..., yN). Se pretende estimar la proporción poblacional de unidades sobre las que Y N toma el valor 1, definida por ^ y; / N. Para ello se va a utilizar la información r _, que se obtiene al observar dicha variable sobre las n unidades de una muestra s=(u^, u2, ..., u„ ) seleccionada en el colectivo U. Si se considera que la población de observaciones ( x^, x2, ..., xN) aporta información relevante acerca de la población desconocida (y^, y2, ..., yN), es con- ESTlMAU()R^S I)E REC;RESI()N Y RAZON PARA PROPORC'IUNES 7 veniente definir el proceso inferencial introduciendo un mecanismo capaz de incorporar la información disponible. Para describir la reiación existente entre las observaciones de las variables 1' y X puede recurrirse a un modelo estocástico. En este apartado se supone que el modeio adecuado es el que especifican las siguientes hipótesis: H^: P(Y; = 1 ^x; --0)=a con 0<a<1 i=1,2,...,N H2: P(Y; =1 ^x; =1)=ac' Con 0<a'<1 i=1,2,...,N H3: C[Y;, Y^ ^ x^, ..., xN] =0 i^j Donde P ( Y, ^ x^ ) expresa una probabilidad condicionada y G la covarianza. Las dos primeras hipótesis pueden expresarse mediante una única relación P(Y^ _ 1/x;)=cx(1 -x^)+c^c'x^ parai= 1 , , 2.. •, N. AI objeto de facilitar la interpretación del modelo, como ejemplo puede considerarse una situación en la que X e Y expresan una misma variable medida en dos ocasiones distintas de tiempo. En la primera ocasión se suponen conocidos los resultados de una ínvestigación exhaustiva, planteándose la revisión del censo en una segunda ocasión mediante una investigación por muestreo. Las dos primeras hipótesis del modelo expresan que la intención de mantenerse en la opción adoptada ( 0 ó 1) en la primera ocasión es la misma para todas las unidades. Igualmente, se admite constante la intención de modificar la opción adoptada en un primer momento. Expresándolo en otros términos, las hipótesis H1 y H2 indican que la prababilidad de que en la segunda ocasión una unidad adopte una opción determinada viene explicada exclusivamente por ia opción que tal unidad adoptó en la ocasión precedente. En la práctica, el modelo es menos restrictivo de lo que pudiera parecer inicialmente. En el supuesto de que no se considerara válido para todo el universo en su conjunto, siempre será posible proceder a su segrnentación, incrementando de esta forma la adecuación de un modelo específico para cada grupo definido. Identifíquese por II ^ = P(X; = 1) con i= 1, 2, ..., N a la proporción poblacional 1 conocida de observaciones x; con valor 1, determinada por ^ x; . Análoga- N ^ mente, puede identif icarse por i^I 2= P( Y; = 1) con i= 1, 2, ..., N a la proporción poblacianal de unidades con valor unitario de Y. La verosimilitud de los parámetros del modelo proporcionada por la información muestral es, en estas condiciones L (^, a') = ca' ^, ) ^ x^ y^ (a (1 - n, )) ^ y^ - ^ X^ y^ (( ^ -- a') n, ) ^ X, - ^ X, y, ((1 - a} (1 - n^ )) n - ^ X^ - ^ y^ + ^ x^ y^ FSTADiSTICA ESPAÑOLA Es fácil comprobar que los estimadores m^ximo-verosímiles de cx y cx' son, respectivamente 1 a= ^(1-x,)y, n (1 --p^) S 1 a'_ Donde p^_ ^ x; y; n p^ s 1 ^ x^ es la proporcíón muestral de observaciones con valor 1 n s para la variable X. Siendo ambos estimadores insesgados. Teniendo en cuenta la relación TI2 = a(1 - II^ )+ a' II^ se deduce que el estimador máximo-verosímil de la proporción buscada es ^Í-a +a'I1 , = (1-II ,) 2 siendo p2 = p2 +512 TI2 ( , P,) s, 1 ^ y; la proporción muestral de observaciones con valor 1 para n8 la variable Y y s?=p^ (1 -p^)= 1 ^(x^- n S - i _ ^(X; ^ -. p2) s ^2 = t ^ ^x p,) (y; y^ p^ p2 ns nS la varianza y covarianza muestrales, respectivamente. La insesgadez de los estimadores a y a' garantiza que ^Í2 también será un estimador insesgado con respecto a II2. Asimismo, se comprueba que su varianza está determinada por _ 2 V (ÍÍ2J - (a - a ) E ' (1 - ^1)2 n (1 -p1) , + (a - a 2) E ^? n p^ A partir de las hipótesis que especifican el modelo se demuestra que un esa'2n p^-a' a2n (1-p1)-a timador insesgado para a2 es n(1 -p^) - 1 y análogamente n p^ - 1 C^ ESTIMADORES UE REGRESION Y RAZON PARA PROPORCIC)NFS es un estimador insesgado con respecto a a'2. De estos resultados se deduce que el estadístico muestral n ( ^ - ^, )2 e ^I2) - (a - a 2) n(1 _ p1) _ 1 ^; + (a ' - a '2) n p^ - 1 ^ es un estimador insesgado de la varianZa V[II2). EI carácter dicotómico de las variables X e Y y las hipótesis H 1 y H2, permiten escribir fa siguiente reiacibn para la media condicionada de cada Y; : E[Y;/x;]=P(Y; -1 /x;)-a(1 --x;)+a'x; Denotando por ^ a la diferencia (a' - a) las relaciones anteriores para i= 1, 2, ..., N adoptan la forma E [ Y; l x; ]= a+^ x; . EI modelo propuesto para variables dicotómicas supone, por lo tanto, una relación lineal entre x; y la media de cada Y; . Ello ha conducido a proponer un ^ estimador I^I2 con una estructura idéntica a los denominados «estimadores de regresión» que surgen en la literatura estadística asociados con los modelos lineales definidos sobre variabtes continuas. En general, los modelos lineales no son adecuados cuando las variables son, como en este caso, de tipo dicotómico. Sin embargo, se ha comprobado que el modelo propuesto presenta unas relaciones lineales para las medias idénticas a las que se derivan de un modelo lineal de la forma Y; = cx +^ x; + u; con E[u; ]= 0. Esto ha inducido a expresiones idénticas para los estimadores de II2 = P( Y; = 1) = E[ Y; ^ en ambos casos. Es necesario destacar que, por su construcción, el estimador II2 está acotado entre 0 y 1, tal como corresponde a una proparción. Todos los resultados se han establecido sin necesidad de especificar el^ procedimiento utilizado en la seleccibn de la muestra. Esta característica se presenta siempre que se propone un modelo de superpoblación. La determinación del diseño muestral ha sido abordada por Royall y Herson (1973) y Murgui (1983), entre otros. En la práctica del muestreo, aunque no es estrictamente necesario, suele utilizarse un diseño aleatorio para que actúe de protección frente a las posibles errores que se cometan en la especificación del modelo. ^ EI estimador iI2 , así como el estimador de su varianta, no requieren conocer totalmente la poblacibn (x^, x2, ..., xN ). Unicamente es necesario disponer de fa proporción poblacional II^ . Esto permite ampliar el campo de aplicación a aqueIlas situaciones reales en las que se dispone de los resultados censales globales pero el acceso al censo completo es limitado. En el caso en que se disponga lU FSTADISTI('A ESPANC)L.A de este último, puede plantearse una cuestión adicional. Si se denota por Uo al colectivo de unidades en las que X= 0 y por U, al colectivo de unidades para las que X= 1, puede plantearse la determinación de una distribución óptima de la rnuestra entre ambos colectivos. Sea n^ el número de unidades mues^trales a seleccionar en el colectivo U^, se comprueba que la expresión de V[n2] alcanza su valor minimo cuando se verifica la siguiente relación: r1 1 j1 ^ Ct ^- Ut ^ 2 N 1^a, ^-. ,cx ^ 2 n-n^ ` (1 -TI^)^%a-a2 r (/V-Ni) c:x- Donde N^ expresa el número de unidades en el colectivo U^. Despreciando los términos paramétricos, se deduce que una aproximación a la solución óptima se consigue distribuyendo la muestra de manera proporcional al tamaño de los colectivos citados. La clasificación de las unidades ater^diendo al valor de la variable X sugiere la posibilidad de plantear la estimación en un contexto totalmente diferente al que se ha expuesto. Un diseño aleatorio estratificado consistiria en seleccionar una muestra aleatoria so en el colectivo Uo y otra muestra aleatoria s^ en el U^ . EI problema inferencial podría entonces resolverse recurriendo a la aleatorización que introduce el diseño, prescindiendo del modelo de superpoblación propuesto. En el contexto de un diseño aleatorio estratificado, la expresión n^ p2^ + (^ - ^>> p2© donde P21 =^Y;^n^ S, Y P20=^Y;^^^-n,) $o es un estirnador insesgado para la proporción poblacional II2 . ^ Se comprueba que la expresión que define el estimador de «regresión» n2, propuesto en base al modelo de superpoblación, coincide con la que define el estimador insesgado con referencia al diseño aleatorio estratificado. No obstante, las características y propiedades de los procesos inferenciales requieren interpretaciones distintas. ESTIMADORES DE REGRESlON Y RAZON PARA PROPORClONES 3. 1l ESTIMADOR DE RAZON PARA UNA PROPORClON Considérese ahora que el modelo más adecuado para describir Ja relación existente entre las observaciones de la variable Y y las de la variable X es el que resulta al sustituir la hipótesis H1 del apartado anterior par H'j: P{Y; = 1 ^x; =0)=0 i=1,2,...,N En este caso, se considera que la probabilidad de que una unidad que ha adoptado la opción X= 0, adopte la opción Y= 1 es nula. Ei modelo contempla la posibilidad de cambio de opción para cada unidad, pero únicamente en el sentido de pasar de X= 1 a Y= 0, nunca en el de pasar de X= 0 a Y= 1. Una situación real en la que sería de aplicación el modelo es la que se presenta en un proceso de contro! de calidad en dos etapas. Supóngase que en la primera se investiga X y se decide catalogar como unidades defectuosas a las que presentan el valor X= 0. En la segunda etapa se investiga Y en los siguientes términos: si una unidad Ileva etiqueta de defectuosa, se considera definitivamente defectuosa y se le hace corresponder Y= 0; en caso contrario se contrala una nueva característica que puede conducir a cfasificar 1a unidad camo defectuosa ( Y= 0) o como válida ( Y= 1). De las hipótesis H'1 y H2 se deduce que, en este caso, P( Y; = 1 j x; )_ = E[ Y; l x; ]- a' x; para i= 1, 2, ..., N, siendo V[ Y; < x; ]_ (a' -^c'2 ) x; . La función de verosimilitud de1 parámetr0 a' adopta la expresión ^(a^)_{a•^1)^r; {{1 _a^}^^}^^X'^r'){^ _^^}^-^x' Maximizando la función de verosimilitud se obtiene el siguiente estimador de a':a"=p2. P, Teniendo en cuenta la relación TI2 = a' ri^, correspondiente al modelo ahora propuesto, se deduce que el estimador máximo-verosímil de la proporción de interés es rI*^ = a" IT , = p 2 II ,. P, Las características del modelo ahora considerado permiten comprobar que II 2 es un estimador insesgad0 con respect0 a I^I2 , y la expresión de su varianza V[ II 2], así como la de un estimador insesgado de esta última e(iI 2), se obtienen anulando el valor de a en las respectivas expresianes de V [ñ2 ] y e(ñ2 ) obtenidas en el apartado anterior. ESTAU1STlCA FSPAÑ(:)LA Observar que el modelo actual supone una relación lineal sin término independiente entre x; y la media de cada variable Y; . La coincidencia entre esta relación y la que se deriva de un modelo lineal de la forma Y; = cx' x^ + u; , con E[u; )= 0, conduce a un estimador i12 con una expresión idéntica a los denominados «estimadores de razón» habitualmente utilizados sobre modelos lineales y variables continuas. La posibi{idad de efectuar el proceso inferencial recurriendo a un diseño ateatorio estratificado sigue siendo válida también en el modelo que define la hipótesis H', . En este caso, el esti mador de «razón» propuesto no coincide en general con el estimador insesgado del muestreo estratificado. No obstante, si se acepta la validez de la hipótesis H', del modelo, es lógico pensar que el colectivo de unidades para las que X= 0 e Y= 1 será vacío y, en consecuencia, la proporción p 20 definida en el apartado anterior sería nula. En estas circunstancias, los estimadores utilizados en ios dos procedimientos coinciden. REFERENCIAS BASULTO, J., y MuRGUi, J. S. (1987): Diseño, inferencia y robustez en poblaciones finitas. Libro Homenaje al Profesor Arnaiz, INE, Madrid. COCHRAN, W. G. (1981): Técnicas de Muestreo, Wiley, New York. ERicsoN, W. A. (1969): «Subjetive bayesian rnodels in sampling finite populations», Journal Royal Statistical Society, B, 31. MuROUi, J. S. (1983): «Estimadores de razón y regresión en poblaciones finitas: modelos de superpoblación», Estadística Españo/a, 99, 61-72. -(1993): «Estimación con encuestas repetidas», Estadística Española, 35, 617-627. ROYALL, R. M. (1971): «Linear Regression Models in Finite Population Sampling Theory», Foundations of Statistical Inference, V. P. Godambe y D. A. Sprott (eds.), Holt, Rinehart & Winston, Toronto, Canada, 259-279. ROYALL, R. M., y CUMBERLAND, W. G. (1981): «The Finite Population Regression Estimator and Estimators of its variance-an empirical Study», Journal of the American Statistical Association, 76. ROYALL, R. M., y HERSON, J. (1973): «Robust estimation in finite populations», Journa/ of the Arnerican Statistical Association, 68. ESTIMADORES DE RE(,RESION Y RAZON PARA PRC?PC)RCIONES REGRESSION AND RATIO ESTIMATORS FOR PROPORTIONS SUMMARY The proportions estimate with auxiliary information of a dichotomic variable, is solved in the context of two overpopulation models. Two estimators are proposed, one of the «regression» type and one of the «ratio» type. The results are analogous to those connected with other ones which are based on the sample design. Key Words: overpopulation rnodel, regression and ratio estimators, stratified random design. AMS Classification: 62D05. 1^