Estimadores de regresión y razón para proporciones

Anuncio
ESTADISTICA ESPAÑOLA
Vot. 37, Núm. 138, 1995, págs. 5 a 13
Estimadores de regresión
y razón para proporciones
por
J. SANTIAGO MURGUI y CRISTINA AYBAR
©epartamento de Economfa Aplicada
Universidad de valencia
RESUMEN
La estimación de proporcior^es con información auxilia^r de una
variable dicotómica es resuelta en el contexto d• dos moc^elos de
superpoblación. Se proponen dos estimadores, uno de tipo «regresión» y otro de tipo «razán». Los resultados presentan analogías
con los asociados a otros planteamientos que se apoyan en el diseño muestral.
Palabras clave: modelo de superpoblación, estimadores de regresión y razón, diseño aleatorio estratificado.
C/asificaci6n A MS: 62 D 05 .
1.
INTRODUCCION
La estimación de una proporción en el ^mbito de una población finita es un
problema frecuente en la práctica estadística de encuestas e investigaciones
por muestreo. Los estimadores tradicionalmente utilizados están vinculados a
los diferentes diseños muestrales, principalmente estratificados y polietáp^cos.
E:,STADISTICA ESPAÑOLA
(^
Sin embargo, en la literatura sobre muestreo estadístico no se encuentran estimadores para proporciones capaces de incorporar información de una variable
auxiliar.
Los estirnadores de <^ regresión» y«razón» son habitualmente propuestos
cuando se pretende estimar características poblacionales asaciadas a una variable de tipo contínuo Y, y para el mismo universo se dispone de información
referente a una variable auxiiiar X, también continua.
EI análisis estadístico de tales poblaciones puede plantearse sobre los modelos estocásticos que subyacen en la selección aleatoria de las muestras, o bien
en el contexto de un modelo de superpoblación. Una referencia obligada para el
primero de los planteamientos es el texto de Cochran (1981). EI segundo planteamiento ha sido desarrollado, entre otros, por Ericson (1969), Royall (1971) y
óasulto y Murgui (1987).
En este trabajo se comprueba que las misrnas expresiones que definen los
estimadores de «regresión» y«razón» también son apropiadas cuando las variables principal y auxiliar son discretas y la característica poblacional a estimar
es una proporción.
Los resultados obtenidos se desarrollan en tres apartados. Tras la introducción, en el segundo apartado se define un modelo de superpoblación y se construye un estimador para la proporción poblacional basado en los estimadores
máximo-verosímiles de los parámetros. En el último apartado, se modifica el
modelo para adecuarlo a otras situaciones reales, proponiéndose un estimador
alternativo.
2.
ESTIMADOR DE REGRESION PARA UNA PROPORCI®N
Considérese un universo U=(u1, u2, ..., uN) integrado por N unidades. Sea
X una variable auxiliar que toma los valores 0 y 1, para la que se suponen conocidas sus observaciones (x^, x2, ..., xN) sobre las unidades del colectivo U. Sea
Y la variable de interés, que también toma los valores 0 y 1, para la que no se
conoce el vector de observaciones (y^, y2, ..., yN).
Se pretende estimar la proporción poblacional de unidades sobre las que Y
N
toma el valor 1, definida por ^ y; / N. Para ello se va a utilizar la información
r _,
que se obtiene al observar dicha variable sobre las n unidades de una muestra
s=(u^, u2, ..., u„ ) seleccionada en el colectivo U.
Si se considera que la población de observaciones ( x^, x2, ..., xN) aporta información relevante acerca de la población desconocida (y^, y2, ..., yN), es con-
ESTlMAU()R^S I)E REC;RESI()N Y RAZON PARA PROPORC'IUNES
7
veniente definir el proceso inferencial introduciendo un mecanismo capaz de incorporar la información disponible.
Para describir la reiación existente entre las observaciones de las variables
1' y X puede recurrirse a un modelo estocástico. En este apartado se supone
que el modeio adecuado es el que especifican las siguientes hipótesis:
H^: P(Y; = 1 ^x; --0)=a
con
0<a<1
i=1,2,...,N
H2: P(Y; =1 ^x; =1)=ac'
Con
0<a'<1
i=1,2,...,N
H3: C[Y;, Y^ ^ x^, ..., xN] =0
i^j
Donde P ( Y, ^ x^ ) expresa una probabilidad condicionada y G la covarianza.
Las dos primeras hipótesis pueden expresarse mediante una única relación
P(Y^ _ 1/x;)=cx(1 -x^)+c^c'x^ parai= 1
,
, 2..
•, N.
AI objeto de facilitar la interpretación del modelo, como ejemplo puede considerarse una situación en la que X e Y expresan una misma variable medida en
dos ocasiones distintas de tiempo. En la primera ocasión se suponen conocidos
los resultados de una ínvestigación exhaustiva, planteándose la revisión del
censo en una segunda ocasión mediante una investigación por muestreo. Las
dos primeras hipótesis del modelo expresan que la intención de mantenerse en
la opción adoptada ( 0 ó 1) en la primera ocasión es la misma para todas las unidades. Igualmente, se admite constante la intención de modificar la opción
adoptada en un primer momento. Expresándolo en otros términos, las hipótesis
H1 y H2 indican que la prababilidad de que en la segunda ocasión una unidad
adopte una opción determinada viene explicada exclusivamente por ia opción
que tal unidad adoptó en la ocasión precedente.
En la práctica, el modelo es menos restrictivo de lo que pudiera parecer inicialmente. En el supuesto de que no se considerara válido para todo el universo
en su conjunto, siempre será posible proceder a su segrnentación, incrementando
de esta forma la adecuación de un modelo específico para cada grupo definido.
Identifíquese por II ^ = P(X; = 1) con i= 1, 2, ..., N a la proporción poblacional
1
conocida de observaciones x; con valor 1, determinada por
^ x; . Análoga-
N ^
mente, puede identif icarse por i^I 2= P( Y; = 1) con i= 1, 2, ..., N a la proporción
poblacianal de unidades con valor unitario de Y. La verosimilitud de los parámetros
del modelo proporcionada por la información muestral es, en estas condiciones
L (^, a') = ca' ^, ) ^ x^ y^ (a (1 - n, )) ^ y^ - ^ X^ y^ (( ^ -- a') n, ) ^ X, - ^ X, y,
((1 - a} (1 - n^ )) n - ^ X^ - ^ y^ + ^ x^ y^
FSTADiSTICA ESPAÑOLA
Es fácil comprobar que los estimadores m^ximo-verosímiles de cx y cx' son,
respectivamente
1
a=
^(1-x,)y,
n (1 --p^) S
1
a'_
Donde p^_
^ x; y;
n p^ s
1
^ x^ es la proporcíón muestral de observaciones con valor 1
n s
para la variable X. Siendo ambos estimadores insesgados.
Teniendo en cuenta la relación TI2 = a(1 - II^ )+ a' II^ se deduce que el estimador máximo-verosímil de la proporción buscada es
^Í-a
+a'I1 , =
(1-II ,)
2
siendo p2 =
p2
+512
TI2 (
, P,)
s,
1
^ y; la proporción muestral de observaciones con valor 1 para
n8
la variable Y y
s?=p^ (1 -p^)=
1
^(x^-
n S
- i _ ^(X;
^ -. p2)
s ^2 = t ^ ^x
p,) (y;
y^ p^ p2
ns
nS
la varianza y covarianza muestrales, respectivamente.
La insesgadez de los estimadores a y a' garantiza que ^Í2 también será un
estimador insesgado con respecto a II2. Asimismo, se comprueba que su varianza está determinada por
_
2
V (ÍÍ2J - (a - a ) E
'
(1 - ^1)2
n (1 -p1)
,
+ (a - a 2) E
^?
n p^
A partir de las hipótesis que especifican el modelo se demuestra que un esa'2n p^-a'
a2n (1-p1)-a
timador insesgado para a2 es
n(1 -p^) - 1
y análogamente
n p^ - 1
C^
ESTIMADORES UE REGRESION Y RAZON PARA PROPORCIC)NFS
es un estimador insesgado con respecto a a'2. De estos resultados se deduce
que el estadístico muestral
n
( ^ - ^, )2
e ^I2) - (a - a 2) n(1 _ p1) _ 1
^;
+ (a ' - a '2) n p^ - 1
^
es un estimador insesgado de la varianZa V[II2).
EI carácter dicotómico de las variables X e Y y las hipótesis H 1 y H2, permiten escribir fa siguiente reiacibn para la media condicionada de cada Y; :
E[Y;/x;]=P(Y; -1 /x;)-a(1 --x;)+a'x;
Denotando por ^ a la diferencia (a' - a) las relaciones anteriores para i= 1, 2, ..., N
adoptan la forma E [ Y; l x; ]= a+^ x; .
EI modelo propuesto para variables dicotómicas supone, por lo tanto, una relación lineal entre x; y la media de cada Y; . Ello ha conducido a proponer un
^
estimador I^I2 con una estructura idéntica a los denominados «estimadores de
regresión» que surgen en la literatura estadística asociados con los modelos lineales definidos sobre variabtes continuas.
En general, los modelos lineales no son adecuados cuando las variables
son, como en este caso, de tipo dicotómico. Sin embargo, se ha comprobado
que el modelo propuesto presenta unas relaciones lineales para las medias
idénticas a las que se derivan de un modelo lineal de la forma Y; = cx +^ x; + u;
con E[u; ]= 0. Esto ha inducido a expresiones idénticas para los estimadores
de II2 = P( Y; = 1) = E[ Y; ^ en ambos casos. Es necesario destacar que, por su
construcción, el estimador II2 está acotado entre 0 y 1, tal como corresponde a
una proparción.
Todos los resultados se han establecido sin necesidad de especificar el^ procedimiento utilizado en la seleccibn de la muestra. Esta característica se presenta siempre que se propone un modelo de superpoblación. La determinación
del diseño muestral ha sido abordada por Royall y Herson (1973) y Murgui
(1983), entre otros. En la práctica del muestreo, aunque no es estrictamente necesario, suele utilizarse un diseño aleatorio para que actúe de protección frente
a las posibles errores que se cometan en la especificación del modelo.
^
EI estimador iI2 , así como el estimador de su varianta, no requieren conocer
totalmente la poblacibn (x^, x2, ..., xN ). Unicamente es necesario disponer de fa
proporción poblacional II^ . Esto permite ampliar el campo de aplicación a aqueIlas situaciones reales en las que se dispone de los resultados censales globales pero el acceso al censo completo es limitado. En el caso en que se disponga
lU
FSTADISTI('A ESPANC)L.A
de este último, puede plantearse una cuestión adicional. Si se denota por Uo al
colectivo de unidades en las que X= 0 y por U, al colectivo de unidades para
las que X= 1, puede plantearse la determinación de una distribución óptima de
la rnuestra entre ambos colectivos.
Sea n^ el número de unidades mues^trales a seleccionar en el colectivo U^,
se comprueba que la expresión de V[n2] alcanza su valor minimo cuando se
verifica la siguiente relación:
r1 1
j1 ^
Ct ^- Ut ^ 2
N 1^a, ^-. ,cx ^ 2
n-n^ ` (1 -TI^)^%a-a2 r (/V-Ni) c:x-
Donde N^ expresa el número de unidades en el colectivo U^. Despreciando los
términos paramétricos, se deduce que una aproximación a la solución óptima se
consigue distribuyendo la muestra de manera proporcional al tamaño de los colectivos citados.
La clasificación de las unidades ater^diendo al valor de la variable X sugiere
la posibilidad de plantear la estimación en un contexto totalmente diferente al
que se ha expuesto. Un diseño aleatorio estratificado consistiria en seleccionar
una muestra aleatoria so en el colectivo Uo y otra muestra aleatoria s^ en el U^ .
EI problema inferencial podría entonces resolverse recurriendo a la aleatorización que introduce el diseño, prescindiendo del modelo de superpoblación propuesto.
En el contexto de un diseño aleatorio estratificado, la expresión
n^ p2^ + (^ - ^>> p2©
donde
P21 =^Y;^n^
S,
Y
P20=^Y;^^^-n,)
$o
es un estirnador insesgado para la proporción poblacional II2 .
^
Se comprueba que la expresión que define el estimador de «regresión» n2,
propuesto en base al modelo de superpoblación, coincide con la que define el
estimador insesgado con referencia al diseño aleatorio estratificado. No obstante, las características y propiedades de los procesos inferenciales requieren interpretaciones distintas.
ESTIMADORES DE REGRESlON Y RAZON PARA PROPORClONES
3.
1l
ESTIMADOR DE RAZON PARA UNA PROPORClON
Considérese ahora que el modelo más adecuado para describir Ja relación
existente entre las observaciones de la variable Y y las de la variable X es el
que resulta al sustituir la hipótesis H1 del apartado anterior par
H'j: P{Y; = 1 ^x; =0)=0
i=1,2,...,N
En este caso, se considera que la probabilidad de que una unidad que ha
adoptado la opción X= 0, adopte la opción Y= 1 es nula. Ei modelo contempla
la posibilidad de cambio de opción para cada unidad, pero únicamente en el
sentido de pasar de X= 1 a Y= 0, nunca en el de pasar de X= 0 a Y= 1.
Una situación real en la que sería de aplicación el modelo es la que se presenta en un proceso de contro! de calidad en dos etapas. Supóngase que en la
primera se investiga X y se decide catalogar como unidades defectuosas a las
que presentan el valor X= 0. En la segunda etapa se investiga Y en los siguientes términos: si una unidad Ileva etiqueta de defectuosa, se considera definitivamente defectuosa y se le hace corresponder Y= 0; en caso contrario se contrala una nueva característica que puede conducir a cfasificar 1a unidad camo defectuosa ( Y= 0) o como válida ( Y= 1).
De las hipótesis H'1 y H2 se deduce que, en este caso, P( Y; = 1 j x; )_
= E[ Y; l x; ]- a' x; para i= 1, 2, ..., N, siendo V[ Y; < x; ]_ (a' -^c'2 ) x; .
La función de verosimilitud de1 parámetr0 a' adopta la expresión
^(a^)_{a•^1)^r; {{1 _a^}^^}^^X'^r'){^ _^^}^-^x'
Maximizando la función de verosimilitud se obtiene el siguiente estimador de
a':a"=p2.
P,
Teniendo en cuenta la relación TI2 = a' ri^, correspondiente al modelo ahora
propuesto, se deduce que el estimador máximo-verosímil de la proporción de
interés es rI*^ = a" IT , = p 2 II ,.
P,
Las características del modelo ahora considerado permiten comprobar que
II 2 es un estimador insesgad0 con respect0 a I^I2 , y la expresión de su varianza
V[ II 2], así como la de un estimador insesgado de esta última e(iI 2), se obtienen anulando el valor de a en las respectivas expresianes de V [ñ2 ] y e(ñ2 )
obtenidas en el apartado anterior.
ESTAU1STlCA FSPAÑ(:)LA
Observar que el modelo actual supone una relación lineal sin término independiente entre x; y la media de cada variable Y; . La coincidencia entre esta
relación y la que se deriva de un modelo lineal de la forma Y; = cx' x^ + u; , con
E[u; )= 0, conduce a un estimador i12 con una expresión idéntica a los denominados «estimadores de razón» habitualmente utilizados sobre modelos lineales
y variables continuas.
La posibi{idad de efectuar el proceso inferencial recurriendo a un diseño
ateatorio estratificado sigue siendo válida también en el modelo que define la hipótesis H', . En este caso, el esti mador de «razón» propuesto no coincide en
general con el estimador insesgado del muestreo estratificado. No obstante, si
se acepta la validez de la hipótesis H', del modelo, es lógico pensar que el colectivo de unidades para las que X= 0 e Y= 1 será vacío y, en consecuencia, la
proporción p 20 definida en el apartado anterior sería nula. En estas circunstancias, los estimadores utilizados en ios dos procedimientos coinciden.
REFERENCIAS
BASULTO, J., y MuRGUi, J. S. (1987): Diseño, inferencia y robustez en poblaciones finitas. Libro Homenaje al Profesor Arnaiz, INE, Madrid.
COCHRAN, W. G. (1981): Técnicas de Muestreo, Wiley, New York.
ERicsoN, W. A. (1969): «Subjetive bayesian rnodels in sampling finite populations», Journal Royal Statistical Society, B, 31.
MuROUi, J. S. (1983): «Estimadores de razón y regresión en poblaciones finitas:
modelos de superpoblación», Estadística Españo/a, 99, 61-72.
-(1993): «Estimación con encuestas repetidas», Estadística Española, 35,
617-627.
ROYALL, R. M. (1971): «Linear Regression Models in Finite Population Sampling
Theory», Foundations of Statistical Inference, V. P. Godambe y D. A. Sprott
(eds.), Holt, Rinehart & Winston, Toronto, Canada, 259-279.
ROYALL, R. M., y CUMBERLAND, W. G. (1981): «The Finite Population Regression
Estimator and Estimators of its variance-an empirical Study», Journal of the
American Statistical Association, 76.
ROYALL, R. M., y HERSON, J. (1973): «Robust estimation in finite populations»,
Journa/ of the Arnerican Statistical Association, 68.
ESTIMADORES DE RE(,RESION Y RAZON PARA PRC?PC)RCIONES
REGRESSION AND RATIO ESTIMATORS FOR PROPORTIONS
SUMMARY
The proportions estimate with auxiliary information of a dichotomic variable, is solved in the context of two overpopulation models.
Two estimators are proposed, one of the «regression» type and one
of the «ratio» type. The results are analogous to those connected
with other ones which are based on the sample design.
Key Words: overpopulation rnodel, regression and ratio estimators,
stratified random design.
AMS Classification: 62D05.
1^
Descargar