Estratificación multivariante . Criterios de evaluación(*)

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 38, Núm. 141, 1996, págs. 19 a 35
Estratificación multivariante . Criterios
de evaluación(*)
por
LUIS AMBROSIO FLORES
Departamento de Economía y Ciencias Sociales Agrarias
Unidad de Estadística
AURELIO VILLA PÉREZ
Departamento de Matemática Aplicada
LUIS IGLESIAS MART^NEZ
Departamento de Ingeniería Cartográfica, Geodesia y Fotogrametría - Expresión Gráfica.
E.T.S. DE INGENIEROS AGRÓNOMOS. CIUDAD UNIVERSITARIA. 28040 MADRID
E-mail: Flores@eco.etsia. upm.es
RESUMEN
Se consideran varios procedimientos de estratificación multivariante: generalización de la estratificación univariante, estratificación
de la primera componente principal y cuatro algoritmos de clasificación {Ward, K-medias, Centroide y Medias).
Se consideran dos criterios de evaluación: (i) la eficiencia en la estimación de la media de las variables de estratificaci8n y(ii) la pérdida
relativa de precisión respecto de la estratificación univariante óptirna.
t*>
Este trabajo ha sido financiado por el Ministerio de Agricultura, Pesca y Alimentación, en el marco de un convenio de colaboración suscrito entre la Secretaría General
Técnica de dicho Ministerio y el Departamento de Economía y Ciencias Sociales Agrarias de
la Universidad Politécnica de Madrid
f ^ I ^l )Iw 1 (t \ f ^I' ^ti^ ^1 ^
Con estas dos criterias, ios procedímíentos estud^ados se evaiuaron a partir de1 estudio de un caso. Ei aigaritrno de Ward resultó ser el
mejor procedirniento de estratificación, de los examinados en este trabajo.
Palabras clave: Muestreo estratificada. Técnicas de clasificación. Estratificación del territorio.
Clasificacíón AMS: 62J04, 62D05
INTRCJDUCCIÓN
Para una sola variable de estratificación, una soiución óptima ai problema de
cómo estratificar una poblacibn determinada en un cierto número L de estratas, con
el criterio de optimización usual de "minimizar la varianza del estimador para un
tamaño de muestra dado", ha sido obtenida por Dalenius (1950} [Cochran (1981 }].
Para más de una variable de estratificación no hay un único criterio de optimización bien establecido. Los dos de uso más frecuente consisten en minimizar, para
un tamaño de muestra dada, (i) la varianza generalizada del vector de estimadores
o(ii) una suma ponderada de las varíanzas de los estimadores. Chosh (1963), con
ei primer criter^io, generaiiza los resultados de Dalenius (1950) al caso de dos
variables de estratificación, y Lavallée (1988), con el segundo criterio, proporciona
también una solución bptirna al problema de estratificación bivariante, aunque
utilizanda una técnica de optimización diferente (la programación dinámica, en lugar
del sistema de ecuaciones minimal obtenido derivando parcialmente fa varianza
generaiizada del vector de medias muestrales de ias variables de estratificación,
con respecta a las I í mites entre estratos} .
La obtención exacta de estas soiucianes óptimas presenta dificultades prácticas: la soiución depende de parámetros taies como ia media y!a varianza dentro de
estratos, los cuales a su vez dependen de los limites entre estratos, que es precisamente la solución buscada; por fa que se requieren métodos iterativos para la
búsqueda de !a solución exacta.
En ia práctica dei muestreo se trata siempre de establecer un campromiso entre
la precisión y e! caste de ias estimaciones: en este artículo nos interesamos en
d^stintos procedimientos para la construcción de los estratos cuando se dispone de
más de una variable de estratificación, que pueden servir de base para establecer
dicho compromiso, en función dei grado de aproximacíón de cada pracedimiento a
ia solución óptima y de la mayor o menor dificultad de su aplicación práctica.
En el epígrafe 2 se establecen las criterios de evaluación de un procedimiento
de estratificacián. En ios epígrafes 3 y 4 revisamos ias soluciones aproximadas a1
1^! li ^ l Il li ^c li ^ ^., tilt 1 l I^. tiftl ^,ti 4 6 i kl I! kli ^ ti 1^4 I`^t !^i li ^ti
problema de optimización planteada, que han sido propuestas en la literatura. En el
epígrafe 5 las aplicamos a un caso de estudio y comparamos los resuítados_ En
esta aplicación, las características a estimar son las medias de las variables de
estratificación. Consideramos un reparto óptimo de la muestra entre ios estratos.
2.
CRITERIOS DE EVALUACIÓN
Cuando, como es el caso más frecuente en la práctica, se pretende estimar más
de una característica a partir de una misma muestra, la estratificación óptima para
una de eilas no fo será, en generaf, para las demás. Sea S,* la estratificación
univariante óptima de la variable X, (j=1, 2, ..., P). La estratificación muítivariante
basada en las P variables debe ser un compromiso entre las P estratificaciones
univariantes óptimas. Para evaluar la estratificación multivariante se consideran dos
criterios: (i) la eficiencia relativa de la estratificación respecto del muestreo aleatorio
simple, para estimar la media de fas varíables consideradas y(ii) la pérdida reiativa
de precisión respecto de la estratificacián univariante óptima.
2.1.
Eficiencia relativa
La eficiencia relativa de una estratificación determinada, respecto del muestreo
aleatorio simple, para la estimación de la media de la variable X, (j=1, 2, ..., P) se
define así :
ER, = Vr,.^.5..(x,) I V,,.^.s^ (xst,)
donde V rn a s^X^ ) es la varianza del estimador usual de la media de la variable X, con
muestreo aleatorio simple, y Vm a st ^Xst^ } es la va^-ianza del estimador usuaf de la
media de la misma variable X, con muestreo aleatorio estratificado; definidos ambos
para muestras del mismo tamaño n. Ignorando el factor correctar de poblaciones
finitas y para un reparto óptimo de la muestra entre estratos:
z
Vn^.a.st. ^XSt^ ) ^
W,,Sh;
/n
donde Wh=N^/N (siendo Nh el número de elementos de la población en el estrato h) con:
y 5^,, es 1a desviación tipica de la variable de estratificación X en el estrato h.
^
f ^r-^.ni^ric .^ F ^^^^ti^>i .^
Asimismo:
_ z
vn,.a.s. ^X, ) -- S^ / n
donde S^^ es la varianza de la variable de estratificación X,, en ia población. Por
tanto:
^.
ER^ = S? /
^Nhs
h-1
2.2.
Función de pérdida de precisión
Si V *m a st \xst^ } es la varianza del estimador usual de la media de X, con muestreo
aleatorio estratificado, supuesta una estratificación S;* óptima de X,, y Vm ^$ t (xst,) es
la varianza del mismo estimador correspondiente a una estratificación cualquiera S
del mismo número de estratos L que S;*, se define {para muestras del mismo
tamaño) la pérdida de precisión relativa que resuita de estimar la media de X, a
*
partir de la estratificacián S en lugar de hacerlo a partir de la óptima S; , de la
siguiente forma [Kish {1976}, Jarque (1981)j:
" m.a.st. `X stJ ^] / " m.a.st. `X stj ^
- [^m.a.st. ^x stj ^
La pérdida de precisián D(S) en las estimaciones de las medias de las variables
de estratificación, de una estratificación multivariante determinada S, respecto de
^
las univariantes áptimas - S j; j= 1, 2, .. ., P- se define como la suma de las pérdidas
D^ observadas para cada variable j. Para P variables de estratificacián:
P
P
`,
,/
.
ym.a.st. `X stj ^/ Vm.a.st. ^X St^ ^- P
Dadas dos estratificaciones de una misma población, en un mismo número de
estratas y para un mismo tamaño de muestra, se considera preferible a aquella
para la que la pérdida total D(S) es menor.
Obsérvese que, una vez fijados el tamaño de muestra n y el número de estratos
L, V*rn.a st (Xst^ } es constante, de modo que D(S} es sólo fiunción de una suma ponderada de ias Vrn ^ st (xSt;} siendo 1 /V*m ^.st (xst,) para j = 1, 2,, .., P, los coeficientes de
ponderación:
F:tiTFi:^F^IF^I("A("[(^!^ !^11.^1.T"I^ARI.>ti"TF^: C^RI"i^F-:R1OS C)! F `:^Ll At.FC)Pti
D`^^ ^ ^ a^ vm.a.st. `xst^
donde:
^ /
,
/
^ Ym.a.st. l^ $t; ^
Para un reparto óptimo de la muestra entre estratos, D(S) es:
r^
D(S> _ -^ P a
n^
'
1-1
2
^ ^h^h1
h ^. ^
Y para un reparto proporcional, D(S) es:
P
E
D(S> _ -^ ^ a;
n ,_, ^. h = ^
3.
ESTRATIFICACIÓN UNlVARIANTE: APROXIMACI^NES PRÁCTICAS
Para el caso de una sola variable de estratificacián, se han propuesto diversas
soluciones aproximadas al sistema de ecuaciones mínimal de Dalenius ( 1954), una
revísión de las cuales puede encontrarse en Kpedekpo (1973).
Dalenius y Hodges (1959) proponen la siguiente solución aproximada: Si y(x) es
el valor acumulado de ía raíz cuadrada de las frecuencias absolutas de los valores
de la variable de estratificación X inferiores o iguales a x, para construir un número
de estratos L, ios límites aproximadarnente óptimos entre estratas son ios valores x,
< x2 <....< xh <...< x^_, de la variable de estratificación que satisfacen a la ecuacián:
y(x ^ = hH/L:h=1,2,...,L-1
en la que H es el valor de y(x) correspandiente al máximo valar de X, supuesto este
finito. EI extrema inferior del estrato h= 1 es el valor mínimo de X y el superior de1
estrato h= L es el valor rnáximo de X.
Ekman ( 1959) propone tomar los límites entre estratos de modo que W,,(xn-xh-1)
sea igual para tado h= 1, 2, ..., L; siendo Wh la proporción de etementos de la
población en el estrato h. Otras propuestas similares a ésta consisten en sustituir
(xh - x,,_,) por la media de la variable de estratificación en el estrato h(p,.,), o bien por
la desviación típica (Sh).
?-i
E^ ^-^r>^^; ^ ^c ^ t^ ^^^^tic>^ -^
^stas y otras propuestas han sido comparadas entre si con base tanto en distribuciones teóricas como empíricas [Cochran (1961), Sethi {1963), Hess et al.
(1966), Anderson et al. (1976}]. Ninguna de ellas es en todos los caso más eficiente
que las demás. La propuesta de Dalenius, y Hodges {1959}, Ilamada regla Cu^ ,
y la de Ekman (1959) resultan satisfactorias en la generalidad de los casos; siendo
la primera de m^s fácil aplicación.
ESTRATIFICACIÓN MULTIVARIANTE: APR4XIMACIC3NES PRÁCTICAS
l^na primera aproximacián al problema de la estratificación multivariante consiste en aplicar a cada variable, sucesivamente, los resultados ya bien establecidos
en la literatura para el caso univariante. Dadas " P" variables de estratificación, se
podrían determinar para cada variable "j" (j = 1, 2, ... P), de forma independiente y
mediante una de las reglas citadas en el epígrafe anterior, los límites entre los Lj
estratos considerados.
Para P = 2, el estrato genérico "h" quedaría constituido por aquellos de los N
elementos en los que la variable de estratificación "1 " toma valores comprendidos
entre los lírnites [x^n_, ^,, x^n}^] determinados por la regla utilizada y la variable "2"
entre los I í mites [xth_^ ^2, x^h^2]: de esta forma, el estrato "h" queda representado por la
celdilla definida por los intervalos [x^^,_^^^ , %t{h)1] Y[X(h_^)2 , x^h^2]; y los N elementos de la
población distribuidos en L= L, x L2 celdillas. Se trata pues de una estratificación
en látices.
Si las variables de estratificación no son independientes entre si, cabe esperar
una mayor eficiencia si, en lugar de aplicar la regla a cada variable "j" (j = 1, 2, ... P},
consíderada como variable marginal, se aplica a las variables condicionales, de
forma iterativa: ( i) En la primera iteración, se aplica a una variable de estratificación
cualquiera "j". Sea h,* el estrato genérico de esta estratificación (h;* = 1, ^, ..., L;). (ii)
En la segunda iteración se aplica la regla a la variable " k", dentro de cada una de
los estratos h;*. Sea hk*/h^ el subestrato genérico "hk*" de los Lk subestratos en los
que se divide el estrato h, (hk*/h,* = 1, 2, ... L,^). (iii) EI proceso de subestratificación
descrito en (ii) continúa hasta terminar con todas y cada una de las variables de
estratificación.
Las técnicas de análisis multivariante han sido también consideradas para el
tratamiento del problema de la estratificación. Hagood y Bernet (1945) han propuesto una estratificación basada en las componentes principales de la matriz de
correlaciones entre las variables de estratificación. Kish y Anderson (1978) han
comparado la estratificación bivariante (en látices) con la estratificación basa en la
primera componente principal, tanto en poblaciones teóricas con distribución normal como en diversas poblaciones reales: en general, la estratificacián bivariante
resultó ser más eficiente que la basada en la primera componente principal; si bien
esta última es mós eficiente que la univariante.
25
E^S"I'RATIFIt'AC'!ON MI^JI."TIVARIANTE CR[TERIOS DE EVALUACION
La estratificacián puede ser también formulada como un problema de clasificación
a tratar mediante diversos algoritmos [Golder y Yeomans (1973}, Jarque (1981), Julien
y Maranda ( 1990)]. ^^ este fin, es útil considerar la descomposición multivariante de la
varianza. Dada una estratificación cualquiera de !os N elementos de la población en L
estratos, con Nh elernentos en el estrato h-ésimo (h=1, 2, ..., L), si denotarnos por
T
^(,; =[Xh,;, X^;, ..., Xhj;, ... Xhp; ] el vector de observaciones de las P variables de estratificación en el elemento i-ésimo {i=1, 2, ..., Nf,) del estrato h{h=1, 2, . .., L), se verifica
[Johnson y Wichem ( 1988) p.236]:
L ^,
_
^
h 1^h ! ^^^Xh
^ ^ ^^hi r ^^`^hi - X^T
h-1 i-1
X ^T
^ ^
-^- `> ^> ^X hi
X h Ic^hi
^h ^
h=1 i=1
donde:
1
`^
^ X,,;
N h i=1
_ ^cNh _ ^>s^
h-1
i=1
h=1
donde S2h es la matñz de varianzas [S,-,;2, j=1, 2, ..., P] y covarianzas [^,;;^, j(^j')=1, 2, ..., P]
poblacionales en el estrato h del vector definido por las P variables de estratificación, esto es, una matriz cuadrada de orden P cuyos elementos de la diagonal
principal son las varianzas dentro de estratos:
1
Nh
^
/
-
^ ^ `X hi; - Xhj ^ 2
^ ^ i=1
y fuera de la diagonal principal sus elementos son !as covarianzas
Shl^. _
^ cxh;; - xh; ycxhi;. - xh;^ >
Nh ` ^ i=i
para j(^j')=1, 2, ..., P.
De entre !os algoritmos de clasificacián propuestos en !a literatura [Johnson y
Wichern ( 1988}, Júdez {1988)], el de Ward ( 1963) {de tipo jerárquico) y e! de MacQueen (1967) {de tipo no jerárquico), este último conocido por K-medias, tienden a
minimizar la traza de U:
? ()
E^S"TADIST^IC'.A^ E•:SPAÑOI.A
P
1^
trU = ^ ^ tN,, -1^Sh,
1
h1
La tr U es una medida de la variación total dentro de estratas: es la suma de la
variación dentro de estratos de cada variable. La descomposición de la variación
total de la variable X; es:
L
^
h- 1
h- 1
tN -1?SZ i ^ tNh - .^)Sh, + ^ Nh tXh^ _ X; }z
En esta última expresión el primer sumando del segundo miembro es la varianza dentro de estratos y el segundo sumando es la variacián entre estratos. EI
algoritmo de Ward y el de MacQueen tienden, pues, a minimizar la variación dentro
de estratos o lo que es equivalente, a maximizar la variación entre estratos, de cada
variable.
Con reparto proporcional y fijado el tamaño de la muestra n, la función de pérdida depende sálo de la traza de la matriz de varianzas y covarianzas -U*- de las
variables de estratificación previamente transformadas multiplicándolas por a; :
D(S) _ ^ ^ tr U*
nN -
En consecuencia, cabe esperar que a las estratificaciones basadas en estos
dos algoritmos correspondan menores valores de la funcibn de pérdida D(S) que a
las basadas en otros algoritmos y, por tanto, sean preferibles según el criterio (ii).
Junto a estos dos algoritmos consideraremos, con fines comparativos, otros dos,
ambas jerárquicos: el de las Medias (distancia entre clases igual a la media de las
distancias entre pares de elementos) y el del Centroide (distancia entre clases igual
a la distancia entre las medias de clase). EI procedimiento "Cluster" del sistema
SAS (1985) incluye, entre otros, los tres algoritmos jerárquicos considerados y el
"Fastclus" el algoritmo de las K-medias.
5.
ESTU DIO DE U N CASO
Bajo este epígrafe evaluamos las técnicas de estratificación multivariante, relacionadas en el epigrafe anterior, en su aplicación a un caso de estudio.
EI caso en cuestión es la estratificación del territorio de la provincia de Guadalajara atendiendo a los usos del suelo, con vistas a la estimación de superficies
cultivadas. Se considera como elemento o individuo de la población al territorio
correspondiente a la cuadricula UTM de 1 Km x 1 Km (100 hectáreas): cada elemento queda unívocamente definido en el mapa mediante las coordenadas de uno
F^1K^^IlFlt^^^( !Oti 11l l Il^ ^^Rl.^^tifE ( RIIf:KIf)4 U#- F\ ^^I 1^1( IOti
cualquiera de los vértices de la cuadrícula, en la proyección UTM, que es la base
de la cartografía española.
5.1.
Los datos
Sobre cada uno de los 12.190 eiernentos de los que consta la poblacián estudiada, se dispone de información acerca de las siguientes variables, medidas en
hect^reas y reiativas a los usos del suelo:
X,: cultívos herbáceos de regadío.
X2: cultivos herbáceos de secano.
X3: cultivos leñosos de regadía.
X4: cultivos leñosos de secano.
Los datos resultan de la digitalización de los "mapas de cultivo y aprovechamientos" [MAPA {1976}].
Cuadro 1
GARACTERÍSTICAS DE LAS VARIABLES DE ESTUDI^
Varíable
Media
Varianza
C.V. (%)
Coeficiente de
Asimetría
X,
1.92
82.03
472.06
6.96
X2
30.36
1009.88
104.68
0.74
X3
0.01
0.08
2617.63
40.29
X4
3.62
125.48
309.37
4.20
La correlación entre estas cuatro variables de estratificación es prácticamente
nula. EI coeficiente de correlación lineal en#re la variable X^ y la XZ es -0.069, entre
la X, y la X^ es 0.075, entre la X^ y la Xa es 0.017, entre la X2 y la X3 es 0.002, entre
la X^ y la X4 es -0.056 y entre X3 y la X4 es 0.029.
5.2.
Los resultados
En el cuadro 2 figuran los valores de ER, calculados para los procedimientos de
estratificación considerados, y para tres niveles del número de estratos L: 3, 6 y 9.
Las eficiencias relativas ER^ son el caciente entre las varianzas del estimador de la
media con muestreo aleatorio simple -Vrn a s{x,)- y con muestreo aleatorio estratificado -Vm a st (xst,)- que figuran en los cuadros 5 y 3, respectivamente. EI desglose de
1x
1 ti( 11)I`^! Ic ^ k ^l'^^`1.)i -^,
los va!©res de !a función de pérdida D{S) en las partes correspondientes a cada
variable y el valor total , se recoge en el cuadro 4.
1. Como cabía esperar, dada la incorrelación entre las variabies de estratificación, la estratificación univariante Cu m f{x ^) es eficiente para la estimación de la
media de la variable en cuestión (y, como es sabido, de las variables muy correladas con ella), pero no lo es en absoluto para variables incorreladas con ella. De
modo que, en casos como los que nos ocupan, la estratificación univariante no es
satisfactoria. Comparando las cifras de los cuadros 3 y 5 se observa cómo la
estratificación univariante Cum f{x^ } reduce notablemente la varianza del estimador de la rnedia de Xj -V^ ^^t (xst^)- reduciendo la variación dentro de estratos a una
mínima parte de la variación total -5,2-: así, por ejemplo, se observa cómo la varianza del estimador de la media de la variable X1, con muestreo aleatorio simple [ver
cuadro 5] se reduce de 82.03 a 1.63, cuando el número de estratos es 3, a 0.19
cuando el número de estratos es 6 y a 0.08 cuando el número de estratos es 9[ver
cuadro 3]. Para las restantes variables la variación dentro de estratos apenas se
reduce respecto de la total por lo que la eficiencia de la estratificación es mínima:
próxima a 1[ver cuadro 2]. En todo caso, ia reducción de la varianza del estimador
de la media aumenta con el número de estratos.
2. La estratificación bivariante de tipo látice conserva la eficiencia de las univariantes que la componen. Así, la estratificación en L= L^ x L2 estratos por las
variables X^ y X2 conserva la eficiencia de las estratificaciones univariantes de X,
en L^ estratos y de X2 en L2 estratos, pero no las de X3 y X^. Para conservar estas
últimas, se requeriría un número de estratos L= L^ x L2 x L3 x L^, de modo que por
esta vía el número de estratos se multiplica y puede Ilegar a ser excesivo cuando el
número de variables de estratificación es superior a 3. Comparando las cifras de los
cuadros 3 y 5 se observa cómo la estratificación Cum f{x, } X Cum f{x^ } reduce la
variación dentro de estratos de las variables X, y X2 a una mínima parte de la
variacián total respectiva -S^2 y S22-, mientras a penas reduce la variación dentro de
estratos de las variables X3 y X^ respecto de la total S32 y 5^^, respectivamente. De
ahí que ia eficiencia relativa sea para estas últimas minima: práxima a 1 [Ver
cuadro 2].
3. La estratificación de la primera componente principal [PRI N 1) (que explica el
28% de la variación total), de modo que el número elemen#os en cada estrato sea
aproximadamente el mismo, presenta una eficiencia significativa y bastante uniforme para la estimación de todas y cada una de las caracteristicas en estudio [ver
cuadro 2]. Con este procedimiento, la variación dentro de estratos es sólo una pequeña parte de la total, para todas y cada una de las variables [ver cuadros 3 y 5].
4. EI algoritmo de MacC^ueen (1967) o de las K-medias y el algoritmo de Ward
(1963) establecen estratificaciones para las que la suma no ponderada de las
varianzas de los estimadores de cada variable j(j = 1, 2, ..., P):
f ti I Ft \ I If I( \( Itrti ^ft I i I l 1,111 \\ I t ( kl I f lZlt)^ !>k f\\E (^\( Il)^
P
^ Vrn.zi st
I
^
es inferior a la correspondiente a los demés aigoritmos de clasificación: Media y
Centroide [ver cuadro 3^.
Sin embargo, la función de pérdida D{S) considerada como criterio (ii) es una
suma ponderada y, con este criterio, el procedimiento de Ward es mejor que los
demás, cuando el número de estratos no es muy reducido, y los algoritrnos Media y
Centroide aventajan al de las K-medias [ver cuadro 4).
Los algoritmos de Ward, Media y Centroide proporcionan estratificaciones que
tienen de común el hecho de ser muy eficientes para la estimacián de características raras, coma es 1a variable X^ (ieñosos de regadio), presente sólo en 48 de los
12.190 elementos de la población. En el cuadro 4 se observa cómo, para estas
estratificaciones, la pérdida asociada a esta variable es muy reducida respecto de
la de las demás estratificaciones y, en particular de la del algoritm© de MacQueen
(1967). Para esta última el valor de la función de pérdida correspondiente a X^ es
muy elevado y, como consecuencia, el valor total de la función de pérdida D(S)
resulta muy superior al de las demás.
La eficiencia de las estratificaciones por !os algoritmos Media y Centroide es, sin
embargo, insignificante para las restantes variables consideradas. Comparando las
cifras de los cuadros 3 y 5 se observa cómo, para estos algoritmos, la variación
dentro de estratos apenas se reduce respecto de la total -5,2-, salvo para la variable
X3; es por ello que la eficiencia relativa es mínima {próxima a 1). En cambio, la
estratificación por el algoritmo de Ward es eficiente, también para las demás variables. Como consecuencia, el procedimiento de estratificación de Ward resulta ser el
mejor de los considerados, respecto de los dos criterios de evaluación adoptados.
EI principal inconveniente de este algoritmo es que, por tratarse de un algoritmo
de clasificacíón jerárquica, requiere equipos inforrnáticos con rnucha capacidad de
memoria, cuando el tamaño de la pobfación es grande. EI algoritmo de MacQueen
(1967), por ser no jerárquico, no tiene ese inconveniente y, salvo para 1a estimación
de características raras, es también eficiente. Este último tiene, sin embargo, el
inconveniente de que la solución depende de la semilla de partida y, por tanto,
puede ser inestable.
En el cuadro 2 hemos incluido los resuftados de dos estratificaciones por el algoritma de las K-medias, que difieren sólo en la semilla: en un caso ia semilla fue
seleccionada por el procedimiento Fastclus del sistema SAS (1985), y en el otro
fueron las medias de clase de la clasificación resultante del algoritmo de Ward. Las
diferencias entre ambas son escasas. Esta última mejora la eficiencia en la estimación de la media de X2; el valor de D(S} permanece estable.
3{^
}^.^r_^u^^r^c^.^ E^^;^^^^c^t .^>
Cuadro 2
EFICIENCIAS RE^.ATIVAS EN LA ESTIMACI{ ^ N DE LA MED^A
N°
X^
Estratificación
X2
X3
x^
Cum f^x,)
Cum f^x,?
Cum^
Cum f(x4}
Cum _/f(x
Cum f(x2)
Estratos
3
6
9
3
6
9
50. 30
442.80
1063. 06
1.00
1.12
1.01
1.17
1.20
1.20
1.02
12.75
60. 54
136.85
3
1.03
6
1.02
1.03
1. 04
1.03
1.07
1.22
1.12
1.40
1.14
1.00
1364.20
1.00
1.03
1.00
5521.40
1.00
9
1. 04
33921.60
3
1.00
1.00
1.02
1. 00
32.22
6
1.01
9
1.02
3
6 {3x2)
6 {2x3)
9 (3x3)
1.16
1.18
1.03
1.03
1.28
1.40
20^ .41
1.49
489. a6
5.17
1. 58
1.07
12.92
1.11
1.08
61.33
2.15
12.99
3.4$
1.45
2.67
1.11
1.78
5.29
8.?7
6.55
4.47
5.31
6.55
1.13
4.48
4.62
56 . 59
22 .48
PRIN 1
3
K-Med ias
6
9
3
6.08
10.91
4.75
6
5.77
6.01
1.81
5.14
9
3
11 .02
1.11
9. 7$
4.79
2.07
1.19
6.09
6
8.96
11.30
1 .67
4.68
9
3
12.81
19.34
2.03
1 .38
3.55
2.05
6.57
8.48
6
10.87
3.93
232.53
8.94
9
8.11
336.26
14.43
3
21.40
1.01
1.00
1.00
6
1.02
1.00
7.76
19.16
1.00
9
2.01
1.00
37.31
1.00
3
1.01
1.00
7.76
1.00
6
1.04
1.00
43.49
1 .00
9
1.05
1.00
44.39
1.Oo
K-I'1/ledias ( Semillas
medias de la -
clasificación de
Ward)
Ward
Med ia
Centroide
5.55
k^ti^^^RA^f^it-1(' ^1('it}ti 1^11't.l^iti'AR[AN'i^E- (^ RI (^f^;Rl(^)ti UF. t^^^ ^l l' ^\(^1C.)ti
Cuadro 3
VARIANZA DEL ESTIMADOR DE LA MEDIA DE LAS VARIABLES DE ESTRATIFICACI^N, CON MUESTREO ALEATORIO ESTRATIFICADO
Wh Sh, )
n Vm.a.st ^X st^ ^
Estratificacián
N°
Estratos
Total
L
( r W h S h j1 2 = n V m.a .s t( x s t j^
h -^
j =1, 2, 3, 4
X^
X^
C u m f(x , )
2
4
L
^ ^^
h=1
^•1
^h
^ h^ ^ 2
X4
X3
3
6
1.63
0.19
1009.88
999.88
0. 069
0 . 066
9
0.08
990.08
0. 064
3
6
70.72
69.52
79.21
16.68
0.074
9
68.36
7.38
123.02
1134.60
1121.97
1111.05
3
6
9
3
6
79.64
79.64
78.88
82.03
81.22
1009.88
1009.88
1009.88
990.08
980.47
0.057 10
0.014 10"3
0.002 10"^
0.060
0.055
121.83
120.83
117.23
112.04
110.07
125.4$
125.48
125.48
3.89
0.62
9
80.42
980.47
0.052
0.26
1061.20
3
6(3x2)
6( 2x3 )
9(3x3)
3
6
9
1.45
3 . 65
1.34
38.15
15.51
15.45
195.33
78 . 16
77.74
289.20
115.15
92.56
0.049
117.27
0 . 069
0.053
0.029
116 . 19
113.04
70.49
314.10
198 . 07
192.17
3 7.87
0.012
0.012
28.07
28.09
158.74
3
13.49
212.61
0. ^68
27.16
25^.3^
6
14.22
168.03
0.043
24.41
9
7.44
103.26
0.037
20.60
206.70
131.34
K-Medías {Semillas
medias de la
clasificación de
Ward)
3
6
9
73.90
9.16
6.40
210.83
89.37
52.22
0.065
22.61
0. 046
0. 038
26. 75
19.10
Wa rd
3
59.44
7.55
3.83
81.22
284.47
256.97
124.52
1009.88
0.038
0. 033 10^2
0.02310-2
0.992 10^
14.80
14. 04
8.70
15.48
278. 56
137.05
1216.59
80.43
40.81
81.22
78.88
78.12
1009.88
1009.88
1009.88
1009.88
1009.88
0.476 10^2
125.48
1215.79
0.206 10-2
125.48
1176.17
0.99210-
125.48
1216.59
0.177 10-2
125.48
0.173 10-2
125.48
1214.24
1213.48
Cum f(x2)
Cum f(x3)
C u m f(x, )
Cum f(x,^ )
Cum f(x2 )
PRIN 1
K-Medias
6
Media
Centroide
9
3
6
9
3
6
9
0.063
0.055
=3
267.23
198.30
185.87
1215.00
1215.00
1214.24
1076.06
1062.37
136.11
307.41
125.33
77.76
358.75
f^ 1^[ ^I`^ I tt \ I^f' ^`^.t ^f ^
Cuadro 4
VAf`.ORES DE ^A FUNCIÚh1 DE PÉRDIDA, CORRESPONDIENTES A CADA
VARfABLE DE ESTRATIFICACIÓN
Q^
Estratificacióry
- ^rrya.st
`x st3 ^ / ^rn.r^. st
Tota!
N°
C u m f(x ^
C u m flx ,
Cum flx ^ )
Cum f(x ^ )
Cum f(x 2 )
PRIN 1
3
0.00
6
0.00
0.00
42.39
364.89
853.50
47.86
418.16
985.00
49.32
426.47
1004.25
-6.63
18 . 21
15.75
22.40
80.63
192.13
11.79
58.94
133.16
0.00
1209.53
47^ 3.29
31999.00
1297.25
o.oo
4499. 00
0.00
27499. 00
0.00
11.79
59. 54
135.84
11.54
57.78
131.$6
10.71
3 . 68
9.53
2.66
5.90
1 1 . 54
7.28
6
9
73.84
92.00
1 .69
9.07
12.99
K-Medias (Semillas
medias de la
cfasificación de
Ward)
3
6
44.34
47.21
1 .67
4. 36
9
79.00
6.08
Ward
3
6
9
3
6
9
3
6
9
35.47
38. 74
46. $8
48.83
422.32
509.13
48. $2
414.16
975.40
2.60
14.40
15.87
11.79
59.54
135.84
11.79
59.54
135.84
Media
Centroide
x4
ñ3
3
K-Medias
as^=Ea,
j=1,2,3, 4
ñ,
9
3
6
9
3
6
9
3
6
9
3
6(3x2)
6 (2x3)
9{3x3^
3
6
9
a
fn.Ff.St, ^^c.ijj ^I^f7T. ^.l.5[. ^XSij
Estratos
Cu m f^x , }
^ X st, ^
O.oO
0.00
1051 .63
3927.57
25999.00
30.62
195.50
463.83
29.14
179.71
4222.35
31.26
201.39
481.s2
0.00
©.oo
a. o0
1251.94
4967. 73
32575.99
1368.78
5043.60
28774.85
90.91
679. 09
1602.46
1112.49
441 1.82
27135.1 1
3499.00
4927 . 57
26499.00
507.77
856.14
5999.00
1 191 .98
3070.43
18499.00
188.15
186 . 40
433. 77
17.12
44.27
107.04
5.98
3$.37
78.23
3634.49
5135 . 86
26958.05
549. 95
1139.35
3284.71
18999.00
4.81
42.15
72.46
1190.17
19156.54
665_67
22.57
1 14.00
173.04
339.00
1029.00
2.80
706.54
21.65
32.46
31.26
201.39
481 .62
31 _26
201.39
481.62
97 . 36
209.21
264.92
1022.25
2155.59
173.04
125.43
864.00
986.94
6309.75
1206. 93
3191.71
18682.22
3378.43
264.91
800. 52
2456.96
f ti I K^^ I If-I( ^^l(^^I^l^, Rtl'I ^I^I^^ ^^Ftl ^^^^I f(^KI1 f F^lO^ti I^)E^^ f^ ^-\l l-^(^^I^O\
_^ ^
Cuadro 5
VARIANZAS DEL ESTIMADOR DE LA MEDIA DE LAS VARIASLES DE ESTRATIFICACI ^JN CON MUESTREU ALEATORIO SIMPLE
S2 = n Vm.a.s. 1X^ ); j= 1, 2, 3, 4
X^
Varianzas con muestreo
aleatorio simple
X2
82.03
ñ3
1009.88
Xq
0.077
125.48
Cuadro fi
VARIANZAS MÍNIMAS DEL ESTIMADOR DE LA MEDIA CORRESPONDIENTES
A LA ESTRATIFICACIUN UNIVARIANTE ÓPTIMA
,
n Vm.a.st. ^xst,i ; j= 1, 2, 3, 4
N° EstratOS
X^
X2
^'^3
i'^ ,q
Varianzas mínimas corres-
3
1.63
78.98
0.05710^
3.89
pondientes a la estratificación
univariante óptima
6
9
0.19
0.08
16.68
7.38
0.01410-3
0.00210-3
0.62
0.26
AGRADECIMiENTUS
Nuestro agradecimiento a José María Fernández del Pozo, quien ha planteado
el caso de estudio tratado en este artículo y a José Ramón Sanz Almodóvar, que ha
etaborado los datos de base. Agradecemos los comentarios y sugerencias de un
revisor anónimo de la primera versión del trabajo, quien ha contribuido con ello a
mejorar el artículo.
REFERENCIAS
ANDERSON, D.W., K^sH, L., CORNELL, R.G. (1976} «t^uantifying gains from stratification for optimum and approximately optimum strata using a bivariate normal
model». Journal of the American Statistical Association, 71, 356, 887-92.
CHOCHRAN, W.G. (1961) «Comparison of inethods for determining stratum boundaries». Bull. Int. Stat. lnst., 38, 2, 345-58.
CHOCHRAN ,
W.G. (1981) «Técnicas de muestreo». C.E. C. S.A. México.
^ ^ t ^^r^i^ i i^ ^^ t ^r^^^ti<^
DALErvlus, T. (i 950) <cThe problem of optimum stratification>^. Skandinavisk Aktuarietidskrift, 3, 4, 203-13.
DALENfiUS, T. , HoDGES, J. ^. , Jr. ( 1959) «Minimun variance stratification» . Journal of
the American Statistical Association, 54, 88-101.
EKMAN, G_ (1959) c<An approximation useful in univariate stratification». Ann. Math.
Statist, 30, 219-29.
Gr^©SN, S.P. ( 1963). c<C^ptimun stratification with two characters». Ann. Math. Statist. 34 , 866-72 .
GOLDER, P.A., YEOMANS, K.A. (1973). «The use of cluster analysis for stratification».
Applied Statistics, 22, 213-219.
HAGOOD, M.J., BERNET, E.H. (1945). «Component indexes as a basis for stratification
in sampiing». Joumal of the American Statistical Association, 20, 231, 330-41.
HESS, I., SETHI, V.K., BALAKRISHNAN ,
T.R. (1966}.
«Stratification: A practica# investi.
gatian» . Jaurnal of the American Statistica/ Association, 61, 313, 74-90.
JARC^UE, C.M. (1981 }. «A solution to the problem of optimum stratification in multivariate samp#ing». Appl. Statist. 30, 2, 163-69.
.JOHNSt^N, R.A. Y WICHERN, D.V'v. (1988) .
«App#ied mu#tivariate statistical analysis».
Prentice-Nall, lnv. New Jersey.
JUDE^, L. {1988}. «Técnicas de análisis de datos multidimensiona#es». Ministerio de
Agricultura, Pesca y Alimentación. Madrid.
JULIEN, C., ^/IARANDA ,
F. (1990) «Samp#e design ©f the 1988 National Farm Survey».
Survey Methodologie, 16, 1, 117-29.
KISH, L. (1976}. <cQptima and proxima in linear sample designs». Journal of the
Roya! Statistical Society, Serie A, 139, 80-95.
KISH, L., ANDERSON, D.W. (1978} <cMultivariate and multipurpose stratification».
Journa! of th,e Amerícan Statistical Association, 73, 361, 24-34.
KPEDEKP^, G.M.K. (1973). ccRecent advances on some aspects of stratified sample
design. A review of the #iterature». 1V1^etrika, 20, 1, 54-64.
LAVALLE, P. (1988). c<Two-way optimal stratification using dynamic programmíng».
Proceedings of the Survey Research Methods. American Statistical Assaciation.
MAPA ( 1976) «Mapas de cultivos y aprovechamientos». Ministerio de Agrricultura,
Pesca y Alimentación, Madrid.
MACQUEEN, J. (1967). <cSome methods for classificatian and analysis of multivariate
©bservations?>. Proc. 5th Berkeley Symp. Math. Statist. and Prob, 1, 281-97.
University of California Press.
E.^ r k^^ r ^E Ic^-^('If)ti ^1l L E 1^ 1Etl•1^ IE ( RI 1 E^.RIU^ t)t^ E ^^ll l.^( It)^
SAS Institute Inc ( 1985): «SAS/STATISTICS User's». Guide Version, 5 Edition.
Cary, 956 pp.
SETHI, V.K. (1963): «A note on optimum stratification of population for estimating the
population mean». The Australian Journal of Statistics, 5, 20-33.
WARD, J.H. (1963). «Hierarchical grouping to optimize an objetive function». Journal
of the American Statistical Association, 58, 236-44.
MULTIVARIATE STRATIFIGATION: EVALUATION CRITERIA
SUMMARY
Several multivariate stratification procedures were considered: univariate generalization, first principal component stratification, and four
classification algorithms (Ward, K-Means, Centroid and Average).
The studied procedures were evaluated from a case study. We
considered two criteria: (i} mean estimation efficiency of the stratification variables and (ii) the relative lost of accuracy with respect to the
optimal univariate stratification.
We found that the algorithm of Ward was the best of the examined
in our work.
Key words: Stratified random sampling. Cluster algorithms. Land stratification.
AMS Classification: 62J00, 62D05
Descargar