ESTADÍSTICA ESPAÑOLA Vol. 38, Núm. 141, 1996, págs. 19 a 35 Estratificación multivariante . Criterios de evaluación(*) por LUIS AMBROSIO FLORES Departamento de Economía y Ciencias Sociales Agrarias Unidad de Estadística AURELIO VILLA PÉREZ Departamento de Matemática Aplicada LUIS IGLESIAS MART^NEZ Departamento de Ingeniería Cartográfica, Geodesia y Fotogrametría - Expresión Gráfica. E.T.S. DE INGENIEROS AGRÓNOMOS. CIUDAD UNIVERSITARIA. 28040 MADRID E-mail: Flores@eco.etsia. upm.es RESUMEN Se consideran varios procedimientos de estratificación multivariante: generalización de la estratificación univariante, estratificación de la primera componente principal y cuatro algoritmos de clasificación {Ward, K-medias, Centroide y Medias). Se consideran dos criterios de evaluación: (i) la eficiencia en la estimación de la media de las variables de estratificaci8n y(ii) la pérdida relativa de precisión respecto de la estratificación univariante óptirna. t*> Este trabajo ha sido financiado por el Ministerio de Agricultura, Pesca y Alimentación, en el marco de un convenio de colaboración suscrito entre la Secretaría General Técnica de dicho Ministerio y el Departamento de Economía y Ciencias Sociales Agrarias de la Universidad Politécnica de Madrid f ^ I ^l )Iw 1 (t \ f ^I' ^ti^ ^1 ^ Con estas dos criterias, ios procedímíentos estud^ados se evaiuaron a partir de1 estudio de un caso. Ei aigaritrno de Ward resultó ser el mejor procedirniento de estratificación, de los examinados en este trabajo. Palabras clave: Muestreo estratificada. Técnicas de clasificación. Estratificación del territorio. Clasificacíón AMS: 62J04, 62D05 INTRCJDUCCIÓN Para una sola variable de estratificación, una soiución óptima ai problema de cómo estratificar una poblacibn determinada en un cierto número L de estratas, con el criterio de optimización usual de "minimizar la varianza del estimador para un tamaño de muestra dado", ha sido obtenida por Dalenius (1950} [Cochran (1981 }]. Para más de una variable de estratificación no hay un único criterio de optimización bien establecido. Los dos de uso más frecuente consisten en minimizar, para un tamaño de muestra dada, (i) la varianza generalizada del vector de estimadores o(ii) una suma ponderada de las varíanzas de los estimadores. Chosh (1963), con ei primer criter^io, generaiiza los resultados de Dalenius (1950) al caso de dos variables de estratificación, y Lavallée (1988), con el segundo criterio, proporciona también una solución bptirna al problema de estratificación bivariante, aunque utilizanda una técnica de optimización diferente (la programación dinámica, en lugar del sistema de ecuaciones minimal obtenido derivando parcialmente fa varianza generaiizada del vector de medias muestrales de ias variables de estratificación, con respecta a las I í mites entre estratos} . La obtención exacta de estas soiucianes óptimas presenta dificultades prácticas: la soiución depende de parámetros taies como ia media y!a varianza dentro de estratos, los cuales a su vez dependen de los limites entre estratos, que es precisamente la solución buscada; por fa que se requieren métodos iterativos para la búsqueda de !a solución exacta. En ia práctica dei muestreo se trata siempre de establecer un campromiso entre la precisión y e! caste de ias estimaciones: en este artículo nos interesamos en d^stintos procedimientos para la construcción de los estratos cuando se dispone de más de una variable de estratificación, que pueden servir de base para establecer dicho compromiso, en función dei grado de aproximacíón de cada pracedimiento a ia solución óptima y de la mayor o menor dificultad de su aplicación práctica. En el epígrafe 2 se establecen las criterios de evaluación de un procedimiento de estratificacián. En ios epígrafes 3 y 4 revisamos ias soluciones aproximadas a1 1^! li ^ l Il li ^c li ^ ^., tilt 1 l I^. tiftl ^,ti 4 6 i kl I! kli ^ ti 1^4 I`^t !^i li ^ti problema de optimización planteada, que han sido propuestas en la literatura. En el epígrafe 5 las aplicamos a un caso de estudio y comparamos los resuítados_ En esta aplicación, las características a estimar son las medias de las variables de estratificación. Consideramos un reparto óptimo de la muestra entre ios estratos. 2. CRITERIOS DE EVALUACIÓN Cuando, como es el caso más frecuente en la práctica, se pretende estimar más de una característica a partir de una misma muestra, la estratificación óptima para una de eilas no fo será, en generaf, para las demás. Sea S,* la estratificación univariante óptima de la variable X, (j=1, 2, ..., P). La estratificación muítivariante basada en las P variables debe ser un compromiso entre las P estratificaciones univariantes óptimas. Para evaluar la estratificación multivariante se consideran dos criterios: (i) la eficiencia relativa de la estratificación respecto del muestreo aleatorio simple, para estimar la media de fas varíables consideradas y(ii) la pérdida reiativa de precisión respecto de la estratificacián univariante óptima. 2.1. Eficiencia relativa La eficiencia relativa de una estratificación determinada, respecto del muestreo aleatorio simple, para la estimación de la media de la variable X, (j=1, 2, ..., P) se define así : ER, = Vr,.^.5..(x,) I V,,.^.s^ (xst,) donde V rn a s^X^ ) es la varianza del estimador usual de la media de la variable X, con muestreo aleatorio simple, y Vm a st ^Xst^ } es la va^-ianza del estimador usuaf de la media de la misma variable X, con muestreo aleatorio estratificado; definidos ambos para muestras del mismo tamaño n. Ignorando el factor correctar de poblaciones finitas y para un reparto óptimo de la muestra entre estratos: z Vn^.a.st. ^XSt^ ) ^ W,,Sh; /n donde Wh=N^/N (siendo Nh el número de elementos de la población en el estrato h) con: y 5^,, es 1a desviación tipica de la variable de estratificación X en el estrato h. ^ f ^r-^.ni^ric .^ F ^^^^ti^>i .^ Asimismo: _ z vn,.a.s. ^X, ) -- S^ / n donde S^^ es la varianza de la variable de estratificación X,, en ia población. Por tanto: ^. ER^ = S? / ^Nhs h-1 2.2. Función de pérdida de precisión Si V *m a st \xst^ } es la varianza del estimador usual de la media de X, con muestreo aleatorio estratificado, supuesta una estratificación S;* óptima de X,, y Vm ^$ t (xst,) es la varianza del mismo estimador correspondiente a una estratificación cualquiera S del mismo número de estratos L que S;*, se define {para muestras del mismo tamaño) la pérdida de precisión relativa que resuita de estimar la media de X, a * partir de la estratificacián S en lugar de hacerlo a partir de la óptima S; , de la siguiente forma [Kish {1976}, Jarque (1981)j: " m.a.st. `X stJ ^] / " m.a.st. `X stj ^ - [^m.a.st. ^x stj ^ La pérdida de precisián D(S) en las estimaciones de las medias de las variables de estratificación, de una estratificación multivariante determinada S, respecto de ^ las univariantes áptimas - S j; j= 1, 2, .. ., P- se define como la suma de las pérdidas D^ observadas para cada variable j. Para P variables de estratificacián: P P `, ,/ . ym.a.st. `X stj ^/ Vm.a.st. ^X St^ ^- P Dadas dos estratificaciones de una misma población, en un mismo número de estratas y para un mismo tamaño de muestra, se considera preferible a aquella para la que la pérdida total D(S) es menor. Obsérvese que, una vez fijados el tamaño de muestra n y el número de estratos L, V*rn.a st (Xst^ } es constante, de modo que D(S} es sólo fiunción de una suma ponderada de ias Vrn ^ st (xSt;} siendo 1 /V*m ^.st (xst,) para j = 1, 2,, .., P, los coeficientes de ponderación: F:tiTFi:^F^IF^I("A("[(^!^ !^11.^1.T"I^ARI.>ti"TF^: C^RI"i^F-:R1OS C)! F `:^Ll At.FC)Pti D`^^ ^ ^ a^ vm.a.st. `xst^ donde: ^ / , / ^ Ym.a.st. l^ $t; ^ Para un reparto óptimo de la muestra entre estratos, D(S) es: r^ D(S> _ -^ P a n^ ' 1-1 2 ^ ^h^h1 h ^. ^ Y para un reparto proporcional, D(S) es: P E D(S> _ -^ ^ a; n ,_, ^. h = ^ 3. ESTRATIFICACIÓN UNlVARIANTE: APROXIMACI^NES PRÁCTICAS Para el caso de una sola variable de estratificacián, se han propuesto diversas soluciones aproximadas al sistema de ecuaciones mínimal de Dalenius ( 1954), una revísión de las cuales puede encontrarse en Kpedekpo (1973). Dalenius y Hodges (1959) proponen la siguiente solución aproximada: Si y(x) es el valor acumulado de ía raíz cuadrada de las frecuencias absolutas de los valores de la variable de estratificación X inferiores o iguales a x, para construir un número de estratos L, ios límites aproximadarnente óptimos entre estratas son ios valores x, < x2 <....< xh <...< x^_, de la variable de estratificación que satisfacen a la ecuacián: y(x ^ = hH/L:h=1,2,...,L-1 en la que H es el valor de y(x) correspandiente al máximo valar de X, supuesto este finito. EI extrema inferior del estrato h= 1 es el valor mínimo de X y el superior de1 estrato h= L es el valor rnáximo de X. Ekman ( 1959) propone tomar los límites entre estratos de modo que W,,(xn-xh-1) sea igual para tado h= 1, 2, ..., L; siendo Wh la proporción de etementos de la población en el estrato h. Otras propuestas similares a ésta consisten en sustituir (xh - x,,_,) por la media de la variable de estratificación en el estrato h(p,.,), o bien por la desviación típica (Sh). ?-i E^ ^-^r>^^; ^ ^c ^ t^ ^^^^tic>^ -^ ^stas y otras propuestas han sido comparadas entre si con base tanto en distribuciones teóricas como empíricas [Cochran (1961), Sethi {1963), Hess et al. (1966), Anderson et al. (1976}]. Ninguna de ellas es en todos los caso más eficiente que las demás. La propuesta de Dalenius, y Hodges {1959}, Ilamada regla Cu^ , y la de Ekman (1959) resultan satisfactorias en la generalidad de los casos; siendo la primera de m^s fácil aplicación. ESTRATIFICACIÓN MULTIVARIANTE: APR4XIMACIC3NES PRÁCTICAS l^na primera aproximacián al problema de la estratificación multivariante consiste en aplicar a cada variable, sucesivamente, los resultados ya bien establecidos en la literatura para el caso univariante. Dadas " P" variables de estratificación, se podrían determinar para cada variable "j" (j = 1, 2, ... P), de forma independiente y mediante una de las reglas citadas en el epígrafe anterior, los límites entre los Lj estratos considerados. Para P = 2, el estrato genérico "h" quedaría constituido por aquellos de los N elementos en los que la variable de estratificación "1 " toma valores comprendidos entre los lírnites [x^n_, ^,, x^n}^] determinados por la regla utilizada y la variable "2" entre los I í mites [xth_^ ^2, x^h^2]: de esta forma, el estrato "h" queda representado por la celdilla definida por los intervalos [x^^,_^^^ , %t{h)1] Y[X(h_^)2 , x^h^2]; y los N elementos de la población distribuidos en L= L, x L2 celdillas. Se trata pues de una estratificación en látices. Si las variables de estratificación no son independientes entre si, cabe esperar una mayor eficiencia si, en lugar de aplicar la regla a cada variable "j" (j = 1, 2, ... P}, consíderada como variable marginal, se aplica a las variables condicionales, de forma iterativa: ( i) En la primera iteración, se aplica a una variable de estratificación cualquiera "j". Sea h,* el estrato genérico de esta estratificación (h;* = 1, ^, ..., L;). (ii) En la segunda iteración se aplica la regla a la variable " k", dentro de cada una de los estratos h;*. Sea hk*/h^ el subestrato genérico "hk*" de los Lk subestratos en los que se divide el estrato h, (hk*/h,* = 1, 2, ... L,^). (iii) EI proceso de subestratificación descrito en (ii) continúa hasta terminar con todas y cada una de las variables de estratificación. Las técnicas de análisis multivariante han sido también consideradas para el tratamiento del problema de la estratificación. Hagood y Bernet (1945) han propuesto una estratificación basada en las componentes principales de la matriz de correlaciones entre las variables de estratificación. Kish y Anderson (1978) han comparado la estratificación bivariante (en látices) con la estratificación basa en la primera componente principal, tanto en poblaciones teóricas con distribución normal como en diversas poblaciones reales: en general, la estratificacián bivariante resultó ser más eficiente que la basada en la primera componente principal; si bien esta última es mós eficiente que la univariante. 25 E^S"I'RATIFIt'AC'!ON MI^JI."TIVARIANTE CR[TERIOS DE EVALUACION La estratificacián puede ser también formulada como un problema de clasificación a tratar mediante diversos algoritmos [Golder y Yeomans (1973}, Jarque (1981), Julien y Maranda ( 1990)]. ^^ este fin, es útil considerar la descomposición multivariante de la varianza. Dada una estratificación cualquiera de !os N elementos de la población en L estratos, con Nh elernentos en el estrato h-ésimo (h=1, 2, ..., L), si denotarnos por T ^(,; =[Xh,;, X^;, ..., Xhj;, ... Xhp; ] el vector de observaciones de las P variables de estratificación en el elemento i-ésimo {i=1, 2, ..., Nf,) del estrato h{h=1, 2, . .., L), se verifica [Johnson y Wichem ( 1988) p.236]: L ^, _ ^ h 1^h ! ^^^Xh ^ ^ ^^hi r ^^`^hi - X^T h-1 i-1 X ^T ^ ^ -^- `> ^> ^X hi X h Ic^hi ^h ^ h=1 i=1 donde: 1 `^ ^ X,,; N h i=1 _ ^cNh _ ^>s^ h-1 i=1 h=1 donde S2h es la matñz de varianzas [S,-,;2, j=1, 2, ..., P] y covarianzas [^,;;^, j(^j')=1, 2, ..., P] poblacionales en el estrato h del vector definido por las P variables de estratificación, esto es, una matriz cuadrada de orden P cuyos elementos de la diagonal principal son las varianzas dentro de estratos: 1 Nh ^ / - ^ ^ `X hi; - Xhj ^ 2 ^ ^ i=1 y fuera de la diagonal principal sus elementos son !as covarianzas Shl^. _ ^ cxh;; - xh; ycxhi;. - xh;^ > Nh ` ^ i=i para j(^j')=1, 2, ..., P. De entre !os algoritmos de clasificacián propuestos en !a literatura [Johnson y Wichern ( 1988}, Júdez {1988)], el de Ward ( 1963) {de tipo jerárquico) y e! de MacQueen (1967) {de tipo no jerárquico), este último conocido por K-medias, tienden a minimizar la traza de U: ? () E^S"TADIST^IC'.A^ E•:SPAÑOI.A P 1^ trU = ^ ^ tN,, -1^Sh, 1 h1 La tr U es una medida de la variación total dentro de estratas: es la suma de la variación dentro de estratos de cada variable. La descomposición de la variación total de la variable X; es: L ^ h- 1 h- 1 tN -1?SZ i ^ tNh - .^)Sh, + ^ Nh tXh^ _ X; }z En esta última expresión el primer sumando del segundo miembro es la varianza dentro de estratos y el segundo sumando es la variacián entre estratos. EI algoritmo de Ward y el de MacQueen tienden, pues, a minimizar la variación dentro de estratos o lo que es equivalente, a maximizar la variación entre estratos, de cada variable. Con reparto proporcional y fijado el tamaño de la muestra n, la función de pérdida depende sálo de la traza de la matriz de varianzas y covarianzas -U*- de las variables de estratificación previamente transformadas multiplicándolas por a; : D(S) _ ^ ^ tr U* nN - En consecuencia, cabe esperar que a las estratificaciones basadas en estos dos algoritmos correspondan menores valores de la funcibn de pérdida D(S) que a las basadas en otros algoritmos y, por tanto, sean preferibles según el criterio (ii). Junto a estos dos algoritmos consideraremos, con fines comparativos, otros dos, ambas jerárquicos: el de las Medias (distancia entre clases igual a la media de las distancias entre pares de elementos) y el del Centroide (distancia entre clases igual a la distancia entre las medias de clase). EI procedimiento "Cluster" del sistema SAS (1985) incluye, entre otros, los tres algoritmos jerárquicos considerados y el "Fastclus" el algoritmo de las K-medias. 5. ESTU DIO DE U N CASO Bajo este epígrafe evaluamos las técnicas de estratificación multivariante, relacionadas en el epigrafe anterior, en su aplicación a un caso de estudio. EI caso en cuestión es la estratificación del territorio de la provincia de Guadalajara atendiendo a los usos del suelo, con vistas a la estimación de superficies cultivadas. Se considera como elemento o individuo de la población al territorio correspondiente a la cuadricula UTM de 1 Km x 1 Km (100 hectáreas): cada elemento queda unívocamente definido en el mapa mediante las coordenadas de uno F^1K^^IlFlt^^^( !Oti 11l l Il^ ^^Rl.^^tifE ( RIIf:KIf)4 U#- F\ ^^I 1^1( IOti cualquiera de los vértices de la cuadrícula, en la proyección UTM, que es la base de la cartografía española. 5.1. Los datos Sobre cada uno de los 12.190 eiernentos de los que consta la poblacián estudiada, se dispone de información acerca de las siguientes variables, medidas en hect^reas y reiativas a los usos del suelo: X,: cultívos herbáceos de regadío. X2: cultivos herbáceos de secano. X3: cultivos leñosos de regadía. X4: cultivos leñosos de secano. Los datos resultan de la digitalización de los "mapas de cultivo y aprovechamientos" [MAPA {1976}]. Cuadro 1 GARACTERÍSTICAS DE LAS VARIABLES DE ESTUDI^ Varíable Media Varianza C.V. (%) Coeficiente de Asimetría X, 1.92 82.03 472.06 6.96 X2 30.36 1009.88 104.68 0.74 X3 0.01 0.08 2617.63 40.29 X4 3.62 125.48 309.37 4.20 La correlación entre estas cuatro variables de estratificación es prácticamente nula. EI coeficiente de correlación lineal en#re la variable X^ y la XZ es -0.069, entre la X, y la X^ es 0.075, entre la X^ y la Xa es 0.017, entre la X2 y la X3 es 0.002, entre la X^ y la X4 es -0.056 y entre X3 y la X4 es 0.029. 5.2. Los resultados En el cuadro 2 figuran los valores de ER, calculados para los procedimientos de estratificación considerados, y para tres niveles del número de estratos L: 3, 6 y 9. Las eficiencias relativas ER^ son el caciente entre las varianzas del estimador de la media con muestreo aleatorio simple -Vrn a s{x,)- y con muestreo aleatorio estratificado -Vm a st (xst,)- que figuran en los cuadros 5 y 3, respectivamente. EI desglose de 1x 1 ti( 11)I`^! Ic ^ k ^l'^^`1.)i -^, los va!©res de !a función de pérdida D{S) en las partes correspondientes a cada variable y el valor total , se recoge en el cuadro 4. 1. Como cabía esperar, dada la incorrelación entre las variabies de estratificación, la estratificación univariante Cu m f{x ^) es eficiente para la estimación de la media de la variable en cuestión (y, como es sabido, de las variables muy correladas con ella), pero no lo es en absoluto para variables incorreladas con ella. De modo que, en casos como los que nos ocupan, la estratificación univariante no es satisfactoria. Comparando las cifras de los cuadros 3 y 5 se observa cómo la estratificación univariante Cum f{x^ } reduce notablemente la varianza del estimador de la rnedia de Xj -V^ ^^t (xst^)- reduciendo la variación dentro de estratos a una mínima parte de la variación total -5,2-: así, por ejemplo, se observa cómo la varianza del estimador de la media de la variable X1, con muestreo aleatorio simple [ver cuadro 5] se reduce de 82.03 a 1.63, cuando el número de estratos es 3, a 0.19 cuando el número de estratos es 6 y a 0.08 cuando el número de estratos es 9[ver cuadro 3]. Para las restantes variables la variación dentro de estratos apenas se reduce respecto de la total por lo que la eficiencia de la estratificación es mínima: próxima a 1[ver cuadro 2]. En todo caso, ia reducción de la varianza del estimador de la media aumenta con el número de estratos. 2. La estratificación bivariante de tipo látice conserva la eficiencia de las univariantes que la componen. Así, la estratificación en L= L^ x L2 estratos por las variables X^ y X2 conserva la eficiencia de las estratificaciones univariantes de X, en L^ estratos y de X2 en L2 estratos, pero no las de X3 y X^. Para conservar estas últimas, se requeriría un número de estratos L= L^ x L2 x L3 x L^, de modo que por esta vía el número de estratos se multiplica y puede Ilegar a ser excesivo cuando el número de variables de estratificación es superior a 3. Comparando las cifras de los cuadros 3 y 5 se observa cómo la estratificación Cum f{x, } X Cum f{x^ } reduce la variación dentro de estratos de las variables X, y X2 a una mínima parte de la variacián total respectiva -S^2 y S22-, mientras a penas reduce la variación dentro de estratos de las variables X3 y X^ respecto de la total S32 y 5^^, respectivamente. De ahí que ia eficiencia relativa sea para estas últimas minima: práxima a 1 [Ver cuadro 2]. 3. La estratificación de la primera componente principal [PRI N 1) (que explica el 28% de la variación total), de modo que el número elemen#os en cada estrato sea aproximadamente el mismo, presenta una eficiencia significativa y bastante uniforme para la estimación de todas y cada una de las caracteristicas en estudio [ver cuadro 2]. Con este procedimiento, la variación dentro de estratos es sólo una pequeña parte de la total, para todas y cada una de las variables [ver cuadros 3 y 5]. 4. EI algoritmo de MacC^ueen (1967) o de las K-medias y el algoritmo de Ward (1963) establecen estratificaciones para las que la suma no ponderada de las varianzas de los estimadores de cada variable j(j = 1, 2, ..., P): f ti I Ft \ I If I( \( Itrti ^ft I i I l 1,111 \\ I t ( kl I f lZlt)^ !>k f\\E (^\( Il)^ P ^ Vrn.zi st I ^ es inferior a la correspondiente a los demés aigoritmos de clasificación: Media y Centroide [ver cuadro 3^. Sin embargo, la función de pérdida D{S) considerada como criterio (ii) es una suma ponderada y, con este criterio, el procedimiento de Ward es mejor que los demás, cuando el número de estratos no es muy reducido, y los algoritrnos Media y Centroide aventajan al de las K-medias [ver cuadro 4). Los algoritmos de Ward, Media y Centroide proporcionan estratificaciones que tienen de común el hecho de ser muy eficientes para la estimacián de características raras, coma es 1a variable X^ (ieñosos de regadio), presente sólo en 48 de los 12.190 elementos de la población. En el cuadro 4 se observa cómo, para estas estratificaciones, la pérdida asociada a esta variable es muy reducida respecto de la de las demás estratificaciones y, en particular de la del algoritm© de MacQueen (1967). Para esta última el valor de la función de pérdida correspondiente a X^ es muy elevado y, como consecuencia, el valor total de la función de pérdida D(S) resulta muy superior al de las demás. La eficiencia de las estratificaciones por !os algoritmos Media y Centroide es, sin embargo, insignificante para las restantes variables consideradas. Comparando las cifras de los cuadros 3 y 5 se observa cómo, para estos algoritmos, la variación dentro de estratos apenas se reduce respecto de la total -5,2-, salvo para la variable X3; es por ello que la eficiencia relativa es mínima {próxima a 1). En cambio, la estratificación por el algoritmo de Ward es eficiente, también para las demás variables. Como consecuencia, el procedimiento de estratificación de Ward resulta ser el mejor de los considerados, respecto de los dos criterios de evaluación adoptados. EI principal inconveniente de este algoritmo es que, por tratarse de un algoritmo de clasificacíón jerárquica, requiere equipos inforrnáticos con rnucha capacidad de memoria, cuando el tamaño de la pobfación es grande. EI algoritmo de MacQueen (1967), por ser no jerárquico, no tiene ese inconveniente y, salvo para 1a estimación de características raras, es también eficiente. Este último tiene, sin embargo, el inconveniente de que la solución depende de la semilla de partida y, por tanto, puede ser inestable. En el cuadro 2 hemos incluido los resuftados de dos estratificaciones por el algoritma de las K-medias, que difieren sólo en la semilla: en un caso ia semilla fue seleccionada por el procedimiento Fastclus del sistema SAS (1985), y en el otro fueron las medias de clase de la clasificación resultante del algoritmo de Ward. Las diferencias entre ambas son escasas. Esta última mejora la eficiencia en la estimación de la media de X2; el valor de D(S} permanece estable. 3{^ }^.^r_^u^^r^c^.^ E^^;^^^^c^t .^> Cuadro 2 EFICIENCIAS RE^.ATIVAS EN LA ESTIMACI{ ^ N DE LA MED^A N° X^ Estratificación X2 X3 x^ Cum f^x,) Cum f^x,? Cum^ Cum f(x4} Cum _/f(x Cum f(x2) Estratos 3 6 9 3 6 9 50. 30 442.80 1063. 06 1.00 1.12 1.01 1.17 1.20 1.20 1.02 12.75 60. 54 136.85 3 1.03 6 1.02 1.03 1. 04 1.03 1.07 1.22 1.12 1.40 1.14 1.00 1364.20 1.00 1.03 1.00 5521.40 1.00 9 1. 04 33921.60 3 1.00 1.00 1.02 1. 00 32.22 6 1.01 9 1.02 3 6 {3x2) 6 {2x3) 9 (3x3) 1.16 1.18 1.03 1.03 1.28 1.40 20^ .41 1.49 489. a6 5.17 1. 58 1.07 12.92 1.11 1.08 61.33 2.15 12.99 3.4$ 1.45 2.67 1.11 1.78 5.29 8.?7 6.55 4.47 5.31 6.55 1.13 4.48 4.62 56 . 59 22 .48 PRIN 1 3 K-Med ias 6 9 3 6.08 10.91 4.75 6 5.77 6.01 1.81 5.14 9 3 11 .02 1.11 9. 7$ 4.79 2.07 1.19 6.09 6 8.96 11.30 1 .67 4.68 9 3 12.81 19.34 2.03 1 .38 3.55 2.05 6.57 8.48 6 10.87 3.93 232.53 8.94 9 8.11 336.26 14.43 3 21.40 1.01 1.00 1.00 6 1.02 1.00 7.76 19.16 1.00 9 2.01 1.00 37.31 1.00 3 1.01 1.00 7.76 1.00 6 1.04 1.00 43.49 1 .00 9 1.05 1.00 44.39 1.Oo K-I'1/ledias ( Semillas medias de la - clasificación de Ward) Ward Med ia Centroide 5.55 k^ti^^^RA^f^it-1(' ^1('it}ti 1^11't.l^iti'AR[AN'i^E- (^ RI (^f^;Rl(^)ti UF. t^^^ ^l l' ^\(^1C.)ti Cuadro 3 VARIANZA DEL ESTIMADOR DE LA MEDIA DE LAS VARIABLES DE ESTRATIFICACI^N, CON MUESTREO ALEATORIO ESTRATIFICADO Wh Sh, ) n Vm.a.st ^X st^ ^ Estratificacián N° Estratos Total L ( r W h S h j1 2 = n V m.a .s t( x s t j^ h -^ j =1, 2, 3, 4 X^ X^ C u m f(x , ) 2 4 L ^ ^^ h=1 ^•1 ^h ^ h^ ^ 2 X4 X3 3 6 1.63 0.19 1009.88 999.88 0. 069 0 . 066 9 0.08 990.08 0. 064 3 6 70.72 69.52 79.21 16.68 0.074 9 68.36 7.38 123.02 1134.60 1121.97 1111.05 3 6 9 3 6 79.64 79.64 78.88 82.03 81.22 1009.88 1009.88 1009.88 990.08 980.47 0.057 10 0.014 10"3 0.002 10"^ 0.060 0.055 121.83 120.83 117.23 112.04 110.07 125.4$ 125.48 125.48 3.89 0.62 9 80.42 980.47 0.052 0.26 1061.20 3 6(3x2) 6( 2x3 ) 9(3x3) 3 6 9 1.45 3 . 65 1.34 38.15 15.51 15.45 195.33 78 . 16 77.74 289.20 115.15 92.56 0.049 117.27 0 . 069 0.053 0.029 116 . 19 113.04 70.49 314.10 198 . 07 192.17 3 7.87 0.012 0.012 28.07 28.09 158.74 3 13.49 212.61 0. ^68 27.16 25^.3^ 6 14.22 168.03 0.043 24.41 9 7.44 103.26 0.037 20.60 206.70 131.34 K-Medías {Semillas medias de la clasificación de Ward) 3 6 9 73.90 9.16 6.40 210.83 89.37 52.22 0.065 22.61 0. 046 0. 038 26. 75 19.10 Wa rd 3 59.44 7.55 3.83 81.22 284.47 256.97 124.52 1009.88 0.038 0. 033 10^2 0.02310-2 0.992 10^ 14.80 14. 04 8.70 15.48 278. 56 137.05 1216.59 80.43 40.81 81.22 78.88 78.12 1009.88 1009.88 1009.88 1009.88 1009.88 0.476 10^2 125.48 1215.79 0.206 10-2 125.48 1176.17 0.99210- 125.48 1216.59 0.177 10-2 125.48 0.173 10-2 125.48 1214.24 1213.48 Cum f(x2) Cum f(x3) C u m f(x, ) Cum f(x,^ ) Cum f(x2 ) PRIN 1 K-Medias 6 Media Centroide 9 3 6 9 3 6 9 0.063 0.055 =3 267.23 198.30 185.87 1215.00 1215.00 1214.24 1076.06 1062.37 136.11 307.41 125.33 77.76 358.75 f^ 1^[ ^I`^ I tt \ I^f' ^`^.t ^f ^ Cuadro 4 VAf`.ORES DE ^A FUNCIÚh1 DE PÉRDIDA, CORRESPONDIENTES A CADA VARfABLE DE ESTRATIFICACIÓN Q^ Estratificacióry - ^rrya.st `x st3 ^ / ^rn.r^. st Tota! N° C u m f(x ^ C u m flx , Cum flx ^ ) Cum f(x ^ ) Cum f(x 2 ) PRIN 1 3 0.00 6 0.00 0.00 42.39 364.89 853.50 47.86 418.16 985.00 49.32 426.47 1004.25 -6.63 18 . 21 15.75 22.40 80.63 192.13 11.79 58.94 133.16 0.00 1209.53 47^ 3.29 31999.00 1297.25 o.oo 4499. 00 0.00 27499. 00 0.00 11.79 59. 54 135.84 11.54 57.78 131.$6 10.71 3 . 68 9.53 2.66 5.90 1 1 . 54 7.28 6 9 73.84 92.00 1 .69 9.07 12.99 K-Medias (Semillas medias de la cfasificación de Ward) 3 6 44.34 47.21 1 .67 4. 36 9 79.00 6.08 Ward 3 6 9 3 6 9 3 6 9 35.47 38. 74 46. $8 48.83 422.32 509.13 48. $2 414.16 975.40 2.60 14.40 15.87 11.79 59.54 135.84 11.79 59.54 135.84 Media Centroide x4 ñ3 3 K-Medias as^=Ea, j=1,2,3, 4 ñ, 9 3 6 9 3 6 9 3 6 9 3 6(3x2) 6 (2x3) 9{3x3^ 3 6 9 a fn.Ff.St, ^^c.ijj ^I^f7T. ^.l.5[. ^XSij Estratos Cu m f^x , } ^ X st, ^ O.oO 0.00 1051 .63 3927.57 25999.00 30.62 195.50 463.83 29.14 179.71 4222.35 31.26 201.39 481.s2 0.00 ©.oo a. o0 1251.94 4967. 73 32575.99 1368.78 5043.60 28774.85 90.91 679. 09 1602.46 1112.49 441 1.82 27135.1 1 3499.00 4927 . 57 26499.00 507.77 856.14 5999.00 1 191 .98 3070.43 18499.00 188.15 186 . 40 433. 77 17.12 44.27 107.04 5.98 3$.37 78.23 3634.49 5135 . 86 26958.05 549. 95 1139.35 3284.71 18999.00 4.81 42.15 72.46 1190.17 19156.54 665_67 22.57 1 14.00 173.04 339.00 1029.00 2.80 706.54 21.65 32.46 31.26 201.39 481 .62 31 _26 201.39 481.62 97 . 36 209.21 264.92 1022.25 2155.59 173.04 125.43 864.00 986.94 6309.75 1206. 93 3191.71 18682.22 3378.43 264.91 800. 52 2456.96 f ti I K^^ I If-I( ^^l(^^I^l^, Rtl'I ^I^I^^ ^^Ftl ^^^^I f(^KI1 f F^lO^ti I^)E^^ f^ ^-\l l-^(^^I^O\ _^ ^ Cuadro 5 VARIANZAS DEL ESTIMADOR DE LA MEDIA DE LAS VARIASLES DE ESTRATIFICACI ^JN CON MUESTREU ALEATORIO SIMPLE S2 = n Vm.a.s. 1X^ ); j= 1, 2, 3, 4 X^ Varianzas con muestreo aleatorio simple X2 82.03 ñ3 1009.88 Xq 0.077 125.48 Cuadro fi VARIANZAS MÍNIMAS DEL ESTIMADOR DE LA MEDIA CORRESPONDIENTES A LA ESTRATIFICACIUN UNIVARIANTE ÓPTIMA , n Vm.a.st. ^xst,i ; j= 1, 2, 3, 4 N° EstratOS X^ X2 ^'^3 i'^ ,q Varianzas mínimas corres- 3 1.63 78.98 0.05710^ 3.89 pondientes a la estratificación univariante óptima 6 9 0.19 0.08 16.68 7.38 0.01410-3 0.00210-3 0.62 0.26 AGRADECIMiENTUS Nuestro agradecimiento a José María Fernández del Pozo, quien ha planteado el caso de estudio tratado en este artículo y a José Ramón Sanz Almodóvar, que ha etaborado los datos de base. Agradecemos los comentarios y sugerencias de un revisor anónimo de la primera versión del trabajo, quien ha contribuido con ello a mejorar el artículo. REFERENCIAS ANDERSON, D.W., K^sH, L., CORNELL, R.G. (1976} «t^uantifying gains from stratification for optimum and approximately optimum strata using a bivariate normal model». Journal of the American Statistical Association, 71, 356, 887-92. CHOCHRAN, W.G. (1961) «Comparison of inethods for determining stratum boundaries». Bull. Int. Stat. lnst., 38, 2, 345-58. CHOCHRAN , W.G. (1981) «Técnicas de muestreo». C.E. C. S.A. México. ^ ^ t ^^r^i^ i i^ ^^ t ^r^^^ti<^ DALErvlus, T. (i 950) <cThe problem of optimum stratification>^. Skandinavisk Aktuarietidskrift, 3, 4, 203-13. DALENfiUS, T. , HoDGES, J. ^. , Jr. ( 1959) «Minimun variance stratification» . Journal of the American Statistical Association, 54, 88-101. EKMAN, G_ (1959) c<An approximation useful in univariate stratification». Ann. Math. Statist, 30, 219-29. Gr^©SN, S.P. ( 1963). c<C^ptimun stratification with two characters». Ann. Math. Statist. 34 , 866-72 . GOLDER, P.A., YEOMANS, K.A. (1973). «The use of cluster analysis for stratification». Applied Statistics, 22, 213-219. HAGOOD, M.J., BERNET, E.H. (1945). «Component indexes as a basis for stratification in sampiing». Joumal of the American Statistical Association, 20, 231, 330-41. HESS, I., SETHI, V.K., BALAKRISHNAN , T.R. (1966}. «Stratification: A practica# investi. gatian» . Jaurnal of the American Statistica/ Association, 61, 313, 74-90. JARC^UE, C.M. (1981 }. «A solution to the problem of optimum stratification in multivariate samp#ing». Appl. Statist. 30, 2, 163-69. .JOHNSt^N, R.A. Y WICHERN, D.V'v. (1988) . «App#ied mu#tivariate statistical analysis». Prentice-Nall, lnv. New Jersey. JUDE^, L. {1988}. «Técnicas de análisis de datos multidimensiona#es». Ministerio de Agricultura, Pesca y Alimentación. Madrid. JULIEN, C., ^/IARANDA , F. (1990) «Samp#e design ©f the 1988 National Farm Survey». Survey Methodologie, 16, 1, 117-29. KISH, L. (1976}. <cQptima and proxima in linear sample designs». Journal of the Roya! Statistical Society, Serie A, 139, 80-95. KISH, L., ANDERSON, D.W. (1978} <cMultivariate and multipurpose stratification». Journa! of th,e Amerícan Statistical Association, 73, 361, 24-34. KPEDEKP^, G.M.K. (1973). ccRecent advances on some aspects of stratified sample design. A review of the #iterature». 1V1^etrika, 20, 1, 54-64. LAVALLE, P. (1988). c<Two-way optimal stratification using dynamic programmíng». Proceedings of the Survey Research Methods. American Statistical Assaciation. MAPA ( 1976) «Mapas de cultivos y aprovechamientos». Ministerio de Agrricultura, Pesca y Alimentación, Madrid. MACQUEEN, J. (1967). <cSome methods for classificatian and analysis of multivariate ©bservations?>. Proc. 5th Berkeley Symp. Math. Statist. and Prob, 1, 281-97. University of California Press. E.^ r k^^ r ^E Ic^-^('If)ti ^1l L E 1^ 1Etl•1^ IE ( RI 1 E^.RIU^ t)t^ E ^^ll l.^( It)^ SAS Institute Inc ( 1985): «SAS/STATISTICS User's». Guide Version, 5 Edition. Cary, 956 pp. SETHI, V.K. (1963): «A note on optimum stratification of population for estimating the population mean». The Australian Journal of Statistics, 5, 20-33. WARD, J.H. (1963). «Hierarchical grouping to optimize an objetive function». Journal of the American Statistical Association, 58, 236-44. MULTIVARIATE STRATIFIGATION: EVALUATION CRITERIA SUMMARY Several multivariate stratification procedures were considered: univariate generalization, first principal component stratification, and four classification algorithms (Ward, K-Means, Centroid and Average). The studied procedures were evaluated from a case study. We considered two criteria: (i} mean estimation efficiency of the stratification variables and (ii) the relative lost of accuracy with respect to the optimal univariate stratification. We found that the algorithm of Ward was the best of the examined in our work. Key words: Stratified random sampling. Cluster algorithms. Land stratification. AMS Classification: 62J00, 62D05