El análisis estadı́stico de datos composicionales Vera Pawlowsky-Glahn Dept. d’Informàtica i Matemàtica Aplicada Universitat de Girona vera.pawlowsky@udg.es 1 ejemplo 1: hipótesis genéticas genotipos en el sistema MN de grupos sanguı́neos individuo Ab1 Ab2 Ab3 Ab4 Ab5 Ab6 Ch1 Ch2 Ch3 Ch4 In1 In2 In3 MN 0.13 0.14 0.21 0.37 0.39 0.38 0.49 0.49 0.50 0.51 0.41 0.49 0.49 MM 0.01 0.02 0.01 0.05 0.03 0.07 0.25 0.26 0.28 0.29 0.25 0.24 0.32 NN 0.86 0.84 0.78 0.58 0.58 0.55 0.26 0.25 0.22 0.20 0.26 0.27 0.19 individuo In4 In5 InAm1 InAm2 InAm3 InAm4 InAm5 InAm6 Es1 Es2 Es3 Es4 Es5 MN 0.47 0.46 0.45 0.43 0.44 0.40 0.17 0.18 0.38 0.34 0.33 0.30 0.19 MM 0.41 0.43 0.46 0.48 0.45 0.57 0.81 0.79 0.58 0.60 0.65 0.65 0.80 NN 0.12 0.11 0.09 0.09 0.11 0.03 0.02 0.03 0.04 0.04 0.02 0.05 0.01 Ab = Aborigen; Ch = Chino; In= Indio; InAm = Indio Americano; Es = Eskimo a pesar de la gran variabilidad observable en éstos datos, ¿responden a una estabilidad subyacente, a una ley genética? 2 ejemplo 2: fraccionamiento de olivina magnésica análisis quı́micos de rocas del lago de lava Kilauea Iki (Hawaii) SiO2 TiO2 Al2 O3 Fe2 O3 FeO MnO MgO CaO Na2 O K2 O P2 O5 0.4834 0.4890 0.4570 0.4558 0.4936 0.4667 0.4818 0.4797 0.4699 0.4917 0.4845 0.4794 0.4847 0.4897 0.4874 0.4968 0.4926 0.0233 0.0247 0.0170 0.0154 0.0331 0.0200 0.0234 0.0232 0.0201 0.0273 0.0247 0.0224 0.0235 0.0248 0.0244 0.0303 0.0250 0.1149 0.1240 0.0835 0.0818 0.1212 0.0952 0.1144 0.1119 0.0991 0.1254 0.1181 0.1118 0.1164 0.1205 0.1160 0.1293 0.1233 0.0159 0.0215 0.0212 0.0160 0.0177 0.0217 0.0226 0.0246 0.0213 0.0183 0.0281 0.0241 0.0104 0.0139 0.0138 0.0160 0.0126 0.1004 0.0942 0.1004 0.1046 0.0991 0.0982 0.0947 0.0937 0.0973 0.1002 0.0892 0.0937 0.1037 0.1017 0.1018 0.0969 0.1014 0.0018 0.0017 0.0017 0.0017 0.0017 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0017 0.0018 0.1359 0.1110 0.2311 0.2391 0.1048 0.1934 0.1367 0.1434 0.1832 0.1005 0.1253 0.1465 0.1324 0.1118 0.1235 0.0885 0.1052 0.0986 0.1065 0.0699 0.0680 0.0967 0.0820 0.0988 0.0965 0.0859 0.1055 0.1019 0.0959 0.1013 0.1083 0.1045 0.1098 0.1106 0.0190 0.0202 0.0133 0.0128 0.0225 0.0154 0.0189 0.0186 0.0158 0.0209 0.0193 0.0182 0.0189 0.0173 0.0167 0.0224 0.0202 0.0044 0.0047 0.0032 0.0031 0.0065 0.0038 0.0046 0.0045 0.0037 0.0056 0.0048 0.0041 0.0045 0.0080 0.0079 0.0055 0.0048 0.0023 0.0024 0.0016 0.0015 0.0030 0.0018 0.0022 0.0021 0.0019 0.0026 0.0023 0.0021 0.0023 0.0024 0.0023 0.0027 0.0023 Richter y Moore (1966): la variabilidad en la muestra se debe al fraccionamiento de olivina magnésica a partir de una misma masa magmática ¿confirma el análisis estadı́stico de los datos esta afirmación derivada de observaciones de campo y de análisis petrográficos? 3 datos composicionales x = [x1, . . . , xd] es una composición con d-partes para todo i = 1, ..., d xi > 0, d P ⇐⇒ xi = κ (constante) i=1 ejemplos κ=1 : probabilidades asociadas a variables discretas; partes por unidad κ = 100 : análisis quı́micos de rocas; porcentajes en general κ = 180 : ángulos de un triángulo en análisis de formas otras unidades frecuentes: ppm, ppb, ... caracterı́stica esencial: valores relativos 4 espacio muestral: el sı́mplex S d = {x = (x1, x2, . . . , xd)|xi > 0; d X xi = κ} i=1 S 2 ⊂ R2 segmento S 3 ⊂ R3 diagrama ternario S 4 ⊂ R4 tetraedro 5 ¿porqué un enfoque estadı́stico particular para datos composicionales? en el espacio real sumamos vectores, los multiplicamos por constantes, estudiamos su ortogonalidad, medimos distancias, ... posible porque Rd es espacio vectorial Euclı́deo pero: la geometrı́a Euclı́dea de Rd no es una geometrı́a apropiada para fenómenos composicionales porque (a) los resultados pueden no estar en el sı́mplex p.ej. al sumar vectores composicionales, al multiplicarlos por una constante, al calcular regiones de confianza o regiones predictivas (b) las diferencias Euclı́deas no siempre son medidas razonables p.ej. entre el 5% y el 10% hay un incremento relativo del 100%, entre el 50% y el 55% hay un incremento relativo del 10%, pero la distancia Euclı́dea es la misma 6 una geometrı́a especı́fica para el sı́mplex operaciones básicas clausura de z = [z1, ..., zd] ∈ Rd+ " κ · z1 κ · zd C [z] = Pd , · · · , Pd i=1 zi i=1 zi # perturbación de x ∈ S d por y ∈ S d: x ⊕ y = C [x1y1, ..., xdyd] potenciación de x ∈ S d por α ∈ R α ¯ x = C [xα1 , ..., xαd] (S d, ⊕, ¯) es un espacio vectorial real 7 la perturbación: ¿limitación y/o potencialidad en el estudio de fenómenos composicionales? ejemplo: plantel con agua, tierra, y simiente composición en kilos: [180, 120, 60] en proporciones: x0 = [a0, t0, s0] = [3/6, 2/6, 1/6] y transcurrida una noche: x1 = [a1, t1, s1] = [6/9, 2/9, 1/9] perturbación correspondiente al cambio: · ¸ · ¸ 6/9 2/9 1/9 1 1 1 x1 ª x0 = C , , = , , 3/6 2/6 1/6 2 4 4 ¿qué pasó? (a) llovió, resultando [360, 120, 60] kilos de agua, tierra y simiente (b) hizo viento, se llevó tierra y simiente, resultando [180, 60, 30] kilos de agua, tierra y simiente (c) llovió e hizo viento, resultando [270, 90, 45] kilos de agua, tierra y simiente el resultado da siempre la misma composición ⇒ sin información externa es imposible decidir qué escenario es correcto (limitación), pero podemos usarlos como hipótesis de trabajo (potencialidad) 8 producto escalar, norma y distancia d d 1 X X xi yi hx, yia = ln ln 2d i=1 j=1 xj yj v u ¶2 d µ d X u1 X xi ln kxka = t 2d i=1 j=1 xj v u ¶2 d µ d X u1 X xi yi t ln − ln da(x, y) = 2d i=1 j=1 xj yj ¡ Scd, ⊕, ¯, h., .ia ¢ es un espacio Euclı́deo geometrı́a de Aitchison sobre el sı́mplex 9 espacio real Rd sı́mplex S d suma: x + y producto: α · x distancia Euclı́dea: perturbación: x ⊕ y potenciación: α ¯ x distancia de Aitchison: de (x, y) da (x, y) vector de medias: n 1X x` x̄ = n centro métrico: Ln 1 x̄ = n ¯ ( `=1 x`) = C [g1, g2, ..., gd] Ã n !1/n Y gi = xi` `=1 `=1 distancia y traslación: dist. y perturbación: de(x + z, y + z) = de(x, y) da(x ⊕ z, y ⊕ z) = da(x, y) distancia y escalado: dist. y potenciación: de(α · x, α · y) = |α|de(x, y) da(α ¯ x, α ¯ y) = |α|da(x, y) 10 operación centrado: representar x ª x̄ observaciones: (a) la muestra centrada gravitará entorno al baricentro (b) es muy útil para visualizar estructuras en los datos en un diagrama ternario (c) la perturbación transforma lı́neas rectas en lı́neas rectas ⇒ es posible incluir en la representación gráfica tanto tramas de referencia como campos composicionales sin riesgo de distorsión no lineal 11 representación habitual de datos composicionales: coordenadas en la base canónica de Rd: x = x1 [1, 0, . . . , 0] + · · · + xd [0, . . . , 0, 1] Pd = i=1 xi · ei ventaja: fácil de interpretar problemas: (a) no toda combinación de coeficientes lleva a un elemento de S d (valores negativos y nulos no están permitidos) (b) los vectores {e1, e2, . . . , ed} no pertenecen a S d ⇒ no es ni un sistema de generadores, ni una base (c) trabajar con la perturbación y la potenciación no es fácil pero: S d espacio vectorial Euclı́deo ⇒ permite la representación en coordenadas 12 coordenadas alr (additive logratio) µ ¶ x1 x2 xd−1 alr(x) = ln , ln , ..., ln xd xd xd problema: la base no es ortogonal ⇒ da(x, y) 6= de(alr(x), alr(y)) coordenadas clr (centered logratio) µ ¶ x1 x2 xd clr(x) = ln , ln , ..., ln g(x) g(x) g(x) ³Q ´1/d d = media geométrica de x con g(x) = i=1 xi ventaja: da(x, y) = de(clr(x), clr(y)) problema: son coordenadas en un sistema generador de Rd y los puntos se sitúan sobre un hiperplano por el orı́gen ortogonal al vector [1, 1, . . . , 1] ⇒ matriz de covarianzas singular 13 coordenadas ilr (isometric logratio) Ã Qd−1 ! 1 x1 1 x1x2 1 xi ln i=1 ilr(x) = √ ln , √ ln , ..., p xd−1 2 x2 6 x3x3 d(d − 1) d ventaja: coordenadas en una base ortonormal ⇒ da(x, y) = de(ilr(x), ilr(y)) ⇒ la matriz de covarianzas no es singular ⇒ podemos aplicar estadı́stica multivariante habitual a las coordenadas desventaja: resultados difı́ciles de interpretar solución: calcular en coordenadas en una base ortonormal y expresar los resultados en la base canónica de Rd sin abandonar el simplex 14 trabajar en coordenadas permite aplicar cualquier técnica multivariante • permite definir distribuciones en el sı́mplex, p.ej. x sigue una normal en S d ⇐⇒ las coordenadas ilr(x) siguen una normal multivariante en Rd−1 • los parámetros se estiman a partir de la expresión de las observaciones en coordenadas, p.ej. por máxima verosimilitud • pueden construirse regiones predictivas para las observaciones y regiones de confianza para el centro métrico • pueden utilizarse técnicas habituales, como análisis de componentes principales, cluster, discriminante, factorial, ...) • problema: interpretación en partes 15 2 = 0, 5548 ⇐⇒ MN ln NN·MM 2 = 1, 3590 ⇐⇒ MN2 NN·MM = 3, 8922 ⇐⇒ MN2 = 3, 8922 · NN · MM √1 6 MN ln NN·MM ley de la genética de Hardy-Weinberg: MN2 = 4 · NN · MM 16 el biplot como herramienta gráfica del análisis exploratorio es la representación simultánea de las variables y observaciones expresadas en coordenadas clr mediante una aproximación de rango dos elementos principales de un biplot • el origen O • d vértices νi • n casos (observaciones) α` • d radios Oνi • vı́nculos νiνj 17 propiedades h i • |νiνj |2 ≈ Var ln xxji h i xi 2 • |Oνi| ≈ Var ln g(x) h i xj xi • cos(νiOνj ) ≈ Corr ln g(x) , ln g(x) • intersección (νiνj , νk ν`) = M ⇒ ¸ · xk xi cos(νiM νk ) ≈ Corr ln , ln xj x` • νiνj y h νk ν` ≈ en i ángulo recto ⇒ cos(νiM νk ) ≈ 0 ⇒ Corr ln xxji , ln xxk ≈ 0 ⇒ posible independencia ` • biplot de una subcomposición ⇐⇒ seleccionar vértices h i xi • |νiνj | ≈ 0 ⇒ Var ln xj ≈ 0 ⇒ xxji ≈ constante • vértices aprox. colineales ⇒ biplot uni-dimensional ⇒ variabilidad uni-dimensional 18 conclusiones • para el estudio de fenómenos aleatorios en general, y composicionales en particular, es esencial determinar el espacio soporte de las observaciones y optar por una métrica adecuada al problema antes de iniciar el estudio • si el soporte y la métrica corresponden a una estructura de espacio Euclı́deo, en general es más fácil trabajar en coordenadas respecto a una base ortonormal • la geometrı́a de Aitchison en el sı́mplex y las coordenadas clr e ilr permiten aplicar técnicas de análisis de datos e inferencia estadı́stica a conjuntos de datos composicionales sin problemas • el problema pendiente es hallar en cada caso las expresiones que mejor facilitan la interpretación de los resultados 19