Mon. Not. R. Astron. Soc. 000, 1–?? (2009) Printed 25 June 2009 (MN LATEX style file v2.2) Función Correlación Andrea Corvillón 2009 June ABSTRACT Considerando distintas premisas se obtuvieron diferentes expresiones para la función correlación, comenzando con un enfoque más matemático, al hacer la deducción de la relación entre la función correlación y el espectro de potencia a partir del análisis de Fourier del campo de densidades. Luego, pensando más especı́ficamente en la función correlación de dos puntos, se obtuvo a partir de argumentos probabilı́sticos una segunda expresión, la que la define como el exeso de probabilidad de encontrar un vecino a una cierta distancia r. En seguida se pasó a considerar una expresión que fuera más amigable al momento de tener que estimar la función correlación de un conjunto de datos. Cerrando esta parte de definiciones se consideró una ley de pontencia con la que también es representada la función correlación. Luego se especificaron las caracterı́sticas principales que deberı́a tener un programa que estime la función correlación. Y teniendo en mente esto se presentó un gráfico de función correlación vs distancia, el que fue realizado a partir de datos de la simulación millenium. De este, finalmente, se llego a la conclusión de que la función correlación aumenta junto con el clustering y también va aumentando para galaxias que presentan una menor magnitud . 1 INTRODUCCIÓN 2 2.1 En las ultimas décadas han habido numerosos avances tecnológicos, lo que se a traducido en astronomı́a en un aumento en la cantidad de datos observacionales y en un incremento de los lı́mites que las simulaciones numéricas pueden alcanzar. Es por esto que fue necesario recurrir a diversas herramientas para estudiar estos nuevos datos. Una de estas es la función correlación (ξ(r)), que es una herramienta estadı́stica que ayuda a estudiar el clustering de galaxias (u objetos de la muestra); donde el clustering es la tendencia que tienen las galaxias a formar grupos. Veremos que esta herramienta tiene distintas formas de ser representada, una de esta se relaciona con el espectro de potencia, otra con la probabilidad de encontrar un vecino a una cierta distancia, una tercera relaciona la cantidad de pares de galaxias que están a una distancia r + dr con la cantidad de pares de galaxias que están a la misma distancia pero en una distribución random (función correlación de dos puntos) y finalmente se puede representar como una ley de potencia. FUNCIÓN CORRELACIÓN Análisis matemático La gran mayoria de las estructuras del universo han sido formadas a partir de fluctuaciones de sobre densidad. Esta fluctuaciones o campos de densidad, usualmente se expresan de la siguiente manera δ(x) = ρ(x) − hρi hρi (1) donde ρ(x) es la densidad de masa. Pero, la expresión anterior puede ser reescrita con→ siderando que el campo de densidad δ(− x ) se puede expresar, de forma más conveniente, como suma de modos. Para una geometrı́a plana y comóvil la froma de lograr esto es por medio del análisis de Fourier. El objetivo de este es representar el campo de densidad (δ) por medio de una suma, que en este caso son los modos, compuesta de elementos más simples de comprender. Luego, la expanción de Fourier del campo es δ(x) = X δk e−ikx (2) k Por otra parte, para utilizar la función correlación es necesario crear un programa que pueda calcular sus valores. Una que estos han sido calculados para un conjunto de datos, se realiza un gráfico de ξ(r) vs r o log ξ(r) vs log r, que finalmente es que el permitirá el estudio del clustering de la muestra. c 2009 RAS con k que representa los modos, los que son dados por ki = 2πn L (3) donde i indica la componente x, y o z; n puede tomar 2 Andrea Corvillón valores de 1 a infinito y finalmente L corresponden a las dimensiones de la caja imaginaria en la que supuestamente esta contenido el universo que estamos pensando, este L nos constrie a un volumen que exigimos que sea periódico, esto último nos indica que las mediciones no son afectadas. Si hacemos que L → ∞, se puede pasar la ecuación (2) a su forma integral L 3 ) 2π δ(x) = ( Z ρk (k)e−ikx d3 k Si reescribimos la ecuación (10) tomando δ como una suma, dada por la ecuación (2), se obtiene lo siguiente ξ(r) = h k Z ρx (x)e ikx 3 d x Z Z M (1) = (5) δ(k)d3 k = 0 (6) δ(k)kd3 k = h|δk |2 i (7) δ(k)k2 d3 k = 0 )x −ikr e (8) .. . Luego el momento que nos interesa claramente es el de orden 1 ya que indica la amplitud de la fluctuación para un dado k; este momento se expresa usualmente de la siguiente manera V (2π)3 Z ξ(r) = (9) Luego, como nuestra distribuón es gaussiana si conocemos P(k), para el universo estudiado, podemos tener toda la descripción estadı́stica de este, pero si tenemos muchas δ P(k) no nos proporcionará todos los valores que buscamos, ya que la distibución gaussiana presentará una cola muy larga. Por esto es que se recurre a la función autocorrelación, más conocida como función correlación, que para efectos matemáticos es simplemente la tranformada de Fourier del espectro de potencia. La función correlación se define, de primera forma, como ξ(r) = hδ(x)δ(x + r)i (11) V (2π)3 Z ξ(r) = |δk |2 eikr d3 k (12) P (k)eikr d3 k (13) ξ(r) = V (2π)3 Z P (k) sin kr 4πk2 dk kr (10) donde el valor medio se calcula sobre todo el volúmen para un valor fijo de la distancia entre los dos puntos. (14) Con estas tres últimas ecuaciónes se ve claramente que la función correlación ξ(r) es la transformada de Fourier del espectro de potencia. Entonces una vez que tengamos ξ(r) podremos obtener P(k) utilizando la transformada inversa. Función correlación de dos puntos Existen definiciones alternativas para la función correlación, estas son las funciones correlacón de n-puntos, de esta la que nos interesa estudiar es la función correlación de dos puntos. La función correlación mide el exceso de probabilidad de encontrar una galaxia a una distancia r de otra galaxia arbitratia en un elemento de volumen δV . Para entender esto pensemos en una distribución de masa como una distribución de objetos puntuales; la probabilidad de encontrar un objeto en un elemento de volumen infinitesimal δV es δP = nδV P (k) = h|δk |2 i i k0 Como asumimos un universo isotrópico el espectro de potencia también lo será. Considerando esto, introduciendo coordenadas esféricas y tomando solo la parte real de ξ(r) podemos reescribir la ecuación anterior, la que se queda de la siguiente forma 2.2 Z M (2) = 0 (4) Por otra parte, si consideramos que estamos trabajando en un universo homogeneo e isotrópico, se esperarı́a que la fluctuaciones o campos de fluctuaciones sean homogeneos también; esto nos indica que la distribución de δ debe tener un valor central distinto de cero. Ahora, considerando las propiedades estadı́sticas de una distribución, podemos fijarnos en los momentos de esta, los que seran, para una distribución gaussiana, iguales a cero menos el de orden uno, este es el que se conoce como espectro de potencia. Algunos momentos se presentan a continuación M (0) = δk δk∗0 ei(k−k De esta doble sumatoria los únicos términos que sobreviven son los con k=k’. Luego, si volvemos a considerar que L → ∞ podemos pasar lo anterior a una forma integral Esta es la transformada de Fourier; la transformada inversa es dada por 1 δ(x) = ( )3 L XX (15) con n la densidad media de objetos, debido a que suponemos isotropı́a, n es indepemdiemte de la posición. Luego, la función correlación de dos puntos se define como la probabilidad conjunta de encontrar un objeto en los elementos de volumen δV1 y δV2 separados por r12 , esta rpobabilidad es dada por δP = n2 δV1 δV2 [1 + ξ(r12 )] (16) Si las posiciones del objeto están correlacionadas se tiene que ξ > 0, pero si estas no están anticorrelacionas se tiene que −1 ≤ ξ < 0. Por otro lado, debemos considerar que para hacer un mejor uso de la función correlación es necesario introducir una segunda expreción que la defina (esta claramente nace c 2009 RAS, MNRAS 000, 1–?? Función Correlación a partir de las definiciones anteriores), la cual es más amigable de usar en el momento en que se está trabajando con datos experimentales o de alguna simulación. Esta consiste en considera una caja de paredes periódicas en un espacio euclideano, luego con las galaxias que están dentro de esta caja se crea la función correlación sacando la razón entre el número de pares de galaxias que se encuentran a una distancia r+dr en una muestra de galaxias (DD(r)) y el número de pares esperado en la ausencia de clustering (RR(r)), que se encuentran a distancia r + dr, tomando en cuenta los lı́mites de la muestra y considerando una distribución homogenea, por lo general este último dato se obtiene a partir de un catlogo random. Explicitamente la expreción tiene la siguiente forma DD(r) RR(r) 1 + ξ(r) = (17) Para estimar DD(r) se deben calcular las distancias que hay entre las galaxias de la muestra, teniendo estos datos se puede pasar a clasificar el número de galaxias que hay por rango de distancia, finalmente este número corresponderá al valor de DD(r). Luego para estimar RR(r) consideraremos una distribución de poisson para las galaxias en un volumen definido, la expresión para esto es RR(r) = 3 2 2π(rext − r3 )Ngal , 3V (18) donde Ngal es el número de galaxias que hay en el volúmen, el cual dependerá de las dimensiones de la muestra o de la simulación de la cual se sacaron los datos; rext = r + dr donde dr es el radio del casquete esférico dado por el radio interior r. Otra forma para representar la función correlación es por medio de una ley de potencia, dada por ξ(r) = ( r −γ ) r0 (19) Los parámetros de esta ley de potencia fueron calculados por Davis & Peebles (1982), los valores obtenidos fueron γ = 1.77 r0 = 5.4 ± 0.3h−1 M pc (H0 = 100hKms−1 M pc−1 ). 3 PROGRAMA Para estimar la función correlación para un grupo de datos es conveniente utilizar, como ya dije en la parte anterior, la expresión dada por la ecuación (17). Esto indica que el código necesario para calcularla deberá estimar la distancia entre los datos de la muestra, hacer un conteo de la cantidad de datos cuyas distancias estén dentro de un cierto rango de distancias, calcular el RR(r) para ese rango de distancias y luego hacer la normalización correspondiente. Considerando lo anterio, en un comienzo el programa debe determinar las distancias entre los objetos de la muestra. Para esto deberá extraer las columnas correspondientes a las coordenadas espaciales x, y y z de cada objetos. Estos datos deberian ser guardados en un arreglo para que su c 2009 RAS, MNRAS 000, 1–?? 3 manejo sea más eficiente. Luego, teniendo los valores de x, y y z, la distancia se calcula por medio de la siguiente fórmula r= p dx2 + dy 2 + dz 2 (20) donde dx, dy y dz son dados por la diferencia entre las correspondientes coordenadas de las galaxias entre las que se está calculando la distancia; o sea dx = x1 − x2 , dy = y1 − y2 , dz = z1 − z2 , (21) Algo que hay que tener en mente es que al calcular las distancias el programa puede calcular distancias que están fuera de los rangos de la simulación o del espacio que estamos considerando para nuestros datos, por esto es que hay que realizar una corrección a las ecuaciones anteriores. Lo que deberá hacer el programa cuando los valores de dx, dy y/o dz estén fuera de la región considerada, es recalcularlos para que el valor quede dentro del rango querido. Calculada cada distancia es conveniente, nuevamente, guardar estos datos en un arreglo. Ya teniendo todos las distancias calculadas y guardadas en este arreglo se pasa a crear un nuevo arreglo donde cada ”celda” corresponderá a un rango de distancia distinto. Con este arreglo creado se comienza a contar la cantidad de pares que hay por cada rango de distancia (DD(r)), luego el número que esto arroje se guarda en la celda correspondiente. Finalmente calculamos los RR(r) por medio de la ecuación (18) para cada rango de distancia con el que definimos el arreglo anterior. Con estos valores se pasa a normalizar las cantidades obtenidas para el DD(r) y este nuevo valor vuelve a ser guardado en el arreglo y en la celda correspondiente al rango de distancias. El valor que obtenemos en esta parte final es el de la función correlación correspondiente a cada rango de distancias con el que definimos el arreglo. Cabe destacar que estos valores serán los utilizados para estudiar finalmente, por medio de un gráfico, el clustering de la muestra. 4 RESULTADOS Como dije en un comienzo, el fin de la función correlación es estudiar el clustering de galaxias. Para esto es necesario crear un gráfico que represente log ξ(r) vs log r. Un ejemplo de esto es el gráfico mostrado en la Figura (1). Este, grafica datos obtenidos de la simulación millenium en distintos rangos de magitud absoluta (llendo de menor a mayor de arriba hacia abajo). Analizando el gráfico se observa que ξ(r) aumenta a medida que la distancia (r) entre los objetos disminuye. También se ve que la cuva de la menor magnitud absoluta se desplaza hacia arriba, indicando con esto que la función correlación para este valor de magnitud es mayor que para los otros dos valores. De esto se deduce que el clustering es superior en galaxias con menor magnitud. Lo que parece lógico, ya que galaxias de menor magnitud tienen mayor luminosidad y por lo tanto mayor masa. Y galaxias de mayor masa se encuentran en su mayoria en la zona central de los cúmulos de galaxias, zona que es densa, por lo que la probabilidad de encontrar un vecino en esta 4 Andrea Corvillón Una vez hechas todas las tareas anteriores, se tendrán los valores de la función correlación para cada intervalo de distancias. Luego, con estos valores, se relaiza un gráfico de log ξ(r) vs log r que ayudará a estudiar el clustering de los datos. Del gráfico presentado en este trabajo se puede apreciar que la función correlación aumenta cuando la distancia entre vecinos es menor, o sea, cuando el clustering es mayor y al comparar distintas funciones correlación para distintos valores de magnitud, se vio que esta aumentaba a medida que la magnitud disminuye. Esto se entendió como que galaxias con menor magnitud se encuetran en zonas más densas que galaxias de mayor magnitud. REFERENCES Figure 1. Este gráfico representa tres distintas funciones correlación para datos obtenidos de la simulación millenium a z=0. Cada una de las funciones correlación representadas corresponden a distintos rangos de magnitud absoluta en B, la de más arriba corresponde a una magnitud absoluta media de MB = −27.27, la del medio a MB = −17.99 y la de más abajo a MB = −16.(Gonzlez, J., 2008.) Peacock, John A. Cosmological Physics. Cambridge University Press (1999). Peebles, Phillip J. E. The large-scale structure of the universe .Princeton University Press (1980) Davis M., Peebles P., 1982, ApJ, 267, 465D. Davis M. et al, 1988, ApJ, 333L, 9D. Bahcall N., et al, 1985, Apj, 270, 20B. Gonzlez, J., 2008. zona es mucho mayor que la probabilidad de encontrar un vecino en los bordes del cúmulo donde se encontrarı́an las galaxias de menor masa y por ende de mayor magnitud. 5 CONCLUSIONES La función correlación es una herramineta estadśtica que nos ayuda a estudiar el clustering de galaxias de una muetra, ya sea obtenida de datos experimentales o de una simulación. Vimos que esta puede ser entendida como • La transformada de Fourier del espectro de potencia (deducción hecha a partir del campo de fluctuación de densidades). • El exceso de probabilidad de encontrar un vecino a una distancia r en un elemento de volumen δV . • La razón entre la cantidad de pares de galaxias a distancia r + dr (DD(r)) y la cantidad de pares de galaxias a la misma distancia en un distribución poissoniana RR(r). • Ley de potencia. En seguida consideramos las tareas que debiera realizar el programa que calcula los valores de ξ(r), estas serı́an • Determinar las distancias entre todos los objetos de la muestra. • Hacer un conteo de la cantidad de vecinos que están a una distancia r + dr, esto corresponde al DD(r). • Calular los valores de RR(r) para cada r + dr. • Y finalmente hacer la razón entre los DD(r) y los RR(r) correspondientes. c 2009 RAS, MNRAS 000, 1–??