Función Correlación

Anuncio
Mon. Not. R. Astron. Soc. 000, 1–?? (2009)
Printed 25 June 2009
(MN LATEX style file v2.2)
Función Correlación
Andrea Corvillón
2009 June
ABSTRACT
Considerando distintas premisas se obtuvieron diferentes expresiones para la
función correlación, comenzando con un enfoque más matemático, al hacer la deducción de la relación entre la función correlación y el espectro de potencia a partir
del análisis de Fourier del campo de densidades. Luego, pensando más especı́ficamente
en la función correlación de dos puntos, se obtuvo a partir de argumentos probabilı́sticos una segunda expresión, la que la define como el exeso de probabilidad de
encontrar un vecino a una cierta distancia r. En seguida se pasó a considerar una
expresión que fuera más amigable al momento de tener que estimar la función correlación de un conjunto de datos. Cerrando esta parte de definiciones se consideró una
ley de pontencia con la que también es representada la función correlación.
Luego se especificaron las caracterı́sticas principales que deberı́a tener un programa que estime la función correlación. Y teniendo en mente esto se presentó un
gráfico de función correlación vs distancia, el que fue realizado a partir de datos de la
simulación millenium. De este, finalmente, se llego a la conclusión de que la función
correlación aumenta junto con el clustering y también va aumentando para galaxias
que presentan una menor magnitud .
1
INTRODUCCIÓN
2
2.1
En las ultimas décadas han habido numerosos avances tecnológicos, lo que se a traducido en astronomı́a en un aumento en la cantidad de datos observacionales y en un incremento de los lı́mites que las simulaciones numéricas pueden
alcanzar.
Es por esto que fue necesario recurrir a diversas herramientas para estudiar estos nuevos datos. Una de estas
es la función correlación (ξ(r)), que es una herramienta estadı́stica que ayuda a estudiar el clustering de galaxias (u
objetos de la muestra); donde el clustering es la tendencia
que tienen las galaxias a formar grupos.
Veremos que esta herramienta tiene distintas formas de
ser representada, una de esta se relaciona con el espectro de
potencia, otra con la probabilidad de encontrar un vecino
a una cierta distancia, una tercera relaciona la cantidad de
pares de galaxias que están a una distancia r + dr con la
cantidad de pares de galaxias que están a la misma distancia
pero en una distribución random (función correlación de dos
puntos) y finalmente se puede representar como una ley de
potencia.
FUNCIÓN CORRELACIÓN
Análisis matemático
La gran mayoria de las estructuras del universo han sido
formadas a partir de fluctuaciones de sobre densidad. Esta
fluctuaciones o campos de densidad, usualmente se expresan
de la siguiente manera
δ(x) =
ρ(x) − hρi
hρi
(1)
donde ρ(x) es la densidad de masa.
Pero, la expresión anterior puede ser reescrita con→
siderando que el campo de densidad δ(−
x ) se puede expresar,
de forma más conveniente, como suma de modos. Para una
geometrı́a plana y comóvil la froma de lograr esto es por
medio del análisis de Fourier. El objetivo de este es representar el campo de densidad (δ) por medio de una suma,
que en este caso son los modos, compuesta de elementos más
simples de comprender. Luego, la expanción de Fourier del
campo es
δ(x) =
X
δk e−ikx
(2)
k
Por otra parte, para utilizar la función correlación es
necesario crear un programa que pueda calcular sus valores.
Una que estos han sido calculados para un conjunto de datos,
se realiza un gráfico de ξ(r) vs r o log ξ(r) vs log r, que
finalmente es que el permitirá el estudio del clustering de la
muestra.
c 2009 RAS
con k que representa los modos, los que son dados por
ki =
2πn
L
(3)
donde i indica la componente x, y o z; n puede tomar
2
Andrea Corvillón
valores de 1 a infinito y finalmente L corresponden a las
dimensiones de la caja imaginaria en la que supuestamente
esta contenido el universo que estamos pensando, este L nos
constrie a un volumen que exigimos que sea periódico, esto
último nos indica que las mediciones no son afectadas. Si
hacemos que L → ∞, se puede pasar la ecuación (2) a su
forma integral
L 3
)
2π
δ(x) = (
Z
ρk (k)e−ikx d3 k
Si reescribimos la ecuación (10) tomando δ como una
suma, dada por la ecuación (2), se obtiene lo siguiente
ξ(r) = h
k
Z
ρx (x)e
ikx 3
d x
Z
Z
M (1) =
(5)
δ(k)d3 k = 0
(6)
δ(k)kd3 k = h|δk |2 i
(7)
δ(k)k2 d3 k = 0
)x −ikr
e
(8)
..
.
Luego el momento que nos interesa claramente es el de
orden 1 ya que indica la amplitud de la fluctuación para un
dado k; este momento se expresa usualmente de la siguiente
manera
V
(2π)3
Z
ξ(r) =
(9)
Luego, como nuestra distribuón es gaussiana si conocemos P(k), para el universo estudiado, podemos tener toda
la descripción estadı́stica de este, pero si tenemos muchas δ
P(k) no nos proporcionará todos los valores que buscamos,
ya que la distibución gaussiana presentará una cola muy
larga. Por esto es que se recurre a la función autocorrelación,
más conocida como función correlación, que para efectos
matemáticos es simplemente la tranformada de Fourier del
espectro de potencia.
La función correlación se define, de primera forma, como
ξ(r) = hδ(x)δ(x + r)i
(11)
V
(2π)3
Z
ξ(r) =
|δk |2 eikr d3 k
(12)
P (k)eikr d3 k
(13)
ξ(r) =
V
(2π)3
Z
P (k)
sin kr
4πk2 dk
kr
(10)
donde el valor medio se calcula sobre todo el volúmen
para un valor fijo de la distancia entre los dos puntos.
(14)
Con estas tres últimas ecuaciónes se ve claramente que
la función correlación ξ(r) es la transformada de Fourier del
espectro de potencia. Entonces una vez que tengamos ξ(r)
podremos obtener P(k) utilizando la transformada inversa.
Función correlación de dos puntos
Existen definiciones alternativas para la función correlación,
estas son las funciones correlacón de n-puntos, de esta la que
nos interesa estudiar es la función correlación de dos puntos.
La función correlación mide el exceso de probabilidad
de encontrar una galaxia a una distancia r de otra galaxia
arbitratia en un elemento de volumen δV .
Para entender esto pensemos en una distribución de
masa como una distribución de objetos puntuales; la probabilidad de encontrar un objeto en un elemento de volumen
infinitesimal δV es
δP = nδV
P (k) = h|δk |2 i
i
k0
Como asumimos un universo isotrópico el espectro de
potencia también lo será. Considerando esto, introduciendo
coordenadas esféricas y tomando solo la parte real de ξ(r)
podemos reescribir la ecuación anterior, la que se queda de
la siguiente forma
2.2
Z
M (2) =
0
(4)
Por otra parte, si consideramos que estamos trabajando
en un universo homogeneo e isotrópico, se esperarı́a que la
fluctuaciones o campos de fluctuaciones sean homogeneos
también; esto nos indica que la distribución de δ debe tener
un valor central distinto de cero. Ahora, considerando las
propiedades estadı́sticas de una distribución, podemos fijarnos en los momentos de esta, los que seran, para una
distribución gaussiana, iguales a cero menos el de orden uno,
este es el que se conoce como espectro de potencia.
Algunos momentos se presentan a continuación
M (0) =
δk δk∗0 ei(k−k
De esta doble sumatoria los únicos términos que sobreviven son los con k=k’. Luego, si volvemos a considerar que
L → ∞ podemos pasar lo anterior a una forma integral
Esta es la transformada de Fourier; la transformada inversa es dada por
1
δ(x) = ( )3
L
XX
(15)
con n la densidad media de objetos, debido a que
suponemos isotropı́a, n es indepemdiemte de la posición.
Luego, la función correlación de dos puntos se define
como la probabilidad conjunta de encontrar un objeto en
los elementos de volumen δV1 y δV2 separados por r12 , esta
rpobabilidad es dada por
δP = n2 δV1 δV2 [1 + ξ(r12 )]
(16)
Si las posiciones del objeto están correlacionadas se
tiene que ξ > 0, pero si estas no están anticorrelacionas
se tiene que −1 ≤ ξ < 0.
Por otro lado, debemos considerar que para hacer un
mejor uso de la función correlación es necesario introducir
una segunda expreción que la defina (esta claramente nace
c 2009 RAS, MNRAS 000, 1–??
Función Correlación
a partir de las definiciones anteriores), la cual es más amigable de usar en el momento en que se está trabajando con
datos experimentales o de alguna simulación. Esta consiste
en considera una caja de paredes periódicas en un espacio
euclideano, luego con las galaxias que están dentro de esta
caja se crea la función correlación sacando la razón entre el
número de pares de galaxias que se encuentran a una distancia r+dr en una muestra de galaxias (DD(r)) y el número de
pares esperado en la ausencia de clustering (RR(r)), que se
encuentran a distancia r + dr, tomando en cuenta los lı́mites
de la muestra y considerando una distribución homogenea,
por lo general este último dato se obtiene a partir de un catlogo random. Explicitamente la expreción tiene la siguiente
forma
DD(r)
RR(r)
1 + ξ(r) =
(17)
Para estimar DD(r) se deben calcular las distancias que
hay entre las galaxias de la muestra, teniendo estos datos se
puede pasar a clasificar el número de galaxias que hay por
rango de distancia, finalmente este número corresponderá al
valor de DD(r). Luego para estimar RR(r) consideraremos
una distribución de poisson para las galaxias en un volumen
definido, la expresión para esto es
RR(r) =
3
2
2π(rext
− r3 )Ngal
,
3V
(18)
donde Ngal es el número de galaxias que hay en el
volúmen, el cual dependerá de las dimensiones de la muestra o de la simulación de la cual se sacaron los datos;
rext = r + dr donde dr es el radio del casquete esférico dado
por el radio interior r.
Otra forma para representar la función correlación es
por medio de una ley de potencia, dada por
ξ(r) = (
r −γ
)
r0
(19)
Los parámetros de esta ley de potencia fueron calculados por Davis & Peebles (1982), los valores obtenidos fueron
γ = 1.77 r0 = 5.4 ± 0.3h−1 M pc (H0 = 100hKms−1 M pc−1 ).
3
PROGRAMA
Para estimar la función correlación para un grupo de datos
es conveniente utilizar, como ya dije en la parte anterior,
la expresión dada por la ecuación (17). Esto indica que el
código necesario para calcularla deberá estimar la distancia
entre los datos de la muestra, hacer un conteo de la cantidad
de datos cuyas distancias estén dentro de un cierto rango de
distancias, calcular el RR(r) para ese rango de distancias y
luego hacer la normalización correspondiente.
Considerando lo anterio, en un comienzo el programa
debe determinar las distancias entre los objetos de la muestra. Para esto deberá extraer las columnas correspondientes
a las coordenadas espaciales x, y y z de cada objetos. Estos datos deberian ser guardados en un arreglo para que su
c 2009 RAS, MNRAS 000, 1–??
3
manejo sea más eficiente. Luego, teniendo los valores de x, y
y z, la distancia se calcula por medio de la siguiente fórmula
r=
p
dx2 + dy 2 + dz 2
(20)
donde dx, dy y dz son dados por la diferencia entre las
correspondientes coordenadas de las galaxias entre las que
se está calculando la distancia; o sea
dx = x1 − x2 , dy = y1 − y2 , dz = z1 − z2 ,
(21)
Algo que hay que tener en mente es que al calcular las
distancias el programa puede calcular distancias que están
fuera de los rangos de la simulación o del espacio que estamos
considerando para nuestros datos, por esto es que hay que
realizar una corrección a las ecuaciones anteriores. Lo que
deberá hacer el programa cuando los valores de dx, dy y/o
dz estén fuera de la región considerada, es recalcularlos para
que el valor quede dentro del rango querido. Calculada cada
distancia es conveniente, nuevamente, guardar estos datos
en un arreglo.
Ya teniendo todos las distancias calculadas y guardadas
en este arreglo se pasa a crear un nuevo arreglo donde cada
”celda” corresponderá a un rango de distancia distinto. Con
este arreglo creado se comienza a contar la cantidad de
pares que hay por cada rango de distancia (DD(r)), luego el
número que esto arroje se guarda en la celda correspondiente.
Finalmente calculamos los RR(r) por medio de la
ecuación (18) para cada rango de distancia con el que definimos el arreglo anterior. Con estos valores se pasa a normalizar las cantidades obtenidas para el DD(r) y este nuevo
valor vuelve a ser guardado en el arreglo y en la celda correspondiente al rango de distancias.
El valor que obtenemos en esta parte final es el de la
función correlación correspondiente a cada rango de distancias con el que definimos el arreglo. Cabe destacar que estos valores serán los utilizados para estudiar finalmente, por
medio de un gráfico, el clustering de la muestra.
4
RESULTADOS
Como dije en un comienzo, el fin de la función correlación
es estudiar el clustering de galaxias. Para esto es necesario
crear un gráfico que represente log ξ(r) vs log r. Un ejemplo
de esto es el gráfico mostrado en la Figura (1). Este, grafica
datos obtenidos de la simulación millenium en distintos rangos de magitud absoluta (llendo de menor a mayor de arriba
hacia abajo).
Analizando el gráfico se observa que ξ(r) aumenta a
medida que la distancia (r) entre los objetos disminuye.
También se ve que la cuva de la menor magnitud absoluta
se desplaza hacia arriba, indicando con esto que la función
correlación para este valor de magnitud es mayor que para
los otros dos valores. De esto se deduce que el clustering es
superior en galaxias con menor magnitud.
Lo que parece lógico, ya que galaxias de menor magnitud tienen mayor luminosidad y por lo tanto mayor masa. Y
galaxias de mayor masa se encuentran en su mayoria en la
zona central de los cúmulos de galaxias, zona que es densa,
por lo que la probabilidad de encontrar un vecino en esta
4
Andrea Corvillón
Una vez hechas todas las tareas anteriores, se tendrán
los valores de la función correlación para cada intervalo de
distancias. Luego, con estos valores, se relaiza un gráfico de
log ξ(r) vs log r que ayudará a estudiar el clustering de los
datos.
Del gráfico presentado en este trabajo se puede apreciar
que la función correlación aumenta cuando la distancia entre
vecinos es menor, o sea, cuando el clustering es mayor y al
comparar distintas funciones correlación para distintos valores de magnitud, se vio que esta aumentaba a medida que
la magnitud disminuye. Esto se entendió como que galaxias
con menor magnitud se encuetran en zonas más densas que
galaxias de mayor magnitud.
REFERENCES
Figure 1. Este gráfico representa tres distintas funciones correlación para datos obtenidos de la simulación millenium a z=0.
Cada una de las funciones correlación representadas corresponden a distintos rangos de magnitud absoluta en B, la de más
arriba corresponde a una magnitud absoluta media de MB =
−27.27, la del medio a MB = −17.99 y la de más abajo a
MB = −16.(Gonzlez, J., 2008.)
Peacock, John A. Cosmological Physics. Cambridge University Press (1999).
Peebles, Phillip J. E. The large-scale structure of the universe .Princeton University Press (1980)
Davis M., Peebles P., 1982, ApJ, 267, 465D.
Davis M. et al, 1988, ApJ, 333L, 9D.
Bahcall N., et al, 1985, Apj, 270, 20B.
Gonzlez, J., 2008.
zona es mucho mayor que la probabilidad de encontrar un
vecino en los bordes del cúmulo donde se encontrarı́an las
galaxias de menor masa y por ende de mayor magnitud.
5
CONCLUSIONES
La función correlación es una herramineta estadśtica que nos
ayuda a estudiar el clustering de galaxias de una muetra, ya
sea obtenida de datos experimentales o de una simulación.
Vimos que esta puede ser entendida como
• La transformada de Fourier del espectro de potencia
(deducción hecha a partir del campo de fluctuación de densidades).
• El exceso de probabilidad de encontrar un vecino a una
distancia r en un elemento de volumen δV .
• La razón entre la cantidad de pares de galaxias a distancia r + dr (DD(r)) y la cantidad de pares de galaxias a
la misma distancia en un distribución poissoniana RR(r).
• Ley de potencia.
En seguida consideramos las tareas que debiera realizar
el programa que calcula los valores de ξ(r), estas serı́an
• Determinar las distancias entre todos los objetos de la
muestra.
• Hacer un conteo de la cantidad de vecinos que están a
una distancia r + dr, esto corresponde al DD(r).
• Calular los valores de RR(r) para cada r + dr.
• Y finalmente hacer la razón entre los DD(r) y los RR(r)
correspondientes.
c 2009 RAS, MNRAS 000, 1–??
Descargar