Capítulo 2 PROPIEDADES EXTREMALES DE LAS FUNCIONES DE

Anuncio
Capítulo 2
PROPIEDADES EXTREMALES DE LAS FUNCIONES DE
DISTRIBUCIÓN DEL EQUILIBRIO ESTADÍSTICO
2.1
Información faltante: eventos equiprobables
Cuando decimos que las variables del mundo microscópico son aleatorias, estamos
admitiendo que tenemos sólo una mínima cantidad de información sobre las mismas.
Enfrentados a un cierto número de posibilidades, tener información es la diferencia
entre saber y no saber cual puede ocurrir. Consideremos un ejemplo: tenemos n
cajas semejantes y en una hay un objeto escondido, pero no sabemos en cual. Hay
un conjunto completo de n posibilidades, puesto que sabemos con seguridad que el
objeto está en una caja. Al mismo tiempo estas posibilidades son excluyentes, porque
el objeto no puede estar en más de una caja a la vez. Además, las n posibilidades son
todas ellas igualmente posibles: no tenemos ningún conocimiento previo que permita
establecer una preferencia entre las cajas. La imposibilidad de decidir entre estas n
opciones se debe a nuestra falta de información.
Para cuantificar este concepto, definimos la información faltante, S , que debe
ser una función del número de opciones del sistema
S = S (n ) ;
(2.1)
sujeta a esta condición, que parece muy natural,
S (m ) > S (n ) ;
si m > n ;
(2.2)
y asimismo
S (1 ) = 0 ;
(2.3)
puesto que entonces sabemos con seguridad de que el objeto está en la única caja del
sistema.
Un elemento crucial de esta cuantificación de la información reside en la posibilidad de combinar la información de subsistemas. Supongamos que se puede dividir
un sistema en subsistemas independientes. Digamos, un sistema de 2 n objetos dividido en dos subsistemas, con n objetos en cada subsistema. La cuestión es ¿Cual es
la relación entre la información faltante del sistema total, S (2 n ), con la información
faltante acerca del subsistema que contiene el objeto S (2 ) y la información faltante
de cada subsistema, S (n )? Veamos un ejemplo con 4 cajas: primero consideramos la
información faltante entre dos subconjuntos, es decir, en la elección de uno de ellos y
luego examinamos las opciones dentro del subconjunto elegido:
S (2 £ 2 ) = S (4 ) = S (2 ) + S (2 ):
Información faltante: eventos equiprobables
23
Al escribir esta expresión estamos suponiendo que en cada paso (o elección) tenemos
la misma carencia de información.
Podemos generalizar este concepto mediante la fórmula
S (m £ n ) = S (m ) + S (n );
(2.4)
que es compatible con el caso particular S (1 £ n ) = S (1 ) + S (n ). Resumiendo: el
concepto de información faltante se caracteriza por las reglas definidas por las Ecs.2.2,
2.3 y 2.4.
Es muy conveniente extender la definición de S , desde los enteros positivos a
todos los números racionales tales que x ¸ 1 , imponiendo a S (x ) las reglas básicas
precedentes
S (x ) >
S (1 ) =
S (x y ) =
S (y ) ; si x > y ;
0;
S (x ) + S (y )
(2.5)
(2.6)
(2.7)
y pidiendo, además, que S (x ) sea contínua para x ¸ 1 .
Estas propiedades determinan unívocamente la función S (x ). La demostración
es como sigue. Sea x tal que ln (x ) = mn donde m ;n son enteros positivos, entonces
x = ex p ( mn ), o sea, x n = e m . Por lo tanto, podemos escribir S (x n ) ´ S (e m ). Luego
notamos que S (x n ) = S (x ) + S (x n ¡1 ) y repitiendo esta operación n veces resulta
S (x n ) = n S (x ). Operando del mismo modo, se obtiene S (e m ) = m S (e) y por lo
tanto n S (x ) = m S (e). De esta ecuación, finalmente, resulta
S (x ) =
m
S (e) = S (e) ln (x ) ´ e
k ln (x );
n
(2.8)
donde hemos definido e
k ´ S (e), un número positivo que determina la unidad de
información. Hemos obtenido S (x ) para valores de x tales que x = ex p ( mn ), pero
estos valores son densos en los números reales positivos y, por lo tanto, son suficientes
para determinar S (x ) en la semirecta x ¸ 1 .
Volvamos por un momento al problema de n opciones. Antes de examinar
las cajas en las cuales se oculta un objeto, no tenemos información. Por lo tanto,
anotaremos I = 0 (I : por información) mientras que la información faltante vale
S (n ) = e
k ln (n ). Quiere decir que después de observar y encontrar donde estaba el
objeto, hemos ganado una cantidad de información:
I = e
k ln (n ):
(2.9)
Consideremos otro ejemplo, una página llena de símbolos generados por una impresora
con 75 caracteres distintos. Sea N el número de signos impresos que caben en una
página. El número de todas las posibles páginas distintas que se pueden imprimir es
7 5 N . La información faltante, antes de examinar la página impresa, es S = N e
k ln (7 5 ),
de modo que la información, por cada espacio impreso, que se puede obtener mediante
la observación, vale I = S =N = e
k ln (7 5 ).
Esta cantidad se torna más relevante, cuando agregamos otros conocimientos,
por ejemplo, la frecuencia con que aparecen las distintas letras en un determinado
Eventos con distinta probabilidad
24
idioma. Hasta aquí hemos supuesto que los 75 símbolos tienen la misma posibilidad
de ocurrir, como si la impresión fuera al azar. Pero esto no es cierto cuando sabemos
que se trata de un texto con significado. Los lectores del Escarabajo de Oro, el célebre
cuento de E.A. Poe recordarán que la letra e, en inglés, aparece con la frecuencia del
10.5 %, mientras que la letra k sólo con la frecuencia 0.3%, etc.. En las ciencias de las
comunicaciones y de la computación, se emplea la teoría de la información, la cual
estudia, entre otros, el problema del modo más eficiente de comunicación. ¿Como se
puede poner el máximo de información en los N espacios disponibles en una página?
2.2
Eventos con distinta probabilidad
Es necesario, entonces, generalizar la definición de información ya introducida, para incluir situaciones donde las opciones se presentan con probabilidades variables.
Consideremos el caso de una elección o de una decisión, que debe ser tomada entre n
distintas posibilidades o entre las n posibles configuraciones o estados de un sistema.
Las configuraciones se distinguirán por una etiqueta o índice, que varía de 1 hasta
n . Supongamos que tenemos la información de que la probabilidad de encontrar el
sistema en la configuración i es P i. Naturalmente, por las propiedades de las probaPn
P i = 1 . Al realizar una
bilidades, P i ¸ 0 , para i = 1 ;:::;n , las cuales suman 1 ,
i= 1
observación obtenemos una muestra del sistema, o sea, encontramos una de sus n
posibles configuraciones. No podemos hacer afirmaciones seguras sobre el resultado
de una sóla prueba. Pero podemos construir un ensemble, con N sistemas semejantes,
cuyos miembros llevarán otro índice variable de 1 ;:::;N . El ensemble representa el
equivalente de N pruebas u observaciones repetidas. Si N es un número muy grande, entonces sabemos con gran precisión, que N i = P iN miembros del ensemble se
encontrarán en la configuración i-esima (concepto frecuentístico de la probabilidad).
De esta argumentación concluímos que a priori conocemos el conjunto de números
Pn
Pn
N i=
N P i = N . Lo que no sabemos
(N 1 ;:::;N i;:::;N n ) que suman N , es decir,
i= 1
i= 1
cual es la secuencia particular con la cual aparecen los miembros del ensemble (o sea,
las posibles configuraciones del sistema) en un conjunto de N observaciones o pruebas
repetidas.
Veamos un ejemplo sencillo para ilustrar esta cuestión. Tiramos una moneda
6 veces y sabemos que hemos obtenido 3 caras (¡ ) y 3 cruces (+ ). Esto puede suceder
de muchas maneras distintas
¡ ¡ ¡
¡ ¡ +
¡ ¡ +
¡ ¡ +
etc:;
+
¡
+
+
+
+
¡
+
+
+
+
¡
+ ¡ ¡
+ ¡ ¡
+ ¡ ¡
+ ¡ +
etc:;
¡
+
+
+
+
¡
+
¡
+
+
¡
¡
Podemos calcular el número de todas las posibles secuencias que aparecen en estas
pruebas repetidas, si respondemos a la cuestión más general: sean N objetos que se
dividen en n grupos (N 1 en el subgrupo 1 , N 2 en el subgrupo 2 , ...y así siguiendo) de
Eventos con distinta probabilidad
tal modo que
Pn
N
i
25
= N ¿Cuantos ordenamientos distintos son posibles? Tenemos
i= 1
N 1 miembros equivalentes en el subgrupo 1 , si permutamos todos los resultados que
dan la configuración 1 en la secuencia elegida, obviamente la secuencia no se modifica.
Hay, pues, N 1 ! ordenamientos que son equivalentes. Tenemos que dividir N ! por N 1 !,
para contar las secuencias que son distintas y lo mismo dígase para N 2 ;:::;N n . O
sea, el número total de secuencias distintas, cuando hay elementos repetidos en los
subgrupos, vale
N !
M =
:
(2.10)
N 1 !;N 2 !;:::;N n !
En el ejemplo de 6 tiradas a cara o cruz, resulta M = 6 != (3 ! £ 3 !) = 2 0 .
Volvamos al problema original. Tenemos un ensemble con N miembros, en el
cual cada sistema puede aparecer (en una observación) de n formas distintas (n estados). Sabemos que P i es la probabilidad de obtener la configuración i para cualquier
miembro del ensemble. Si realizamos una observación del ensemble, o sea obtenemos
una muestra de todos los miembro del mismo, sabemos con buena aproximación que
vamos a encontrar N i = N P i para cada configuración i. Lo que ignoramos, es a cual
de las M posibles secuencias corresponderá la observación particular realizada. Pero
estas secuencias, son todas igualmente probables. Por lo tanto, el resultado de una
observación corresponde a una elección entre M resultados posibles, todos igualmente probables, y ahora podemos recurrir a la precedente definición de la información
faltante.
En virtud de esta argumentación podemos escribir
¶
µ
N !
e
e
S N = k ln (M ) = k ln
;
(2.11)
N 1 !;N 2 !;:::;N n !
para la información faltante del ensemble completo. En el límite de N
información para cada sistema es
#
"
Xn
e
1
k
S = lim
N i! :
S N = lim
ln (N !) ¡
N !1 N
N !1 N
i= 1
À
1 la
(2.12)
Empleando la fórmula de Stirling
ln (N !) = N ln (N ) ¡ N ¡
1
1
ln (2 ¼ N ) + O ( );
2
N
(2.13)
y recordando que N i = N P i resulta
Xn
e
S = ¡k
P i ln P i
(2.14)
i= 1
(puesto que ln (N )=N ! 0 , cuando N ! 1 ).
Esta fórmula extiende la fórmula de la información Ec. 2.9 al caso de probabilidades distintas para cada configuración. En efecto, cuando las opciones son
equiprobables, P i = 1 = n ; i = 1 ;2 ;:::;n , resulta S (n ) = k ln (n ), como debe ser. Cuando, en cambio, sabemos con certeza que el sistema está en la configuración j, entonces
Entropía de información
26
P j = 1 , mientras que P i = 0 cuando i 6= j y resulta S = 0 .
tante, no hay aleatoriedad en este caso.
Veamos un ejemplo de aplicación de estos conceptos.
Hay sólo una probabilidad independiente. Evidentemente, S
cuando P i = 1 y P j = 0 si i 6= j. ¿Cuando es máxima S ?
información faltante? En este caso
No hay información falSea n = 2 , P 1 + P 2 = 1 .
es mínima, e igual cero,
¿Cuando es máxima la
S = ¡e
k [P 1 ln (P 1 ) + (1 ¡ P 1 ) ln ((1 ¡ P 1 ))] = S (P 1 )
(2.15)
@S
P1
= ¡e
k ln (
) = 0:
@P1
1¡ P1
(2.16)
y para calcular el máximo ponemos la derivada primera igual a cero
Obtenemos P 1 = P 2 = 12 , se trata del caso de equiprobabilidad, en el cual la aleatoriedad es completa. Es fácil comprobar que se trata de un máximo
¶
µ
1
@ 2S
1
< 0:
(2.17)
= ¡e
k
+
@ P 12
P1
1¡ P1
El máximo vale
= e
k ln (2 );
(2.18)
e
k ln (2 ) ¸ S ¸ 0 :
(2.19)
Sm
ax
y la información faltante está acotada entre
Pero, si examinamos las variantes del caso n = 2 , por ejemplo, P 1 =
obtenemos
2
k £ 0 :6 3 6 5 < e
k ln (2 ) = e
k £ 0 :6 9 3 1 ;
S = e
k (ln (3 ) ¡ ln (2 )) = e
3
1
3
y P2 =
2
,
3
(2.20)
es decir, el grado de aleatoriedad es menor que el máximo, e
k ln (2 ), hay menos información faltante.
2.3
Entropía de información
La entropía de la teoría de la información se parece a la entropía física de la mecánica
estadística. En verdad, los conceptos de la mecánica estadística preceden en más de
50 años a los de la teoría de la información y fueron desarrollados principalmente por
Boltzmann y por Gibbs. La teoría de la información iniciada por Shannon (ca, 1950)
se inspiró en la mecánica estadística y no viceversa. De modo que la noción de origen
físico prima sobre el desarrollo matemático posterior.
Sea p k una distribución discreta de probabilidad para n eventos o modos de
configuración, posibles. Definimos la entropía de información como
X
p k ln (p k );
(2.21)
S = ¡e
k
k
Entropía de información
27
de acuerdo con la noción de información faltante discutida en la sección precedente.
Podemos observar que coincide con el resultado derivado para la entropía de la mecánica estadística del capítulo 2, I parte, excepto por una constante multiplicativa.
Para mantener una notación uniforme pondremos e
k = k (la constante de Boltzmann).
Resumiendo lo dicho hasta aquí: (a) S = 0 si cualquiera de los p k = 1 (p i =
0 ;i 6= k ) entonces hay certeza de la configuración o del estado; (b) S ! S m a x ,
cuando todos los p k = 1 = n son iguales (equiprobabilidad). En este caso tenemos la
máxima incerteza o falta de información; (c) S es aditiva
cuandoPse agrupan eventos
P
independientes de tal modo que p ik = u iv k , donde k u k = 1 y k v k = 1 (es decir,
u i y v k son probabilidades de eventos independientes) porque entonces
X
X
X
p ik ln (p ik ) = ¡ k
u i ln (u i) ¡ e
k
v k ln (v k ) = S u + S v : (2.22)
S = ¡k
i;k
i
k
Si la distribución de probabilidad es contínua, con variable x y densidad de
probabilidad f (x ), tal que
Z
f (x )d x = 1 ;
(2.23)
definimos la entropía de la información como
Z
S = ¡k
f (x ) ln (f (x ))d x :
(2.24)
También aquí se puede probar la aditividad, cuando los eventos u opciones son independientes. Cuando
f (x ;y ) = f 1 (x )f 2 (y );
(2.25)
entonces
¡
ZZ
f ln (f )d x d y = ¡
Z
f 1 ln (f 1 )d x ¡
Z
f 2 ln (f 2 )d y :
(2.26)
Dejamos ahora constancia explícita que la entropía de información coincide
(salvo por las unidades) con la entropía de Gibbs en espacio de fase
Z
S = S G = h´ i = ¡ k
f ln (f )d ¡ ;
(2.27)
siendo f = f (p ;q ;t), con la normalización
Z
f d ¡ = 1;
(2.28)
donde d ¡ = d p d q =N !h 3 N y la integración es sobre todo el espacio de fase del sistema.
Esta normalización, como sabemos, es para sistemas con un número prefijado, N , de
partículas.
Una desigualdad auxiliar
2.4
28
Una desigualdad auxiliar
Cuando se consideran dos funciones de distribución cualesquiera, f (p ;q ;t) y f 0(p ;q ;t),
ambas normalizadas sobre el espacio de fase, se puede demostrar una desigualdad muy
útil en las aplicaciones de la noción de entropía
Z
f
(2.29)
f ln ( 0)d ¡ ¸ 0 ;
f
la igualdad vale sólo si f = f 0. Naturalmente, esta propiedad vale también cuando
se intercambian los roles de f y f 0. Esta desigualdad se obtiene de
ln (
f
f0
)
¸
1
¡
;
f0
f
(2.30)
donde el signo igual ocurre sólo si f = f 0. La desigualdad es fácil de comprobar dado
que f > 0 y f 0> 0 . En efecto, el lector puede verificar que
' (x ) ´ ln (x ) ¡ 1 +
1
¸ 0;
x
(2.31)
es siempre positiva y es nula sólo si x = 1 . Una vez confirmada la validez de esta
relación, se pone x = f = f 0 y se encuentra la desigualdad propuesta. Finalmente,
multiplicando por f e integrando sobre el espacio de fase
¶
Z
Z µ
f
f0
f ln ( 0)d ¡ ¸
f 1¡
d ¡ = 0;
(2.32)
f
f
como se quería demostrar.
2.5
Principio variacional de la distribución microcanónica
Vamos a demostrar que la distribución microcanónica, entre todas las distribuciones
de un sistema aislado con igual número de partículas en el mismo estrato de energía,
corresponde al máximo valor de la entropía de Gibbs.
La energía de cualquier sistema del ensemble debe ubicarse en el intervalo
E 0 · E · E 0 + ¢ E . Sea entonces f la distribución microcanónica y f 0 otra función
de distribución cualquiera (es decir, no uniforme) definida en el mismo intervalo de
energía y tal que
Z
Z
0
f d¡ =
f d ¡ = 1:
(2.33)
Sabemos que, en general, vale
Z
f 0ln (
f0
)d ¡ ¸ 0 :
f
(2.34)
Entonces
Z
Z
Z
Z
Z
0
0
0
0
¡
f ln (f )d ¡ · ¡
f ln (f )d ¡ = ¡ ln (f ) f d ¡ = ¡ ln (f ) f d ¡ =
f ln (f )d ¡ ;
(2.35)
Principio variacional de la distribución canónica
29
puesto que f es constante en el estrato de energía. Por lo tanto, la entropía de la
distribución microcanónica es mayor que la de cualquier otra función de distribución.
Esta propiedad está en concordancia con el postulado básico de la equiprobabilidad de los microestados de un sistema aislado. En la I parte hemos argumentado
que la entropía estadística, definida como proporcional al logaritmo del número de
estados, tiende a un máximo durante la evolución hacia el equilibrio y ciertamente
eso es lo que se necesita para tener concordancia con la termodinámica. La demostración que hemos dado ahora no invoca el principio básico de la equiprobabilidad,
pero requiere postular, a priori, una expresión para la entropía.
Es posible y así lo prefieren algunos autores, elevar la propiedad variacional
recién discutida, a la categoría de principio fundamental de la mecánica estadística.
Este enfoque tiene sin duda ventajas, pero hay que aceptar de entrada una definición
de entropía, como 2.21 o 2.24 sin conocer su razón de ser. Se puede invocar el auxilio
de la teoría de la información para hacer plausible esa definición. Pero, resulta curioso
que para establecer los cimientos conceptuales de una teoría física se prefiera recurrir
a una formulación matemática, la cual se desarrolló por inspiración de las nociones
fundamentales de esa misma teoría física, conquistadas en una etapa muy anterior.
El camino que hemos recorrido en estas notas arranca del postulado de la
equiprobabilidad de los microestados de un sistema aislado, desarrolla el concepto de
entropía esencialmente sobre motivaciones físicas (capítulos 2 y 4, I parte) reconoce
luego la relación con el concepto de información faltante como noción complementaria
y encuentra, por via independiente, los principios extremales para las distribuciones
de equilibrio.
Por otra parte, si el lector ya está en posesión, en virtud de estudios previos,
del concepto de entropía que la mecánica estadística y la termodinámica nos han legado, entonces partiendo de los principios variacionales puede rápidamente derivar las
distribuciones del equilibrio estadístico. Encontrará que su empleo es particularmente
cómodo en la estadística cuántica.
2.6
Principio variacional de la distribución canónica
La distribución canónica también satisface un principio extremal, bajo condiciones
distintas a las del caso microcanónico. El sistema está en contacto con un baño
térmico y su energía no está prefijada, pero tiene una energía media que lo caracteriza.
Esta es la información adicional que disponemos a priori. La distribución canónica
del ensemble es la que maximiza la entropía entre todas las funciones de distribución
que poseen la misma energía media
Z
hH i =
H f d¡ ;
(2.36)
siendo
Z
f d ¡ = 1:
(2.37)
Principio variacional de la distribución canónica
30
R
Se trata, entonces, de buscar el extremo condicionado de ¡ f ln (f )d ¡ y para ello
empleamos los multiplicadores de Lagrange. Sea la funcional de f
Z
Z
Z
© (f ) = ¡
f ln (f )d ¡ ¡ ¯
H f d¡ ¡ ¸
f d¡ ;
(2.38)
para la cual pedimos que
Z
¡
±© = 0;
[ln (f ) + ¯ H + ¸ ]± f d ¡ = 0 ;
(2.39)
para variaciones arbitrarios ± f . Resulta:
ln (f ) = ¡ (1 + ¸ ) + ¯ H ;
(2.40)
f = C ex p (¡ ¯ H );
(2.41)
o sea
donde
C = R
1
:
ex p (¡ ¯ H )d ¡
(2.42)
Hemos obtenido la distribución de Gibbs
1
f =
ex p (¡ ¯ H (p ;q )):
Z (¯ ;V ;N )
(2.43)
Veamos ahora que se trata de un máximo. Sea otra función de distribución f 0,
normalizada, con la misma energía media
Z
Z
0
f H d¡ =
f H d¡ ;
(2.44)
y por lo demás arbitraria. Invocamos la desigualdad auxiliar
Z
f0
f 0ln ( )d ¡ ¸ 0 ;
f
en la forma
¡
Z
0
0
f ln (f )d ¡
·
=
Z
Z
f ln (f )d ¡ = ln (Z ) + ¯
f 0H d ¡ ;
Z
Z
ln (Z ) + ¯
f H d¡ = ¡
f ln (f )d ¡ :
¡
0
(2.45)
Esta desigualdad equivale a
h´ 0i · h´ i ;
(2.46)
de modo que la distribución canónica es la que tiene la mayor entropía entre todas
las distribuciones con la misma energía media.
Esta demostración se puede extender al caso en el cual, además de la energía,
hay otras cantidades medias prefijadas. Denotemos todas estas, incluyendo la energía,
con P k , k = 0 ;1 ;2 ;:::;n ,
Z
f P kd¡ :
(2.47)
hP k i =
Propiedad variacional de la distribución gran canónica
31
Repitiendo el procedimiento anterior, el lector puede verificar facilmente que la maximización de la entropía conduce a la distribución canónica generalizada (capítulo
1, II parte)
Ã
!
Xn
1
ex p ¡
F k P k (p ;q )) ;
(2.48)
f =
Z
k= 0
donde F k son coeficientes que provienen de los multiplicadores de Lagrange. Para que
f sea una solución de equilibrio que satisface la ecuación de Liouville, las magnitudes
P k , como sabemos, deben ser integrales del movimiento.
2.7
Propiedad variacional de la distribución gran canónica
Derivemos ahora el principio extremal para la distribución gran canónica. El ensemble está compuesto por sistemas en contacto con un baño térmico y un depósito de
partículas. Ahora, como información adicional acerca del sistema, podemos especificar la energía media y el número medio de partículas. La distribución gran canónica
es aquella que tiene la mayor entropía entre todas las funciones de distribución que
tienen igual energía media e igual número medio de partículas:
X Z
X Z
X Z
hH i =
hN i =
(2.49)
H fN d¡ ;
N fN d¡ ;
fN d ¡ = 1:
N
N
N
Notar las peculiares operaciones de normalización y valor medio que caracterizan la
distribución gran canónica. Para hallar el extremo formamos la funcional
X Z
X Z
X Z
X Z
© (f ) = ¡
f N ln (f N )d ¡ ¡ ¯
fN H d¡ ¡ ®
fN N d¡ ¡ ¸
fN d¡ ;
N
N
N
N
(2.50)
siendo ¯ ;® ;¸ , multiplicadores de Lagrange. De la condición ± © = 0 , para toda
variación ± f , se obtiene sin dificultad (definiendo otro multiplicador ¹ = ¡ ® = ¯ ) el
resultado
1
fN =
ex p (¡ ¯ (H ¡ ¹ N ));
(2.51)
Z
donde
X Z
ex p (¡ ¯ (H ¡ ¹ N ))d ¡ :
(2.52)
Z(¯ ;¹ ;V ) =
N
Hemos obtenido la distribución gran canónica y se puede probar, de un modo similar
al de la sección precedente, que el extremo corresponde a un máximo de la entropía.
Descargar