Lo normal y lo extraordinario

Anuncio
II
Lo normal y lo extraordinario
Toda persona normal es, de hecho, solo normal en promedio
Sigmund Freud1
¿Qué significa ser normal? ¿Tiene sentido decir que alguien con síndrome de Down no
tiene inteligencia “normal”, o que los gays no son “normales”, o que un dígito es una
inflación “normal” o que se puede ser un “suegro normal” como dijo el Kun Agüero de
Diego Maradona? El uso cotidiano de la palabra “normal” –persona normal,
comportamiento normal, altura normal– tiene un origen ligado a las estadísticas y al azar
2
y a un cambio de pensamiento social que ocurre a principios del siglo diecinueve. Por
esos años se produce una avalancha de registros estadísticos, sobre todo con propósitos
impositivos y militares. Lo interesante es que estos datos revelaban ciertas regularidades
dentro de lo que se suponía meramente azaroso, como si hubiera un orden escondido
dentro del azar. De eso se trata este capítulo.
Soldados escoseses y astronomía
En un libro publicado en 1846, el matemático belga Adolphe Quetelet muestra que los
datos de crímenes en distintas zonas de Bélgica, Francia y Holanda tenían un asombroso
patrón de regularidad. Uno de los registros llamativos es de la corte francesa, entre 1825
y 1830: el número anual de acusados estaba siempre alrededor de 7.100 y el número de
condenados alrededor de 4.400. Algo así como que había una probabilidad del 62% de
que un acusado fuera condenado.3
Otro de los datos famosos de Quetelet es la lista, tomada de una revista médica4, de
perímetros de pecho de 5.378 soldados escoceses. Quetelet los contó y encontró que al
graficar los datos aparecía algo como lo de la figura de la izquierda:
1
En “Analysis Terminable and Interminable” Yale Univ. Press, 1987, p.22.
2
Y a una tentación frecuente de tomar ideas matemáticas que se aplican con precisión en cierta región del
conocimiento y exportarlas hacia territorios de incierta aplicabilidad. La tentación se origina en el hecho
de que la descripción matemática de las probabilidades permite descifrar regularidades dentro del azar, ver
orden dentro de lo que a primera vista percibimos como caótico.
Adolphe Quetelet, Sur l’homme et le développement de ses facultés, ou Essai de physique sociale. Paris,
1835, vol. 2. pág 29. Notar que el libro dice “Ensayo de física social”!
3
“Satement of the sizes of Men in different countries of Scotland, taken from the Local Militia” Edinburgh
medical and surgical journal, Volumen 13, página 260 (1817). Disponible gratis en google Books.
4
1
Lo que el gráfico representa es el número de soldados que tienen un cierto perímetro de
pecho (redondeado a un número entero de pulgadas). Por ejemplo, sólo 3 soldados tenían
33 pulgadas de perímetro, pero había 1073 soldados con 39 y 658 soldados con 42. Ahora
bien ¿Por qué es tan famoso este resultado? Porque este tipo de curvas ya habían
aparecido en las teorías matemáticas del azar y en mediciones astronómicas. Pero esta era
la primera vez que aparecían en datos humanos.
En 1818, el astrónomo Frederick Bessel, que tenía los instrumentos de medición más
precisos de la época publicó Fundamenta Astronomiae, un libro con un montón de datos
de posiciones de estrellas en el cielo. Ahora bien, cada vez que uno apunta el telescopio
al cielo para medir la posición de una determinada estrella mide un ángulo ligeramente
distinto a los anteriores, del mismo modo que cada vez que uno se mide el perímetro de
pecho puede obtener un dato distinto a los anteriores. La diferencia entre los distintos
resultados es el error de medición: a veces el telescopio está inclinado un poquito para
aquí, otras un poquito para allá, a veces la Tierra misma está ubicada un poquito para
aquí y otro para allá. Lo que Bessel hizo es medir muchas veces la posición misma
estrella y obtuvo los datos que muestro el gráfico de la derecha de la figura de arriba. La
curva indica, por ejemplo que 114 mediciones dan alrededor del promedio del ángulo,
pero 53 mediciones difieren entre 0.2 y 0.3 grados del promedio5.
Lo llamativo de los dos resultados es que las dos curvas no sólo tienen la misma forma
acampanada sino que también son muy parecidas a una curva que ya había aparecido en
el tratamiento matemático de los errores azarosos de medición.
Agradezco a Sthephen Stiegler, de la Universidad de Chicago, autor de “The History of Statistics, The
Measurement of Uncertainty before 1900” (Harvard University Press, 1986), por referirme a la tabla de los
datos de Bessel, y a los empleados de la sección Special Collections de la biblioteca de la Universidad de
Michigan por dejarme fotocopiar las páginas de Fundamenta Astronomiae donde están los datos. Si miran
con cuidado la curva de Bessel (la de la derecha) van a ver que es más simétrica que la de Quetelet.
Lamentablemente Bessel nos da los datos de las desviaciones “absolutas”, esto es, el promedio de las
desviaciones hacia ambos lados del promedio. Grafiqué la curva completa para mejor ilustración.
5
2
No existe un instrumento infinitamente preciso; todo aparato de medición tiene un error
y cada vez que medimos obtenemos un resultado distinto. La magia del tratamiento
matemático de los errores es poder aproximarnos, a partir de muchas mediciones, al valor
real de lo que queremos medir. En el caso de Bessel es la posición de su estrella. Pero
mientras Bessel mide muchas veces la misma estrella, Quetelet muestra datos de distintos
soldados, ahí no hay un valor real de perímetro de pecho. Y sin embargo las curvas son
idénticas. La única diferencia es que en cada caso la campana podría estar más o menos
estirada en la dirección horizontal: una campana más o menos panzona6.
Quetelet argumenta que medir el perímetro de pecho de muchos soldados sería como
medir muchas veces el perímetro de pecho de un mismo soldado, el soldado “normal”.
Digamos que mido con una cinta milimetrada el perímetro de mi pecho, y repito la misma
medición muchas veces (no miles, claro). Las mediciones van a dar resultados distintos:
en cada medición la inclinación de la cinta es distinta, la presión que hago con la cinta
sobre el pecho es también distinta etc. Pero la distribución de los resultados (y los invito a
que hagan el experimento para verificarlo o refutarlo) va a ser parecida a la de los miles
de soldados: pocos resultados van a indicar un perímetro grande o un perímetro muy
chico y muchos resultados van a dar un perímetro alrededor del perímetro real. Más aún,
la forma acampanada de la curva es la misma. ¿Por qué es así? Quetelet da un salto
conceptual cuestionable y propone que la razón es que la naturaleza apunta a una especie
de “hombre promedio” y que los que están en los extremos de la campana son
desviaciones azarosas de un cierto “ideal”. Lo de Quetelet es una novedad filosófica ya
que en lugar de poner el ideal humano en el extremo de lo improbable (los más cultos son
los menos frecuentes, por ejemplo) lo pone en el medio, donde está el grueso de la
población. Pero las ideas de Quetelet son cuestionables. No hay una razón clara, o
claramente demostrable de que ciertos atributos sigan la distribución acampanada que
luego se llamaría “distribución normal”. Más aún, hay otras distribuciones posibles que
bien pueden aparecer en grupos de personas y que sería erróneo llamarlas “anormales”.7
Sin embargo el término “hombre promedio” cautivó la imaginación popular en 1825 con
una intensidad que persiste hoy.
Propongo entonces algunos experimentos caseros que conducen la famosa distribución
normal.
Monedas al aire
Tiro una moneda cuatro veces y cuento cuántas caras salieron. En cada tiro hay varios
resultados posibles, que van desde cuatro caras a cuatro cruces, pasando por las
posibilidades intermedias. En notación tucumana llamemos “C” a cara y “S” a cruz (en
6
Pero si dibujáramos una de estas campanas en una tela elástica estirable (o comprimible) en toda
dirección, podríamos obtener cualquier otra campana estirando o comprimiendo el dibujo.
7
But it helped create a climate of public awareness of distribution that was to lead to a truly major advance
in statistical methods over the period 1869 to 1925 (Stigler. Op cit, p.219)
3
Tucumán se dice sello y no cruz) y dibujemos un “árbol” de posibilidades que muestra
que para cuatro tiros hay 16 resultados posibles:
Ahora invento el siguiente juego: asigno el número +1 a cada cara que sale -1 a cada
cruz y luego sumo los números que resultan de cada tiro. Los resultados posibles de la
suma son +4 (si sale CCCC) -4 (si sale SSSS), +2, -2 y 0. Los valores extremos (+4 y 4) son menos probables que los otros ya que cada uno corresponde a una sola de las
posibles secuencias de monedas. En cambio hay cuatro secuencias que dan +2 y -2 y
ocho secuencias que dan 0. Como cada secuencia tiene la misma probabilidad (uno en
16) podemos contabilizar fácilmente la probabilidad de que salga cada una de las sumas
que van de -4 a 4. Y si graficamos el resultado obtenemos el siguiente gráfico, una
especie de embrión de la curva acampanada de Gauss, Quetelet y Bessel:
Si tiráramos más monedas el número de resultados posibles de la suma va a aumentar y la
curva va aproximándose a la famosa distribución normal. Por ejemplo, para 18 tiros el
resultado es algo así:
Este experimento muestra que si todas las causas son homogéneas, entonces esperamos
una distribución normal. El “Queteletismo” es pensar que esa homogeneidad ocurre en
fenómenos sociales y exagerar el protagonismo de la distribución normal.
4
La altura de los hijos de Yao Ming y de Diego Buonanotte
Pregunta: los hijos de Yao ¿van a ser más altos que Yao? Y los hijos de Buonanotte,
¿van a ser más bajos que Buonanotte? El primero en hacerse este tipo de preguntas con el
rigor de la estadística es Francis , una especie de sucesor de Quetelet en lo que respecta a
la aplicación del azar en las ciencias sociales y en la vida cotidiana. A Galton le
interesaba la herencia y, en particular, el carácter hereditario del talento. ¿Por qué –se
preguntaba Galton- los hijos de los genios tienden a ser menos genios que sus padres? Si
bien la genialidad no es muy cuantificable, es cierto que la historia registra familias
enteras de talentos matemáticos (como los Bernoullis) o musicales (como los Bachs) y es
incuestionable que dentro de esas familias hay casos individuales que no vuelven a
repetirse, como Jacobo Bernoulli o el gran Juan Sebastián. Pero para hacer la cosa más
cuantificable, Galton se concentró en la relación entre la estatura de los hijos y la de sus
padres. Y encontró una interesante regularidad estadística: los hijos de padres muy altos
tienden a ser más bajos que sus padres. Y los hijos de padres muy bajos tienden a ser más
altos que sus padres. La pregunta ahora es ¿Por qué? Por un lado están las complejidades
de la genética y el hecho más o menos obvio de que los hijos de padres altos van a ser
altos y los de padres bajos van a ser bajos. Al menos en general. Pero el punto aquí no es
ese, sino el hecho de que los hijos de los muy altos van a ser en promedio mas bajos que
sus padres. Y al revés con los muy bajos. Y esto no tiene nada que ver con las causas
genéticas en sí mismas, sino con un crudo efecto estadístico que da lugar a muchos
malentendidos, y que lleva a atribuir la relaciones de causa y efecto donde solo hay un
mudo balance probabilístico.
Para ilustrar esta especie de espejismo lógico (llamado técnicamente “regreso al
promedio” o “regresión a la media”) volvamos al experimento de las monedas al aire.
Digamos que tiro 4 monedas muchas veces y voy anotando los resultados de la suma de
cada tiro en una lista. Como ejemplo muestro una serie que generé con mi computadora:
0,0,-2,-2,2,0,-2,-2,4,-2,4,2,0,0,2,2,0,-2,-2,-2,2,0,2,0,0,0,0,-2,-2,0,0,2,-2,0,2,4,2,0,2
Pocos casos tienen +4 y -4 ya que CCCC y SSSS son tiros improbables. La mayoría de
las sumas van a ser 0. Ahora miro la lista y busco un lugar donde salió el +4. Lo mas
probable es que el número siguiente (¡y el anterior!) sean menores que +4. ¿Por qué?
Simplemente porque, en un tiro arbitrario, es muy probable que salga un número menor
que el máximo. Y lo mismo si me concentro en el -4: es muy probable que tanto el
número siguiente como el anterior sean mayores que -4 y cercanos al promedio. La
confusión frecuente es que hay una relación causal entre los dos eventos de este tipo
cuando, en realidad, el así llamado regreso al promedio se da en eventos independientes,
que no tienen relación entre sí. Claro que no todos los casos son tan transparentes como
el tiro de las monedas y muchas veces hay que pensar la situación con cuidado. Y de ahí
viene la confusión. Por ejemplo digamos que Fortunata estudia en una universidad en la
que clasifican los exámenes con puntajes de 1 a 100. Fortunata es muy buena estudiante
y siempre saca puntajes altos, casi nunca debajo de 95. Su promedio es 97.5. Un día le
agarró un mareo horrible y se sacó un 89. Lo más probable es que en el examen siguiente
saque una nota mayor que 89. Y si otro día se saca un 100, lo más probable es que en el
5
examen siguiente se saque un puntaje menor. Por un lado esta la multitud de razones que
determinan la nota (dificultad de la materia, estado de ánimo de Fortunata el día del
examen etc.). Por otro la simple regularidad estadística: en un examen arbitrario lo más
probable es que Fortunata saque algo cercano a su promedio. Y si en el examen anterior
sacó 100 lo más probable es que en el examen de hoy saque un puntaje más bajo.
Uno de los ejemplos famosos de falsa atribución causal que en realidad tienen su origen
en el regreso al promedio es el “gafe de Sports Illustrated”8: se dice que es mala suerte
para un deportista salir en la tapa de la revista porque después su rendimiento baja. Y es
cierto, en promedio su rendimiento baja, pero no porque el deportista salió en la tapa. La
lógica es al revés: salió en la tapa porque tuvo un rendimiento excelente, mejor que su
promedio y por es atrajo el interés periodístico. Lo más probable es que su rendimiento
posterior sea menor, haya o no haya salido en la tapa de la revista. Otro interesante es
citado por Daniel Kahneman, ganador del premio Nobel de economía en 20029: un
instructor de cadetes aeronáuticos argumenta que, cómo método de entrenamiento, no es
efectivo alentar al que hizo bien una acrobacia. En cambio, dice el instructor, es más
eficaz gritarle y amonestar al que hizo una mala maniobra. Su evidencia: probó elogiando
a cadetes después una muy buena maniobra y cuando la repiten no les sale tan bien. Pero
cuando le grita a cadetes que hicieron una mala maniobra, en la siguiente tiende a salirles
mejor. Por lo tanto, según el instructor, conviene gritarles. Y de este razonamiento
erróneo, Kahneman comenta con lucidez: “Como tendemos a recompensar a los que les
va bien y a castigar a los que les va mal, y como hay regresión al promedio, parte de la
condición humana es que estamos, estadísticamente, castigados por recompensar a los
otros y recompensados por castigarlos.”
En su análisis de la regresión, Galton hace uno de los grandes “experimentos mentales”
de la historia de la ciencia10. En realidad parte de su experimento es mental y parte es
real. La parte real y concreta es un aparato que que llamó “quincux”11: un tablero con
palitos colocados de manera regular y unas bolitas que se tiran por arriba. Las bolitas
entran al tablero con direcciones variadas (por más esmero que uno ponga hay una
aleatoriedad en la dirección de caída) y al caer van rebotando de forma azarosa en los
palitos. Luego son colectadas en la parte de abajo y la distribución que resulta es
aproximadamente la campana de la distribución normal. En la figura muestro el escaneo
del trabajo de Galton y un quincux casero hecho con alfileres gruesos, gomitas y
mostacillas que caen.
8
Sports Illustrated es una revista deportiva de circulación masiva EEUU.
Autobiografía de Daniel Kahneman.
10
Sthephen M. Stiegler, Regression to the mean, historically considered, Statistical Methods in Medical
Research, 6, 103-114 (1997).
11
El nombre “quincunx” proviene de los sembrados regulares en los que un árbol está rodeado de cuatro
árboles, como los cinco puntos de la cara de un dado en el que salió el cinco. Ver Kunert, J., Montag, A.,
and Pohlmann, S. (2001). The quincunx: history and mathematics. Statistical Papers 42, 143-169. La figura
original de Galton está en Galton, Francis (1889): Natural Inheritance. Macmillan, London. Este libro está
disponible gratis en Gooble Books.
9
6
La curva que obtuve al tirar las mostacillas no es tan simétrica y homogénea como la
teórica ya que usé un número reducido de mostacillas. Además, los alfileres no están
ubicados en perfecta simetría y mi quincux no estaba perfectamente nivelado con el piso.
Pero vale la pena el esfuerzo de fabricarse uno y ser testigo de cómo la campana de
Gauss emerge, aproximadamente, en este aparto mecánico. Sumado a esto, Galton le hace
decir más cosas al quincux. Y aquí viene la parte mental (y sutil) del experimento. Galton
imagina un quinqux dividido en dos partes, con unas maderitas (en la parte A de la
figura) que interrumpen el paso de las bolitas hacia la parte B.
Si uno tira las bolitas igual que antes, es natural esperar que, en la parte A, las bolitas se
acomoden de acuerdo a una distribución normal, o una campana menos panzona que la
que hubiera ido a la parte B en caso de no haber sido interrumpida. Ahora Dalton
propone sacar una sola de las maderitas de la parte A, digamos la que está marcada con
una flecha en la figura. Lo que va a pasar ahora es que las bolitas de esa columna van a
caer a la parte B formando a su vez una distribución normal, pero que ahora no está
7
centrada en la mitad: así como lo que represento con la parte gris en la figura. Si
hubiéramos sacado otra de las maderitas también tendríamos una distribución normal
similar, pero centrada en otra parte del sector B. ¡Y si sacáramos todas las maderitas
tendríamos la distribución normal original! Lo que Galton ilustra en este experimento
mental es que una suma de causas que no son del todo accidentales, tomadas en conjunto,
puede dar lugar a una distribución normal. Cuando digo “no del todo accidental” me
refiero a que las bolitas que dan lugar a la parte gris están hacia el costado derecho de B,
no están distribuidas alrededor de la mitad. Estas bolitas representarían, por ejemplo, las
personas altas (o de gran perímetro de pecho) de una población. Y lo mismo con las
bajas. Y tomadas en conjunto, la distribución de alturas y perímetros es normal. Galton
con su quincux reconcilia la teoría de errores –según la cual una acumulación de
desviaciones accidentales de lugar a una distribución normal– con la herencia que, si bien
contiene desviaciones accidentales también tiene obvias correlaciones ya que tendemos a
parecernos a nuestros ancestros.
Las baguettes de Poincaré y una pequeña comedia de errores (normales)
En una nota de la revista Vogue de 1981, García Márquez revela uno de sus secretos: “si
usted escribe que ha visto volar un elefante, nadie lo creerá; pero si afirma haber visto
volar cuatrocientos veinticinco, es probable que el público lo crea”12. La verosimilitud,
parecería decirnos Gabo, está en lo específico. Quizá ese sea el origen de la confusión en
historia que quiero contarles, y que empieza mientras recorría algunos libros recientes
sobre el azar. En uno de ellos13 se menciona una anécdota protagonizada por el
matemático francés Henri Poincaré. Según la historia, Poincaré compraba todas las
mañanas una baguette que, según el panadero, pesaba un kilo. Poincaré las pesaba en su
casa y comprobó que los panes en general pesaban menos. Y no se detuvo ahí sino que
anotó los pesos durante meses hasta comprobar que la distribución de pesos de las
baguettes era normal pero el centro de la campana, en lugar de estar en un kilo estaba en
950 gramos: el panadero le estaba robando.
12
13
http://www.sololiteratura.com/ggm/marquezvogue.html
El excelente “El andar del borracho” de Leonard Mlodinov (Crítica, Barcelona, 2008). pp. 173-174.
8
Poincaré se queja a las autoridades y de ahí en adelante el panadero le entrega panes de
un kilo (o más). Pero el matemático no detiene su balanza y al calcular la nueva
distribución de pesos de los panes encuentra que ya no es normal sino algo así:
Casi no hay panes más livianos que un kilo mientras que algunos pesan más. Conclusión:
el panadero sigue usando la misma receta, con pesos fraudulentos, pero le da a Poincaré
los panes más pesados, seleccionados del costado “izquierdo” de la distribución. Poincaré
vuelve a denunciar al panadero y las autoridades toman medidas.
La historia me pareció una aplicación tan maravillosa de las regularidades estadísticas en
la vida cotidiana que quise leer el relato en su versión original, de la pluma del maestro.
Procedí como de costumbre: busqué la referencia en los libros y me di con que no
convergían a la fuente sino a otro libro14. Mandé un email al autor consultándole. Me
contestó de inmediato: como buen académico responsable conservaba una caja con
copias de las referencias citadas en su libro. Salvo la de Poincaré. Se disculpó con
detallada cortesía y recordó vagamente que a la anécdota la había visto en una muestra
del museo de ciencias Boston. Mandé un mail al museo y me contestaron que en la
muestra titulada “Mathematica” tenían material sobre la distribución normal y algunas
citas de Poincaré, pero nada sobre ambos. Sorprendido, llamé por teléfono y conversando
con la curadora Alana Parkes aclaramos la confusión. En efecto había una muestra en
exhibición llamada “El extraño caso de los panes anormales”15, una historieta de veinte
cuadros que transcurre en Alemania cuando, después de la guerra (no dice cuál) se
racionaba el pan. Cada porción debía pesar 1Kg, pero un “profesor de matemáticas”
descubre el problema y se queja ante “Herr panadero” aduciendo un error en la balanza.
De ahí en adelante la historia es la misma y concluye con el arresto del panadero. Es
probable que el relato sea inventado pero –si bien un genérico profesor alemán es a un
elefante volador como Poincaré es a cuatrocientos veinticinco Dumbos– merece ser
verdadero.
14
15
“What are the chances?” de Bart K. Holland (John Hopkins University Press, 2002)
“The strange case of the abnormal loaves”
9
En el próximo capítulo damos un paso más dentro del jardín probabilístico y empiezo a
delinear la estructura matemática del cálculo de probabilidades. En algunos lugares hay
que ajustarse el cinturón y sacar papel y lápiz.
10
Descargar