Autor: Mª Isabel Conde Collado APROXIMACIÓN A UNA DISTRIBUCIÓN NORMAL Mediante el estudio de dos ejemplos concretos de distribuciones se intentará un acercamiento al ajuste de distribuciones a una distribución normal. 1º- LA DISTRIBUCIÓN BINOMIAL Intentaremos hacer una exposición sencilla sobre la distribución binomial como distribución de probabilidad de una variable aleatoria discreta que describe datos discretos, resultantes de un experimento denominado proceso de Bernoulli, en honor del matemático suizo Jacob Bernoulli, y de la aproximación de la binomial a la distribución normal. Podemos servirnos de los resultados de un número fijo de lanzamientos de una moneda como ejemplo de un proceso de Bernoulli. Este proceso lo describimos así: 1.En cada lanzamiento sólo hay dos resultados posibles: cara o cruz, éxito o fracaso. La probabilidad del resultado de cualquier lanzamiento permanece fija con el tiempo. 2.La probabilidad de que salga cara sigue siendo de 0.5 en cada lanzamiento, cualquiera que sea el número de veces que la moneda sea arrojada. 3.Los lanzamientos son estadísticamente independientes, es decir, el resultado de un lanzamiento no afecta al de cualquier otro lanzamiento. La probabilidad de un éxito la representamos con p y q=( 1- p ) representa la probabilidad de un fracaso. Para representar cierto número de éxitos, utilizaremos el símbolo r y para indicar el número total de lanzamientos de la moneda emplearemos n. Introducir el nº de tiradas n = 20 Introducir probabilidad de un éxito p = 0,5 La probabilidad de r éxitos en n lanzamientos según la formula binomial es : n! / r! (n-r)! pr qn-r En la siguiente tabla se muestran los valores de la probabilidad de obtener 0, 1, 2...20 caras (éxitos) en el lanzamiento de la moneda 20 veces Nº de éxitos r 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Binomial B(n,p) 0,0000 0,0000 0,0002 0,0011 0,0046 0,0148 0,0370 0,0739 0,1201 0,1602 0,1762 0,1602 0,1201 0,0739 0,0370 0,0148 0,0046 0,0011 0,0002 0,0000 0,0000 La representación gráfica de esta tabla de la distribución binomial: En la gráfica se observa que el perfil del histograma se asemeja a la campana de Gauss, es decir a una distribución normal Aproximación de la binomial mediante la normal Si vamos cambiando los valores de p, por ejemplo: consideramos p1=0,2, p2=0,3, p3=0,5, p4=0,8, para el mismo valor de n se obtiene la siguiente tabla: Nº de éxitos Binomial r B(n,p1) 0 0,1216 1 0,2702 2 0,2852 3 0,1901 4 0,0898 5 0,0319 6 0,0089 7 0,0020 8 0,0004 9 0,0001 10 0,0000 11 0,0000 12 0,0000 13 0,0000 14 0,0000 15 0,0000 16 0,0000 17 0,0000 18 0,0000 19 0,0000 20 0,0000 Binomial B(n,p2) 0,0008 0,0068 0,0278 0,0716 0,1304 0,1789 0,1916 0,1643 0,1144 0,0654 0,0308 0,0120 0,0039 0,0010 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 Binomial B(n,p3) 0,0000 0,0000 0,0002 0,0011 0,0046 0,0148 0,0370 0,0739 0,1201 0,1602 0,1762 0,1602 0,1201 0,0739 0,0370 0,0148 0,0046 0,0011 0,0002 0,0000 0,0000 Binomial B(n,p4) 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0020 0,0074 0,0222 0,0545 0,1091 0,1746 0,2182 0,2054 0,1369 0,0576 0,0115 Calculamos los productos np, nq y representamos la tabla: p1 Producto np= Producto nq= p2 2 18 p3 6 14 p4 10 10 16 4 Se observa que cuando los productos np y nq son ambos mayores que 5, la aproximación de la binomial a una normal es casi perfecta como en el caso de n=20 y p3=0,5 Simulación del lanzamiento de una moneda Podemos simular el lanzamiento de una moneda n veces y contar el número de éxitos(caras) mediante la función aleatorio y calcular la probabilidad de éxito p como número de caras obtenidas dividido entre número de lanzamientos. Hallamos en una tabla las probabilidades de obtener r éxitos mediante la binomial y la normal y representamos los datos. Por ejemplo: Nº de tiradas 100 Nº de exitos 94 Probabilidad de éxito Producto np= Producto nq= 0,94 62 38 Para ajustar a una normal, la media =np, desviación típica=√npq se obtiene: Media 62 Desvtípica 4,85 En la siguiente gráfica aparece representada junto a la función de probabilidad de una B(n,p) la distribución normal que tiene su misma media y su misma desviación típica. En la práctica para calcular probabilidades de las distribuciones binomiales, cuando los valores de n son grandes, se utiliza la normal; siendo mucho mejor esta aproximación, para un mismo valor de p, cuando aumentamos el valor de n. 2º- UNA DISTRIBUCIÓN EMPÍRICA Veamos ahora otro ejemplo de distribución en que es fácil apreciar que los resultados se aproximan a una distribución normal La tabla adjunta muestra la altura en cm de 100 estudiantes, agrupados los datos en intervalos de clase de extremos xa, xb de amplitud 5, y en la que se han calculado las marcas de clase xi y la media y la desviación típica de la distribución xa 150 155 160 165 170 175 180 185 190 xb 155 160 165 170 175 180 185 190 195 xi 152,5 157,5 162,5 167,5 172,5 177,5 182,5 187,5 192,5 media x= 172,05 desviación típica s= 8,3694385 fi 1 6 14 20 24 18 10 5 2 100 xi fi 152,5 945 2275 3350 4140 3195 1825 937,5 385 17205 xi2 fi 23256,25 148837,5 369687,5 561125 714150 567112,5 333062,5 175781,25 74112,5 2967125 Representamos el histograma de la distribución de frecuencias: Se puede observar que el perfil del histograma recuerda a la curva normal. Teniendo en cuenta que en una distribución normal: el 68% de los datos está en el intervalo (x-s, x+s) ( x =media, s=desviación típica) el 95% de los datos está en el intervalo (x-2s, x+2s) y el 99% de los datos está en el intervalo (x-3s, x+3s) Podemos comprobar si se cumplen aproximadamente estos porcentajes y considerar que la población de partida es normal: (x-s, x+s)= (x-2s, x+2s)= x-3s, x+3s)= ( 163,68 155,31 146,94 180,42 188,79 197,16 76% 97% 100% Esto nos indica que efectivamente se podría considerar la población como una distribución normal Para una mayor precisión podemos comparar la distribución empírica con la normal N((x,s), en nuestro ejemplo con la N(172,05 ; 8,37). Tipificamos los extremos de cada intervalo hallando: za=( xa -x)/s, zb=( xb -x)/s y calculamos en cada caso P( xa<X< xb ), siendo: P( xa<X< xb)=P( za<Z< zb )=P( Z< zb ) - P( Z< za ) xa 150 155 160 165 170 175 180 185 190 xb fri 155 0,01 160 0,06 165 0,14 170 0,20 175 0,24 180 0,18 185 0,10 190 0,05 195 0,02 media x= 172,05 desviación típica s= 8,36943845 za zb -2,6345854 -2,0371737 -2,04 -1,44 -1,44 -0,84 -0,84 -0,24 -0,24 0,35 0,35 0,95 0,95 1,55 1,55 2,14 2,14 2,74 p(X<xa) 0,00421201 0,02081632 0,07496736 0,19979592 0,40325192 0,63775817 0,82891453 0,93910408 0,98401189 p(X<xb) 0,02081632 0,07496736 0,19979592 0,40325192 0,63775817 0,82891453 0,93910408 0,98401189 0,99694779 Si comparamos las probabilidades obtenidas con las frecuencias relativas, observamos que las diferencias parecen suficientemente pequeñas como para aceptar que los datos provienen efectivamente de una distribución normal. Confirmamos esta apreciación representando las frecuencias y las probabilidades en el mismo diagrama: Se puede observar en el diagrama que sería correcto ajustar la distribución de las estaturas a una normal.