Teorema del Límite Central El teorema del límite central es de suma importancia en diversas aplicaciones de la probabilidad. Si bien el hacer un estudio detallado de la teoría detrás del concepto de límite central está fuera del alcance de los objetivos de este curso, si abordaremos algunos detalles que pueden ayudar al lector a obtener una mejor comprensión de los conceptos relacionados con este teorema y las aplicaciones que se derivan del mismo. Para hacer que la presentación sea más apegada a la realidad conceptual no se dará el concepto como una receta y se tratará de que el lector vaya llegando en forma gradual a los conceptos que se buscan. Desigualdades de Markov y Chebyshev Si X es una variable aleatoria discreta con rango RX entonces es sencillo deducir la siguiente secuencia de desigualdades: E(X) = xP[X = x] = xP[X = x] + xP[X = x] xP[X = x] tP[X = x] = tP[X t] Este análisis, que se puede hacer en forma equivalente para distribuciones continuas da lugar al siguiente teorema conocido como la desigualdad de Markov [2]. (6.1) P[X t] Esta desigualdad permite hacer aproximaciones vagas acerca del comportamiento de variables aleatorias tomando en cuenta únicamente la esperanza. Veamos el siguiente ejemplo. Ejemplo 30 En una caja hay 10 bolillas rojas y 6 negras. Se extraen con remplazo 8 bolillas y se registra el número de bolillas rojas extraídas. X sigue una distribución binomial b(x;8, 10/16) y usando la herramienta para binomiales, es simple verificar por ejemplo que P[X 0.3697. 6] = 1 - P[X Utilizando la desigualdad de Markov se obtiene que P[X 6] 5] = 5/6 = 0, 8333. Comparando estos dos valores nos damos cuenta que la cota que se obtiene por la desigualdad de Markov no necesariamente es buena. Es importante notar que si en la desigualdad (6.1) utilizamos t = n P[X n obtenemos ] Es decir la probabilidad de que los valores de una variable aleatoria estén a más de n veces la media es menor a 1/n. Si además de la media o esperanza se conoce la varianza entonces existe la posibilidad de hacer acotaciones con un poco más de precisión. Supongamos que X es una variable aleatoria con esperanza consideramos la variable aleatoria (X - y varianza )2, aplicando la desigualdad de Markov a esta variable, cuya esperanza es precisamente P[(X - )2 Si t2] (3.9), se obtiene Dado que (X )2 t2 es equivalente a | X conocido como la desigualdad de Chebyshev. | t se obtiene el teorema (6.2) P[| X - )| t] La desigualdad de Chebyshev permite acotar la probabilidad de que los valores de la distribución queden alrededor de la media. Estas aproximaciones no necesariamente son buenas, no obstante mejorar los resultados que se pueden obtener con esta desigualdad implicaría restringir mucho las hipótesis iniciales, como se verá en un ejemplo posterior. Ejemplo 31 Una persona puede digitar un texto en un tiempo que sigue una distribución con media 50 minutos y desviación 10 minutos. Para estimar una cota para la probabilidad de que esta persona tarde entre 30 y 50 minutos se puede recurrir a la desigualdad de Chebyshev y se obtiene P[30 T 70] = 1 - P[| X - 50| 20] 1- = Aún cuando este tipo de estimaciones pueden resultar innecesarias cuando se dispone de la distribución de probabilidad el ejemplo siguiente sirve para comparar los resultados que se obtienen usando la de la desigualdad (6.2). Ejemplo 32 El tiempo que tarda un computador en resolver un problema sigue una distribución exponencial con media 2 minutos. Para estimar la probabilidad que el tiempo de solución de un problema al azar esté entre 0 y 6 minutos si utilizamos la desigualdad de Chebyshev obtenemos P[0 T 6] = 1 - P[| X - 2| 4] 1- = .75 Es decir con la desigualdad de Chebyshev obtenemos que la probabilidad de que el tiempo esté entre 0 y 6 minutos es superior a 0.75. Si usamos la distribución en forma directa obtenemos que: P[0 T dx = 1 - e-3 = 0.95 6] = Lo que nos indica que las cotas que se obtienen de la desigualdad de Chebyshev pueden no ser muy buenas, no obstante como veremos no es tan fácil mejorar las cotas que se obtienen con esta desigualdad sin imponer restricciones adicionales. El siguiente ejemplo, [2], es ilustrativo en ese sentido. Ejemplo 33 Sea X una variable aleatoria discreta cuya distribución de probabilidad se da en la siguiente tabla: x1 = - 2 x2 = 0 x3 = 2 P[X = x1] = 1/8 P[X = x2] = 3/4 P[X = x3] = 1/8 Es muy sencillo verificar que E[X] = 0 y que VAR[X] = 1 Si aplicamos la desigualdad de Chebyshev obtenemos que P[| X - | 2] que en este coincide con el valor pues P[| X - | 2] = P[X = 2] + P[X = - 2] = + = Este ejemplo indica que aún cuando las cotas obtenidas de la desigualdad (6.2) no siempre son buenas a veces son exactas. Leyes de los Grandes Números Para poner en contexto las implicaciones de este teorema es importante revisar las siguientes observaciones. Dado un experimento con espacio muestral , para un evento se ha indicado que si se hacen n repeticiones del experimento y se nota que en esas n repeticiones del experimento ocurren (n) veces el evento , intuitivamente se define la probabilidad del evento por P[ ]= . Sin embargo, como ya hemos apuntado antes esta definición deja abiertas una serie de preguntas. Por ejemplo si aceptamos definir la probabilidad como el valor límite de estos cocientes entonces la definición se complica. Primero que todo, qué garantiza que ese límite existe, segundo esta definición no es operacional en el sentido de que no es posible repetir infinitamente tal experimento. Estudiaremos la ley de los grandes números que nos ayudará a precisar un poco mejor el sentido de (6.3) P[ ]= . Simplificando un poco el problema, cada una de las repeticiones del experimento que se realicen en el contexto citado puede verse como un ensayo de Bernoulli donde el éxito coincide con la ocurrencia de . Así el número de éxitos X en los n ensayos del experimento es una variable aleatoria binomial en la cual la probabilidad de éxito es un valor desconocido p. Para esta variable sabemos que la media es np y la varianza es np(1 p) (teorema 15). Si consideramos la variable aleatoria Y = X / n es muy sencillo demostrar que la esperanza de Y es np/n = p y que la varianza es (np(1 - p))/n2 = p(1 - p)/n. Aplicando la desigualdad de Chebyshev a Y con t = obtenemos: (6.4) P -p . Es decir el límite (6.3) existe o dicho en palabras algo más simples dada cualquier precisión se puede encontrar un valor n de manera que el cociente éxitos entre el total de ensayos esté tan cerca del valor p desconocido como queramos. En cierta forma esta última desigualdad da legitimidad al proceso estadístico que se ha citado en la definición (10), pues garantiza que el proceso descrito en esta definición en realidad converge al valor de la probabilidad del evento. Por supuesto que no resuelve en forma simple el problema operacional de saber cuál debe ser el número de repeticiones del experimento necesarias para obtener aproximaciones precisas de la probabilidad buscada. Se puede utilizar la desigualdad de Chebyshev para obtener aproximaciones del valor de n pero el teorema del límite central, que abordaremos en la sección siguiente será de mayor utilidad en ese sentido. Las conclusiones que se han obtenido hasta ahora se resumen en el siguiente teorema conocido como una forma débil de la ley de los grandes números [2]. (6.5) P - P[ ] = 0. Paralela a la la forma débil de la ley de los grandes números existe una generalización que se llama la Ley de los grandes Números cuya justificación está fuera de los objetivos de este curso [6] y se enuncia en el siguiente teorema: (6.6) P - ] = 0. Dicho en otras palabras la probabilidad de que el promedio Sn/n difiera de la esperanza menos que un cualquiera, tiende a uno. El Teorema del Límite Central El último teorema de la sección previa es generalizado por otro teorema cuya importancia en aplicaciones de la probabilidad y estadística es mucho mayor. El teorema del límite central se enuncia seguidamente: (6.7) P x Donde y = (y) - (x). (z) es la distribución normal estándar. La importancia de este teorema es enorme, en especial porque no tiene ninguna condición especial sobre el tipo de distribución al que se aplica. Puede ser continua o discreta, no importa como sean, en promedio la suma de estas variables se distribuyen como una normal con media n aleatoria media y varianza n . Este teorema también es válido para la variable = Sn/n para la que, si n se hace grande, distribuye como una normal de y varianza /n. Para explorar mejor el valor de este teorema se presesenta la siguiente aplicación que permite partir de una distribución de datos cualquiera y analizar la distribución de probabilidad de los posibles promedios de muestras sobre la distribución original. Aproximación Normal Binomial El teorema del límite central tiene una implicación adicional que también resulta sorprendente. Si Sn sigue una distribución binomial de parámetros n y p entonces si x y y son enteros no negativos tales que x < y, según el teorema del límite central se tiene que si n es suficientemente grande se cumple. (6.8) P x Sn - y . Este resultado se conoce como la aproximación normal de la binomial y dado que es aproximación continua de una distribución discreta deben tenerse algunos cuidados adicionales. La mejor manera de utilizar este resultado puede obtenerse en la expresión: (6.9) pk(1 - p)n - k = - El valor 1/2 que se agrega a cada lado se llama un factor de corrección de continuidad. La razón para agregar tal factor de corrección es que si uno usa una distribución normal, que es continua, para aproximar una binomial que es discreta, en cada extremo del intervalo la distribución discreta incluye la mitad de una barra que la distribución continua omite, por eso debe agregarse. Las siguientes gráficas pueden ayudarle a comprender la necesidad de este factor de corrección. Ejemplo 34 Se sabe que en una ciudad el 35% de los habitantes tienen sobrepeso. Se eligen 500 personas, cuál es la probabilidad de que haya entre 200 y 300 con sobrepeso. La solución de este problema se obtiene por la expresión (0.35)k(0.65)500 - k - . Usando la herramienta para cálculo de binomiales se obtiene que la parte izquierda es 0.008864 mientras que la parte derecha, usando la herramienta correspondiente es 0.0108. Existen varios criterios para asegurar la precisión de este tipo de aproximaciones. Los ejemplos abundan, por ejemplo en [5] se afirma que si np 5 y n(1 - p) 5 la aproximación es adecuada, en [2] se presenta un resumen de diferentes condiciones para asegurar precisión, al final de cuentas lo que si es válido es que valores de p muy cercanos a 0 o 1 hacen que las aproximaciones normales de binomiales no sean buenas. En la Herramienta que se da a continuación el lector puede colocar valores de n y p y verificar por si mismo la calidad de la aproximación normal de la binomial. Ejemplo 35 Dos empresas de venta de servicios telefónicos optan por el mismo mercado, hay n clientes que seleccionan al azar alguna de las dos empresas. Si una de las empresas tiene capacidad de atender a lo sumo r < n clientes entonces la probabilidad de que esta empresa reciba solicitudes de más de r clientes está dada por (.5)k(.5)n - k 1- =1Por ejemplo si hay 1000 clientes y una de las empresas desea que el total de solicitudes sin atender no exceda el 10% entonces usando las herramientas disponibles se obtiene que 0.9, de donde se obtiene que r = 520, líneas bastarán para satisfacer al menos el 90% de las demandas de servicio. Si ese porcentaje se elevara y se quisiera que el porcentaje de solicitudes sin atender no exceda el 1% entonces se debe resolver 0.99, usando las herramientas disponibles y despejando se obtiene que r = 537 líneas son suficientes. Esta aproximación no solo es buena, es excelente como puede verificarse usando las herramientas para binomiales que se han programado. Para estas herramientas se ha obtenido una precisión sorprendente, si hiciéramos el mismo análisis pero con una probabilidad de 0.7 de que cada cliente elija a esta empresa; usando la aproximación normal se obtendría que se necesitan 734 líneas si se usa la binomial en forma directa se ve que 733 bastan. Se invita al lector a ver el comportamiento para otros valores de p. Como nota aparte es interesante hacer notar que el desempeño de estas herramientas programadas mejoran los resultados que se obtienen en tablas como las de [6] además permiten una serie de exploraciones que de otra manera serían muy complicadas. Estimadores Un estimador de un parámetro de una variable aleatoria X es una variable aleatoria, que puede depender de una muestra aleatoria X1, X1,..., Xn. Los dos estimadores más usuales son el promedio usual llamado también media muestral y denotado por y la varianza muestral denotado por S2. Estos estimadores son a su vez variables aleatorias, (6.10) = Xi (6.11) S2 = (Xi - )2 La desviación estándar muestral S es la raíz de la varianza. Como sus nombres lo indican, se tiene que , S2 lo es para la varianza Var[X] y S para la desviación esperanza estándar es un estimador para la . El siguiente teorema, que en algunos textos [5] se llama teorema del límite central, es sumamente útil pues permite resolver diversos ejercicios de manera bastante simple. 1. E[ ]= 2. E[S2] = 3. Var[ ] = 4. Si n es suficientemente grande, entonces la variable Z= (6.12 ) 5. sigue una distribución que se aproxima a una normal estándar. Este teorema puede ampliarse de forma directa a la distribución T = n = X1 + X2 + ... + Xn la cual también sigue una distribución normal con media n y desviación estándar . Nuevamente, entre mayor sea el valor de n mejor será la aproximación. Hemos desarrollado una aplicación que nos permite simular el comportamiento de los promedios de las varianzas cuando se parte de una distribución con k valores cualesquiera y se estudia valores de n suficientemente grandes. El estudiante puede variar la distribución de probabilidad inicial así como los datos iniciales y la herramienta le muestra cual es la distribución de probabilidad de la variable promedio. El estudiante mediante exploración podrá validar los resultados que se han discutido previamente, en especial puede ver como a valores mayores de n la distribución de las medias se acerca más a una normal. En papel la aplicación es bastante simple, toma una distribución de probabilidad y un valor n que es el tamaño del muestreo. Calcula todas las combinaciones de X1, X2,..., Xn, hace los promedios, les calcula las probabilidades a cada uno y construye la distribución de probabilidad de los mismos, la cual se presenta en forma de tabla y en forma gráfica. Algunos Ejemplos Ejemplo 36 En una gran empresa el 60% de las personas tiene problemas de tensión. Cuál es la probabilidad de que en una muestra de 1000, 615 o más presenten este problema. Solución Este problema es de tipo binomial, puede resolverse calculando en forma directa 1 - B(614;1000,.6) lo que conduce al valor 0.158528, También podemos recurrir a la aproximación normal de binomial y la probabilidad solicitada es: P[X 615] = =1- (.93597) = 0.174 Ejemplo 37 Las consultas a un sistema tienen una duración cuya media es de 4 segundos y su desviación estándar es de 1.5 segundos. Si llegan 50 consultas en forma independiente, cuál es la probabilidad de que las 50 tengan una duración promedio entre 3.5 y 3.8 segundos. Solución Si aplicamos los resultados descritos hasta ahora el promedio de la muestra de las 50 consultas sigue una distribución que es aproximadamente normal con media = 1.5/ = 4 y desviación estándar = 0.2121. Luego: P[3.5 X 3.8] = - = 0.1645. Ejemplo 38 Una sonda espacial cuenta con un juego de 10 computadores para controlar su estado. En todo momento se encuentra trabajando un único computador y estos trabajan en forma serial de manera que en el instante en que uno falle empieza a funcionar el siguiente, y así sucesivamente hasta utilizar los 10 computadores. La sonda está por pasar detrás de un planeta, por lo que se espera no tener comunicación con ella durante 4000 horas. Si cada computador opera correctamente 440 horas en promedio con una desviación estándar de 30 horas, entonces el tiempo acumulado de funcionamiento, Y de todas los computadores sigue una distribución que se puede aproximar por una normal con media 1440 y desviación estándar 30 . P[Y > 4000] = 1 =1- (- 4.21) 1. Si el promedio de funcionamiento de cada computador fuera de 410 horas y la desviación estándar de 30 entonces la probabilidad pedida sería: P[Y > 4000] = 1= 1 - (- 1.05409) = 1 - 0.14592 = 0.85408. Ejemplo 39 El rendimiento de cierto cilindro de gas está normalmente distribuido con una media de 6 horas y una desviación estándar de 0.5 horas. Este gas se vende en paquetes de 5 cilindros y en cada paquete se utilizan los cinco cilindros en forma secuencial, es decir se empieza uno solamente si se ha terminado el anterior. Se desea determinar el tiempo máximo de duración de cada paquete de manera que éste sea excedido sólo por el 3% de los paquetes. Solución Como el tiempo de duración de cada cilindro es normal la distribución del tiempo TP = T1 + ... + T5 de cada paquete también es normal con media 30 y desviación estándar 0.5 , lo que se solicita es un valor c tal que. P[TP < c] = 0.97 = P[Z < ] = 0.97 De la herramienta correspondiente se obtiene = 1.8807 es decir c = 31.977, es decir solo un 3% de los paquetes tienen una duración de más de 31.977 horas. Ejemplo 40 La duración de una batidora de un cierto fabricante es de 5 años, con una desviación estándar de un año. Si asumimos que las duraciones de estos mezcladores siguen aproximadamente una distribución normal, la aplicación de los teoremas estudiados nos permiten hacer las siguientes deducciones. Si se toma una muestra aleatoria de 9 de estas batidoras entonces como la duración de un mezclador es de 5 años con una desviación de 1 año, la duración promedio sigue una distribución normal con la media de 5 años con una desviación de = = 0.3333. Si se quiere la probabilidad de que en promedio este grupo dure entre 4.4 y 5.2 años se tiene P[4.4 5.2] = P[- 1.8 Z .60] = 0.9918 - 0.0359 = 0.9559 O por ejemplo el valor de a la derecha del cual caería el 15% de las medias calculadas de la muestras aleatorias de tamaño 9 se obtiene del cálculo. P[ ] = 0, 15 o bien P[ ] = P[Z ] = 0, 85 de la tabla y despejando se obtiene = 5, 35, es decir si se compraran 9 batidoras un 15% de éstas funcionaría por un período superior a 5.35 años. Ejemplo 41 Un médico atiende un paciente en un tiempo que es una variable aleatoria con media = 8 minutos y desviación estándar 3 minutos. Si debe atender un total de 40 pacientes la probabilidad de que atienda todos los pacientes en menos de 5 horas, asumiendo que los pacientes ingresan, en forma continua es P[T = T1 + ... + T40 300] = P[Z < ] = 0, 1469 La probabilidad de que el tiempo promedio de atención sea superior a 7.5 minutos se obtiene de P[ > 7.5] = 1 - P[Z ] = 0.8531