Estrategia didáctica 3.2.2.1. Tipos de variables Para hacer predicciones de una variable aleatoria es necesario conocer 3 características de ella: su distribución, su medida de tendencia central (media) y su medida de dispersión (desviación estándar). Esta condición tendrá una importancia mayor en todo este texto. Recordemos que cuando se tratan las variables discretas (la binomial y la hipergeométrica), se dibuja su distribución y se calcula su media (o esperanza matemática) y su varianza (o desviación estándar cuadrática). Al conocer estas tres características, la variable aleatoria discreta esta bien definida y se podían realizar cálculos de probabilidades con ellas, es decir, se podía hacer predicciones acerca de los posibles valores que podían tomar. Conocemos dos distribuciones discretas, que, como ya se dijo, son la binomial y la hipergeométrica. Sin embargo, no solamente existen las variables discretas, sino que también existen variables aleatorias continuas. Por ejemplo las siguientes variables son aleatorias (impredecibles) y sus valores alcanzan cualquier valor entre un intervalo de valores bien definidos: 1. Tiempo de traslado de un alumno de su casa a la escuela por la mañana. (puede haber hecho alguna vez un tiempo mínimo de 10 minutos y uno máximo de 40 minutos, dependiendo de la hora de salida, del transporte usado, del tráfico, y es posible que cualquier tiempo entre esos valores pueda hacerlo durante su traslado a la escuela.) 2. Peso de un bebé al nacer. (El peso de un bebé depende de la región u hospital donde haya nacido, el tipo de alimentación de la madre, de la genética, etcétera, pero en cierta región los bebés podría pesar entre 1 y 4 kilos, y cualquier bebé podría pesar al nacer cualquier valor en el rango señalado). 3. Salario de los licenciados en derecho recién egresados de una Universidad (el salario puede ser de entre 4000 y 12000 pesos, dependiendo del tiempo de permanencia de los egresados en la Facultad, del promedio, del tipo de Universidad de donde egresaron, etcétera). Observa que hay 3 variables continuas, tiempo, peso y salario definidos en un rango de valores posibles. Es claro que las variables están determinadas dentro de ese rango porque dependen de la población de donde se obtienen y de las condiciones en las que son obtenidas. Por ejemplo, si un alumno vive lejos del Colegio y su tiempo de traslado oscila entre 50 y 90 minutos, entonces el valor de 20 minutos será prácticamente imposible de que lo realice alguna vez, porque su tiempo de traslado se hace bajo otras condiciones distintas a las del traslado del alumno del primer ejemplo. Lo mismo sucede con los dos ejemplos posteriores. Con ello debe remarcarse que primero debe determinarse con mucho cuidado una población de referencia y precisarla lo mejor posible antes de definir una variable dentro de ella. Por ejemplo, si decimos que la población que deseamos investigar es la de 1 los alumnos del CCH Azcapotzalco, del turno matutino, de sexto semestre que viven en el estado de México, que no tienen materias reprobadas y que pertenecen a la generación que egresa en el 2008, entonces podemos definir la variable aleatoria continua “tiempo de estudio de los alumnos antes de un examen de estadística”. Al hacer este tipo de precisiones, se puede fácilmente determinar el rango posible de valores que la variable puede alcanzar. En el ejemplo citado se tendrá que el tiempo de estudio podría ser de 1 a 6 horas. Es muy importante precisar con cuidado la población de referencia en la que se le definirá una variable. Esto se debe a que si se define de manera muy general entonces el rango de valores se dispara. Por ejemplo, si definimos una población simplemente como los alumnos del CCH Azcapotzalco y queremos definir la variable aleatoria continua “tiempo de traslado de los alumnos de su casa a la escuela” entonces debido a la ambigüedad de la población, el rango de la variable podría ser desde 0 a 180 minutos. Esto ya no es útil porque la población resultará muy grande y muy irregular. Así también si un ingeniero forestal desea estudiar la altura de los árboles esta podría oscilar entre 1 y 50 metros si no define claramente la especie se árbol que desea medir y la región donde se encuentra. Si especifica que desea estudiar a los laureles, podría decir que solo quiere determinar la altura de los laureles del bosque de Chapultepec, que tienen 10 años o más de edad, que no tienen cierto tipo de plaga, con ciertas características genéticas, etcétera. En este caso el rango de valores será más específico, digamos entre 4 y 6 metros. Para el primer ejemplo que se dio anteriormente, la población a la que se refiere el tiempo del alumno que hace entre 10 y 40 minutos, consiste de todos los posibles tiempos de traslado que ha hecho durante su estancia en el Colegio. Para el caso de los bebés, la población será la de todos los pesos de los bebés que han nacido durante cierto período en un hospital específico con las condiciones dadas por el ejemplo. Pero, ¿Por qué es necesario especificar de esta manera la población? ¿Qué ventajas se tienen estadísticamente hablando? Lo que sucede es que esto facilita la caracterización de una variable aleatoria continua. Ya se dijo antes que para hacer predicciones de una variable, es necesario conocer su distribución su media y su desviación estándar. Si somos muy precisos al definir una variable continua, entonces será muy útil para que intuyamos la distribución de la variable. Si se revisa la práctica 3, se observará en ella las familias de curvas que llamamos modelos de población o distribuciones. Recordemos que se clasificaron en 3 grupos. Para este curso, particularmente estudiaremos la familia de curvas (1) que son las llamadas curvas normales (o curvas de campana, curvas normales o gaussianas). Las demás se estudian en cursos más avanzados. 2 Se sabe, por ejemplo, que cuando se especifica de manera tan precisa la población donde se definirá la variable aleatoria continua, es muy probable que se distribuya en forma normal. Esto significa que, por ejemplo, el peso de los bebés al nacer, dado en el ejemplo 2, se distribuya normalmente, lo que significa que la gráfica que describe el peso de los bebés sea la curva o modelo normal. Pero si la población está muy generalizada, seguramente la curva que describe a la variable (por ejemplo si la definimos simplemente como peso de los bebés al nacer, sin especificar nada más), no será normal. Tal vez sea asimétrica positiva o asimétrica negativa (e incluso podría tener dos o más modas), dependiendo del nivel económico de la región. Si se mide el peso de los bebés al nacer en Chiapas, tal vez la distribución del peso en los bebés sea asimétrica positiva porque la mayoría de ellos tendrá bajo peso y pocos tendrá un peso alto. Pero esto ocurrirá porque se han combinado todo tipo de etnias y personas urbanas y rurales que tienen distintos niveles económicos. EJERCICIOS 1. Da 3 ejemplos de poblaciones donde la variable sea continua, especificando con cuidado la población en la que deseas definirla y el rango de valores posible que dicha variable puede alcanzar. 2. Da ejemplos de variables continuas que se distribuyan en forma asimétrica positiva, asimétrica negativa y en forma de “j“ invertida (también llamada distribución exponencial) . 3. Define para ti mismo la variable continua “tiempo de traslado de tu casa al Colegio” y especifica el rango de valores de la variable y su distribución, determinando cuidadosamente la población. 4. Piensa en una población en Biología y especifica claramente una variable en ella. 5. Piensa en una población en Educación y especifica claramente una variable en ella. Guardar con el nombre nombre-apellido.E3.2.2.1Variables-grupo.doc 3 LECTURA La probabilidad y la estadística fueron empezadas e estudiarse matemáticamente en el siglo XVII. La probabilidad surgió aproximadamente en 1660 y la estadística, entendida no como una simple reunión de datos, sino como una reunión y clasificación de datos para obtener información de ellos, aproximadamente en 1662, que fue la fecha en la que John Graunt publicó su libro “Billetes de Mortalidad”, en el que hizo varias inferencias acerca del estado de la población en Londres luego de una epidemia de peste. Se sabe que en Sumeria, Roma, Egipto, Grecia y en otras grandes civilizaciones, ya existían juegos de azar, como los dados, y había emperadores romanos, Marco Aurelio era uno de ellos, que eran fanáticos de los juegos de azar a los que dedicaban mucho tiempo, pero no se conoce algún estudio matemático del azar realizado por sumerios, griegos, egipcios o romanos. Se sabe, sin embargo, que quienes tuvieron resultados importantes en la probabilidad fueron los hindúes, aunque parece que la relacionaron con la religión para usarla con propósitos morales. De cualquier forma, se desconoce la mayoría de los textos de los matemáticos hindúes, y por ello no se sabe con precisión cuál fue su grado de avance en la estadística. Existen textos sorprendentes que se pueden hallar en los poemas hindúes como el Mahábharata, que no ha sido traducido por completo del sánscrito, en los que parece que ya se manejaban conceptos estadísticos nada triviales. Les voy a resumir la historia, llamada “Nala y Damayanti”, que tal vez sea la más conocida de esa epopeya: En un viaje, un hombre llamado Nala, conoce a un rey extranjero, Rituparna, quien hace alarde de sus habilidades matemáticas al estimar el número de hojas y frutos que había en dos grandes ramas de un árbol frondoso. Lo infiere con base en una sola rama pequeña del árbol que examina. Hay, afirma, 2095 frutos. Nala cuenta los frutos toda la noche y queda sumamente sorprendido por la precisión de la conjetura. Rituparna, a solicitud de Nala, accede a enseñarle esta ciencia a cambio de que Nala le dé lecciones de manejo de los caballos. El texto dice así: “Nala bajó rápido del carro y contó el árbol. Y admirado dijo al rey; “Los he contado y había los frutos que tú dijiste. He visto tu ciencia maravillosa, oh rey; deseo conocer el medio por el que se aprende esa ciencia”. El rey le respondió: “Sabe que soy hábil en el juego de dados y entendido en la ciencia de contar.” Antes de aprender esta ciencia, Nala era un apostador excesivo, pero luego de aprenderla es capaz de hacer apuestas más sensatas. El Mahábharata no menciona con detalle de qué ciencia se trata, pero reconoce, como ya se vio, que Rituparna usa los dados para estimar el número de hojas del árbol. Como quiera que sea, el concepto de estimación sólo empezó a ser estudiado en Europa hasta el siglo XIX, lo cual quiere decir que los hindúes, mucho antes que los europeos, ya tenían una posible teoría del muestreo. 4 El texto del Mahábharata, ya se había completado alrededor del siglo IV dc, como ahora se conoce, aunque parece ser que la redacción del texto fue aproximadamente en el siglo IV ac. Existe una traducción del episodio de Nala del Mahábharata, en la colección Austral de la editorial Espasa Calpe, en cuyos capítulos XIV, XV y XX, encontrarán los amenos diálogos de los personajes de esta leyenda. 5