Algo de Metodología 1. Introducción Tomado de: http://www.uaq.mx/matematicas/estadisticas/xu2.html Para la aplicación de los métodos estadísticos a las ciencias sociales, es necesario comenzar a reconocer la existencia de algunas herramientas y conceptos que, de manera genérica, no se abordan en los cursos de estadística a nivel teórica. Por un lado, en esta unidad se tocarán temas que, aún relacionados con la parte metodológica, son importantes para considerarse a lo largo del curso. Tal es el caso del concepto de variable y su clasificación, pues ésto puede ser considerado al momento de seleccionar las herramientas que le pueden ser aplicadas. Por otro lado, también el uso de instrumentos para recopilar la información resulta una parte fundamental para la obtención de datos en el área social, y sus características y validez se deben tomar en cuenta al momento de trabajar en la obtención y recopilación de la información. 2. Variables En los estudios estadísticos que se realizan se busca investigar acerca de una o varias características de la población observada. Para un correcto manejo de la información, estas características deben ser tomadas en cuenta de acuerdo a su tipo para poder hablar de la aplicación de algunas de las operaciones que más adelante se llevarán a cabo. Una variable es una función que asocia a cada elemento de la población la medición de una característica, particularmente de la característica que se desea observar. 2.2 Clasificación de variables De acuerdo a la característica que se desea estudiar, a los valores que toma la variable, se tiene la siguiente clasificación: 1. Las variables categóricas son aquellas cuyos valores son del tipo categórico, es decir, que indican categorías o son etiquetas alfanuméricas o "nombres". A su vez se clasifican en: a. variables categóricas nominales: son las variables categóricas que, además de que sus posibles valores son mutuamente excluyentes entre sí, no tienen alguna forma "natural" de ordenación. Por ejemplo, cuando sus posibles valore son: "sí" y "no". A este tipo de variable le corresponde las escalas de medición nominal. b. variables categóricas ordinales: son las variables categóricas que tienen algún orden. Por ejemplo, cuando sus posibles valores son: "nunca sucede", "la mitad de las veces" y "siempre sucede". A este tipo de variable le corresponde las escalas de medición ordinal. 2. Las variables numéricas toman valores numéricas. A estas variables le corresponde las escalas de medición de intervalo, y a su vez se clasifican en: a. variables numéricas discretas: son las variables que únicamente toman valores enteros o numéricamente fijos. Por ejemplo: las ocasiones en que ocurre un suceso, la cantidad de pesos que se gastan en una semana, los barriles de petróleo producidos por un determinado país, los puntos con que cierra diariamente una bolsa de valores, etcétera. b. variables numéricas continuas: llamadas también variables de medición, son aquellas que toman cualquier valor numérico, ya sea entero, fraccionario o, incluso, irracional. Este tipo de variable se obtiene principalmente, como dice su nombre alterno, a través de mediciones y está sujeto a la precisión de los instrumentos de medición. Por ejemplo: el tiempo en que un corredor tarda en recorrer una cierta distancia (depende de la precisión del cronómetro usado), la estatura de los alumnos de una clase (depende de la precisión del instrumento para medir longitudes), la cantidad exacta que despacha una bomba de combustible (para efectos de regulación y fiscalización, y depende de la precisión del instrumento para medir volúmenes), etcétera. 3. Escalas de medición Las escalas de medición son el conjunto de los posibles valores que una cierta variable puede tomar. Por esta razón, los tipos de escalas de medición está íntimamente ligada con los tipos de variables. Su clasificación es: I. II. III. La escala de medición nominal: es la que incluye los valores de las variables nominales, que no tienen un orden preestablecido y son valores mutuamente excluyentes. La escala de medición ordinal: es la que incluye los valores de las variables ordinales que pueden ser ordenadas en un determinado orden, aunque la distancia entre cada uno de los valores es muy difícil de determinar. La escala de medición de intervalo: a la que le corresponden las variables numéricas. En esta escala de medición se encuentra un orden muy establecido y la distancia entre cada uno de los valores puede ser determinada con exactitud. Es posible observar que cada uno de dichos intervalos miden exactamente los mismo. Es importante mencionar considerar los tipos de escalas de medición, pues sólo en algunos tipos de escalas de medición se podrán aplicar algunas de las herramientas estadísticas que se verán en la siguiente unidad. Esto es porque, mientras que para las escalas de intervalo es posible calcular proporciones, porcentajes y razones, y además la media, la mediana, la moda, el rango y la desviación estándar; para el caso de las escalas nominal y ordinal no se pueden aplicar éstas últimas, restringiéndose las opciones al cálculo de proporciones, porcentajes y razones. 4. Instrumentos de medición Los instrumentos de medición son las herramientas que se utilizan para llevar a cabo las observaciones. De acuerdo a lo que se desea estudiar, la característica a observar, sus propiedades y factores relacionados como el ambiente, los recursos humanos y económicos, etcétera, es que se escoge uno de estos instrumentos. Vamos a considerar básicamente tres: la observación, la encuesta (que utiliza cuestionarios) y la entrevista. Trataremos más adelante cada uno de éstos, y por lo pronto mencionaremos algunos puntos que, en general, coinciden los tres. Podemos decir que, a grandes rasgos, el proceso para utilizar, y escoger, alguno de estos instrumentos de medición, es el siguiente: 1. Definir el objeto de la encuesta: formulando con precisión los objetivos a conseguir, desmenuzando el problema a investigar, eliminando lo superfluo y centrando el contenido de la encuesta, delimitando, si es posible, las variables intervinientes y diseñando la muestra. Se incluye la forma de presentación de resultados así como los costos de la investigación. 2. La formulación del cuestionario que se utilizará o de los puntos a observar es fundamental en el desarrollo de una investigación, debiendo ser realizado meticulosamente y comprobado antes de pasarlo a la muestra representativa de la población. 3. El trabajo de campo, consistente en la obtención de los datos. Para ello será preciso seleccionar a los entrevistadores, formarlos y distribuirles el trabajo a realizar de forma homogénea. 4. Obtener los resultados, o sea, procesar, codificar y tabular los datos obtenidos para que luego sean presentados en el informe y que sirvan para posteriores análisis. 4.2 La observación Es la técnica de estudio por excelencia y se utiliza en todas las ramas de la ciencia. Su uso está guiado por alguna teoría y ésta determina los aspectos que se van a observar. Hay que tomar en cuenta que para que sea válido este instrumento de observación, se deben observar algunas sugerencias que Castañeda Jiménez expone en su libro: 1. Con respecto a las condiciones previas a la observación: o El observador debe estar familiarizado con el medio. o Se deben realizar ensayos de la observación, previos a la observación definitiva. o El observador debe memorizar lo que se va a observar. 2. Con respecto al procedimiento en la observación: o Las notas deben ser registradas con prontitud (en minutos). o Las notas deben incluir las acciones realizadas por el observador. 3. Con respecto al contenido de las notas: o Las notas deben contener todos los datos que permitan identificar el día, el lugar y la hora de la observación, así como las circunstancias, los actores, etcétera, que estuvieron involucrados. Se deben eliminar apreciaciones subjetivas sobre el carácter o personalidad de los sujetos. En su lugar se debe incluir la descripción de los hechos. o Las conversaciones van transcritas en estilo directo. o Las opiniones y deducciones del observador se deben hacer aparte, de preferencia al margen para así no perder la relación entre la opinión del observador y la parte de las notas a que le corresponde. 4. Con respecto a la ordenación de las notas: o Las notas deben ser revisadas y corregidas a la brevedad posible. o Asimismo, las notas deben ser clasificadas y ordenadas para permitir su manejo más ágil, además de evitar que se pierdan, se confundan con otras partes de la observación, se traspapelen, etcétera. o 4.3 La encuesta Esta herramienta es la más utilizada en la investigación de ciencias sociales. A su vez, ésta herramienta utiliza los cuestionarios como medio principal para allegarse información. De esta manera, las encuestas pueden realizarse para que el sujeto encuestado plasme por sí mismo las respuestas en el papel. Es importantísimo que el investigador sólo proporcione la información indispensable, la mínima para que sean comprendidas las preguntas. Más información, o información innecesaria, puede derivar en respuestas no veraces. De igual manera, al diseñar la encuesta y elaborar el cuestionario hay que tomar en cuenta los recursos (tanto humanos como materiales) de los que se disponen, tanto para la recopilación como para la lectura de la información, para así lograr un diseño funcionalmente eficaz. Según M. García Ferrando, "prácticamente todo fenómeno social puede ser estudiado a través de las encuestas", y podemos considerar las siguientes cuatro razones para sustentar ésto: 1. Las encuestas son una de las escasas técnicas de que se dispone para el estudio de las actitudes, valores, creencias y motivos. 2. Las técnicas de encuesta se adaptan a todo tipo de información y a cualquier población. 3. Las encuestas permiten recuperar información sobre sucesos acontecidos a los entrevistados. 4. Las encuestas permiten estandarizar los datos para un análisis posterior, obteniendo gran cantidad de datos a un precio bajo y en un período de tiempo corto. Según Cadoche y sus colaboradores, las encuestas se pueden clasificar atendiendo al ámbito que abarcan, a la forma de obtener los datos y al contenido, de la siguiente manera: Encuestas exhaustivas y parciales: Se denomina exhaustiva cuando abarca a todas las unidades estadísticas que componen el colectivo, universo, población o conjunto estudiado. Cuando una encuesta no es exhaustiva, se denomina parcial. Encuestas directas e indirectas: Una encuesta es directa cuando la unidad estadística se observa a través de la investigación propuesta registrándose en el cuestionario. Será indirecta cuando los datos obtenidos no corresponden al objetivo principal de la encuesta pretendiendo averiguar algo distinto o bien son deducidos de los resultados de anteriores investigaciones estadísticas. Encuestas sobre hechos y encuestas de opinión: Las encuestas de opinión tienen por objetivo averiguar lo que el público en general piensa acerca de una determinada materia o lo que considera debe hacerse en una circunstancia concreta. Se realizan con un procedimiento de muestreo y son aplicadas a una parte de la población ya que una de sus ventajas es la enorme rapidez con que se obtienen sus resultados. No obstante, las encuestas de opinión no indican necesariamente lo que el público piensa del tema, sino lo que pensaría si le planteásemos una pregunta a ese respecto, ya que hay personas que no tienen una opinión formada sobre lo que se les pregunta y contestan con lo que dicen los periódicos y las revistas. A veces las personas encuestadas tienen más de una respuesta a una misma pregunta dependiendo del marco en que se le haga la encuesta y por consecuencia las respuestas que se dan no tienen por qué ser sinceras. Las encuestas sobre hechos se realizan sobre acontecimientos ya ocurridos, hechos materiales. Los cuestionarios pueden ser: Cuestionario individual: Es el que el encuestado contesta de forma individual por escrito y sin que intervenga para nada el encuestador. Cuestionario-lista: El cuestionario es preguntado al encuestado en una entrevista por uno de los especialistas de la investigación. Como los cuestionarios están formados por preguntas, consideremos las características que deben reunir, pues deben excluyentes y exhaustivas, lo que se refiere a que una pregunta no produzca dos respuestas y, simultáneamente, tenga respuesta. (A cada pregunta le corresponde una y sólo una respuesta.) Por otro lado, una manera de clasificar a las preguntas es por la forma de su respuesta: Preguntas cerradas: que consiste en proporcionar al sujeto observado una serie de opciones para que escoja una como respuesta. Tienen la ventaja de que pueden ser procesadas más fácilmente y su codificación se facilita; pero también tienen la desventaja de que si están mal diseñadas las opciones, el sujeto encuestado no encontrará la opción que él desearía y la información se viciaría. Una forma de evitar ésto es realizar primero un estudio piloto y así obtener las posibles opciones para las respuestas de una manera más confiable. También se consideran cerradas las preguntas que contienen una lista de preferencias u ordenación de opciones, que consiste en proporcionar una lista de opciones al encuestado y éste las ordeanará de acuerdo a sus interes, gustos, etcétera. Preguntas abiertas: que consisten en dejar totalmente libre al sujeto observado para expresarse, según convenga. Tiene la ventaja de proporcionar una mayor riqueza en las respuestas; mas, por lo mismo, puede llegar a complicar el proceso de tratamiento y codificación de la información. Una posible manera de manipular las preguntas abiertas es llevando a cabo un proceso de categorización, el cual consiste en estudiar el total de respuestas abiertas obtenidas y clasificarlas en categorías de tal forma que respuestas semejantes entre sí queden en la misma categoría. Es importante mencionar que es el objetivo de la investigación la que determina el tipo de preguntas a utilizar. Según Cadoche y sus colaboradores, las preguntas pueden ser clasificadas de acuerdo a su contenido: Preguntas de identificación: edad, sexo, profesión, nacionalidad, etcétera. Preguntas de hecho: referidas a acontecimientos concretos. Por ejemplo: ¿terminó la educación básica? Preguntas de acción: referidas a actividades de los encuestados. Por ejemplo: ¿ha tomado algún curso de capacitación? Preguntas de información: para conocer los conocimientos del encuestado. Por ejemplo: ¿sabe qué es un hipertexto? Preguntas de intención: para conocer la intención del encuestado. Por ejemplo: ¿utilizará algún programa de computación para su próxima clase? Preguntas de opinión: para conocer la opinión del encuestado. Por ejemplo: ¿qué carrera cursarás después del bachillerato? Otra clasificación propuesta es según la función que las preguntas desarrollen dentro del cuestionario. De esta manera tenemos: Preguntas filtro: son aquéllas que se realizan previamente a otras para eliminar a los que no les afecte. Por ejemplo: ¿Tiene usted coche? ¿Piensa comprarse uno? Preguntas trampa o de control: son las que su utilizan para descubrir la intención con que se responde. Para ello se incluyen preguntas en diversos puntos del cuestionario que parecen independientes entre sí, pero en realidad buscan determinar la intencionalidad del encuestado al forzarlo a que las conteste coherentemente (ambas y por separado) en el caso de que sea honesto, pues de lo contrario «caería» en contradicciones. Preguntas de introducción o rompehielos: utilizadas para comenzar el cuestionario o para enlazar un tema con otro. Preguntas muelle, colchón o amortiguadoras: son preguntas sobre temas peligrosos o inconvenientes, formuladas suavemente. Preguntas en batería: conjunto de preguntas encadenadas unas con otras complementándose. Preguntas embudo: se empieza por cuestiones generales hasta llegar a los puntos más esenciales. Para la realización de un cuestionario eficaz y útil, Cadoche y su equipo proponen 17 reglas fundamentales para su elaboración: 1. 2. 3. 4. 5. 6. Las preguntas han de ser pocas (no más de 30). Las preguntas preferentemente cerradas y numéricas. Redactar las preguntas con lenguaje sencillo. Formular las preguntas de forma concreta y precisa. Evitar utilizar palabras abstractas y ambiguas. Formular las preguntas de forma neutral. 7. En las preguntas abiertas no dar ninguna opción alternativa. 8. No hacer preguntas que obliguen a esfuerzos de memoria. 9. No hacer preguntas que obliguen a consultar archivos. 10. No hacer preguntas que obliguen a cálculos numéricos complicados. 11. No hacer preguntas indiscretas. 12. Redactar las preguntas de forma personal y directa.} 13. Redactar las preguntas para que se contesten de forma directa e inequívoca. 14. Que no levanten prejuicios en los encuestados. 15. Redactar las preguntas limitadas a una sola idea o referencia. 16. Evitar preguntas condicionantes que conlleven una carga emocional grande. 17. Evitar estimular una respuesta condicionada. Es el caso de preguntas que presentan varias respuestas alternativas y una de ellas va unida a un objetivo tan altruista que difícilmente puede uno negarse. Asimismo, hay que considerar que no todas las preguntas, o todas las formulaciones, posibles son aquellas que se pueden utilizar. Consideremos las siguientes algunos ejemplos de las preguntas que no deben hacerse: Preguntas de intelectuales: Por ejemplo: ¿Qué aspectos particulares del actual debate positivista-interpretativo le gustaría ver reflejados en un curso de psicología del desarrollo dirigido a una audiencia de maestros? Preguntas complejas: Por ejemplo: ¿Cuando prepara sus clase prefiere consultar un libro determinado incorporando la terminología que este propone o escoge varios libros de los que extrae un poco de cada uno pero que explica con sus propias palabras para hacerlos más accesibles a sus alumnos y no confudirlos? Preguntas o instrucciones irritantes: Por ejemplo: ¿Ha asistido alguna vez en tiempo de servicio a un curso de cualquier clase durante su carrera entera de maestro?. Si tiene mas de 40 años y nunca ha asistido a un curso, ponga una marca en la casilla rotulada NUNCA y otra en la casilla rotulada VIEJO. Preguntas que emplean negaciones: Por ejemplo: ¿Cuál es su sincera opinión sobre que ningún maestro debería dejar de realizar cursos de perfeccionamiento durante su ejercicio profesional? Preguntas demasiado abiertas: Por ejemplo: Use las pág. 5,6 y 7 respectivamente para responder a cada una de las cuestiones a cerca de sus actitudes respecto a los cursos de perfeccionamiento en general y a sus opiniones a cerca de su valor en la vida profesional del maestro. Con todo lo anterior nos podemos imaginar la importancia del planteamiento y la elaboración del cuesitonario, pues de la forma en que este instrumento se elabore y se redacte dependerán los resultados. Una encuesta no puede obtener buenos resultados con un mal cuestionario, pues si el cuestionario es oscuro, ambiguo o impreciso, los resultados jamás podrán ser menos oscuros, ambiguos o imprecisos, sino al contario: se acentuarán estas deficiencias. Castañeda Jiménez propone tomar en cuenta lo siguiente: 1. En la elaboración o construcción del instrumento: o Hay que determinar los reactivos de acuerdo a lo que se necesita observar. o Hay que determinar el orden de los reactivos de acuerdo a los aspectos que se mencionan más adelante. Se debe tener cuidado en la formulación de los reactivos. Una formulación incorrecta o diferente puede dar lugar a interpretaciones diferentes por parte del entrevistado a las que el observador desea. 2. Respecto al orden de los reactivos: o Es conveniente situar los reactivos que sean más difíciles de ser contestado honestamente al final, de esta manera no se desanimará de antemano el entrevistado. o Otra opción es repetir dos o tres reactivos que posean la misma información pero con diferente redacción. Estos reactivos de control permitirán detectar cuándo el entrevistado está contestando honestamente. 3. Respecto a la redacción de los reactivos: o La redacción, y el vocabulario, debe estar acorde a la persona observada, tomando en cuenta su edad, nivel cultural, nivel escolar, nivel socio-económico, etcétera. o Cada reactivo debe contener una y sólo una pregunta. o En la redacción de la pregunta no debe estar sugerida alguna de las respuestas. o Tampoco conviene apoyarse o mencionar opiniones o sugerencias ya existentes, como son posiciones de instituciones, de personas, etcétera. o De manera muy similar, Cadoche y sus colegas proponen una guía para preparar un cuestionario: Decisiones sobre el contenido de las preguntas: 1. ¿Es necesaria la pregunta? ¿Será útil? 2. ¿Se necesitan varias preguntas sobre esta cuestión? 3. ¿Cuentan los informantes con los datos necesarios para contestar la pregunta? 4. ¿Necesita la pregunta ser más concreta, específica e íntimamente ligada con la experiencia personal del informante? 5. ¿Es el contenido de la pregunta lo suficientemente general y está libre de concreciones y especificidades falsas? 6. ¿Expresan las preguntas actitudes generales y son tan específicas como suenan? 7. ¿Está el contenido de la pregunta polarizado o cargado en una dirección sin preguntas acompañantes que equilibren el énfasis? 8. ¿Darán los informantes la información que se les pide? Decisiones sobre la redacción de las preguntas: 1. ¿Se puede malinterpretar la pregunta?¿Contiene fraseología difícil o poco clara? 2. ¿Expresa la pregunta adecuadamente la alternativa con respecto al punto?} 3. ¿Es engañosa la pregunta por culpa de asunciones no establecidas o de implicaciones que no se ven? 4. ¿Está polarizada la redacción?¿Está cargada emocionalmente o inclinada hacia un tipo particular de contestación? 5. ¿Puede ser objetable por el informante la redacción de la pregunta? 6. ¿Produciría mejores resultados una redacción mas personalizada de la pregunta? 7. ¿Puede preguntarse mejor la cuestión, de manera más directa o más indirecta? Decisiones sobre la forma de respuesta de la pregunta: 1. ¿Puede contestarse mejor la pregunta con un impreso que exija la contestación por una marca (o contestación corta de una o dos palabras, o un número), de respuesta libre o por una marca con contestación ampliatoria? 2. Si se usa la contestación por una marca, ¿cuál es el mejor tipo de cuestión: dicotómica, de elección múltiple, o de escala? 3. Si se usa una lista de comprobación,¿cubre adecuadamente todas las alternativas significativas sin solaparse y en un orden definible? ¿Es de una longitud razonable? ¿Es la redacción de los ítems imparcial y equilibrada? 4. ¿Es fácil, definida, uniforme y adecuada para la finalidad, la forma de respuesta? Decisiones sobre la ubicación de la pregunta en la secuencia: 1. ¿Puede verse influida por el contenido de las cuestiones precedentes la contestación a la pregunta? 2. ¿Está dirigida la pregunta en una forma natural? ¿Está en correcto orden psicológico? 3. ¿Aparece la pregunta demasiado pronto o demasiado tarde desde el punto de vista de despertar interés y recibir la atención suficiente? Se puede consultar el material, disponible a través de internet, que Cadoche y sus colaboradores han elaborado, y en el cual se trata más a fondo este punto de la elaboración del cuestionario y las preguntas. 4.4 La entrevista La entrevista es muy utilizada también en investigación social, y sus características son similares a las del cuestionario, siendo la principal diferencia el hecho de que es el encuestador u observador quien anota las respuestas a las preguntas. La utilización de este instrumento conlleva una mayor habilidad por parte del encuestador u observador en conducir el tema de la entrevista, debido a que las respuestas son por lo general abiertas y permiten implementar nuevas preguntas no contempladas por el encuestador inicialmente. Esto proporciona la ventaja de explotar temas no contemplados inicialmente o ahondar en algunos de los contemplados. Mas tiene la desventaja de que, si no se tiene la suficiente habilidad para mantener el tema, la entrevista se "pierde" e, incluso, puede invalidarse. Las recomendaciones en general y las referentes al tipo de preguntas utilizadas, son las mismas que las realizadas para el caso del cuestionario, aunque se le añade el uso de una grabadora (de audio o de vídeo) para la posterior transcripción de los diálogos. Hipertexto a cargo del L.E. Víctor Larios Osorio, del Depto. de Matemáticas de la Fac. de Ingeniería de la U.A.Q. (México). vil@sunserver.uaq.mx Unidad 3. Estadística Descriptiva 1. Introducción Tomado de: http://www.uaq.mx/matematicas/estadisticas/xu3.html Una de las ramas de la Estadística más accesible a la mayoría de la población es la Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y tratamiento mecánico de la información para su presentación por medio de tablas y de representaciones gráficas, así como de la obtención de algunos parámetros útiles para la explicación de la información. La Estadística Descriptiva es la parte que conocemos desde los cursos de educación primaria, que se enseña en los siguientes niveles y que, por lo general, no pasa a ser un análisis más profundo de la información. Es un primer acercamiento a la información y, por esa misma razón, es la manera de presentar la información ante cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que carezca de metodología o algo similar, sino que, al contrario, por ser un medio accesible a la mayoría de la población humana, resulta de suma importancia considerar para así evitar malentendidos, tergiversaciones o errores. 2. Representación de tronco y hoja Un método para iniciar el análisis exploratorio de los datos, previo al uso de los métodos estadísticos tradicionales, y que además proporciona información rápida, visual y es relativamente nueva, es la representación gráfica de tronco y hoja. Esta representación se basa en la ordenación de los datos a manera de gráfico, pero sin llegar a ello, utilizando las decenas y las unidades. Esta técnica se puede encontrar en el libro de Freund y Simon, pero comentaremos su uso a través del siguiente ejemplo que contiene las calificaciones obtenidas en una prueba de matemáticas: 78 66 93 73 61 100 70 76 81 83 83 64 88 91 74 70 97 77 72 86 Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es decir, el número 51 se verá como 5 | 1. De esta manera las decenas se pondrán en una columna, en forma vertical, y las unidades a su derecha: 6 7 8 9 10 1 8 3 3 0 6 0 8 7 4 4 2 3 6 0 7 1 3 6 1 Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6 4 quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64. Esta es la representación gráfica tronco y hoja, donde cada renglón es una posición de tronco y cada dígito de la derecha es una hoja. El procedimiento para realizarla es primero empezar con los troncos, es decir la columna de la izquierda, y después dato por dato ir llenando las hojas a la derecha de la línea vertical, en el tronco correspondiente. Además, si se desean tener los datos ordenados, y hay gente que lo prefiere así, se pueden ordenar las hojas en cada renglón para que la representación quede como sigue: 6 7 8 9 10 1 0 1 1 0 4 0 3 3 6 2 3 4 6 7 8 3 6 8 7 En realidad una representación de tronco y hojas presenta la misma información que la lista original de datos, pero de una manera mucho más compacta (especialmente si la lista de datos es más grande) y manejable. Sin embargo, información más compleja resulta un poco más difícil de manejar, por lo que en ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar las centenas u otras posiciones de los números para las troncos. En cada uno de esos casos conviene hacer alguna anotación, o poner una nota, a fin que los lectores puedan identificar las adecuaciones realizadas y así poder interpretar lo que se quiere transmitir. Para mostrar la información de manera más clara, es posible modificar el número de posiciones del posiciones del tronco, aumentándola o disminuyéndola de acuerdo a las necesidades particulares de cada problema. Por ejemplo, con los datos del examen anterior, se pueden dividir en dos cada posición del tronco, utilizando la primera posición para disponer las hojas 0, 1, 2, 3 y 4, y la segunda posición para las hojas restantes. De esta manera, se obtiene la representación gráfica de doble tronco: 66+ 77+ 88+ 99+ 10- 1 6 0 6 1 6 1 7 0 4 0 2 3 4 7 8 3 3 8 3 Con esto se han duplicado el número de posiciones del tronco, con la intención de buscar una mayor claridad en la presentación. Esta manera de representación inicial de los datos no la profundizaremos más, sino que la utilizaremos más adelante en algunos casos para, precisamente, presentar una representación inicial de la información obtenida. 3. Población y muestra Algo importante que hay que mencionar es que no siempre se trabaja con todos los datos. Ésto por diversas razones, que pueden ser desde prácticas hasta por economía. Por ejemplo, resultaría muy costoso obtener los datos de todos los seres humanos, o impráctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden las bombillas producidas por una cierta marca realizando la medición de toda la producción. El estudio conduciría a la empresa a la ruina, pues la producción entera desaparecería. Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y que se les obtienen los datos. La población, entonces, es el total hipotético de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de conseguir a la población, entonces se recurre a la muestra, que viene siendo un subconjunto de los datos de la población, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones. Un estudio más detallado de las características de las muestras para permitir tales generalizaciones se realizará más adelante. 3.2. Parámetros y estadísticos Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras, diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para el caso de las poblaciones, las medidas que las descriven se denominan parámetros, y suelen estar representadas con letras griegas (por ejemplo y ). Por otro lado, para el caso de aquellas medidas que describen a una muestra se les llama estadísticos o estimadores, y son representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas que describen a las poblaciones y a las muestras se comentarán enseguida. 4. Datos sin agrupar 5. Medidas de tendencia central para datos sin agrupar David Lane de la Universidad Rice (Rice Virtual Lab in Statistics) tiene un applet que demuestra las propiedades básicas de la media y la mediana. Puedes realizar un ejercicio calculando las medidas de tendencia central para una población de tamaño 20 haciendo click en la siguiente dirección: http://www.uaq.mx/matematicas/estadisticas/xu3js1.html 6. Medidas de dispersión para datos sin agrupar Para hacer un ejercicio del cálculo de las medidas de dispersión para una población de tamaño 20 haciendo click en en la siguiente dirección: http://www.uaq.mx/matematicas/estadisticas/xu3js1.html 7. Medidas de ubicación para datos sin agrupar 8. Datos agrupados 9. Distribuciones de frecuencias 10. Representaciones gráficas Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información. Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones: 1. El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias. 2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales. 3. El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporción de población masculina en un país conviene más usar una gráfica de pastel o circular que una gráfica de barras al compararla contra la población femenina; por un lado se puede apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es mayor. Hay un punto que conviene remarcar: existe software que permite la construcción rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver más sobre el objetivo de estas herramientas y la Estadística: la transmisión eficiente de la información. 10.2. Tipos de gráficos Para las distribuciones de frecuencias la representación gráfica más común es el histograma. Un ejemplo es el que se presenta a continuación y que representa el número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita. En el eje horizontal (o de las abscisas) se representan los intervalos de los datos, marcándose de manera continua las fronteras entre cada uno de los éstos. De esta manera, el histograma está compuesto rectángulos, cuyo número coincide con la cantidad de intervalos considerados, el ancho de la base de cada uno de esos rectángulos es la misma siempre y coincide con las fronteras de los intervalos, y la altura corresponde a la frecuencia de cada intervalo. Es importante observar que resulta difícil utilizar este tipo de representación cuando existen intervalos abiertos o cuando los intervalos no son iguales entre sí. Otra observación es la amplitud de los intervalos, que se puede establecer utilizando la regla de Sturges, pues al cambiarla la presentación visual de un histograma puede variar. Un applet que muestra cómo el número de clases y su ancho pueden hacer variar fue desarrollado por Webster West de la Universidad del Sur de Carolina. El programa Excel no permite crear de manera automática histogramas, pues proporciona el ancho de las columnas de tal manera que quedan separadas. Sin embargo, existe la manera de hacerlas. Un tipo de gráfico muy parecido al histograma es la gráfica de columnas. Para este tipo de gráfica, elaboradas con rectángulos también, se pide que sus bases sean del mismo ancho y sus alturas equivalentes con las frecuencias. Para este tipo, a diferencia del histograma, no es necesario tener una escala horizontal continua, por lo que los rectángulos (o barras) no tienen que aparecer juntas entre sí. Otra observación pertinente es que se pueden representar en la misma gráfica, utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a las mismas variables producto de varias observaciones. Esto produce una gráfica con varias series, correspondiendo cada una de ellas a cada observación de la muestra (o población), y teniéndose una gráfica compuesta. Es conveniente que cada serie de datos (u observaciones) sean ilustradas o iluminadas de igual manera entre sí, pero distinta de las demás. El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de tres alumnos de preparatoria. Las series (cada una de las calificaciones parciales) están coloreadas con diferente color para mostrar el comportamiento tanto individual, como de cada uno de los alumnos con respecto a los demás. Es interesante observar que la escala horizontal no es continua (es nominal). Existe la posibilidad, y si los recursos lo permiten, de representar gráficos compuestos de una manera "tridimensional", es decir, con gráficos que posean no sólo dos ejes, sino tres; y en los que los rectángulos son sustituídos por prismas de base rectangular (ocasionalmente el software en el mercado permite utilizar prismas cuya base son polígonos regulares de más de cuatro lados, pirámides o cilindros). Un ejemplo es el siguiente: donde se representa el porcentaje del PIB gastado en docencia e investigación por cinco países en el lapso de 1988 a 1999 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12). Es importante considerar que este tipo de gráficos puede complicarse mucho, haciendo que la información sea menos legible. También es posible realizar gráficas de barras horizontales, los cuales se parecen mucho a las gráficas de columnas, con la salvedad importante de que la función de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases. Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una población dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se presenta es la población de un país ficticio llamado "Timbuctulandia": A este tipo de gráficos en particular se le llama pirámide de edades por su forma. Incluso, cuando se compara la población masculina y femenina por estratos de edades, se estila utiliza el lado izquierdo para la población de un sexo y el lado derecho para el otro, el resultado es una "pirámide" casi simétrica (dependerá de la población en particular). Cuando los datos se relacionan entre sí, es decir, cuando podemos decir que existe cierta continuidad entre las observaciones (como por ejemplo el crecimiento poblacional, la evolución del peso o estatura de una persona a través del tiempo, el desempeño académico de un estudiante a lo largo de su instrucción escolar, las variaciones presentadas en la medición realizada en algún experimento cada segundo o minuto) se pueden utilizar las gráficas de líneas, que consisten en una serie de puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada una, uniéndose consecutivamente con líneas: Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos individuos a lo largo de cinco observaciones anuales. Al igual que en el caso de las gráficas de columnas (y de otras más) es posible presentar varias series de observaciones (en este caso cada serie de observaciones son los pesos de un individuo). Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono. El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación durante el año de 1990 en cinco países (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12): El Excel no crea automáticamente polígonos de frecuencias, sino que produce gráficas de líneas. Sin embargo, es posible arreglárselas para hacerlas. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que. Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por ésto la aplicación de la técnica es parcial): 1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. 2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor. Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma: La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las 4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera). Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que que se acaba de usar, pero con una distribución porcentual: En ocasiones, al comparar dos series de observaciones (o de datos) se utiliza una llamada gráfica de áreas, la cual consiste en rellenas el área que se encuentre debajo de las líneas que resultan de una gráfica de líneas. El ejemplo que se presenta es la comparación del total de las especies de las familias del orden Carnivora y las que están amenazadas, en México, (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):58): Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se está usando una escala categórica, conviene utilizar una gráfica llamada de pastel o circular. Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de conocimiento en el año de 1992 se puede usar algo así como sigue (Fuente: ANUIES,1995): De hecho, si se desea resaltar una de las categorías que se presentan, es válido tomar esa "rebanada" de la gráfica y separarla de las demás: Para hacer una gráfica de este tipo en papel. Hay que tomar algunas precauciones al utilizar este tipo de gráficos. Por un lado, comparar dos gráficos circulares (por ejemplo, si se quisieran comparar las proporciones de matrículas en licenciatura por áreas de conocimiento en licenciatura para dos años distintos) resulta muy difícil y, por tanto, no es muy aconsejable. Por otro lado, en ocasiones existen categorías con pocas frecuencias (por ejemplo, dos o tres con frecuencias relativas menores al 1% cada una), haciendo que la gráfica resulte "pesada" y las etiquetas se encimen. Una posible solución es juntarlas en una sola categoría (por ejemplo, la típica "otras" o "varias"), pero entonces habría que ponderar si se hace una gráfica extra con dichas observaciones únicamente, haciendo la anotación pertinente, o simplemente se ignoran por no resultar significativas. Actualmente, y mucho en los medios masivos de comunicación, se utilizan gráficos para ilustrar los datos o los resultados de alguna investigación. Regularmente se utilizan dibujos para representar dicha información, y el tamaño o el número de estos dibujos dentro de una gráfica queda determinado por la frecuencia correspondiente. A este tipo de gráfica se le llama pictograma y éstos son dos ejemplos: El de la izquierda representa la población de los Estados Unidos (cada hombrecillo representa a dos millones de habitantes), el de la derecha representa la masa de tres planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene más 17 veces más masa que la Tierra). Las versiones del Excel 7.0 y anteriores no tienen opciones para realizar este tipo de gráficas, las posteriores sí. Otros programas contemporáneos (como el Corel Draw o el Harvard Graphics) sí son capaces. Cuando se pretende ilustrar la dispersión de las observaciones realizadas, y así trabajar algunas cosas como correlaciones se puede utilizar una gráfica de dispersión. Por ejemplo, el ejemplo de la izquierda es la dispersión que se presenta al comparar el número de tesis doctorales en ciencias exactas contra el número de total de tesis doctorales (todo en México) en observaciones anuales entre 1984 y 1990 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12): La gráfica de la derecha es resultado de comparar el diámetro (en miles de kilómetros) de los planetas interiores del nuestro sistema solar contra sus densidades (en gramos por centímetro cúbico). Es interesante observar que los puntos parecen "seguir" una línea imaginaria que se asemeja a una recta, con excepción de un caso atípico: Mercurio. Uno de los usos de este tipo de gráficas es precisamente encontrar si las observaciones siguen algún patrón lineal (una línea de tendencia) o si existen valores atípicos. Para el caso del Excel, el programa es capaz de graficar las líneas de tendencias que siguen un conjunto de datos. Un tipo de gráfico similar a las gráficas de dispersión son las gráficas de burbujas, en las cuales se presenta la dispersión de las observaciones de la misma forma que aquéllas, pero se le añade la posibilidad de visualizar otra variable representada en el tamaño del punto, pues éstos se convierten en círculos (burbujas) con radios proporcionales a las magnitudes que representan. Este ejemplo compara la distancia que existe en cada uno de los planetas interiores de nuestro sistema solar al Sol contra el tiempo que necesitan para recorrer sus órbitas, y el tamaño de las burbujas indica la masa de cada planeta. Además existen otros tipos de gráficos, cada uno con características particulares que les proporcionan cierta intencionalidad para su uso, como son las gráficas de radar y las gráficas polares. 11. Medidas de tendencia central para datos agrupados Para hacer un ejercicio de las medidas de tendencia central con una distribución de frecuenicas de hasta diez intervalo haz click en http://www.uaq.mx/matematicas/estadisticas/xu3js2.html 12. Medidas de dispersión para datos agrupados Un ejercicio del cálculo de las medidas de dispersión con una distribución de frecuenicas de hasta diez intervalo se puede acceder si das click en http://www.uaq.mx/matematicas/estadisticas/xu3js2.html 13. Medidas de ubicación para datos agrupados 1997-1999. ViL & DDT Software'n'Web, Co. 1997-1999. Víctor Larios Osorio. Universidad Autónoma de Querétaro (México). URL de esta página: http://www.uaq.mx/matematicas/estadisticas/xu3.html. Última actualización: 20 de septiembre de 1999. Unidad 4. Probabilidad 1. Introducción Muchos de los eventos que ocurren en la vida diaria no pueden ser predichos con exactitud desde antes por diversas razones, pues la mayoría de los hechos están influidos por factores externos. Además, existen aquellos sucesos que están directamente influidos por el azar, es decir, por procesos que no se está seguro de lo que va a ocurrir. Sin embargo, la probabilidad nos permite acercarnos a esos sucesos y estudiarlos, ponderando las posibilidades de su ocurrencia y proporcionando métodos para tales ponderaciones. Precisamente, algunos de esos métodos proporcionados por la probabilidad nos llevan a descubrir que algunos sucesos tienen una mayor o menor probabilidad de ocurrir que la ponderación asignada a través del sentido común. Nuestros sentidos, la información previa que poseemos, nuestras creencias o posturas, nuestras inclinaciones, son algunos de los factores que intervienen para no permitirnos hacer ponderaciones reales y sistemáticas. La probabilidad nos permitirá estudiar los eventos de una manera sistemática y más cercana a la realidad, retribuyéndonos con información más precisa y confiable y, por tanto, más útil para las disciplinas humanas. Precisamente, un applet que muestra cómo no siempre la probabilidad que le asignamos a un evento a través del sentido común coincide con la probabilidad real obtenida por medios teóricos es el desarrollado por West y Street de la University of South Carolina, que permite estudiar un concurso de televisión de los 70's llamado Let's Make a Deal. 2. Análisis combinatorio En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situación dada se convierte en algo difícil de lograr o, simplemente, tedioso. El análisis combinatorio, o cálculo combinatorio, permite enumerar tales casos o sucesos y así obtener la probabilidad de eventos más complejos. En el caso de que existan más de un suceso a observar, habría que contar el número de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se utiliza el principio fundamental de conteo: Si un suceso se puede presentar de n1 formas, y otro se puede presentar de n2 formas, entonces el número de formas en que ambos sucesos pueden presentarse en ese orden es de n1·n2. En otras palabras, basta multiplicar el número de formas en que se pueden presentar cada uno de los sucesos a observar. Este principio nos remite automáticamente al factorial de un número natural, que se puede pensar como una función con dominio los números naturales junto con el cero y codominio los números naturales. El factorial de un número n, denotado n!, se define como: Ahora, n es muy grande el proceso de cálculo se vuelve tedioso y muy cargado, incluso para una computadora, por lo que se utiliza la aproximación de Stirling a n!: donde e2.71828..., que es la base de los logaritmos neperianos. En Excel existe la función FACT(n) que calcula el factorial de un número entero no negativo n. En el análisis combinatorio se definen las permutaciones, con o sin repetición, y las combinaciones. 2.2 Permutaciones (u ordenaciones) con repetición Las permutaciones son también conocidas como ordenaciones, y de hecho toman este nombre porque son ordenaciones de r objetos de n dados. En este curso las representaremos como ORnr ó nORr. Por ejemplo: Sea A={a,b,c,d}, ¿cuántas "palabras" de dos letras se pueden obtener? Se pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras es 4. En este caso r=2 y n=4. Las "palabras" formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd. En total son 16. En general, si se toman r objetos de n, la cantidad de permutaciones u ordenaciones con repetición obtenidas son: ORnr = nORr = n r 2.3 Permutaciones (u ordenaciones) sin repetición En este caso, a diferencia del anterior, se realizan ordenaciones de r objetos de n dados atendiendo a la situación de cada objeto en la ordenación. Su representación será Pnr ó nPr. Por ejemplo: Sea el mismo conjunto A={a,b,c,d}, ¿cuántas ordenaciones sin repetición se pueden obtener? Lo que resulta es: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc. Son 12 en total. En general, si se toman r objetos de un total de n, la cantidad de permutaciones Pnr = nPr = El Excel cuenta con la función PERMUTACIONES(n,r) que realiza el cálculo. 2.4 Combinaciones Es una selección de r objetos de n dados sin atender a la ordenación de los mismos. Es decir, es la obtención de subcojuntos, de r elementos cada uno, a partir de un conjunto inicial de n elementos. La denotaremos con Cnr, nCr ó . Por ejemplo: Si tomamos el mismo conjunto A={a,b,c,d}, ¿cuántos subconjuntos de 2 elementos cada uno se pueden obtener? Haciéndolos se obtienen: {a,b}, {a,c}, {a,d}, {b,c}, {b,d}, {c,d}. Son seis los subconjuntos. En general, si de n objetos dados se hacen combinaciones de r objetos cada una, el número de combinaciones obtenidas son: Cnr = nCr = o, que es lo mismo, Cnr = nCr = En Excel la función COMBINAT(n,r) calcula las combinaciones de n objetos tomando r de ellos. 3. Eventos Cuando se realiza un experimento, que es cualquier proceso que produce un resultado o una observación, se van a obtener un conjunto de valores. A este conjunto de valores que puede tomar una variable se le denomina espacio muestral. Por ejemplo: Si se tiene un dado cualquiera, el espacio muestral (EM) es EM={1,2,3,4,5,6}. Si existen más de una variable, el espacio muestral está formado por las combinaciones de valores de cada una de las variables. Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se denomina un evento, y si éste consta de un solo elemento entonces es un evento elemental. Como se puede uno imaginar, existen eventos que siempre, no importa el número de experimentos o su situación, ocurren, y en cambio existen otros que nunca ocurren. Los que siempre ocurren son los eventos seguros, y los que nunca son los eventos imposibles. Sin embargo, no todos los resultados son al azar, pues si un experimento es cualquier proceso entonces los resultados pueden tomar cualquier tipo de valor. Por esta razón, se define como experimento aleatorio al proceso en el que se pueden predecir con certeza la ocurrencia de sus eventos, con excepción del seguro o del imposible. Hay que hacer la observación que esta definición habla en términos generales y no específicamente sobre algún experimento en particular. A aquélla variable que está asociada a un experimento de este tipo se le denomina variable aleatoria. En cambio, a un experimento no aleatorio se le denomina experimento determinístico. Cuando hablamos de varios eventos dentro del mismo experimento se pueden dar varios casos. Si dos o más eventos no pueden ocurrir simultáneamente, se llaman eventos mutuamente excluyentes, es decir, que la intersección de ambos eventos es vacía. Por otro lado, en ocasiones un evento o más eventos dependen de otro evento previo, es decir, un evento A ocurre dado que ocurrió un evento B. Si existe este tipo de relación entre eventos se dice que son eventos dependientes o condicionados (el evento A depende del evento B, o el resultado del evento A está condicionado al resultado del evento B). Por otro lado, si no existe tal relación entre eventos se dice que son eventos independientes. Los criterios de dependencia o de independencia se definirán más adelante, en términos de probabilidad condicional. 4. Probabilidad de eventos Para calcular la probabilidad de eventos es necesario que éstos se comporten de una maner más o menos estable. Precisamente, se echa mano de la regularidad estadística, que es la propiedad de los fenómenos aleatorios, y que consiste en que al aumentar el número de repeticiones de un experimento en condiciones prácticamente constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo. Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en cuenta los siguientes criterios: 1. La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es de las más comúnes que se utilizan al no apoyarse más que en el sentido común y los conocimientos previos, y no en resultados estadísticos. 2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad estadística. Esta definición sería la más real, pero proporciona probabilidades aproximadas, es decir, proporciona estimaciones y no valores reales. Además, los resultados son a posteriori, pues se necesita realizar el experimento para poder obtenerlo. (Para ver un ejemplo haz click aquí.) 3. La probabilidad clásica de un evento E, que denotaremos por P(E), se define como el número de eventos elementales que componen al evento E, entre el número de eventos elementales que componen el espacio muestral: Es la definición más utilizada porque supone de antemano, y se necesita como requisito indispensable, que todos los eventos elementales tienen la misma probabilidad de ocurrir. 5. Axiomas de la probabilidad Recordemos primero que las frecuencias relativas de una distribución tenían las siguientes propiedades: 1. Las frecuencias relativas son mayores o iguales que cero. 2. La frecuencia relativa del espacio muestral es igual a la unidad. 3. Si dos eventos son mutuamente excluyentes, es decir que no ocurren simultáneamente, entonces la frecuencia relativa de su unión es la suma de las frecuencias relativas de cada uno. Tomando en cuenta que la probabilidad de un evento, de acuerdo a la definición ya expuesta, es la frecuencia relativa cuando se aumenta el tamaño de la muestra, se tienen lo siguiente. Si E es un evento de un espacio muestral S y P(E) es la probabilidad de E, entonces se satisfacen los axiomas de la probabilidad: 1. 0 P(E)1. 2. P(S) = 1. 3. Si E1, E2, ... , En son eventos mutuamente excluyentes, entonces Con estos axiomas podremos tratar algunas de las propiedades de la probabilidad de eventos. 6. Posibilidades y probabilidades Se habla muy comúnmente en sitios de apuestas, como en las autódromos o hipódromos, de que "las apuestas a tal o cual participante es de x a y", es decir, que las posibilidades de que gane es de x a y. Esta manera de expresarse se refiere al uso de razones. En términos generales, la posibilidad de que ocurra un evento se determina mediante la razón de la probabilidad de que ocurra a la probabilidad de que no ocurra. Esto quiere decir que si la probabilidad de que un evento ocurra es p, entonces las posibilidades de que ocurra son x a y, es decir Tales que x y y son enteros positivos. Por ejemplo: Si se tiran dos monedas normales (no trucadas), la probabilidad de que las dos monedas caigan cara es de ¼. Esto quiere decir si alguien apuesta a que las dos monedas no caen simultáneamente en cara, la posibilidad de ganar la apuesta es de es decir, 3 a 1. Hemos de considerar que si es mayor la probabilidad de que no ocurra un evento, entonces se acostumbra mencionar las posibilidades en contra del evento. Por ejemplo: Si se tira un dado no trucado, sabemos que la probabilidad de obtener un cuatro es 1/6, es decir que la posibilidad de obtener un cuatro es de 1 a 6; pero se acostumbra decir que las posibilidades en contra, esto es, de no obtener un cuatro es de 6 a 1. Inversamente, en el caso de tener las posibilidades de un evento, entonces es fácil obtener su probabilidad, pues si la posibilidad de un evento es de x a y, entonces la probabilidad p de que ocurra tal evento es Por ejemplo: En la Copa Mundial de Futbol Francia 1998 se decía que el equipo mexicano tenía una posibilidad de 1 a 75 de llegar a ser el campeón del torneo. Si se desea encontrar la probabilidad de que el equipo mexicano llegase a ser campeón, entonces se tiene que es la probabilidad de que ocurriese el evento. Esto tiene la ventaja de que permite, en combinación con el tercer axioma de la probabilidad, medir la confiabilidad que tienen las opiniones de las personas sobre las posibilidades que le asignan a algunos eventos. Esto quiere decir que el cálculo de las probabilidades de dos eventos mutuamente excluyentes a partir de las posibilidades otorgadas de manera subjetiva resulta como un criterio de consistencia. Por ejemplo: Un criminólogo piensa que las posibilidades de que en la próxima semana la cantidad de delitos en una ciudad aumente con respecto a la anterior es de 5 a 2, de que sea la misma cantidad de delitos es de 1 a 3 y las posibilidades de que aumente la cantidad o sea la misma es de 7 a 4. Si se desea saber si son consistentes las probabilidades correspondientes habría que hacer los cálculos. Las probabilidades de aumente la cantidad de delitos, sea igual la cantidad de delitos, y de que aumente o sea igual la cantidad de delitos es, respectivamente, de y dado que (como son eventos mutuamente excluyentes) no es lo mismo que 7/11, entonces los criterios del criminólogo pueden ser cuestionados. 7. Propiedades de la probabilidad de eventos no elementales Cuando se tienen eventos elementales no existe mucho problema en el sentido del cálculo de las probabilidades, pues basta con una contabilización o el uso directo del cálculo combinatorio. Pero en el caso de eventos no elementales, que son los compuestos por más de un evento elemental, el proceder de manera análoga resulta muy complejo y las operaciones pueden sobrepasar la capacidad de cálculo existente. Sin embargo, utilizando los axiomas de la probabilidad y las siguientes propiedades, se podrán expresar las probabilidades de estos eventos en términos de los eventos elementales que lo componen, siempre y cuando se conozcan las probabilidades de éstos. Veamos la probabilidad de una unión de eventos, la cual la podremos calcular de la siguiente manera: Propiedad 1. Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que ocurran A y B simultáneamente. Es decir, P(AB) = P(A) + P(B) - P(AB) Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene: Propiedad 2. Si dos eventos, A y B, son mutuamente excluyentes entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B. Es decir P(AB) = P(A) + P(B) Otra propiedad que se deriva de las anteriores es cuando se busca la probabilidad del complemento de un evento E, que denotaremos como ~E: Propiedad 3. Si E es un evento y ~E su complemento, entonces P(~E) = 1 - P(E) Retomando los conceptos de eventos dependientes o condicionales, se va a definir la probabilidad condicional como sigue: Propiedad 4. La probabilidad de que ocurra un evento A dado que ocurrió el evento B (el evento A depende del evento B), denotado P(A|B), es: Hay que notar que esta propiedad no es conmutativa, situación que sí ocurre con la probabilidad de unión o la intersección de eventos, por lo que no hay que confundir P(A|B) y P(B|A). Finalmente, el criterio para la independencia de eventos queda como sigue: Propiedad 5. Dos eventos A y B son independientes si y sólo si P(A|B) = P(A) y P(B|A) = P(B) o, que es lo mismo: P(AB) = P(A) · P(B) Hipertexto a cargo del L.E. Víctor Larios Osorio, del Depto. de Matemáticas (Fac. Ing.) de la UAQ (México). vil@sunserver.uaq.mx Unidad 5. Teoría de muestreo I. Introducción Tomado de: http://www.uaq.mx/matematicas/estadisticas/xu5.html#t3 Una parte fundamental para realizar un estudio estadístico de cualquier tipo es obtener unos resultados confiables y que puedan ser aplicables. Como ya se comentó anteriormente, resulta casi imposible o impráctico llevar a cabo algunos estudios sobre toda una población, por lo que la solución es llevar a cabo el estudio basándose en un subconjunto de ésta denominada muestra. Sin embargo, para que los estudios tengan la validez y confiabilidad buscada es necesario que tal subconjunto de datos, o muestra, posea algunas características específicas que permitan, al final, generalizar los resultados hacia la población en total. Esas características tienen que ver principalmente con el tamaño de la muestra y con la manera de obtenerla. En las siguientes secciones de esta unidad lo comentaremos. 2. Importancia del muestreo A lo largo del curso se hacen uso de dos tipos de razonamiento: el deductivo y el inductivo. El primero está relacionado directamente con la teoría de probabilidad, que se aborda en la unidad 4, y que a partir de las características de la población se obtienen las posibles características de una muestra. El segundo tipo de razonamiento se relaciona con la denominada inferencia estadística: utilizar las características de un subconjunto de la población (la muestra) para hacer afirmaciones (inferir) sobre la población en general. Éste será el caso de esta unidad. El muestro, como ya se mencionó, implica algo de incertidumbre que debe ser aceptada para poder realizar el trabajo, pues aparte de que estudiar una población resulta ser un trabajo en ocasiones demasiado grande, Wonnacott y Wonnacott ofrecen las siguientes razones extras: Recursos limitados. Es decir, no existen los recursos humanos, materiales o económicos para realizar el estudio sobre el total de la población. Es como cuando se compra un aparato, un automóvil usado (por ejemplo), que se prueba unos minutos (el encendido, una carrerita, etc.) para ver si funciona correctamente y luego se adquiere, pero no se espera a probarlo toda la vida (encendiéndolo y apagándolo o, simplemente, dejándolo encendida) antes de realizar la adquisición. Escasez. Es el caso en que se dispone de una sola muestra. Por ejemplo, para el estudio paleontológico de los dinosaurios (el T. Rex por ejemplo) sería muy bueno contar con, al menos, muchos restos fósiles y así realizar tales investigaciones; sin embargo, se cuenta sólo con una docena de esqueletos fosilizados (casi todos incompletos) de esas criaturas en todo el mundo. Pruebas destructivas. Es el caso en el que realizar el estudio sobre toda la población llevaría a la destrucción misma de la población. Por ejemplo, si se quisiese saber el conteo exacto de hemoglobina de una persona habría que extraerle toda la sangre. El muestreo puede ser más exacto. Esto es en el caso en el que el estudio sobre la población total puede causar errores por su tamaño o, en el caso de los censos, que sea necesario utilizar personal no lo suficientemente capacitado; mientras que, por otro lado, el estudio sobre una muestra podría ser realizada con menos personal pero más capacitado. Ya que hemos mencionado la necesidad de realizar muestras, continuaremos con algunas características que deben tener éstas para que, realmente, se puedan realizar inferencias (inducciones) sobre ellas hacia la población total. 3. Tamaño de las muestras Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores: 1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total. 2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización. 3. El nivel de variabilidad que se calcula para comprobar la hipótesis. La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca un 95%. El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse. Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la confianza y el error. La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo a la investigación actual. El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y se denota por p, y el porcentaje con el que se rechazó se la hipótesis es la variabilidad megativa, denotada por q. Hay que considerar que p y q son complementarios, es decir, que su suma es igual a la unidad: p+q=1. Además, cuando se habla de la máxima variabilidad, en el caso de no existir antecedentes sobre la investigación (no hay otras o no se pudo aplicar una prueba previa), entonces los valores de variabilidad es p=q=0.5. Una vez que se han determinado estos tres factores, entonces se puede calcular el tamaño de la muestra como a continuación se expone. Hablando de una población de alrededor de 10,000 casos, o mínimamente esa cantidad, podemos pensar en la manera de calcular el tamaño de la muestra a través de las siguientes fórmulas. Hay que mencionar que estas fórmulas se pueden aplicar de manera aceptable pensando en instrumentos que no incluyan preguntas abiertas y que sean un total de alrededor de 30. Vamos a presentar dos fórmulas, siendo la primera la que se aplica en el caso de que no se conozca con precisión el tamaño de la población, y es: donde: n es el tamaño de la muestra; Z es el nivel de confianza; p es la variabilidad positiva; q es la variabilidad negativa; E es la precisión o error. Hay que tomar nota de que debido a que la variabilidad y el error se pueden expresar por medio de porcentajes, hay que convertir todos esos valores a proporciones en el caso necesario. También hay que tomar en cuenta que el nivel de confianza no es ni un porcentaje, ni la proporción que le correspondería, a pesar de que se expresa en términos de porcentajes. El nivel de confianza se obtiene a partir de la distribución normal estándar, pues la proporción correspondiente al porcentaje de confianza es el área simétrica bajo la curva normal que se toma como la confianza, y la intención es buscar el valor Z de la variable aleatoria que corresponda a tal área. Por ejemplo: Si se quiere un porcentaje de confianza del 95%, entonces hay que considerar la proporción correspondiente, que es 0.95. Lo que se buscaría en seguida es el valor Z para la variable aleatoria z tal que el área simétrica bajo la curva normal desde -Z hasta Z sea igual a 0.95, es decir, P(-Z<z<Z)=0.95. Utilizando las tablas, o la función DISTR.NORM.ESTAND.INV() del Excel, se puede calcular el valor de Z, que sería 1.96 (con una aproximación a dos decimales). Esto quiere decir que P(-1.96<z<1.96)=0.95. En el caso de que sí se conozca el tamaño de la población entonces se aplica la siguiente fórmula: donde n Z p q N E es el tamaño de la muestra; es el nivel de confianza; es la variabilidad positiva; es la variabilidad negativa; es el tamaño de la población; es la precisión o el error. La ventaja sobre la primera fórmula es que al conocer exactamente el tamaño de la población, el tamaño de la muestra resulta con mayor precisión y se pueden incluso ahorrarse recursos y tiempo para la aplicación y desarrollo de una investigación. Por ejemplo: En el Colegio de Bachilleres, una institución de nivel medio superior, se desea realizar una investigación sobre los alumnos inscritos en primer y segundo años, para lo cual se aplicará un cuestionario de manera aleatoria a una muestra, pues los recursos económicos y el tiempo para procesar la información resultaría insuficiente en el caso de aplicársele a la población estudiantil completa. En primera instancia, suponiendo que no se conoce el tamaño exacto de la población, pero con la seguridad de que ésta se encuentra cerca a los diez millares, se aplicará la primera fórmula. Se considerará una confianza del 95%, un porcentaje de error del 5% y la máxima variabilidad por no existir antecedentes en la institución sobre la investigación y porque no se puede aplicar una prueba previa. Primero habrá que obtener el valor de Z de tal forma que la confianza sea del 95%, es decir, buscar un valor de Z tal que P(-Z<z<Z)=0.95. Utilizando las tablas o las funciones de Excel se pueden obtener, o viendo (en este caso) el ejemplo anterior, resulta que Z=1.96. De esta manera se realiza la sustitución y se obtiene: Esto quiere decir que el tamaño de la muestra es de 385 alumnos. Supongamos ahora que sí se conoce el tamaño de la población estudiantil y es de 9,408, entonces se aplicará la segunda fórmula. Utilizando los mismos parámetros la sustitución queda como: Con lo que se tiene una cota mínima de 370 alumnos para la muestra y así poder realizar la investigación sin más costo del necesario, pero con la seguridad de que las condiciones aceptadas para la generalización (confiabilidad, variabilidad y error) se mantienen. ¿Quieres probar? Considerando un nivel de confianza del 95%, introduce la variabilidad positiva: , y la precisión o error (porcentaje de error): %. Si conoces el tamaño de la población introdúcelo (si no lo conoces no escribas nada): . Presiona el botón para realizar el cálculo: Dada la variabilidad positiva, la negativa es: . Por tanto, si no se conoce el tamaño de la población el tamaño de la muestra es: , si se conoce el tamaño de la población el tamaño de la muestra es: . 4. Muestreos probabilísticos Las técnicas de muestreo probabilístico son aquellas en las que se determina al azar los individuos que constituirán la muestra. Estas técnicas nos sirven cuando se desean generalizar los resultados que se obtienen a partir de la muestra hacia toda la población. Lo anterior se dice dado que se supone que el proceso aleatorio permitirá la obtención de una muestra representativa de la población. Los muestreos probabilísticos pueden ser con o sin reemplazo. Los muestreos con reemplazo son aquellos en los que una vez que ha sido seleccionado un individuo (y estudiado) se le toma en cuenta nuevamente al elegir el siguiente individuo a ser estudiado. En este caso cada una de las observaciones permanece independiente de las demás, pero con poblaciones pequeñas (un grupo de escuela de 30 alumnos, por ejemplo) tal procedimiento debe ser considerado ante la posibilidad de repetir observaciones. En el caso de poblaciones grandes no importa tal proceder, pues no afecta sustacialmente una repetición a las frecuencias relativas. Los muestreos sin reemplazo son los que una vez que se ha tomado en cuenta un individuo para formar parte de la muestra, no se le vuelve a tomar en cuenta nuevamente. En este caso, y hablando específicamente para el caso de poblaciones pequeñas, las observaciones son dependientes entre sí, pues al no tomar en cuenta nuevamente el individuo se altera la probabilidad para la selección de otro individuo de la población. Para el caso de las poblaciones grandes (por ejemplo la población de un país) dicha probabilidad para la selección de un individuo se mantiene prácticamente igual, por lo que se puede decir que existe independencia en las observaciones. Las técnicas de muestreo probabilístico que mencionaremos serán básicamente tres: el aleatorio simple, el aleatorio estratificado y el sistemático. 4.2 Muestreo aleatorio simple Podemos aquí mencionar que para el caso de que se estuviese estudiando un propoción dentro de la población (una elección de candidato, la aceptación o rechazo de una propuesta en una comunidad, la presencia o ausencia de una característica hereditaria), y el en caso de un muestreo aleatorio simple, la estimación que se puede hacer de la proporción buscada a partir de la proporción hallada en la muestra se obtiene mediante la construcción de un intervalo de confianza: = P ± tolerancia de la muestra Donde es la proporción buscada en la población y P es la proporción presente en la muestra. Por otro lado, la tolerancia de la muestra está relacionada directamente con el nivel de confianza y se obtiene a partir de la distribución normal al igual que como se obtuvo para el cálculo del tamaño de las muestras. La representaremos con Z para obtener la fórmula: Por ejemplo: 5. Muestreos no aleatorios 1997-1999. ViL & DDT Software'n'Web, Co. 1997-1999. Víctor Larios Osorio. Universidad Autónoma de Querétaro (México). URL de esta página: http://www.uaq.mx/matematicas/estadisticas/xu5.html. Última actualización: 21 de septiembre de 1999.