La Estadística en la Educación Básica y Media OBJETIVOS: presentar una visión general de la Estadística y sus aplicaciones, los procedimientos para recolección de datos, su clasificación y organización, los requerimientos de una buena investigación por muestreo y los errores que se pueden cometer en una encuesta. Mostrar cómo grandes conjuntos de datos numéricos pueden organizarse y presentarse de manera eficaz, con el propósito de favorecer el análisis y la interpretación de los datos, aspectos claves del proceso de planificación y toma de decisiones. Describir de manera conveniente las características de los datos mediante tablas, diagramas y representaciones gráficas; es decir presentar las técnicas básicas para realizar el análisis de los datos. Motivar a directivos y profesores de colegios para que la estadística sea considerada importante en la formación y el curriculum académico del estudiante, con la finalidad de que forme parte de la cultura general en nuestro país. 1. INTRODUCCION La estadística se origina en los propósitos de los gobiernos (naciones o estados) de tener información sobre su población y recabar datos sobre sus ciudadanos, su desarrollo se favorece con el florecimiento en las matemáticas de la teoría de las probabilidades. Cada día es más importante el contar con información para las actividades de planificación y toma de decisiones en cualquier ámbito institucional, por ello las empresas públicas y privadas requieren tener información relevante y confiable sobre su campo de acción con los menores costos posibles. La estadística comprende las técnicas de recolección, presentación y análisis de datos para apoyar la tarea de planificación y aportar al proceso de toma de decisiones, y abarca también los métodos que permiten verificar o rechazar ciertas conjeturas relacionadas con la investigación en diversas ciencias. La estadística se puede aplicar en diversos campos: contabilidad, finanzas, administración, mercadeo, medicina, economía, ingeniería, etc.. Actualmente el mundo se caracteriza por la globalización con un mayor acceso a la información, sus fuentes son diversas: publicaciones gubernamentales, industriales, gremiales, etc., en forma impresa (libros, revistas, periódicos) o usando la tecnología multimedia, se obtienen datos de registros electrónicos, mediante sistemas de recuperación de información y de bases de datos en línea, o mediante el uso de la autopista de la información INTERNET. Los medios electrónicos, como el CD-ROM, han revolucionado el acceso a la información. El gobierno es un importante recolector y compilador de datos con propósitos tanto públicos como privados. Hay que distinguir entre el recolector original de los datos, denominado fuente primaria, y el organizador que compila estos datos en tablas y diagramas, llamado fuente secundaria. En nuestro país, el Banco Central y el Instituto Nacional de Estadística y Censos, INEC, son entidades responsables de 2 recolectar datos sobre variables económicas, financieras, sociales y demográficas. Sin embargo en muchas ocasiones no existe la información que requerimos, y para obtenerla debemos diseñar un experimento, o realizar un estudio basado en la observación del comportamiento de interés, o hacer una investigación por medio de una encuesta dirigida a una muestra de la población objeto del estudio. En la actualidad se recogen datos con la finalidad de utilizarlos en diversos propósitos relacionados con estudios de investigación científica, planificación para el desarrollo de un proyecto, para contribuir en un proceso de toma de decisiones, medir el desempeño de un proceso de producción o de un servicio, realizar un estudio de mercado, o simplemente para satisfacer nuestra curiosidad. La estadística comprende dos partes fundamentales: a) La estadística descriptiva: que son los métodos que involucran la recolección, presentación y análisis de un conjunto de datos con el fin de describir apropiadamente sus diversas características. Su desarrollo se ha dado por la necesidad de información relevante de amplias poblaciones. b) La estadística inferencial: que puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población basándose solamente en los resultados de una muestra. Su desarrollo se ha dado a principios del siglo XX y tienen 3 amplia aplicación en todos los campos de la investigación en la actualidad. Para aclarar estos términos, en el siguiente tema, se introducen algunas definiciones fundamentales. 2. DEFINICIONES BASICAS Población (o universo): es el conjunto de todos los elementos considerados como objetivo del estudio y del cual queremos obtener sus características. Muestra: es la porción de la población que se selecciona para su análisis, es el objetivo de la encuesta o del experimento, que será de utilidad para poder obtener las conclusiones sobre la población. Parámetro: es una medida de resumen para describir una característica de toda una población. Estadístico(a): es una medida de resumen para describir una característica de una muestra de la población. Para que un análisis estadístico sea útil los datos de entrada no deben contener errores, puesto que si entra basura saldrá basura. 3. TIPOS DE DATOS 4 Los datos son los resultados observados de diversas características, de los elementos de una población de estudio, llamadas variables aleatorias. Existen básicamente dos tipos de datos o de variables aleatorias: Datos categóricos (variables cualitativas) y datos numéricos (variables cuantitativas). La variable es categórica si sus valores observados se los clasifica en categorías caracterizadas por una cualidad. Por ejemplo, en una encuesta, las respuestas a las preguntas: ¿Cuál es su estado civil?, ¿Posee usted vehículo?, ¿A qué partido político pertenece?, En qué medida está satisfecho con el trabajo que desempeña: poco, medianamente, o mucho?, ¿Usted tiene hijos? son categóricas. Las variables categóricas se clasifican en dos grupos, pueden ser nominales u ordinales. Variable Nominal, si los datos observados se clasifican en diversas categorías que no implican ningún orden, por ejemplo el estado civil, el sexo, el partido político, o si tiene o no hijos. Variable Ordinal, si los datos se clasifican en categorías que implican algún orden, por ejemplo la medida de satisfacción en el trabajo que desempeña (poco en menos que medianamente y este es menor a mucho). La variable es numérica si sus valores observados son números, es decir representan una cantidad o una medida. Por ejemplo, las respuestas a las preguntas: ¿Cuántos vehículos posee? ¿A 5 cuántas revistas está suscrito actualmente?, ¿Cuántos hijos tiene?, ¿Cuál es su estatura?, ¿Cuánto pesa? son claramente numéricas. Las variables numéricas se clasifican en dos grupos, pueden ser discretas o continuas. Variable discreta si los datos corresponden a respuestas numéricas que provienen de un proceso de conteo. Variable continua si los datos corresponden a respuestas numéricas que surgen de un proceso de medición. 4. ENCUESTAS POR MUESTREO Para realizar una encuesta por muestreo previamente se debe determinar con precisión que información se necesita obtener, es decir establecer claramente los objetivos de la investigación, y posteriormente se requiere planificar y ejecutar una serie de actividades para lograr el éxito deseado. Las principales tareas son: definir cuidadosamente la población, establecer el o los marcos de muestreo de manera que la lista de unidades muestrales y la población concuerden lo mejor posible, seleccionar el diseño de muestreo y el método de entrevista, elaborar el cuestionario, capacitar a los encuestadores y supervisores, realizar una prueba piloto, organizar el trabajo de campo, sistematizar el manejo, validación y análisis de los datos y finalmente calcular las estimaciones para obtener la información requerida. 6 El cuestionario es un instrumento que contiene varias preguntas que trata sobre una diversidad de fenómenos o características de una población, denominadas variables aleatorias. Como ya se ha dicho, los datos son los resultados observados de estas variables aleatorias. Después de que se han determinado las preguntas numéricas y categóricas más esenciales de la encuesta, se procede a determinar el diseño y el tamaño de la muestra con los requerimientos más rigurosos. Existen básicamente dos tipos de muestras: la muestra no probabilística y la muestra de probabilidad o aleatoria (al azar). Una muestra de probabilidad o aleatoria, es aquella en la que los elementos de la muestra se eligen sobre la base de probabilidades conocidas. La única forma de que hagamos inferencias estadísticas correctas de una muestra a una población, es mediante el uso de una muestra de probabilidad. Los cuatro diseños o tipos de muestras probabilísticas de uso común son: la muestra aleatoria simple, la muestra sistemática, la muestra estratificada y la muestra de agrupación o conglomerados; un análisis detallado de estos procedimientos de muestreo pueden encontrarse en libros sobre investigación por muestreo (en inglés: Sample Survey). 5. MUESTREO ALEATORIO SIMPLE 7 En una muestra aleatoria simple cada individuo o elemento tiene la misma oportunidad de selección que cualquier otro, y la selección de un elemento en particular no afecta la probabilidad de que se elija cualquier otro. Una muestra aleatoria simple también puede interpretarse como aquella en la que cada posible muestra extraída (de determinado tamaño) tiene la misma probabilidad de selección que cualquier otra muestra que se pueda extraer (de ese mismo tamaño). El proceso de selección de una muestra aleatoria simple no necesariamente es el mejor o el más económico de los métodos de muestreo de probabilidad, pero proporciona la base a partir de la cual han evolucionado los otros procedimientos. La clave de una selección apropiada es obtener y mantener una lista actualizada de todas las unidades de muestreo, entre las cuales se extraerá la muestra, tal lista se conoce con el nombre de marco de población. Las unidades de muestreo son agrupaciones, no traslapadas, de elementos de la población, que la cubren completamente; en otras palabras forman una partición de la población Por tanto el marco de población es sencillamente una lista (numerada) de todas las unidades de muestreo. Se denomina marco de lista de la población si cada unidad de muestreo contiene un solo elemento de la población, en este caso la numeración va desde uno (1) hasta el tamaño de la población (N). 8 Por ejemplo si la población es el conjunto de los estudiantes de los colegios del país, un marco de población podría ser la lista de todos los colegios del Ecuador, en cambio el correspondiente marco de lista de la población es el listado de todos los estudiantes colegiales. Si la población es una determinada ciudad, marcos de población podrían ser la lista de todos los barrios, de todas las manzanas o de todas las parroquias urbanas que la conforman, su respectivo marco de lista sería un listado de sus ciudadanos. El marco de población sirve como la población objetivo, de manera que, si el marco es adecuado, cada muestra es una representación en miniatura de la población, y por tanto se espera obtener estimaciones razonables de sus características. Si el listado es inadecuado, porque ciertos elementos de la población se encuentran repetidos, o no estuvieran incluidos, la muestra de probabilidad sólo proporcionará estimaciones de las características de la población objetivo y no de la población real, puesto que estas fallas pueden ocasionar sesgos o desviaciones en los resultados. Designamos por N el tamaño de la población, y n el tamaño de la muestra. Para extraer una muestra aleatoria simple de tamaño n, se podría registrar los nombres, o los correspondientes números, de los N miembros del marco de lista de la población en fichas del mismo tamaño, colocar estas fichas en una gran urna, mezclar a fondo las fichas y luego seleccionar aleatoriamente (sacar al azar) los n elementos de la urna, los mismos que formarían la muestra. 9 El método de la urna tiene algunas desventajas: nuestra habilidad para mezclar a fondo las fichas para que la extracción sea aleatoria, y la inmensa cantidad de fichas que deberíamos elaborar si N es demasiado grande. Uno de los métodos que se utiliza para obtener la muestra es el uso de números aleatorios. Nuestro sistema numérico usa diez dígitos: 0,1,2,3,4,5,6,7,8,9. Se puede usar entonces una urna que contenga esferas o fichas numeradas con los diez dígitos (y sacarlos al azar con reposición). Entonces la probabilidad de generar aleatoriamente cualquier dígito es igual a 1/10 para todos. Numerados los elementos del marco de lista de la población, se obtiene la muestra aleatoria seleccionando aquellos miembros cuyos códigos concuerden con los dígitos extraídos de la urna. Por ejemplo, si deseamos una muestra, de n=50 elementos distintos, seleccionada de una población de N=782 elementos, se formarán por lo menos cincuenta números de tres dígitos (pues se eliminan los números repetidos y no se toman en cuenta los mayores a 782 y el 000) hasta completar los cincuenta requeridos. 6. EVALUACION DE UNA ENCUESTA POR MUESTREO Una buena investigación por muestreo requiere tener los objetivos claros, una apropiada planificación y una buena ejecución de todas las actividades programadas. Es de fundamental importancia realizar una encuesta piloto, con una muestra muy reducida, con la finalidad de probar el 10 cuestionario y todos los instrumentos que se utilizarán en los diversas etapas, de modo que se corrijan los errores y se puedan evaluar los procesos y sus costos. Para una buena recolección de datos se debe adiestrar a los encuestadores sobre las definiciones operacionales de la encuesta, es decir sobre el significado de cada variable, de modo que no existan ambigüedades en las preguntas correspondientes; se requiere además organizar detalladamente el trabajo de campo, estableciendo claramente las obligaciones del personal y las líneas de autoridad. Son extremadamente importantes también las actividades de codificación, validación y análisis de datos, puesto que se deben examinar las respuestas buscando su integridad y posibles errores para corregirlos. Para valorar una investigación por muestreo hay que verificar si se han considerado estas recomendaciones y realizado eficientemente todas las actividades antes mencionadas. Es claro que hay una proliferación de investigaciones de encuestas de opinión, pero no toda investigación es buena, significativa o importante. Es esencial que aprendamos a evaluar críticamente lo que leemos o escuchamos y que descartemos las encuestas que carezcan de objetividad y credibilidad. El primer paso para evaluar una encuesta es determinar si se basó en una muestra de probabilidad o en una no probabilística; puesto que la única forma de que hagamos inferencias 11 estadísticas correctas es a través del uso de una muestra aleatoria. Las encuestas de muestreo no probabilístico están sujetas a graves sesgos o desviaciones, tal vez no intencionales, que pueden invalidar sus resultados. Hay ejemplos de medios de comunicación muy importantes que han cometido graves equivocaciones basados en encuestas mal realizadas. Aún cuando las encuestas empleen métodos de muestreo de probabilidad aleatorios, están sujetas a errores potenciales, que se pueden clasificar en cuatro tipos: Error de cobertura: debido a duplicaciones, omisiones o inclusiones erradas en el marco de muestreo. Error de no respuesta: causado por el fracaso de recolectar datos sobre los elementos de la muestra. Error de medición: que se refiere a inexactitudes en las respuestas registradas. Error de muestreo: que refleja la heterogeneidad, o las diferencias de oportunidad, entre las muestras. Puesto que la muestra esta formada por elementos particulares, dictados por el azar, que es una representación en miniatura de la población, una buena investigación debe declarar el margen de precisión, se dirá por ejemplo: “se espera que los resultados de este sondeo estén dentro de +-5 puntos porcentuales del valor real”. 7. CLASIFICACION ORDENADA DE LOS DATOS. Cuando se elabora un conjunto de datos, las observaciones numéricas no tienen ningún orden o secuencia particular ni 12 tampoco se encuentran agrupados por similares cualidades o características. Al crecer el número de observaciones, se hace más difícil observar las principales características del conjunto de datos, se requiere entonces organizar las observaciones, de tal manera que entendamos mejor la información que contienen los datos, para lograrlo se han desarrollado diversos métodos, algunos fundamentados en gráficos y diagramas, otros en ciertas medidas numéricas, y varias técnicas fundamentadas en diferentes tipos de análisis matemáticos. La primera forma que permite organizar los datos de modo que se pueda apreciar ciertas características es realizar una clasificación ordenada de los datos respecto a la variable de interés. Ejemplo 1: los siguientes datos corresponden al número (aproximado y en miles) de Unidades de Producción Agropecuarias (UPAs) de cada provincia del país (resultados del Censo Nacional Agropecuario CNA del año 2000) Prov Azua Boli Caña Carc Coto Chim ElOr Esme Gala Guay Imba UPAs 99 39 32 13 68 82 22 16 1 65 34 Mo ZNA Loja LoRi Mana Sa Napo Orel Past Pich Sucu Tung ZaCh s 66 42 75 17 5 6 5 64 8 71 9 4 La clasificación ordenada de estos datos es la siguiente: 13 Prov Gala UPAs 1 ZNA Mo s Napo Past Orel Sucu ZaCh Carc Esme Sa ElOr 4 5 5 6 8 9 13 16 17 22 Caña Imba Boli LoRi Pich Guay Loja Coto Tung Mana Chim Azua 32 34 39 42 64 65 66 68 71 75 82 99 De esta tabla se puede determinar inmediatamente algunas características, como por ejemplo: la provincia que menos UPAs tiene es Galápagos (aproximadamente un mil), la que tiene mayor cantidad es Azuay (con alrededor de 99 mil); la provincia que corresponde a la mediana es Cañar con 32 mil UPAs. Ejercicio 1: Realizar la clasificación ordenada de los datos correspondientes al número (aproximado y en miles) de habitantes de cada provincia del país (resultados del Censo Nacional de Población y Vivienda del año 2001) Prov Azua Boli Caña Carc Coto Chim ElOr Esme Gala Guay Imba UPAs 600 169 207 153 350 404 526 385 19 3309 344 Mo ZNA Loja LoRi Mana Sa Napo Orel Past Pich Sucu Tung ZaCh s 405 650 1186 115 79 86 62 2389 129 441 77 73 La mejor manera de examinar datos es presentarlos en forma de resumen construyendo tablas y diagramas apropiados, de manera que podamos extraer las características más importantes de los datos. 14 8. CARACTERÍSTICAS DE LOS DATOS Las tres principales características que dan la posición relativa del conjunto de datos son: la localización o tendencia central, la dispersión y la simetría. Tendencia central o localización: es una cantidad cerca de la cual se encuentran los valores del conjunto de datos, se la mide mediante un valor junto al cual se agrupa la mayoría de las observaciones. Una medida de tendencia central es, por ejemplo, la media o promedio de los datos. Ejercicio 2: (a)Calcular el promedio provincial del número de UPAs (datos del ejemplo 1). (b) Encontrar la media provincial del número de habitantes (referirse al ejercicio1). Dispersión: es una medida de la variación que existe entre los valores del conjunto de datos, mide que tan dispersos están los datos, usualmente en relación con un valor central. Por ejemplo el rango o extensión (la diferencia entre el valor máximo y el mínimo) es un medida de dispersión. Ejercicio 3: Hallar el rango de los datos del ejemplo 1 y del ejercicio 1. Simetría (y asimetría): el conjunto de datos es simétrico cuando los valores de los datos están distribuidos en la misma forma por encima y por debajo del valor central del conjunto de datos. 9. DIAGRAMAS Y GRÁFICOS 15 Puesto que la tabla o matriz de los datos no muestra las cualidades de los datos, se usan representaciones gráficas que ayudan a captar tendencias, apreciar características y establecer modelos probabilísticos de comportamiento global. En general un diagrama o un gráfico, en donde están representados los datos, sirve para resumir el conjunto de las observaciones y advertir sus carácterísticas de localización, de dispersión , de simetría y la presencia de valores atípicos. Los diagramas y gráficos que comúnmente son utilizados, para organizar las observaciones de modo que entendamos mejor la información que contienen y apreciemos sus características, se presentan a continuación: Diagrama de puntos: cada observación se representa mediante un punto sobre la recta numérica. Representación de puntos del ejemplo 1 0 20 40 60 80 100 Ejercicio 4: hacer el diagrama de puntos de los datos del ejercicio 1. Diagrama de tallo y hojas: a los datos se los clasifica considerando, por ejemplo, las unidades, o las decenas, o las centenas, etc., estas forman el tallo y se las coloca verticalmente, a continuación se coloca los siguientes dígitos para cada observación a la derecha de la barra vertical, estos valores vienen a constituir las hojas, y así se van añadiendo 16 todas las observaciones; pueden realizarse variantes (por ejemplo distinguiendo las cifras altas y las bajas). Un diagrama de tallo y hojas con los datos correspondientes al número de UPAs (ejemplo 1) sería el siguiente: 9 9 8 2 7 1/5 6 4/5/6/8 4 2 3 2/4/9 2 2 1 3/6/7 0 1/4/5/5/6/8/9 Ejercicio 5: Hacer al menos un diagrama (adicional) de tallo y hojas con los datos del ejemplo 1, y dos diagramas con los datos del ejercicio 1. Gráfico de pastel: es una forma de resumir un conjunto de datos categóricos. Es un círculo dividido en segmentos, donde el área de cada uno de los segmentos es proporcional al número de casos en la categoría correspondiente. Para conocer el ángulo (medido en grados) podríamos aplicar una simple regla de tres (proporción): si el número total de datos corresponde a 360 grados, el número de casos en una determinada categoría, ¿cuántos grados le corresponde?. Adicionalmente, se suele indicar el porcentaje de cada categoría. 17 Ejemplo 2: los siguientes datos corresponden al número de habitantes (aproximado y en miles) de la población nacional por categorías de área (urbana/rural) según el censo de población 2001. Población Nacional Número de habitantes Total 12156 Categorías Urbana 7431 Rural 4725 Población Nacional Por Categorías de Area Urbana Rural 38.9% Urbana 61.1% Rural Ejercicio 6: Hacer el gráfico de pastel con los respectivos porcentajes de los siguientes datos del Censo de Población (2001): 18 (a) Población nacional (número de habitantes) por (categorías correspondientes al) sexo (hombre/mujer). (b) Población de la provincia de Pichincha por sexo. (c) Población de la provincia de Guayas por área. (d) Unidades de Producción Agropecuarias (UPAs) por categorías de tenencia de la tierra (referirse a los resultados del CNA 2000) (e) Población (nacional mayor a diez años) de analfabetos por categorías quinquenales de edad. (f) Población de analfabetos por categorías provinciales. (g) Población (nacional masculina mayor a diez años) de analfabetos por categorías quinquenales de edad (respectivamente femenina) (h) Población de hombres analfabetos provinciales (respectivamente de mujeres). por categorías (i) Población nacional mayor a doce años por categorías de estado civil. La representación de pastel se suele usar también con cantidades si se han agregado las mismas en las correspondientes categorías (ver ejercicio 9). Se puede también usar el gráfico de pastel con datos numéricos si previamente se ha creado una tabla de frecuencias (es decir se han clasificado las observaciones en grupos o clases dados 19 por una partición en subintervalos) pero en este caso se usa generalmente el gráfico de barras denominado histograma. Gráfico de barras: los datos categóricos se exhiben mediante un número de rectángulos, del mismo ancho, cada uno de los cuales representa una categoría particular. La longitud (y por lo tanto el área) de cada rectángulo es proporcional al número de casos en la categoría que representa. Ejemplo 3: considerar los datos, de la población nacional por grupos de edad quinquenales, que se presentan a continuación: Grupos edad N° habitantes 30 a 34 0a4 5a9 10 a 14 15 a 19 20 a 24 25 a 29 1337 1362 1341 1241 1169 947 35 a 39 40 a 44 45 a 49 50 a 54 55 a 59 60 a 64 863 775 463 339 294 65 a 69 70 a 74 75 a 79 80 a 84 85 a 89 90 a 94 95 y más 674 539 20 244 195 143 97 63 39 32 Número de habitantes por grupos de edad 90 a 94 años 80 a 84 años 70 a 74 años 60 a 64 años 50 a 54 años 40 a 44 años 30 a 34 años 20 a 24 años 10 a 14 años 0 a 4 años 0 200 400 600 800 1000 1200 1400 1600 N° habitantes Se prefiere realizar el gráfico con las barras horizontales especialmente cuando a continuación se va a representar una pirámide, desagregando la población en dos categorías, en nuestro caso, por ejemplo considerando el sexo, es decir la población de hombres a la izquierda y de mujeres a la derecha. Ejercicio 7: realizar el gráfico de pirámide con los datos de la población nacional por grupos de edad quinquenales, considerando las categorías de sexo (hombres/mujeres) (ref. censo de población). Ejercicio 8: realizar el gráfico de barras con los datos del ejemplo 2. 21 Ejercicio 9: hacer el gráfico de pastel, y el de barras, de los siguientes datos, que corresponden a la superficie (área) nacional según el uso del suelo (resultados del CNA 2000) Uso del suelo (en miles de hectáreas) Categ. Cultiv. Cultiv. Descan. Pastos Pastos Páramo Perma. Trans. y Cultiv. Natur. Barbe. Super. 1363 1232 381 3357 1130 600 Montes Otro y Usos Bosques 3881 411 Se pueden representar datos numéricos si se elabora previamente una tabla de frecuencias, en este caso el gráfico se denomina histograma (los detalles de este procedimiento se exponen en el siguiente tema). En algunos casos es conveniente representar los datos mediante una combinación dos gráficos de pastel o de una representación de pastel con una de barras, especialmente cuando una de las categorías tiene una frecuencia muy grande comparada con las otras, es decir uno o algunos porcentaje(s) demasiado(s) alto(s) en relación de los demás. Ejemplo 4: los siguientes datos corresponden al número (aproximado y en miles) de Unidades de Producción Agropecuarias (UPAs) según su condición jurídica (de acuerdo al CNA 2000) CONDICION JURIDICA Cate- Persona goría Individual Soc.Hecho Soc. sin Contrato Legal Legal 22 Institución Otras Pública Condiciones UPAs 577 56 10 9 13 Unidades de Produccion Agropecuarias Persona Individual 8.4% 86.8% 2.0% Sociedad de Hecho Sociedad Legal 4.8% 1.4% 1.5% Institución Pública Otras Condiciones 10. DISTRIBUCIÓN DE FRECUENCIAS E HISTOGRAMAS Para crear la tabla de frecuencias con datos categóricos se cuenta el número de veces en la que aparece cada dato, es decir se calcula el número de elementos de cada una de las categorías. Si los datos son numéricos se tiene que crear una partición del intervalo que contiene a todos los valores, es decir dividirlo en grupos de subintervalos, y se cuentan cuantos elementos están en cada clase. Se dispone esta información en dos columnas, la primera indicando el grupo (categoría o clase) y la segunda su número de elementos correspondiente (cardinalidad). 23 Luego se forma una tercera columna con la frecuencia relativa; es decir, se divide la cardinalidad de cada grupo, para el número total de datos (la misma que se puede expresar como porcentaje). Se suele calcular también una cuarta columna con las frecuencias acumuladas, que resultan de sumar las frecuencias relativas de todas las observaciones anteriores hasta la considerada inclusive. El Histograma es un gráfico de barras en el que se presentan las frecuencias absolutas o las relativas (en porcentaje). Se determina el número de grupos dependiendo del número de observaciones, por ejemplo: si tenemos menos de 20 observaciones se seleccionar 4 clases, de 20 a 50 observaciones se toman 5 clases, de 50 a 100 observaciones se escogen 6 clases, de 100 a 200 observaciones se suele elegir 7 clases, de 200 a 500 observaciones usualmente se seleccionan 8 clases, y más de 500 observaciones se eligen 9 clases o más (en función del número de datos). Provincias En el caso de datos numéricos, la longitud de cada clase (subintervalo) es igual a la extensión o rango de los datos dividido para el número de clases. Para cada observación se determina a que clase pertenece para calcular la frecuencia absoluta de cada clase. Histograma del ejemplo 1: Provincias por cantidad de UPAs 15 11 10 5 4 3 5 0 De 1 a < 25.5 De 25.5 a24 <50 De 50 a <74.5 UPAs (en miles) De 74.5 a 99 11. MEDIDAS DE LOCALIZACIÓN O TENDENCIA CENTRAL Una medida de localización es un valor en torno al cual se agrupan la mayoría de datos, es una característica de tendencia central de las observaciones, las más empleadas son: el promedio o media muestral, la mediana, la moda y la media simétricamente segada. Promedio o media muestral (m): es igual a la suma de los valores de las observaciones dividida para el número total de datos (n). Se le denomina m o también x (x techo). m = ( xi ) / n Mediana (Q2): es el valor que se encuentra en el punto medio, cuando se ordenan los valores de menor a mayor, se la denota Q2. Si n=2p+1 (impar) entonces Q2=xp+1; y si n=2p (par) entonces Q2=(xp+xp+1)/2 Moda (Mo): es aquel valor que tiene la mayor frecuencia absoluta, se la representa por Mo. Si los datos están dispuestos en una tabla de frecuencias agrupados en clases (subintervalos) aquella que tiene la mayor frecuencia se denominará clase modal y puede asumirse que, de manera aproximada, la moda es su punto medio. Media simétricamente segada al 10%: es igual al promedio de las observaciones que quedan luego de eliminar el 5% de las 25 que tienen los valores más bajos y el 5% de las que tienen los valores más altos. Observemos que si cada dato xi está con su respectiva frecuencia ni ; la media (el promedio) se puede calcular evidentemente mediante la expresión: m = ( ni xi ) / n Cuando los datos están dispuestos en una tabla de frecuencias agrupados en clases, se puede calcular el valor aproximado de la media o la media segada considerando la suma de los productos de los valores medios de las clases por su frecuencia y dividiendo como siempre para el número de observaciones, es decir usando la expresión anterior con xi igual al punto medio de clase i (o sea: xi = (li+si)/2 donde li y si son respectivamente los límites inferior y superior de la clase i). Ejemplo 5: Usando los datos del censo de población, determinar el promedio del número de hijos vivos que tienen las madres ecuatorianas. De acuerdo con el cuadro N. 53, se tiene la siguiente tabla de frecuencias por número de hijos: Número de hijos vivos Número de madres 0 9 1 2 3 4 5 6 7 8 9 10 mas 600 637 534 346 237 173 122 90 60 74 y Asumiendo que en la última categoría las 74 madres tienen en promedio 11 hijos, se puede obtener que el valor aproximado de la media es: (0x9+1x600+. . .+9x60+11x74)/(9+600+. . .+60+74)=3,4736 (hijos/madre) 26 El promedio exacto de acuerdo al censo es de 3,2753 . Ejercicio 10: Revisar los ejemplos del texto de Galindo relacionados con las medidas de localización (tendencia central). 12. MEDIDAS DE DISPERSIÓN La desviación estándar o típica (denominada s): es igual a la raíz cuadrada de la suma de los cuadrados de las diferencias entre cada valor de los datos y su media, dividida para el número de datos menos uno; se la denomina s, es siempre un valor positivo, y su unidad de medida es la misma que corresponde a los datos originales. s = ( ( (xi - m)2/(n-1) )½ Las mismas observaciones que realizamos para el cálculo de la media, cuando se dan las frecuencias (con datos individuales o agregados) son válidas también para la desviación típica. Para tener una noción de lo que representa una desviación estándar en relación a las observaciones, se puede comprobar que el intervalo, de extremo izquierdo igual a la media menos tres desviaciones estándar y de extremo derecho la media más tres desviaciones, contiene al menos el 90% de los datos. Cuando la distribución es normal (o parecida a ella) el intervalo en mención: (m-3s;m+3s) contiene al menos el 99% de las observaciones. 27 Por tanto, los valores que no están dentro de este intervalo se pueden considerar como valores atípicos. Extensión o rango: es igual a la diferencia entre los valores mayor y menor de las observaciones, es decir es el máximo menos el mínimo de los datos; es decir: ext = rg = max(xi) – min(xi) . Cuartil inferior (Q1): es la mediana de la mitad inferior de los datos. Cuartil superior (Q3): es la mediana de la mitad superior de los datos. Los cuartiles y la mediana dividen al conjunto de datos en subconjuntos que contienen aproximadamente el 25% de los datos. Rango Intercuartil (RIQ): es igual a la diferencia entre los cuartil superior e inferior, se lo denomina RIQ y por tanto: RIQ = Q3 - Q1. Percentiles: son valores que dividen a la muestra de datos en cien grupos, cada uno de los cuales contiene (hasta donde sea posible) igual número de observaciones, se los denomina: p1, p2, p3, . . . , p99. Quintiles: son valores que dividen al conjunto de datos en 5 grupos, cada uno de los cuales contiene (hasta donde sea posible) el 20% de las observaciones, se los llama q1, q2, q3 y q4. Ejercicio 11: Revisar los ejemplos del texto de Galindo relacionados con las medidas de dispersión. 28 13. DIAGRAMA DE CAJA El diagrama de caja es una herramienta que describe en un mismo gráfico algunas características de localización, de dispersión, y los valores atípicos, al representar la mediana, los cuartiles, el rango intercuartil y el rango de las observaciones; para su construcción se procede de la siguiente manera: a) Sobre una línea horizontal se localizan la mediana, los cuartiles inferior y superior y los datos mínimos y máximo. b) Se hace una caja angosta que una a Q1 y Q3, a continuación se divide esta caja en dos mediante una línea que pase por Q2. c) Finalmente se trazan dos rectas, una para cada extremo de la caja, en los valores: Q1 – 1,5 RIQ ; y , Q3 + 1,5 RIQ. Q1-1,5RIQ Q3+1,5RIQ Q1 Q2 Q3 Los datos que caen fuera de estas dos vallas (dadas por las dos rectas trazadas) se consideran como valores atípicos. Nota: En una distribución que se aproxima a la normal estos valores corresponden a los que están fuera del intervalo: m– 2,7s ; y , m+2,7s Existen otras medidas de dispersión (poco usuales) como por ejemplo: 29 La desviación promedio respecto al promedio (o media) (llamada: DPP): DPP = ( i xi – m)/n La desviación promedio respecto a la mediana (DPM): DPM = ( i xi – Q2)/n La desviación absoluta respecto a la mediana (DAM): DAM=Med(xi – Q2) (con i=1,2, ... ,n) 14. TABLA DE CONTINGENCIA Consideremos ahora un esquema de doble clasificación, por ejemplo las personas o habitantes del país se pueden agrupar entre los que viven en el área urbana y los que viven en el área rural, y dentro de estos dos grupos se los puede clasificar respecto al sexo (es decir en hombres y mujeres). Ejemplo 6: de acuerdo a los resultados del censo de población del año 2001 tenemos la siguiente clasificación doble: POBLACION Hombres Mujeres Total Urbana 3.625.962 3.805.393 7.431.355 Rural 2.392.391 2.332.862 4.725.253 30 Total 6.018.353 6.138.255 12.156.608 La clasificación de datos categóricos de acuerdo con dos variables (X,Y) se denomina cuadro de contingencia, es en definitiva una tabla de frecuencias (absolutas o relativas) donde una variable se representa en las filas y la otra en las columnas; se cuentan los individuos que tienen los valores indicados en las filas y en las columnas. Supongamos que la primera variable (X) tenga p resultados posibles (o categorías) y que para la segunda (Y) existan q valores factibles (categorías), entonces la tabla de contingencia es una matriz, con p filas y q columnas, formada por los valores ni,j (que corresponden al numero de individuos que pertenecen a la categoría i en la primera variable y a la categoría j en la segunda) que representan las frecuencias absolutas de la categoría conjunta (i,j). Se puede encontrar también la frecuencia relativa de la clase (i,j) que es igual al cociente: fi,j = ni,j / n (donde n es el numero total de individuos) y proporcionan la distribución empírica conjunta de las dos variables, y dan una estimación de las probabilidades pij de que un individuo pertenezca a la categoría conjunta (i,j), es decir a la categoría i en la variable X y a la categoría j en Y. En el ejemplo que estamos tratando, la tabla de frecuencias relativas es: POBLACION Hombres Mujeres Total Urbana 29,8% 31.3% 61,1% Rural 19,7% 19,2% 38.9% 31 Total 49,5% 50,5% 100,0% Propiedades: La sumatoria de todos los valores ni,j (para i desde 1 hasta p, y j desde 1 hasta q) es igual al total de individuos n. La sumatoria de todos los valores fi,j (para i desde 1 hasta p, y j desde 1 hasta q) es igual a 1. Distribuciones marginales: En la tabla de contingencia se suelen incluir los totales de las filas y los totales de las columnas, es decir se calcula: ni. = sumatorio en j de los ni,j (para cada categoría i=1,2,...,p) El valor de ni. es la frecuencia absoluta de la primera variable, para la categoría i, y las frecuencias relativas marginales fi. = ni./n dan la distribución empírica de la primera variable (X). De manera similar, para la segunda variable (Y), se incluye una fila con los valores: n.j que representan sus frecuencias absolutas. Análogamente las frecuencias relativas f.j = n.j/n proporcionan la distribución empírica de la segunda variable Y, y da una estimación de la probabilidad pj de que un individuo pertenezca a la categoría j. 15. REGRESIÓN LINEAL SIMPLE En algunas aplicaciones se requiere establecer relaciones entre dos variables; la regresión lineal simple sirve para determinar 32 una relación lineal entre dos variables: X=(x1,x2,...,xn) y Y=(y1,y2,...,yn). El modelo determinista plantea: Y = b0 + b1 X El modelo probabilista (o aleatorio) considera: Y = b0 + b1 X + e ; donde e es una componente aleatoria del error. Como sabemos b0 es la ordenada al origen; y, b1 es la pendiente de la recta; los mismos que se obtienen, usando el método de los mínimos cuadrados, mediante las siguientes fórmulas: b1 = SCXY / SCXX ; Donde: SCXX = Σi (xi – mx)2; y , SCXY = Σi (xi – mx)(yi-my) . b0 = my – b1 mx La pregunta que se plantea entonces es: Qué tan bien se ajusta la recta a los datos? Para responder, a esta pregunta, se usa el coeficiente de correlación lineal de Pearson, definido por: r = SCXY / (SCXX SCYY )½ El valor de r está siempre entre: –1 y +1 ; tiene el mismo signo que b1; si es cercano a –1 o a +1 , indica que si existe una relación lineal entre X y Y; si es igual a –1 (o +1) se cumple exactamente la igualdad (es decir se verifica el modelo determinista). 33 Dentro del análisis estadístico se debe determinar además si los coeficientes son significativos, es decir si se acepta o rechaza la hipótesis de nulidad de los parámetros correspondientes a bo y b1. Ejercicio 12: Considerar las observaciones provinciales del número de vacas ordeñadas y la cantidad (en litros) obtenida (referirse a los resultados del CNA 2000). Efectuar la regresión lineal y calcular el coeficiente de correlación lineal de Pearson. 16. ESTIMACION DE PARAMETROS Supongamos que deseamos inferir algo sobre el valor del parámetro de la media poblacional basados en el valor de la media muestral. Un resultado muy importante de la estadística me permite afirmar que: El valor de la media poblacional, con un 95% de confiabilidad (es decir con probabilidad 0,95) se encuentra en el intervalo: ( m 2 s/n ; m – 2 s/n ) para muestras grandes (tamaño n > 27) Observemos que el error por muestreo: 2 s/n es más grande si la desviación muestral aumenta y es más pequeño si el tamaño de la muestra crece. El factor 2 ya no se mantiene, se incrementa, si la muestra es más pequeña (o si aumentamos el nivel de confiabilidad). Por ejemplo: si la muestra es menor o igual a 27 y mayor a 13 el factor se aproxima por 2,1 ; si n=6 o n=7 el factor es prácticamente igual a 2,4 . 34 Si el tamaño de la muestra está entre 10 y 13 el factor es aproximadamente igual a 2,2 ; y está alrededor de 2,3 si n es igual a 8 o 9 . Además si queremos un nivel de confiabilidad mayor, por ejemplo el 99%, este factor aumenta prácticamente a 2,9 si el tamaño de la muestra está entre 15 y 19 . Supongamos por ejemplo que al realizar un estudio de la duración de cierta marca de pilas, se utilizó una muestra de 16 pilas, de la cual se obtuvo un promedio de dos horas 45 minutos de duración con una desviación estándar de 12 minutos. Es decir se obtuvieron los siguientes resultados (estadísticos): m=2,75 horas, s=0,2 horas, encontrar entre que valores se encuentra la duración media de las pilas de esa marca con una confiabilidad del 95% , y comparar los resultados si considero una seguridad de 99%. Con el 95% : ( 2,75 2,1*0,2/16 ; 2,75 + 2,1*0,2/16 ) Es decir: ( 2,645 horas ; 2,855 horas ) Con el 99% : ( 2,75 2,9*0,2/16 ; 2,75 + 2,9*0,2/16 ) Es decir: ( 2,605 horas ; 2,895 horas ) = (2horas 36min. ; 2horas 54 min) La justificación de estos resultados no son fáciles de exponer a nivel de la educación media, por cuanto requiere del desarrollo de la teoría de las probabilidades; sin embargo considero que se deben dar también los fundamentos de esta teoría en el nivel medio, lo que puede ser motivo de un próximo curso, que básicamente debería contener los temas: el concepto de 35 probabilidad, variables aleatorias distribuciones de probabilidad. y las principales 17. EL PROGRAMA CURRICULAR DE LA ESTADISTICA EN LA EDUCACION BASICA Y MEDIA. Como puede observarse los contenidos de este curso son elementales y básicos en la formación de una persona, pues ahora ya forman parte del lenguaje de los individuos y de los medios de comunicación colectiva. Personalmente pienso que la estadística básica es mucho más simple y útil que muchos de los temas, que en matemática, se los estudian con exagerada atención en la educación básica y media. Me parece importante y no muy difícil incorporar estos y otros temas, como el de probabilidades básicas, hay que determinar en que curso los estudiantes ya estarían en capacidad de asimilarlos. La reforma curricular para la educación básica plantea en el cuarto y quinto año básico, en el sistema de estadística y probabilidad, introducir los temas sobre recolección de datos y su representación en diagrama de barras; en el sexto las medida de localización (o tendencia central) como la media, mediana y moda, y en el séptimo completar otras representaciones como la circular, tallo y hojas, de caja, etc. En el octavo y noveno año, las tablas de frecuencias absolutas, relativas y acumuladas y su representación en histogramas, las medidas de dispersión como la desviación estandar (o típica) y la varianza, complementando con la noción de probabilidad y 36 de sucesos o eventos; y en el décimo año se propone recopilar y revisar todos estos temas con suficientes aplicaciones relevantes en cuanto a los contenidos (relacionados con otras ciencias como la economía, sociología, demografía, etc.). La propuesta es excelente, pero talvez es muy desagregada y algo temprana; se podría empezar en sexto año de básica con los temas sobre recolección de datos, diagramas de puntos y de barras y medidas de tendencia central como la media, la mediana y la moda; en el séptimo año básico se deberían introducir otras representaciones como la de tallo y hojas y la circular, o de pastel, y de paso recordar las de puntos y barras, definir el rango y el rango intercuartil para la representación de caja; y en los años: octavo, noveno y décimo seguir los planteamientos de la Reforma Curricular. En los años siguientes de educación media (bachillerato) se deberían tratar los siguientes temas, en el cuarto curso la regresión lineal simple y las tablas de contingencia (o cruzadas), en el quinto curso las distribuciones de probabilidad más utilizadas, especialmente la binomial y la normal, y en sexto curso terminar con temas de estimación de parámetros, más precisamente estimación puntual y por intervalos de la media poblacional, y en particular de una proporción, usando el teorema del límite central, o sea la distribución normal para muestras grandes, es decir: para un tamaño de muestra mayor que 27, se puede afirmar, con el 95% de confiabilidad, que la media poblacional está en el intervalo: [m2s/n; m+2s/n]. Obviamente, se podría pretender la inclusión de otros temas como la estimación del total poblacional, siempre en el caso del muestreo aleatorio simple, la estimación por intervalo para 37 tamaños de muestra pequeños, es decir cuando el tamaño es menor o igual que 27, y las regresiones (exponencial, logarítmica, etc.) que se reducen al caso lineal simple. Pero posiblemente lo más importante de la Estadística es su aplicación y relación con las demás ciencias, lo que puede servir para que el estudiante conozca, por ejemplo, la realidad social, económica, etc de su provincia o del país y compararla con la de otros países del mundo. Es por esta razón que la Estadística podría ser el medio para lograr otros conocimientos e incluso para realizar ciertas investigaciones, basadas en encuestas por muestreo aleatorio, en diversas disciplinas. A propósito, por último, a continuación ejercicios: les envío otros Realizar los gráficos en barras y circular (pastel) de la población total ocupada por tipo de actividad, y hacer los gráficos según el sexo, es decir considerando la población de hombres y de mujeres. Hacer los gráficos en barras y circular (pastel) de la población económicamente activa (PEA) por categorías de ocupación, y también los gráficos según el sexo, es decir considerando la PEA masculina y femenina. Realizar los gráficos en barras y circular (pastel) de la PEA del sector privado por grupos principales de ocupación. Bibliografía: Berenson M., Levine D., Estadística Básica en Administración, Prentice Hall Hispanoamericana S. A., México, 1996. 38 Freund J. y Simon G., Estadística elemental, Prentice Hall, México, 1994. Galindo E., Estadística para la Administración y la Ingeniería, Gráficas Mediavilla Hnos., Quito, 1999. 39