INTRODUCCIÓN, RECOLECCIÓN DE DATOS

Anuncio
La Estadística en la Educación
Básica y Media
OBJETIVOS: presentar una visión general de la Estadística y
sus aplicaciones, los procedimientos para recolección de datos,
su clasificación y organización, los requerimientos de una
buena investigación por muestreo y los errores que se pueden
cometer en una encuesta.
Mostrar cómo grandes conjuntos de datos numéricos pueden
organizarse y presentarse de manera eficaz, con el propósito de
favorecer el análisis y la interpretación de los datos, aspectos
claves del proceso de planificación y toma de decisiones.
Describir de manera conveniente las características de los datos
mediante tablas, diagramas y representaciones gráficas; es decir
presentar las técnicas básicas para realizar el análisis de los
datos.
Motivar a directivos y profesores de colegios para que la
estadística sea considerada importante en la formación y el
curriculum académico del estudiante, con la finalidad de que
forme parte de la cultura general en nuestro país.
1. INTRODUCCION
La estadística se origina en los propósitos de los gobiernos
(naciones o estados) de tener información sobre su población y
recabar datos sobre sus ciudadanos, su desarrollo se favorece
con el florecimiento en las matemáticas de la teoría de las
probabilidades.
Cada día es más importante el contar con información para las
actividades de planificación y toma de decisiones en cualquier
ámbito institucional, por ello las empresas públicas y privadas
requieren tener información relevante y confiable sobre su
campo de acción con los menores costos posibles.
La estadística comprende las técnicas de recolección,
presentación y análisis de datos para apoyar la tarea de
planificación y aportar al proceso de toma de decisiones, y
abarca también los métodos que permiten verificar o rechazar
ciertas conjeturas relacionadas con la investigación en diversas
ciencias.
La estadística se puede aplicar en diversos campos:
contabilidad, finanzas, administración, mercadeo, medicina,
economía, ingeniería, etc..
Actualmente el mundo se caracteriza por la globalización con
un mayor acceso a la información, sus fuentes son diversas:
publicaciones gubernamentales, industriales, gremiales, etc., en
forma impresa (libros, revistas, periódicos) o usando la
tecnología multimedia, se obtienen datos de registros
electrónicos, mediante sistemas de recuperación de información
y de bases de datos en línea, o mediante el uso de la autopista
de la información INTERNET. Los medios electrónicos, como
el CD-ROM, han revolucionado el acceso a la información.
El gobierno es un importante recolector y compilador de datos
con propósitos tanto públicos como privados.
Hay que distinguir entre el recolector original de los datos,
denominado fuente primaria, y el organizador que compila
estos datos en tablas y diagramas, llamado fuente secundaria.
En nuestro país, el Banco Central y el Instituto Nacional de
Estadística y Censos, INEC, son entidades responsables de
2
recolectar datos sobre variables económicas, financieras,
sociales y demográficas.
Sin embargo en muchas ocasiones no existe la información que
requerimos, y para obtenerla debemos diseñar un experimento,
o realizar un estudio basado en la observación del
comportamiento de interés, o hacer una investigación por
medio de una encuesta dirigida a una muestra de la población
objeto del estudio.
En la actualidad se recogen datos con la finalidad de utilizarlos
en diversos propósitos relacionados con estudios de
investigación científica, planificación para el desarrollo de un
proyecto, para contribuir en un proceso de toma de decisiones,
medir el desempeño de un proceso de producción o de un
servicio, realizar un estudio de mercado, o simplemente para
satisfacer nuestra curiosidad.
La estadística comprende dos partes fundamentales:
a) La estadística descriptiva: que son los métodos que
involucran la recolección, presentación y análisis de un
conjunto de datos con el fin de describir
apropiadamente sus diversas características.
Su
desarrollo se ha dado por la necesidad de información
relevante de amplias poblaciones.
b) La estadística inferencial: que puede definirse como
aquellos métodos que hacen posible la estimación de
una característica de una población basándose
solamente en los resultados de una muestra. Su
desarrollo se ha dado a principios del siglo XX y tienen
3
amplia aplicación en todos los campos de la
investigación en la actualidad.
Para aclarar estos términos, en el siguiente tema, se introducen
algunas definiciones fundamentales.
2. DEFINICIONES BASICAS
Población (o universo): es el conjunto de todos los
elementos considerados como objetivo del estudio y del
cual queremos obtener sus características.
Muestra: es la porción de la población que se
selecciona para su análisis, es el objetivo de la encuesta
o del experimento, que será de utilidad para poder
obtener las conclusiones sobre la población.
Parámetro: es una medida de resumen para describir
una característica de toda una población.
Estadístico(a):
es una medida de resumen para
describir una característica de una muestra de la
población.
Para que un análisis estadístico sea útil los datos de entrada no
deben contener errores, puesto que si entra basura saldrá
basura.
3. TIPOS DE DATOS
4
Los datos son los resultados observados de diversas
características, de los elementos de una población de estudio,
llamadas variables aleatorias.
Existen básicamente dos tipos de datos o de variables
aleatorias:
Datos categóricos (variables cualitativas) y datos numéricos
(variables cuantitativas).
La variable es categórica si sus valores observados se los
clasifica en categorías caracterizadas por una cualidad. Por
ejemplo, en una encuesta, las respuestas a las preguntas: ¿Cuál
es su estado civil?, ¿Posee usted vehículo?, ¿A qué partido
político pertenece?, En qué medida está satisfecho con el
trabajo que desempeña: poco, medianamente, o mucho?,
¿Usted tiene hijos? son categóricas.
Las variables categóricas se clasifican en dos grupos, pueden
ser nominales u ordinales.
Variable Nominal, si los datos observados se clasifican en
diversas categorías que no implican ningún orden, por ejemplo
el estado civil, el sexo, el partido político, o si tiene o no hijos.
Variable Ordinal, si los datos se clasifican en categorías que
implican algún orden, por ejemplo la medida de satisfacción en
el trabajo que desempeña (poco en menos que medianamente y
este es menor a mucho).
La variable es numérica si sus valores observados son números,
es decir representan una cantidad o una medida. Por ejemplo,
las respuestas a las preguntas: ¿Cuántos vehículos posee? ¿A
5
cuántas revistas está suscrito actualmente?, ¿Cuántos hijos
tiene?, ¿Cuál es su estatura?, ¿Cuánto pesa? son claramente
numéricas.
Las variables numéricas se clasifican en dos grupos, pueden ser
discretas o continuas.
Variable discreta si los datos corresponden a respuestas
numéricas que provienen de un proceso de conteo.
Variable continua si los datos corresponden a respuestas
numéricas que surgen de un proceso de medición.
4. ENCUESTAS POR MUESTREO
Para realizar una encuesta por muestreo previamente se debe
determinar con precisión que información se necesita obtener,
es decir establecer claramente los objetivos de la investigación,
y posteriormente se requiere planificar y ejecutar una serie de
actividades para lograr el éxito deseado.
Las principales tareas son: definir cuidadosamente la
población, establecer el o los marcos de muestreo de manera
que la lista de unidades muestrales y la población concuerden
lo mejor posible, seleccionar el diseño de muestreo y el método
de entrevista, elaborar el cuestionario, capacitar a los
encuestadores y supervisores, realizar una prueba piloto,
organizar el trabajo de campo, sistematizar el manejo,
validación y análisis de los datos y finalmente calcular las
estimaciones para obtener la información requerida.
6
El cuestionario es un instrumento que contiene varias preguntas
que trata sobre una diversidad de fenómenos o características
de una población, denominadas variables aleatorias.
Como ya se ha dicho, los datos son los resultados observados
de estas variables aleatorias.
Después de que se han determinado las preguntas numéricas y
categóricas más esenciales de la encuesta, se procede a
determinar el diseño y el tamaño de la muestra con los
requerimientos más rigurosos.
Existen básicamente dos tipos de muestras: la muestra no
probabilística y la muestra de probabilidad o aleatoria (al azar).
Una muestra de probabilidad o aleatoria, es aquella en la que
los elementos de la muestra se eligen sobre la base de
probabilidades conocidas.
La única forma de que hagamos inferencias estadísticas
correctas de una muestra a una población, es mediante el uso de
una muestra de probabilidad.
Los cuatro diseños o tipos de muestras probabilísticas de uso
común son: la muestra aleatoria simple, la muestra sistemática,
la muestra estratificada y la muestra de agrupación o
conglomerados; un análisis detallado de estos procedimientos
de muestreo pueden encontrarse en libros sobre investigación
por muestreo (en inglés: Sample Survey).
5. MUESTREO ALEATORIO SIMPLE
7
En una muestra aleatoria simple cada individuo o elemento
tiene la misma oportunidad de selección que cualquier otro, y la
selección de un elemento en particular no afecta la probabilidad
de que se elija cualquier otro.
Una muestra aleatoria simple también puede interpretarse
como aquella en la que cada posible muestra extraída (de
determinado tamaño) tiene la misma probabilidad de selección
que cualquier otra muestra que se pueda extraer (de ese mismo
tamaño).
El proceso de selección de una muestra aleatoria simple no
necesariamente es el mejor o el más económico de los métodos
de muestreo de probabilidad, pero proporciona la base a partir
de la cual han evolucionado los otros procedimientos.
La clave de una selección apropiada es obtener y mantener una
lista actualizada de todas las unidades de muestreo, entre las
cuales se extraerá la muestra, tal lista se conoce con el nombre
de marco de población.
Las unidades de muestreo son agrupaciones, no traslapadas, de
elementos de la población, que la cubren completamente; en
otras palabras forman una partición de la población
Por tanto el marco de población es sencillamente una lista
(numerada) de todas las unidades de muestreo. Se denomina
marco de lista de la población si cada unidad de muestreo
contiene un solo elemento de la población, en este caso la
numeración va desde uno (1) hasta el tamaño de la población
(N).
8
Por ejemplo si la población es el conjunto de los estudiantes de
los colegios del país, un marco de población podría ser la lista
de todos los colegios del Ecuador, en cambio el
correspondiente marco de lista de la población es el listado de
todos los estudiantes colegiales. Si la población es una
determinada ciudad, marcos de población podrían ser la lista de
todos los barrios, de todas las manzanas o de todas las
parroquias urbanas que la conforman, su respectivo marco de
lista sería un listado de sus ciudadanos.
El marco de población sirve como la población objetivo, de
manera que, si el marco es adecuado, cada muestra es una
representación en miniatura de la población, y por tanto se
espera obtener estimaciones razonables de sus características.
Si el listado es inadecuado, porque ciertos elementos de la
población se encuentran repetidos, o no estuvieran incluidos, la
muestra de probabilidad sólo proporcionará estimaciones de las
características de la población objetivo y no de la población
real, puesto que estas fallas pueden ocasionar sesgos o
desviaciones en los resultados.
Designamos por N el tamaño de la población, y n el tamaño de
la muestra.
Para extraer una muestra aleatoria simple de tamaño n, se
podría registrar los nombres, o los correspondientes números,
de los N miembros del marco de lista de la población en fichas
del mismo tamaño, colocar estas fichas en una gran urna,
mezclar a fondo las fichas y luego seleccionar aleatoriamente
(sacar al azar) los n elementos de la urna, los mismos que
formarían la muestra.
9
El método de la urna tiene algunas desventajas: nuestra
habilidad para mezclar a fondo las fichas para que la extracción
sea aleatoria, y la inmensa cantidad de fichas que deberíamos
elaborar si N es demasiado grande.
Uno de los métodos que se utiliza para obtener la muestra es el
uso de números aleatorios.
Nuestro sistema numérico usa diez dígitos: 0,1,2,3,4,5,6,7,8,9.
Se puede usar entonces una urna que contenga esferas o fichas
numeradas con los diez dígitos (y sacarlos al azar con
reposición). Entonces la probabilidad de generar aleatoriamente
cualquier dígito es igual a 1/10 para todos.
Numerados los elementos del marco de lista de la población, se
obtiene la muestra aleatoria seleccionando aquellos miembros
cuyos códigos concuerden con los dígitos extraídos de la urna.
Por ejemplo, si deseamos una muestra, de n=50 elementos
distintos, seleccionada de una población de N=782 elementos,
se formarán por lo menos cincuenta números de tres dígitos
(pues se eliminan los números repetidos y no se toman en
cuenta los mayores a 782 y el 000) hasta completar los
cincuenta requeridos.
6. EVALUACION DE UNA ENCUESTA POR
MUESTREO
Una buena investigación por muestreo requiere tener los
objetivos claros, una apropiada planificación y una buena
ejecución de todas las actividades programadas.
Es de fundamental importancia realizar una encuesta piloto,
con una muestra muy reducida, con la finalidad de probar el
10
cuestionario y todos los instrumentos que se utilizarán en los
diversas etapas, de modo que se corrijan los errores y se puedan
evaluar los procesos y sus costos.
Para una buena recolección de datos se debe adiestrar a los
encuestadores sobre las definiciones operacionales de la
encuesta, es decir sobre el significado de cada variable, de
modo que no existan ambigüedades en las preguntas
correspondientes; se requiere además organizar detalladamente
el trabajo de campo, estableciendo claramente las obligaciones
del personal y las líneas de autoridad.
Son extremadamente importantes también las actividades de
codificación, validación y análisis de datos, puesto que se
deben examinar las respuestas buscando su integridad y
posibles errores para corregirlos.
Para valorar una investigación por muestreo hay que verificar si
se han considerado estas recomendaciones y realizado
eficientemente todas las actividades antes mencionadas.
Es claro que hay una proliferación de investigaciones de
encuestas de opinión, pero no toda investigación es buena,
significativa o importante.
Es esencial que aprendamos a evaluar críticamente lo que
leemos o escuchamos y que descartemos las encuestas que
carezcan de objetividad y credibilidad.
El primer paso para evaluar una encuesta es determinar si se
basó en una muestra de probabilidad o en una no probabilística;
puesto que la única forma de que hagamos inferencias
11
estadísticas correctas es a través del uso de una muestra
aleatoria.
Las encuestas de muestreo no probabilístico están sujetas a
graves sesgos o desviaciones, tal vez no intencionales, que
pueden invalidar sus resultados. Hay ejemplos de medios de
comunicación muy importantes que han cometido graves
equivocaciones basados en encuestas mal realizadas.
Aún cuando las encuestas empleen métodos de muestreo de
probabilidad aleatorios, están sujetas a errores potenciales, que
se pueden clasificar en cuatro tipos:
Error de cobertura: debido a duplicaciones, omisiones o
inclusiones erradas en el marco de muestreo.
Error de no respuesta: causado por el fracaso de recolectar
datos sobre los elementos de la muestra.
Error de medición: que se refiere a inexactitudes en las
respuestas registradas.
Error de muestreo: que refleja la heterogeneidad, o las
diferencias de oportunidad, entre las muestras.
Puesto que la muestra esta formada por elementos particulares,
dictados por el azar, que es una representación en miniatura de
la población, una buena investigación debe declarar el margen
de precisión, se dirá por ejemplo: “se espera que los resultados
de este sondeo estén dentro de +-5 puntos porcentuales del
valor real”.
7. CLASIFICACION ORDENADA DE LOS DATOS.
Cuando se elabora un conjunto de datos, las observaciones
numéricas no tienen ningún orden o secuencia particular ni
12
tampoco se encuentran agrupados por similares cualidades o
características.
Al crecer el número de observaciones, se hace más difícil
observar las principales características del conjunto de datos, se
requiere entonces organizar las observaciones, de tal manera
que entendamos mejor la información que contienen los datos,
para lograrlo se han desarrollado diversos métodos, algunos
fundamentados en gráficos y diagramas, otros en ciertas
medidas numéricas, y varias técnicas fundamentadas en
diferentes tipos de análisis matemáticos.
La primera forma que permite organizar los datos de modo que
se pueda apreciar ciertas características es realizar una
clasificación ordenada de los datos respecto a la variable de
interés.
Ejemplo 1: los siguientes datos corresponden al número
(aproximado y en miles) de Unidades de Producción
Agropecuarias (UPAs) de cada provincia del país (resultados
del Censo Nacional Agropecuario CNA del año 2000)
Prov Azua Boli Caña Carc Coto Chim ElOr Esme Gala Guay Imba
UPAs 99 39 32 13 68 82 22 16 1
65 34
Mo
ZNA
Loja LoRi Mana Sa Napo Orel Past Pich Sucu Tung ZaCh s
66 42 75 17
5
6
5 64 8
71
9
4
La clasificación ordenada de estos datos es la siguiente:
13
Prov Gala
UPAs 1
ZNA
Mo
s Napo Past Orel Sucu ZaCh Carc Esme Sa ElOr
4
5
5
6
8
9
13
16
17
22
Caña Imba Boli LoRi Pich Guay Loja Coto Tung Mana Chim Azua
32
34
39
42
64
65
66
68
71
75
82
99
De esta tabla se puede determinar inmediatamente algunas
características, como por ejemplo: la provincia que menos
UPAs tiene es Galápagos (aproximadamente un mil), la que
tiene mayor cantidad es Azuay (con alrededor de 99 mil); la
provincia que corresponde a la mediana es Cañar con 32 mil
UPAs.
Ejercicio 1: Realizar la clasificación ordenada de los datos
correspondientes al número (aproximado y en miles) de
habitantes de cada provincia del país (resultados del Censo
Nacional de Población y Vivienda del año 2001)
Prov Azua Boli Caña Carc Coto Chim ElOr Esme Gala Guay Imba
UPAs 600 169 207 153 350 404 526 385
19 3309 344
Mo
ZNA
Loja LoRi Mana Sa Napo Orel Past Pich Sucu Tung ZaCh s
405 650 1186 115
79
86
62 2389 129 441
77
73
La mejor manera de examinar datos es presentarlos en forma de
resumen construyendo tablas y diagramas apropiados, de
manera que podamos extraer las características más
importantes de los datos.
14
8. CARACTERÍSTICAS DE LOS DATOS
Las tres principales características que dan la posición relativa
del conjunto de datos son: la localización o tendencia central, la
dispersión y la simetría.
Tendencia central o localización: es una cantidad cerca de la
cual se encuentran los valores del conjunto de datos, se la mide
mediante un valor junto al cual se agrupa la mayoría de las
observaciones. Una medida de tendencia central es, por
ejemplo, la media o promedio de los datos.
Ejercicio 2: (a)Calcular el promedio provincial del número de
UPAs (datos del ejemplo 1). (b) Encontrar la media provincial
del número de habitantes (referirse al ejercicio1).
Dispersión: es una medida de la variación que existe entre los
valores del conjunto de datos, mide que tan dispersos están los
datos, usualmente en relación con un valor central. Por ejemplo
el rango o extensión (la diferencia entre el valor máximo y el
mínimo) es un medida de dispersión.
Ejercicio 3: Hallar el rango de los datos del ejemplo 1 y del
ejercicio 1.
Simetría (y asimetría): el conjunto de datos es simétrico cuando
los valores de los datos están distribuidos en la misma forma
por encima y por debajo del valor central del conjunto de datos.
9. DIAGRAMAS Y GRÁFICOS
15
Puesto que la tabla o matriz de los datos no muestra las
cualidades de los datos, se usan representaciones gráficas que
ayudan a captar tendencias, apreciar características y establecer
modelos probabilísticos de comportamiento global.
En general un diagrama o un gráfico, en donde están
representados los datos, sirve para resumir el conjunto de las
observaciones y advertir sus carácterísticas de localización, de
dispersión , de simetría y la presencia de valores atípicos.
Los diagramas y gráficos que comúnmente son utilizados, para
organizar las observaciones de modo que entendamos mejor la
información que contienen y apreciemos sus características, se
presentan a continuación:
Diagrama de puntos: cada observación se representa mediante
un punto sobre la recta numérica.
Representación de puntos del ejemplo 1
0
20
40
60
80
100
Ejercicio 4: hacer el diagrama de puntos de los datos del
ejercicio 1.
Diagrama de tallo y hojas: a los datos se los clasifica
considerando, por ejemplo, las unidades, o las decenas, o las
centenas, etc., estas forman el tallo y se las coloca
verticalmente, a continuación se coloca los siguientes dígitos
para cada observación a la derecha de la barra vertical, estos
valores vienen a constituir las hojas, y así se van añadiendo
16
todas las observaciones; pueden realizarse variantes (por
ejemplo distinguiendo las cifras altas y las bajas).
Un diagrama de tallo y hojas con los datos correspondientes al
número de UPAs (ejemplo 1) sería el siguiente:
9 9
8 2
7 1/5
6 4/5/6/8
4 2
3 2/4/9
2 2
1 3/6/7
0 1/4/5/5/6/8/9
Ejercicio 5: Hacer al menos un diagrama (adicional) de tallo y
hojas con los datos del ejemplo 1, y dos diagramas con los
datos del ejercicio 1.
Gráfico de pastel: es una forma de resumir un conjunto de datos
categóricos. Es un círculo dividido en segmentos, donde el área
de cada uno de los segmentos es proporcional al número de
casos en la categoría correspondiente.
Para conocer el ángulo (medido en grados) podríamos aplicar
una simple regla de tres (proporción): si el número total de
datos corresponde a 360 grados, el número de casos en una
determinada categoría, ¿cuántos grados le corresponde?.
Adicionalmente, se suele indicar el porcentaje de cada
categoría.
17
Ejemplo 2: los siguientes datos corresponden al número de
habitantes (aproximado y en miles) de la población nacional
por categorías de área (urbana/rural) según el censo de
población 2001.
Población Nacional
Número de habitantes
Total
12156
Categorías
Urbana
7431
Rural
4725
Población Nacional Por Categorías de Area
Urbana
Rural
38.9%
Urbana
61.1%
Rural
Ejercicio 6: Hacer el gráfico de pastel con los respectivos
porcentajes de los siguientes datos del Censo de Población
(2001):
18
(a) Población nacional (número de habitantes) por (categorías
correspondientes al) sexo (hombre/mujer).
(b) Población de la provincia de Pichincha por sexo.
(c) Población de la provincia de Guayas por área.
(d) Unidades de Producción Agropecuarias (UPAs) por
categorías de tenencia de la tierra (referirse a los resultados del
CNA 2000)
(e) Población (nacional mayor a diez años) de analfabetos por
categorías quinquenales de edad.
(f) Población de analfabetos por categorías provinciales.
(g) Población (nacional masculina mayor a diez años) de
analfabetos
por
categorías
quinquenales
de edad
(respectivamente femenina)
(h) Población de hombres analfabetos
provinciales (respectivamente de mujeres).
por
categorías
(i) Población nacional mayor a doce años por categorías de
estado civil.
La representación de pastel se suele usar también con
cantidades si se han agregado las mismas en las
correspondientes categorías (ver ejercicio 9).
Se puede también usar el gráfico de pastel con datos numéricos
si previamente se ha creado una tabla de frecuencias (es decir
se han clasificado las observaciones en grupos o clases dados
19
por una partición en subintervalos) pero en este caso se usa
generalmente el gráfico de barras denominado histograma.
Gráfico de barras: los datos categóricos se exhiben mediante un
número de rectángulos, del mismo ancho, cada uno de los
cuales representa una categoría particular.
La longitud (y por lo tanto el área) de cada rectángulo es
proporcional al número de casos en la categoría que representa.
Ejemplo 3: considerar los datos, de la población nacional por
grupos de edad quinquenales, que se presentan a continuación:
Grupos
edad
N°
habitantes
30 a 34
0a4
5a9
10 a 14
15 a 19
20 a 24
25 a 29
1337
1362
1341
1241
1169
947
35 a 39 40 a 44 45 a 49
50 a 54
55 a 59
60 a 64
863
775
463
339
294
65 a 69
70 a 74 75 a 79 80 a 84
85 a 89
90 a 94
95 y más
674
539
20
244
195
143
97
63
39
32
Número de habitantes por grupos de edad
90 a 94 años
80 a 84 años
70 a 74 años
60 a 64 años
50 a 54 años
40 a 44 años
30 a 34 años
20 a 24 años
10 a 14 años
0 a 4 años
0
200
400
600
800
1000
1200
1400
1600
N° habitantes
Se prefiere realizar el gráfico con las barras horizontales
especialmente cuando a continuación se va a representar una
pirámide, desagregando la población en dos categorías, en
nuestro caso, por ejemplo considerando el sexo, es decir la
población de hombres a la izquierda y de mujeres a la derecha.
Ejercicio 7: realizar el gráfico de pirámide con los datos de la
población nacional por grupos de edad quinquenales,
considerando las categorías de sexo (hombres/mujeres) (ref.
censo de población).
Ejercicio 8: realizar el gráfico de barras con los datos del
ejemplo 2.
21
Ejercicio 9: hacer el gráfico de pastel, y el de barras, de los
siguientes datos, que corresponden a la superficie (área)
nacional según el uso del suelo (resultados del CNA 2000)
Uso del suelo (en miles de hectáreas)
Categ. Cultiv. Cultiv. Descan. Pastos Pastos Páramo
Perma. Trans.
y
Cultiv. Natur.
Barbe.
Super. 1363 1232 381
3357 1130 600
Montes Otro
y
Usos
Bosques
3881
411
Se pueden representar datos numéricos si se elabora
previamente una tabla de frecuencias, en este caso el gráfico se
denomina histograma (los detalles de este procedimiento se
exponen en el siguiente tema).
En algunos casos es conveniente representar los datos mediante
una combinación dos gráficos de pastel o de una representación
de pastel con una de barras, especialmente cuando una de las
categorías tiene una frecuencia muy grande comparada con las
otras, es decir uno o algunos porcentaje(s) demasiado(s) alto(s)
en relación de los demás.
Ejemplo 4: los siguientes datos corresponden al número
(aproximado y en miles) de Unidades de Producción
Agropecuarias (UPAs) según su condición jurídica (de acuerdo
al CNA 2000)
CONDICION JURIDICA
Cate- Persona
goría
Individual
Soc.Hecho Soc.
sin
Contrato Legal
Legal
22
Institución Otras
Pública
Condiciones
UPAs 577
56
10
9
13
Unidades de Produccion Agropecuarias Persona
Individual
8.4%
86.8%
2.0%
Sociedad de
Hecho
Sociedad
Legal
4.8%
1.4%
1.5%
Institución
Pública
Otras
Condiciones
10. DISTRIBUCIÓN DE FRECUENCIAS E HISTOGRAMAS
Para crear la tabla de frecuencias con datos categóricos se
cuenta el número de veces en la que aparece cada dato, es decir
se calcula el número de elementos de cada una de las
categorías.
Si los datos son numéricos se tiene que crear una partición del
intervalo que contiene a todos los valores, es decir dividirlo en
grupos de subintervalos, y se cuentan cuantos elementos están
en cada clase.
Se dispone esta información en dos columnas, la primera
indicando el grupo (categoría o clase) y la segunda su número
de elementos correspondiente (cardinalidad).
23
Luego se forma una tercera columna con la frecuencia relativa;
es decir, se divide la cardinalidad de cada grupo, para el
número total de datos (la misma que se puede expresar como
porcentaje).
Se suele calcular también una cuarta columna con las
frecuencias acumuladas, que resultan de sumar las frecuencias
relativas de todas las observaciones anteriores hasta la
considerada inclusive.
El Histograma es un gráfico de barras en el que se presentan
las frecuencias absolutas o las relativas (en porcentaje).
Se determina el número de grupos dependiendo del número de
observaciones, por ejemplo: si tenemos menos de 20
observaciones se seleccionar 4 clases, de 20 a 50 observaciones
se toman 5 clases, de 50 a 100 observaciones se escogen 6
clases, de 100 a 200 observaciones se suele elegir 7 clases, de
200 a 500 observaciones usualmente se seleccionan 8 clases, y
más de 500 observaciones se eligen 9 clases o más (en función
del número de datos).
Provincias
En el caso de datos numéricos, la longitud de cada clase
(subintervalo) es igual a la extensión o rango de los datos
dividido para el número de clases.
Para cada observación se determina a que clase pertenece para
calcular la frecuencia absoluta de cada clase.
Histograma del ejemplo 1: Provincias por cantidad de UPAs
15
11
10
5
4
3
5
0
De 1 a < 25.5
De 25.5 a24
<50 De 50 a <74.5
UPAs (en miles)
De 74.5 a 99
11. MEDIDAS DE LOCALIZACIÓN O TENDENCIA
CENTRAL
Una medida de localización es un valor en torno al cual
se agrupan la mayoría de datos, es una característica de
tendencia central de las observaciones, las más empleadas son:
el promedio o media muestral, la mediana, la moda y la media
simétricamente segada.
Promedio o media muestral (m): es igual a la suma de los
valores de las observaciones dividida para el número total de
datos (n). Se le denomina m o también x (x techo).
m = (  xi ) / n
Mediana (Q2): es el valor que se encuentra en el punto medio,
cuando se ordenan los valores de menor a mayor, se la denota
Q2. Si n=2p+1 (impar) entonces Q2=xp+1; y si n=2p (par)
entonces Q2=(xp+xp+1)/2
Moda (Mo): es aquel valor que tiene la mayor frecuencia
absoluta, se la representa por Mo.
Si los datos están dispuestos en una tabla de frecuencias
agrupados en clases (subintervalos) aquella que tiene la mayor
frecuencia se denominará clase modal y puede asumirse que, de
manera aproximada, la moda es su punto medio.
Media simétricamente segada al 10%: es igual al promedio de
las observaciones que quedan luego de eliminar el 5% de las
25
que tienen los valores más bajos y el 5% de las que tienen los
valores más altos.
Observemos que si cada dato xi está con su respectiva
frecuencia ni ; la media (el promedio) se puede calcular
evidentemente mediante la expresión:
m = (  ni xi ) / n
Cuando los datos están dispuestos en una tabla de frecuencias
agrupados en clases, se puede calcular el valor aproximado de
la media o la media segada considerando la suma de los
productos de los valores medios de las clases por su frecuencia
y dividiendo como siempre para el número de observaciones, es
decir usando la expresión anterior con xi igual al punto medio
de clase i (o sea: xi = (li+si)/2
donde li y si son
respectivamente los límites inferior y superior de la clase i).
Ejemplo 5: Usando los datos del censo de población,
determinar el promedio del número de hijos vivos que tienen
las madres ecuatorianas. De acuerdo con el cuadro N. 53, se
tiene la siguiente tabla de frecuencias por número de hijos:
Número de
hijos vivos
Número de
madres
0
9
1
2
3
4
5
6
7
8 9 10
mas
600 637 534 346 237 173 122 90 60 74
y
Asumiendo que en la última categoría las 74 madres tienen en
promedio 11 hijos, se puede obtener que el valor aproximado
de la media es:
(0x9+1x600+. . .+9x60+11x74)/(9+600+. . .+60+74)=3,4736
(hijos/madre)
26
El promedio exacto de acuerdo al censo es de 3,2753 .
Ejercicio 10: Revisar los ejemplos del texto de Galindo
relacionados con las medidas de localización (tendencia
central).
12. MEDIDAS DE DISPERSIÓN
La desviación estándar o típica (denominada s): es igual a la
raíz cuadrada de la suma de los cuadrados de las diferencias
entre cada valor de los datos y su media, dividida para el
número de datos menos uno; se la denomina s, es siempre un
valor positivo, y su unidad de medida es la misma que
corresponde a los datos originales.
s = ( (  (xi - m)2/(n-1) )½
Las mismas observaciones que realizamos para el cálculo de la
media, cuando se dan las frecuencias (con datos individuales o
agregados) son válidas también para la desviación típica.
Para tener una noción de lo que representa una desviación
estándar en relación a las observaciones, se puede comprobar
que el intervalo, de extremo izquierdo igual a la media menos
tres desviaciones estándar y de extremo derecho la media más
tres desviaciones, contiene al menos el 90% de los datos.
Cuando la distribución es normal (o parecida a ella) el intervalo
en mención: (m-3s;m+3s) contiene al menos el 99% de las
observaciones.
27
Por tanto, los valores que no están dentro de este intervalo se
pueden considerar como valores atípicos.
Extensión o rango: es igual a la diferencia entre los valores
mayor y menor de las observaciones, es decir es el máximo
menos el mínimo de los datos; es decir:
ext = rg = max(xi) – min(xi) .
Cuartil inferior (Q1): es la mediana de la mitad inferior de los
datos.
Cuartil superior (Q3): es la mediana de la mitad superior de los
datos.
Los cuartiles y la mediana dividen al conjunto de datos en
subconjuntos que contienen aproximadamente el 25% de los
datos.
Rango Intercuartil (RIQ): es igual a la diferencia entre los
cuartil superior e inferior, se lo denomina RIQ y por tanto: RIQ
= Q3 - Q1.
Percentiles: son valores que dividen a la muestra de datos en
cien grupos, cada uno de los cuales contiene (hasta donde sea
posible) igual número de observaciones, se los denomina: p1,
p2, p3, . . . , p99.
Quintiles: son valores que dividen al conjunto de datos en 5
grupos, cada uno de los cuales contiene (hasta donde sea
posible) el 20% de las observaciones, se los llama q1, q2, q3 y
q4.
Ejercicio 11: Revisar los ejemplos del texto de Galindo
relacionados con las medidas de dispersión.
28
13. DIAGRAMA DE CAJA
El diagrama de caja es una herramienta que describe en un
mismo gráfico algunas características de localización, de
dispersión, y los valores atípicos, al representar la mediana, los
cuartiles, el rango intercuartil y el rango de las observaciones;
para su construcción se procede de la siguiente manera:
a) Sobre una línea horizontal se localizan la mediana, los
cuartiles inferior y superior y los datos mínimos y máximo.
b) Se hace una caja angosta que una a Q1 y Q3, a
continuación se divide esta caja en dos mediante una línea
que pase por Q2.
c) Finalmente se trazan dos rectas, una para cada extremo de
la caja, en los valores: Q1 – 1,5 RIQ ; y , Q3 + 1,5 RIQ.
Q1-1,5RIQ
Q3+1,5RIQ
Q1
Q2
Q3
Los datos que caen fuera de estas dos vallas (dadas por las dos
rectas trazadas) se consideran como valores atípicos.
Nota: En una distribución que se aproxima a la normal estos
valores corresponden a los que están fuera del intervalo: m–
2,7s ; y , m+2,7s
Existen otras medidas de dispersión (poco usuales) como por
ejemplo:
29
La desviación promedio respecto al promedio (o media)
(llamada: DPP):
DPP = ( i xi – m)/n
La desviación promedio respecto a la mediana (DPM):
DPM = ( i xi – Q2)/n
La desviación absoluta respecto a la mediana (DAM):
DAM=Med(xi – Q2) (con i=1,2, ... ,n)
14. TABLA DE CONTINGENCIA
Consideremos ahora un esquema de doble clasificación, por
ejemplo las personas o habitantes del país se pueden agrupar
entre los que viven en el área urbana y los que viven en el área
rural, y dentro de estos dos grupos se los puede clasificar
respecto al sexo (es decir en hombres y mujeres).
Ejemplo 6: de acuerdo a los resultados del censo de población
del año 2001 tenemos la siguiente clasificación doble:
POBLACION Hombres Mujeres Total
Urbana
3.625.962 3.805.393 7.431.355
Rural
2.392.391 2.332.862 4.725.253
30
Total
6.018.353 6.138.255 12.156.608
La clasificación de datos categóricos de acuerdo con dos
variables (X,Y) se denomina cuadro de contingencia, es en
definitiva una tabla de frecuencias (absolutas o relativas) donde
una variable se representa en las filas y la otra en las columnas;
se cuentan los individuos que tienen los valores indicados en
las filas y en las columnas.
Supongamos que la primera variable (X) tenga p resultados
posibles (o categorías) y que para la segunda (Y) existan q
valores factibles (categorías), entonces la tabla de contingencia
es una matriz, con p filas y q columnas, formada por los valores
ni,j (que corresponden al numero de individuos que pertenecen
a la categoría i en la primera variable y a la categoría j en la
segunda) que representan las frecuencias absolutas de la
categoría conjunta (i,j).
Se puede encontrar también la frecuencia relativa de la clase
(i,j) que es igual al cociente: fi,j = ni,j / n (donde n es el numero
total de individuos) y proporcionan la distribución empírica
conjunta de las dos variables, y dan una estimación de las
probabilidades pij de que un individuo pertenezca a la categoría
conjunta (i,j), es decir a la categoría i en la variable X y a la
categoría j en Y.
En el ejemplo que estamos tratando, la tabla de frecuencias
relativas es:
POBLACION Hombres Mujeres Total
Urbana
29,8%
31.3% 61,1%
Rural
19,7%
19,2% 38.9%
31
Total
49,5%
50,5%
100,0%
Propiedades: La sumatoria de todos los valores ni,j (para i
desde 1 hasta p, y j desde 1 hasta q) es igual al total de
individuos n.
La sumatoria de todos los valores fi,j (para i desde 1 hasta p, y j
desde 1 hasta q) es igual a 1.
Distribuciones marginales: En la tabla de contingencia se
suelen incluir los totales de las filas y los totales de las
columnas, es decir se calcula:
ni. = sumatorio en j de los ni,j (para cada categoría i=1,2,...,p)
El valor de ni. es la frecuencia absoluta de la primera variable,
para la categoría i, y las frecuencias relativas marginales fi. =
ni./n dan la distribución empírica de la primera variable (X).
De manera similar, para la segunda variable (Y), se incluye una
fila con los valores: n.j que representan sus frecuencias
absolutas.
Análogamente las frecuencias relativas f.j = n.j/n proporcionan
la distribución empírica de la segunda variable Y, y da una
estimación de la probabilidad pj de que un individuo
pertenezca a la categoría j.
15. REGRESIÓN LINEAL SIMPLE
En algunas aplicaciones se requiere establecer relaciones entre
dos variables; la regresión lineal simple sirve para determinar
32
una relación lineal entre dos variables: X=(x1,x2,...,xn) y
Y=(y1,y2,...,yn).
El modelo determinista plantea: Y = b0 + b1 X
El modelo probabilista (o aleatorio) considera:
Y = b0 + b1 X + e ; donde e es una componente aleatoria del
error.
Como sabemos b0 es la ordenada al origen; y, b1 es la
pendiente de la recta; los mismos que se obtienen, usando el
método de los mínimos cuadrados, mediante las siguientes
fórmulas:
b1 = SCXY / SCXX ;
Donde: SCXX = Σi (xi – mx)2; y , SCXY = Σi (xi – mx)(yi-my) .
b0 = my – b1 mx
La pregunta que se plantea entonces es: Qué tan bien se ajusta
la recta a los datos?
Para responder, a esta pregunta, se usa el coeficiente de
correlación lineal de Pearson, definido por:
r = SCXY / (SCXX SCYY )½
El valor de r está siempre entre: –1 y +1 ; tiene el mismo signo
que b1; si es cercano a –1 o a +1 , indica que si existe una
relación lineal entre X y Y; si es igual a –1 (o +1) se cumple
exactamente la igualdad (es decir se verifica el modelo
determinista).
33
Dentro del análisis estadístico se debe determinar además si los
coeficientes son significativos, es decir si se acepta o rechaza la
hipótesis de nulidad de los parámetros correspondientes a bo y
b1.
Ejercicio 12: Considerar las observaciones provinciales del
número de vacas ordeñadas y la cantidad (en litros) obtenida
(referirse a los resultados del CNA 2000). Efectuar la regresión
lineal y calcular el coeficiente de correlación lineal de Pearson.
16. ESTIMACION DE PARAMETROS
Supongamos que deseamos inferir algo sobre el valor del
parámetro de la media poblacional basados en el valor de la
media muestral. Un resultado muy importante de la estadística
me permite afirmar que:
El valor de la media poblacional, con un 95% de confiabilidad
(es decir con probabilidad 0,95) se encuentra en el intervalo:
( m  2 s/n ; m – 2 s/n ) para muestras grandes (tamaño n >
27)
Observemos que el error por muestreo: 2 s/n es más grande si
la desviación muestral aumenta y es más pequeño si el tamaño
de la muestra crece.
El factor 2 ya no se mantiene, se incrementa, si la muestra es
más pequeña (o si aumentamos el nivel de confiabilidad). Por
ejemplo: si la muestra es menor o igual a 27 y mayor a 13 el
factor se aproxima por 2,1 ; si n=6 o n=7 el factor es
prácticamente igual a 2,4 .
34
Si el tamaño de la muestra está entre 10 y 13 el factor es
aproximadamente igual a 2,2 ; y está alrededor de 2,3 si n es
igual a 8 o 9 .
Además si queremos un nivel de confiabilidad mayor, por
ejemplo el 99%, este factor aumenta prácticamente a 2,9 si el
tamaño de la muestra está entre 15 y 19 .
Supongamos por ejemplo que al realizar un estudio de la
duración de cierta marca de pilas, se utilizó una muestra de 16
pilas, de la cual se obtuvo un promedio de dos horas 45
minutos de duración con una desviación estándar de 12
minutos. Es decir se obtuvieron los siguientes resultados
(estadísticos): m=2,75 horas, s=0,2 horas, encontrar entre que
valores se encuentra la duración media de las pilas de esa
marca con una confiabilidad del 95% , y comparar los
resultados si considero una seguridad de 99%.
Con el 95% : ( 2,75  2,1*0,2/16 ; 2,75 + 2,1*0,2/16 )
Es decir: ( 2,645 horas ; 2,855 horas )
Con el 99% : ( 2,75  2,9*0,2/16 ; 2,75 + 2,9*0,2/16 )
Es decir: ( 2,605 horas ; 2,895 horas ) = (2horas 36min. ;
2horas 54 min)
La justificación de estos resultados no son fáciles de exponer a
nivel de la educación media, por cuanto requiere del desarrollo
de la teoría de las probabilidades; sin embargo considero que se
deben dar también los fundamentos de esta teoría en el nivel
medio, lo que puede ser motivo de un próximo curso, que
básicamente debería contener los temas: el concepto de
35
probabilidad, variables aleatorias
distribuciones de probabilidad.
y
las
principales
17. EL PROGRAMA CURRICULAR DE LA
ESTADISTICA EN LA EDUCACION BASICA Y MEDIA.
Como puede observarse los contenidos de este curso son
elementales y básicos en la formación de una persona, pues
ahora ya forman parte del lenguaje de los individuos y de los
medios de comunicación colectiva.
Personalmente pienso que la estadística básica es mucho más
simple y útil que muchos de los temas, que en matemática, se
los estudian con exagerada atención en la educación básica y
media.
Me parece importante y no muy difícil incorporar estos y otros
temas, como el de probabilidades básicas, hay que determinar
en que curso los estudiantes ya estarían en capacidad de
asimilarlos.
La reforma curricular para la educación básica plantea en el
cuarto y quinto año básico, en el sistema de estadística y
probabilidad, introducir los temas sobre recolección de datos y
su representación en diagrama de barras; en el sexto las
medida de localización (o tendencia central) como la media,
mediana y moda, y en el séptimo completar otras
representaciones como la circular, tallo y hojas, de caja, etc.
En el octavo y noveno año, las tablas de frecuencias absolutas,
relativas y acumuladas y su representación en histogramas, las
medidas de dispersión como la desviación estandar (o típica) y
la varianza, complementando con la noción de probabilidad y
36
de sucesos o eventos; y en el décimo año se propone recopilar
y revisar todos estos temas con suficientes aplicaciones
relevantes en cuanto a los contenidos (relacionados con otras
ciencias como la economía, sociología, demografía, etc.).
La propuesta es excelente, pero talvez es muy desagregada y
algo temprana; se podría empezar en sexto año de básica con
los temas sobre recolección de datos, diagramas de puntos y de
barras y medidas de tendencia central como la media, la
mediana y la moda; en el séptimo año básico se deberían
introducir otras representaciones como la de tallo y hojas y la
circular, o de pastel, y de paso recordar las de puntos y barras,
definir el rango y el rango intercuartil para la representación de
caja; y en los años: octavo, noveno y décimo seguir los
planteamientos de la Reforma Curricular.
En los años siguientes de educación media (bachillerato) se
deberían tratar los siguientes temas, en el cuarto curso la
regresión lineal simple y las tablas de contingencia (o
cruzadas), en el quinto curso las distribuciones de probabilidad
más utilizadas, especialmente la binomial y la normal, y en
sexto curso terminar con temas de estimación de parámetros,
más precisamente estimación puntual y por intervalos de la
media poblacional, y en particular de una proporción, usando el
teorema del límite central, o sea la distribución normal para
muestras grandes, es decir: para un tamaño de muestra mayor
que 27, se puede afirmar, con el 95% de confiabilidad, que la
media poblacional está en el intervalo: [m2s/n; m+2s/n].
Obviamente, se podría pretender la inclusión de otros temas
como la estimación del total poblacional, siempre en el caso del
muestreo aleatorio simple, la estimación por intervalo para
37
tamaños de muestra pequeños, es decir cuando el tamaño es
menor o igual que 27, y las regresiones (exponencial,
logarítmica, etc.) que se reducen al caso lineal simple.
Pero posiblemente lo más importante de la Estadística es su
aplicación y relación con las demás ciencias, lo que puede
servir para que el estudiante conozca, por ejemplo, la realidad
social, económica, etc de su provincia o del país y compararla
con la de otros países del mundo. Es por esta razón que la
Estadística podría ser el medio para lograr otros conocimientos
e incluso para realizar ciertas investigaciones, basadas en
encuestas por muestreo aleatorio, en diversas disciplinas.
A propósito, por último, a continuación
ejercicios:
les envío otros
Realizar los gráficos en barras y circular (pastel) de la
población total ocupada por tipo de actividad, y hacer los
gráficos según el sexo, es decir considerando la población de
hombres y de mujeres.
Hacer los gráficos en barras y circular (pastel) de la población
económicamente activa (PEA) por categorías de ocupación, y
también los gráficos según el sexo, es decir considerando la
PEA masculina y femenina.
Realizar los gráficos en barras y circular (pastel) de la PEA del
sector privado por grupos principales de ocupación.
Bibliografía:
Berenson M., Levine D., Estadística Básica en Administración,
Prentice Hall Hispanoamericana S. A., México, 1996.
38
Freund J. y Simon G., Estadística elemental, Prentice Hall,
México, 1994.
Galindo E., Estadística para la Administración y la Ingeniería,
Gráficas Mediavilla Hnos., Quito, 1999.
39
Descargar