estadistica descriptiva - Escuela Nacional de Biblioteconomía y

Anuncio
Estadística Descriptiva
Guía de autoaprendizaje
Estadística
Descriptiva
Modalidad de Educación Abierta y
a Distancia
Rita Oliva Maya Hernández
Secretaría de Educación Pública
Dirección General de Educación Superior
Escuela Nacional de Biblioteconomía y
Archivonomía
México 1998
Secretaría de Educación Pública
Subsecretaría de Educación Superior e Investigación Científica
Dirección General de Educación Superior
Escuela Nacional de Biblioteconomía y Archivonomía
Estadística Descriptiva
(Serie guías de autoaprendizaje)
Modalidad de Educación Abierta y a Distancia
Primera edición 1998
ISBN 970-18-0985-8
Impreso en México
Diseño:
Ivonne Bautista Carmona
Portada:
Patricia Vázquez Langle
2
Estadística Descriptiva
“Empezamos a conocer
un fenómeno cuando
somos capaces de medirlo y expresarlo
en números; mientras tanto,
nuestro conocimiento de dicho
fenómeno será deficiente
e insatisfactorio”
Lord Kelvin
3
4
Estadística Descriptiva
ÍNDICE
Presentación
Introducción
7
9
UNIDAD 1 CONCEPTOS BÁSICOS
13
1.1 Definición, objeto y clasificación de la Estadística
16
1.2 Población y muestra
20
1.3 Variables
27
1.4 Escalas de medición
1.4.1 Escala nominal
31
1.4.2 Escala ordinal
32
1.4.3 Escala de intervalo
1.4.4 Escala absoluta
32
31
32
UNIDAD 2 PRESENTACIÓN DE DATOS
39
2.1 Tipos de datos
42
2.1.1 Datos categóricos
2.1.2 Datos ordenados por rango
43
2.1.3 Datos métricos
43
42
2.2 Distribución de frecuencias
46
2.2.1 Simples
47
2.2.2 Para datos agrupados
57
5
UNIDAD 3 REPRESENTACIONES GRÁFICAS
73
3.1 Gráfica de barras
77
3.2 Gráfica de sectores
3.3 Histograma de frecuencias absolutas
86
3.4 Polígono de frecuencias absolutas
92
3.5 Polígono de frecuencias relativas acumuladas u ojiva porcentual
95
UNIDAD 4 ESTADÍSTICA DESCRIPTIVA
109
4.1 Medidas de tendencia central
111
4.1.1 Media
111
4.1.2 Mediana
111
4.1.3 Moda
111
4.2 Medidas de dispersión
127
4.2.1 Rango
127
4.2.2 Cuartiles
127
4.2.3 Desviación media
132
4.2.4 Varianza
138
6
80
Estadística Descriptiva
4.2.5 Desviación estándar
138
4.2.6 Coeficiente de variación
143
4.2.7 Teorema de Chebyshev
145
Resumen de la unidad 1
153
Resumen de la unidad 2
154
Resumen de la unidad 3
155
Resumen de la unidad 4
157
Lecturas
159
7
PRESENTACIÓN
La Biblioteconomía y la Archivonomía son dos profesiones que han
cobrado un fuerte impulso durante los últimos años. Las condiciones
cambiantes que han intervenido en su entorno y que han originado nuevos
problemas y nuevos enfoques en sus campos de aplicación se han debido
principalmente al progreso científico y tecnológico y a la explosión
documental: una mayor producción y explotación de material, un notable
incremento de usuarios y el uso cada vez más intenso de los medios
informáticos y de las telecomunicaciones para el almacenamiento,
organización e intercambio de información.
Esta situación contrasta con la carencia de recursos humanos con una
adecuada preparación académica que permita brindar una atención
profesional a las necesidades que, en materia de información,
constantemente van en aumento entre la sociedad mexicana.
Es por ello que la Escuela Nacional de Biblioteconomía y Archivonomía
(ENBA), como institución de educación superior formadora de profesionistas
especializados en el manejo de la información, ha emprendido la impartición
de sus licenciaturas en la modalidad abierta y a distancia, con el propósito
de ofrecer una cobertura educativa a nivel nacional en ambas
especialidades, coadyuvar en la superación de los rezagos de personal
profesional en las bibliotecas y archivos de México, propiciar la
investigación y la difusión de la cultura bibliotecaria y archivística y participar
activamente en las políticas educativas del gobierno federal manifestadas
en el Programa de Desarrollo Educativo 1995-2000.
La modalidad abierta y a distancia se convierte así en una opción
dirigida a todas aquellas personas formadas con la experiencia pero que
carecen de una preparación académica en las áreas de Biblioteconomía o
de Archivonomía.
En este sentido, se pretende rescatar, valorar, reconocer y acreditar
esa experiencia adquirida a través del tiempo en el entorno laboral de las
bibliotecas y los archivos, utilizando estrategias de aprendizaje que resulten
congruentes con las características de la modalidad. Es decir, para superar
los obstáculos de distancia y las dificultades de tiempo y espacio para el
estudio se recurre a aspectos académicos que generalmente son poco
comunes en la modalidad escolarizada, pero que también persiguen los
mismos propósitos.
8
Estadística Descriptiva
Los materiales didácticos surgen entonces como uno de los soportes
más importantes, junto con las asesorías y los medios de comunicación a
distancia, en los que habrás de sustentar tu formación.
Las guías de autoaprendizaje representan la parte medular de los
materiales didácticos. Son el principal medio de apoyo con el que cuentas
para avanzar en tu proceso de aprendizaje, tomando en cuenta que asumes
una responsabilidad compartida con el asesor y que eres tú quien
determina su propio ritmo de avance. Su contenido se encuentra adaptado
convenientemente a la lógica del problema, de la disciplina y del campo del
conocimiento que se aborda y responde a los elementos didácticos y
comunicacionales que permiten favorecer de mejor manera el estudio
independiente.
En cada asignatura cuentas con una guía de autoaprendizaje y en
muchas de ellas ésta se encuentra complementada con una guía de
lecturas. Esta guía es un material de estudio que contiene lecturas tomadas
de diversos libros que, a juicio del autor de la guía de autoaprendizaje
correspondiente, necesitarás consultar para apoyar tu aprendizaje.
Las asesorías son un medio al que podrás recurrir en cualquier
momento para consultar tus dudas o solicitar sugerencias sobre tus
métodos y hábitos de estudio. Los medios de comunicación a distancia te
permitirán establecer comunicación con los asesores desde cualquier parte
en que te encuentres.
La presente guía representa entonces sólo una pequeña parte del gran
apoyo con el que cuentas, pero constituye también el trabajo colectivo que
la ENBA ha venido desarrollando con el firme propósito de contribuir en tu
formación profesional.
Estamos seguros que harás un correcto uso de ella y que sabrás
aprovecharla adecuadamente.
9
INTRODUCCIÓN
La evolución del uso y manejo de la información ha motivado que
estructuras importantes y vitales como son las de enseñanza modifiquen
sus planes de estudio, y la Escuela Nacional de Biblioteconomía y
Archivonomía no podía ser la excepción, por tal motivo ha instaurado su
Modalidad Abierta y a Distancia con el objeto de impartir las carreras de
Biblioteconomía y Archivonomía y así formar parte activa en el desarrollo
de profesionales de estas áreas.
Dentro de este Sistema se ha creado para ti esta Guía de
Autoaprendizaje como un apoyo para que puedas aprender la materia de
Estadística Descriptiva, la cual forma parte del Plan de Estudios de estas
carreras en su tronco común.
Antes de que inicies tu aprendizaje te invito a conocer los
antecedentes de la materia que nos ocupa.
La historia de la Estadística es extensa, surge como todo lo creado por
el hombre: por la necesidad de conocer y modificar su entorno a fin de
entenderlo. Aunque existen antecedentes de que los chinos efectuaron
censos hace más de 40 siglos y de que en la Biblia se mencionan datos
estadísticos en el Libro de los Números, la etapa moderna, arbitrariamente
elegida se encuentra comprendida en el período 1890-1940.
Es importante destacar que en sus inicios la Estadística se utilizó con
el propósito de interpretar fenómenos biológicos y la conducta social de
grandes masas, un ejemplo de ello son las primeras Tablas de mortalidad
elaboradas por John Graunt (1620-1674) que contenían el número de
nacimientos, matrimonios, bautizos y defunciones, antecedente de las que
hoy se utilizan en los Seguros de Vida.
Actualmente la Estadística es una herramienta importante y necesaria
en todas las áreas del conocimiento ya que permite interpretar los datos
obtenidos a través de investigaciones y en su caso, tomar una decisión que
tenga como fundamento el comportamiento observado y analizado.
Como verás, los antecedentes de la Estadística o Métodos
Estadísticos como algunos le llaman, resultan bastante interesantes y en tu
caso, en el área de la cual ya formas parte como estudiante de la
información es de vital importancia que los manejes y apliques en la
solución de problemas.
10
Estadística Descriptiva
Una de las ventajas que tiene el uso de esta herramienta en el campo
laboral de estas dos profesiones es la facilidad de poder manipular grandes
cantidades de datos que al ser analizados en forma manual o a través de
una computadora permiten obtener indicadores específicos ya sea para
conocer la satisfacción de un servicio, el promedio de la carga de trabajo e
inclusive para planear el crecimiento de volúmenes, costos, etc., en cierta
área, permitiendo realizar planes de expansión para el futuro.
Es preciso hacer notar que se debe tener cuidado al hacer uso de la
Estadística, ya que la presentación de datos equivocados puede provocar
una falsa interpretación y como consecuencia llegar a una conclusión
errónea. Es de suma importancia mencionar que la interpretación es la base
fundamental del uso de esta herramienta.
Algunas recomendaciones que te hago con el propósito de facilitarte la
comprensión y manejo adecuado de las unidades que integran esta
asignatura son que revises cuidadosamente el material que se te presenta
en cada tema, leas las instrucciones de cada actividad y las ejecutes
tomando en cuenta lo aprendido, sin perder de vista tu experiencia previa
que es muy valiosa y que te ayudará a apropiarte de la información nueva
que aquí se te presenta.
No olvides que el éxito para lograr la meta que te has propuesto lo
alcanzarás a través del estudio y del trabajo que se te solicita en actividades
a desarrollar en cada tema, retroalimentándote de tal forma que tú mismo
tengas conciencia del progreso que obtienes cada día que te esfuerzas.
Adelante, tú puedes.
Al término de cada unidad encontrarás un resumen de los conceptos
más importantes que espero te sea de gran utilidad para que reflexiones
sobre lo aprendido antes de contestar la EVALUACIÓN que debes enviar a
tu asesor una vez que la hayas resuelto correctamente y en su totalidad.
Tu calificación final será el resultado de considerar:
4 evaluaciones de aprendizaje (una por unidad), las cuales cuentan un
40% y una evaluación final que tiene un valor del 60%.
Para la mejor comprensión del objetivo es necesario reiterar una vez
más que el uso adecuado de la Estadística es básico en cualquier campo
de la investigación, es por ello que los conocimientos que adquieras en esta
asignatura te servirán de apoyo para el mejor desarrollo de temas incluidos
en otras materias de la carrera ya sea si estudias Archivonomía, o si te
11
encuentras cursando la carrera de Biblioteconomía y en general en todas
aquellas donde se requiera la representación de datos de tal forma que su
interpretación correcta permita la mejor toma de decisiones.
EL OBJETIVO GENERAL de esta asignatura es proporcionarte los
elementos fundamentales necesarios para elaborar tablas de distribución de
frecuencias y gráficas, así como calcular medidas descriptivas, todo lo cual
te permitirá reconocer la importancia de la estadística en los procesos de
planeación, toma de decisiones, administración y medición del
comportamiento de los servicios ofrecidos en los campos bibliotecario y
archivístico.
Esta guía contempla 4 unidades:
1.- CONCEPTOS BÁSICOS
2.- PRESENTACIÓN DE DATOS
3.- REPRESENTACIONES GRÁFICAS
4.- ESTADÍSTICA DESCRIPTIVA
Iniciamos la primera unidad con los conceptos básicos de la
asignatura, para continuar con la presentación de datos, posteriormente se
te indicará el procedimiento a seguir para obtener su representación gráfica.
En la unidad 4 calcularás los valores centrales de una muestra o población
así como las medidas que te indican el grado de dispersión entre sus
elementos.
Al principio de cada unidad se te pide contestar algunas preguntas que
integran el DIAGNÓSTICO, las cuales permitirán identificar tus ideas
previas sobre la misma, haciendo una breve REFLEXIÓN que despejará tus
dudas y te preparará para el desarrollo de los temas, cada uno de ellos
contiene una sección de actividades denominada ¿QUÉ HE APRENDIDO?
que te retroalimentará a través de preguntas y/o problemas que debes
resolver en el espacio correspondiente.
Para que te familiarices con las unidades de esta asignatura, echa un
vistazo al índice; una vez que conozcas los temas que se desarrollarán, es
necesario que reflexiones y contestes la siguiente pregunta:
¿Cuáles son tus expectativas sobre el aprendizaje del contenido que
se te ha planteado?
________________________________________________________
____________________________________________________________
_______________
12
Estadística Descriptiva
Espero que todo lo que hasta aquí has conocido te motive para
continuar y además, cubra tus expectativas, ya que como tú lo irás
descubriendo, el mundo de la Estadística es realmente excitante. Avanza
firmemente para que llegues a la meta, tú puedes.
13
14
Estadística Descriptiva
UNIDAD 1
CONCEPTOS BÁSICOS
En esta primera unidad, tú como estudiante deseoso de conocer los
conceptos más usados en esta asignatura tendrás a tu alcance una breve
definición de cada uno de ellos, este conocimiento debe ser
complementado con tus actividades de aprendizaje a fin de que en lo
sucesivo seas capaz de identificarlos y manejarlos adecuadamente.
¿QUÉ VOY A APRENDER EN ESTA UNIDAD?
A definir e identificar los conceptos básicos elementales que se utilizan
en Estadística.
Para conocer tus ideas previas sobre cada uno de los temas a
desarrollar en esta guía, es necesario que antes de iniciar las unidades
contestes lo que se te solicita en el Diagnóstico, el cual forma parte
importante en tu formación ya que por medio de el estaremos en posibilidad
de recuperar tu experiencia previa y prepararte para la apropiación de
conocimientos nuevos.
15
DIAGNÓSTICO
1) Escribe el significado que tiene para ti la palabra Estadística.
________________________________________________________
____________________________________________________________
______________
2) Recorta, lee y pega cualquier artículo de un periódico reciente que
contenga gráficas y destaca los términos estadísticos que contenga.
3) Anota algunos de los mensajes que ves en televisión en donde
consideres que se están utilizando conceptos de estadística.
________________________________________________________
____________________________________________________________
_______________
4) Busca en el diccionario el significado de la palabra inferir y anótalo.
________________________________________________________
____________________________________________________________
_______________
16
Estadística Descriptiva
Si al realizar las actividades del
diagnóstico advertiste que
desconoces el significado de la palabra Estadística, no te preocupes, en
seguida podrás leer una breve definición:
“La palabra Estadística está relacionada con la palabra “estado”, y originalmente la actividad llamada
estadística fue una clase sistemática de ciencia política comparada. Esta actividad se centró gradualmente en
tablas numéricas de hechos económicos, demográficos y políticos, y así “estadística” vino a significar la
recopilación y análisis de tablas numéricas”
Tanto en la lectura del artículo que se te solicitó, como en los mensajes
televisados, encontraste términos utilizados en la Estadística como son: “se
ha demostrado estadísticamente”, “estadísticas relativas a”, “proporción”,
“por ciento”, “en base a los datos obtenidos se infiere que...” entre otros,
todos ellos nos muestran su utilidad en el mundo actual en que vivimos ya
que nos auxilian a planear y obtener información de diversos fenómenos a
fin de organizarla y analizarla para predecir a partir de lo calculado (inferir) y
llegar a conclusiones que nos permitan tomar decisiones.
Es muy importante que recuerdes el significado de inferir: “inducir o
predecir a partir de ciertos resultados”.
Muy bien, ahora que ya tienes idea de lo que se puede realizar
utilizando como herramienta la estadística iniciaremos nuestro aprendizaje
formal.
17
1.1 DEFINICIÓN, OBJETO Y CLASIFICACIÓN DE LA
ESTADÍSTICA
Actualmente, la Estadística se utiliza en todas las áreas, no hay ciencia
que no la use o profesión que no la aplique, ya que los métodos que
desarrolla se manejan en todos los campos porque permiten describir la
información recopilada por diversos medios, haciéndola más accesible a fin
de poder analizarla e interpretarla fácilmente.
Es preciso hacer notar que la Estadística es una rama de la
Matemática aplicada, razón por la cual se requiere manejar ciertos
conceptos sobre la materia, que en su momento se te explicarán
brevemente así como la notación correspondiente.
La utilidad que tienen los métodos estadísticos en diversas áreas es
quizá el motivo por el cual existen múltiples definiciones de Estadística
como las que se te presentan a continuación y que se te sugiere leer con
detenimiento, SUBRAYANDO las palabras que consideres más importantes
en cada una.
Robert Johnson escribe: Estadística es la ciencia de recolectar,
clasificar, describir e interpretar datos numéricos.
Para Enrique Portilla Chimal la Estadística o Métodos Estadísticos son
los métodos que se aplican a la recolección, organización, presentación,
análisis e interpretación de datos numéricos.
Luis Magaña Cuéllar indica:
Estadística es un conjunto de
procedimientos que sirven para organizar y resumir datos, hacer inferencias
a partir de ellos y transmitir los resultados de manera clara, concisa y
significativa.
William Mendenhall explica “El objetivo de la Estadística es hacer
inferencias (predicciones) acerca de una población (total de datos), sobre la
base de la información contenida en una muestra (parte de la población)”
para ello afirma que como principio se debe tener un problema estadístico el
cual debe contener 6 elementos donde los primeros 3 se analizan a través
de la Estadística Descriptiva y los 3 restantes con la Estadística Inferencial.
A continuación se describen:
1) Definición clara del conjunto de datos de interés.
18
Estadística Descriptiva
Conocer el problema e identificar las preguntas claves de la
investigación: ¿Qué quiero?
2) Diseño del experimento, considerado éste como un proceso por
medio del cual se obtiene un dato.
Procedimiento para elegir la muestra adecuada que permita contestar
las preguntas planteadas y extraer la información que se requiere de la
población.
3) Manejo de la información.
Los datos obtenidos se ordenan, se presentan en tablas estadísticas,
se calculan medidas que informen sobre el comportamiento de los mismos y
se elaboran gráficas.
4) Análisis de los datos.
Identificación del procedimiento para hacer inferencias sobre el total de
datos con base en la información que proporciona una parte de ellos.
5) Obtención de una medida que muestre qué tan confiable es la
inferencia a la que se llegó.
6) Conclusiones y toma de decisiones.
De todo lo anterior se desprende entonces que el objeto de la
Estadística es obtener, organizar y resumir información en tablas y gráficas
que al mismo tiempo que describan la forma en que se comportan los datos,
también faciliten el cálculo de parámetros o estadísticos, esto es, números
que describan las características de una categoría que agrupa elementos
comunes con respecto a una población o a una muestra según sea el caso.
La Estadística para su estudio se clasifica en Estadística
Descriptiva o Deductiva y Estadística Inferencial o Inductiva. En la
siguiente tabla se observan claramente las partes que integran cada
división:
19
DESCRIPTIVA O DEDUCTIVA
Incluye las fases de:
-Obtención de datos a través de encuestas o investigaciones de campo
-Organización de los mismos (orden ascendente o descendente si son
numéricos) y conteo
-Presentación de la información en cuadros y/o tablas
-Gráficos que muestren el comportamiento de la información
-Cálculo de medidas descriptivas (media, moda, mediana, etc.)
ESTADÍSTICA
INFERENCIAL O INDUCTIVA
Contempla los métodos que permiten:
- Generalizar a partir de los valores calculados con técnicas descriptivas
- Obtener conclusiones
- Tomar decisiones
DEDUCTIVA: Parte de lo general para llegar a lo particular
INDUCTIVA: Considera lo particular para generalizar
Claramente se puede observar en la tabla que ambas divisiones se
complementan ya que por medio de la Estadística Descriptiva es posible
obtener información que se organiza, presenta y describe en forma
numérica para posteriormente, a través de la Estadística Inferencial
generalizar y tomar decisiones teniendo como soporte la información que se
obtuvo a través de la primera. Cabe hacer mención de que el proceso de
interpretar los datos no es infalible.
¿QUÉ HE APRENDIDO?
Es de suma importancia que evalúes tus conocimientos, verifiques tu
avances y planifiques tu aprendizaje, para ello debes participar
ACTIVAMENTE desarrollando lo que se te solicita. Por favor, no continúes
si tienes dudas o errores en tus respuestas.
1) De las definiciones de Estadística que se te han presentado, elabora
una relación de las palabras comunes a todas.
20
Estadística Descriptiva
________________________________________________________
____________________________________________________________
_______________
2) Utilizando los términos escritos en el anterior inciso, escribe tu
propia definición de Estadística.
________________________________________________________
____________________________________________________________
_______________
3) Acude con un Bibliotecario o Archivónomo dentro de tu localidad y
pregúntale en qué aspectos de las tareas que se realizan en su profesión
aplica la Estadística. Anota su respuesta, el lugar al que acudiste y la
profesión de la persona que contestó tus preguntas.
________________________________________________________
____________________________________________________________
____________________________________________________________
____________________________________________________________
_______________________________
4) Anota como mínimo 3 disciplinas en donde se aplique la Estadística
y describe brevemente un ejemplo en cada una de ellas.
________________________________________________________
____________________________________________________________
____________________________________________________________
____________________________________________________________
____________________________________________________________
____________________________________________________________
_______________________________________________
21
1.2 POBLACIÓN Y MUESTRA
POBLACIÓN TAMAÑO N
MUESTRA TAMAÑO
n
La POBLACIÓN Estadística se encuentra formada por un conjunto de
personas, entidades u objetos bien definidos, del cual se quiere saber algo
que nos interesa, el número total de elementos que la forman, llamado
tamaño de la población, se denota con la letra ene mayúscula “N”.
Existen 2 tipos de población:
Finita: {a, e, i, o, u}.
Formada por un número limitado de observaciones, por ejemplo
las vocales, el número total de libros que existen en una biblioteca o el
número de investigadores que acuden a un archivo en un período
determinado.
Infinita: {1, 2, 3, 4, ... ∝ }
Contiene un gran conjunto de medidas u observaciones que no
pueden alcanzarse por conteo, es decir, se puede numerar el primer
elemento pero no el último como el conjunto de los números Naturales,
el número de expedientes que contienen la Historia de México o el
número de libros impresos.
MUESTRA REPRESENTATIVA o MUESTRA es un subconjunto de la
población de interés donde el número de datos es menor que el de la
población. En este caso el tamaño de la muestra se simboliza con la letra
ene (n) minúscula. Una muestra del número total de libros que existe en
una biblioteca puede estar formada por los volúmenes de una asignatura,
en un Archivo la muestra puede ser un cierto número de expedientes que
se refieran a un tema en común.
22
Estadística Descriptiva
En caso de contar con el total de datos de una población es posible
calcular sus parámetros o características medibles como el promedio o la
proporción entre una categoría y el total de datos obtenido; sin embargo, si
se trata de una población infinita la estimación de un parámetro de la misma
se realiza a través de la información que proporciona la muestra con los
llamados estadísticos o estadígrafos, los cuales también son
características medibles.
Parámetro
POBLACIÓN
(tamaño N)
MUESTRA
(tamaño n)
Estadístico
Un parámetro es para una población lo que un estadístico para una
muestra.
Es necesario aclarar que no cualquier muestra es adecuada para fines
estadísticos, se debe tener en cuenta que la muestra con la que se
realizarán cálculos reproduzca en lo posible los rasgos generales de la
población, para ello se tiene que considerar lo siguiente:
- Los elementos se deben escoger en forma aleatoria, esto es al azar.
Para ilustrar el término aleatorio o al azar, consideremos el siguiente
ejemplo: Si de un grupo de 10 personas se quiere escoger aleatoriamente a
3, a cada una se le asigna un número y sin relacionar dicho número con la
persona se selecciona cualquier terna que puede ser: 1, 3, 8 ó 2, 5, 10, etc.
- Cada elemento de la población debe tener la misma oportunidad de
ser escogido.
A los valores de los parámetros se les conoce con el nombre de
valores verdaderos. Uno de los parámetros más utilizados es la
proporción que se denota con la letra P mayúscula y compara el número
de casos o frecuencia (f) de una categoría dada con el tamaño total de la
población (N) o con la muestra (n).
POBLACIÓN TAMAÑO N
PARÁMETRO
f
P = ------
MUESTRA TAMAÑO n
ESTADÍSTICO
f
P = -------
23
N
n
P es la proporción, f es la frecuencia y N ó n es el tamaño de la
población o muestra respectivamente.
Para entender lo que es un parámetro y un estadístico veamos los
siguientes ejemplos:
PARÁMETRO: POBLACIÓN tamaño N
f
P = -------N
1) Supongamos que en tu biblioteca personal tienes
distribuidos de la siguiente manera :
CATEGORÍAS
ASIGNATURA
MATEMÁTICAS
ESTADÍSTICA
INGLÉS
HISTORIA
NOVELA
GEOGRAFÍA
No. DE LIBROS
5
4
8
7
15
1
40
40 libros
FRECUENCIAS
(f)
Aquí el tamaño de la población o N es igual a 40, las categorías
formadas por las diferentes asignaturas son 6 y cada una tiene el número
de libros que le corresponde, el cual recibe el nombre de frecuencia y se
denota con la letra efe minúscula (f).
Si consideramos el número de novelas con respecto al tamaño de la
población, formamos la proporción:
15
P = --------- que resulta ser P = 0.375
40
El valor del parámetro tiene mayor sentido cuando lo transformamos en
porcentaje, esto quiere decir que se desea obtener la frecuencia de
ocurrencia de una categoría por cada 100 casos. Para hacer el cálculo de
un porcentaje sólo se multiplica cualquier proporción ya sea de una
población de una muestra por 100, por lo que % = (100) f ó % =(100) f
N
n
24
Estadística Descriptiva
En este caso al valor de P=0.375 lo multiplicamos por 100:
% = (100)(0.375) = (0.375)(100) = 37.5 %
Concluimos entonces que el porcentaje de novelas que tienes en tu
biblioteca es del 37.5 % con respecto al total de libros considerados.
Encuentra el porcentaje de cada una de las categorías con respecto a
N y escríbelas:
ASIGNATURA
PROPORCIÓN
EN PORCENTAJE
(PARÁMETRO)
MATEMÁTICAS
ESTADÍSTICA
INGLÉS
HISTORIA
NOVELA
GEOGRAFÍA
37.5 %
Después de calcular los porcentajes suma todas las proporciones
obtenidas, si tus valores están correctos el resultado debe ser 100% o un
valor aproximado.
ESTADÍSTICO: MUESTRA tamaño n
f
P = -------n
La proporción es un estadístico si se considera el tamaño de una
muestra (n).
2) En una escuela laboran 500 personas, al extraerse una muestra de
90 trabajadores en diferentes áreas se tiene la siguiente tabla:
ÁREA
ADMINISTRATIVA
BIBLIOTECA
DOCENTES
f
20
40
30
90
La proporción del área administrativa con respecto a 90 es:
20
P = -------- = 0.22
90
25
Al tomar el estadístico que se obtuvo y multiplicarlo por 100 se obtiene
el siguiente porcentaje: % = 0.22 (100) = 22 %
El resultado anterior
indica que el 22% de los trabajadores
considerados en la muestra laboran en el área administrativa.
Calcula los valores de los estadísticos y anótalos:
ÁREA
ADMINISTRATIVA
BIBLIOTECA
DOCENTES
ESTADÍSTICO
22%
La suma de esta columna debe ser 100% o un valor aproximado.
3) En una biblioteca se tienen 2,000 volúmenes y se revisa una
muestra tomada al azar formada por 130 libros.
a) La población es finita ya que está formada por el total de volúmenes
de la biblioteca que son 2,000.
b) Muestra integrada por los 130 libros revisados.
c) Parámetro de la población: Comparación entre los libros revisados y
el total de volúmenes que en este caso es 130/2000 = 0.065, este valor
también se puede expresar como porcentaje al multiplicarlo por 100,
entonces se tiene que de un total de 2,000 libros se revisó el 6.5%.
Anteriormente se ha expresado que las características de una
población son los parámetros y las de una muestra estadígrafos o
estadísticos, en cada caso se utilizan símbolos que las representen, como
ejemplo tenemos:
CARACTERÍSTIC
A
MEDIA
VARIANZA
DESVIACIÓN
ESTÁNDAR
26
PARÁMETR
O
µ
σ
σ2
ESTADÍGRAFO
X
s o S
s2 o S2
Estadística Descriptiva
¿QUÉ HE APRENDIDO?
Si al contestar lo que se te pide a continuación tienes dudas, regresa y
vuelve a empezar con más ánimo. Adelante.
1)Escribe un enunciado en donde se identifique claramente la
población y una muestra de la misma.
________________________________________________________
____________________________________________________________
_______________
2)Redacta dos ejemplos en donde no es posible trabajar con la
población, pero si con una muestra representativa de cada una de ellas.
________________________________________________________
____________________________________________________________
_______________
3) Anota dos características básicas de la población finita.
________________________________________________________
____________________________________________________________
_______________
4) Escribe 2 características importantes de la población infinita.
________________________________________________________
____________________________________________________________
_______________
5)Da un ejemplo de parámetro y otro de estadístico como en el inciso
3.
________________________________________________________
____________________________________________________________
_______________
6) Escribe en cada caso si es población finita o infinita:
POBLACIÓN
a)
Número
FINITA/INFINITA
de
alumnos
de
la
ENBA,
27
considerando a los que pertenecen al Sistema
Escolarizado y los del Sistema Abierto y a Distancia.
b) Lanzamiento indefinido de 2 dados, anotando
la suma de puntos.
c) Número de niños del mundo.
d) Libros de la biblioteca de una escuela.
e) Expedientes que se encuentran en trámite en
un Archivo.
f) Documentos que describen la historia del ser
humano en el pasado y en el futuro (considerando
que el mundo nunca será destruido).
7) Arroja 30 veces una moneda, anota el número de cara o cruces y
contesta:
Número de caras ____________________
Número de cruces ____________________
8) Contesta las siguientes cuestiones, considerando el enunciado del
inciso anterior:
a) La población está formada por: ________________________
b) La muestra es: _____________________________________
c) Es finita o infinita la población:_________________________
d) Describe un parámetro.
________________________________________________________
_______
e) Describe un estadístico.
________________________________________________________
_______
28
Estadística Descriptiva
1.3 VARIABLES
Variable es cualquier unidad, cualidad, operación o fenómeno que se
desee analizar.
VARIABLE: FORMA Y TAMAÑO DE LAS SIGUIENTES FIGURAS
a)
b)
Escribe las características diferentes de las figuras para cada una de
las variables:
Variable
Característica de a)
Forma de la figura 1.-.
Tamaño
de
la 2.figura
Característica de b)
1.2.-
Una vez definida la población de interés, el procedimiento para la
obtención de datos indispensables para el uso de métodos estadísticos se
puede dar en dos formas:
1) Recabar información de registros como puede ser el número de
personas que acuden diariamente a una biblioteca o a un archivo.
2) Llevar a cabo una encuesta (cuestionario formado por una serie de
preguntas relacionadas lógicamente con un tema central).
En ambos casos se obtendrán características de interés sobre la
población con la que se está trabajando, éstas reciben el nombre de
Variables.
VARIABLE (de respuesta). Característica de interés acerca de cada
elemento de una población o una muestra representativa que permite
ordenar las observaciones e identificar sus diferencias. Son variables la
edad de un estudiante, el color de su pelo, la asignatura a la cual pertenece
29
un libro o clasificación de expedientes según el tipo de archivo al que
pertenecen.
Se tienen 2 tipos de variables: CUALITATIVA Y CUANTITATIVA
CUALITATIVA se refiere a cualidad. Los datos cualitativos se
consideran en categorías o grupos.
CUANTITATIVA se refiere a cantidad. Los datos cuantitativos están
representados por un número.
TIPOS DE VARIABLES:
NOMINAL
Variables que no se pueden ordenar
CUALITATIVA
Describe y clasifica
en categorías a los
elementos de una
muestra o población
ORDINAL
Variables que se pueden ordenar
VARIABLE
CUANTITATIVA
Permite el conteo
o medición
DISCRETA
Variables que sólo toman valores enteros
CONTINUA
Variables con valores enteros y/o decimales
VARIABLE CUALITATIVA O ATRIBUTO. Es el resultado de un
proceso que permite describir o formar categorías con los elementos de
una población y se divide en Nominal y Ordinal.
VARIABLE CUALITATIVA NOMINAL. Cuando los valores de una
variable cualitativa permiten únicamente ubicar a cada individuo en una
categoría y no hay orden entre los valores, por ejemplo si a los
alumnos del grupo de Estadística Descriptiva se les pregunta el
nombre de la escuela en donde estudiaron bachillerato, algunas de las
posibles respuestas serían: Preparatoria, CCH, Bachilleres.
VARIABLE CUALITATIVA ORDINAL. Cuando a los valores de
una variable se les puede dar un orden, por ejemplo para conocer el
gusto de los alumnos de la ENBA por las Matemáticas, se podrían
considerar las respuestas: Mucho, Regular o Poco, las cuales se
pueden ordenar de mayor a menor o viceversa.
30
Estadística Descriptiva
VARIABLE CUANTITATIVA O NUMÉRICA. Es el resultado de un
proceso que cuantifica, es decir, que cuenta o mide (longitud o peso), a
estas variables se les asignan números reales con los cuales tiene sentido
efectuar operaciones aritméticas, así es posible compararlas, como
ejemplo tenemos el número de libros de una materia determinada o
número de expedientes que tiene un Archivo de Concentración. Este tipo de
variable se divide en Discreta y Continua.
VARIABLE CUANTITATIVA DISCRETA. Toma valores enteros,
un ejemplo es la cantidad de alumnos que asisten a una conferencia.
VARIABLE CUANTITATIVA CONTINUA. Toma valores enteros y
decimales, como el peso de cada uno de los trabajadores que laboran
en un Archivo.
DATO. Valor de la variable asociado a un elemento de la población o
muestra. Si la muestra representativa es el grupo de Estadística Descriptiva
y la variable es la edad (cuantitativa discreta si se toman sólo los años
cumplidos), se dice que el dato de “x” estudiante es 23 años.
¿QUÉ HE APRENDIDO?
Es necesario que respondas lo que se te pide enseguida, si tienes
dudas vuelve a iniciar la lectura de este tema.
1) Completa el siguiente cuadro y agrega en cada caso un ejemplo de
la variable de que se trata:
CUALITATIVA
VARIABLE
CUANTITATIVA
31
2) Identifica en cada caso si se trata de una variable nominal, ordinal,
discreta o continua:
TIPO DE VARIABLE
a) Nombre
________________________
b) Color de cabello
________________________
c) Peso
________________________
d) Color de ojos
________________________
e) Estado civil
________________________
f) Sexo
________________________
g) Profesión
________________________
h) Número de alumnos de la ENBA
________________________
i) Número
de
preguntas
________________________
32
en
un
examen
Estadística Descriptiva
j) Resultado de una encuesta
________________________
k) Número
de
páginas
de
un
expediente
________________________
l) Libros
de
una
biblioteca
________________________
m)Satisfacción al realizar una investigación
en una biblioteca o archivo
________________________
33
1.4 ESCALAS DE MEDICIÓN
ESCALA DE 1 EN 1
0
1
2
3
ESCALA DE 2 EN 2
0
2
4
6
Escala: Sucesión ordenada de puntos en la que se considera a cada
una de las partes del mismo tamaño.
Medida: Número o denominación que se
observación. Si se obtiene un número que
capacidades, se llama medición cuantitativa, y
denominación que sólo registra características,
conoce con el nombre de medición cualitativa.
asigna a la unidad de
expresa dimensiones o
si el resultado es una
atributos o actitudes, se
Las variables son conceptos fundamentales para el estudio de los
métodos estadísticos, su clasificación muestra el nivel de medición de las
características que pueden ser cuantitativas o cualitativas.
Las mediciones cuantitativas son de dimensión o capacidad como:
Estatura, peso, volumen, área, tiempo, longitud, etc.
Las mediciones cualitativas se refieren a características, atributos o
actitudes, las cuales no pueden ser representadas numéricamente tal es el
caso de: Opiniones, formación de grupos por ingreso familiar, profesión,
religión, clasificación de libros o expedientes por el estado físico que
presentan.
En una investigación, cuando se comparan los valores (o datos)
obtenidos, se está realizando un proceso de medición el cual permite
establecer una escala de valores. De acuerdo al tipo de variables se tienen
las siguientes escalas:
1.4.1 ESCALA NOMINAL. Cuando a las categorías utilizadas sólo
se les dan nombres arbitrarios a manera de etiquetas, sin que exista
34
Estadística Descriptiva
orden o relación entre ellas, como puede ser agradable o no agradable.
En esta escala los datos que son iguales forman una categoría y al
contarlos se obtiene la frecuencia absoluta o simplemente frecuencia.
En esta escala se proporciona información sobre la forma en que
están organizadas las categorías, aunque no indica la magnitud de las
diferencias entre los números, como en el caso de que en una biblioteca
se desee saber con qué material se cuenta en el área de consulta:
Libros, Revistas, Enciclopedias o Folletos. En un archivo podemos
investigar el sexo de los investigadores a fin de averiguar si entre ellos
hay más hombres que mujeres, de esta forma tendríamos las opciones
masculino o femenino.
1.4.2 ESCALA ORDINAL. Las categorías que se construyen pueden
ser ordenadas o jerarquizadas, según el nivel en que se sitúa una
determinada categoría con relación a otra, sin utilizar valores
cuantitativos, aunque las variables si se pueden relacionar por medio de
los operadores relacionales como son mayor (>), menor(<) o igual(=) o
comparar, como ejemplo de esta escala tenemos los resultados de una
encuesta en donde se desea conocer la satisfacción de un usuario,
formándose las categorías: Ninguna (N), Regular (R), Buena (B) y
Excelente (E). Un archivo puede ser mayor o menor que cualquier otro si
tomamos como medida de comparación una variable determinada.
1.4.3 ESCALA DE INTERVALO. Usa como 0 un valor arbitrario y se
utiliza cuando al formar categorías se está en posibilidad no sólo de
clasificar y ordenar, sino además de cuantificar las diferencias entre
ellas. En este caso se requiere de establecimiento de algún tipo de
medida, que puede considerarse como patrón o norma y la aplicación de
este patrón se puede llevar a cabo tantas veces como sea necesario,
originando los mismos resultados, los patrones utilizados pueden ser
metros, kilos, litros, pesos, etc. Esta escala indica que un individuo u
objeto es tantas unidades más grande o más pequeño, más pesado o
más ligero, más claro o más obscuro que otro, etc. Un ejemplo de esta
escala es la puntuación obtenida por una persona en un test de
inteligencia, en donde el cero no significa que un individuo tenga vacía la
cabeza.
1.4.4 ESCALA ABSOLUTA o racional. Las distancias entre puntos
en la escala son precisos y conocidos y no existe cero absoluto. En esta
escala las unidades son fijas y normalizadas, permitiéndonos realizar
análisis mucho más rigurosos y precisos. Ejemplo: Si la biblioteca “x”
tiene un presupuesto para materiales de $4,600, un sistema semejante
35
$800 y otro $650, se puede expresar exactamente y sin dificultad las
diferencias en pesos y en porcentajes y definir cómo es un presupuesto
con respecto al otro, observemos que en esta escala no se puede
cambiar nada, ya que básicamente se utiliza para conteos.
¿QUÉ HE APRENDIDO?
Ha llegado el momento de hacer una revisión del aprendizaje
adquirido.
1) Escribe tu propia definición de escala.
________________________________________________________
____________________________________________________________
_______________
2) Elabora un cuadro que muestre los diferentes tipos de escalas con
un ejemplo cada una:
ESCALAS
3) Indica en cada caso el tipo de medición que se está utilizando
(Escalas: Nominal, Ordinal, de Intervalo o Absoluta):
a) Se inscriben varios alumnos de la ENBA para participar en un
concurso y a cada uno se le entrega un número para su participación.
________________________
b) Al terminar el concurso se informa el resultado y aparece un
primer lugar, segundo, etc. Los resultados forman una ESCALA
________________________
c) Si además a cada participante se le tomó el tiempo de exposición
de su proyecto bajo las mismas bases, se puede saber quién es el más
36
Estadística Descriptiva
rápido y quién el más lento. A estos resultados se les puede incluir en
una ESCALA ________________________
d) Cómo es la medición que se hace al anotar si una persona recibe
el primer premio, el segundo, etc. ________________________
e) Un Archivista anota el número que le corresponde a cada legajo
en una muestra específica .________________________
f) Un Bibliotecario registra el número de usuarios que solicitan
determinado
material
para
sus
investigaciones
.
________________________
g) Uso del Sistema Dewey. ________________________
h) Público que se presenta en una biblioteca o en un archivo para
solicitar información. ________________________
i) Comparación del tipo y cantidad de libros que se encuentran en
una biblioteca. ________________________
37
Elabora el Resumen de la Unidad I completando el siguiente mapa
conceptual, al final de la guía lo encontrarás resuelto, de ser posible,
confronta tus respuestas y corrígelas en caso de ser erróneas:
ESTADÍSTICA
Ciencia de la recopilación,
clasificación, presentación
e interpretación de datos
OBJETO
Inferir el comportamiento
de una población a
través del análisis de
t
SE CLASIFICA EN
TIENEN COMO BASE
UNA
MUESTRA REPRESENTATIVA:
O UNA PARTE
POBLACIÓN QUE ES:
PUEDE SER:
1) FINITA
2) INFINITA
SUS CARACTERÍSTICAS
SE DENOMINAN
VARIABLES Y SON:
CUALITATIVA
CUANTITATIVA
CLASIFICÁNDOSE SEGÚN LAS SIGUIENTES
ESCALAS DE MEDICIÓN:*
*Escalas de medición:
a) Nominal.- Se utiliza como medida de identificación con variables
nominales.
b) Ordinal.- Permite la manipulación de variables ordinales.
c) Intervalo o Absoluta:- Maneja variables cuantitativas.
38
Estadística Descriptiva
EVALUACIÓN
Lee cuidadosamente cada inciso y contesta en forma clara y breve lo
que se te solicita, ya que esta evaluación se la debes enviar a tu asesor:
1) Escribe tu propia definición de Estadística
________________________________________________________
____________________________________________________________
____________________________________________________________
_______________________
2) Se sabe que cierto Archivo tiene un total de 5,000 expedientes, si a
cada uno de ellos se le asigna un número para su identificación, contestar:
a) Cuando se habla de 5,000 expedientes en total nos estamos
refiriendo a la ________________
b) La escala que se ha utilizado es ______________ ya que
____________________________________________________________
________
3) En la biblioteca de una Institución Educativa se pretende dar pláticas
durante el período intersemestral, al personal docente y administrativo
sobre el uso y manejo de sus diferentes servicios, para ello realiza una
encuesta con 850 personas para saber su opinión, si 245 están a favor
contestar lo siguiente:
a) La población está formada por:
________________________
b) ¿Es población finita o infinita?
________________________
c) ¿Cuál es la muestra?
________________________
d) Describir un parámetro
________________________________________________________
____________________________________________________________
______________
e) Calcular un estadístico
39
________________________________________________________
____________________________________________________________
_______________
f) ¿Cuál consideras que es la variable de interés?
________________________________________________________
____________________________________________________________
_______________
g) ¿A qué escala pertenece esta variable? Explica tu respuesta
________________________________________________________
____________________________________________________________
_______________
INSTRUCCIÓN GENERAL
De los siguientes dos ejercicios, resuelve el que corresponda a tu área,
en caso de que así lo desees, puedes resolver ambos.
4) Acude a una biblioteca de tu localidad y pregunta:
- Total de libros de la biblioteca
- Número de volúmenes que se tiene para préstamo a domicilio
- Volúmenes para préstamo en sala
- ¿Del total de volúmenes para préstamo a domicilio cuál es el área del
conocimiento que tiene mayor número de libros?
- ¿En qué lugar se registra mayor movimiento, en préstamo a domicilio
o en consulta en sala?
Con la información que obtengas contesta lo siguiente:
a) ¿Cuál es la población?
________________________________________________________
_______
b) ¿Se trata de una población finita o infinita?
________________________________________________________
_______
c) Anota como mínimo 3 diferentes muestras que puedes formar
considerando el total de libros:
40
Estadística Descriptiva
________________________________________________________
_______
d) Efectúa los cálculos necesarios para encontrar la proporción que
existe entre los libros que se prestan y el total de libros, anota el resultado y
expresa si se trata de un parámetro o de un estadístico.
________________________________________________________
_______
d) Calcula la proporción de ejemplares de la asignatura que más se
presta con respecto a los libros que se prestan a domicilio e indica si se
trata de un parámetro o de un estadístico.
________________________________________________________
_______
5) Investiga en un Archivo de Trámite (Oficina de Gobierno
Administrativa, Archivo Estatal, Municipal o de la Localidad):
-Total de expedientes que maneja el Archivo
-Promedio de documentos que entran diariamente
-Promedio de documentos que salen diariamente
-Qué día de la semana se recibe más correspondencia y qué día menos y
preguntar el promedio en cada caso
-Número de expedientes que son susceptibles de ser prestados para su
consulta
Con la información que obtengas contesta lo siguiente:
a) ¿Cuál es la población?
________________________________________________________
_______
b) ¿Se trata de una población finita o infinita?
________________________________________________________
_______
c) Anota como mínimo 3 diferentes muestras que puedes formar en el
Archivo al que acudiste:
________________________________________________________
_______
d) Calcular la proporción entre el número de expedientes susceptibles
de ser prestados para su consulta y el total de expedientes con que cuenta
el archivo, indica si se trata de un parámetro o de un estadístico:
41
________________________________________________________
_______
e) Calcula un estadístico de la información obtenida:
________________________________________________________
_______
ENVÍA A TU ASESOR
Felicidades, has logrado un importante avance.
42
Estadística Descriptiva
UNIDAD 2
PRESENTACIÓN DE DATOS
Una vez que se tiene una muestra aleatoria de tamaño n de la
población de interés, los datos considerados deben ser ordenados y
presentados en tablas de distribución que pueden ser simples, cuando se
habla de datos cualitativos o de una población o muestra pequeña, o
para datos agrupados cuando se tiene una población o muestra grande.
Los datos presentados en una tabla permiten observar claramente la
naturaleza y comportamiento de la información sobre la cual se tiene
interés.
¿QUÉ VOY A APRENDER EN ESTA UNIDAD?
A organizar, manejar y presentar los datos obtenidos a través de una
investigación en una Tabla de Distribución de frecuencia simple o para
datos agrupados que te faciliten identificar el comportamiento de una
variable.
Antes de iniciar esta unidad realiza las siguientes actividades
diagnósticas.
39
DIAGNÓSTICO
1) Escribe los primeros conceptos de Estadística que te quedan
claros.
________________________________________________________
____________________________________________________________
_______________
2) Si al ir a comprar un libro te informan que su costo es de $120.00
pero que tiene un descuento del 15%, ¿cuánto vas a pagar?
__________________.
Describe el procedimiento que realizaste para su cálculo.
________________________________________________________
_______
3) Ahora, supongamos que otro libro cuesta $150.00 más el 15% de
IVA ¿cuánto pagarías por él? ___________________.
4) Ordena en forma ascendente y descendente los siguientes números
8, 7, 1, 4, 10, 2
ASCENDENTE:____________________________________________
______
DESCENDENTE:__________________________________________
_______
Es muy importante que no olvides lo que vas aprendiendo en cada
unidad, por ello en la pregunta 1 del diagnóstico se te solicita que anotes los
conceptos estadísticos que consideras más importantes, si no los recuerdas
repasa tu resumen y contesta en forma correcta. No olvides que la
constancia en el estudio da sus frutos al alcanzar una meta.
40
Estadística Descriptiva
En las preguntas 2 y 3 tuviste que haber realizado cálculos para
encontrar los porcentajes que se te solicitan, si tus respuestas son $102.00
y $172.50 respectivamente puedes continuar, si no fue así lee con atención
lo siguiente:
Recordemos que el porcentaje de un número es igual al mismo
número dividido entre 100, esto es:
5
5% =------ = .05
100
9
9% =------ = .09
100
10
10% = ---- = .10
100
y en general si a es cualquier número
a
a% =-------100
Si utilizamos esta sencilla regla para el cálculo del 15% de $120.00
entonces tenemos que multiplicar 120 por .15 y obtenemos 18 que se resta
a 120 porque se trata de un descuento, el resultado es $102.00 a pagar por
el libro.
De igual forma se calcula el 15% de $150.00 que es 22.5 el cual se
suma al costo dando un total de $172.50, ya que se trata de un cargo al
costo.
Finalmente, en la ordenación de números te habrás dado cuenta que
cuando se te solicita orden ascendente escribes el número menor y
continúas escribiendo los restantes hasta llegar al número más grande y la
numeración en forma descendente se obtiene iniciando con el mayor y
terminando con el menor.
Bien, ¿ya estás listo para continuar? Adelante.
41
2.1 TIPOS DE DATOS
En el desarrollo de este tema, consideramos 3 tipos de datos:
Categóricos, Ordenados por rango y Métricos. Con el propósito de entender
su utilidad, para cada uno de ellos elaboraremos una tabla o cuadro
estadístico colocando en la primera columna las diferentes categorías que
se forman al tomar en cuenta al total de datos, sin que se repita ninguna y,
en otra columna el número de elementos que pertenecen a cada categoría.
TABLA O CUADRO ESTADÍSTICO
CATEGORÍAS
frecuencias absolutas o frecuencias (f)
A
número de datos que caen en esta
categoría
B
“
“
TOTALES
suma de todas las frecuencias
2.1.1 DATOS CATEGÓRICOS. Agrupan a los individuos en categorías,
contando el número de sujetos que pertenecen a cada una. El número que
indica cuántos elementos tiene una categoría recibe el nombre de
frecuencia absoluta o simplemente frecuencia y se denota con la letra efe
minúscula “f”. Al realizar el conteo cada sujeto debe adaptarse exactamente
a una categoría.
Supongamos que en cierta área existen 33 bibliotecas, las cuales se
pueden agrupar por categorías obteniéndose la tabla siguiente:
BIBLIOTECAS DEL ÁREA “Y”
TIPO DE BIBLIOTECAS
NÚMERO
(f)
ACADÉMICAS
2
Categorías PUBLICAS
8
categoría
ESCOLARES
20
ESPECIALIZADAS
3
Total:
frecuencia de cada
33
En este cuadro aparece la variable nominal tipo de bibliotecas con las
categorías: Académicas, Públicas, Escolares y Especializadas; en la
segunda columna están sus frecuencias respectivas.
42
Estadística Descriptiva
Si se trata de Archivos, también se puede elaborar un cuadro con
datos categóricos. Tomemos como ejemplo una Secretaría de Estado.
SECRETARÍA DE ESTADO “X”
TIPO DE ARCHIVO
NÚM. DE EXPEDIENTES
TRÁMITE
25
CONCENTRACIÓN
4
HISTÓRICO
1
Total:
30
2.1.2 DATOS ORDENADOS POR RANGO. Establecen un orden entre
categorías y son utilizados para comparar.
Considerando la tabla que muestra las diferentes bibliotecas en una
área, es fácil comparar la categoría de Bibliotecas Académicas con la de
Bibliotecas Escolares, de acuerdo a las frecuencias de cada una de ellas se
puede asegurar que es mayor el número de Escolares que de Académicas.
BIBLIOTECAS DEL ÁREA “Y”
TIPO DE BIBLIOTECAS
NUMERO
ACADÉMICAS
2
PUBLICAS
8
ESCOLARES
20
ESPECIALIZADAS
3
Total:
33
Otro ejemplo en donde se puede utilizar la ordenación por rango es en
la edición de libros en donde las categorías son las fechas de edición:
BIBLIOTECA “X”
FECHA DE EDICIÓN
ENERO
1991
JUNIO
1991
FEBRERO
1992
AGOSTO
1992
Total:
NÚMERO
23
10
21
3
57
2.1.3 DATOS MÉTRICOS. Permiten la introducción de medidas, lo cual
facilita la comparación de los datos obtenidos.
43
Si consideramos nuevamente la edición de libros y asignamos
unidades (años) con intervalos iguales, se pueden efectuar operaciones
aritméticas:
BIBLIOTECA “X”
AÑO DE EDICIÓN
1991
1992
Total:
NÚMERO
33
24
57
Con esta información se puede establecer la comparación entre los
dos años de edición que aparecen en la tabla.
Es posible efectuar esta misma comparación si se consideran los
documentos de un archivo con respecto al año de su elaboración.
¿QUÉ HE APRENDIDO?
1) Haz un cuadro que muestre los diferentes tipos de datos anotando
además, un ejemplo de cada uno.
TIPOS DE DATOS
2) Al investigar en una biblioteca escolar el sexo de usuarios que
solicitan préstamo a domicilio, a fin de conocer los elementos que forman
cada categoría se encontró:
BIBLIOTECA “X”
PRÉSTAMO A DOMICILIO
44
NÚMERO
Estadística Descriptiva
HOMBRES
MUJERES
Total:
210
198
408
En cada uno de los incisos escribe el tipo de dato que se está
utilizando y que pueden ser categóricos, ordenado por rango o métrico.
a)
Los
datos
___________________
son
de
tipo
__________________porque
b) Al comparar el número de hombres y mujeres se están manejando
los datos tipo ________________.
c) Si se considerara el servicio de préstamo a domicilio mensual se
estaría trabajando con datos ________________.
45
2.2 DISTRIBUCIÓN DE FRECUENCIAS
6
4
1
1, 2, 3, 4, 5, 6
3
2
5
Datos sin organizar
Datos organizados
Una vez que se ha recopilado información ya sea por medio de una
encuesta o a través de una investigación, sobre una población y decidido
trabajar con ella si es pequeña o con una muestra representativa si es muy
grande, se obtiene un arreglo de datos en desorden que no es de gran
utilidad para conocer el comportamiento de la información, lo cual provoca
la necesidad de elaborar tablas de distribución de frecuencias.
Iniciaremos la explicación de dichas tablas con un ejemplo muy
sencillo: El Departamento de Control Escolar informa que el número de
alumnos de la Escuela Nacional de Biblioteconomía durante el semestre 97I es de 621 de los cuales 270 pertenecen a Archivonomía y el resto a
Biblioteconomía.
Con este enunciado es muy difícil analizar y comparar los elementos
que pertenecen a cada categoría, sin embargo, si elaboramos una tabla de
distribución de frecuencia simple veremos que es fácil identificar las
categorías y sus frecuencias respectivas:
TABLA DE DISTRIBUCIÓN DE FRECUENCIA SIMPLE
Título
Período
Encabezados
cuerpo
Final
ALUMNOS DE LA ENBA
Semestre 97-I
CARRERA
NÚM.DE ALUMNOS
(X)
(f)
ARCHIVONOMÍA
270
BIBLIOTECONOMÍA
351
Total:
621
Fuente: Información proporcionada por la Subdirección de Planeación y Evaluación de la
ENBA a través de su Departamento de Control Escolar el 28 de abril de 1997.
Pie: Sólo se ha considerado el total de alumnos en el Sistema Escolarizado.
46
Estadística Descriptiva
Las tablas de distribución de frecuencias o tabla de frecuencias
permiten estructurar y ordenar la información, para que su contenido sea lo
más claro posible siempre se debe incluir:
•
•
•
•
•
•
•
Título. Describe la información más importante del problema.
Fecha o Período de tiempo en que se realizó la investigación.
Encabezado. Informa el contenido de cada columna.
Cuerpo. Agrupa la información en categorías con sus frecuencias
respectivas.
Final. Registra los totales de las columnas numéricas.
Fuente. Se debe especificar cómo, cuándo, quién y dónde se
tomaron los datos.
Pie. Contiene observaciones. (En algunos casos no existe).
Una vez que ya identificamos las partes que forman una tabla de
distribución de frecuencias, conozcamos los diferentes tipos de
distribuciones de acuerdo a la variable que se está manejando.
2.2.1 SIMPLES
DISTRIBUCIÓN
NOMINALES
DE
FRECUENCIAS
SIMPLES
PARA
DATOS
Esta tabla de distribución es útil cuando se trata de una variable de tipo
nominal.
1) Al
grupo 6101 formado por 21 alumnos de la carrera de
Archivonomía en la ENBA se le preguntó cuál es la materia de su
preferencia de Estadística Descriptiva (ED), Inglés (I) o Computación (C),
siendo las respuestas: ED, I, ED, I, C,C,C, I, ED, I, C,C,C, I, C,C,C,C,C, I, C.
Con esta información elaboraremos un tabla de distribución de
frecuencias simple que muestre los datos de la variable nominal Materia de
preferencia.
47
MATERIAS DE PREFERENCIA DE LOS ALUMNOS DE ARCHIVONOMÍA DE LA ENBA
GRUPO 6101
-SEMESTRE 97-1
ASIGNATURA
NÚMERO DE ALUMNOS
ESTADÍSTICA
3
DESCRIPTIVA
INGLÉS
6
COMPUTACIÓN
12
TOTAL:
21
Fuente: Encuesta realizada por la Coordinación de la Carrera de
Archivonomía
al grupo 6101 en junio de 1997.
Observaciones: Sólo se consideró al turno matutino y a los
Alumnos inscritos en el Sistema Escolarizado.
Las tablas de distribución permiten manejar la información más
fácilmente, con los datos del cuadro anterior calcularemos algo tan
importante como lo es la proporción en porcentaje de cada categoría con
respecto a la muestra:
a) El porcentaje de alumnos que prefieren Estadística Descriptiva es:
f
3
% = -------- (100) = ------- (100) = 14.28%
n
21
b) El porcentaje de alumnos que prefieren Inglés es:
f
6
% = -------- (100) = ------- (100) = 28.57%
n
21
c) El número de alumnos que prefiere Computación representa un
porcentaje de:
f
12
% = -------- (100) = ------- (100) = 57.14%
n
21
Estos cálculos se pueden agregar en la tabla de distribución teniendo
como encabezado frecuencia relativa o fr:
48
Estadística Descriptiva
MATERIAS DE PREFERENCIA DE LOS ALUMNOS DE ARCHIVONOMÍA DE LA ENBA
GRUPO 6101
SEMESTRE 97-1
ASIGNATURA
NÚMERO DE ALUMNOS
fr (%)
ESTADÍSTICA
3
14.28
DESCRIPTIVA
INGLÉS
6
28.57
COMPUTACIÓN
12
57.14
TOTAL:
21
99.99
Fuente: Encuesta realizada por la Coordinación de la Carrera de
Archivonomía
al grupo 6101 en junio de 1997.
Observaciones: Sólo se consideró al turno matutino y a los
alumnos inscritos en el Sistema Escolarizado.
La tabla de distribución de frecuencias simple no sería de gran utilidad
si sólo se llegara hasta aquí, su importancia radica en que permite analizar
la información que contiene, como por ejemplo comparar las frecuencias
entre las categorías, lo que recibe el nombre de razón que es un cociente
en donde se comparan dos cantidades que se encuentran en las mismas
unidades.
LECTURA 1
Con el propósito de que conozcas un poco más sobre la proporción
además de saber cómo y para qué se calculan la razón y las tasas, te
sugiero leas la primera lectura que se encuentra al final de esta guía, escrita
por Ray I. Carpenter y que forma parte del libro “Métodos Estadísticos para
Bibliotecarios”. (páginas de la 25 a la 30).
Se hace hincapié en que estos conceptos también son de vital
importancia para los Archivónomos, como lo veremos más adelante con
ejemplos.
Para la mejor comprensión de la lectura subraya los conceptos más
importantes, realiza anotaciones al margen, busca las palabras
desconocidas en el diccionario y elabora un resumen que te permita
confrontar el desarrollo del tema.
Después de leer regresa para continuar con más ánimo.
49
Una vez realizada tu lectura reforzaremos con ejemplos su
aprendizaje. Consideremos los datos de la tabla construida antes de la
lectura.
ASIGNATURA
ESTADÍSTICA
DESCRIPTIVA
INGLÉS
COMPUTACIÓN
TOTAL:
NÚMERO DE ALUMNOS
3
fr (%)
14.28
6
12
21
28.57
57.14
99.99
Si el número de alumnos que prefiere Estadística Descriptiva es 3 y los
que prefieren Inglés son 6, ¿cuál es la razón entre los alumnos que tienen
estas preferencias?:
frecuencia de Estadística Descriptiva
Razón = ---------------------------------------------frecuencia de Inglés
3
1
Razón = -------- = -----6
2
Conclusión: Por cada alumno que prefiere Estadística Descriptiva
existen 2 que prefieren Inglés, esto es, la preferencia es 1 a 2.
Veamos la razón que existe entre los alumnos que prefieren
Computación con los que prefieren Estadística Descriptiva:
frecuencia de Computación
Razón = ---------------------------------------------frecuencia de Estadística Descriptiva
Razón = ----------- = -------Conclusión:
________________________________________________________
____________________________________________________________
_______________
50
Estadística Descriptiva
2) Observa la información que aparece en la siguiente tabla:
ALUMNOS INSCRITOS EN BIBLIOTECONOMÍA POR SEXO
Semestre 97-I
SEXO
NÚM.DE ALUMNOS
(X)
(f)
HOMBRES
288
MUJERES
144
Total:
432
f1 es la frecuencia de una categoría y f2 de otra diferente.
f1
Razón = ------f2
Si consideramos a f1 como la frecuencia de la categoría de hombres
entonces f1=288 y similarmente si tomamos a f2 como la frecuencia de la
categoría de mujeres f2=144.
Al comparar el número de hombres con el número de mujeres que
estudian la carrera de Biblioteconomía:
288
Razón = --------144
Como 288 es el doble de 144 entonces:
288
2
Razón= ------------- = ---144
1
Conclusión: La razón indica que por cada 2 hombres hay 1 mujer o
viceversa que por cada mujer hay 2 hombres.
3) Con la información que se te muestra contesta lo que se te pide:
SECRETARÍA DE ESTADO “X”
TIPO DE ARCHIVO
NÚM. DE EXPEDIENTES
TRÁMITE
25
CONCENTRACIÓN
4
HISTÓRICO
50
Total:
79
a) Cuál es la razón entre los expedientes en trámite y los que se
encuentran en el Archivo Histórico:
Razón = ---------
51
Conclusión:_______________________________________________
____________________________________________________________
_______________
b) Calcula la proporción de expedientes en trámite con respecto al
total.
________________________________________________________
____________________________________________________________
_______________
c) Escribe la proporción anterior en forma de porcentaje.
________________________________________________________
____________________________________________________________
_______________
Ahora que ya hemos entendido el concepto de razón continuaremos
con un ejemplo en donde se utiliza la tasa de cambio.
4) Si en la biblioteca de la escuela había 456 libros al inicio de un
período escolar y al finalizar el mismo este número disminuyó a 422 ¿cuál
es la tasa de cambio de libros extraviados?
En la lectura se nos indicó que la forma de calcular la tasa de cambio
es la siguiente:
Valor final - Valor inicial
Numerador
Tasa de cambio = --------------------------------------- = -------------------Valor inicial
Denominador
En el numerador se escribe la diferencia entre el valor inicial del
período y el valor final del mismo:
422 - 456= -34
Nota: Si la cantidad que se obtiene es negativa representa una disminución y si es positiva
se trata de un incremento.
En el denominador se escribe el valor de la variable al principio del
período:
456
-34
Tasa de cambio = --------- = -0.074 = -7.4%
456
52
Estadística Descriptiva
Como el resultado es negativo se obtiene la siguiente conclusión:
Durante el período escolar considerado el acervo ha disminuido en un
7.4%.
5)Si en el año de 1990 en un Archivo existían 256,000 expedientes y en
1996 se incrementó este número a 321,000 ¿cuál es la tasa de cambio en el
período de 6 años?
321,000 - 256,000
65,000
Tasa de cambio = -------------------------- = -------------------=.2539 =25.39%
256,000
256,000
Conclusión: El Archivo incrementó su número de expedientes en
65,000, lo cual da como resultado un crecimiento del 25.39% en un período
de 6 años.
¿QUÉ HE APRENDIDO?
Para poder continuar se requiere que contestes correctamente lo que
se solicita en cada inciso:
1)
De
acuerdo
a
la
lectura
la
razón
es
útil
para__________________________
_______________________________________________________________
_____
2)
La
tasa
de
cambio,
permite______________________________________
_______________________________________________________________
_____
3) En una biblioteca se tienen 2,340 libros para préstamo a domicilio y
780 para consulta interna. Con esta información identifica en cada caso si
se tiene que calcular una razón, proporción o tasa de cambio.
a) A fin de establecer la relación que existe entre los libros para
préstamo a domicilio con los de consulta interna.
___________________________________________________________
____
53
b) Para conocer cuántos libros existen en una categoría con respecto a
la otra.
___________________________________________________________
____
c) Con el objeto de calcular el incremento de libros durante los últimos
dos años.
________________________________________________________
_______
4) Pregunta a 15 personas su grado máximo de estudios y con las
respuestas elabora una tabla de distribución simple.
DISTRIBUCIÓN
ORDINALES
DE
FRECUENCIAS
SIMPLES
DE
DATOS
Las categorías utilizadas deben tener un orden al ir construyendo la
distribución de frecuencias, algunos autores consideran el orden de menor
a mayor (ascendente) y otros por el contrario ordenan los datos de mayor a
menor (descendente). En esta guía se utilizará el orden ascendente.
6) Un ejemplo que se puede presentar es el hecho de conocer la
satisfacción de los usuarios en relación con los servicios que presta al
público ya sea una Biblioteca o un Archivo, en cuyo caso lo más
conveniente es tomar una muestra que represente al total de la población y
realizar una encuesta, supongamos que los resultados de la misma son:
Ninguna = 20, Regular = 30, Buena = 15 y Excelente = 18.
Con estos datos ya se está en posibilidad de elaborar una Tabla de
Distribución de Frecuencias Simple que muestre claramente la información
obtenida, ya sea desde su valor más pequeño hasta el más alto o viceversa
como se ilustra en las dos tablas siguientes:
Orden ascendente
ENCUESTA PARA CONOCER LA SATISFACCIÓN
DEL USO DE SERVICIOS
SATISFACCIÓN
No. DE USUARIOS
NINGUNA
20
REGULAR
30
BUENA
15
EXCELENTE
18
TOTAL
83
54
Estadística Descriptiva
Orden descendente
ENCUESTA PARA CONOCER LA SATISFACCIÓN
DEL USO DE SERVICIOS
SATISFACCIÓN
No. DE USUARIOS
EXCELENTE
18
BUENA
15
REGULAR
30
NINGUNA
20
TOTAL
83
¿QUÉ HE APRENDIDO?
1) Escribe la diferencia que existe entre la tabla de distribución de
frecuencias simples para datos ordinales y la de datos nominales.
________________________________________________________
____________________________________________________________
_______________
2) Elabora una tabla de distribución de frecuencia simple con todos sus
elementos, considerando la información que obtengas al preguntar a 15 de
tus compañeros si les gustan las Matemáticas, utilizando para ello las
categorías: Nada, Poco, Regular y Mucho.
3) Calcula la proporción que existe entre las personas a quienes les
gusta mucho Matemáticas y a las que no les gusta.
________________________________________________________
____________________________________________________________
_______________
DISTRIBUCIÓN DE FRECUENCIA SIMPLE DE DATOS CONTINUOS
O DISCRETOS
55
Cuando se tiene un número pequeño de observaciones representadas
por números continuos o discretos, se construye una tabla parecida a las
dos explicadas anteriormente, escribiendo en la primera columna la variable
y en la segunda la frecuencia con que aparecen los datos.
Como ejemplo usaremos las calificaciones de Cómputo obtenidas por
25 alumnos y que son: 3 alumnos obtuvieron cinco, 5 alumnos seis, 6
alumnos siete, 5 alumnos ocho, 3 alumnos nueve y 3 alumnos diez.
CALIFICACIONES DEL GRUPO 337
PRIMER PARCIAL DE CÓMPUTO
SEMESTRE 97-I
CALIFICACIÓN
No. DE ALUMNOS
(X)
(f)
5
3
6
5
7
6
8
5
9
3
10
3
TOTAL
25
Fuente: Lista del grupo 337 proporcionada por el Profesor de la Materia.
¿QUÉ HE APRENDIDO?
Observa la tabla que se acaba de construir y contesta:
1) En este caso la primera columna contiene ___________ que
representan a la variable cuantitativa.
2) ¿Existe alguna diferencia entre esta tabla y las dos construidas
anteriormente?
Explica
tu
respuesta:______________________________________
____________________________________________________________
________
3) ¿La distancia que recorren tus compañeros en metros de sus
respectivas casas al trabajo podrían proporcionarte información para
56
Estadística Descriptiva
construir una tabla para datos continuos o discretos? Explica tu
respuesta:____________________________
____________________________________________________________
________
4) ¿Qué categorías te gustaría considerar en el inciso 3?
____________________________________________________________
____________________________________________________________
________________
57
2.2.2 PARA DATOS AGRUPADOS
DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS DE DATOS POR
INTERVALOS
Cuando se tiene una gran cantidad de datos numéricos, la distribución
de frecuencia simple resulta larga y difícil de leer, por ello, se recomienda
agruparlos en categorías llamadas intervalos de clase, y elaborar tablas que
muestren la información en una forma más eficiente que permita averiguar
rápidamente su comportamiento, sin embargo, al considerar intervalos de
clase se tiene la desventaja de perder el valor original e individual de cada
uno de los datos.
Antes de iniciar con la construcción de una tabla de distribución de
frecuencia de este tipo, mostraremos el contenido de las columnas básicas
que la forman:
CLASES o INTERVALOS
f
Mc
Límite inferior-Límite superior frecuenci Marca de clase o
o Frontera inf.- Frontera sup. a de
Punto medio
cada
clase
La siguiente gráfica te permitirá visualizar la frecuencia, el número de
intervalos, la amplitud y la marca de clase:
Número de intervalos= número de barras=K=
5
15
Amplitud = ancho de cada columna= A
(todas tienen la misma amplitud)
10
5
Frecuencia= Frecuencia de clase = f
Es la altura de cada barra
0
25
35
45
55
65
Marca de clase= Mc
Punto medio de cada barra
Cada una de las clases o intervalos se encuentra formada por dos
límites llamados aparentes que son el límite inferior(o frontera inferior) y el
límite superior (o frontera superior), es necesario calcular el número de
intervalos al cual llamaremos K, con la única condición de que todos los
datos queden incluidos en los intervalos considerados; la distancia entre los
58
límites inferior y superior de un intervalo recibe el nombre de amplitud y se
denota con la letra A.
La frecuencia de cada clase (f) se obtiene al contar el número de datos
que caen dentro de cada intervalo.
La marca de clase o punto medio (Mc) es el número que se obtiene al
dividir la suma de los límites inferior y superior entre dos, dando como
resultado un valor que se encuentra a la mitad de los límites considerados.
7) Apoyados por estos conceptos procedamos a la elaboración de una
tabla de distribución de frecuencia agrupada por intervalos tomando los
datos de un Archivo en donde se quiere conocer el promedio de
expedientes que se presta, considerando una muestra de 50 días al azar.
El número de libros o expedientes prestados durante los 50 días
considerados son:
61
64
62
60
65
50
54
57
63
56
65
65
75
56
57
70
67
53
53
58
45
48
58
61
55
60
64
59
62
51
80
56
56
69
43
65
60
54
70
79
60
61
67
44
72
65
62
68
47
48
Esta información la proporcionó el encargado del Departamento de Control Escolar.
Primero se ordenan los datos de menor a mayor.
43
44
45
47
48
48
50
51
53
53
54
54
55
56
56
56
56
57
57
58
58
59
60
60
60
60
61
61
61
62
62
62
63
64
64
65
65
65
65
65
67
67
68
69
70
70
72
75
79
80
58
Estadística Descriptiva
Notemos que el dato mayor es 80 y el menor 43 y que es fácil ubicarlo
sólo después de haber ordenado en forma ascendente a todos los
elementos de la muestra.
En Estadística se acostumbra utilizar la letra equis mayúscula “X” para
que represente a un dato, por lo que una vez ordenados se determina el
recorrido o rango, es decir, la diferencia entre el dato mayor y el menor;
utilizando la letra X para representar a estos dos datos se tiene lo siguiente:
Rango o Recorrido = R
R = X máxima - X mínima
R = X máx - X mín
R = 80 - 43 = 37
Como siguiente paso se calcula el número de intervalos, donde
intervalo es cada una de las partes iguales en que se divide el rango. No
olvidemos que cada intervalo está formado por límites superior e inferior en
la columna de clases y se representa con la letra K.
K= número de intervalos
El número de intervalos en una tabla de distribución para datos
agrupados no debe ser muy grande ni muy pequeña sino suficiente para
contener toda la información.
El autor Howard B. Christensen en su libro Estadística Paso a Paso
sugiere una regla llamada de Sturges para establecer el número de
intervalos de acuerdo con el número de datos:
Número de valores en el conjunto
10 a 100
100 a 1000
1000 a 10000
Número apropiado de intervalos
4a8
8 a 11
11 a 14
Para calcular el número de intervalos de una tabla de distribución para
datos agrupados, se puede utilizar nuevamente la Regla de Sturges que
indica que K= 1+ 3.322 x log (n) donde:
n es el tamaño de la muestra
1 y 3.322 son dos valores constantes que nunca cambian
log (n) es el logaritmo de n
En el ejemplo que nos ocupa tenemos que n=50, obteniendo en la
calculadora el valor que le corresponde al log(50) se tiene que es 1.69.
59
Sustituyendo estos valores en la fórmula:
K = l + 3.322 x (1.69)
Al resolver primero se multiplica 3.322 por el resultado del logaritmo y
al valor que se obtiene se le suma 1, con lo cual K = 1 + 3.322 x (1.69) =1 +
5.64 = 6.64.
Como el número de intervalos debe ser entero porque representa al
número de barras en una gráfica como la que aparece al inicio de esta
unidad, se debe redondear de la siguiente manera: Si el primer dígito
decimal es mayor o igual que .5 entonces K será igual al valor entero
siguiente, si por el contrario el dígito decimal es menor que .5 entonces K
tendrá el valor del entero anterior, por ejemplo si se obtiene 5.8 K=6 y si se
tiene 7.2 entonces K=7.
En este caso K=7 porque el valor obtenido fue 6.64. Es importante
hacer notar que esta Regla no es infalible y que si en un momento dado se
quiere considerar otro número de intervalos diferente al obtenido, se puede
hacer, con la única condición de que todos los datos de la muestra queden
contenidos en los intervalos.
Después de obtener K, se calcula la amplitud de los intervalos
realizando la división del rango entre el número de intervalos de la siguiente
manera:
R
A= --------K
37
A= ------- = 5.2
7
La amplitud también es un número entero por lo que A se redondea a
5.
Hasta ahora hemos obtenido R= 37, K=7 y A=5, con esta información
ya estamos preparados para construir la tabla de distribución. ¡Adelante!
Escribimos como primer encabezado CLASES y anotamos como
primer límite inferior el valor más pequeño o si desea un valor cercano como
puede ser 40, 41 ó 42; en este caso, consideraremos al 43 que es el dato
menor, para encontrar el segundo límite inferior se le suma la amplitud que
es 5 y así sucesivamente hasta tener 7 intervalos que es el valor de K.
60
Estadística Descriptiva
A=5
CLASES
43
48
53
+5=
+5=
58
63
68
73
1)
2)
3)
K
4)
5)
6)
7)
Número de clases o intervalos =
K=7
Para realizar el cálculo de los límites superiores o fronteras superiores,
se procede de la siguiente manera: Al primer límite inferior se le suma lo
que vale la amplitud menos 1, esto es, 4 y el resultado es el primer límite
superior, de esta forma se continúa hasta completar los 7 intervalos
considerados en este caso:
Límites aparentes:
límite inferior
límite inferior
CLASES
43- 47
48- 52
53- 57
58- 62
63- 67
68- 72
73- 77
límite superior
límite superior
A los límites o fronteras inferior y superior que acabamos de encontrar
se les llama límites aparentes, existen otros límites que no aparecen en la
tabla pero que también es necesario que conozcas, son los límites reales,
también llamados verdaderos, los cuales se calculan muy fácilmente:
a) A cada límite inferior se le resta .5 y se obtienen los límites reales o
verdaderos.
b) Se agrega .5 a cada límite superior para obtener el límite superior
real o verdadero de cada clase.
límite inferior
aparente
43
48
53
58
63
68
73
61
límite inferior real o
verdadero
42.5
47.5
52.5
57.5
62.5
67.5
72.5
límite superior
aparente
47
52
57
62
67
72
77
límite superior real
o verdadero
47.5
52.5
57.5
62.5
67.5
72.5
77.5
Límites reales o verdaderos:
límite inferior real o
verdadero
42.5
47.5
52.5
57.5
62.5
67.5
72.5
límite superior real o
verdadero
47.5
52.5
57.5
62.5
67.5
72.5
77.5
Como verás, para construir la columna de las clases o intervalos de
clase se utilizaron Rango (R), número de intervalos (K) y amplitud (A).
Para llenar la columna de frecuencias absolutas o simplemente f, se
maneja la lista ordenada de los datos, contando el número de los que caen
dentro de cada intervalo, por ejemplo en el primer intervalo 43-43 caen: 43,
44, 45, 47, lo cual significa que tiene frecuencia 4. En esta forma se
continúa hasta tener el total de datos incluidos en los intervalos. Para
verificar que el conteo fue correcto, se suman todas las frecuencias y su
resultado debe ser el tamaño de la muestra que en este caso es 50.
CLASES
43- 47
48- 52
53- 57
58- 62
63- 67
68- 72
73- 77
TOTAL:
f
4
4
11
13
10
5
3
50
Al tener datos agrupados se pierde la individualidad de cada uno, es
por esta razón que se calcula el punto medio o marca de clase, el cual
representa a todos los datos que caen en cada uno de los intervalos.
La marca de clase se calcula en cada intervalo sumando sus límites y
dividiendo entre 2:
límite inferior + límite superior
Mc = ---------------------------------------2
62
Estadística Descriptiva
CLASES
43- 47
48- 52
53- 57
58- 62
63- 67
68- 72
73- 77
TOTAL:
f
4
4
11
13
10
5
3
50
Mc
45
50
55
60
65
70
75
Esta es la tabla de distribución de frecuencia agrupada de
datos por intervalos.
Existen algunas consideraciones sobre la elaboración de una tabla de
este tipo:
1.- Se sugiere que la amplitud de los intervalos sea impar como en este
caso, ya que de esta forma, se asegura que el punto medio sea entero, en
caso contrario se tendrán decimales.
2.- No es necesario utilizar la Regla de Sturges para el cálculo de K, tú
puedes manejar el número de intervalos que consideres suficientes.
3.- La marca de clase o punto medio representan al número total de
datos que caen en cada intervalo.
A esta tabla se le pueden agregar más columnas como las siguientes:
CLASES
43- 47
48- 52
53- 57
58- 62
63- 67
68- 72
73- 77
TOTAL:
f
4
4
11
13
10
5
3
50
Mc
45
50
55
60
65
70
75
fa
fr
far
La columna de fa o frecuencias acumuladas tiene como primer dato el
que aparece en la columna f que es 4, se le suma la siguiente frecuencia
que también es 4 y se obtiene 8 que es el número que aparece en el
siguiente renglón y así hasta terminar con todas las frecuencias:
63
f
4
4
11
13
10
5
3
fa
4
8
19
32
42
47
50
La última frecuencia acumulada (fa) es el tamaño de la muestra.
La columna de frecuencia acumulada es sumamente importante, para
entenderla mejor regresemos a la lista ordenada de datos y coloquemos a
cada uno de ellos el número que le corresponde por su posición ordenada.
1.- 43
2.- 44
3.- 45
4.- 47
5.- 48
6.- 48
7.- 50
8.- 51
9.- 53
10.- 53
11.-54
12.- 54
13.-55
14.-56
15.-56
16.-56
17.-56
18.-57
19.-57
20.-58
21.- 58
22.-59
23.- 60
24.- 60
25.- 60
26.- 60
27.- 61
28.- 61
29.- 61
30.- 62
31.- 62
32.- 62
33.- 63
34.- 64
35.- 64
36.- 65
37.- 65
38.- 65
39.- 65
40.- 65
41.- 67
42.- 67
43.- 68
44.- 69
45.- 70
46.- 70
47.- 72
48.- 75
49.- 79
50.- 80
Con la información de la columna fa se puede ubicar en un intervalo
desde el primer número que cae hasta el último según su posición en la lista
ordenada en forma ascendente.
CLASES
43- 47
48- 52
53- 57
58- 62
63- 67
68- 72
73- 77
fa
4
8
19
32
42
47
50
La columna fa indica que los primeros 4 datos caen en este
intervalo
En esta clase caen desde el dato que ocupa el 5o. lugar hasta el
8vo.
Aquí caen los datos desde el lugar 9o. hasta el 19vo.
De esta forma la columna de frecuencias acumuladas nos proporciona
información sobre los datos que caen en determinado intervalo de clase, por
ejemplo para saber en qué intervalo cae el dato que ocupa el lugar 30, lo
buscamos en fa y aseguramos que cae en el intervalo 58-62 ya que éste
contiene a los datos que ocupan desde el lugar 20 hasta el lugar 32.
64
Estadística Descriptiva
La columna fr es la frecuencia relativa de cada intervalo, se calcula en
cada intervalo dividiendo su frecuencia entre el tamaño de la muestra,
obteniéndose una razón que se puede escribir de tres formas diferentes.
f
4
4
11
13
10
5
3
50
fr
(fracción)
4/50
4/50
11/50
13/50
10/50
5/50
3/50
50/50
fr
(decimal)
.08
.08
.22
.26
.20
.10
.06
1
fr %
(porcentaje)
8
8
22
26
20
10
6
100
En este último renglón se encuentra la suma de cada columna, es
preciso hacer hincapié en que los tres resultados de las columnas fr son los
mismos, esto significa entonces que fr se puede escribir de cualquiera de
las tres maneras sólo que la última que está en porcentaje es la que más
se utiliza para el tema de gráficas.
De manera similar que fr se calcula la columna de far (fra) o frecuencia
acumulada relativa en porcentaje, solamente que para ésta se toma como
referencia la columna de fa. Veamos, para calcular el primer valor de far se
efectúa la división de cada renglón de fa entre el tamaño de la muestra y el
resultado se multiplica por 100 para tenerlo en porcentaje.
fa
4
8
19
32
42
47
50
far %
8
16
38
64
84
94
100
No hay que perder de vista esta columna ya que es muy
importante
por 2 motivos:
1) Se utiliza para encontrar porcentajes
2) Sus valores se acumulan hasta completar el 100%
Con todo lo anterior se tiene la tabla de distribución de frecuencia
agrupada de datos por intervalos:
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS DE DATOS POR INTERVALOS
65
NÚMERO DE LIBROS O EXPEDIENTES PRESTADOS
DURANTE 50 DÍAS
PERÍODO ENERO-MARZO 1997
CLASES
f
Mc
fa
fr
far
43- 47
4
45
4
8
8
48- 52
4
50
8
8
16
53- 57
11
55
19
22
38
58- 62
13
60
32
26
64
63- 67
10
65
42
20
84
68- 72
5
70
47
10
94
73- 77
3
75
50
6
100
TOTAL:
50
100
Fuente: Información proporcionada por el Departamento de Control Escolar.
La presentación de una tabla de distribución de frecuencias para datos
agrupados como la anterior no es la única, en ocasiones, algunos autores
muestran sus tablas iniciando con la clase o intervalo mayor hasta llegar al
más pequeño, es obvio que las demás columnas también sufren esta
modificación, observemos:
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS DE DATOS POR INTERVALOS
NÚMERO DE LIBROS O EXPEDIENTES PRESTADOS
DURANTE 50 DÍAS
PERÍODO ENERO-MARZO 1997
CLASES
f
Mc
fa
fr
far
73-77
3
75
50
6
100
68-72
5
70
47
20
94
63-67
10
65
42
20
84
58-62
13
60
32
26
64
53-57
11
55
19
22
38
48-52
4
50
8
8
16
43-47
4
45
4
8
8
50
100
Fuente: Información proporcionada por el Departamento de Control Escolar.
En este caso la columna de frecuencia acumulada se inicia con el
tamaño de la muestra que es 50 y se le va restando la frecuencia hasta
obtener el valor de la primera:
f
3
5
10
13
11
4
4
50
fa
50
47
42
32
19
8
4
50 - 3
66
Estadística Descriptiva
¿QUÉ HE APRENDIDO?
Es muy importante que recuerdes la forma en que se construye una
tabla de distribución de frecuencias para datos por intervalos, también
llamada para datos agrupados, ya que en tu futuro como profesional de la
información es una herramienta que te será de gran utilidad.
1) Escribe claramente tus propias definiciones de Rango, Amplitud y
Número
de
intervalos.
________________________________________________________
____________________________________________________________
________
2) ¿Qué diferencias encuentras entre frecuencia absoluta (f) y
frecuencia
relativa
(fr)?
_________________________________________________________
____________________________________________________________
________
3) ¿Por qué es importante la columna de frecuencias acumuladas (fa)?
Explica
tu
respuesta.
_________________________________________________________
____________________________________________________________
________
67
Elabora el Resumen de la Unidad 2 completando el siguiente mapa
conceptual, al final de la guía lo encontrarás resuelto, de ser posible,
confronta tus respuestas y corrígelas en caso de ser erróneas:
TIPOS DE DATOS
CATEGÓRICOS
ORDENADOS POR RANGO
MÉTRICOS
DISTRIBUCIONES DE FRECUENCIA
POBLACIÓN O MUESTRA PEQUEÑA
SIMPLE CUYA ESTRUCTURA ES:
a)
b)
c)
d)
A
B
f
f
SUMA DE f
TO T A L
e)
f)
g)
donde:
a) Título que explique brevemente el
contenido de la tabla
b)
c)
d)
e)
f)
g)
POBLACIÓN O MUESTRA GRANDE
PARA DATOS AGRUPADOS CUYA
ESTRUCTURA ES:
a)
b)
c)
d)
e)
f)
donde:
a)Clases o intervalos formados por límite inferior
y límite superior
b)
c)
d)
e)
f)
TIPO DE VARIABLES QUE UTILIZAN
a) ORDINALES
b)
c)
d)
a)
b)
68
Estadística Descriptiva
EVALUACIÓN
1)Se atendieron en un mes a 40 investigadores en cierta área, si el
mes anterior se habían atendido 80 ¿cuál es el porcentaje de disminución?
____________________________________________________________
________
2) Un empleado atiende 200 personas durante una semana ¿cuántas
personas más deberá atender la próxima para obtener un incremento del
25%?
____________________________________________________________
________
3) Si en el área de Préstamo a domicilio existen 125 volúmenes y en el
área de consulta 375:
a)
¿Cuál
es
la
razón
entre
las
dos
áreas?
______________________________
b) ¿En qué porcentaje es mayor el volumen de consulta con respecto
al
préstamo
a
domicilio?__________________________________________________
4) Si en un Archivo se tienen 50 legajos sobre el Tratado de Libre
Comercio y sobre Posesión de la tierra 100 ¿cuál es la razón entre los
primeros
y
los
segundos?
____________________________________________________________
________
5) Con los datos proporcionados por el Departamento de Control
Escolar de una Universidad,
que representan las horas dedicadas
semanalmente al estudio fuera de clases por los estudiantes que asisten
regularmente, completa la tabla de distribución para datos agrupados,
anotando todo lo que se te solicita:
3
2
5
8
2
5
11
69
11
4
3
15
4
5
16
8
9
20
4
3
12
1
22
6
17
5
2
13
8
7
4
2
15
6
4
14
5
2
10
17
9
2
1
3
18
18
3
6
1
6
21
7
1
6
13
10
12
23
11
1
10
3
5
12
10
6
16
1
11
4
12
a) Escribe la variable de interés y el tipo al que pertenece:
________________________________________________________
______
b) ¿Cuál es la población del problema?
________________________________________________________
_______
c) Es población finita o infinita:
________________________________________________________
_______
d) La muestra está formada por ______________ elementos.
e) Ordena los datos en forma ascendente:
f) Calcula y escribe el valor de:
R= Rango =
K= Número de intervalos=
A= Amplitud=
g) Completa la tabla de distribución para datos agrupados indicando
claramente título y fuente según la información proporcionada:
CLASES
f
Mc
fr
fa
far
70
Estadística Descriptiva
6) En un Archivo diariamente se devuelven en promedio 520
expedientes que fueron solicitados para su consulta y se colocan en el lugar
que les corresponde. Para llevar un control adecuado, semanalmente se
hace una revisión a fin de que la suma de los entregados más los que están
en préstamo nos de el total de expedientes, por lo general de cada 13
expedientes uno se encuentra extraviado, ya sea porque está en préstamo
sin vale o porque está mal colocado, el porcentaje con que se presenta la
primera opción es del 65%. Con esta información realiza las operaciones
necesarias para contestar correctamente:
a) Considerando el promedio de expedientes que se devuelven,
aproximadamente ¿cuántos expedientes devuelven al Archivo durante los 5
días de la semana?
________________________________________________________
_______
b) ¿Aproximadamente cuántos expedientes se extravían a la semana?
________________________________________________________
_______
c) ¿Cuántos expedientes se extravían semanalmente por estar
prestados sin el vale respectivo?
________________________________________________________
_______
d) ¿Cuántos expedientes están extraviados semanalmente por estar
mal colocados?
________________________________________________________
_______
7) En una biblioteca semanalmente (lunes a sábado) se solicita en
préstamo a domicilio un promedio de 830 libros, si cada domingo se hace
una revisión para comprobar que el número de ejemplares prestados más
los que se tienen suman el total disponible para este servicio,
encontrándose que aproximadamente
de cada 20 libros 3 están
extraviados, efectúa las operaciones correspondientes y anota el resultado
en cada inciso:
a) ¿Cuántos libros en promedio se prestan diariamente (de lunes a
sábado)?
71
________________________________________________________
_______
b)¿Cuál es la cantidad de libros que se extravían diariamente?
________________________________________________________
_______
c)¿Qué porcentaje de libros se extravían semanalmente?
________________________________________________________
_______
ENVÍA A TU ASESOR
Si has llegado hasta aquí, te felicito, tu esfuerzo tendrá una
recompensa.
72
Estadística Descriptiva
1st Qtr
2nd Qtr
3rd Qtr
4th Qtr
UNIDAD 3
REPRESENTACIONES
GRÁFICAS
En esta unidad aprenderás a elaborar diferentes gráficas a partir de los
datos contenidos en tablas de distribución de frecuencias, por ello es
necesario que prepares papel milimétrico, compás, regla y transportador.
¿QUÉ VOY A APRENDER EN ESTA UNIDAD?
A trazar gráficas de barras horizontales o verticales y de sectores
cuando se trate de variables cualitativas, y si se tienen datos cuantitativos a
elaborar histogramas y polígonos de frecuencia, ya que al ser presentados
los datos en forma resumida podemos observar gráficamente sus
principales características.
73
DIAGNÓSTICO
1) Dibuja el Sistema de Coordenadas Rectangulares o plano
cartesiano indicando el nombre de los ejes, el origen, y los cuadrantes.
2) Para cada inciso traza un plano cartesiano y utilizando sólo el primer
cuadrante marca en ambos ejes las escalas que se te solicitan:
a) Ambos ejes a escala 1:1 hasta 10 (un centímetro equivale a la
unidad).
b)Ambos ejes a escala 1:2 hasta 20, esto es, iniciando en uno y de dos
en dos hasta 20. (un centímetro equivale a 2 unidades).
c) Ambos ejes a escala 1:5 iniciando en 1 y terminando en 50 (un
centímetro equivale a 5 unidades).
74
Estadística Descriptiva
d) El eje “X” de 1:2 hasta 20 y en el eje “Y” de 1:10 hasta 100.
3) Busca en el diccionario el significado de simetría y dibuja una figura
simétrica.
Si al realizar la actividad diagnóstica tuviste problemas para trazar el
Sistema de Coordenadas Rectangulares mejor conocido como el plano
cartesiano, recordemos que éste se encuentra formado por dos rectas
perpendiculares entre sí, las cuales
reciben el nombre de ejes
coordenados, siendo el horizontal el de las “X” o abscisas y el vertical el de
las “Y” o de las ordenadas, su punto de intersección es el origen.
Sistema de Coordenadas Rectangulares
II
I
eje Y
(o de las ordenadas)
III
origen
(punto 0)
eje X (o de las abscisas)
IV
Los números romanos nos indican los cuadrantes.
En cada uno de los incisos en donde se te solicitan escalas se requiere
trazar el plano cartesiano, los primeros 3 incisos son muy fáciles como lo
viste en Escalas de Medición, sólo veremos el inciso d) en donde se te pide
trazar en el eje “X” una escala de 1:2 hasta 20 y en el eje “Y” de 1: 10 hasta
100:
75
100
EJE Y
30
20
10
2
origen
4
6
8
10 12 14
16 18
20
EJE X
Para terminar con la reflexión de esta unidad, no debes olvidar que una
figura es simétrica cuando se divide en dos partes iguales de tal forma que
éstas coinciden al girar una de ellas 180 grados.
Bien, una vez que ya nos familiarizamos con el Sistema de
Coordenadas Rectangulares y recordado lo que significa que una figura sea
simétrica, continuemos con el tema de representaciones gráficas en donde
debes tener en cuenta las siguientes observaciones:
a) Todas las gráficas, menos la de sectores se trazan en el primer
cuadrante del Sistema de Coordenadas Rectangulares.
b) Es indispensable que en todas las gráficas aparezca en primer lugar
un título que describa brevemente la información que está siendo
representada y la fuente de información, ya que éstas deben ser
autoexplicativas, con excepción de la gráfica de sectores, todas deben
contener un título en cada uno de los ejes que indique el tipo de datos que
se están representando.
c) Las gráficas son necesarias y útiles para conocer el comportamiento
de los datos, es por ello que se recomienda tener cuidado tanto en su
elaboración como en su revisión, ya que de lo contrario se podría caer en
interpretaciones erróneas.
76
Estadística Descriptiva
3.1 GRÁFICA DE BARRAS
N
Ú
M
E
R
O
GRÁFICA DE BARRAS
(HORIZONTAL)
100
50
0
RUSO
ALEMAN
CHINO
ESPAÑOL
IDIOMAS
Conocida también como diagrama de barras, por estar formada por
barras que tienen el mismo ancho y están separadas por espacios en
blanco, los datos deben estar incluidos en unas cuantas categorías
(representadas por los rectángulos o barras), ya que esta gráfica no es
recomendable cuando se tiene una gran cantidad de información.
Consideremos la información de la tabla que aparece enseguida y que
contiene 2 categorías: Archivonomía y Biblioteconomía.
ALUMNOS DE LA ENBA
Semestre 97-I
CARRERA
NÚM.DE ALUMNOS
(X)
(f)
ARCHIVONOMÍA
270
BIBLIOTECONOMÍA
351
Total:
621
Primero trazamos el primer cuadrante del plano cartesiano, en el eje
horizontal se anotan las categorías, en el eje vertical se considera una
escala o división conveniente para marcar las frecuencias respectivas,
posteriormente se trazan barras del mismo ancho y con la misma
separación.
En la actualidad cuando se realizan este tipo de gráficas, sobre todo en
la computadora, se tiene la opción de escoger barras con o sin separación y
horizontales o verticales.
Al trazar las barras se debe tener en cuenta que la separación entre
ellas no debe ser menor que la mitad de su ancho ni mayor que el mismo y
la altura de cada una queda determinada por la frecuencia que le
corresponde, de esta forma cada categoría queda representada por una
columna.
77
GRÁFICA DE BARRAS VERTICALES
La información contenida en la tabla anterior de distribución simple
aparece gráficamente en el diagrama:
ALUMNOS INSCRITOS EN LA ENBA
SEMESTRE 97-I
N
Ú
M
E
R
O
D
E
A
L
U
M
N
O
S
400
350
300
250
200
Notemos que se destaca
inmediatamente la categoría de
mayor frecuencia, por lo que en
este caso es claro que la carrera de
Biblioteconomía tiene más alumnos
inscritos que la de Archivonomía.
150
El Autor Luis Magaña Cuéllar
en
su
libro
Estadística
y
0
probabilidad indica que en la
representación gráfica se debe
construir, cada vez que se pueda, el
eje vertical de tal modo que la altura del punto máximo (que representa el
dato asociado a la frecuencia más alta) sea aproximadamente igual a ¾ de
la longitud que media entre el origen y el último dato indicado en el eje
horizontal.
100
50
ARCHIVONOMÍA
BIBLIOTECONOMÍA
CARRERAS
¿Por qué crees que se deba seguir esta regla en la elaboración de
una gráfica?
GRÁFICA DE BARRAS HORIZONTALES
ALUMNOS INSCRITOS EN LA ENBA
SEMESTRE 97-I
BIBLIOTECONOMÍA
CARRERAS
A continuación se muestra la
misma
información
en
un
diagrama de barras horizontales,
en donde se ha cambiado el
papel de los ejes, anotando los
nombres de las categorías en el
eje vertical y las frecuencias en el
eje horizontal:
ARCHIVONOMÍA
0
50
100 150 200 250 300 350 400
NÚMERO DE ALUMNOS
Como
ya
hemos
mencionado las categorías al ser
representadas en una gráfica o diagrama de barras permiten visualizar
fácilmente el comportamiento de los datos.
78
Estadística Descriptiva
¿QUÉ HE APRENDIDO?
1) Con los datos de la siguiente tabla elabora una gráfica de barras.
OCUPACIÓN DE LAS PERSONAS USUARIAS DE UN ARCHIVO
JUNIO 1997
OCUPACIÓN
NÚM.DE PERSONAS
(X)
(f)
INVESTIGADORES
150
DOCENTES
120
ESTUDIANTES
230
Total:
500
Con la información que aparece en la gráfica calcula:
2) La proporción entre docentes y estudiantes.
________________________________________________________
____________________________________________________________
____________________________________________________________
_______________________
3) El porcentaje de investigadores con respecto a la población.
________________________________________________________
____________________________________________________________
79
____________________________________________________________
_______________________
80
Estadística Descriptiva
3.2 GRÁFICA DE SECTORES
Como primer punto recordemos dos definiciones que son importantes
para comprender mejor la forma en que se elabora una gráfica de este tipo:
Circunferencia: curva plana y cerrada, todos los puntos que la forman
están a la misma distancia del centro.
Círculo: superficie plana limitada por la circunferencia.
En seguida, veamos un ejemplo en donde es claro observar que a
cada categoría se le asocia un sector o “gajo” proporcional de la
circunferencia, el cual depende de su frecuencia.
GRÁFICA DE SECTORES
ALEMÁN
13%
RUSO
18%
ESPAÑOL
45%
CHINO
24%
Para la construcción de esta gráfica no se requiere el trazo del plano
cartesiano, en su lugar, se dibuja una circunferencia donde, como ya dijimos
anteriormente, a cada categoría le va a corresponder un sector del círculo.
A fin de contar con toda la información necesaria para trazar esta
gráfica, se recomienda elaborar una tabla auxiliar que contenga todos los
datos que se requieren.
Consideremos nuevamente la tabla de distribución de frecuencias
simple:
ALUMNOS DE LA ENBA
SEMESTRE 97-I
X
f
%
ARCHIVONOMÍA
270
BIBLIOTECONOMÍA
351
621
GRADOS
81
Aparecen dos columnas adicionales: En una de ellas se anota el
porcentaje que le corresponde a cada categoría con respecto a la población
(o muestra), y en la otra se anotan los grados que servirán para la medición
del ángulo de cada sector, sin olvidar que todas las circunferencias abarcan
un ángulo de 360 grados.
Para el cálculo del porcentaje se realiza el siguiente procedimiento en
cada categoría:
Al total se le considera el 100%, en este caso como N=621
621
100%
Estas dos cantidades permanecen constantes al efectuar el cálculo en
todas las categorías.
La primera categoría tiene una frecuencia de 270 y desconocemos el
porcentaje que le corresponde con respecto al total, si asignamos con una
letra “a” el valor desconocido y escribimos:
621
270
100%
a
Este planteamiento corresponde a una regla de tres simple, ya que
consta de 4 términos donde 3 son conocidos y uno desconocido. Esta se
resuelve en cruz de la siguiente manera:
621
270
100%
a
El término desconocido “a” es igual al producto de 270 por 100 entre
621.
a= (270x100)/621=43.4 entonces el porcentaje que le corresponde a
270 es 43.4%.
Cuando se tienen números decimales como en este caso, es
conveniente redondear hasta el entero o decimal más próximo tomando en
consideración los siguientes criterios:
a) Aproximación a un entero
9.2 = 9
9.8 = 10
4.5 = 5
Si el último dígito de un número es menor que 5, se redondea al entero
inmediato inferior como en el primer ejemplo que se muestra, en caso de
82
Estadística Descriptiva
que el dígito de que se trata sea mayor o igual a 5 se considera el entero
inmediato superior.
b) Aproximación a la décima
3.17 =3.2
5.11 =5.1
0.09 =0.1
c) Aproximación a la centésima 6.177=6.18
0.674=0.67
2.098=1.10
En estos dos incisos se observa que si el último dígito es menor que 5,
no se toma en cuenta y si el último dígito es mayor que 5, el anterior se
aumenta en una unidad. Cuando la parte decimal de un número termina en
5 es necesario considerar el dígito anterior:
d) Si es impar, se incrementa en una unidad
7.875 =7.88
18.755 =18.76
e) Si es par se redondea conservando el penúltimo dígito
2.25 = 2.2
8.05 = 8.0
Ahora calculemos el porcentaje de la siguiente categoría
621
351
a=(351x100)/621=56.5,
corresponde el 57%
redondeando
100%
a
se
tiene
que
a
351
le
Los valores obtenidos se anotan en la columna de porcentaje (%)
X
ARCHIVONOMÍA
BIBLIOTECONOMÍA
f
270
351
621
%
43
57
GRADOS
En la última columna se anotan los grados calculados con la regla de
tres simple para cada categoría:
83
Cabe hacernos en este momento una pregunta ¿Si a N=625 le
corresponden
360 grados, cuántos le corresponden a 270? Para
responder, planteamos una regla de 3 simple y la resolvemos:
621----- 360 grados
270 ------ a
a = (270(360))/621= 156.52, la fracción .52 se transforma a minutos, es
decir, se multiplica .52 por 60.
.52(60) = 31.2
Redondeando el valor obtenido se tienen 31 minutos, esto indica que a
la primera categoría le corresponden 156 grados con 31 minutos.
Efectuemos la misma operación para el cálculo de los grados de la
siguiente categoría que tiene una frecuencia de 351:
621 ----- 360 grados
351 ------ a
a = (351(360))/621 = 203.47, realizando la misma transformación de la
parte decimal:
.47(60) = 28.2
Al redondear se obtienen 28 minutos, por lo que a la segunda
categoría le corresponden 203 grados con 28 minutos.
Ya estamos en condiciones de completar la tabla:
X
ARCHIVONOMÍA
BIBLIOTECONOMÍA
f
%
270
351
621
43
57
100
GRADO
S
156°31′
203°28′
359°59′
Es recomendable obtener el total de las columnas de porcentaje y de
grados para verificar que los cálculos están correctos, en algunos casos
debido al redondeo no se llega al 100% ni a 360 grados, sin embargo, no te
preocupes si obtienes como mínimo 99% ó 359 grados los resultados están
correctos y son aceptables.
Con los datos obtenidos se realiza el trazo de la gráfica circular o de
sectores en la forma que se indica:
84
Estadística Descriptiva
1) Se dibuja una circunferencia y el radio vertical principal y a partir de
éste, en el sentido de las manecillas del reloj se miden con un transportador
los grados que le corresponden a cada categoría:
À
2) Como indica la flecha se miden los grados que se calcularon,
iniciando con el valor más grande hasta llegar al más pequeño. Conforme
se marcan los grados en la circunferencia, se van trazando los radios que
formarán los sectores de la gráfica.
3) Los grados no aparecen en la gráfica, ya que sólo se utilizan para
marcar el sector que le corresponde a cada categoría.
ALUMNOS DE LA ENBA
SEMESTRE 97-I
ARCHIVONOMÍA
43%
BIBLIOTECONOMÍA
57%
Aquí aparecen todas las categorías con su porcentaje respectivo, el
cual ha sido calculado tomando en cuenta el tamaño de la muestra (o
población).
Se observa que la Carrera de Biblioteconomía presenta un porcentaje
mayor de alumnos inscritos.
85
¿QUÉ HE APRENDIDO?
1) Completa la tabla siguiente y elabora la gráfica de sectores
correspondiente:
OCUPACIÓN DE LOS USUARIOS DE UN ARCHIVO
JUNIO 1997
OCUPACIÓN
NÚM.DE
%
(X)
PERSONAS
GRADO
(f)
S
INVESTIGADORES
150
DOCENTES
120
ESTUDIANTES
230
Total:
500
Con la información de la gráfica que acabas de elaborar contesta:
2) La categoría que tiene mayor porcentaje es :
________________________________________________________
____________________________________________________________
_______________
3) El porcentaje de la categoría que tiene menor frecuencia es:
________________________________________________________
____________________________________________________________
_______________
86
Estadística Descriptiva
Nota: No olvides que el total de la columna del porcentaje debe estar entre 99 y 101% y la
que corresponde a los grados entre 359 y 361 grados.
87
3.3 HISTOGRAMA DE FRECUENCIAS ABSOLUTAS
Es la representación gráfica de una tabla de frecuencias para datos
cuantitativos agrupados y se construye trazando en el primer cuadrante del
plano cartesiano rectángulos unidos, donde los intervalos de clase
determinan el ancho de cada uno de los rectángulos y las frecuencias
sus alturas correspondientes.
Si se consideran las frecuencias absolutas el gráfico recibe el nombre
de Histograma de frecuencias absolutas o simplemente de frecuencias, si
se consideran las frecuencias relativas se trata de un Histograma de
frecuencias relativas.
FRECUENCIAS
ABSOLUTAS
HISTOGRAMA DE FRECUENCIAS
ABSOLUTAS
14
12
10
8
6
4
2
0
3
4
7
10
13 16 19 22 25
MARCAS DE CLASE
Para construir un histograma como el anterior utilizaremos la
distribución de frecuencias para datos agrupados de la Unidad 2:
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS DE DATOS POR INTERVALOS
NÚMERO DE LIBROS O EXPEDIENTES PRESTADOS
DURANTE 50 DÍAS
PERÍODO ENERO-MARZO 1997
CLASES
43- 47
48- 52
53- 57
58- 62
63- 67
68- 72
73- 77
88
f
4
4
11
13
10
5
3
50
Mc
45
50
55
60
65
70
75
fa
4
8
19
32
42
47
50
fr
8
8
22
26
20
10
6
100
far
8
16
38
64
84
94
100
Estadística Descriptiva
Los datos que se toman en cuenta para trazar el histograma son las
marcas de clase de cada intervalo y sus frecuencias absolutas (f):
Mc
45
50
55
60
65
70
75
f
4
4
11
13
10
5
3
50
Ya estamos listos para efectuar el trazo del histograma de frecuencias
absolutas:
1) Se dibuja el primer cuadrante del plano cartesiano.
2) A fin de mostrar que se ha considerado el origen se inserta una
marca de rompimiento:
eje Y
marca de rompimiento
origen
eje X
La marca de rompimiento evita que tengamos que marcar en el eje
horizontal desde el “cero” que es el origen hasta la primera marca de clase
que es 45.
3) A lo largo del eje horizontal o de las “X” se trazan las marcas de
clase, tomando en cuenta que la gráfica debe quedar equilibrada (o
centrada), por lo que es necesario dejar el mismo espacio antes de la
primera marca de clase y después de marcar la última (es opcional).
45
50
55
60
65
70
75
Estas dos distancias deben ser iguales y mayores que la longitud que
separa una marca de clase con otra.
89
4) Sobre el eje vertical trazar una escala adecuada que permita ubicar
las frecuencias de cada intervalo, en este caso si el valor más pequeño es 3
y el mayor 13, se puede considerar una escala de 2 en 2:
.
.
.
6
4
2
0
45
50
55 60 ...
Es conveniente que la escala se tome de acuerdo a los valores
extremos, ya que si se presenta un caso en que el valor mínimo es 20 y el
máximo 100, se tiene la opción de escoger una escala de 5 en 5 o de 10 en
10 o cualquier otra que no tenga valores tan pequeños como la anterior.
5) Es importante anotar títulos, uno principal que especifique en forma
clara y breve la información que contiene el histograma y en cada uno de
los ejes para indicar lo que se está graficando. También es necesario anotar
la fuente de la información.
EXPEDIENTES PRESTADOS
PERÍODO ENERO-MARZO 1997
14
12
10
DÍAS 8
6
4
2
0
40
45
50
55
60
65
70
75
80
NÚMERO DE EXPEDIENTES
Fuente: Información proporcionada por el Departamento de Control Escolar.
Información que muestra el histograma:
1)La barra más alta tiene una altura de 13 y corresponde a la marca de
clase 60, esto significa que durante 13 días se prestaron en promedio 60
expedientes.
90
Estadística Descriptiva
2) Durante 4 días se prestaron en término medio 45 expedientes y en
el mismo número de días se prestaron 50 expedientes.
3) El máximo número de expedientes que son 75 se prestaron durante
3 días.
4) El área de cada rectángulo, en relación con los restantes, muestra la
proporción del número total de observaciones que ocurren en cada clase.
5) Al estar los datos agrupados se pierde la información individual de
cada uno, pero se tiene una visión general de la distribución de los mismos.
6) Al intervalo que le corresponde la barra con mayor número de datos
o más alta, se le llama clase modal, en este caso es 58-62.
LECTURA 2
Con el propósito de que conozcas un poco más sobre los diferentes
tipos de gráficas, es necesario que leas del
Capítulo 3 del libro
Fundamentos de Estadística en la Investigación Social de Jack Levin
incluido al final de esta guía y elabores un breve resumen para reafirmar tu
aprendizaje.
Después de la lectura continúa con más ímpetu el desarrollo de esta
unidad.
Las formas de los histogramas
continuación:
más comunes se muestran a
91
HISTOGRAMA SIMÉTRICO
Presentan a la clase de mayor
12
10
8
6
4
HISTOGRAMA ASIMÉTRICO
A LA DERECHA
2
0
25
35
45
55
65
12
10
8
6
4
2
0
frecuencia o clase modal a la mitad
del histograma.
Se observan dos colas, la más
25
35
45
55
65
pequeña a la izquierda y la mayor
hacia la derecha del intervalo de
mayor frecuencia. Si con esta misma información se considera el polígono
de frecuencias absolutas tendremos una distribución con sesgo hacia la
derecha (se considera positivo).
La cola más larga se extiende hacia la izquierda de la clase mayor, de
igual manera si consideramos su
polígono de frecuencia respectivo, se
tiene una distribución sesgada hacia la
HISTOGRAMA ASIMÉTRICO
izquierda.
A LA IZQUIERDA
12
10
8
6
4
2
HISTOGRAMA
RECTANGULAR
0
25
35
45
55
65
12
10
8
6
4
2
0
25
92
35
45
55
65
Estadística Descriptiva
Todas las categorías tienen la misma frecuencia.
No se observa ninguna cola
en el lado donde se encuentra la
categoría con mayor frecuencia.
HISTOGRAMA EN FORMA DE
"J"
12
NOTA: Estas gráficas se elaboraron
en computadora y no aparecen espacios en
blanco, antes y después del primer y último
rectángulo.
10
8
6
4
2
0
25
35
45
55
65
¿QUÉ HE APRENDIDO?
1) Completa la siguiente tabla que contiene los retardos en minutos
que 50 personas tuvieron en un mes.
CLASES
5- 9
10-14
15-19
20-24
25-29
f
10
8
15
5
12
50
Mc
2) Anota el intervalo que tiene mayor frecuencia, el cual por esta razón
recibe
el
nombre
de
clase
modal:______________________________________________
3) Con la información de la tabla elabora el histograma de frecuencias
absolutas correspondiente y destaca la barra más alta o de mayor
frecuencia.
93
4) Compara la forma que presenta el histograma con las que se
mostraron
anteriormente
y
escribe
a
qué
categoría
corresponde:________________________
____________________________________________________________
________
94
Estadística Descriptiva
3.4 POLÍGONO DE FRECUENCIAS ABSOLUTAS
Es una gráfica lineal que muestra los datos que contiene una
distribución de frecuencia para datos agrupados, en el eje X se colocan las
marcas de clase y en el eje “Y” las frecuencias. Se unen los puntos medios
de cada clase a la altura de su frecuencia correspondiente.
POLÍGONO DE FRECUENCIAS
ABSOLUTAS
FRECUENCIAS
ABSOLUTAS
12
10
8
6
4
2
0
1
4
7
10
13
16
19
22
25
MARCAS DE CLASE
Recordemos que un polígono es una figura plana limitada por rectas
que forman una línea quebrada cerrada, por ello, es necesario agregar una
marca de clase al principio y otra al final, ambas con frecuencia cero “0” a
fin de cerrar la poligonal.
Veamos nuevamente las columnas que se usaron para la elaboración
del Histograma de frecuencias absolutas:
Mc
40
45
50
55
60
65
70
75
80
f
0
4
4
11
13
10
5
3
0
50
Estas dos marcas de clase con frecuencia “0”
se agregaron para cerrar la curva.
Parte más alta o “pico”
95
EXPEDIENTES PRESTADOS
PERÍODO ENERO-MARZO 1997
14
12
10
DÍAS
8
6
4
2
0
35 40 45 50 55 60 65 70 75 80 85
NÚMERO DE EXPEDIENTES
Es importante observar que la curva comienza en el punto medio de la
clase anterior a 45 y termina en el punto medio de la clase posterior a la
última, de no ser así, sólo se tendría una poligonal.
Información que muestra el polígono:
1) El área total bajo la curva es igual al área total bajo el histograma
correspondiente.
2) Muestra un esquema más claro del comportamiento de los datos,
como por ejemplo, su parte más alta corresponde a la mayor frecuencia.
3) Si sólo presenta un “pico”, como en este ejemplo, significa que su
categoría correspondiente contiene el dato que se repite más veces.
4) En caso de que se observe más de un “pico” se tienen varios datos
con frecuencia mayor (o muy parecida).
NOTA: También se puede utilizar la columna de frecuencias relativas (fr) en lugar de la de
frecuencias absolutas y graficarse para obtener un polígono de frecuencias relativas.
96
Estadística Descriptiva
¿QUÉ HE APRENDIDO?
1) A continuación se muestran las edades de 55 trabajadores de cierta
empresa, completa la tabla:
CLASES
20-29
30-39
40-49
50-59
2)
Escribe
la
clase
________________________
modal
f
25
10
15
5
55
Mc
o
de
mayor
frecuencia
3) ¿En qué intervalo se encuentran agrupados los empleados más
jóvenes?
____________________________________________________________
________
4) Traza el polígono de frecuencias respectivo.
97
3.5 POLÍGONO DE FRECUENCIAS RELATIVAS ACUMULADAS
U OJIVA PORCENTUAL
También conocido como Polígono de frecuencias acumuladas
relativas, es una curva que representa el área proporcional relativa
acumulada en cada clase y permite calcular de manera visual las
proporciones de sus valores que se acumulan al final de cada clase, en
otras palabras muestra gráficamente cuántas observaciones se encuentran
por arriba o debajo de ciertos valores, en lugar de limitarnos a conocer el
número de elementos que caen dentro de cada uno de los intervalos.
Algunos autores como Agustín Montaño en su libro Estadística I,
utilizan en el eje de las “X” las marcas de clase y otros como Jack Levin en
su libro Fundamentos de Estadística en la Investigación Social usan en el
mismo eje los límites reales superiores de cada intervalo.
No hay por qué preocuparse, ambas formas tienen el mismo propósito
y no hay mayor problema en considerar marcas de clase o límites reales
superiores.
Utilizando la misma información se ha trazado una gráfica con cada
uno de ellos:
OJIVA PORCENTUAL CON MARCAS DE CLASE EN EL EJE DE LAS
“X”:
FRECUENCIAS
RELATIVAS
ACUMULADAS (%)
POLÍGONO DE FRECUENCIAS RELATIVAS
ACUMULADAS U OJIVA PORCENTUAL
100
80
60
40
20
0
10
15
20
25
30
MARCAS DE CLASE
98
35
40
Estadística Descriptiva
OJIVA PORCENTUAL CON LÍMITES REALES SUPERIORES EN EL
EJE DE LAS “X”
FRECUENCIAS
RELATIVAS
ACUMULADAS (%)
POLÍGONO DE FRECUENCIAS RELATIVAS
ACUMULADAS U OJIVA PORCENTAL
100
80
60
40
20
0
12.5 17.5 22.5 27.5 32.5 37.5 42.5
LÍMITES REALES SUPERIORES
A simple vista se observa que la forma de las dos ojivas es la misma,
veamos que sucede cuando consideramos un problema y obtenemos su
polígono de frecuencias acumuladas en las dos formas descritas
anteriormente.
Durante un mes se tomaron las temperaturas en una bóveda donde se
guardan expedientes, obteniéndose las siguientes lecturas: 3, 12, 21, 30,
15, 24, 6, 15, 21, 3, 15, 21, 3, 18, 24, 12, 27, 6, 9, 6, 27, 18, 18, 9, 27, 6, 30,
18, 24 y 9 grados respectivamente.
Primero se ordenan los datos:
3
3
3
6
6
6
6
9
9
9
12
12
15
15
15
18
18
18
18
21
21
21
24
24
24
27
27
27
30
30
R=30-3 = 27
K= 1 + 3.322(log 30) = 1 + 3.322(1.47) = 5.9 redondeando K=6
A= 27/6 = 4.5 al redondear A=5
CLASES
3-7
8-12
13-17
18-22
23-27
28-32
f
7
4
3
7
7
2
30
Mc
5
10
15
20
25
30
fa
7
11
14
21
28
30
far
23
37
47
70
93
100
99
OJIVA PORCENTUAL CON MARCAS DE CLASE EN EL EJE DE LAS
“X”
Para
estimar
el
porcentaje
de
temperaturas menores de
20 grados, localizamos la
frecuencia
acumulada
relativa que se intersecta
con este dato.
TEMPERATURAS LEÍDAS DURANTE UN MES EN UN
ARCHIVO
FRECUENCIA ACUMULADA
RELATIVA (%)
100
90
80
70
60
50
40
30
20
10
0
5
10
15
20
TEMPERATURAS
25
30
Así encontramos que
aproximadamente el 70%
del total de datos es
menor que 20, para
verificarlo
veamos
cuántos números son
menor de 20:
3,3,3,6,6,6,6,9,12,12,15,15,15, 18, 18, 18, 18 (un total de 17 datos que
representan un 56.6%)
Al calcular el 70% del total de 30 datos, obtenemos 21 datos, cantidad
que es ligeramente mayor que el número de datos listados anteriormente.
De igual manera si deseamos saber cuántas temperaturas del mes
considerado fueron mayores de 25 grados, veremos que las menores
fueron aproximadamente el 92%, por lo tanto, las mayores tienen un
porcentaje del 8% es decir, que aproximadamente de 2 a 3 lecturas son
mayores de 25 grados.
Nuevamente, de la lista de datos ordenada tenemos que los grados
mayores a 25 son: 27, 27, 27, 30, 30, estos 5 datos representan el 16.6%
de todas las temperaturas.
En ambas estimaciones existe diferencia entre los porcentajes
obtenidos a través de la gráfica y los calculados con los datos
proporcionados inicialmente.
100
Estadística Descriptiva
OJIVA PORCENTUAL CON LÍMITES REALES SUPERIORES EN EL
EJE DE LAS “X”
Realicemos la misma estimación de porcentajes que en la anterior
gráfica:
FRECUENCIAS
ACUMULADAS RELATIVAS
(%)
TEMPERATURAS LEÍDAS DURANTE UN MES EN UN
ARCHIVO
100
90
80
70
60
50
40
30
20
10
0
7.5
12.5
17.5
22.5
27.5
32.5
TEMPERATURAS
Primero observemos que 20 grados se localiza a la mitad de 17.5 y
22.5, para estimar el porcentaje de temperaturas mayores de esta cantidad
vemos que en el eje de las “Y”, la frecuencia acumulada relativa que le
corresponde es 60%, lo cual implica que 18 datos (el 60% de 30) son
mayores de 20, este valor es más cercano que el que se obtuvo en la
anterior ojiva.
Ahora para conocer el número de datos mayores de 25 grados,
localiza esta temperatura en el eje de las “X”, el cual se encuentra a la mitad
de 22.5 y 27.5 y le corresponde un porcentaje del 80%, entonces podemos
decir que la estimación de valores mayores de 25 es 20%, esto es, 6 datos.
101
FRECUENCIAS
ACUMULADAS RELATIVAS
(%)
TEMPERATURAS LEÍDAS DURANTE UN MES EN UN
ARCHIVO
100
90
80
70
60
50
40
30
20
10
0
7.5
12.5
17.5
22.5
27.5
32.5
TEMPERATURAS
Comparemos los porcentajes y valores obtenidos en las dos ojivas:
ESTIMACIÓN
% de datos
menores de 20
grados
valores menores de
20 grados
% de datos mayores
de 25 grados
valores mayores de
25 grados
OJIVA CON
MARCAS DE CLASE
70%
OJIVA CON LÍMITES
REALES SUP.
60%
PORCENTAJE
REAL
56.6%
21
18
17
8%
20%
16.6%
2.4
6
5
En esta tabla se nota claramente que las estimaciones con la ojiva que
utiliza límites reales superiores en el eje de las “X” se acerca más a la realidad
que la ojiva con marcas de clase, esta es la razón de que a partir de este
momento, cuando se trate de trazar una ojiva porcentual se considerará en el
eje de las “X” a los límites reales superiores y en el eje de las “Y” las frecuencias
relativas acumuladas o frecuencias acumuladas relativas.
En la ojiva porcentual con límites reales superiores, también se puede
estimar el porcentaje de datos que caen entre dos valores dados, por ejemplo
entre 10 y 25:
102
Estadística Descriptiva
FRECUENCIAS
ACUMULADAS RELATIVAS
(%)
TEMPERATURAS LEÍDAS DURANTE UN MES EN UN
ARCHIVO
100
90
80
70
60
50
40
30
20
10
0
7.5
12.5
17.5
22.5
27.5
32.5
TEMPERATURAS
El porcentaje de datos que se desea estimar caen entre estos dos
valores, de tal forma que a 10 le corresponde el 30% y a 25 el 80%, por lo
que una aproximación estará dada por 80%-30%=50%, lo cual nos dice que
15 datos caen en este rango, para verificar si esto es verdadero contemos
los datos utilizando la lista ordenada: 12, 12, 15, 15, 15, 18, 18, 18, 18, 21,
21, 21, 24, 24, 24 que son exactamente 15 temperaturas.
Además de las estimaciones anteriores, existen otros términos que se
usan para localizar puntos específicos en una distribución, tal es el caso de los
CUARTILES.
Los cuartiles son tres valores representados por Q1, Q2 y Q3 que dividen
a la población en cuatro partes iguales, cada uno de ellos contiene el 25% del
total de los datos considerados, denominándose respectivamente primer cuartil
=Q1, segundo cuartil =Q2 y tercer cuartil=Q3.
Si se considera una lista ordenada de todas las observaciones, es fácil
observar los puntos que representarían gráficamente a los cuartiles.
25%
—
primer dato
25%
—
Q1
25%
25%
—
Q2
50%
25%
—
Q3
75%
—
último dato
Ubiquemos en la ojiva porcentual el valor que le corresponde a cada uno
de los cuartiles:
103
FRECUENCIAS ACUMULADAS RELATIVAS (%)
TEMPERATURAS LEÍDAS DURANTE UN MES EN UN ARCHIVO
100
95
90
85
80
75
70
65
60
55
50
45
40
35
30
25
20
15
10
5
0
7.5
12.5
17.5
22.5
27.5
32.5
TEMPERATURAS
aproximadamente
Q1=8.5
Q2=18.5
Q3=23.5
El segundo cuartil Q2 divide al total de las observaciones en dos partes
iguales de tal manera que a su izquierda se encuentra el 50% y a su
derecha el otro 50%.
En la siguiente unidad se te mostrará el procedimiento a seguir
para calcular los cuartiles en una distribución.
¿QUÉ HE APRENDIDO?
Antes de elaborar una gráfica es indispensable reflexionar sobre el tipo
de variable de que se trata a fin de que su representación sea lo más
ilustrativa posible del comportamiento de los datos considerados, por esta
razón te pido que en cada inciso indiques el tipo de variable (cualitativa o
cuantitativa) y la gráfica que utilizarías:
1) El número de libros por asignatura que tienes en tu biblioteca
personal.
104
Estadística Descriptiva
variable__________________________________________________
_______
gráfica___________________________________________________
_______
2) El número de libros por asignatura que existen en la biblioteca más
importante de tu comunidad.
variable__________________________________________________
_______
gráfica___________________________________________________
_______
3) El número de nacimientos de tu localidad considerando intervalos de
5 años durante el período 1970-1995.
variable__________________________________________________
_______
gráfica___________________________________________________
_______
105
Elabora el Resumen de la Unidad 3 ANOTANDO en cada descripción
la gráfica de que se trata y completando las características que encuentres
en blanco, al final de la guía lo encontrarás resuelto, de ser posible,
confronta tus respuestas y corrígelas en caso de ser erróneas.
TIPOS DE GRÁFICAS
_______________________________________
Características:
a)Es una circunferencia en el primer cuadrante del plano
cartesiano donde a la frecuencia de cada categoría le
corresponde un __________
b) Representación gráfica de ____________________
____________________________________________
c) El número de categorías a considerar debe ser menor
que en el de barras
________________________________________
Características:
a) Son barras unidas que se trazan en el primer cuadrante
del plano cartesiano
b) Representación gráfica de____________________
____________________________________________
c) En el eje de las “X” se marcan los puntos medios de
cada intervalo
d) En el eje de las “Y” se consideran las ___________
____________________________________________
________________________________________
Características:
a) Gráfica lineal trazada en el primer cuadrante del plano
cartesiano que tiene forma de “S”
b) Representación gráfica de ____________________
____________________________________________
c) En el eje de las “X” se marcan los ______________
____________________________________________
d) En el eje de las “Y” se marcan las frecuencias
acumuladas correspondientes a cada intervalo
e) Permite hacer estimaciones del comportamiento de los
datos considerando uno en particular
________________________________________
Características:
a) Son barras del mismo ancho trazadas en el primer
cuadrante del plano cartesiano
b) Las barras deben estar separadas _______________
____________________________________________
c) Representación gráfica de _____________________
____________________________________________
d) Considera pocas categorías
Continúa Resumen de la Unidad 3:
106
VARIABLES
CONSIDERADAS
a) Nominal
b) Ordinal
VARIABLES
CONSIDERADAS
a) Continuas
b) Discretas
VARIABLES
CONSIDERADAS
a) Continuas
b) Discretas
VARIABLES
CONSIDERADAS
a) Nominal
b) Ordinal
Estadística Descriptiva
TIPOS DE GRÁFICAS
______________________________________
Características:
a) Gráfica lineal trazada en el primer cuadrante del plano
cartesiano que une los puntos medios de cada clase a la
altura de su frecuencia correspondiente
b) Representación gráfica de _________________
________________________________________
c) En el eje de las “X” se marcan los puntos medios de
cada intervalo, agregándose uno al inicio y otro al final de
los que se están considerando
d) En el eje de las “Y” las frecuencias correspondientes a
cada intervalo, agregándose _____________________
____________________________________________
____________________________________________
VARIABLES
CONSIDERADAS
a) Continuas
b) Discretas
NOTA: Es recomendable que todas las gráficas tengan un título que describa brevemente la
información que está siendo representada, así como la fuente de información, ya que éstas deben
ser autoexplicativas; con excepción de la gráfica de sectores, todas deben contener un título en
cada uno de los ejes que indique el tipo de datos que se están representando.
107
EVALUACIÓN
1) Con los datos de la tabla de distribución para datos agrupados que
se elaboró en la Unidad 2 en el tema Distribución de Frecuencias
Agrupadas, realiza lo que se te pide en cada inciso:
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS DE DATOS POR INTERVALOS
NÚMERO DE LIBROS O EXPEDIENTES PRESTADOS
DURANTE 50 DÍAS
PERÍODO ENERO-MARZO 1997
CLASES
f
Mc
fa
fr
far
43- 47
4
45
4
8
8
48- 52
4
50
8
8
16
53- 57
11
55
19
22
38
58- 62
13
60
32
26
64
63- 67
10
65
42
20
84
68- 72
5
70
47
10
94
73- 77
3
75
50
6
100
TOTAL:
50
100
Fuente: Información proporcionada por el Departamento de Control Escolar.
a) Elabora histograma, polígono de frecuencias y ojiva porcentual en
papel milimétrico (una hoja por cada gráfica).
b)
La
forma
del
_______________________________________
c)
El
polígono
de
_________________________
frecuencias
histograma
presenta
un
es
sesgo
De acuerdo a la información contenida en la ojiva porcentual estimar:
d) El porcentaje de días en que se prestaron menos de 50 libros o
expedientes
________________________________________________________
_______
e)El porcentaje de días en que se prestaron más de 70 libros
________________________________________________________
_______
108
Estadística Descriptiva
f) A los 25 días del período considerado se prestaron de ______ a
______ expedientes.
g) El porcentaje de días en que se prestaron de 63 a 68 expedientes.
________________________________________________________
_______
Verifica tus respuestas con la lista ordenada del número de libros o
expedientes prestados durante 50 días.
2) El Jefe de un Archivo (o Biblioteca que sólo atiende de lunes a
viernes), quiere conocer cómo se comporta la entrada de usuarios durante
el turno matutino, a fin de realizar una mejor distribución de tareas entre su
personal, para ello elige a una persona a quien le solicita obtenga la
información correspondiente.
El encargado de realizar la investigación recopila los datos
considerando una muestra de dos meses elegidos arbitrariamente y le
presenta a su jefe el siguiente gráfico:
% DE DÍAS CONSIDERADOS
AFLUENCIA DE USUARIOS DURANTE 61
DÍAS
100
90
80
70
60
50
40
30
20
10
0
19.5
25.5
31.5
37.5
43.5
49.5
55.5
61.5
NÚMERO DE USUARIOS
Ayuda al Jefe de Archivo (o Biblioteca) a contestar las siguientes
preguntas:
a) Si la persona que atiende al público en la mañana se queja de que
sólo puede atender satisfactoriamente un máximo de 52 usuarios y quiere
que se asigne otra persona que la auxilie en su labor ¿qué porcentaje de
días
se
atiende
a
un
número
mayor
de
personas?___________________________________________________
109
b) Lo anterior indica entonces que ________ días atiende a menos de
52 usuarios.
c) La solución al problema de atención al público que tu darías es:
________________________________________________________
____________________________________________________________
______________
d) Obtener gráficamente Q2 que tiene un valor de
________________________, significa que la mitad de los 61 días (30
aproximadamente) se atienden entre ________ y __________ usuarios.
INSTRUCCIÓN GENERAL
De los siguientes ejercicios, resuelve el que corresponda a tu área, en
caso de que así lo desees, puedes resolver ambos.
3) Acude a una Biblioteca de tu localidad y durante 3 horas observa la
afluencia de usuarios a la misma y anota:
Tipo
de
biblioteca________________________________________________
Número
de
usuarios
biblioteca_________________________
Número
de
usuarios
servicio_____________________________
que
entran
por
a
área
la
de
Con la información obtenida realiza lo que se te pide en cada inciso:
a) Elabora una tabla de distribución de frecuencias simple con todos
sus datos (título, período, etc.)
110
Estadística Descriptiva
b) Traza la gráfica que consideres más conveniente en papel
milimétrico y escribe cuál fue el motivo de tu decisión.
c)
¿Qué
servicio
tuvo
usuarios?_______________________
mayor
número
de
d) Calcula la proporción del servicio con mayor número de usuarios
con respecto al total de personas que entraron a solicitar un servicio durante
el
tiempo
de
la
investigación.__________________________________________________
___
e) Estima un porcentaje con los datos de la gráfica y verifica tu
respuesta
con
la
información
obtenida
en
tu
investigación.___________________________________
f) Marca en la gráfica con color rojo los cuartiles.
4) Con la información que obtuviste al acudir a un Archivo de Trámite
(Oficina de Gobierno Administrativa, Archivo Estatal, Municipal o de la
Localidad) en la Evaluación de la UNIDAD I, realiza lo que se te pide en
cada inciso:
a) Elabora una tabla de distribución de frecuencia simple con todos sus
datos que muestre el comportamiento de la entrada de documentación
durante 30 días tomados arbitrariamente.
b) Traza la gráfica que consideres más adecuada en papel milimétrico
y explica el motivo de tu decisión.
111
c) Estima un porcentaje a través de la gráfica y verifica tu respuesta
con la información obtenida inicialmente.
d) Calcula el número aproximado de documentos que se atienden
mensualmente.
e) Marca en la gráfica con color rojo los cuartiles.
ENVÍA A TU ASESOR
Ahora sólo te falta una unidad para terminar. ¡Bien hecho!
112
Estadística Descriptiva
EDADES
16
17
18
f
2
1
3
UNIDAD 4
ESTADÍSTICA
DESCRIPTIVA
En esta unidad analizaremos la información que aparece en las
diferentes tablas de distribución. Primeramente conoceremos los valores de
la variable que señalan un valor central alrededor del que se agrupa el
mayor número de los datos obtenidos y que indican el comportamiento de la
población; estos valores se encuentran incluidos en el tema de Medidas de
Tendencia Central.
Posteriormente, calcularemos las Medidas de
Dispersión, las cuales describen la forma en que se distribuyen los datos,
para finalmente terminar con el Teorema de Chebyshev que permite medir
las variaciones de los datos con respecto a la media.
¿QUÉ VOY A APRENDER EN ESTA UNIDAD?
A calcular Medidas de Tendencia Central (Media, Moda y Mediana)
que muestran los valores centrales de una distribución y Medidas de
dispersión (Rango, Desviación Media, Varianza, Desviación Estándar,
Coeficiente de variación y Cuartiles) que también reciben el nombre de
medidas de variabilidad porque permiten calcular el valor de la dispersión
de los datos, finalmente a través del Teorema de Chebyshev se manejará y
entenderá el concepto de desviación típica.
109
DIAGNÓSTICO
1) Pregúntales a 10 de tus amigos su edad y anótala, incluye la tuya.
________________________________________________________
_______
2) Las edades que obtuviste ordénalas en forma ascendente.
________________________________________________________
_______
3) Observa y escribe la edad que se localiza en el centro de la lista
ordenada.____________________________________________________
________
4)
Calcula
y
anota
_________________________________
5)
Escribe
la
edad
____________________________
que
la
se
edad
repite
promedio.
más
veces.
6) ¿Cómo son los valores que obtuviste en los incisos 3, 4 y 5, están
próximos
o
alejados?
__________________________________________________________
Es de gran utilidad que recuerdes tu experiencia previa sobre el cálculo
de promedios, ya que sólo se trata de sumar todos los valores considerados
y el resultado dividirlo entre el número de datos.
También es importante que a lo largo de esta unidad observes
cuidadosamente los valores que vas obteniendo, esto te permitirá más
adelante inferir y llegar a conclusiones válidas y verdaderas que reflejen no
sólo el cuidado de tus cálculos sino la lógica de ver más allá de lo que tu
ojos pueden observar.
110
Estadística Descriptiva
111
4.1 MEDIDAS DE TENDENCIA CENTRAL
?
4.1.1 MEDIA
4.1.2 MEDIANA
4.1.3 MODA
Como se mencionó al principio de esta unidad, las medidas de
Tendencia Central son valores representativos de la población que nos
indican los valores centrales alrededor de los cuales se agrupa el total de
datos y son MEDIA, MODA y MEDIANA.
El cálculo de estas medidas depende de los datos que se están
considerando y que pueden ser:
1) DATOS NO AGRUPADOS
a) Si se trata de una lista de números como: 18, 17, 19, 16, 20
b) Datos en una tabla de distribución de frecuencias simple (en donde
no aparecen intervalos):
EDADES
16
17
18
f
2
1
3
2) DATOS AGRUPADOS
a) Si estos se encuentran en una tabla de distribución de frecuencias
(con intervalos):
CLASES
18 - 20
21 - 23
24 - 26
f
5
6
3
Antes de definir cada una de las Medidas de Tendencia Central,
introduciremos la notación matemática que se utiliza para abreviar sumas,
denominada “notación Sigma” debido a que usa la letra griega sigma (Σ).
112
Estadística Descriptiva
n
Σ xi
i=1
x representa el valor del dato a considerar, el cual inicia con i=1 hasta
el enésimo (n).
Para comprender mejor esta notación, consideremos algunos datos del
mismo tipo:
2
x1
5
x2
4
x3
6
x4
9
x5
A los números se les ha colocado una etiqueta, la letra “x”, con un
subíndice para saber de cuántos números se trata. Se hace hincapié en que
los datos no necesariamente tienen que estar ordenados.
La notación sigma es de gran utilidad ya que para indicar la suma de
estos 5 números se escribe:
n
Σ xi
i=1
En este caso el primer subíndice es 1, lo cual se expresa con i=1 y el
último es 5, por ello n=5 y se lee “La suma de las xi donde i (el subíndice)
inicia con 1 y termina en 5”, esta es la forma abreviada de indicar la suma
de los cinco números anteriores.
Al substituir se tiene:
5
Σ xi = x1 +x2 + x3 + x4 + x5 = 2 + 5+ 4+ 6+ 9 = 26
i=1
1) Considerando la siguiente serie contesta lo que se te pide en los
incisos:
4
x1
2
x2
7
x3
6
x4
10
x5
3
a) Σ xi = x1 +x2 + x3 =
i=1
113
5
b) Σ xi = x2 +x3 + x4 + x5 =
i=2
5
c) Σ xi = x1 +x2 + x3 + x4 + x5 =
i=1
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO
AGRUPADOS:
_
MEDIA ARITMÉTICA (X)
Esta Medida de Tendencia Central es la que se utiliza con mayor
frecuencia, tú ya la has manejado, se conoce también con los nombres de
Valor medio, Promedio Aritmético, Media Aritmética o simplemente Media y
es la suma de los datos o puntuaciones consideradas, dividida entre el
número de casos.
Más formalmente se dice que la Media de un conjunto de datos x1, x2,
x3, ... xn, es igual a la suma de los valores de las x´s divida entre el tamaño
de la muestra (n) o población (N); esto queda representado en la siguiente
fórmula:
MUESTRA tamaño n:
n
Σ xi
_ i=1
ΣX
MEDIA= X = ------------- = ------------------------n
n
_
X se lee “equis” barra.
POBLACIÓN tamaño N:
n
Σ xi
i=1
ΣX
MEDIA= µ = ------------- = ------------------------N
N
µ es la letra griega “mu”
2) Obtener la media de las calificaciones que un alumno obtuvo
durante un semestre en la Asignatura de Métodos Estadísticos : 8, 7, 6 y 10.
114
Estadística Descriptiva
_
ΣX
8 + 7 + 6 + 10
31
X= -------------------- = ----------------------- = -------- = 7.75
n
4
4
Redondeando al entero más próximo se tiene que la calificación
promedio que este alumno logró en el semestre es de 8.
MODA (Mo)
En un conjunto de datos la moda es el valor que se repite más veces o
que tiene mayor frecuencia. Para encontrar esta medida cuando se tienen
datos no agrupados, primero se ordenan los datos en forma ascendente.
3) A un grupo de 20 alumnos se les preguntó su promedio del
semestre, los valores proporcionados fueron:
8, 7, 9, 9, 10, 10, 8, 6, 7, 7, 8, 9, 9, 8, 8, 9, 10, 7, 9, 10.
Calcular media y moda.
La media es:
_
ΣX
8+7+9+9+10+10+8+6+7+7+8+9+9+8+8+9+10+7+9+10
168
X= -------------------- = ---------------------------------------------------------------------- =------------ =8.4
n
20
20
_
X= 8
Para encontrar la moda, primero se ordenan los datos en forma
ascendente:
6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10.
El valor de mayor frecuencia es 9, entonces Mo=9 y es unimodal.
Nota: Toda distribución que tiene una sola moda recibe el nombre de unimodal, si tiene 2
bimodal y si tiene más de 2 multimodal.
MEDIANA (Md)
Dado un conjunto de valores ordenados en forma ascendente, la
mediana es el valor que se encuentra a la mitad de la serie, arriba de ella
115
está el 50% del total de datos y abajo el 50% restante. Dependiendo del
número de datos, se consideran dos casos:
a)En una serie formada por un número impar de datos la mediana
ocupa el lugar (n+1)/2.
Si los valores ordenados son:
1, 2, 2, 3, 3, 5, 7, 8, 8,
el valor de la mediana ocupa el lugar (9+1)/2 = 5, lo cual indica que es
el valor del quinto lugar que en este caso es el número 3.
b) Si n es par la mediana es el promedio de los valores centrales.
Tomemos los siguientes datos: 23, 27, 36, 38, 40, 51
La mediana es igual al promedio del valor que ocupa el lugar n/2 y del
que ocupa el lugar n/2 + 1
n/2 = 6/2 = 3 este lugar es ocupado por el 36.
n/2 + 1 = 6/2 + 1 = 4 aquí se encuentra el 38.
Calculando el promedio de 36 y 38 tenemos que:
36 + 38
Md= ------------ = 37
2
Para encontrar la mediana de los promedios de los alumnos
considerados en el inciso 3) se debe trabajar nuevamente con la lista
ordenada en forma ascendente. Como se tiene un número par de datos, la
mediana es el promedio del valor central:
6, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10
La mediana es (8+9)/2 )= 8.5
Agrupemos en una tabla de distribución de frecuencia simple los
promedios de los 20 alumnos y calculemos su media con la fórmula:
n
Σfx
i=1
X= -------------------n
116
Estadística Descriptiva
fx es el producto de cada valor (x) por su frecuencia (f).
PROMEDIO
x
6
7
8
9
10
FRECUENCIA
f
1
4
5
6
4
20
Observemos que la suma de la columna de frecuencias es el valor de n
(20).
Para encontrar la media se obtiene la suma de todos los datos, para ello se
multiplica en cada renglón el valor de equis “x” por el número de veces que se
repite, esto es, por su frecuencia. Los resultados se escriben en la columna
correspondiente:
PROMEDIO
x
FRECUENCIA
f
6
7
8
9
10
1
4
5
6
4
20
PROMEDIO
MULTIPLICADO POR
FRECUENCIA (fx)
6
28
40
54
40
168
En este caso 168 es la sumatoria de las frecuencias multiplicadas por
x, esto es igual a Σfx
Al sustituir los valores correspondientes:
_
Σfx
168
X= -------------------- = ----------- = 8.4 que redondeando es 8.
n
20
La moda (Mo) es la categoría con mayor frecuencia, que en este caso
es 9, ya que tiene frecuencia 6.
A fin de encontrar la mediana se calcula la columna de frecuencias
acumuladas (fa).
PROMEDIO
x
6
7
FRECUENCIA
f
1
4
fa
1
5
117
8
9
10
5
6
4
20
10
16
20
y se realizan los siguientes pasos:
1) Calcular el cociente n/2 = 20/2 = 10
2) Ubicar en qué renglón de fa cae el número n/2=10
3) La categoría que contiene a n/2 es el valor de la mediana
PROMEDIO
x
6
7
8
9
10
FRECUENCIA
f
1
4
5
6
4
20
fa
1
5
10
16
20
n/2= 10 cae aquí
Entonces Md = 8
Como te habrás dado cuenta, tanto la media como la moda aunque
fueron calculadas por diferentes procedimientos se obtuvieron los mismos
resultados; sin embargo, la mediana tuvo una mínima diferencia de .5.
En ocasiones se presentan series que no tienen moda como: 1, 3, 5, 7,
8, 12, aunque si media (6) y mediana (7).
CARACTERÍSTICAS
TENDENCIA CENTRAL:
IMPORTANTES
DE
LAS
MEDIDAS
DE
La media tiene la desventaja de ser sensible a valores extremos,
esto significa que si dentro de una serie de números se considera un valor
“distinto” a los demás, la media varía considerablemente.
La moda no es sensible a valores extremos, pero tiene el
inconveniente de no ser única y en algunos casos ésta difiere en muy poco
de otros valores del conjunto o es un valor extremo. Al obtener la moda de
un conjunto de datos, es necesario expresar claramente si es unimodal por
tener una moda, bimodal por tener dos o si tiene una moda principal y una
secundaria en caso de que la diferencia entre ambos valores sea mínima.
118
Estadística Descriptiva
La medida de tendencia central que se recomienda para ser utilizada
en el análisis de datos es la mediana, por su virtud de no ser sensible a
valores extremos y además, ser única.
Consideremos el conjunto formado por: 3, 6, 7, 8, 10 y calculemos
sus medidas de tendencia central:
MEDIA:
_
3+6+7+8+10
34
La media es igual a X = ------------------------------- = ------------- = 6.8 aproximadamente 7.
5
5
MODA: No tiene
MEDIANA: es 7.
Si en lugar del número 10 tomamos al 40 (que es un valor diferente a
los demás), tendremos: 3, 6, 7, 8, 40
MEDIA:
_
3+6+7+8+40
64
La media es igual a X = ------------------------------- = ------------- = 12.8 aproximadamente 13.
5
5
MODA: No tiene
MEDIANA: sigue siendo el número 7.
Si comparamos los resultados obtenidos en la serie 3, 6, 7, 8,10 con
los que se obtienen al sustituir el 10 por 40, la media ha cambiado, mientras
que la mediana sigue siendo la misma.
En el siguiente ejemplo calcularemos las Medidas de Tendencia
Central:
El personal de un Archivo está integrado por 110 personas, de las
cuales 70 son de base con un sueldo mensual de $1,800.00 y el resto
están contratadas por honorarios con un sueldo mensual de $3,000.00, en
una junta se solicita al Director del mismo un aumento salarial y éste les
informa que no es posible ya que el salario promedio de los empleados es
de $2,236.00 y rebasa al que actualmente se paga en otros archivos.
Calculemos las medidas de tendencia central:
119
SUELDO
MENSUAL
x
1,800.00
3,000.00
FRECUENCIA
f
70
40
110
SUELDO
MULTIPLICADO POR
FRECUENCIA (fx)
126000
120000
246000
_
246000
X = --------------- = 2236.36
110
La categoría de mayor frecuencia
$1,8000.00
pertenece a la Moda: Mo =
En este ejercicio, escribir 70 veces $1,800.00 y 40 veces $3,000.00
para conocer el valor central resulta bastante tedioso, así que primero
averiguaremos en qué categoría “cae” el valor central, recordando que la
columna de frecuencias acumuladas (fa) nos permite conocer la ubicación
del dato que buscamos:
SUELDO
MENSUAL
x
1,800.00
3,000.00
FRECUENCIA
f
70
40
110
SUELDO
MULTIPLICADO POR
FRECUENCIA (fx)
126000
120000
246000
FRECUENCIA
ACUMULADA
fa
70
110
Como n es par (n=110), calculemos el lugar que ocupan los valores
centrales:
n/2= 55
n/2 + 1 = 56
Ambos valores caen en la primera categoría ya que ésta contiene a los
valores que ocupan el primer lugar hasta el septuagésimo, por lo que la
Mediana es $1,800.00
120
Estadística Descriptiva
¿QUÉ HE APRENDIDO?
1) En este último ejemplo ¿consideras que el Director del Archivo ha
optado por la mejor medida de tendencia central para no permitir el
aumento de sueldo?
________________________________________________________
____________________________________________________________
______________
2) ¿Qué argumento darías para convencer al Director del Archivo, a fin
de que modifique su opinión acerca de considerar el salario promedio como
un parámetro confiable?
________________________________________________________
____________________________________________________________
_______________
3) Escribe tu propia definición de cada una de las Medidas de
Tendencia Central.
________________________________________________________
____________________________________________________________
_______________
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS:
Como ya se dijo al inicio de esta unidad, los datos agrupados se
encuentran en una tabla de distribución de frecuencias en donde el
representante de cada intervalo es la Marca de clase también denominada
punto medio, esta es la razón por la cual para encontrar la media, se
multiplica la marca de clase de cada intervalo por su frecuencia respectiva
(indica el número de datos del intervalo), se suman los resultados obtenidos
y se divide entre la suma de frecuencias. La fórmula que representa las
operaciones ya descritas es:
n
∑Mcf
∑f(Mc)
_
i=1
MEDIA= X = --------------= --------------n
n
121
Considerando a n como el tamaño de la muestra.
A fin de establecer el procedimiento para el cálculo de las Medidas de
Tendencia Central para datos que se encuentran incluidos en intervalos,
realicemos el siguiente ejercicio.
Se pretende conocer la asistencia promedio de usuarios a una
biblioteca que atiende al público durante todos los días del año, en el receso
julio-agosto, para ello se considera el número de usuarios que acudieron en
la misma fecha el año pasado, obteniéndose la siguiente tabla de
distribución de frecuencias para datos agrupados:
CLASES
(USUARIOS)
X
20-24
25-29
30-34
35-39
40-44
45-49
NÚMERO DE
DÍAS
f
12
9
19
8
7
6
61
Es necesario encontrar la marca de clase de cada intervalo y
multiplicarla por su frecuencia respectiva (columna fMc):
CLASES
20 24
25 29
30 34
35 39
40 44
45 49
f
12
9
19
8
7
6
61
Mc
22
27
32
37
42
47
fMc
264
243
608
296
294
282
1987
Se sustituye ∑fMc= 1987 y n=61 en la fórmula para obtener la media:
_
∑Mcf
∑f(Mc)
1987
_
MEDIA= X = --------------= --------------- = ----------- =32.5 redondeando X= 33
n
n
61
La asistencia promedio de usuarios a la biblioteca durante el periodo
julio-agosto fue de 33 personas.
122
Estadística Descriptiva
Esta medida de tendencia central que acabamos de calcular recibe el
nombre de MEDIA PONDERADA, ya que se obtuvo al multiplicar cada
representante (Mc) por su “peso” que en este caso es su frecuencia (f)
correspondiente y el resultado se dividió entre la suma de todos los “pesos”
o frecuencias.
Para encontrar la moda se debe aplicar la fórmula:
d1
MODA = Mo = Li + ( -------------- ) A
d1 + d2
Para algunos autores Li es el límite inferior y para otros el límite real
inferior, cualquiera de las dos alternativas es válida, ya que si recordamos,
la diferencia entre ambos límites es .5.
En el cálculo de esta medida nosotros definimos a Li = límite inferior
del intervalo de la clase de mayor frecuencia o clase modal.
d1 = frecuencia de la clase modal menos la frecuencia de la clase
anterior.
d2= frecuencia de la clase modal menos la frecuencia de la clase
posterior a la clase de la moda.
A = amplitud de cualquiera de los intervalos de la tabla (todos tienen la
misma amplitud) es la diferencia entre cualesquiera 2 fronteras o límites
inferiores.
Observemos las frecuencias de los intervalos y destaquemos el mayor.
CLASES
(USUARIOS)
X
20-24
25-29
30-34
35-39
40-44
45-49
NÚMERO DE
DÍAS
f
12
9
19
8
7
6
61
intervalo de mayor frecuencia o clase
modal
Li =30
d1 = 19 - 9 = 10
d2 = 19 - 8 = 11
A = 25-20 = 5
Los valores obtenidos se sustituyen en la fórmula:
d1
123
Mo = Li + ( -------------- ) A
d1 + d2
10
50
Mo = 30 + ( ----------- ) 5 = 30 + ----- = 30 + 2.3 = 32.3 redondeando Mo = 32
10 + 11
21
La mediana (Md) de un conjunto de datos en una tabla de distribución
para datos agrupados, se calcula con:
n/2 - F
MEDIANA = Md = Li + ( -------------- ) A
f
donde:
Li = límite inferior del intervalo que contiene a la mediana o clase de la
mediana.
n/2 = es el tamaño de la muestra dividido entre dos.
F = frecuencia acumulada (fa) de la clase anterior a la clase de la
mediana.
f= frecuencia absoluta (f) del intervalo que contiene a la mediana.
A = amplitud de la clase de la mediana.
Iniciamos agregando a la tabla de frecuencias la columna de
frecuencias acumuladas:
CLASES
20
24
25
29
30
34
35
39
40
44
45
49
f
12
9
19
8
7
6
61
Li = 30
n/2 = 30.5
F = 21
f = 19
124
Mc
22
27
32
37
42
47
fMc
264
243
608
296
294
282
1987
fa
12
21
40
48
55
61
Para encontrar la clase de la mediana
calculamos n/2 = 61/2 = 30.5 y vemos
dónde “cae” este valor en fa.
en este intervalo cae 30.5
por lo que 30-34 es la clase de la
mediana.
Estadística Descriptiva
A= 5
Al sustituir estos valores en la fórmula tenemos:
n/2 - F
30.5 - 21
47.5
Md = Li + ( -------------- ) A = 30 + ( --------------) 5 = 30 + ------- = 30 + 2.5 redondeando Md =33
f
19
19
Podemos concluir que durante el período julio - agosto:
_
X = 33
El promedio de usuarios fue de 33 personas.
Mo = 32
Durante 19 días asistieron 32 usuarios a la biblioteca, estos fueron los
días de mayor asistencia.
Md = 33
Este es el número de usuarios que asistieron a la biblioteca y que tiene
tanto a su derecha como a su izquierda la mitad de las frecuencias.
Para concluir este tema y analizar las medidas de tendencia central,
veamos el siguiente ejemplo en donde se ha tomado el número de
expedientes que solicitan en un mes los investigadores que acuden a un
Archivo:
NÚMERO DE
NÚMERO DE
EXPEDIENTE INVESTIGADOR
S
ES
(x)
(f)
1
3
50
4
6
35
7
9
22
10
12
36
13
15
21
16
18
9
19
21
7
180
Mc
fMc
fa
2
5
8
11
14
17
20
100
175
176
396
294
153
140
1434
50
85
107
143
164
173
180
1434
X = ---------- = 7.9 ≅ 8 expedientes
180
Conclusión: En promedio los investigadores solicitan mensualmente
un promedio de 8 expedientes.
125
Para la moda encontramos los valores necesarios y los sustituimos en
la expresión correspondiente:
clase modal 1- 3
Li =1
d1 = 50-0 = 50 (la frecuencia anterior a la clase modal es 0)
d2 = 50- 35 = 15
A = 4-1 = 3
d1
Mo = Li + ( -------------- ) A
d1 + d2
50
150
Mo = 1 + ( ----------- ) 3 = 1 + ----- = 1 + 2.3 = 3.3 ≅ 3 expedientes
50 + 15
65
Conclusión: El número de investigadores que solicitan 3 expedientes
es el más numeroso, ya que le corresponde un total del 27.7% que es el
porcentaje de la clase modal.
A fin de ubicar la clase de la mediana primero calculamos n/2 = 90 al
observar la columna de fa podemos decir que se trata del intervalo 7-9 por
lo que:
Li =7
F =85
f =22
A=3
n/2 - F
MEDIANA = Md = Li + ( -------------- ) A
f
90-85
15
Md = 7 + ( -------------- ) 3 = 7 + ------- = 7 + .68 = 7.68 ≅ 8
22
22
Si se tuviera el listado de todos los datos ordenados en forma
ascendente, tendríamos que el valor central es 8, esto quiere decir que el
50% del total de investigadores (90) solicitan en un mes de 1 a 8
expedientes, es decir, como máximo 8 expedientes.
126
Estadística Descriptiva
¿ QUÉ HE APRENDIDO?
LECTURA 3
A fin de reforzar los conocimientos que acabas de adquirir sobre las
medidas de tendencia central, es necesario que leas el libro Estadística
Paso a Paso de Howard B. Christensen de la página 102 a la 111, incluido
al final de esta guía, revises los ejemplos y verifiques el resultado por lo
menos en 3 de ellos; después de leer elabora el resumen correspondiente y
resuelve los ejercicios que se te solicitan enseguida.
1) Explica por lo menos dos características de las siguientes
distribuciones:
a) Unimodal
b) Bimodal
2) Traza en papel milimétrico un polígono unimodal y simétrico de
frecuencias absolutas y localiza la media, la moda y la mediana.
3) Pregunta a 8 de tus amigos su ingreso mensual, ordénalo en forma
ascendente y encuentra las medidas de tendencia central indicando la
cantidad que es la más representativa de todas.
127
4.2 MEDIDAS DE DISPERSIÓN
X
4.2.1 RANGO
4.2.2 CUARTILES
Hasta aquí sólo se han considerado los valores centrales de una
distribución, esto no es suficiente para conocer el comportamiento de los
datos, razón que nos motiva a calcular otro tipo de medidas que nos
informen qué tan próximos o alejados están de la media (X), por lo que
ahora nos ocuparemos de las medidas de dispersión que nos permiten
evaluar la variabilidad y dispersión de los datos en una distribución, siendo
las más conocidas: RANGO, DESVIACIÓN MEDIA, VARIANZA y
DESVIACIÓN ESTÁNDAR.
RANGO O AMPLITUD total (también llamado extensión o recorrido)
sólo considera los valores extremos, por lo que debe tomarse únicamente
como un índice preliminar o muy aproximado, éste se calcula restando al
valor máximo alcanzado por la variable el valor mínimo. Esta medida se
obtuvo cuando se elaboró la tabla de distribución de frecuencias para datos
agrupados.
Rango = R = Valor máximo - Valor mínimo
Supongamos que en un examen de Estadística practicado a los grupos
A y B las calificaciones fueron:
GRUPO A 6
GRUPO
6
B
7
7
7
7
8
7
8
7
8
8
8
9
9
9
9
10
10
10
_
MEDIA DEL GRUPO A= X = 8
RANGO= R= 10 - 6 = 4
_
MEDIA DEL GRUPO B= X = 8
RANGO = R = 10 - 6 = 4
Ambos grupos tienen la misma media, lo que podría hacernos suponer
que no hay diferencias entre las calificaciones de ambos grupos, sin
128
Estadística Descriptiva
embargo, claramente se observa que sí existe variación, lo que tampoco es
reportado por el rango. Lo anterior indica que el rango no es una medición
precisa y sólo se debe utilizar como un valor aproximado.
RANGO INTERCUARTIL de un grupo de observaciones es la
diferencia entre los valores del primero y tercer cuartil y se simboliza con Q:
Q = Q3 - Q1
Antes de continuar, veamos la forma en que se calculan los cuartiles,
para posteriormente poder calcular el rango intercuartil.
CÁLCULO DE LOS CUARTILES
Anteriormente ya nos habíamos referido a los cuartiles como tres
valores denominados Q1, Q2 y Q3 que dividen al total de datos de una
distribución en tres partes iguales, aunque sólo los habíamos visualizado
en la ojiva porcentual, en este capítulo haremos los cálculos
correspondientes para obtenerlos no sin antes indicarte que también son
medidas de dispersión.
Para calcular los tres cuartiles ya mencionados se utilizan las fórmulas
que aparecen en seguida, ten cuidado en la sustitución de los datos.
En todos los casos A es la amplitud del intervalo respectivo (todos son
iguales):
n/4 - F1
Q1 = L1 + ( -------------- ) A
f1
L1 es el límite inferior del intervalo del primer cuartil.
f1 frecuencia absoluta del primer cuartil.
F1 frecuencia acumulada anterior al intervalo del primer cuartil.
n número total de datos.
2n/4 - F2
Q2 = L2 + ( -------------- ) A
f2
L2 es el límite inferior del intervalo del segundo cuartil.
f2 frecuencia absoluta del segundo cuartil.
F2 frecuencia acumulada anterior al intervalo del segundo cuartil.
n número total de datos.
129
3n/4 - F3
Q3 = L3 + ( -------------- ) A
f3
L3 es el límite inferior del intervalo del tercer cuartil.
f3 frecuencia absoluta del tercer cuartil.
F3 frecuencia acumulada anterior al intervalo del tercer cuartil.
n número total de datos.
Iniciemos el cálculo de los cuartiles en la tabla que hemos venido
trabajando:
CLASES
20
24
25
29
30
34
35
39
40
44
45
49
f
12
9
19
8
7
6
61
Mc
22
27
32
37
42
47
fMc
264
243
608
296
294
282
1987
fa
12
21
40
48
55
61
En el cálculo de cada uno de los cuartiles, el primer paso es encontrar
el intervalo del cuartil que ese está calculando, la clave está en efectuar las
operaciones que involucran al número total de datos que es n:
n/4 - F1
Q1 = L1 + ( -------------- ) A
f1
n/4 = 61/4 = 15.25 este valor al ser localizado en la columna de
frecuencias acumuladas (fa), nos indica el intervalo que estamos buscando,
en este caso es 25-29 de donde tenemos:
A= amplitud del intervalo = 5
L1 es el límite inferior del intervalo del primer cuartil = 25
f1 frecuencia absoluta del primer cuartil = 9
F1 frecuencia acumulada anterior al intervalo del primer cuartil = 12
Estos datos se sustituyen en la fórmula:
15.25 - 12
16.25
Q1 = 25 + ( -------------- ) 5 = 25 + ---------------= 25 + 1.8 = 26.8
9
9
130
Estadística Descriptiva
Por lo tanto Q1 = 26.8 ≅ 27 (el símbolo ≅ significa aproximadamente
igual a)
Al realizar el mismo procedimiento para el segundo cuartil tenemos que
2n/4 = 122/4 = 30.5 al localizarlo en fa obtenemos el intervalo del segundo
cuartil que es 30-34.
L2 = 30
f2 = 19
F2 = 21
Al ser sustituidos los valores encontrados en la fórmula que le
corresponde, observamos que son los mismos que dieron origen a la
mediana:
30.5 - 19
Q2 = 30 + ( -------------- ) 5 = 30 + 2.5 ≅ 33
21
Como resultado se tiene entonces que Q2 = mediana
distribución, ya que ambos la dividen en dos partes iguales.
de la
Realiza los cálculos necesarios para encontrar el valor del tercer
cuartil.
Intervalo del tercer cuartil =
L3=
f3 =
F3 =
Q3 =
Ya podemos calcular el rango intercuartil:
Q3 = 39
Q2 = 33
Q = 39 - 33 = 6
131
¿ QUÉ HE APRENDIDO?
1) Con la información de la siguiente tabla encuentra los cuartiles y
contesta lo que se te pide:
CLASES
4-10
10-16
16-22
22-28
28-34
TOTAL
f
5
15
30
10
6
66
a) Si Q1 = ___________ quiere decir que el 25% de los datos tiene
valores comprendidos entre ________ y ___________________.
b) Como Q2= _________ significa que el ________ de los datos se
encuentran entre 4 y ____________.
c) Dado que Q3= ___________ el ________ de los datos son valores
entre _________ y ____________.
132
Estadística Descriptiva
4.2.3 DESVIACIÓN MEDIA
CÁLCULO DE LA DESVIACIÓN MEDIA PARA DATOS NO
AGRUPADOS:
DESVIACIÓN MEDIA (DM) es el promedio de las desviaciones a partir
de un valor central (media, moda o mediana), lo más común es trabajar con
la Media.
A fin de ejemplificar el uso de esta medida tomemos nuevamente la
tabla de la página 127.
Para conocer la variabilidad de las calificaciones del grupo A con
respecto a la media se requiere encontrar la diferencia entre cada
calificación y la media, la cual recibe el nombre de desvío o desviación:
_
desvío o desviación = d = x - X
donde x es el dato y X la media de la distribución
_
A cada uno de los datos se le resta la media X= 8 para obtener el
desvío correspondiente:
GRUPO A
6
7
7
8
8
8
8
9
9
10
DESVÍO
6 -8
-2
7-8
-1
7-8
-1
8-8
0
8-8
0
8-8
0
8-8
0
9-8
1
9-8
1
10-8
2
El signo menos (-) está indicando que la dirección de los desvíos es
hacia la izquierda de la media.
Al sumar los desvíos se tiene: -2-1-1+1+1+2= 0, lo cual indica que la
suma de las desviaciones de las variables mayores que la media es igual y
de signo contrario a la suma de las desviaciones de las variables menores
que la media, esto significa que siempre que se consideran a los desvíos
con su signo correspondiente se llega a que la suma de todas es cero “0”, lo
cual no tiene sentido, es por ello que para calcular la cantidad de
variabilidad o distancia de las desviaciones, no se deben tomar en cuenta
las direcciones, es decir, los desvíos se suman considerándolos positivos,
lo que se conoce como valor absoluto y el resultado se divide entre el
tamaño de la población o muestra.
133
Debemos tener presente que dado cualquier número positivo o
negativo, su valor absoluto es el número que representa, por ejemplo:
El valor absoluto de 2 se escribe ⏐2 ⏐ = 2
absoluto
y el valor absoluto de -2 es
⏐-2⏐ = 2
en ambos casos las barras ⏐⏐ indican valor
Ahora veamos la forma en que se calcula la desviación media de datos
contenidos en una tabla de distribución simple, utilizando las mismas
calificaciones del grupo A:
El cálculo de la desviación media del grupo A considerando el valor
absoluto de los desvíos es:
2+1+1+1+1+2
8
DMA = ------------------------------ = ------ = .8
10
10
Esta medida de dispersión indica que la variabilidad promedio de todos
los valores de la distribución con respecto a la media es .8, en otras
palabras, que en promedio el grupo obtuvo una calificación de 8 con una
desviación promedio de .8 de más o de menos.
Una característica de las desviaciones absolutas es que su suma
tiende a agrandarse a medida que aumenta la dispersión o variabilidad de la
distribución.
La desviación media para datos no agrupados considerando una
muestra con tamaño n se calcula con la fórmula:
n
n
_
∑⏐x⏐
∑⏐xi - X⏐
i=1
i=1
DM = --------- = -------------n
n
Para una población de tamaño N la desviación media es:
n
n
∑⏐x⏐
∑⏐xi - µ⏐
i=1
i=1
DM = --------- = ----------------N
N
134
Estadística Descriptiva
Las diferencias xi - X
y xi - µ reciben el nombre de desvío o
desviación, como ya se dijo anteriormente, y ∑⏐x⏐= ∑⏐xi - X⏐ representa la
suma de las desviaciones absolutas, esto es, sin tomar en cuenta los signos
de los valores de la variable.
CALIFICACIONES OBTENIDAS POR EL GRUPO A
EN UN EXAMEN DE ESTADÍSTICA
CALIFICACIONES
NÚMERO DE
x
ALUMNOS
f
6
1
7
2
8
4
9
2
10
1
TOTAL
10
En una tabla de distribución de frecuencia simple la DM se encuentra
con la siguiente expresión:
_
∑f⏐xi - X⏐
_
DM = -------------------- en donde se puede sustituir ⏐d⏐=⏐xi - X⏐
n
_
Encontremos la DM en la siguiente tabla con X=8:
CALIFICACIONES
x
6
7
8
9
10
TOTAL
NÚMERO DE
ALUMNOS
f
1
2
4
2
1
10
_
xi - X
_
⏐xi - X⏐
_
f⏐xi - X⏐
-2
-1
0
1
2
2
1
0
1
2
2
2
0
2
2
8
este total es _
f ⏐xi - X⏐
∑f⏐xi - X⏐
8
DMA = -------------------- = ------- = .8
n
10
Como te habrás dado cuenta, el resultado obtenido para el grupo A en
la lista de calificaciones y en la tabla de distribución de frecuencia simple es
el mismo.
Como DMA = .8 podemos asegurar que la dispersión de los valores es
relativamente pequeña.
135
¿ QUÉ HE APRENDIDO?
Para reforzar tu aprendizaje resuelve lo que se te solicita considerando
los datos del Grupo B:
GRUPO
B
6
7
7
7
7
8
9
9
10
10
1) Calcula la desviación media para datos en forma de lista.
DMB=
CALIFICACIONES
x
NÚMERO DE
ALUMNOS
f
_
xi - X
_
⏐xi - X⏐
_
f⏐xi - X⏐
6
7
8
9
10
TOTAL
DMB=
3) Verifica que los resultados obtenidos en los dos incisos anteriores
sean los mismos.
4) ¿Cuál de los dos grupos (A o B) presenta mayor desviación media y
por lo tanto tiene mayor dispersión o variabilidad en sus calificaciones?
____________________________________________________________
________
136
Estadística Descriptiva
CÁLCULO
AGRUPADOS
DE
LA
DESVIACIÓN
MEDIA
PARA
DATOS
Con el propósito de encontrar la desviación media en una tabla de
distribución de frecuencias para datos agrupados, supongamos que en un
Archivo se desea conocer el número promedio de expedientes que son
revisados diariamente y la desviación media correspondiente, si se tiene
una muestra de 40 días:
CLASES
13 17
18 22
23 27
28 32
33 37
38 42
f Mc fMc
3 15 45
1 20 20
4 25 100
11 30 330
8 35 280
13 40 520
40
1295
⏐Mc-X⏐
17
12
7
2
3
8
f⏐ Mc-X ⏐
51
12
28
22
24
104
241
_
1295
El número promedio de expedientes revisados durante 40 días es: X = --------- = 32.3
aproximadamente 32
40
La fórmula para calcular la desviación media en datos agrupados en
una distribución con intervalos es:
∑f⏐Mc-X⏐
DM = ---------------n
por lo que sustituyendo :
241
DM = --------- = 6.02 redondeando
es 6
40
CONCLUSIÓN: En promedio se revisan 32 expedientes diariamente
con una desviación promedio de más o de menos 6 expedientes diarios.
137
¿QUÉ HE APRENDIDO?
La siguiente tabla muestra el tiempo en minutos que tarda una persona
en realizar los trámites necesarios para recibir un libro para préstamo a
domicilio:
CLASES
7-9
10-12
13-15
16-18
19-21
TOTAL
f
5
15
12
8
5
45
1) Calcula el promedio y la desviación media e interprétala.
138
Estadística Descriptiva
4.2.4 VARIANZA
4.2.5 DESVIACIÓN ESTÁNDAR
CÁLCULO DE LA VARIANZA O VARIANCIA (Var(X)) PARA DATOS
NO AGRUPADOS
Es una medida de dispersión en donde se calculan los cuadrados de
las desviaciones entre los valores de la variable y la media (xi - X)2 y su
suma se divide entre n-1 si se trata de una muestra de tamaño n y entre N
si se trata de una población:
Muestra tamaño n:
n
_
∑(xi - X)2
i=1
2
VAR(X) = S = ---------------------- VARIANZA MUESTRAL
n -1
Población tamaño N:
n
_
∑(xi - X)2
i=1
VAR(X) = σ2 = ---------------------- VARIANZA POBLACIONAL
N
En una biblioteca se ha reportando la pérdida de 36 libros distribuidos
de la siguiente manera: enero 4, febrero 5, marzo 9, abril 10, mayo 5 y junio
3.
En este ejercicio podemos trabajar con la lista o con la tabla, para
agilizar los cálculos utilicemos la tabla:
NÚMERO DE LIBROS EXTRAVIADOS EN LA BIBLIOTECA
DURANTE EL PERÍODO ENERO-JUNIO
--Al elevar al cuadrado las
MESES
xi
xi -X
(xi - X)2
desviaciones reales de la
ENERO
4
4-6=-2
4
variable con respecto a la
FEBRERO
5
5-6=-1
1
media se evita el manejo
MARZO
9
9-6=3
9
de números negativos, ya
ABRIL
10
10-6=4
16
que todo número elevado
MAYO
5
5-6=-1
1
al cuadrado es positivo.
JUNIO
3
3-6=-3
9
36
0
40
La suma de los desvíos es cero
_
36
139
El promedio de libros extraviados es X = ------- = 6
6
Usemos la fórmula para calcular la varianza respectiva:
_
40
40
∑(xi - X)2
2
VAR(X) = S = ---------------------- = ---------------- = -------- = 1.14
n -1
36-1
35
Un ejemplo más lo realizaremos con la tabla de calificaciones del
grupo A, tomando en cuenta que su media es 8.
CALIFICACIONES DEL GRUPO A
CALIFICACIÓN
f
xi-X
(xi - X)2 f(xi - X)2
6
1
-2
4
4
7
2
-1
1
2
8
4
0
0
0
9
2
1
1
2
10
1
2
4
4
10
12
12
S2A = -------- = 1.2
10
De igual manera que se hicieron los cálculos de la varianza para el
grupo A, encuentra la misma medida de dispersión para el grupo B
completando la tabla que aparece a continuación:
GRUPO
B
6
7
7
7
7
8
9
9
10
10
CALIFICACIONES DEL GRUPO B
CALIFICACIÓN
f
xi-X
(xi - X)2 f(xi - X)2
6
7
8
9
10
S2B = -------- =
Como te habrás dado cuenta mientras mayor es la dispersión, mayor
es la varianza, por ello es que en este caso la varianza mayor es del grupo
___________
140
Estadística Descriptiva
La varianza es una excelente medida que indica la dispersión de los
datos, el único inconveniente es que sus unidades son cuadradas lo cual no
tiene ningún sentido, con el propósito de superar este problema se utiliza la
DESVIACIÓN ESTÁNDAR, que se define como la raíz cuadrada de la
varianza y es la medida de variabilidad que veremos a continuación.
CÁLCULO DE LA DESVIACIÓN TÍPICA O ESTÁNDAR PARA
DATOS NO AGRUPADOS
Esta medida de dispersión es muy parecida a la desviación media,
tiene como base la media y sus unidades de medida son iguales a las
unidades de los datos, por ejemplo si los datos son libros o expedientes, la
desviación estándar también son libros o expedientes según corresponda.
En términos generales podemos decir que la desviación estándar
representa la “variabilidad promedio” de los datos de una distribución con
respecto a la media, de tal manera que, mientras mayor sea la dispersión
alrededor de la media, mayor será la desviación estándar.
Al calcular la varianza de las calificaciones del grupo A obtuvimos:
12
S2 A= -------- = 1.2
10
Es claro entonces que la desviación estándar para una muestra de 10
calificaciones es:
SA = √1.2 = 1.09
Calcula la desviación estándar para el grupo B:
SB =
141
CÁLCULO DE LA VARIANZA Y DESVIACIÓN ESTÁNDAR PARA
DATOS AGRUPADOS
Consideremos nuevamente la información de la tabla que muestra el
número de expedientes que son revisados durante 40 días en un Archivo:
CLASES
13
17
18
22
23
27
28
32
33
37
38
42
f
3
1
4
11
8
13
40
Mc
15
20
25
30
35
40
fMc
45
20
100
330
280
520
1295
La fórmula que se utiliza es:
n
n
∑fMc2
∑ fMc
i=1
i=1
VAR(X) = S2 = --------------- - ---------------n
n
∑f
∑f
i=1
i=1
2
A la tabla anterior le agregamos las columnas Mc2 y fMc2
CLASES
13
17
18
22
23
27
28
32
33
37
38
42
f
3
1
4
11
8
13
40
Mc
15
20
25
30
35
40
Mc2
225
400
625
900
1225
1600
fMc
45
20
100
330
280
520
1295
fMc2
675
400
2500
9900
9800
20800
44075
1677025
Sustituyendo los valores:
44075
(1295)2
1677025
VAR(X) = S2 = --------------- - ---------------- = 1101.875 - --------------40
(40)2
1600
142
Estadística Descriptiva
S2 = 1101.875 - 1048.1406 = 53.73
S2 = 53.73 sacando raíz encontramos el valor de la desviación
estándar
S = 7.3
Ray I. Carpenter en su libro Métodos Estadísticos para Bibliotecarios
dice: “Por ser una medida de dispersión estandarizada, la desviación
estándar se puede emplear para comparar la igualdad o la desigualdad de
dos o más grupos. Si los grupos son comparables, cuanto mayor sea la
diferencia en las desviaciones estándar, mayor será la desigualdad. Con
frecuencia, la sola comparación de las desviaciones estándar puede
conducir a interpretaciones incorrectas. Un método para evitar lo anterior es
el coeficiente de variación”.
143
4.2.6 COEFICIENTE DE VARIACIÓN
También conocido como DISPERSIÓN RELATIVA (CV) es un
indicador expresado en porcentaje de la dispersión de dos o más conjuntos
que se comparan entre sí, considerando la desviación estándar y la media
de los datos observados.
Coeficiente de variación muestral
S
CV= ---------(100)
X
_
donde S es la desviación estándar de la muestra y X la media.
Coeficiente de variación poblacional
σ
CV= ---------(100)
µ
σ es la desviación estándar de la población y µ la media.
Un ejemplo que muestra claramente la utilidad del coeficiente de
variación es cuando se desean comparar los presupuestos de una
biblioteca o de un archivo durante 2 años, a fin de averiguar en cuál de los
dos períodos (1995 ó 1996) las cantidades asignadas a las diferentes áreas
fue más homogénea, entendiéndose ésta como aquella distribución en que
las cantidades bajas, intermedias y altas son muy parecidas.
AÑO
1995
PRESUPUESTO
PROMEDIO
X
$14,400
DESVIACIÓN
ESTÁNDAR
S
$1,200
1996
$21,000
$1,500
1
CV1995 = ------ (100) = 8.33%
12
>
COEFICIENTE DE
VARIACIÓN
V
1,200/14,400=
12/144=2/24=1/12
1,500/21,000=
15/210=3/42=1/14
1
CV1996 = ------ (100) = 7.14%
14
En términos absolutos se tiene que la desviación estándar es mayor en
1996, sin embargo, desde un punto de vista relativo existe menos
dispersión en ese mismo período, según podemos observar en los dos
coeficientes de variación, ya que el menor de ellos pertenece a la
distribución más homogénea.
144
Estadística Descriptiva
El porcentaje de disminución de la variabilidad o dispersión se
encuentra a través de la tasa de cambio en donde se deben considerar los
coeficientes de variación al inicio del período (.0833) y al final del período
(.0714):
.071-.083
.-012
Tasa de cambio = ------------------- = ----------- = -0.144
.083
.083
Esto significa que en 1996 se tuvo una disminución del 14% de
dispersión con respecto a 1995.
145
4.2.7 TEOREMA DE CHEBYSHEV
La desviación estándar permite medir las variaciones con respecto a la
media de los valores de las observaciones, ya que mientras más pequeña
sea es más probable obtener un valor cercano a la media y viceversa, se
tiene mayor probabilidad de obtener un valor más alejado a la media a
medida que ésta es mayor, para encontrar estas variaciones en cualquier
distribución, se utiliza el Teorema de Chebyshev que dice:
La proporción de cualquier conjunto de valores que caen dentro de k
desviaciones típicas medidas a partir de la media es al menos 1 - 1/k2, en
donde k es cualquier número mayor de 1.
Si consideramos k=2 (2 desviaciones típicas o estándar), tendremos
que los valores dentro del intervalo formado por las dos desviaciones
estándar medidas a partir de la media es 1-1/22 = 1 - ¼ = ¾, esto indica que
dentro de 2 desviaciones estándar de la media, siempre se encuentra al
menos el 75% ( 75% como mínimo) de los datos.
De igual forma si k=3 al menos 8/9 (88% o más) de los datos caen
dentro del intervalo (X-3S, X+3S).
Retomando el ejercicio en donde se conoce el número de libros o
expedientes prestados durante 50 días, verifiquemos el Teorema que nos
ocupa:
43
44
45
47
48
48
50
51
53
53
146
54
54
55
56
56
56
56
57
57
58
58
59
60
60
60
60
61
61
61
62
62
62
63
64
64
65
65
65
65
65
67
67
68
69
70
70
72
75
79
80
Estadística Descriptiva
Calculando las columnas necesarias para encontrar la desviación
estándar:
CLASES
73-77
68-72
63-67
58-62
53-57
48-52
43-47
f
3
5
10
13
11
4
4
50
Mc
75
70
65
60
55
50
45
Mc2
5625
4900
4225
3600
3025
2500
2025
181800
S = ------------- 30
2
2
S = 3636
fMc
225
350
650
780
605
200
180
2990
fMc2
16875
24500
42250
46800
33275
10000
8100
181800
_
X ≅ 60
(2990)2
--------------(50)2
8940100
- ------------2500
S2 = 3636 - 3576.04 = 59.96
entonces S = 7.74
Al tomar 2 desviaciones estándar se tiene el intervalo:
(X - 2s, X + 2s) = (60 - 2(7.74), 17 + 2(7.74)) = (44.52, 75.48)
Si consideramos al intervalo (45, 75) sin tomar los extremos, por el
Teorema de Chebyshev dentro de él cae al menos el 75% del total de
datos, esto quiere decir que pueden caer 75% o más.
Al calcular el 75% de 50 que es el total de datos, se encuentra que en
dicho intervalo deben caer aproximadamente 38 datos o más, para verificar
este porcentaje contemos los datos en la lista ordenada:
43
44
45
47
48
48
50
51
53
53
54
54
55
56
56
56
56
57
57
58
58
59
60
60
60
60
61
61
61
62
62
62
63
64
64
65
65
65
65
65
67
67
68
69
70
70
72
75
79
80
Los 44 valores en negrita son los que se
encuentran dentro del intervalo (45, 75) y son
más del 75% del total.
147
_
Conociendo la media X = 60 y la desviación estándar S=7.74,
considera 3 desviaciones estándar y encuentra:
a) Intervalo que contiene al menos el 88% del total de datos
________________________________________________
b) El 88% de 50
________________________________________________
c) En la lista ordenada destaca subrayando en color los datos que
caen en el intervalo:
43
44
45
47
48
48
50
51
53
53
54
54
55
56
56
56
56
57
57
58
58
59
60
60
60
60
61
61
61
62
62
62
63
64
64
65
65
65
65
65
67
67
68
69
70
70
72
75
79
80
Después de calcular lo que se te pide, indica si se cumple o no el
Teorema de Chebyshev.
________________________________________________
LECTURA 4
Como un refuerzo a lo que acabas de aprender, te recomiendo leer el
libro Fundamentos de la Estadística en la Investigación Social escrito por
Jack Levin de la página 55 a la 70, incluido al final de esta guía, después de
la lectura escribe el resumen correspondiente.
148
Estadística Descriptiva
Elabora el Resumen de la Unidad 4 identificando y completando el
siguiente mapa conceptual, al final de la guía lo encontrarás resuelto, de ser
posible, confronta tus respuestas y corrígelas en caso de ser erróneas.
DESCRIPCIÓN DE LOS DATOS A
TRAVÉS DE LAS MEDIDAS DE:
__________________________________
Valores centrales de una distribución que
representan a todos los datos.
__________________.-Suma de valores de
todas las observaciones divida entre el
número de observaciones realizadas
DATOS NO AGRUPADOS:
Muestra
Población
_
∑X
∑X
X =--------µ = ----------n
N
DATOS AGRUPADOS:
_
∑ _______
∑_______
X =---------------µ = ----------n
N
__________________________________
Evalúan la variabilidad o dispersión de los
datos.
RANGO___________________________
____________________________
R = Valor máximo - Valor mínimo
RANGO ______________ diferencia entre
los valores del primero y tercer cuartil:
Q = Q3 - Q1
______________________:
n/4 - F1
Q1= Li + ( --------------- ) A
f1
Para Q2 se toma 2n/4 y para Q2, 3n/4
___________ es el valor (o valores) de
la(s) variable(s) que ocupa (n) el (los)
lugar(es) central(es) de los datos ordenados
por magnitud:
DATOS NO AGRUPADOS:
a) Número par de datos es el promedio de
valores centrales
b) Número impar de datos es ___________
______________________________
DATOS AGRUPADOS:
n/2 -F
Md = Li + ( ---------- ) A
f
___________________es el promedio de
las desviaciones a partir de la media:
__________valor (o valores) de la variable
que se presenta(n) con mayor frecuencia.
DATOS NO AGRUPADOS:
a) Ordenar en forma ascendente y realizar
conteo
__________________ es la raíz cuadrada
del promedio de las desviaciones con
respecto a la media elevadas al cuadrado.
DATOS NO AGRUPADOS:
_
√∑(xi - X)2
S = ----------------- muestral
n-1
√∑fMc2
S = ----------------- muestral
n-1
DATOS AGRUPADOS:
d1
Md = Li + ( ---------- ) A
d1+d1
Continúa Resumen de la Unidad 4:
DATOS NO AGRUPADOS:
_
∑⏐xi -X⏐
DM = -----------n
DATOS AGRUPADOS:
_
∑f⏐Mc-X⏐
DM=-------------n
149
DESCRIPCIÓN DE LOS DATOS A
TRAVÉS DE LAS MEDIDAS DE:
__________________________________
Valores centrales de una distribución que
representan a todos los datos.
__________________________________
Evalúan la variabilidad o dispersión de los
datos.
______________________es el promedio
de las desviaciones con respecto a la media
elevadas al cuadrado.
DATOS NO AGRUPADOS:
_
∑(xi - X)2
S2 = ----------------- muestral
n-1
∑fMc2
S2 = ----------------- muestral
n-1
___________________________________
________________, si X es la media y S la
desviación estándar de una muestra, su
fórmula es:
CV = --------(100)
Permite comparar la homogeneidad de los
datos en dos conjuntos.
______________________ utiliza la desviación
típica de un conjunto de observaciones para
medir las variaciones de los datos con respecto a la
media de tal forma que mientras más pequeña sea
la desviación, es más probable obtener un valor
cercano a la media y por el contrario, mientras
mayor sea la desviación es más probable obtener
un valor alejado de la media.
Si se consideran 2 desviaciones estándar:
en el intervalo (X - 2S, X + 2S) cae al menos el
_____% de los datos.
Si se consideran 3 desviaciones estándar:
en el intervalo (X -3S, X + 3S) cae como mínimo
el _____% de los datos.
150
Estadística Descriptiva
EVALUACIÓN
1) Completa la siguiente tabla, calcula las Medidas de Tendencia
Central de la distribución obtenida al evaluar a 50 alumnos en la asignatura
de Investigación de Campo I y contesta lo que se te pregunta en los incisos:
CALIFICACIÓN NÚMERO DE
X
ALUMNOS
f
5
6
6
5
7
11
8
12
9
14
10
2
50
fX
fa
a) Como la media es ________ entonces los 50 alumnos tienen esta
calificación como representativa del grupo.
b)La _________ indica que el número más numeroso de estudiantes
tiene calificación de _______
c) El valor central de la distribución es la ____________ que tiene el
valor de __________ e indica que el 50% de los alumnos (25 alumnos)
obtuvieron calificaciones entre ________ y _____________.
151
2) En un Archivo Histórico, al tomar una muestra representativa de 142
expedientes en forma arbitraria y contar el número de hojas se obtuvo la
siguiente información:
CLASES
(HOJAS)
X
5 -19
20-34
35-49
50-64
65-79
NÚMERO DE
EXPEDIENTES
f
26
18
14
36
48
142
Calcula las medidas de tendencia central y escríbelas anotando una
conclusión en cada caso:
a)
Media:
_______________________________________________________
Conclusión:
_____________________________________________________
b)
Moda:
________________________________________________________
Conclusión:
_____________________________________________________
c)
Mediana:
______________________________________________________
Conclusión:
_____________________________________________________
d) Calcula la desviación media e interprétala:
El Jefe del Archivo desea modificar la cubierta de cada expediente y
tiene la opción de comprar carpetas de un sólo tipo que puede ser:
- Con capacidad para 50 hojas
- Con capacidad para 70 hojas
Tomando en consideración los resultados de las medidas de tendencia
central que obtuviste ¿cuál de los dos tipos de carpetas le sugerirías a tu
jefe
que
comprara
y
por
qué?________________________________________________________
___
152
Estadística Descriptiva
153
3) La siguiente gráfica simétrica tiene un nombre especial por su forma,
se le denomina “normal”, une con una recta el lugar en donde consideras
que se encuentran las medidas de tendencia central:
CURVA SIMÉTRICA
MESOCÚRTICA
(NORMAL)
10
8
6
4
Media
Moda
Mediana
2
C A LIF IC A C I ÓN
9
6
3
0
0
a) ¿Qué valor crees que tenga la Media?
_____
__________________________________
____
ENVÍA A TU ASESOR
¡FELICIDADES!
Ahora que has finalizado la materia, espero que continúes
con ímpetu el resto de la carrera. Bien por tí
154
Estadística Descriptiva
RESUMEN DE LA UNIDAD I
ESTADÍSTICA
OBJETO
Inferir el comportamiento
de una población a través
del análisis de una muestra.
Ciencia de la recopilación,
clasificación, presentación e
interpretación de datos.
SE CLASIFICA EN
DESCRIPTIVA
Incluye obtención, organización y
presentación de datos, así como la
descripción numérica que muestra
el comportamiento de una población
o muestra.
TIENEN COMO BASE
UNA
POBLACIÓN QUE ES:
Un conjunto de individuos u objetos de
interés bien definidos. Su tamaño es N y
sus características son descritas por
parámetros como el porcentaje.
PUEDE SER:
1) FINITA
Tiene primer y
último elemento
2) INFINITA
Tiene primer
elemento pero no
último
INFERENCIAL
Está integrada por métodos descriptivos
que permiten la generalización del
comportamiento de una población a
partir de los resultados obtenidos de una
muestra que la represente.
MUESTRA REPRESENTATIVA
Parte de la población que la representa, su
tamaño se indica con n. Los estadísticos o
O UNA PARTE
estadígrafos son números que describen sus
características, un ejemplo es el promedio.
SUS CARACTERÍSTICAS
SE DENOMINAN
VARIABLES Y SON:
NOMINAL
CUALITATIVA
ORDINAL
DISCRETA
CUANTITATIVA
CONTINUA
CLASIFICÁNDOSE SEGÚN LAS SIGUIENTES
ESCALAS DE MEDICIÓN:*
- NOMINAL
- ORDINAL
- INTERVALO
- ABSOLUTA
*Escalas de medición:
a) Nominal.- Se utiliza como medida de identificación con variables nominales.
b) Ordinal.- Permite la manipulación de variables ordinales.
c) Intervalo o Absoluta:- Maneja variables cuantitativas.
155
RESUMEN DE LA UNIDAD 2
TIPOS DE DATOS
CATEGÓRICOS
Permiten agrupar por
categorías
ORDENADOS POR RANGO
Establecen un orden entre
categorías para compararlas
MÉTRICOS
Introducen medidas que
facilitan la comparación
DISTRIBUCIONES DE FRECUENCIA
POBLACIÓN O MUESTRA PEQUEÑA
SIMPLE CUYA ESTRUCTURA ES:
a) TITULO
b) PERÍODO DE TIEMPO
c)
d)
CATEGORÍAS
FRECUENCIA
A
B
f
f
SUMA DE f
g) PIE
TO T A L
e)
f) FUENTE
donde:
a) Título que explique brevemente el
contenido de la tabla
b) Fecha o período de tiempo en que se
efectuó la investigación
c) Encabezados de cada columna
d) Cuerpo que contiene la información de las
categorías
e) Final o total de las columnas
f) Fuente de la información
g) Observaciones importantes
a)
b)
c)
d)
156
ORDINALES
NOMINALES
CONTINUAS
DISCRETAS
POBLACIÓN O MUESTRA GRANDE
PARA DATOS AGRUPADOS CUYA
ESTRUCTURA ES:
CLASES f
Mc
fr
fa
far
a)
b)
c)
d)
e)
f)
donde:
a)Clases o intervalos formados por límite inferior
y límite superior
b) Frecuencia absoluta de cada clase
c) Marca de clase o punto medio del intervalo
d) Frecuencia relativa proporción de la frecuencia
de cada intervalo con respecto a la suma de
frecuencias absolutas
e)Frecuencia acumulada que indica el intervalo
donde se encuentra un dato específico
f)Frecuencia acumulada relativa proporción de la
frecuencia acumulada de cada intervalo con
respecto a la suma de frecuencias absolutas.
TIPO DE VARIABLES QUE UTILIZAN
D
a) CONTINUAS
b) DISCRETAS
Estadística Descriptiva
RESUMEN DE LA UNIDAD 3
TIPOS DE GRÁFICAS
GRÁFICA DE SECTORES:
Características:
a)Es una circunferencia en el primer cuadrante del plano
cartesiano donde a la frecuencia de cada categoría le
corresponde un sector
b) Representación gráfica de una tabla de distribución de
frecuencias simple
c) El número de categorías a considerar debe ser menor
que en el de barras
HISTOGRAMA
Características:
a) Son barras unidas que se trazan en el primer cuadrante
del plano cartesiano
b) Representación gráfica de una distribución de
frecuencias para datos agrupados
c) En el eje de las “X” se marcan los puntos medios de
cada intervalo
d) En el eje de las “Y” se consideran las frecuencias
correspondientes a cada intervalo
OJIVA PORCENTUAL:
Características:
a) Gráfica lineal trazada en el primer cuadrante del plano
cartesiano que tiene forma de “S”
b) Representación gráfica de una distribución de
frecuencias acumuladas para datos agrupados
c) En el eje de las “X” se marcan los límites reales
superiores de cada intervalo
d) En el eje de las “Y” se marcan las frecuencias
acumuladas correspondientes a cada intervalo
e) Permite hacer estimaciones del comportamiento de los
datos considerando uno en particular
DIAGRAMA DE BARRAS
Características:
a) Son barras del mismo ancho trazadas en el primer
cuadrante del plano cartesiano
b) Las barras deben estar separadas por espacios en
blanco
d) Representación gráfica de una tabla de distribución de
frecuencias simple
e) Pocas categorías
VARIABLES
CONSIDERADAS
a) Nominal
b) Ordinal
VARIABLES
CONSIDERADAS
a) Continuas
b) Discretas
VARIABLES
CONSIDERADAS
a) Continuas
b) Discretas
VARIABLES
CONSIDERADAS
a) Nominal
b) Ordinal
157
RESUMEN DE LA UNIDAD 3
TIPOS DE GRÁFICAS
POLÍGONO DE FRECUENCIAS:
Características:
a) Gráfica lineal trazada en el primer cuadrante del
plano cartesiano que une los puntos medios de cada
clase a la altura de su frecuencia correspondiente
b) Representación gráfica de una distribución de
frecuencias para datos agrupados
c) En el eje de las “X” se marcan los puntos medios
de cada intervalo, agregándose uno al inicio y otro al
final de los que se están considerando
d) En el eje de las “Y” las frecuencias
correspondientes a cada intervalo, agregándose dos en
cero que corresponden a las marcas de clase indicadas
en el inciso anterior.
VARIABLES
CONSIDERADAS
a) Continuas
b) Discretas
NOTA: Es recomendable que todas las gráficas tengan un título que describa brevemente la
información que está siendo representada, así como la fuente de información, ya que éstas deben
ser autoexplicativas; con excepción de la gráfica de sectores, todas deben contener un título en
cada uno de los ejes que indique el tipo de datos que se están representando.
158
Estadística Descriptiva
RESUMEN DE LA UNIDAD 4
DESCRIPCIÓN DE LOS DATOS A
TRAVÉS DE LAS MEDIDAS DE:
TENDENCIA CENTRAL
Valores centrales de una distribución que
representan a todos los datos.
DISPERSIÓN
Evalúan la variabilidad o dispersión de los
datos.
MEDIA ARITMÉTICA.-Suma de valores
de todas las observaciones divida entre el
número de observaciones realizadas
DATOS NO AGRUPADOS:
Muestra
Población
_
∑X
∑X
X =--------µ = ----------n
N
RANGO o amplitud total considera valores
extremos:
R = Valor máximo - Valor mínimo
DATOS AGRUPADOS:
_
∑fMc
∑fMc
X =----------µ = ----------n
N
RANGO INTERCUARTIL diferencia entre
los valores del primero y tercer cuartil:
Q = Q3 - Q1
CUARTILES:
n/4 - F1
Q1= Li + ( --------------- ) A
f1
Para Q2 se toma 2n/4 y para Q2, 3n/4
MEDIANA es el valor (o valores) de la(s)
variable(s) que ocupa (n) el (los) lugar(es)
central(es) de los datos ordenados por
magnitud:
DATOS NO AGRUPADOS:
a) Número par de datos es el promedio de
valores centrales
b) Número impar de datos es el dato central
DATOS AGRUPADOS:
n/2 -F
Md = Li + ( ---------- ) A
f
DESVIACIÓN MEDIA es el promedio de
las desviaciones a partir de la media:
MODA valor (o valores) de la variable que
se presenta(n) con mayor frecuencia.
DATOS NO AGRUPADOS:
a) Ordenar en forma ascendente y realizar
conteo
DESVIACIÓN TÍPICA O ESTÁNDAR es
la raíz cuadrada del promedio de las
desviaciones con respecto a la media
elevadas al cuadrado.
DATOS NO AGRUPADOS:
_
√∑(xi - X)2
S = ----------------- muestral
n-1
√∑fMc2
S = ----------------- muestral
n-1
DATOS AGRUPADOS:
d1
Md = Li + ( ---------- ) A
d1+d1
RESUMEN DE LA UNIDAD 4
DATOS NO AGRUPADOS:
_
∑⏐xi -X⏐
DM = -----------n
DATOS AGRUPADOS:
_
∑f⏐Mc-X⏐
DM=-------------n
DESCRIPCIÓN DE LOS DATOS A
TRAVÉS DE LAS MEDIDAS DE:
159
TENDENCIA CENTRAL
Valores centrales de una distribución que
representan a todos los datos.
DISPERSIÓN
Evalúan la variabilidad o dispersión de los
datos
VARIANZA O VARIANCIA es el
promedio de las desviaciones con respecto
a la media elevadas al cuadrado.
DATOS NO AGRUPADOS:
_
∑(xi - X)2
S2 = ----------------- muestral
n-1
∑fMc2
S2 = ----------------- muestral
n-1
:
COEFICIENTE DE VARIACIÓN O
DISPERSIÓN RELATIVA, si X es la
media y S la desviación estándar de una
muestra, su fórmula es:
S
CV = --------(100)
X
Permite comparar la homogeneidad de los
datos en dos conjuntos.
TEOREMA DE CHEBYSHEV utiliza la desviación típica de
un conjunto de observaciones para medir las variaciones de
los datos con respecto a la media de tal forma que mientras
más pequeña sea la desviación, es más probable obtener un
valor cercano a la media y por el contrario, mientras mayor
sea la desviación es más probable obtener un valor alejado de
la media.
Si se consideran 2 desviaciones estándar:
en el intervalo (X - 2S, X + 2S) cae al menos el 75% de los
datos
Si se consideran 3 desviaciones estándar:
en el intervalo (X -3S, X + 3S) cae como mínimo el 88% de
los datos
160
Estadística Descriptiva
Lecturas
LECTURAS
LECTURA 1
Métodos Estadísticos para Bibliotecarios. Carpenter, Ray L.
Estadísticas
Resumidas.............................................................................................161
Fundamentos de Estadística en la Investigación Social. Jack Levin.
LECTURA 2
Gráficas............................................................................................................
.........169
LECTURA 4
Medidas
de
Dispersión
Variabilidad......................................................................177
o
LECTURA 3
Estadística Paso a Paso. Christensen, Howard B.
Medidas
de
Posición:
media,
moda.........................................................193
y
mediana
159
160
Estadística Descriptiva
Lecturas
CARPENTER, Ray L. Métodos Estadísticos
para Bibliotecarios. México, UNAM, 1980,
p. 25-30
161
162
Estadística Descriptiva
Lecturas
163
164
Estadística Descriptiva
Lecturas
165
166
Estadística Descriptiva
Lecturas
167
168
Descargar