Distribucion de frecuencias

Anuncio
CONTENIDO
INTRODUCCIÓN
DEFINICIÓN DE ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA
CONCEPTOS BÁSICOS
POBLACIÓN
VARIABLE: Cualitativas o Categóricas y Cuantitativas (Discretas y
Continuas)
MUESTRA
TAMAÑO MUESTRAL
DATO
DISTRIBUCIONES DE FRECUENCIAS
FRECUENCIA ABSOLUTA
FRECUENCIA RELATIVA
FRECUENCIA ACUMULADA
FRECUENCIA RELATIVA ACUMULADA
DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS
MÉTODOS GRÁFICOS
DIAGRAMA DE BARRAS
DIAGRAMA DE SECTORES O DE PASTEL
HISTOGRAMA
MEDIDAS DESCRIPTIVAS DE POSICIÓN Y DISPERSIÓN
MEDIDAS DE POSICIÓN
MEDIDAS DE POSICIÓN CENTRAL
MEDIA ARITMÉTICA
MEDIANA
MODA
MEDIDAS DE POSICIÓN NO CENTRALES
PERCENTILES
CUARTILES
MEDIDAS DE DISPERSIÓN
MEDIDAS DE DISPERSIÓN ABSOLUTAS
VARIANZA
DESVIACIÓN TÍPICA
RECORRIDO INTERCUARTÍLICO
MEDIDAS DE DISPERSIÓN RELATIVAS
COEFICIENTE DE VARIACIÓN DE PEARSON
OTRAS MEDIDAS DESCRIPTIVAS
TIPIFICACIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIAS
ESTADISTICA DESCRIPTIVA
INTRODUCCION
1.1 DEFINICIÓN DE ESTADÍSTICA: es un conjunto de teorías y métodos
desarrollados para la recopilación, representación y el uso de datos sobre una
o varias características de interés con el objeto de tomar decisiones, extraer
conclusiones o emprender acciones.
1.2 ESTADÍSTICA DESCRIPTIVA: es la parte de la estadística que se encarga
de organizar, resumir y describir las características principales de los datos.
Generalmente se resumen en forma tabular, grafica o numérica. El análisis se
limita en si mismo a los datos coleccionados y no se realiza inferencia alguna o
generalizaciones acerca de la totalidad de donde provienen esas
observaciones.
1.3 ESTADÍSTICA INFERENCIAL: Es la que trata de estimar
características de una población a través del estudio de una muestra.
las
1.4 CONCEPTOS BÁSICOS:
POBLACIÓN: Es una colección finita o infinita de elementos con
características comunes. Ejemplo: las personas, libros de una biblioteca, etc.
Algunas poblaciones son finitas y pueden conocerse; otras pueden ser infinitas
y abstractas: Ej. el conjunto de hoteles, establecimientos comerciales de una
ciudad o el conjunto de todas las piezas fabricadas por una máquina.
VARIABLE: Toda característica que puede tomar diferentes valores (Ej.
número de hijos, precio de la habitación) Las variables se suelen denotar por
letras mayúsculas: X, Y,...
Tipos de variables:
1. Cualitativas o Categóricas: aquellas que no son medibles, es decir,
aquellas cuyas observaciones no tienen carácter numérico. Expresan
cualidades o categorías. Ej. estado civil, sexo o profesión.(A las variables
cualitativas también se les llama atributos).
2. Cuantitativas: aquellas que son medibles, es decir sus observaciones
tienen carácter numérico. Estas se dividen a su vez en:
•Discretas: toman valores enteros en un conjunto numerable. Ej.
Número de habitaciones de un hotel, número de hijos de una familia, número
de obreros de una fábrica.
•Continuas: toman valores en un conjunto no numerable (los números
reales o un intervalo). Ej. peso, estatura.
MUESTRA: Es un subconjunto de la población. Se denota por n.
DATO: cada valor observado de la variable. Si representamos por X a la
variable, representaremos por xi cada dato diferente observado en la muestra,
el subíndice “i” indica el lugar que ocupa si los ordenamos de menor a mayor.
Prof. Simón Cabrera
página 2 de 32
ESTADISTICA DESCRIPTIVA
MEDICIÓN: La asignación o magnitud que se aplica a las categorías o clases
de acuerdo a ciertas reglas o símbolos. Una medición se puede definir como la
manera de obtener símbolos para representar propiedades de personas,
objetos, eventos o estados cuyos símbolos tienen la misma relación relevante
entre si igual a las entidades que representan.
ESCALAS DE MEDICIÓN DE LAS VARIABLES
Las escalas de medición son el conjunto de los posibles valores que
determinada variable puede tomar. Por tal razón, los tipos de escala de
medición están íntimamente ligadas con los tipos de variables a estudiar. Las
magnitudes de las observaciones cuantitativas se conocen como los valores
que una variable puede asumir. Dependiendo de la medición y de la esencia de
las variables, se obtienen diversas clases de datos que originan diferentes
escalas. Resulta imprescindible conocer el tipo de escala que representan los
datos, debido a que, de su esencia dependen las técnicas estadísticas que se
deberán aplicar para su análisis.
Al elaborar estadísticas con datos y su característica es necesario contarlas,
jerarquizarlas y medirlas, es por ello que, se utilizan las escalas de medición
como el proceso de asignar números o establecer una correspondencia uno a
uno entre objetivos y observaciones. Las escalas de medición sé clasifican de
la siguiente forma: Escala Nominal, Escala Ordinal, Escala de Intervalos y
Escalas de razón o Proporción.
Escala de Medición Nominal: Consiste en clasificar a los elementos,
personas, animales, etc, asignándoles símbolos o nombres. Los datos que se
obtienen para una variable cualitativa se miden en una escala nominal y
simplemente se clasifican en distintas categorías que no implican orden. La
escala nominal es la forma más débil de medición porque no se puede aplicar
operaciones aritméticas ni intentar el conteo de las diferencias dentro de una
categoría determinada o especificar cualquier orden o dirección a lo largo de
las diversas categorías.
Propiedades de la Escala Nominal
1. No intervienen mediciones, ni escala, en vez de esto solo hay cuentas o
conteos.
2. No existe un orden específico para esta categoría.
3. No presentan el cero.
4. No se basa en diferencia cuantitativa.
Ejemplos: Una muestra de personas puede clasificarse con base en la religión
profesada: (1) Cristianos; (2) Judíos; (3) Musulmanes; (4) Otros; y (5) Sin
Creencia alguna. O bien podrían clasificarse según el sexo, el color de los
ojos, algún partido político, etcétera. Otros ejemplos de escala nominal puede
ser el numero de placa de los vehículos, los números de los teléfonos de una
ciudad, la Cedula de Identidad de los habitantes de un país, etcétera.
Prof. Simón Cabrera
página 3 de 32
ESTADISTICA DESCRIPTIVA
El tipo de operación estadística más utilizada en la escala nominal es el conteo
de las frecuencias (distribuciones de frecuencias), con que se presentan las
características en las unidades de las respectivas subclases. Estas frecuencias
pueden ser presentadas con números absolutos, porcentajes y proporciones.
Además, puede calcularse la moda, razones, tasas de incremento, y el
coeficiente de contingencia. Tipos de gráficos: Diagrama de Barras.
Escala de Medición Ordinal: Establece una relación de orden entre los
elementos (personas, animales, objetos, etc.), en atención a una característica,
sin que reflejen distancia entre ellos. La diferencia entre dos números ordinales
no tiene significado cuantitativo, sólo expresan, por ejemplo, que una situación
es mejor que otra, pero no dice cuanto es uno que el otro.
La escala ordinal sigue siendo una forma de medición débil porque no se
pueden hacer planteamientos numéricos significativos con respecto a las
diferencias entre las categorías. Es decir, la ordenación establece sólo cuál
categoría es “mayor”, “mejor” o “preferida”; y no se habla cuánto es “mayor”,
“mejor” o más “preferida”.’Esta escala se emplea, cuando un estudio esta
basado en ciertas normas que se asignan a un conjunto de objetos, personas
o características o a un conjunto de categorías ordenadas. Las categorías de
la escala se ordenan dé acuerdo con la cantidad de rasgos o características
que representan cada una de ellas ya que la escala ordinal distingue los
diferentes valores de la variable, ubicando las características en orden, desde
la más alta hasta la más baja.
La diferencia fundamental entre una escala nominal y una ordinal es que en la
ordinal rige no sólo la relación de igualdad, de identidad, sino también la
relación de “mayor que”.
Propiedades de la Escala Ordinal
1. Las observaciones o elementos se les ordena en rangos o categorías
diferentes.
2. Las categorías son mayores o menores que otras categorías, es decir,
que existe una clasificación de mayor a menor (jerarquía).
3. Las categorías son mutuamente excluyentes y exhaustivas.
4. No presentan el cero.
Ejemplos:
Calificaciones de Estudiantes de Estadística en el Semestre 2005-2006
Calificaciones
Excelente
Sobresaliente
Distinguido
Bueno
Satisfactorio
Deficiente
Muy Deficiente
Prof. Simón Cabrera
Nº de calificaciones
3
6
10
38
25
50
0
página 4 de 32
ESTADISTICA DESCRIPTIVA
Se pueden clasificar los habitantes de una ciudad de acuerdo a su situación
económica, a los estudiantes tomando en cuenta a su rendimiento académico,
el orden jerárquico de los militares (Subteniente, Teniente, Capitán, Mayor,
Teniente Coronel, Coronel, General) y la clasificación académica de los
profesores universitarios (Instructor, Asistente, Agregado, Asociado, Titular),
etcétera. Aunque la escala ordinal resulta en cierta forma más precisa que la
nominal, no alcanza el grado de precisión deseado en una investigación.
El tipo de operación estadística más utilizada en la escala ordinal es la
mediana, percentiles, cuartiles, mínimo y máximo. Tipos de gráficos: Diagrama
de barras (con un orden) y gráficos de caja.
Escala de Medición de Intervalos: Tiene todas las características de una
escala ordinal, además permite conocer la distancia entre dos números
cualquiera. Esta escala se caracteriza por tener una unidad de medida y un
origen (cero) arbitrario. La escala de intervalos a diferencia de la nominal y
ordinal, es una escala efectivamente cuantitativamente. Una escala de intervalo
es una escala ordenada en la cual la diferencia entre las mediciones es una
cantidad significativa.
La escala de intervalos posee además, de las características de la escala
nominal y ordinal, la propiedad de que la distancia entre dos valores es de una
magnitud conocida, lo que le permite a esta escala un mayor grado de
perfección, ya que proporciona números que manifiestan diferencias palpables
entre individuos, objetos o cosas.
La razón entre dos intervalos es siempre independiente del punto cero y de la
unidad que se emplee en la medición. En el caso de las escalas de intervalos
las unidades de medición son iguales.
Propiedades de la escala de Intervalo:
1. Esta escala implica la cuantificación de los datos
2. En estás medidas se utilizan unidades constantes de medición
(capacidad, peso, Céntimos, grados Fahrenheit o centígrados) los
cuales producen intervalos iguales entre puntos de la escala.
3. Proporcionan números que manifiestan diferencias palpables entre
individuos, objetos o cosas.
4. En esta escala de intervalos el punto cero (0) y la unidad de medida es
arbitrario.
5. Se pueden aplicar todas las medidas estadísticas más conocidas, con
excepción del coeficiente de variación.
6. Son mutuamente exclusivas y exhaustivas.
Prof. Simón Cabrera
página 5 de 32
ESTADISTICA DESCRIPTIVA
Ejemplos:
Calificación de una prueba de Estadística realizada en la UCV
Puntuación
90-99
80-89
70-79
60-69
Menos de 60
Nº de Estudiantes
2
6
15
30
60
Otro ejemplo de esta escala lo constituyen las escalas utilizadas para medir
temperatura, bien sea en grados Centígrados o Fahrenheit. En estas escalas la
diferencia entre 80º y 85º es igual a la que existe entre 90º y 95º o entre dos
puntos cualesquiera de la escala.
Las estadísticas apropiadas para esta escala son: media, desviación estándar,
rango, varianza, coeficiente de variación, asimetría y kurtosis. Tipos de
gráficos: histograma, polígono de frecuencias y gráfico de tallos y hojas.
Escala de Medición de Razón o Proporción: Esta constituye el nivel más alto
de medición, posee todas las características de las escalas nominales,
ordinales y de intervalos; además tiene un cero absoluto o natural que tiene
significado físico. Si en ella la medición es cero, significa ausencia o
inexistencia total de la propiedad considerada. Son posibles todas las
operaciones aritméticas. Los números indican los valores concretos de la
propiedad que sé esta midiendo; peso, estatura, ingresos monetarios y gastos
directos, son ejemplos de medidas con una escala de razón.
Cuando se emplea este tipo de escala, los números indican razones o
cocientes entre ciertas magnitudes de los objetos, y los datos obtenidos con
tales escalas pueden ser sometidos a los tratamientos más elaborados.
Propiedades de la escala a razón:
1. La distancia entre los números es un tamaño conocido y constante.
2. Los datos tienen un punto cero significativo.
3. Puede utilizarse cualquier prueba de tipo estadístico, incluyendo el
coeficiente de variación.
4. Permite hacer comparaciones entre los números verdaderos con un cero
aritmético siendo arbitrario únicamente la unidad de medida.
Ejemplo de escala a razón:
Computadores vendidos en el último trimestres del año 2006
Meses
Octubre
Noviembre
Diciembre
Prof. Simón Cabrera
Nº de computadores
4.000
6.000
15.000
página 6 de 32
ESTADISTICA DESCRIPTIVA
Otros ejemplos de esta escala son: la medición del peso o altura de un grupo
de personas, el ingreso familiar, la intensidad de corriente eléctrica de un cable,
la edad de un grupo de personas, etc.
Generalmente, se supone que los datos que se obtienen para una variable
cuantitativa se miden en escalas de intervalo o de razón. Estas escalas
constituyen los niveles más elevados de medición. Son formas más fuertes de
medición que la escala nominal y ordinal, porque permiten comprender no sólo
cuál de los valores de un estudio es mayor o menor, sino por cuántas
unidades de medida. Las escalas de razón son medidas de Longitud, peso,
capacidad, etc., los números reflejan razones entre particularidades y los datos
obtenidos según tales escalas pueden ser sometidas a cualquier tratamiento
estadístico
Prof. Simón Cabrera
página 7 de 32
ESTADISTICA DESCRIPTIVA
ORGANIZACIÓN DE LOS DATOS
2. DISTRIBUCIONES DE FRECUENCIAS
La distribución de frecuencia es una disposición tabular de datos estadísticos,
ordenados ascendente o descendentemente, de acuerdo a la frecuencia de
cada dato. Las frecuencias pueden ser:
2.1 FRECUENCIA ABSOLUTA (fi):
Es el número de veces que se repite un determinado valor de la variable (xi).
Se designa por fi.
PROPIEDAD: la suma de todas las frecuencias absolutas es igual al total de
observaciones (n).
2.2 FRECUENCIA ACUMULADA (Fi):
Las frecuencias acumuladas de una distribución de frecuencias son aquellas
que se obtienen de las sumas sucesivas de las fi que integran cada una de las
filas de una distribución de frecuencia, esto se logra cuando la acumulación de
las frecuencias se realiza tomando en cuenta la primera fila hasta alcanzar la
ultima. Las frecuencias acumuladas se designan con las letras Fi. Se calcula:
i
Fi =∑ f j = Fi −1 + f i
j =1
PROPIEDAD: La última frecuencia acumulada absoluta es igual al total de
observaciones.
2.3 FRECUENCIA RELATIVA (hi):
Es aquella que resulta de dividir cada una de las frecuencias absolutas entre el
número total de datos. Las frecuencias relativas se designan con las letras hi.
f
Se calcula, hi = i
n
PROPIEDAD: la suma de todas las frecuencias relativas es igual a la unidad.
.
2.4 FRECUENCIA RELATIVA ACUMULADA (Hi):
Es aquella que resulta de dividir cada una de las frecuencias acumuladas entre
F
número total de datos. Se designa con las letras Hi . Se calcula; H i = i
n
PROPIEDAD: La última frecuencia relativa acumulada es la unidad.
Prof. Simón Cabrera
página 8 de 32
ESTADISTICA DESCRIPTIVA
DISTRIBUCION DE FRECUENCIAS ABSOLUTAS
Es la representación estructurada en forma de tabla de toda la información que
se ha recogido sobre la variable que se estudia, es decir, es una tabla que
presenta de manera ordenada los distintos valores de una variable y sus
correspondientes frecuencias. Su forma mas común es la siguiente:
Variable (xi)
x1
x2
...
xn
fi
f1
f2
...
fn
Σfi=n
Fi
F1
f1+f2
...
f1+f2+ … + fn
hi
h1= f1/n
h2= f2/n
...
hn= fn/n
Σhi=1
Hi
h1
h1+h2
...
h1+h2+ … + hn
Ejemplo 1:
El gobierno desea averiguar si el número medio de hijos por familia ha
descendido respecto de la década anterior. Para ello ha encuestado a 50
familias respecto al número de hijos, y ha obtenido los siguientes datos:
0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 6
Se pide:
a. Construir la tabla de frecuencias absolutas
b. ¿Cuál es el número de familias que tiene como máximo dos hijos?
c. ¿Cuántas familias tienen más de 1 hijo pero como máximo 3?
d. ¿Qué porcentaje de familias tiene más de 3 hijos?
Solución:
a. Para construir la tabla de frecuencias hay que tener en cuenta que la
variable en estudio es el número de hijos (discreta), que toma los valores
existentes entre 0 y 6 hijos y las frecuencias son el conjunto de familias, de
esta forma tenemos:
fi
Fi
hi
Hi
xi
0
2
2
0.04
0.04
1
4
6
0.08
0.12
2
21
27
0.42
0.54
3
15
42
0.3
0.84
4
6
48
0.12
0.96
5
1
49
0.02
0.98
6
1
50
0.02
1
n=50
b. En la columna de las fi: 2+4+21=27 ó en la columna de las Fi: F2= 27
c. En la columna de las fi: 21+15=36 ó en la columna de las Fi: 42-6=36
d. En la columna de las hj: 0.12+0.02+0.02=0.16, que supone un 16% ó en
la columna de las Hi: 1-0.84=0.16, 16%
Prof. Simón Cabrera
página 9 de 32
ESTADISTICA DESCRIPTIVA
DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS
Es aquella distribución en la que la disposición tabular de los datos estadísticos
se encuentran ordenados en clases y con la frecuencia en cada clase; es decir,
los datos originales de varios valores adyacentes del conjunto se combinan
para formar un intervalo de clase. No existen normas establecidas para
determinar cuándo es apropiado utilizar datos agrupados o datos no
agrupados; sin embargo, se sugiere que cuando el número total de datos (N)
es igual o superior 50 y además el rango o recorrido de la serie de datos es
mayor de 20, entonces, se utilizará la distribución de frecuencia para datos
agrupados, también se utilizará este tipo de distribución cuando se requiera
elaborar gráficos lineales como el histograma, el polígono de frecuencia o la
ojiva.
La razón fundamental para utilizar la distribución de frecuencia de clases es
proporcionar mejor comunicación acerca del patrón establecido en los datos y
facilitar la manipulación de los mismos. Los datos se agrupan en clases con el
fin de sintetizar, resumir, condensar o hacer que la información obtenida de una
investigación sea manejable con mayor facilidad.
Al agrupar los datos en una distribución de frecuencia de clase se pierde parte
de la información. La reducción o agrupamiento a que son sometidos los datos
de una serie de valores cuando existen muchos valores diferentes, originan los
denominados errores de agrupamiento; sin embargo, estos errores son en
general muy pequeños, razón por la cual la distribución de frecuencia de clase
tiene una validez estadística práctica.
Para agrupar los datos en intervalos de clase se deben seguir las siguientes
reglas generales:
• El numero de intervalos de clase se toma entre 5 y 15 dependiendo de
los datos.
• Cada observación debe estar incluida en una y solo una clase o
intervalo.
• El valor mas pequeño y mas grande deben entrar en la clasificación.
• No deben existir brechas o vacíos entre clases sucesivas.
• Los intervalos no se deben sobreponer.
• En la medida de lo posible, se debe utilizar la misma amplitud para todos
los intervalos.
COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIAS DE CLASES
1.- Clase o Intervalo de clase.- Son divisiones o categorías en las cuales se
agrupan un conjunto de datos ordenados con características comunes. Para
organizar los valores de la serie de datos hay que determinar un número de
clases que sea conveniente. En otras palabras, que ese número de intervalos
no origine un número pequeño de clases ni muy grande. Un número de clases
pequeño puede ocultar la naturaleza natural de los datos y un número muy alto
puede provocar demasiados detalles como para observar alguna información
de gran utilidad en la investigación. A las fronteras del intervalo, la llamaremos,
límites inferior y superior de la clase y los denotaremos por Li-1, Li.
Prof. Simón Cabrera
página 10 de 32
ESTADISTICA DESCRIPTIVA
2.- Punto medio o Marca de clase ( X& ).- Es la semisuma del límite inferior y
•
L +L
superior de una clase, tal como lo indica la siguiente formula: X i = i i −1 .
2
3.- Amplitud , Longitud o Tamaño del Intervalo.- Los intervalos de clases
pueden ser de tres tipos: Clases de igual tamaño, clases de tamaños
desiguales y clases abiertas. En términos generales, las clases de igual tamaño
son los mas utilizados y recomendados para los cálculos estadísticos. Se
designa por las letras Ic.
Nota: Al número de observaciones de una clase se le llama frecuencia de
clase, si dividimos esta frecuencia por el número total de observaciones, se
llama frecuencia relativa de clase, y del mismo modo que lo hacíamos para
datos sin agrupar definiríamos Hi, y Fi.
PROCEDIMIENTO PARA CONSTRUIR UNA
FRECUENCIAS AGRUPADA EN INTERVALOS
DISTRIBUCIÓN
DE
1. Determinar el máximo y mínimo entre los valores que tenemos en la
muestra y calcular el recorrido de la variable o rango, es decir,
R=Xmax-Xmin
2. Calcular el número de clases a utilizar. Existen diversos criterios para
determinar el numero de clases, ante tanta diversidad de criterios, se ha
considerado que lo mas importante es dar un ancho o longitud de clases
a todos los intervalos de tal manera que respondan a la naturaleza de
los datos y al objetivo que se persigue y esto se logra con la practica.
Existe una forma para determinar el numero de clases y la misma puede
ilustrarse en el siguiente cuadro:
Numero de Datos
10 - 100
100 - 1.000
1.000 - 10.000
Numero de Intervalos
De 4 a 8
De 8 a 11
De 11 a 14
Cuando se tenga dudas en determinar el numero de intervalos de clases, es de
gran utilidad utilizar el método sugerido por Hebert A. Sturges, el cual establece
que: K= 1+3,322 log(n) = numero de intervalos. En este curso se utilizará este
método siempre y cuando el mismo sea aplicable.
3. Determinamos la amplitud o tamaño de los intervalos través de la
R
siguiente formula: Ic =
= ancho o tamaño del intervalo.
N º de int ervalos
Prof. Simón Cabrera
página 11 de 32
ESTADISTICA DESCRIPTIVA
Ejemplo 2
Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir el
precio de sus habitaciones, el gerente investiga los precios por habitación de
40 hoteles de la misma categoría de esta ciudad. Los datos obtenidos (en miles
de pesetas) fueron:
3.3
4.2
4.5
5.1
3.3
4.3
4.7
5.3
3.7
4.3
4.7
5.3
3.8
4.3
4.7
5.4
3.9
4.3
4.7
5.6
3.9
4.4
4.8
5.8
3.9
4.4
4.9
5.8
4.0
4.5
5.0
6.0
4.1
4.5
5.0
6.1
4.2
4.5
5.1
6.1
Procedimiento:
1.- El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto R=2.8.
2.- K= 1+3,322 log(40) = 6.3 ≈ 6 números de intervalos
3.- Ic = 2.8 / 6 = 0.467 ≈ 0.5 tamaño de los intervalos
Así pues la tabla sería:
CLASES
[3.3, 3.8)
[3.8, 4.3)
[4.3, 4.8)
[4.8, 5.3)
[5.3, 5.8)
[5.8, 6.3)
fi
3
8
14
6
4
5
Fi
3
11
25
31
35
40
Ci
3.5
4
4.5
5
5.5
6
hi
0.075
0.2
0.35
0.15
0.1
0.125
¿Cuantos hoteles tienen un precio entre 3.3 y 3.8? 3
¿Cuantos hoteles tienen un precio superior a 4.8? 15
¿Que porcentaje de hoteles cuestan como mucho 4.3? 27.5 %
Prof. Simón Cabrera
página 12 de 32
Hi
0.075
0.275
0.625
0.775
0.875
1
ESTADISTICA DESCRIPTIVA
MÉTODOS GRÁFICOS
La forma de la distribución de frecuencias se percibe más rápidamente si la
representamos gráficamente. Se resume la información de la muestra de forma
grafica con fines clarificadores o para enfatizar y descubrir determinadas
características que de otra manera seria muy difícil de apreciar. Un grafico
siempre es mas inmediato de comprender que un conjunto de datos
estadísticos. Las representaciones graficas varían según el tipo de variable:
a. Gráficos para variables Discretas y Categóricas
DIAGRAMA DE BARRAS: Es la representación gráfica usual para variables
cuantitativas discretas o para variables cualitativas. En el eje de ordenadas
representamos los diferentes valores de la variable (xi). Sobre cada valor
levantamos una barra de altura igual a la frecuencia (absoluta o relativa).
Ejemplo:
180
160
140
120
100
80
60
40
20
0
1er
trim.
2do
trim.
3er
trim.
4to
trim.
DIAGRAMA DE SECTORES O DE PASTEL: Es el más usual en variables
cualitativas. Se representan mediante círculos. A cada valor de la variable se le
asocia el sector circular proporcional a su frecuencia.
Ejemplo: Los siguientes datos corresponden a una encuesta referente a
elecciones locales de un partido político:
xi
fi
50%
40%
10%
a favor
en contra
abstención
Para construir el diagrama de sectores partimos del hecho de que un circulo
encierra un total de 360 grados. Luego, mediante una regla de tres simple,
repartimos los 360 grados en distintos sectores, de acuerdo con cada
porcentaje; tenemos así que para determinar el sector correspondiente al 50%,
resolvemos la ecuación:
X=
Prof. Simón Cabrera
50 * 360
= 180
100
página 13 de 32
ESTADISTICA DESCRIPTIVA
Esto es, el 50% corresponde a un sector circular de medida 180 grados. A
continuación, con ayuda de un transportador, señalaremos el sector circular de
medida 180 grados. Igualmente, para el 40% se tiene 144 grados y para el 10%
se tiene 36 grados. La siguiente figura muestra la representación grafica.
Elecciones Locales
a favor
en contra
abstencion
b. Gráficos para variables continuas
HISTOGRAMA: Es la representación gráfica de las frecuencias agrupadas de
una variable continua sobre intervalos. A diferencia de los diagramas de barras,
los histogramas dibujan rectángulos unidos entre si, lo que significa que existe
continuidad en la variable cuyos valores se representan en el eje horizontal que
se haya dividido en intervalos de igual amplitud. Las áreas de los rectángulos
son proporcionales a las frecuencias que representan.
Ejemplo:
Histograma correspondiente a las horas extras
laboradas por un grupo de obreros petroleros.
25
21
Frecuencias
20
15
16
16
15
11
10
8
6
4
5
3
0
15 20 25
30 35
40 45 50
Clases
Prof. Simón Cabrera
página 14 de 32
55 60 65
ESTADISTICA DESCRIPTIVA
El histograma o diagrama de barras proporcionan mucha información respecto
a la estructura de los datos, nos permite evidenciar fundamentalmente tres
características:
1. Forma de la distribución.
2. Acumulación o tendencia posicional (valor central de la distribución).
3. Dispersión o variabilidad.
Cuando nos encontramos en distribuciones donde los intervalos no tienen la
misma amplitud, las barras del histograma tienen que tener un área
proporcional a la frecuencia que queramos representar
EJERCICIOS
1.- Los siguientes datos representan los ingresos diarios (en miles) de 20
obreros de cierta compañía.
16, 16, 17, 18, 18, 19, 19, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 24.
a. Construya una tabla de frecuencias agrupadas utilizando la formula
de Sturges.
b. Construya un histograma de frecuencias. Comente.
c. ¿Cuántos obreros tienen un ingreso diario menor de 22?
d. ¿Qué porcentaje de obreros tienen un ingreso diario entre 16 y 19?
2.- Los siguientes datos corresponden al tiempo que han necesitado 30 clientes
de un banco para llevar a cabo una transacción bancaria:
0.1
4.1
0.4
4.1
1.1
4.3
1.2
4.6
1.3
5.0
1.4
5.5
1.5
6.4
1.6
6.5
2.0
7.7
2.5
7.3
2.8
7.4
2.8
8.0
3.1
9.5
3.3
9.5
3.6
10.0
a. Construya una tabla de frecuencias agrupadas utilizando la formula
de Sturges.
b. Construya un histograma de frecuencias. Comente.
3.- Con el fin de asignar viáticos, la compañía “El Refinanciamiento” obtuvo
unas estadísticas sobre le numero de kilómetros recorridos por sus
vendedores. A continuación se muestran los resultados. Construya una tabla
de distribución de frecuencias agrupadas a cinco intervalos.
10
15
11
16
Prof. Simón Cabrera
12
16
12
16
13
16
13
16
página 15 de 32
13
16
14
16
14
17
15
19
ESTADISTICA DESCRIPTIVA
MEDIDAS DE POSICIÓN
INTRODUCCIÓN
Después que los datos han sido reunidos y tabulados, se inicia el análisis con el fin de
calcular un número único, que represente o resuma todos los datos. Las medidas de
posición forman parte del conjunto de medidas descriptivas numéricas, las cuales se
clasifican en parámetros –cuando se calculan a partir de la población total- y los
estadígrafos - cuando se calculan a partir de los datos de una muestra. Una medida
de posición es un número que se toma como orientación para referirnos a un conjunto
de datos.
Uno de los problemas fundamentales que presenta un análisis estadístico, es el de
buscar el valor más representativo de una serie de valores. El primer paso que hay
que realizar para que se entienda una larga serie de valores u observaciones, es el de
resumir los datos en una distribución de frecuencia; esto no es suficiente para fines
practico, puesto que a menudo es necesario una sola medida descriptiva, y en
especial cuando se requiere comparar dos o más serie estadísticas. Es necesario
continuar el proceso de reducción hasta sustituir todos los valores observados por uno
solo que sea representativo, de tal forma que permita una interpretación global del
fenómeno en estudio; para que ese valor sea representativo debe reflejar la tendencia
de los datos individuales de la serie de valores. Un valor o dato de la serie con estas
características recibe el nombre de promedio, media o medida de posición, esto es
debido a su ubicación en la zona central de la distribución. Las medidas de posición
son de gran importancia en el resumen estadístico, ya que representan un gran
número de valores individuales por uno solo.
El valor más representativo de un conjunto de datos por lo general no es el valor más
pequeño ni el más grande, es un número cuyo valor se encuentra en un punto
intermedio de la serie de datos. Por lo tanto un promedio es con frecuencia un valor
referido que representará la medida de posición de la serie de valores. Las medidas de
posición se emplean con frecuencia como mecanismo para resumir un gran número de
datos o cantidades con la finalidad de obtener un valor que sea representativo de la
serie.
Las Principales Medidas de Posición son:
La Media Aritmética, Mediana, Moda, los cuartiles, Deciles y Percentiles.
Todas ellas a su manera tratan de dar una idea del numero alrededor del cual se
centra a todo el conjunto de datos.
CARACTERÍSTICAS DE LAS MEDIDAS DE POSICIÓN
•
Deben ser definidas rigurosamente y no ser susceptibles de diversas
interpretaciones.
•
Deben depender de todas las observaciones de la serie, de lo contrario no
seria una característica de la distribución.
•
No deben tener un carácter matemático demasiado abstracto.
•
Deben ser susceptibles de cálculo algebraico, rápido y fácil.
Prof. Simón Cabrera
página 16 de 32
ESTADISTICA DESCRIPTIVA
MEDIA ARITMÉTICA
La media aritmética ( X ) o simplemente la media es la medida de posición de más
importancia y utilización en las aplicaciones estadísticas por su fácil calculo e
interpretación. Se trata del valor medio de todos los valores que toma la variable
estadística de una serie de datos. La media es el valor más representativo de la serie
de valores, es el punto de equilibrio, el centro de gravedad de la serie de datos. Por lo
general se le designa con X .
La media aritmética de una serie de n valores de una variable X1, X2, X3; X4,.........Xn,
es el cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre
n
el número total de ellos. La formula se puede expresar así: X =
∑X
i =1
n
i
.
Desviaciones o desvíos.- Son diferencias algebraicas entre cada valor de la serie
o cada punto medio y la media aritmética de dicha serie, o un valor cualquiera tomado
arbitrariamente. Los desvíos o desviación se designan con la letra di.
Dado una serie de valores X1, X2, X3, .......Xn , se llama desvío a la diferencia entre un
valor cualquiera Xi de la serie y un valor indicado k de esa misma serie. Si el valor
indicado k de la serie corresponde precisamente a la media aritmética de esos valores
dados, se dice entonces que los desvíos son con respecto a la media aritmética. En
símbolo: d i = ( X i − X ).
PROPIEDADES DE LA MEDIA ARITMÉTICA
1. La suma de las desviaciones con respecto a la media aritmética es igual a cero.
∑d
= 0.
i
2. La suma de las desviaciones al cuadrado de los diversos valores con respecto a la
media aritmética es menor que la suma de las desviaciones al cuadrado de los
diversos valores con respecto a cualquier punto K, que no sea la media aritmética.
∑ (X
−X) <
2
i
∑ (X
− K) .
2
i
3. La media aritmética total o conjunta de dos o más serie de datos, se puede
calcular en función de las medias aritméticas parciales y del número de datos de
cada una de ellas, mediante la siguiente formula:
Xt =
n1 X 1 + n 2 X 2 + n3 X 3 + ........ + n k X k
=
N
∑X
n1
1
+
∑X
n2
2
+
∑X
n3
3
+ .......
∑X
nk
k
,
Donde:
N = n1 + n2 + n3 + ...... + nk , en esta n1, n2, n3 y nk es el número de datos de cada
serie.
Además, X 1 ..,. X 2., .,.. X 3 .,., y.. X k .,..son las medias de cada una de las series.
Prof. Simón Cabrera
página 17 de 32
ESTADISTICA DESCRIPTIVA
4. La media del producto de una constante por una variable, es igual al producto de la
constante por la media de la variable.
X =
∑ KX
n
i
=
K∑ Xi
n
= KX .
5. La media de la suma de una constante más una variable, es igual a la media de la
variable más la constante.
X (Xi +K ) =
∑ (X
i
n
+ K)
=
∑X
n
i
+
∑K
n
= X + K . ., de
la misma forma se cumple esta propiedad para la resta.
CARACTERÍSTICAS PRINCIPALES DE LA MEDIA ARITMÉTICA
•
El valor de la media depende de cada una de las medidas que forman la serie
de datos, y se halla afectada excesivamente por los valores extremos de la
serie de datos.
•
La media se calcula con facilidad y es única para cada caso y permite
representar mediante un solo valor la posición de la serie de valores.
•
La media es una medida de posición que se calcula con todos los datos de la
serie de valores y es susceptible de operaciones algebraicas.
CÁLCULO DE LA MEDIA PARA DATOS NO AGRUPADOS
Para calcular la media de datos no agrupados en clases se aplica la siguiente formula:
X =
∑X
i
. En donde n es el número total de datos y X i son los valores de la
n
variable.
Ejemplo:
Calcule la media aritmética de los siguientes valores: X i = {5, 7, 8, 9, 11, 14}
X =
∑X
n
i
=
5 + 7 + 8 + 9 + 11 + 14 54
=
= 9.
6
6
Por lo tanto la media es 9.
CÁLCULO DE LA MEDIA PARA DATOS AGRUPADOS
Cuando se trabaja con la distribución de frecuencia agrupada, se parte del supuesto
de que todos los datos comprendidos en un intervalo de clase se distribuyen
uniformemente a lo largo de este, entonces se puede tomar la marca de clase o punto
& ) del intervalo como adecuada representación de los valores que conforman
medio ( X
el mencionado intervalo. Para calcular la media en estas condiciones se pueden
utilizar tres métodos: El método directo o largo y dos métodos abreviados. En este
curso utilizaremos el primer método.
Prof. Simón Cabrera
página 18 de 32
ESTADISTICA DESCRIPTIVA
MÉTODO DIRECTO
Este método se le conoce también como método largo; el mismo resulta demasiado
engorroso cuando las magnitudes de los puntos medios o de las frecuencias de clase
son muy grandes, debido a que los cálculos son demasiados extensos. Los pasos a
seguir para calcular la media con este método son los siguientes:
1. Se agrupan los datos en clases y se llevan a una columna, se calculan los
puntos medios de cada clase y se colocan en sus respectivas columnas, se
determinan las frecuencias de cada clase y se ubican en sus respectivas
columnas.
2. Se multiplican los puntos medios de cada clase por sus respectivas frecuencias,
luego se obtiene la sumatoria de las frecuencias (fi) multiplicadas por el punto
f i X& i .
medio ( X& ) así:
∑
3. Luego se calcula la media aritmética aplicando la formula:
f X&
f X&
∑
∑
X =
=
n
∑f =n
i
i
i
...Donde..n es igual al número total de datos.
i
Ejemplo:
Calcule la media de la siguiente distribución de frecuencia correspondiente al peso en
Kg. de un grupo de obreros. Realice los cálculos respectivos para completar el
siguiente cuadro.
CLASES
75-------79
80-------84
85-------89
90-------94
95 ------99
fi
∑
20
40
60
100
140
f i = n =360
Solución:
PESOS
X&
Nº DE OBREROS
f i X&
75-------79
80-------84
85-------89
90-------94
95 ------99
77
82
87
92
97
20
40
60
100
140
n =360
1540
3280
5220
9200
13580
∑ f X&
i
i
Aplicando la formula se tiene:
∑ f i X& i = 32820 = 91.17.
X =
360
N
Prof. Simón Cabrera
= 32820
Interpretación:
El peso promedio del grupo de
360 obreros es de 91.17 Kg.
página 19 de 32
ESTADISTICA DESCRIPTIVA
LA MEDIANA
La mediana es el valor que divide en dos partes iguales, al conjunto de observaciones
ordenadas respecto de sus magnitudes, de tal manera que el numero de datos por
encima de la mediana sea igual al numero de datos por debajo de la misma. Se
designa por las letras Me. Tal como sucede con la media, el método de determinación
depende de si los datos son agrupados o no.
CÁLCULO DE LA MEDIANA PARA DATOS NO AGRUPADOS (Discretos)
Para encontrar la mediana en una serie de datos no agrupados, lo primero que se
hace es ordenar los datos en una forma creciente o decreciente y luego se ubica la
posición que esta ocupa en esa serie de datos; para ello hay que determinar si la serie
de datos es par o impar.
Si el número n es impar, entonces la posición de la mediana se determina por la
formula: Me = X n +1 , luego el número que se obtiene indica el lugar o posición que
(
)
2
ocupa la mediana en la serie de valores, luego la mediana será el número que ocupe
el lugar de lo posición encontrada.
Si n es par, se aplica la formula Me =
X ( n / 2) + X ( n+ 2 / 2)
2
El resultado obtenido, es la
posición que ocupara la mediana, pero en este caso se ubica la posición de la
mediana por ambos extremos de la serie de valores y los dos valores que se obtengan
se le saca la media y esta será la mediana buscada, por lo tanto la mediana, en este
caso, es un número que no se encuentra dentro de la serie de datos dados.
Ejemplos:
Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los años de servicios de un grupo de
trabajadores. Determine la mediana.
Lo primero que se hace es ordenar los datos en forma creciente o decreciente; Los
datos ordenados quedaran así:
5, 6, 7, 8, 9, 10, 12.
Luego, como se trata de un numero impar de datos (n=7), se aplica la formula
Me = X n +1 = X 7 +1 = X ( 4 ) , para ubicar la posición de la mediana. Esto indica que la
(
2
)
(
2
)
mediana ocupa la posición 4, que en la serie de valores esa posición corresponde al
número 8, entonces, Me = 8.
Tomemos ahora los datos: 5, 5, 7, 9, 11, 12, 15, 18.
Como se trata de un numero par de datos (n =8), la mediana esta dada por:
Me =
X ( n / 2) + X ( n + 2 / 2)
Prof. Simón Cabrera
2
=
X ( 4 ) + X ( 5)
2
=
9 + 11 20
=
= 10
2
2
página 20 de 32
ESTADISTICA DESCRIPTIVA
Cuando los valores de un conjunto de datos se agrupan en una distribución de
frecuencia de clase, cada valor pierde su identidad, por tal motivo la mediana obtenida
de una distribución de frecuencia de datos puede no ser la misma que la mediana
obtenida de los datos sin arreglar en clases, pero el resultado será una aproximación.
Cuando se trata de datos agrupados, la mediana se obtiene mediante el método de
interpolación. La interpolación parte del supuesto de que los datos de cada intervalo
de la distribución están igualmente distribuidos.
PASOS PARA DETERMINAR LA MEDIANA EN DATOS AGRUPADOS
1. Se elabora la tabla de frecuencia de datos con sus diferentes intervalos de clases,
se ubican las frecuencias fi y se calculan las frecuencias acumuladas Fi de esa
distribución.
2. Se determina la ubicación o posición de la mediana en el intervalo de la
distribución de frecuencia, mediante la formula
n
. El
2
resultado obtenido
determinará la clase donde se encuentra ubicada la mediana, lo cual se
conseguirá en la clase donde la frecuencia acumulada Fi sea igual o superior a
⎡n
⎤
⎢ 2 − F(i −1) ⎥
este resultado. Luego se aplica la formula: Me = Li + ⎢
⎥ Ic
fi
⎢
⎥
⎣⎢
⎦⎥
Donde,
n
2
= posición de la mediana
Li
F(i-1)
fi
Ic
n
= es el limite inferior de la clase donde se encuentra ubicada la mediana.
= es el valor de la frecuencia acumulada anterior a la clase mediana.
= es el valor de la frecuencia de clase donde se encuentra la mediana.
= es el tamaño del intervalo de clase.
= es el número total de datos de la distribución en estudio.
Ejemplo:
Dada la siguiente distribución de frecuencia referida a las horas extras laboradas por
un grupo de obreros. Calcule la mediana. Realice los cálculos respectivos para
completar el siguiente cuadro.
N° de horas Extras
55------59
60------64
65------69
70------74
75------79
80------84
85------89
Prof. Simón Cabrera
página 21 de 32
Obreros
6
20
18
50
17
16
5
n = 132
ESTADISTICA DESCRIPTIVA
Solución:
Cuadro con las frecuencias acumuladas:
N° de horas Extras
55------59
60------64
65------69
70------74
75------79
80------84
85------89
Obreros
6
20
18
50
17
16
5
N = 132
Fi
6
26
44
94
111
127
132
Clase Mediana
n 132
=
= 66, luego se busca en la frecuencia acumulada Fi, un valor que sea igual o
2
2
superior a 66, este se encuentra en la clase 70 -74, la cual llamaremos clase
mediana. Por lo tanto el limite inferior de esa clase es 70 = Li. La frecuencia absoluta
de esa clase es 50 = fi , F(i-1) = 44 y el Ic = 5. Aplicando la formula se tiene:
⎡ 66 − 44 ⎤
⎛ 22 ⎞
Me = 70 + ⎢
5 = 70 + ⎜ ⎟.5 = 70 + 2.2 = 72.2.
⎥
⎣ 50 ⎦
⎝ 50 ⎠
Luego la mediana de esa distribución es 72.2. Esto quiere decir que un 50 % de los
obreros trabajaron horas extras por debajo de 72.2 horas y el otro 50 % trabajaron
horas extras por encima de 72.2 horas.
CARACTERÍSTICAS DE LA MEDIANA
•
La mediana no es afectada por los valores extremos de una serie de valores,
puesto que la misma no es calculada con todos los valores de la serie.
•
La mediana no esta definida algebraicamente, ya que para su cálculo
intervienen todos los valores de la serie.
•
La mediana en algunos casos no se puede calcular exactamente y esto ocurre
cuando en una serie de valores para datos no agrupados el número de datos
es par, en este caso la mediana se calcula aproximadamente.
•
La mediana se puede calcular en aquellas distribuciones de frecuencia de
clases abierta, siempre y cuando los elementos centrales puedan ser
determinados.
•
La suma de los valores absolutos de las desviaciones de los datos individuales
con respecto a la mediana siempre es mínima. (propiedad)
Prof. Simón Cabrera
página 22 de 32
no
ESTADISTICA DESCRIPTIVA
LA MODA
La moda es la medida de posición que indica la magnitud del valor que se presenta
con más frecuencia en una serie de datos; es pues, el valor de la variable que más se
repite en un conjunto de datos. De las medidas de posición la moda es la que se
determina con mayor facilidad, ya que se puede obtener por una simple observación
de los datos en estudio, puesto que es el dato que se observa con mayor frecuencia.
Se designa con las letras Mo.
En las representaciones gráficas la moda es el punto más alto de la gráfica. La
obtención de la moda para datos agrupados no es un valor exacto, ya que varía con
las diferentes formas de agrupar una distribución de frecuencia.
En algunas distribuciones de frecuencias o serie de datos no agrupados o agrupados
se pueden presentar dos o más modas, en estos casos se habla de serie de datos
bimodales o multimodales respectivamente. Estos tipos de distribuciones o series de
valores se deben a la falta de homogeneidad de los datos.
Cuando una serie de valores es simétrica, la media, la mediana y el modo coinciden, y
si el grado de asimetría de la serie es moderada, la mediana estará situada entre la
media y el modo con una separación de un tercio entre ambas. Tomando en cuenta
esta relación, cuando se tengan dos de esta medidas se puede determinar la tercera;
sin embargo es conveniente utilizar esta relación para calcular solamente la moda ya
que para calcular la media y la mediana existen formulas matemáticas que dan
resultados más exactos; la formula matemática para calcular la moda por medio de la
relación antes mencionada es: Mo = X − 3 X − Me .
(
)
Cuando los datos se encuentran no agrupados la determinación de la moda es sencilla
y exacta; pero para calcularla en datos agrupados existen varios métodos; cada uno
de los cuales puede dar un valor diferente de la moda: En este curso se dará el
método de la interpolación por considerarse uno de los más precisos en el cálculo de
esta. Este método puede expresarse mediante la siguiente formula:
⎛ Δ1 ⎞
⎟⎟.Ic
Mo = Li + ⎜⎜
Δ
+
Δ
2 ⎠
⎝ 1
Donde,
Li = es el limite inferior de la clase modal.
Δ1 = es la diferencia entre la frecuencia absoluta de la clase modal y la frecuencia de
la clase anterior a la modal.
Δ 2 = es la diferencia entre la frecuencia absoluta de la clase modal y la frecuencia de
la clase siguiente a la modal.
Ic = es el tamaño del intervalo de clase.
Prof. Simón Cabrera
página 23 de 32
ESTADISTICA DESCRIPTIVA
Ejemplo:
Dada la siguiente distribución de frecuencia correspondiente al peso en Kg. de un
grupo de trabajadores de una empresa, calcule la moda.
Peso (Kg)
30-----39
40-----49
50-----59
60-----69
70-----79
80-----89
90-----99
TOTAL
Trabajadores
2
2
7
11
12
16
2
Clase modal
La clase que presenta mayor frecuencia absoluta es 80----89, entonces esta sera la
clase modal, donde Li = 80 Δ1 = 16 − 12 = 4; Δ 2 = 16 − 2 = 14; Ic = 10
Aplicando la formula se tiene:
⎛ Δ1 ⎞
40
⎛ 4 ⎞
⎟⎟ → Mo = 80 + ⎜
Mo = Li + ⎜⎜
= 80 + 2.22 = 82.22.
⎟.10 = 80 +
18
⎝ 4 + 14 ⎠
⎝ Δ1 + Δ 2 ⎠
Este resultado de la moda se interpreta así: La mayoría de los trabajadores tiene un
peso aproximadamente de 82.22 Kg .
CARACTERÍSTICAS DE LA MODA
•
El valor de la moda puede ser afectado grandemente por el método de
elaboración de los intervalos de clases.
•
El valor de la moda no se halla afectado por la magnitud de los valores
extremos de una serie de valores, como sucede en la media aritmética.
•
La moda se puede obtener en una forma aproximada muy fácilmente, puesto
que la obtención exacta es algo complicado.
•
La moda tiene poca utilidad en una distribución de frecuencia que no posea
suficientes datos y que no ofrezcan una marcada tendencia central.
•
No es susceptible de operaciones algebraicas posteriores.
•
La moda se utiliza cuando se trabaja con escalas nominales aunque se puede
utilizar con las otras escalas.
•
La moda es útil cuando se esta interesado en tener una idea aproximada de la
mayor concentración de una serie de datos.
Prof. Simón Cabrera
página 24 de 32
ESTADISTICA DESCRIPTIVA
OTRAS MEDIDAS POSICIÓNALES
Cuando se estudio la mediana se pudo detectar que esta divide la serie de valores en
dos partes iguales, una generalización de esta medida da origen a unas nuevas
medidas de posición denominadas:
Cuartiles; Deciles y Percentiles. Estas nuevas medidas de posición surgen por la
necesidad de requerir de otras medidas que expresen diferentes situaciones de
orden, aparte de las señaladas por la mediana. Por lo tanto es interesante ubicar otras
medidas que fraccionen una serie de datos en diferentes partes. Es bueno destacar
que los cuartiles, los Deciles y los Percentiles son unas variantes de la mediana: De la
misma forma los percentiles abarcan tanto a los cuartiles como a los Deciles.
LOS CUARTILES.- Son medidas posiciónales que dividen la distribución de frecuencia
en cuatro partes iguales. Se designa por el símbolo Qc en la que c corresponde a los
valores 1, 2 y 3. El Q1 es el valor debajo del cual queda el 25 % de los datos; Q3 deja
el 75 % de los datos y Q2 divide la distribución de frecuencia en dos partes iguales, un
50 % que esta por debajo de los valores de Q2 y otro 50 % que esta por encima del
valor de Q2. El Q2 es igual a la mediana.
CÁLCULO DE LOS CUARTILES.- Para datos no agrupados no tiene ninguna utilidad
practica calcular los cuartiles. Para el cálculo de los cuartiles en datos agrupados en
una distribución de frecuencia existe un método por análisis gráfico y otro por
determinación numérica, por fines prácticos en esta cátedra se utilizara él último
método. Para calcular los cuartiles por el método numérico se procede de la siguiente
manera:
1. Se
Qc =
localiza la posición del cuartil solicitado aplicando la formula de posición:
cn
, en donde c viene a ser el número del cuartil solicitado, n corresponde al
4
número total de datos de la distribución y 4 corresponde al número de cuartiles que
presenta una distribución de frecuencia.
2. Se determina la posición que ocupa el cuartil mediante la formula: Qc =
cn
, el
4
resultado obtenido determinara la clase donde se encuentra ubicado el cuartil, lo
cual se conseguirá en la clase donde la frecuencia acumulada Fi que sea igual o
superior a este resultado. Luego se aplica la formula:
⎡ cn
⎤
⎢ 4 − F(i −1) ⎥
Qc = Li + ⎢
⎥ Ic.
fi
⎢
⎥
⎢⎣
⎥⎦
Donde,
cn
4
= Posición que ocupa el cuartil en la distribución de frecuencia.
c
Li
F( i-1)
fi
= corresponde al número del cuartil solicitado: 1,2 3.
= Limite real inferior de la clase donde se encuentra ubicado el cuartil.
= Frecuencia acumulada anterior a la clase donde se encuentra el cuartil.
= Frecuencia absoluta de clase donde se encuentra el cuartil.
Prof. Simón Cabrera
página 25 de 32
ESTADISTICA DESCRIPTIVA
LOS PERCENTILES – Son medidas posesiónales que dividen la distribución de
frecuencia en 100 partes iguales. Con estos se puede calcular cualquier porcentaje de
datos de la distribución de frecuencia. Los percentiles son las medidas más utilizadas
para propósitos de ubicación de valor de una serie de datos ubicados en una
distribución de frecuencia. El número de percentiles de una distribución de frecuencia
es de 99. El percentil 50 es igual a la mediana y al cuartil 2, es decir:
Me = Q2 = P50 = 50% por encima y 50 % por debajo de los datos de la distribución.
El cálculo de los percentiles es similar al cálculo de los cuartiles con una variante en
la posición de ubicación de estos, que viene expresada por la siguiente formula:
⎡ pn
⎤
⎢ 100 − F( i −1) ⎥
pn
. Con esta posición se aplica la formula: Pp = Li + ⎢
PP =
⎥ Ic .
fi
100
⎢
⎥
⎣⎢
⎦⎥
Ejemplo:
Dada la siguiente distribución correspondiente al salario semanal en dólares de un
grupo de obreros de una empresa petrolera trasnacional. Calcule: a) Q1, b) Q2, c)
Compare los resultados con la mediana, d) P25, f) P50, g) P70
SALARIO EN $
200-----299
300-----399
400-----499
500-----599
600-----699
700-----799
Obreros
85
90
120
70
62
36
463
Fi
85
175
295
365
427
463
Clase cuartil
Clase mediana
Clase percentil
a) Para calcular Q1 se determina primero la posición así: Q1 =
1x 463 463
=
= 115.75.
4
4
Q1 = 115.75. Con ese valor de la posición encontrado se busca en las frecuencias
acumuladas para ver cual de esas es mayor o igual a ese valor. Observando las
frecuencias acumuladas se puede detectar que la posición 115.75 se encuentra
en la clase 300------399, por lo tanto el Li = 300, fi = 90, y la F(i-1) = 85 y Ic = 100,
aplicando la formula se tiene:
3075
⎡115.75 − 85 ⎤
Q1 = 300 + ⎢
.
100
=
300
+
= 300 + 34.17 = 334.17
⎥⎦
90
90
⎣
Este valor de Q1 indica que el 25 % de los obreros en estudio, devengan un salario
semanal por debajo de 334.17 $ y el 75 % restante gana un salario por encima de
334.17 $.
Prof. Simón Cabrera
página 26 de 32
ESTADISTICA DESCRIPTIVA
b) Para calcular Q2=Me se determina primero la posición de este así.
Q2 =
2 x 463
= 231.5 , ahora se ubica esta posición en las frecuencias acumuladas
4
para determinar la posición de Q2, se puede observar en la distribución que esta
posición esta ubicada en la clase 400----499, entonces, Li = 400, fi = 120, F(i-1) = 175
y Ic = 100, aplicando la formula se tiene:
5650
⎡ 231.5 − 175 ⎤
Q2 = 400 + ⎢
.100 = 400 +
→ 400 + 47.08 = 447.08.
⎥
120
120
⎣
⎦
Este resultado de Q2 establece que el 50 % de los obreros de este estudio,
devengan un salario semanal por debajo de 447.08 $ y el otro 50 % devenga un
sueldo por encima de 447.08 $. Calcule la mediana y compárela con este resultado.
c) Calcular, Q2 = P50, además P25 = Q1, la comprobación de estos resultados se le
deja como practica al estudiante.
g) Para calcular P70 lo primero que se hace es determinar la posición,
P70 =
70 x 463
= 324.10 . Ahora se ubica este resultado en la columna de frecuencias
100
acumuladas para encontrar la posición de P70 en la distribución de frecuencia. Como
se puede observar en la tabla de distribución de frecuencia, P70 se encuentra ubicado
en la clase 500-------599, entonces, Li = 500, fi = 70, F(i-1) = 295 y Ic = 100,
aplicando la formula se tiene:
2910
⎡ 324.10 − 295 ⎤
P70 = 500 + ⎢
.100 = 500 +
= 500 + 41.57 = 541.57.
⎥
70
70
⎣
⎦
Esto indica que el 70 % de los obreros devengan un sueldo semanal que esta por
debajo de 541.57 $ y que el 30% de los restantes obreros, ganan un salario por
encima de 541.57 $.
Prof. Simón Cabrera
página 27 de 32
ESTADISTICA DESCRIPTIVA
MEDIDAS DE DISPERSION
INTRODUCCIÓN
La utilización de una medida de posición escogida para representar a los datos no
indica otras características que el conjunto de observaciones que posee. No todas las
observaciones son iguales a la medida de posición tomada o seleccionada; en general
los datos difieren unos de otros, por lo tanto se hace necesario encontrar ciertos
índices o medidas que indiquen la variabilidad o dispersión del conjunto de
observaciones que se estudian.
Una medida de variabilidad es un numero que nos indica el grado de dispersión en un
conjunto de datos. Si el valor es pequeño (respecto de la unidad de medida) entonces
hay una gran uniformidad entre los datos (homogénea). Por el contrario, un gran valor
nos indica poca uniformidad (heterogénea). Cuando es cero quiere decir que todos los
datos son iguales.
Las medidas de dispersión se clasifican en dos grupos:
•
Medidas de Dispersión Absoluta.
Son aquellas que vienen expresadas en las mismas unidades originales que
indican la serie de datos. Entre las medidas de dispersión absoluta se encuentran:
el rango, el rango intercuartilico, la desviación media, la varianza y la desviación
típica.
•
Medidas de Dispersión Relativas.
Estas medidas vienen expresadas en valores abstractos o porcentajes; su principal
función es la de determinar entre varias distribuciones la de mayor o menor
dispersión. La medida de dispersión relativa de mayor importancia es el coeficiente
de variación.
RANGO O RECORRIDO.
Es la medida de dispersión mas sencilla y se define como la diferencia entre el valor
mas alto menos el valor mas pequeño y se designa por R. Es decir, R = Xmax-Xmin para
datos no agrupados. Si los datos están agrupados en K clases el rango será la
diferencia entre el limite superior de la K-esima clase menos el limite inferior de la
primera clase.
El rango nos dará una primera idea sobre las dispersión de los datos ya que si su valor
es pequeño nos indicará una gran concentración de los datos, y si por el contrario su
valor es grande nos puede indicar una gran variabilidad o dispersión de los datos.
Prof. Simón Cabrera
página 28 de 32
ESTADISTICA DESCRIPTIVA
RANGOS ESPECIALES
El rango nos da una idea de la dispersión total de las observaciones, por lo tanto
puede estar afectada por valores extremos dando en consecuencia una idea de alta
dispersión. Por tal motivo, se han definido otros rangos que tratan de subsanar este
problema.
RANGO ÍNTERCUARTILICO. Se define como la diferencia entre el cuartil tres(Q3) y
el cuartil uno(Q1) de una distribución de frecuencia y se expresa así: RI = Q3 − Q1.
RANGO SEMI-ÍNTERCUARTILICA. Es la diferencia entre el Q3 y el Q1 dividido
entre dos:
RSI =
Q3 − Q1
.
2
Si los valores de la RI o RSI son pequeños indica una alta concentración de los datos
de la distribución en los valores centrales de la serie de datos. Estas medidas se
utilizan para comparar los grados de variación de los valores centrales en diferentes
distribuciones de frecuencias. Los mismos no son afectados por los valores extremos,
no se adaptan a la manipulación algebraica, por tal motivo son de poco utilidad.
DESVIACIÓN MEDIA. La desviación media de un conjunto de n observaciones x1, x2,
x3,. . .xn, es el promedio de los valores absolutos de las desviaciones (di) con respecto
a la media aritmética o la mediana. Si se denomina como DM a la desviación media,
entonces su formula matemática será la siguiente:
N
DM =
∑
i =1
Xi − X
N
N
=
∑
i =1
di
N
Esta formula es para datos no agrupados. Se toma el valor absoluto en la ecuación,
debido a que la primera propiedad de la media aritmética establece que los desvíos
(di) de una serie con respecto a la media aritmética siempre son iguales a cero, es
decir: di = 0.
Cuando los datos están en una distribución
siguiente formula:
n
DM =
∑
i =1
X& i − X
n
de clases o agrupados se aplica la
N
fi
=
∑
i =1
fi d i
n
En esta formula X& es el punto medio de cada clase y fi es la frecuencia de cada
clase. La Desviación Media a pesar de que para su cálculo se toman todas las
observaciones de la serie, por el motivo de no tomar en cuenta los signos de las
desviaciones (di), es de difícil manejo algebraico. Su utilización en estadística es muy
reducida o casi nula, su importancia es meramente histórica, ya que de esta formula
es la que da origen a la desviación típica o estándar.
Prof. Simón Cabrera
página 29 de 32
ESTADISTICA DESCRIPTIVA
VARIANZA
Una manera de resolver el problema de los signos de las desviaciones respecto de la
media aritmética es elevándolos al cuadrado y luego sumar todos los resultados
obtenidos. Esta suma se puede considerar como una medida de la dispersión total de
los valores. Aquellos que estén mas alejados de la media aritmética tendrán un aporte
mayor a esta suma de cuadrados.
Su mayor utilidad se presenta en la estadística inductiva y se puede interpretar como
una medida de variación promedio (o el promedio de la suma de los cuadrados). Se
obtiene dividiendo la variación total entre el numero de unidades o medidas. Se
designa por la letra S2 su formula de calculo es al siguiente:
S
2
S
2
∑ (X
=
∑
=
− X )2
i
n
..,. para datos no agrupados
fi (X i − X )2
n
∑
=
fi X
n
2
i
− X
2
para datos agrupados
DESVIACIÓN TIPICA
Como la varianza es el promedio de los desvíos respecto de la media elevados al
cuadrado, viene entonces expresada en unidades cuadradas. Para obtener una
medida de dispersión en las unidades originales se le extrae la raíz cuadrada (positiva)
a la varianza, obteniendo así otra medida de dispersión denominada desviación típica
o estándar, la cual se designara por S y será igual a :
S=
S=
∑ ( X&
i
− X )2
Para datos no agrupados
n
∑ ( X&
i
− X )2 fi
n
=
∑X
n
2
i
fi
−X 2
Para datos agrupados
INTERPRETACIÓN DE LA DESVIACIÓN TÍPICA
La desviación típica como medida absoluta de dispersión, es la que mejor nos
proporciona la variación de los datos con respecto a la media aritmética, su valor se
encuentra en relación directa con la dispersión de los datos, a mayor dispersión de
ellos, mayor desviación típica, y a menor dispersión, menor desviación típica.
Su mayor utilidad se presenta en una distribución normal, ya que en dicha distribución
en el intervalo determinado por X ± σ
se encuentra el 68. 27% de los datos de la
serie; en el intervalo determinado por la X ± 2σ se encuentra el 95,45% de los datos
y entre la X ± 3σ se encuentra la casi totalidad de los datos, es decir, el 99,73% de
los datos; además, existe una regla general de gran utilidad para la comprobación de
los cálculos que dice: “una oscilación igual a seis veces la σ , centrada en la media
comprende aproximadamente el 99% de los datos”.
Prof. Simón Cabrera
página 30 de 32
ESTADISTICA DESCRIPTIVA
Ejemplo:
Los siguientes datos corresponden al número de panes consumidos por un grupo de
familias de una urbanización de la ciudad, durante una semana determinada.
Clases
30—32
33—35
36—38
39—41
42—44
45—47
48—50
∑
fi
10
18
60
100
80
14
6
288
Solución:
Clases
fi
30—32
33—35
36—38
39—41
42—44
45—47
48—50
∑
10
18
60
100
80
14
6
288
X =
S
2
S=
∑ f X&
i
n
=
∑
i
=
i
f i X i2
X& 12
n
f i X& i
310
612
2220
4000
3440
644
294
11520
f i X& i2
9610
20808
82140
160000
147920
29624
14404
464508
11520
= 40.0.
288
n
∑f
X& i
31
34
37
40
43
46
49
⎛
−⎜
⎜
⎝
2
− X
∑f
2
464508
⎛ 11520 ⎞
=
−⎜
⎟ = 12 . 88
288
⎝ 288 ⎠
2
X& i ⎞
⎟ =
⎟
n
⎠
i
2
464508 ⎛ 11520 ⎞
−⎜
⎟ =
288
⎝ 288 ⎠
= 1612 .88 − 1600 = 12 .88 = 3.59 .
Interpretación.- El resultado obtenido indica que en promedio, el consumo de pan de
trigo del grupo de familias de esa urbanización se dispersa con respecto a su media
aritmética en una cantidad igual a 3.59.
Prof. Simón Cabrera
página 31 de 32
ESTADISTICA DESCRIPTIVA
DISPERSIÓN RELATIVA
Las medidas de variabilidad, estudiadas hasta ahora, solo permitían medir las
dispersiones absolutas de los términos de la muestra. Las medidas, tomadas en esas
condiciones, serán de utilidad, solo cuando se trata de analizar una sola muestra;
pero, cuando hay que establecer comparaciones entre distintas muestras, será
necesario expresar tales medidas en valores relativos, que pueden ser proporciones o
porcentajes.
Las medidas de dispersión relativas permiten comparar grupos de series distintas en
cuanto a su variación, independientemente de las unidades en que se midan las
diferentes características en consideración. Generalmente las medidas de dispersión
relativas se expresan en porcentajes, facilitando así el estudio con medidas
procedentes de otras series de valores La dispersión relativa viene a ser igual a la
dispersión absoluta dividida entre el promedio.
Existen varias medidas de dispersión relativa, pero, la más usada es el coeficiente de
variación de Pearson, este es un índice de variabilidad sin dimensiones, lo que permite
la comparación entre diferentes distribuciones de frecuencias, medidas en diferentes
unidades. El coeficiente de variación de Pearson se designa con las letras CV. La
formula matemática es:
CV =
S
x100
X
Una serie de valores será más dispersa que otra mientras su CV sea mayor.
Ejemplo:
La venta en el mercado de tres productos, varia de acuerdo al siguiente cuadro.
Determine el CV de cada uno y diga cuál de ellos presenta mayor variación y cuál la
menor.
Producto
1
2
3
X
45
450
4500
S
5
40
350
Unidades
Bs.
Bs.
Bs.
CV
11.11 %
8.87 %
7.78 %
Para resolver el problema se calcula el CV de cada producto y luego sé determina cuál
presenta mayor o menor variación
CV = Sx100/ X
CV(1) = 5x100/45 = 11.11 %.
CV(2) = 40x100/450 = 8.87 %.
CV(3) = 350x100/4500 = 7.78 %.
Se puede observar que la menor dispersión la presenta el producto 3, por lo tanto, de
los tres productos el que menos varia es ese; por otro lado el de mayor dispersión o
variabilidad es el producto 1.
Prof. Simón Cabrera
página 32 de 32
Descargar