Mis Notas Tema II 2015-1 - Departamento de Matemáticas

Anuncio
UNIVERSIDAD DE SONORA
División de Ciencias Exactas y Naturales
Departamento de Matemáticas
Estadística Aplicada a las Licenciaturas:
Administración, Contaduría e Informática
Administrativa.
Fascículo II:
Estadística Descriptiva
Dr. Francisco Javier Tapia Moreno
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Prólogo.
Este es el segundo folleto correspondiente al Tema II de Estadística Aplicada a las Licenciaturas: Negocios y
Comercio Internacionales, Administración, Contaduría e Informática Administrativa que se ofrecen de la
Universidad de Sonora. Los temas presentados aquí son congruentes con el programa vigente de la materia de
Estadística I del área económico- administrativo.
En el segundo tema del programa titulado Estadística descriptiva, el alumno conocerá y utilizará adecuadamente
las herramientas de la estadística descriptiva para recopilar, organizar y analizar adecuadamente la información,
construirá e interpretará correctamente información gráfica y tabular (ver secciones 2.1-2.5).
Calculará e interpretará adecuadamente las medidas estadísticas de localización y dispersión; utilizará
adecuadamente las medidas de tendencia central ante diversas situaciones presentadas; integrará las medidas de
localización y dispersión en problemas relacionados con la toma de decisiones; conocerá, utilizará e interpretará
un diagrama de dispersión y sobre la base del mismo, podrá decir si dos variables están correlacionadas o no (ver
secciones 2.6-2.8).
Calculará el coeficiente de correlación lineal simple y la recta de regresión en variables correlacionadas e
Interpretará, sobre la base del problema a analizar, el significado del análisis efectuado (ver sección 2.9).
Nuestro propósito al elaborar este segundo folleto, es dotar al alumno de las herramientas necesarias, apegada al
programa vigente, para que el alumno por sí mismo, recopile, organice, represente de manera gráfica, analice e
interprete la información recabada ya sea por medio de una muestra o de un censo, y la utilice para la realización
de toma de decisiones. Además, de estudiar, explorar y cuantificar la relación entre variables cuantitativas para
desarrollar una ecuación lineal simple con fines predictivos.
Este trabajo se sitúa en el marco de un esfuerzo colectivo realizado por el Departamento de Matemáticas por dotar
al alumno del material didáctico necesario para que éste optimice su proceso de enseñanza/aprendizaje/formación
de las matemáticas.
Hermosillo, Sonora, México. Febrero de 2011.
Tema
Departamento de Matemáticas
Pag.
2
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Tema II. Estadística Descriptiva.
5
2.1. Introducción.
5
2.2. Clases de datos.
5
2.3. Agrupamiento en intervalos.
6
2.4. Descripción de datos de una variable.
6
7
7
8
2.4.1. Tabulación y representación gráfica.
Tablas de frecuencias.
Datos Agrupados.
2.5. Representaciones Gráficas
Diagramas de frecuencia mediante puntos.
Gráficas de línea.
Diagrama de barras.
Histogramas.
Polígono de frecuencias.
Diagramas de tallo y hojas.
Diagramas de pastel o circulares.
Otras distribuciones de frecuencias y otros gráficos.
Distribuciones acumulativas y polígonos acumulativos.
Polígonos acumulativos u Ojivas.
Diagramas de caja.
2.6. Medidas descriptivas de localización y distribución.
2.6.1 Medidas de posición o centralización.
La media aritmética.
La mediana.
Cuantiles.
Cálculo de los cuartiles
a) Para datos agrupados.
b) Para datos no agrupados.
Cálculo de Deciles
a) Para datos agrupados.
b) Para datos no agrupados
Cálculo de percentiles.
a) Para datos agrupados.
b)Para datos no agrupados
La moda.
9
9
10
10
11
12
12
13
13
14
15
16
16
17
18
20
20
20
21
21
21
22
2.6.2. Relación entre la Media, la Mediana y la moda.
24
2.7. Medidas de Dispersión.
25
Coeficiente de variación.
Departamento de Matemáticas
3
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
2.8. Medidas de forma.
29
30
30
31
32
Coeficiente de disimetría de Pearson.
Coeficiente de Asimetría de Fisher.
Curtosis o apuntamiento.
Coeficiente de curtosis de Fisher.
2.9. Análisis de regresión y correlación lineal simple.
2.9.1. Introducción al análisis de regresión y correlación lineal.
33
33
Regresión lineal.
Correlación lineal.
2.9.2. Gráficos de dispersión.
2.9.3. Coeficiente de correlación lineal.
2.9.4. Modelo de regresión lineal simple.
34
36
38
2.10.
Ejercicios teóricos.
39
2.11.
Ejercicios prácticos.
40
2.12.
Lecturas recomendadas.
43
2.13.
Bibliografía recomendada para reforzar este tema.
43
2.11. Referencias.
Departamento de Matemáticas
43
4
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Tema II.
Estadística Descriptiva.
2.1. Introducción.
Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una población en estudio,
examinando solamente una parte de ella denominada muestra. Este proceso, denominado Inferencia Estadística,
suele venir precedido de otro, denominado Estadística Descriptiva (ver el folleto 1), en el que los datos son
ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las observaciones,
intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales toman valores parecidos,
cuales difieren grandemente del resto, destacando hechos de posible interés, etc. Al hablar de estadística
descriptiva, uno se refiere a cualquier tratamiento de datos que esté diseñado para resumir o describir algunas de
sus características más importantes sin intentar deducir nada que escape al alcance de los datos.
También, entre los objetivos de la Estadística Descriptiva, está el presentar los datos de tal modo que permitan
sugerir o aventurar cuestiones a analizar en mayor profundidad, así como estudiar si pueden mantenerse algunas
suposiciones necesarias en determinadas inferencias como la de simetría, normalidad, homocedasticidad
(propiedad fundamental del modelo de regresión lineal), etc.
El propósito de este tema es el de ofrecer los conceptos de la estadística descriptiva y explicar las técnicas que
permitan realizar ambos procesos a los cuales, de forma conjunta, se les suele denominar Análisis de Datos.
2.2. Clases de datos.
Como se mencionó en el tema I (ver folleto 1), es habitual denominar a los caracteres variables estadísticaso
simplemente variables, calificándolas de cualitativas o cuantitativas según sea el correspondiente carácter, y hablar
de los valores de la variable al referirnos a sus modalidades, aunque de hecho solamente tendremos verdaderos
valores numéricos cuando analicemos variables cuantitativas. En ocasiones, con objeto de facilitar la toma de los
datos, el investigador los agrupa en intervalos. Así por ejemplo, resulta más sencillo averiguar cuántos individuos
hay en una muestra con una estatura, por ejemplo, entre 1.70 y 1.80 metros que medirlos a todos, en especial si
tenemos marcas en la pared cada 10 cm. Note que siempre se producirá una pérdida de información al agrupar los
datos en intervalos y, dado que hoy en día la utilización de la computadora suele ser de uso común, un
agrupamiento en intervalos es en general no aconsejable. Sin embargo, por razones docentes admitiremos esta
posibilidad, ya que precisamente el agrupamiento en intervalos traerá complicaciones adicionales en el cálculo de
algunas medidas representativas de los datos. En este tema consideraremos, por tanto, tres tipos posibles de datos:
1) Datos correspondientes a un carácter cualitativo2) Datos sin agrupar correspondientes a un carácter
cuantitativo y 3) Datos agrupados en intervalos correspondientes a un carácter cuantitativo.
2.3. Agrupamiento en intervalos.
Si tenemos la opción de poder agrupar los datos en intervalos, lo primero que debemos plantearnos
(independientemente de lo que más arriba comentábamos) es la cuestión de cuántos y cuáles intervalos elegir.
Previamente daremos algunas definiciones importantes. Si los intervalos que a menudo se le denominan clases,
son:
Departamento de Matemáticas
5
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
x0 , x1  , x1 , x2  , , x j-1 , x j ,, xk -1 , xk  .
x j -x j-1 , j  1,, k , hablando de intervalos de amplitud
constante o variable, según tengan o no todos la misma amplitud. Llamaremos extremos de la clase j-ésima a x j-1
Llamaremos amplitud del intervalo j-ésimo a
ya
x j , y por último, llamaremos centro o marca de clase correspondiente al intervalo j-ésimo al punto medio del
intervalo, es decir, a
cj 
En todo este sección, consideraremos que el dato
x
j
 x j-1 
2
.
x j pertenece al intervalo j  1, j  1, ... , k - 1 , siendo el xk
elk-ésimo dato. Hacemos notar también, que el primer intervalo y el último generalmente tienen, respectivamente,
el extremo inferior y el extremo superior indeterminados con el propósito de incluir observaciones poco frecuentes.
Respecto a la cuestión que nos planteábamos al comienzo de este apartado, podemos considerar como regla general
la de construir, siempre que sea posible, intervalos de amplitud constante o igual, sugiriendo sobre el número k de
intervalos a considerar el propuesto por Sturges
k  1  3.322 log n 
Siendo n el número total de datos. Una vez determinado el número k de intervalos a considerar, y si es posible
tomarlos de igual amplitud, esta será:
Amplitud 
X( n )  X(1)
k
en donde x(n) es el dato mayor y x( 1 ) el menor.
2.4. Descripción de datos de una variable.
Durante el proceso de un experimento estadístico, por lo regular obtenemos una sucesión de observaciones o datos
(normalmente números) los cuales anotamos en el orden en que aparecen. Por ejemplo, las ventas realizadas por
la tienda departamental Mazón los sábados y domingos durante el año pasado. Estos datos representan un ejemplo
de una muestra tomada de una población de los montos de todas las ventas realizadas durante el año. La muestra
consiste de 31 montos de ventas diferentes, llamados valores de la muestra, aunque el tamaño de la muestra es
de n  104.
Antes de entrar en detalle, es importante mencionar que si en un experimento estadístico observamos al mismo
tiempo dos cantidades, por ejemplo las ventas realizadas durante el día y el número de personas que visitó la tienda
durante ese día o, el peso y la estatura de las personas adultas, obtendremos una muestra en la que cada valor de
la misma es una pareja ordenada de números. De la misma manera, si observamos o medimos tres cantidades, se
obtendrán muestras que consisten de ternas ordenadas de números, generalizándose esta situación para más de
tres cantidades. Cuando se tiene un experimento estadístico donde existe una sola variable de interés para ser
observada, decimos que este experimento es uni-variado. Si en el experimento se tiene interés en observar más de
Departamento de Matemáticas
6
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
una variable, decimos que el experimento es multi-variado. En esta sección manejaremos sólo experimentos en
donde se involucra una sola variable para ser observada.
2.4.1. Tabulación y representación gráfica.
En esta sección se discuten algunos métodos para obtener representaciones tabulares y gráficas de una serie de
datos. Se muestra como grandes cantidades de datos pueden ser organizados y presentados de manera más eficaz
en formas de tablas y diagramas con el propósito de intensificar el análisis e interpretación de los datos, aspectos
claves en la toma de decisiones. Además, se dan a conocer los conceptos de frecuencias absoluta, relativa y
porcentual.
Tablas de frecuencias.
El primer paso al recopilar los datos, es determinar el número de veces con que se presentan los valores en la
muestra y, resumirlos en una tabla llamada tabla de frecuencias o distribución de frecuencias de tal manera que
podamos identificar su comportamiento. Al número de veces que se presenta un valor recibe el nombre de
frecuencia absoluta o, más brevemente frecuencia.
Ejemplo 2.1 En una sucursal bancaria de la localidad, se ha tomado el tiempo de atención en ventanilla a 20
clientes, durante sus operaciones bancarias. Los registros de los tiempos y el número de cliente en el orden en que
éste llegó aparecen en la Tabla 2.1.
TABLA 2.1.TIEMPOS DE ESPERA DE 20 CLIENTES EN UNA SUCURSAL BANCARIA.
Cliente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Minutos 3 2 5 3 1 5 3 3 2 4 6 2 5 4 7 5 3 6 3 4
Podemos resumir los datos de la Tabla 2.1 como se muestran en la Tabla 2.2.
TABLA 2.2.DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS.
Minutos
1 2 3 4 5 6 7
Frecuencia 1 3 6 3 4 2 1
Si dividimos la frecuencia entre el tamaño de la muestra n, obtenemos la frecuencia relativa para esta cantidad
observada en la muestra. Obtener las frecuencias relativas es muy útil cuando la cantidad de los datos observados
es muy grande. Formalmente podemos definir la frecuencia relativa de un valor dado, como la proporción de ese
valor.
Ejemplo 2.2 En la Tabla 2.3 aparecen las frecuencias relativas para cada uno de los valores observados del
Ejemplo 2.1.
TABLA 2.3. DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS.
Minutos
Frecuencia
Relativa
1
2
3
4
5
6
7
1
 0.05
20
3
 0.15
20
6
 0.30
20
3
 0.15
20
4
 0.20
20
2
 0.10
20
1
 0.05
20
Si las frecuencias relativas se multiplican por 100% se obtienen las frecuencias porcentuales para cada uno de
los valores observados.
Departamento de Matemáticas
7
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Ejemplo 2.3 Las frecuencias porcentuales de los valores observados en el Ejemplo 2.2 aparecen en la Tabla 2.4.
TABLA 2.4. DISTRIBUCIÓN DE FRECUENCIAS PORCENTUALES
Minutos
1
2
3
4
5
Frecuencia
5% 15% 30% 15% 20%
Porcentual
6
7
10%
5%
Datos Agrupados.
Cuando en una muestra se tienen demasiados datos es recomendable juntarlos en grupos o clases. A los datos
resultantes se les llama datos agrupados. Cada grupo recibe el nombre de clase o intervalo de clase y la selección
de estas clases es regularmente arbitraria además, su elección debe ajustarse a la exigencia de que no existan clases
vacías, de que cada observación caiga en una y sólo una clase y que su longitud o amplitud sea igual. Existen
fórmulas para determinar el número recomendable de clases el cual depende del tamaño de la muestra.
Ejemplo 2.4. La Tabla 2.5 presenta la cantidad de dinero gastada en electricidad durante el mes de julio de 2010,
de 30 familias de bajos recursos de una colonia situada al sur de la ciudad de Hermosillo.
TABLA 2.5. CANTIDAD DE DINERO GASTADA EN ELECTRICIDAD ($)
96
157
141
171
185
149
202
90
206
178
116
175
147
172
123
102
111
128
153
148
144
197
213
168
127
130
109
82
165
167
Utilizaremos estos datos para construir una tabla de frecuencias con clases o intervalos adecuados.
Como se tiene una muestra con pocos datos podemos elegir pocas clases. Por ejemplo, 5. Podemos observar de la
Tabla 2.5 que:1) el monto menor es de $82 y 2) el monto mayor es de $213. Si realizamos la diferencia entre estos
dos montos obtenemos la amplitud o rango de los datos dados. Así, el rango = 213-82 = 131 pesos; como se
desean 5 clases, dividimos el rango entre 5 y obtenemos que la amplitud de cada clase debe de ser de
131
 26.20
5
pesos. Podemos escoger clases de $27 de amplitud y elegir el valor mínimo de $80 con el propósito de que el valor
menor, y el valor mayor observados, no queden en el extremo de su respectiva clase. Así, las clases con sus
respectivas frecuencias son las que se muestran en la Tabla 2.6.
TABLA 2.6. DISTRIBUCIÓN DE FRECUENCIAS PARA LOS DATOS DE LA TABLA 2.5.
Clase o Intervalo
Marcas
de clase
de clase
De $80 a menos de 107
93.5
De107 a menos de 134
120.5
De 134 a menos de 161
147.5
De 161 a menos de 188
174.5
De 188 a menos de $215
201.5
TOTALES
Frecuencia
Absoluta
Frecuencia
Relativa
Frecuencia
Porcentual
4
7
7
8
4
30
0.13
0.23
0.23
0.27
0.14
1.00
13%
23%
23%
27%
14%
100%
Note que cada monto observado cae en una sola clase, y que las clases tienen la misma amplitud.
Departamento de Matemáticas
8
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
2.5. Representaciones Gráficas
Como se pudo observar en la sección anterior, las tablas de frecuencia son útiles para la presentación de los datos.
Las gráficas que de ellas surgen lo son aún más, ya que en ellas es muy fácil observar la distribución de la
información. Existen varias formas de representar gráficamente las muestras y es suficiente presentar estos
métodos en términos de los ejemplos usados en la sección 2.4.
Diagramas de frecuencia mediante puntos.
La Figura 2.1 presenta el diagrama de puntos para la tabla de frecuencia del Ejemplo2.1. Este diagrama da una
mejor idea del comportamiento de los datos obtenidos en la muestra.
Minutos
Tiempo de atención a clientes
8
7
6
5
4
3
2
1
0
0
5
10
15
20
25
Número de cliente
Figura2.1 Diagrama de puntos de la muestra dada en la Tabla 2.1
Gráficas de línea.
La Figura 2.2 presenta la gráfica de línea para los datos de la Tabla 2.2.Estos dos tipos de gráficas nos sirven para
echar un vistazo rápido a los datos, con el propósito de observar su tendencia. Cuando se requiere una gráfica más
detallada y formal uno echa mano de los diagramas de barras y de los histogramas.
Número de clientes
Tiempo de atención a clientes
10
8
6
4
2
0
1
2
3
4
5
Minutos de atención
Figura 2.2. Diagrama de línea de los datos de la Tabla 2.2
Departamento de Matemáticas
9
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Diagrama de barras.
En los diagramas de barras se utilizan rectángulos para representar gráficamente los datos. La base de cada
rectángulo del diagrama de barras representa una característica de los datos obtenidos en la muestra y la altura del
rectángulo significa la frecuencia con que se dio esta característica. Para dibujar un diagrama de barras, se marca
en el eje horizontal las distintas características que se encontraron en los datos obtenidos y en el eje vertical se
marca la frecuencia con que se dio esa observación y se trazan rectángulos separados por cada valor con la altura
correspondiente a cada frecuencia. En el diagrama de la Figura 2.3 podemos observar, por ejemplo, que un 20%
de los clientes fueron atendidos en 2 minutos o menos, o que el 50% de los clientes realizaron sus operaciones en
4 minutos o más.
Minutos de atención
Tiempo de atención a clientes
5
4
3
2
1
0%
5%
10%
15%
20%
25%
30%
Porcentaje de clientes
Figura 2.3. Diagrama de barras para los datos de la Tabla 2.4.
Histogramas.
Al igual que en los diagramas de barras, en un histograma la base de cada rectángulo representa una clase o
intervalo de clase de los datos agrupados y la altura del rectángulo representa la frecuencia o número de datos
agrupados en esa clase. La única diferencia existente entre estas dos gráficas es que en el diagrama de barras los
rectángulos están separados mientras que en el histograma los rectángulos se unen. Los histogramas son usados
frecuentemente cuando se trata de datos agrupados, y su presentación puede variar un poco ya que el eje horizontal
se puede marcar con los puntos extremos de cada una de las clases tal como se muestra en la Figura 2.4 o bien con
los puntos medios de cada una de las clases como se puede ver en la Figura 2.5.
Porcentaaje de familias
Consumo de electricidad
0.3
0.25
0.2
0.15
0.1
0.05
0
$80-107
107-134
134-161
161-188 188-$215
Cantidad de dinero en consumo
Figura 2.4. Histograma para los datos de la Tabla 2.6.
Departamento de Matemáticas
10
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Note que tanto el histograma con frecuencias absolutas como el de frecuencias relativas tienen la misma forma,
esto se debe a que las frecuencias relativas son proporcionales a las frecuencias absolutas y la elección de una u
otra forma depende esencialmente del gusto personal. La diferencia entre gráficas de barras e histogramas se
basa en distinguir entre variables cuantitativas y cualitativas mencionadas en la sección 3.2 del Folleto 1.
Frecuencias relativas
Consumo de electricidad
0.3
0.25
0.2
0.15
0.1
0.05
0
$80-107
107-134
134-161
161-188
188-$215
Cantidad de dinero en consumo
Figura 2.5. Histograma con frecuencias relativas para los datos de la Tabla 2.6.
Polígono de frecuencias.
Un polígono de frecuencia es el gráfico lineal de una tabla de frecuencias. Los ejes de este gráfico son similares a
los del histograma excepto que el punto medio de cada clase se identifica de manera característica a lo largo del
eje horizontal (ver Tabla 2.6). El número de observaciones o frecuencia de cada clase es representado por un punto
arriba del punto medio de esa clase y estos puntos son unidos por una serie de segmentos de línea para formar un
polígono. En la Figura 2.6 se muestra el polígono de frecuencias porcentuales para los datos dados en la Tabla 2.4.
Porcentaje de familias
Consumo de electricidad
30%
25%
20%
15%
10%
5%
0%
66.5
93.5
120.5
147.5
201.5
228.5
Cantidad de dinero en consumo
Figura 2.6. Polígono de frecuencias porcentuales para los datos de la Tabla 2.6.
Diagramas de tallo y hojas.
Un diagrama de tallo y hojas es un ingenioso artificio el cual ofrece una representación parecida a un histograma.
La ventaja de estos diagramas es que no sólo revelan las frecuencias, sino que contienen los datos reales. En la
Figura 2.7 aparece el diagrama de tallo y hojas para los datos de la Tabla 2.5.
Departamento de Matemáticas
11
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Tallo Hojas
8
2
9
6 0
10 2 9
11 6 1
12 7 3 8
13 0
14 7 8 1 9 4
15 3 7
16 5 8 7
17 1 8 2 5
18 5
19 7
20 2 6
21 3
Figura 2.7. Diagrama de tallo y hojas para los datos de la Tabla 2.5.
Este diagrama podría hacerse un poco más claro si se ordenan los datos de menor a menor pero, cuando este
mecanismo se hace a mano puede resultar demasiado tedioso dependiendo del tamaño de la muestra.
Diagramas de pastel o circulares.
Cuando en una tabla de frecuencia, los datos están separados en categorías o por cualidades, frecuentemente se
utiliza un diagrama circular conocido como diagrama de pastel el cual consiste de un círculo dividido en sectores
que son proporcionales en tamaño a las frecuencias o porcentajes correspondientes. Para construir un diagrama de
pastel se utilizan las frecuencias porcentuales. La Figura 2.6 muestra un diagrama de pastel para los datos de la
Tabla 2.4.
7 minuto, 5%
6 minutos, 10%
1 minuto, 5%
2 minutos, 15%
5 minutos, 20%
3 minutos, 30%
4 minutos, 15%
Tiempo de atención a clientes
Figura 2.7. Diagrama de pastel para los datos de la Tabla 2.4.
Otras distribuciones de frecuencias y otros gráficos.
Otros dos métodos útiles para representar datos, los cuales facilitan el análisis y la interpretación, son las tablas de
distribución acumulativas y los diagramas de polígonos acumulativos mejor conocidos como ojivas. Estos gráficos
Departamento de Matemáticas
12
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
los podemos generar a partir de las tablas de distribución de frecuencias:1) absolutas, 2) relativas, o 3)
porcentuales, mencionadas en la sección 2.4.
Distribuciones acumulativas y polígonos acumulativos.
Para construir una tabla de distribución de frecuencia acumulada, primeramente decidimos si se desea construirla
con frecuencias absolutas, o con proporciones, o bien con porcentajes. Después escogemos el tipo de distribución
acumulativa, ya sea la "menor que" o la distribución acumulativa "mayor que" y por último, nos basamos en la
tabla de frecuencias para ir determinando la frecuencia acumulada de cada clase tal como lo indica el Ejemplo 2.4.
Ejemplo 2.4. En la Tabla 2.8 aparece la distribución acumulada "menor que" con frecuencias relativas usando los
datos de la Tabla 2.6.
TABLA 2.8.DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS ACUMULATIVA "MENOR QUE"
Clase o
Frecuencia Frecuencia Relativa
Operación
Intervalo
Relativa
Acumulada "menor que"
efectuada
menos de $107
0.13
0
ninguna
menos de 134
0.23
0.13
0 + 0.13
menos de 161
0.23
0.36
0 + 0.13 + 0.23
menos de 188
0.27
0.59
0 + 0.13 + 0.23 + 0.23
menos de 215
0.14
0.86
0 + 0.13 + 0.23 + 0.23 +0.27
menos de 242
0
1.00
0 + 0.13 + 0.23 + 0.23 +0.27 +0.14
Como se puede observar, esta tabla se construyó registrando primero los límites inferiores de cada clase a partir
de la distribución de frecuencias relativas, luego se insertó un límite extra al final. Se calcularon las frecuencias
relativas acumulativas en la columna "menor que" determinando la frecuencia relativa de observaciones menores
que de cada uno de los valores de los límites establecidos. Es decir, tomamos en cuenta primero sólo datos menores
de $80, después sólo datos menores de $107 y así sucesivamente hasta llegar al último límite inferior.
Ejemplo 2.5 Similarmente se puede construir una tabla acumulativa "mayor que" determinando la frecuencia
relativa de observaciones mayores que de cada uno de los valores de los límites inferiores establecidos. Es decir,
tomamos en cuenta primero sólo datos mayores de $80, después sólo datos mayores que $107 y así sucesivamente
hasta llegar al último límite inferior. Operando de esta forma obtenemos la tabla de distribución acumulativa
siguiente.
TABLA 2.9.DISTRIBUCIÓN DE FRECUENCIAS ACUMULATIVA PORCENTUAL "MAYOR QUE"
DE LOS DATOS DE LA TABLA 2.4.6
Clase o
Intervalo
Frecuencia Frecuencia
Operación
porcentual Acumulada
efectuada
"mayor que"
mayor que $107
13%
100%
Ninguna
mayor que 134
23%
87%
100 – 13
mayor que 161
23%
64%
100 –(13 + 23)
mayor que 188
27%
41%
100 –(13 + 23 + 23)
mayor que 215
14%
14%
100 –(13 + 23 + 23 + 27)
mayor que 242
0%
0%
100 –(13 + 23 + 23 + 27 + 14)
.
Note que se insertó el límite inferior de la séptima clase con el propósito de indicar en la gráfica, la ausencia de
observaciones en esa clase y en las clases siguientes.
Departamento de Matemáticas
13
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Polígonos acumulativos u Ojivas.
Para construir un polígono acumulativo u ojiva se colocan los límites inferiores de clase en el eje horizontal y las
frecuencias acumulativas (absolutas, relativas o porcentuales) en el eje vertical. En la Figura 2.8 aparece la ojiva
"menor que" basándose en los datos obtenidos en la Tabla 2.8.
Frecuencia relativa
acumulada
1.2
1
Consumo de electricidad
0.8
0.6
0.4
0.2
0
menor que
$107
menor que
134
menor que
161
menor que
188
menor que
215
menor que
$242
Cantidad de dinero en consumo
Figura 2.8. Ojiva "menor que" de los datos de la Tabla 2.8.
La ojiva "mayor que" surgida a partir de los datos obtenidos en la Tabla 2.9 se muestra en la Figura 2.9.
Frecuencia acumulada
porcentual
120%
Consumo de electricidad
100%
80%
60%
40%
20%
0%
mayor que
$107
mayor que
134
mayor que
161
mayor que
188
mayor que
215
mayor que
$242
Cantidad de dinero en consumo
Figura 2.9. Ojiva “mayor que” de los datos de la Tabla 2.9.
Diagramas de caja.
Los diagramas de caja es un medio muy útil para representar datos. En dicho diagrama, los valores mínimo y
máximo, los cuartiles inferior (primer 25%de todos los datos) y superior (tercer 25% de todos los datos (también
llamados percentiles 25 y 75) respectivamente, y la mediana (primer 50% de todos los datos o percentil 50) se
representan en una caja rectangular alineada ya sea horizontal o verticalmente. La caja se extiende del cuartil
inferior al superior, y es atravesada de un lado al otro por la mediana. A partir de los extremos de la caja se
extienden líneas (“bigotes”) hasta los valores mínimo y máximo. Por ejemplo, un gerente de ventas está interesado
en comparar las ventas mensuales realizadas en el año 2008 con las ventas mensuales realizadas en el año 2009.
El gerente ha recolectado las 12 observaciones de cada año. Los datos aparecen en la Tabla 2.10
Departamento de Matemáticas
14
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
TABLA 2.10. VENTAS MENSUALES DE LOS AÑOS 2008 Y 2009.
Mes
Venta realizada
en el año 2008.
(miles de pesos)
Venta realizada
en el año 2009
(miles de pesos)
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
18.85
16.40
15.21
16.35
13.52
17.04
16.96
12.15
14.59
16.57
18.22
20.25
17.50
17.63
18.25
18.00
17.86
15.20
10.59
17.89
19.56
14.00
15.69
19.90
La mediana de las ventas realizadas en el año 2008 es
16.4  16.57
2
 16.485 mientras que los percentiles 25 y 75
son respectivamente 14.59 y 18.22. La mediana de las ventas realizadas en el año 2009 es
17.63  17.86
2
 17.745 y
los percentiles 25 y 75 son 15.20 y 18.25 respectivamente. La venta mínima mensual en el año 2008 fue de
12.15 miles de pesos y la máxima de 20.25, mientras que la venta mensual mínima realizada en el año 2009 fue
de 10.59 miles de pesos y la venta mensual máxima fue de 19.9 miles de pesos. En la Figura 2.10 se muestran los
diagramas de caja para las ventas realizadas en los dos años.
$
V
e
n
t
a
s
25
20.25
20
19.90
18.25
18.22
e
n
17.745
16.485
15
m
i
l
e
s
18.25
14.59
12.15
10.59
10
Año
2008 2009
Año
Figura 2.10. Diagramas de caja para las ventas mensuales de los años 2008 y 2009.
La representación de la Figura 2.10 revela claramente la diferencia en las ventas entre los dos años. También indica
que ambos años producen distribuciones razonablemente simétricas de ventas mensuales con similar variabilidad
o dispersión.
Departamento de Matemáticas
15
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
2.6. Medidas descriptivas de localización y distribución.
En la sección anterior, los datos en bruto se recopilaron y se resumieron en forma apropiada en tablas y gráficas.
En esta sección se desarrollará una amplia variedad de medidas de resumen descriptivas, las cuales son útiles para
analizar e interpretar datos cuantitativos, ya sea recolectados en forma bruta (datos no agrupados) o resumidos en
distribuciones de frecuencia (datos agrupados). Para ambos casos, se desarrollarán fórmulas similares para obtener
estas medidas de resumen descriptivas y cuando sea posible se mostrará un planteamiento gráfico utilizando las
gráficas construidas en las secciones anteriores. En orden descendente de importancia, las tres propiedades o
características mayores que describen un conjunto de datos pertenecientes a alguna variable numérica o a un
fenómeno de interés son: 1) Posición, 2) Dispersión y 3) Forma. En cualquier análisis o interpretación de datos
numéricos, se puede utilizar una gran variedad de medidas descriptivas que representan las propiedades de
posición, dispersión y forma, para esquematizar y resumir las características salientes del conjunto de datos. Si
estas medidas de resumen descriptivas se calculan con una muestra de datos se llaman estadísticos; si estas medidas
descriptivas se calculan a partir de toda la población de datos se llaman parámetros.
2.6.1 Medidas de posición o centralización.
La característica más importante que describe o resume un grupo de datos es su posición. La mayor parte de los
datos muestran una tendencia definida a reunirse en torno de un cierto punto. Existen tres medidas primarias de
posición o de tendencia central estas son en orden de importancia, la media aritmética, la mediana y la moda.
La media aritmética.
La media aritmética mejor conocida como promedio es la medida de tendencia central más conocida y de mayor
uso. Esta medida es muy fácil de calcular a partir de los datos ya sea recopilados en forma bruta o distribuidos en
una tabla. Esta medida de tendencia central se indica mediante el símbolo X y se calcula sumando todos los datos
de la muestra y, se dividen entre el número total de datos recopilados en la muestra. Así, si X 1 , X 2 , X 3 ,  X n
son los datos recopilados en la muestra, entonces,
n
X  X2  X3  Xn
X 1

n
X
i 1
i
. (2.1)
n
En donde: X es la media aritmética o promedio de la muestra,
n es el tamaño de la muestra,
X i es el dato número i de la muestra tomada,
Ejemplo 2.6. La media aritmética para los datos de la Tabla 2.4.1 es:
X
3  2  5  3  1  5  3  3  2  4  6  2  5  4  7  5  3  6  3  4 76

 3. 8 minutos.
20
20
Si los datos se encuentran resumidos como los de la Tabla 2.2 entonces utilizamos la fórmula (2.2)
k
f X  f2 X 2  f3 X 3    fk X k
X 1 1

f1  f 2  f 3    f k
f X
i
i 1
k
f
i
. (2.2)
i
i 1
En donde: X es la media aritmética o promedio de la muestra,
X i es el dato número i de la muestra tomada,
f i es la frecuencia con que se repite el dato X i .
Departamento de Matemáticas
16
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
k es el número de datos diferentes que aparecen en la muestra.
Ejemplo 2.7. La media aritmética para los datos de la Tabla 2.2 es:
X
(1)(1)  (3)(2)  (6)(3)  (3)(4)  (4)(5)  (2)(6)  (1)(7) 76

 3. 8 minutos.
1 3  6  3  4  2 1
20
Como se puede observar en los ejercicios anteriores el número 3.8 obtenido, no pertenece a la muestra pero,
podemos observar que en la muestra existen 10 valores menores que 3.8 y 10 valores mayores que 3.8. Por lo
tanto, la media actúa como un punto de equilibrio o como una balanza, de tal manera que las observaciones que
son mayores equilibran a las que son menores.
De una manera similar se puede calcular la media aritmética para los datos que aparecen en las Tablas 2.3 y 2.4.Si
los datos de la muestra fueron agrupados en una tabla de distribución, para calcular la media utilizamos la fórmula
(2.3).
k
f m  f 2 m 2  f 3 m3    f k m k
X 1 1

f1  f 2  f 3    f k
fm
i
i 1
k
f
i
. (2.3)
i
i 1
En donde: X es la media aritmética o promedio de la muestra,
m i es el punto medio o marca de clase de la clase i de la distribución de frecuencia,
f i es la frecuencia de la clase i de la distribución
k es el número de marcas de clase en la distribución.
 significa aproximadamente igual.
Ejemplo 2.8. Para calcular la media aritmética de los datos de la Tabla 2.4.6, primeramente debemos calcular los
puntos medios o marcas de clase de la distribución, colocarlos en una tabla (ver tabla 2.11.) acompañados con sus
respectivas frecuencias y se aplica la fórmula (2.3).
TABLA 2.11. TABLA PARA CALCULAR LA MEDIA A
PARTIR DE UNA TABLA DATOS AGRUPADOS
93.5 120.5 147.5 174.5 201.5
Puntos Medios
7
7
8
4
Frecuencias absolutas 4
X
(4)(93.5)  (7)(120.5)  (7)(147.5)  (8)(174.5)  (4)(201.5)
 $148.5.
4778 4
4452
 148.4 observe la similitud del
30
valor calculado para los datos agrupados. Además, en los datos no agrupados, existen 15 datos de la muestra que
son menores que la media calculada y 15 valores mayores que la media. Si el valor calculado de la media para los
datos agrupados lo marcamos en el histograma o en el polígono de frecuencias, este valor será el centro de
gravedad de estos gráficos. Es decir, un eje que pase por el valor representativo de la media aritmética dividirá al
histograma o al polígono de frecuencias en dos partes, cada una conteniendo aproximadamente el mismo número
de observaciones.
La media aritmética para los datos no agrupados de la Tabla 2.5 es X 
Departamento de Matemáticas
17
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
La mediana.
La mediana es la segunda medida de tendencia central en importancia después de la media aritmética y es utilizada
cuando el (o los) valor(es) extremo(s) en un conjunto de datos afecta tanto a la media aritmética que ésta no es una
buena medida de tendencia central en esas circunstancias. Por eso cuando uno de los valores extremos (o ambos)
afecta considerablemente, es más apropiado utilizar la mediana como medida de tendencia central, la mediana no
se afecta con cualquiera valores extremos en un conjunto de datos. La mediana es una medida de tendencia central
que aparece en el medio de la serie de datos ordenada. Es decir, la mitad de las observaciones en el conjunto de
datos son menores que ella y la otra mitad son mayores que ella.
Para calcular la mediana de un conjunto de datos los cuales se encuentran en su forma bruta, primeramente los
ordenamos ya sea de menor a mayor o bien de mayor a menor. Si el número de observaciones es impar se toma
el valor que esté en la mitad de los datos ordenados. Si el número de datos es par, se toma la media aritmética de
los dos datos intermedios.
Ejemplo 2.9. Para calcular la mediana de los datos que aparecen en la Tabla 2.5, primeramente los ordenamos en
forma creciente (pueden ordenarse también en forma decreciente) tal como se muestra en la Tabla 2.1.
TABLA 2.12. DATOS ORDENADOS DE MENOR A MAYOR DE LA TABLA2.5
82
130
168
90
141
171
96
144
172
102
147
175
109
148
178
111
149
185
116
153
197
123
157
202
127
165
206
128
167
213
Como el número de datos es par, n  30, localizamos las dos observaciones intermedias, en este caso las
observaciones que se encuentran en el lugar 15 y 16. Esto es, la última observación de la primera mitad y la primera
observación de la segunda mitad en los datos ordenados. Así,
Mediana =
148  149
 $148.5
2
Si los datos observados en la muestra están resumidos en una tabla de distribución, el valor aproximado de la
mediana se puede calcular mediante la fórmula (2.4).
n
  f BM
Mediana  BM   2
 fM


En donde,


i



( 2.4 )
BM  frontera inferior del intervalo de clase que contiene a la mediana.
f M  número de observacio nes en el intervalo de clase que contiene a la mediana.
f BM  número total de observacio nes antes del intervalo de clase que contiene a la mediana.
i  ancho del intervalo de clase que contiene a la mediana.
n
 observació n mediana.
2
Ejemplo 2.10. Para los datos resumidos en la Tabla 2.5, se tiene que el intervalo de clase que contiene a la mediana
n 30
 15 . Este intervalo es "De 134 a menos de 161", su
es el intervalo de clase que contiene al dato número 
2 2
frontera inferior es 134, el número de observaciones que tiene este intervalo son 7, el número de observaciones
antes de este intervalo son 11 y el ancho de este intervalo es 134-107 = 27. Así, se tiene que:
Departamento de Matemáticas
18
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
BM  134;
f M  7;
f BM  11;
i  27 y
n 30

 15
2
2
Sustituyendo estos valores en la fórmula (2.4) obtenemos:
Mediana  BM
n
  f BM
 2
 fM




i  134   15  11 27  134  17.36  149.4286

 7 


Se puede concluir que 15 de las 30 familias muestreadas tuvieron montos menores de $139.43 y las otras 15
familias tuvieron montos mayores que $139.43.
Cuantiles.
Los cuantiles son medidas de posición que se determinan mediante un método que determina la ubicación de los
valores que dividen un conjunto de observaciones en partes iguales. Cuando se trata de datos agrupados en una
distribución de frecuencias, los cuantiles son los valores de la distribución que la dividen en partes iguales, es
decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto
de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución
en cuatro, en diez o en cien partes iguales. Los cuantiles más usados son los cuartiles, cuando dividen la
distribución en cuatro partes; los deciles, cuando dividen la distribución en diez partes y los percentiles o
porcentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en
cierta forma una extensión de la mediana.
Cálculo de los cuartiles
a) Para datos agrupados.
Para calcular los Cuartiles Q1, Q2, Q3 y Q4 desde una tabla de distribución de frecuencias, se aplica la fórmula
(2.5).
𝑄𝑘 = (
𝑘∗𝑛
4
− 𝐹𝑄𝑘
𝑓𝑄𝑘
) ∗ 𝑤 + 𝐿𝑄 𝑘
(2.5)
Donde,
𝑄𝑘 =k-ésimo cuartil de la muestra, k = 1, 2, 3, 4
n = tamaño de la muestra
𝐹𝑄𝑘 = suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimo cuartil.
𝑓𝑄𝑘 =frecuencia de la clase que contiene al k-esimo cuartil.
w = ancho del intervalo de clase.
𝐿𝑄𝑘 =límite inferior del intervalo de la clase que contiene al k-esimo cuartil.
b) Para datos no agrupados.
Si se tienen una serie de valores X1, X2, X3,...,Xn, los cuartiles se localizan mediante las fórmulas(2.6)y(2.7),
dependiendo de si el número de datos, n, es par o impar, respectivamente.
𝑄𝑘 =
Departamento de Matemáticas
𝑘∙𝑛
4
19
(2.6)
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
𝑄𝑘 =
𝑘 ∙ (𝑛 + 1)
4
(2.7)
Siendo k el número del cuartil deseado; (k = 1, 2, 3, 4).
Nota importante: El resultado que se obtiene al aplicar la fórmula (2.6) o (2.7), nos indica el número de dato en
la tabla de datos ordenados, donde se encuentra el cuartil deseado. Por lo tanto, una vez aplicada una de las
fórmulas, debemos identificar al dato que representa a dicho cuartil. Si el resultado que se obtiene al aplicar la
fórmula contiene decimales, debemos calcular la parte proporcional usando la diferencia entre los dos números
enteros consecutivos de la tabla de datos ordenados y sumársela al dato menor. Ver ejemplo 2.12.
Cálculo de Deciles
a) Para datos agrupados.
Para calcular los DecilesD1, D2, D3,… , D10 desde una tabla de distribución de frecuencias, se aplica la fórmula (2.8).
𝑘∗𝑛
𝐷𝑘 = ( 10
− 𝐹𝐷𝑘
𝑓𝐷𝑘
) ∗ 𝑤 + 𝐿 𝐷𝑘
(2.8)
Donde,
𝐷𝑘 =k-ésimodecil de la muestra, k = 1, 2, 3, 4, …, 10
n = tamaño de la muestra
𝐹𝐷𝑘 = suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimodecil.
𝑓𝐷𝑘 =frecuencia de la clase que contiene al k-ésimodecil.
w = ancho del intervalo de clase.
𝐿𝐷𝑘 =límite inferior del intervalo de la clase que contiene al k-ésimodecil.
b) Para datos no agrupados
Si se tienen una muestra X1, X2, X3 ...,Xn de valores, los deciles pueden ser localizados usando las
fórmulas(2.9)y(2.10), dependiendo de si el número de datos de la muestra, n, es par o impar, respectivamente.
𝐷𝑘 =
𝐷𝑘 =
𝑘∙𝑛
10
𝑘 ∙ (𝑛 + 1)
10
(2.9)
(2.10)
Donde k el número del decil deseado; (k = 1, 2, …, 10).
Nota importante: El resultado que se obtiene al aplicar la fórmula (2.6) o (2.7), nos indica el número de dato en
la tabla de datos ordenados, donde se encuentra el decil deseado. Por lo tanto, una vez aplicada una de las fórmulas,
debemos identificar al dato que representa a dicho decil. Si el resultado que se obtiene al aplicar la fórmula contiene
decimales, debemos calcular la parte proporcional usando la diferencia entre los dos números enteros consecutivos
de la tabla de datos ordenados y sumársela al dato menor. Ver ejemplo 2.12.
Cálculo de percentiles.
a) Para datos agrupados.
Para calcular los percentiles P1, P2, …, P100 desde una tabla de distribución de frecuencias, se aplica la fórmula (2.11).
Departamento de Matemáticas
20
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
𝑘∗𝑛
𝑃𝑘 = (100
− 𝐹𝑃𝑘
𝑓𝑃𝑘
) ∗ 𝑤 + 𝐿 𝑃𝑘
(2.11)
Donde,
𝑃𝑘 =k-ésimo percentil de la muestra, k = 1, 2, 3, 4, …, 100.
n = tamaño de la muestra
𝐹𝑃𝑘 = suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimo percentil.
𝑓𝑃𝑘 =frecuencia de la clase que contiene al k-esimo percentil.
w = ancho del intervalo de clase.
𝐿𝑃𝑘 =límite inferior del intervalo de la clase que contiene al k-esimo percentil.
b) Para datos no agrupados
Si se tienen una muestra de valores X1, X2, ...,Xn, los percentiles pueden ser calculados por medio de las
(2.12)y(2.13), dependiendo de si el número de datos de la muestra, n, es par o impar, respectivamente.
𝑃𝑘 =
𝑃𝑘 =
𝑘∙𝑛
100
𝑘 ∙ (𝑛 + 1)
100
(2.12)
(2.13)
donde k el número del percentil deseado; (k = 1, 2, …, 100).
Nota importante: El resultado que se obtiene al aplicar la fórmula (2.6) o (2.7), nos indica el número de dato en
la tabla de datos ordenados, donde se encuentra el percentil deseado. Por lo tanto, una vez aplicada una de las
fórmulas, debemos identificar al dato que representa a dicho percentil. Si el resultado que se obtiene al aplicar la
fórmula contiene decimales, debemos calcular la parte proporcional usando la diferencia entre los dos números
enteros consecutivos de la tabla de datos ordenados y sumársela al dato menor. Ver ejemplo 2.12.
Es fácil observar que: el primer cuartil coincide con el percentil 25; el segundo cuartil con el decil 5; el percentil
50 y el tercer cuartil con el percentil 75.
Ejemplo 2.11. Para los datos agrupados de la Tabla 2.6, el tercer cuartil se calcula usando la fórmula (2.5), donde
k = 3; n = 30; puesto que el 75% de los datos de la muestra se encuentra en la cuarta clase, 𝐹𝑄𝑘 =4 + 7 + 7 = 18;
𝑓𝑄𝑘 = 8;w = (188 – 161) = 27 y 𝐿𝑄𝑘 = 161. Sustituyendo estos valores en la fórmula mencionada arriba se tiene
que:
𝑄3 = (
3∗30
)−
4
(
8
(18)
) ∗ 27 + 161 = 176.1875
Para calcular los cuantiles de datos no agrupados, primero debemos ordenar los datos de la muestra de menor a
mayor y después aplicar las fórmulas (2.6) o (2.7); (2.9) o (2.10); (2.12) o (2.13) para cuartiles, deciles y percentiles
respectivamente, según sea el caso del tamaño de la muestra (par o impar).
Departamento de Matemáticas
21
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Ejemplo 2.12.
Para los datos no agrupados y ordenados de menor a mayor de la Tabla 2.12, el séptimo decil se calcula usando la
fórmula (2.9) ya que n es par, con k = 7. Así:
𝐷7 =
(7) ∙ (30)
10
= 21
El resultado obtenido desde la fórmula (2.9) nos indica que el decil 7 se encuentra en el dato 168. Similarmente,
para calcular el percentil 85 usamos la fórmula (2.12) ya que n es par, con k = 65. Así,
𝑃85 =
(85) ∙ (30)
100
= 25.5
El resultado obtenido desde la fórmula, nos indica que el percentil 85 se encuentra en la mitad de los datos25 y 26
de la Tabla 2.12. Los datos requeridos para realizar la ponderación son respectivamente, 178 y 185. Ahora
calculamos la parte proporcional de la diferencia entre estos dos números(Es decir, la parte decimal del resultado
obtenido en la fórmula). Esto es:
(0.5) ∙ (185 − 178) = 3.5
Por lo tanto, el percentil 85 es 178 + 3.5 = 181.5.
La moda.
La moda es la tercera medida de centralización en importancia, es el valor que ocurre con más frecuencia en un
conjunto de observaciones. Si en una muestra de valores existe un solo valor que se repite un número determinado
de veces, se dice que esa muestra es unimodal. Cuando dos valores no adjuntos son casi iguales al tener frecuencias
máximas asociadas a ellos, la distribución se describe como bimodal. Las distribuciones de mediciones con varias
modas se denominan multimodales. Si en una muestra pequeña no se repiten valores observados, no hay moda.
Ejemplo 2.13. Para los datos que aparecen en la Tabla 2.1 se observa que esta muestra es unimodal y que su moda
es 3 ya que el 3 es el número que aparece con mayor frecuencia en la muestra tomada. Esto significa que
regularmente, el mayor número de personas que sean atendidas en las ventanillas de ese banco tendrán un tiempo
de atención de 3 minutos.
Para los datos agrupados en una distribución de frecuencias con intervalos de clase iguales, primeramente se
determina la clase que contiene a la moda, identificando la clase con el número mayor de observaciones. En
algunos textos designan la moda como el punto medio de la clase modal. Sin embargo en la mayor parte de los
textos se realiza una interpolación dentro de la clase modal basándose en la fórmula (2.14).
 d1 
i
Moda  BM  
 d1  d 2 
En donde BM 
(2.14)
frontera inferior de la clase que contiene a la moda.
d1  diferencia entrela frecuencia en la clase modal y la frecuencia en la clase anterior.
d 2  diferencia entrela frecuencia en la clase modal y la frecuencia en la clase siguiente.
i  tamaño del intervalo de clase.
Departamento de Matemáticas
22
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Ejemplo 2.14. Refiriéndose a la distribución de frecuencia de la Tabla 2.6. La clase modal es la clase con límites
de clase $161 a menos de $188 debido a que de todas las clases en la distribución, ésta es la que tiene mayor
frecuencia. Así,
BM  161;
d  8  7  1;
1
d  8  4  4;
2
i  188  161  27.
y,
1
Moda  161    27  167.75
4
El valor encontrado de 167.75 es el valor representativo que ofrece la fórmula y puede ser propuesto como el dato
que ocurrirá con mayor frecuencia. Es evidente que este dato no se encuentra en la muestra obtenida pero sería
una buena aproximación en caso de que los datos tuvieran una moda. Por último, si marcamos el valor encontrado
de la moda en el histograma o en el polígono de frecuencias, este valor indicará la cantidad que aparece con mayor
frecuencia. Una distribución de frecuencias puede carecer de moda o bien tener varias modas.
2.6.2. Relación entre la Media, la Mediana y la moda.
Frecuencia
Las diferentes medidas de centralización, tienen ventajas y desventajas una con respecto de las otras, depende
mucho de la forma en que estén distribuidos los datos y el propósito de la información que se obtenga. El único
caso en que se puede asegurar que las tres medidas coinciden es cuando la moda existe y es única y, además, los
valores de la muestra están distribuidos simétricamente alrededor de un punto como lo muestra la Figura 2.11.
X
Figura 2.11. Una distribución simétrica donde las medidas de centralización son iguales.
Puede darse el caso en que la distribución sea simétrica con respecto a un punto y las medidas de centralización
sean distintas como se puede observar en la Figura 2.12. En esta distribución, se da el caso en que la Media y la
Mediana son iguales pero existen 2 o más Modas.
Departamento de Matemáticas
23
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Frecuencia
Notas del Dr. Francisco Javier Tapia Moreno.
X
Figura 2.12. Una distribución simétrica donde las medidas de centralización son diferentes.
Frecuencia
Frecuencia
La situación más común se presenta cuando la distribución de valores de la muestra es asimétrica o disimétrica.
Puede presentarse una distribución que sea disimétrica positiva o disimétrica negativa tales como las que se pueden
observar en la Figuras 2.13. a) y 2.13. b).
X
X
a) Distribución Asimétrica Positiva
b) Distribución Asimétrica Negativa.
Figura 2.13. Distribuciones asimétricas o disimétricas.
Basándose en las medidas de centralización Media, Mediana y Moda, podemos saber el tipo de distribución de
frecuencias de acuerdo a las relaciones que aparecen la Tabla 2.13.
TABLA 2.13. RELACIÓN ENTRE LA MEDIA, MEDIANA Y MODA.
Condiciones
Si Media = Mediana = Moda
Si Media  Mediana  Moda
Si Moda  Mediana  Media
Tipo de distribución
Simétrica
Disimétrica negativa
Disimétrica positiva
2.7. Medidas de Dispersión.
Como se mencionó en la sección 2.6, la segunda característica que describe un conjunto de datos es la dispersión.
La dispersión es la cantidad de variación o de diseminación de los datos. Existen varias formas para medir el
grado de dispersión en los conjuntos de datos. En esta sección se describen las más importantes, éstas son la
Varianza, la Desviación estándar y el Coeficiente de Variación.
Departamento de Matemáticas
24
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Varianza y Desviación Estándar.
Dos medidas que tienen en cuenta cómo se distribuyen todas las observaciones en los datos, son la varianza y la
raíz cuadrada positiva de ésta, llamada desviación estándar. Su cálculo varía dependiendo de si se trata de la
población o de una muestra de ésta. Para una población, la varianza se representa por la letra griega minúscula  2
la cual se lee "sigma cuadrado", la fórmula para su cálculo es:
N
2 
 X
 
i
2
i 1
(2.15)
N
en donde  es la media poblacional, N es el tamaño y Xi es cada uno de las observaciones de la población.
Cuando se calcula la varianza para una muestra, resulta que regularmente no es exactamente equivalente a la
varianza para la población de donde se tomó la muestra, esto se debe a factores de sesgo, lo cual se explicará en
secciones posteriores. Para el cálculo de la varianza de la muestra, se incluye un factor de corrección ya que la
varianza de la muestra, es un estimador no sesgado de la varianza de la población. La varianza de la muestra se
2
representa por s , su fórmula es:
N
s2 
 X
 X
2
i
i 1
(2.16)
n 1
en donde X es la media, n es el tamaño y Xi es cada uno de las observaciones de la muestra.
Interpretar el significado del valor de la varianza, resulta regularmente difícil porque las unidades en que se expresa
no son las mismas de las observaciones del conjunto de datos. Por este motivo, la raíz cuadrada de la varianza, la
cual se representa por la letra griega  o por s si se trata de una muestra y, llamada desviación estándar, se utiliza
con mayor frecuencia y las fórmulas para calcularla son:
N

 X
i
 
i 1
2
(2.17)
N
para la población y,
n
s
 X
 X
2
i
i 1
n 1
(2.18)
para la muestra.
Esta desviación estándar será particularmente muy útil para el desarrollo del tema de distribuciones de
probabilidad.
Ejemplo 2.15. Para los datos no agrupados de la Tabla 2.1, la media aritmética resultó ser 3.8 minutos (ver ejemplo
2.6). Considerando que estos datos fueron extraídos de una población infinita, la desviación estándar se calcula
mediante la fórmula (2.18). Los cálculos aparecen en la Tabla 2.14:
Departamento de Matemáticas
25
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
TABLA 2.14. TABLA PARA CALCULAR DE LA DESVIACIÓN ESTÁNDAR DE DATOS NO AGRUPADOS.
Xi
Xi  X
3
2
5
3
1
5
3
3
2
4
6
2
5
4
7
5
3
6
3
4
-0.8
-1.8
1.2
-0.8
-2.8
1.2
-0.8
-0.8
-1.8
0.2
2.2
-1.8
1.2
0.2
3.2
1.2
-0.8
2.2
-0.8
0.2
(X i  X )2
0.64
3.24
1.44
0.64
7.84
1.44
0.64
0.64
3.24
0.04
4.84
3.24
1.44
0.04
10.24
1.44
0.64
4.84
0.64
0.04
Total 47.2
Así,
n
s
 X
 X
2
i
i 1
47.2
 1.576 minutos.
19

n 1
Este resultado indica el promedio de las distancias entre los datos dados en la Tabla 2.1 y la media de
estos datos.
Para calcular la varianza y desviación estándar para datos agrupados, se toma el punto medio de cada clase para
representar todas las observaciones incluidas en esa clase. De acuerdo con lo anterior, las fórmulas para la
población agrupada y para los datos obtenidos de una muestra son:
Para la varianza de la población:
N
 f m   
2
i
2 
i
i 1
(2.19)
N
Para la varianza de la muestra:
n
 f m  X 
2
i
s2 
i
i 1
(2.20)
n 1
Para la desviación estándar de la población:
N
 f m
i

i
i 1
N
 
2
(2.21)
Para la desviación estándar de la muestra:
Departamento de Matemáticas
26
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
n
 f m
i
i
 X
2
i 1
s
(2.22)
n 1
Ejemplo 2.16. Para los datos agrupados de la Tabla 2.6, la media fue 148.5 (ver ejemplo 2.8) podemos realizar
los cálculos en una tabla de la manera siguiente:
TABLA 2.15. TABLA PARA CALCULAR LA DESVIACIÓN ESTANDAR DE DATOS AGRUPADOS.
Clase o intervalo de clase Punto Medio de clase (mi) Frecuencia
De 80 a menos de 107
De107a menos de 134
De 134a menos de 161
De 161a menos de 188
De 188a menos de $215
93.5
120.5
147.5
174.5
201.5
4
7
7
8
4
mi  X ( mi  X ) 2 f ( mi  X ) 2
-55
-28
-1
26
53
3,025
784
1
676
2,809
12,100
5,488
7
5,408
11,236
Total 34,239
Así,
n
 f m  X 
2
i
s
i
i 1
n 1

34,239
 $33.783
29
Este resultado indica el promedio de las distancias entre las marcas de clase de los datos dados en la
Tabla 2.6 y la media de los datos de la Tabla antes mencionada.
La desviación estándar es la medida de dispersión más importante debido a que se utiliza junto con una cantidad
de métodos de inferencia estadística, algunos de ellos se analizan en folletos posteriores y otros quedan fuera del
propósito de este curso. Sin embargo, como ejemplo del uso de la desviación estándar, consideremos una
distribución simétrica como la de la Figura 2.11, en el análisis estadístico, una curva de frecuencia de ese tipo se
le llama curva normal. Para una distribución que está normalmente distribuida, se sabe que:



Aproximadamente el 68% de los datos observados se encuentran situadas dentro de una desviación
estándar alrededor de la media. Esto significa que este conjunto de datos se encuentra contenido en el
intervalo   
Casi el 95% de las mediciones se encuentran contenidas dentro de dos desviaciones estándar alrededor de
la media. Es decir, se encuentra dentro del intervalo   2
Cerca del 99% de los datos observados se encuentran situadas dentro de tres desviaciones estándar
alrededor de la media. Esto es, se encuentra dentro del intervalo   3
Además, sin importar como se distribuyan los datos con respecto a la media, el porcentaje de observaciones que
están contenidas dentro de  k desviaciones estándar alrededor de la media deben ser por lo menos,
1 

1  2 100%
k 

Departamento de Matemáticas
27
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Esto lo aseguraron los matemáticos Bienaymé y Chebyshev, al realizar estudios por separado de esta propiedad el
siglo XVIII [1]. Así, los datos de polígonos que adoptan cualquier forma, cuando menos un



75% de las observaciones caerán dentro del intervalo   2
88.89% de las mediciones estarán contenidas dentro del intervalo   3
93.75% de los datos observados estarán dentro del intervalo   4
Coeficiente de variación.
A diferencia de la varianza y de la desviación estándar, el coeficiente de variación es una media relativa, es decir,
se expresa como un porcentaje en lugar de en términos de las unidades de los datos observados. Es de gran utilidad
al comparar la variabilidad de dos o más conjuntos de datos o distribuciones que se expresan en diferentes unidades
de medida. Por ejemplo, un investigador podría estar interesado en medir la variabilidad existente en las ventas
diarias de diferentes compañías. No obstante, de que se podría tratar de la venta de diferentes productos y de
diferentes volúmenes de ventas, es posible medir la variabilidad de estas dos compañías y hacer las comparaciones.
El coeficiente de variación denotado por V , indica la magnitud relativa de la desviación estándar comparada con
la media de la distribución de las observaciones. Las fórmulas para calcular el coeficiente de variación son:
V 

 100%

(2.23)
V
s
 100%
X
(2.24)
para la población y,
para una muestra.
Para interpretar el coeficiente de variación, podemos usar las apreciaciones de la Tabla 2.16, de acuerdo al
resultado obtenido en el cálculo del coeficiente de variación.
TABLA 2.16. INTERPRETACIÓN DEL COEFICIENTE DE VARIACIÓN
Coeficiente de Variación
26% o más
Del 16% a menos del 26%
Del 11% a menos del 16%
0% a menos del 11%
Apreciación
Muy Heterogéneo
Heterogéneo
Homogéneo
Muy Homogéneo
Ejemplo 2.17. Usando los resultados obtenidos en los ejemplos 2.8 y 2.16, se tiene que:
V
33.783
 100%  22.75%
148.5
Este resultado indica que existe una variabilidad del 22.75% entre los montos muestreados de consumo de
electricidad y, por lo tanto podemos asegurar que la distribución de datos dados en la Tabla 2.2 es heterogéneo o
diverso.
Departamento de Matemáticas
28
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
2.8. Medidas de forma.
La tercera característica de las mencionadas en la sección 2.2 es la forma que presenta el polígono de una
distribución de datos. En esta sección estudiaremos medidas de asimetría y curtosis las cuales comparan la forma
que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución, con la
distribución normal. Como se mencionó en la sección 2.6.2,la distribución de los datos puede ser simétrica,
disimétrica positiva o disimétrica negativa. Si la distribución de datos no es simétrica, se dice que es una
distribución sesgada. Los coeficientes de asimetría de Pearson y de Fisher miden qué tan sesgada (a la derecha o
a la izquierda), está la distribución con respecto a la distribución normal la cual es simétrica.
El coeficiente de la curtosis o apuntamiento de Fisher mide la mayor o menor cantidad de datos que se agrupan en torno
a la moda y su pretensión es compararla curva de una distribución con la curva de la variable normal, en función de
la cantidad de valores extremos en la distribución.
Las medidas de asimetría, sobre todo el coeficiente de asimetría de Fisher, junto con las medidas de apuntamiento
o curtosis son muy importantes ya que se usan para contrastar si se puede aceptar que una distribución estadística
sigue la distribución normal. Esto es necesario para realizar numerosos contrastes estadísticos en la teoría de
inferencia estadística.
Coeficiente de disimetría de Pearson.
Una manera de medir la asimetría o disimetría de una distribución es mediante el coeficiente de Pearson. Este
coeficiente mide el alejamiento de la simetría expresando la diferencia entre la Media y la Mediana en relación
con la desviación estándar del conjunto de datos. Las fórmulas para su cálculo son:
Asimetría de la población 
Asimetría de la muestra 
3  (   Mediana )

3  ( X  Mediana )
s
(2.25)
(2.26)
Para una distribución simétrica, el valor del coeficiente de disimetría será siempre cero, ya que la media y la
mediana son iguales en valor. Para una distribución sesgada a la derecha, el coeficiente siempre será positivo,
mientras que para una distribución sesgada a la izquierda el coeficiente será siempre negativo. La interpretación
del coeficiente de Pearson se resume en la Tabla 2.17
TABLA 2.17. INTERPRETACIÓN DEL COEFICIENTE DE PEARSON.
Signo del coeficiente de Pearson
Sin signo (igual a cero o muy cercano a cero)
Positivo
Negativo
Tipo de Distribución
Simétrica
Asimétrica a la derecha
Asimétrica a la izquierda
Ejemplo 2.18. Para los datos de la Tabla 2.1 de los tiempos de espera de atención a clientes en ventanillas, se tiene
que
3  (3.8  3.5)
Asimetría de la muestra 
  0.571
1.576
Por lo tanto, podemos concluir que la distribución de frecuencias de los datos de los tiempos de espera de
atención a clientes de la Tabla 2.1 está ligeramente sesgada a la derecha.
Departamento de Matemáticas
29
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Coeficiente de Asimetría de Fisher.
Para calcular el coeficiente de asimetría de Fisher usamos la fórmula (2.27) si se trata de una población
k
Af 
(X
i
  )3  f i
i 1
N  3
(2.27)
Donde Af representa el coeficiente de asimetría de Fisher, Xi cada uno de los valores, (µ) la media de la población,
σ la desviación estándar de la población, y (fi) la frecuencia de cada valor.
Si se trata de una muestra entonces usamos la fórmula (2.28).
k
Af 
(X
i
 X )3  f i
i 1
n  S3
(2.28)
Donde Af representa el coeficiente de asimetría de Fisher, Xi cada uno de los valores en la muestra, 𝑋̅ la media
de la muestra, S la desviación estándar de la muestra, y (fi) la frecuencia de cada valor.
La interpretación del coeficiente de asimetría de Fisher es la misma que la del coeficiente de asimetría Pearson
como lo indica la Tabla 2.18.
TABLA 2.18. INTERPRETACIÓN DEL COEFICIENTE DE FISHER.
Signo del coeficiente de Fisher
Sin signo (igual a cero o muy cercano a cero)
Positivo
Negativo
Tipo de Distribución
Simétrica
Sesgada a la derecha
Sesgada a la izquierda
Ejemplo 2.19. El coeficiente de Asimetría de Fisher para la distribución de la Tabla 2.6, podemos calcularlo
elaborando una tabla similar a la Tabla 2.19 y usando la fórmula (2.28) y los resultados obtenidos para la media y
desviación estándar en los ejemplos 2.8 y 2.16 respectivamente.
TABLA 2.19. TABLA PARA CALCULAR EL COEFICIENTE DE ASIMETRIA DE FISHER.
Marcas
de clase
Xi
Frecuencia
Absoluta
fi
( X i  148.5)3  f i
93.5
120.5
147.5
201.5
228.5
Total
4
7
7
8
4
30
-665,500
-153,664
-7
1,191,016
2,048,000
2,419,845
Así,
Af 
Departamento de Matemáticas
2,419,845
 2.092
30  (33.783)3
30
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Con este resultado concluimos que debido a que el coeficiente de asimetría de Fisher el positivo, la distribución
de los datos de la Tabla 2.6 es asimétrica positiva.
Curtosis o apuntamiento.
El concepto de curtosis o apuntamiento de una distribución surgió al comparar la forma de una distribución con la
forma de la distribución normal. De esta forma, se clasifican las distribuciones según sean más o menos picudas o
apuntadas que la distribución Normal.Se define 3 tipos de distribuciones según su grado de curtosis:
1) Distribución mesocúrtica: presenta un grado de concentración promedio alrededor de los valores
centrales de la variable (el mismo que presenta una distribución normal). En ese caso, el coeficiente de
curtosis es cero. Ver Figura 2.14 b).
2) Distribución leptocúrtica: presenta un grado elevado de concentración alrededor de los valores centrales
de la variable. Es decir, está más apuntada que la Normal. En este caso, su coeficiente de curtosis será
positivo. Ver Figura 2.14 a).
3) Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales
de la variable. Es decir, la distribución está menos apuntada que la normal. En este caso el coeficiente de
Fisher es negativo. Ver Figura 2.14 c).
a) Leptocúrtica b) Mesocúrtica c) Platicúrtica
Figura 2.14. Tipos de distribuciones de acuerdo a su curtosis*.
*Fuente: http://www.tuveras.com/estadistica/estadistica02.htm.
Coeficiente de curtosis de Fisher.
El Coeficiente de Curtosispara la población, se calcula usando la fórmula 2.29.
k
Cf 
(X
i
  )4  fi
i 1
N  4
3
(2.29)
Donde (Cf) representa el coeficiente de curtosisde Fisher, (Xi) cada uno de los valores, (µ) la media de la
población, σ la desviación estándar de la población, y (fi) la frecuencia de cada valor.
Para la muestra se usa la fórmula (2.30),
k
Cf 
Departamento de Matemáticas
(X
i
 X )4  fi
i 1
nS4
31
3
(2.30)
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Donde (Cf) representa el coeficiente de curtosisde Fisher, (Xi) cada uno de los valores, (𝑋̅) la media de la
muestra, S la desviación estándar de la muestra, y (fi) la frecuencia de cada valor.De acuerdo al resultado
obtenido,las distribuciones pueden categorizarse como se indica en la Tabla 2.20.
TABLA 2.20. CATEGORIZACIÓN DE LAS DISTRIBUCIONES DE ACUERDO AL COEFICIENTE DE FISHER.
Signo del coeficiente de Fisher Tipo de distribución
Sin signo ( C f = 0)
Mesocúrtica
Positivo ( C f > 0)
Leptocúrtica
Negativo ( C f < 0)
Platicúrtica
Ejemplo 2.20.El coeficiente de curtosis o apuntamiento de Fisher para la distribución de la Tabla 2.6, podemos
calcularlo elaborando una tabla similar a la Tabla 2.21 y usando la fórmula (2.30) y los resultados obtenidos para
la media y desviación estándar en los ejemplos 2.8 y 2.16 respectivamente.
TABLA 2.21. TABLA PARA CALCULAR EL COEFICIENTE DE CURTOSIS DE FISHER.
Marcas
de clase
Xi
Frecuencia
Absoluta
fi
( X i  148.5) 4  f i
93.5
120.5
147.5
201.5
228.5
Total
4
7
7
8
4
30
36,602,500
4,302,592
7
63,123,848
163,840,000
267,868,947
Cf 
267,868,947
 3  3.855
30  (33.783)4
En consecuencia, podemos deducir que debido a que el coeficiente de curtosis de Fisher es positivo, la distribución
de la Tabla 2.6 es leptocúrtica. Es decir, es más picuda que la distribución normal.
2.9. Análisis de regresión y correlación lineal simple.
El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables
cuantitativas. Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables (regresión
múltiple). El análisis regresión lineal puede utilizarse para explorar y cuantificar la relación entre una variable
llamada dependiente (de respuesta o predictora) indicada por Y, y una o más variables llamadas independientes
(explicativas o regresoras) denotadas por X1, X2, …, Xk, así como para desarrollar una ecuación lineal con fines
predictivos.
En esta sección sólo estudiaremos la regresión, correlación lineal simple y calcularemos el modelo lineal simple.
Es decir, analizaremos la relación existente entre una variable independiente (X) y una variable dependiente (Y),
obtendremos un modelo lineal de una variable independiente para predecir o pronosticar la variable dependiente.
Departamento de Matemáticas
32
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
2.9.1. Introducción al análisis de regresión y correlación lineal.
Las técnicas de regresión (repercusión) y correlación (afinidad o correspondencia) cuantifican la asociación
estadística entre dos o más variables. La regresión lineal simple expresa la relación entre una variable dependiente
Y, y una variable independiente X, en términos de la pendiente y la intersección de la línea con el eje Y que mejor
se ajuste a las variables. La correlación simple expresa el grado de la correspondencia o relación entre las dos
variables en términos de un coeficiente de correlación (r) que proporciona una medida indirecta de la variabilidad
de los puntos alrededor de la mejor línea de ajuste. De ninguna manera, la regresión ni la correlación dan pruebas
de relaciones causa – efecto [2]
Regresión lineal.
Se define como un procedimiento mediante el cual se trata de determinar si existe o no relación de dependencia
entre dos o más variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los
valores, de una o más variables dependientes. Por otro lado, la regresión en forma gráfica, trata de lograr que una
dispersión de las frecuencias sea ajustada a una línea recta o a una curva. Por lo tanto, la regresión puede ser lineal
y curvilínea (o no lineal). Como se mencionó antes, en este curso sólo estamos interesados en aprender la regresión
lineal simple. Este tipo regresión se usa con mucha frecuencia en las ciencias económicas, y sus disciplinas
tecnológicas ya que cualquier función no lineal, es linealizada para su estudio y efectos prácticos. La regresión
lineal simple es útil para: 1) determinar la relación de dependencia que tiene una variable respecto a otra, 2) ajustar
la distribución de frecuencias de ambas variables (dependiente e independiente)a una línea recta, es decir,
determinar la ecuación de la línea recta de regresión. 3) Predecir un dato desconocido de una variable partiendo
de los datos conocidos de otra variable.
Mediante el coeficiente de correlación de Pearson (ver sección 2.9.3) podemos determinar si la asociación o
relación que existe entre la variable dependiente y la independiente es fuerte o débil. En aquellos casos en que el
coeficiente de correlación (denotado por r) sea “cercano” a +1 o a –1, tendrá sentido considerar la ecuación de la
recta que “mejor se ajuste” a la nube de puntos (conocida como recta de los mínimos cuadrados). Como ya se
mencionó anteriormente, uno de los principales usos de dicha recta será el de predecir o estimar los valores de Y
que obtendríamos para distintos valores de X. Estos conceptos quedarán representados en lo que llamamos
diagrama de dispersión (ver sección 2.9.2) [3].
Con el coeficiente de determinación (ver sección 2.9.3), se logra calcular el porcentaje de la variabilidad en las
unidades de variable dependiente (pronóstico) que no puede ser explicada por las unidades de la variable
independiente en la predicción, debido a factores ajenos o externos de las unidades utilizadas en la variable
independiente. El coeficiente de determinaciones denotado por r2y oscila entre –1 y +1. Entre más “cercano” a +1 o
a –1 se tendrá un menor porcentaje de la variabilidad que no puede ser explicada entre las unidades de ambas
variables.
Correlación lineal.
En ocasiones nos puede interesar saber si existe o no algún tipo de relación entre dos variables aleatorias. Por
ejemplo, entre el número diario de visitas realizadas por los clientes a un establecimiento comercial y el gasto
diario realizado en publicidad por dicho establecimiento. Una primera aproximación al problema consiste en
dibujar en el plano cartesiano (R2) un punto por cada día muestreado: la primera coordenada (o abscisa) de cada
punto sería el número de visitas de los clientes al establecimiento, mientras que la segunda coordenada (u
ordenada) sería la cantidad de dinero gastada en publicidad ese día. Así, obtendríamos una nube de puntos la cual
podría indicarnos visualmente la existencia o no de algún tipo de relación lineal, o no lineal entre ambas variables.
Otro ejemplo similar, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y de
cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de tiempo
de 120meses, una posible representación sería situar un punto por cada mes de forma que la abscisa de cada punto
sería la cantidad en pesos invertidos en publicidad y/o promoción, mientras que la ordenada sería la cantidad en
pesos obtenidos de su facturación. De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de
relación existente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relación lineal
Departamento de Matemáticas
33
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
entre las dos variables (abscisas y ordenadas). El parámetro que nos da tal cuantificación es el coeficiente de
correlación lineal de Pearson r2 (ver la sección 2.9.3), cuyo valor oscila entre –1 y +1.
En contraste, el análisis de regresión se usa en la predicción, mientras que el análisis de correlación se utiliza para
medir la fuerza de la asociación entre las variables [4].
2.9.2. Gráficos de dispersión.
Un gráfico de dispersión muestra una serie de datos como un conjunto de puntos representados en un plano
cartesiano (ver Figura 2.15). Los valores se representan mediante la posición de los puntos en el gráfico. Las
categorías se representan mediante distintos marcadores en el gráfico. Los gráficos de dispersión suelen usarse
para comparar datos agregados de las categorías. Uno de los aspectos más poderosos de un gráfico de dispersión,
es su capacidad para mostrar las relaciones lineales o no lineales entre las variables. Además, si los datos son
representados por un modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como
patrones superpuestos. El diagrama de dispersión es una de las herramientas básicas en control de calidad.
Fuerte correlación lineal negativa.
Fuerte correlación lineal positiva.
Correlación lineal positiva intermedia.
Ninguna correlación lineal.
Correlación no lineal intermedia.
Fuerte correlación no lineal.
Figura 2.15 Diagramas de dispersión para la explicación del coeficiente de correlación.
En la Figura 2.15 podemos observar distintos diagramas de dispersión los cuales explicarían el valor obtenido en
coeficiente de correlación (r) de Pearson.
Ejemplo 2.21.El gerente general de una empresa desea saber si existe relación entre la rentabilidad de la empresa
y la inversión en publicidad y promoción realizada por ésta. El gerente cuenta con los datos del volumen de ventas
y del gasto en publicidad y promoción que se realizaron en los últimos 12 meses expresados en millones de pesos.
Los datos recopilados aparecen en la Tabla 2.22. Para ello, construye el diagrama de dispersión que aparece en la
Figura 2.16.
TABLA 2.22. MONTOS MENSUALES DE LAS VENTAS Y GASTOS EN PUBLICIDAD Y PROMOCIÓN.
Mes
Monto de las ventas
Gasto en publicidad y promoción
Departamento de Matemáticas
Jul
5
1
Ago
10
1.5
Año 2009
Sept Oct
15
20
1.8
2
34
Nov
30
2.5
Dic
40
3.5
Ene
50
5
Feb
65
6
Año 2010
Mar Abr
70
75
6.5
7
May
80
7.5
Jun
90
8
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Gasto en publicidad y promoción
(en millones de pesos)
Notas del Dr. Francisco Javier Tapia Moreno.
9
8
7
6
5
4
3
2
1
0
0
20
40
60
80
100
Monto de las ventas mensuales
(en millones de pesos)
Figura 2.16. Diagrama de dispersión del monto de las ventas y los gastos en publicidad y promoción.
Con el diagrama de la Figura 2.16 el gerente pudo observar que existe una relación creciente entre las dos variables
involucradas, y que ambas variables son directamente proporcionales. Es decir, si una variable sube la otra también
y viceversa. También, el gerente se dio cuenta que la relación existente entre las dos variables se comporta como
una línea recta con pendiente positiva y que dicha relación entre ambas variables parece ser muy fuerte. Para
verificar esta aseveración, el gerente debe calcular el coeficiente de correlación (ver la sección siguiente). Para
realizar un pronóstico, el gerente debe determinar la ecuación del modelo lineal que involucra a estas dos variables
(ver sección 2.9.4).
2.9.3. Coeficiente de correlación lineal.
El coeficiente de correlación, r, nos indica qué tan cerca están los datos de la línea de ajuste (ver la sección 2.9.4).
La fórmula para calcularlo es:
r

n X
n XY    X  Y 
2
   X 
2

n Y
2
   Y 
2
(2.29)
La fórmula del coeficiente de correlación, desarrollada por Karl Pearson, está diseñada para que  1  r  1 , con
un valor de r cercano a 1significa que las dos variables crecerán o decrecerán juntas, y existirá una fuerte relación
matemática entre ellas. Como se mencionó al inicio del de la sección 2.9.1, esto no necesariamente significa que
una de las variables tiene efecto directo sobre la otra. Por ejemplo, el hecho de existir una gran correlación entre
el crecimiento del número de escuelas en una cierta área de la ciudad y el aumento en la venta de licor en esta área,
no necesariamente quiere decir que los estudiantes y maestros están tomando el licor; ambos crecimientos reflejan
un crecimiento en la población de esta área.
Por otro lado, un coeficiente de correlación cercano a –1 indica que hay una fuerte correlación negativa; esto es,
una variable tenderá a decrecer mientras que la otra crecerá. Está generalmente convenido que la correlación entre
–0.2 y 0.2 indica una relación no significativa entre las variables.
Departamento de Matemáticas
35
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Ejemplo 2.22. En referencia al ejemplo 2.21, el gerente decide calcular el coeficiente de regresión de Pearson para
determinar qué tan fuerte es la relación entre las variables involucradas. Para facilitar el cálculo del valor de r, el
gerente elaboró la Tabla 2.23.
TABLA 2.23. TABLA PARA CALCULAR EL COEFICIENTE DE CORRELACIÓN.
Mes
Jul-09
Ago-09
Sept-09
Oct-09
Nov-09
Dic-09
Ene-10
Feb-10
Mar-10
Abr-10
May-10
Jun-10
Totales
X
5
10
15
20
30
40
50
65
70
75
80
90
550
Y
1
1.5
1.8
2
2.5
3.5
5
6
6.5
7
7.5
8
52.3
XY
5
15
27
40
75
140
250
390
455
525
600
720
3,242
X2
25
100
225
400
900
1,600
2,500
4,225
4,900
5,625
6,400
8,100
35,000
Y2
1
2.25
3.24
4
6.25
12.25
25
36
42.25
49
56.25
64
301.49
En el renglón de totales de la Tabla 2.19 tenemos calculados respectivamente,
Y
2
 X ,  Y ,  XY ,  X
2
y
. Por lo tanto, sólo se necesita sustituir estos valores con n  12 en la fórmula de r . Así,
r
123,242  55052.3
1235,000  550
2
12301.49  52.3
2
10,139

117,500 882.59

10,139
 0.995627.
10,183.5320
Con el resultado obtenido de r, podemos concluir que la relación existente entre las dos variables involucradas
(ventas y gasto en publicidad y promoción) es muy fuerte y que podemos utilizar el modelo de regresión lineal
para predecir una de las variables conociendo la otra.
Coeficiente de determinación de Pearson.
El coeficiente de determinación r2mide la proporción de variabilidad total de la variable dependiente Y respecto a
su media que es explicada por el modelo de regresión. En otras palabras, r2 mide la proporción de la variación total
en la variable dependiente Y que está explicada por la variable independiente X, o que se debe a la variación de la
variable independiente X. Es usual expresar esta medida en tanto por ciento, multiplicándola por 100%. La fórmula
para calcular el coeficiente de determinación de Pearson es:

2
r 

 n
Departamento de Matemáticas
 XY    X  Y 
 X    X  n Y    
n
2
2
36
2
2

  100%
2 
Y 

(2.30)
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Ejemplo 2.23.Si el gerente desea calcular el coeficiente de determinación de Pearson, sólo tiene que elevar al
cuadrado el resultado obtenido en el ejercicio 2.22. Esto es,
𝑟 2 = (0.995627)2 ∙ 100% =99.1273%
Este resultado implica que sólo el 0.872687% de las variaciones en Y no pueden ser explicadas por la variable
independiente de las ventas mensuales generadas por la empresa. Un 99.1273% de los casos las variaciones en el
gasto mensual en publicidad y promoción pueden ser explicadas por las ventas mensuales realizadas por la
empresa.
2.9.4. Modelo de regresión lineal simple.
El modelo de regresión lineal simple toma la forma
Y = a + bX,
(2.31)
Donde Y = variable dependiente; X = variable independiente. Los valores de la pendiente (b) y la intersección con el eje Y
(a), se obtienen usando las ecuaciones normales escritas en la forma conveniente.
b
 X Y  n  X Y
X
2
 n X
a  Y  bX
2
(2.32)
(2.33)
Ejemplo 2.21. En relación al ejemplo 2.19, el gerente general puede determinar el modelo de regresión lineal
simple (2.31), basándose en los resultados obtenidos en la Tabla 2.21 y usando las fórmulas (2.32) y (2.33) de la
manera siguiente:
b
3,242  12  (45.8333)  (4.35833) 844.916667

 0.08628936.
9791.66667
(35,000)  (12)  (45.8333) 2
Una vez calculado el valor de la pendiente (b), ya podemos determinar el valor de la intersección con el eje Y usando la
fórmula (2.33). Esto es,
a  (45.8333)  (0.08628936)  (4.35833)  0.40340426
Por lo tanto, el modelo de regresión lineal para los datos de la Tabla 2.20 es:
Y = 0.40340426 + 0.08628936X
(2.34)
En dondeX representa el monto de las ventas mensuales y Y el gasto mensual en publicidad y promoción.
Ejemplo 2.22. En relación al Ejemplo 2.20, para el mes de septiembre de 2010, la empresa desea realizar ventas
por 100 millones de pesos. El gerente general usa el modelo de regresión lineal simple calculado en el Ejemplo
2.21, para determinar el gasto que debe hacerse ese mes en publicidad y promoción de la empresa, como sigue:
Y = 0.40340426 + 0.08628936∙(100) = 9.03234026
Departamento de Matemáticas
37
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Esto es, para lograr las ventas deseadas en el mes de septiembre de 2010, la empresa debe realizar un gasto
aproximado de 9 millones de pesos en publicidad y promoción.
Ejemplo 2.23.En referencia al problema anterior, para el mes de octubre la gerencia de publicidad y promoción
de la empresa cuenta con un presupuesto de 11.5 millones de pesos. El gerente general pronostica las ventas
esperadas para el mes de octubre usando el modelo de regresión simple (2.34), de la manera siguiente:
11.5 = 0.40340426 + 0.08628936X
Despejando el valor de X se tiene que:
𝑋=
11.5 − 0.40340426
= 128.5975
0.08628936
Con el resultado obtenido el gerente general espera que las ventas de octubre serán aproximadamente del orden de
los 128.6 millones de pesos.
2.10. Ejercicios teóricos.
1. Relaciona mediante flechas los conceptos que se correspondan entre sí:
Estadística
Conjunto homogéneo de individuos en estudio.
Muestra
Cada uno de los individuos que constituyen la población.
Estadística
Descriptiva.
Se ocupa del estudio y la aplicación del conjunto de métodos necesarios para
recoger, clasificar, representar y resumir datos, así como de la realización de
inferencias a partir del análisis de éstos
Población
Parte de la población sobre la que se experimenta
Unidad experimental o Es el conjunto de técnicas que se utiliza para obtener conclusiones que
Unidad estadística.
sobrepasan los límites del conocimiento aportado por los datos, busca obtener
información de un colectivo mediante un sistemático procedimiento del manejo
de datos de la muestra.
Estadística Inferencial. Se ocupa del estudio y aplicación de los métodos necesarios para representar y
resumir datos
2. Responde verdadero (V) o falso (F) a las siguientes afirmaciones:
Los 500 casos de gripe analizados conforman la población en estudio.
Los 20,000 enfermos seleccionados constituyen una muestra de la población española
Una variable cualitativa no puede ser expresada con números
Las variables discretas se expresan siempre con números enteros positivos
El peso no es una variable continua porque no puede ser negativo
La cantidad de grageas de un frasco es una variable continua
El estado civil de una persona es una variable dicotómica
El resultado de una maratón es una variable ordinal
Departamento de Matemáticas
38
V
V
V
V
V
V
V
V
F
F
F
F
F
F
F
F
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Los estadísticos son valores que cuantifican ciertas características de los datos
El número medio de crías de ratón por camada no es un estadístico
Las frecuencias absolutas se expresan en valores enteros positivos
Para comparar el número de aprobados en dos asignaturas utilizamos las frecuencias absolutas
Las frecuencias absolutas acumuladas se pueden calcular para cualquier tipo de variable
V
V
V
V
V
F
F
F
F
F
3. Completa las siguientes afirmaciones:
a) La distribución de frecuencias relativas de una variable discreta se puede representar mediante un
_________________.
b) El _________________ es el gráfico más utilizado para representar la distribución de frecuencias simples
(no acumuladas) de una variable continua.
c) Dos diferencias entre el diagrama de frecuencias acumuladas y el polígono de frecuencias acumuladas
son:
(i) El primero permite representar variables _________________ y el segundo variables _________________.
(ii) El primero es una gráfica _________________ mientras que el segundo es una gráfica
_________________.
d) La _________________ es una medida característica válida para representar variables cualitativas.
e) Las medidas características de posición de tendencia central son: _________________,
_________________y_________________.
f) Los _________________ son _________________ valores que dividen a la muestra en cuatro partes de
igual frecuencia. Análogamente, los _________________ son _________________ valores que dividen
a la muestra en cien partes de igual frecuencia.
g) El límite (bigote) inferior de un diagrama de cajas representa un valor calculado mediante la expresión:
_________________.
h) Las siguientes relaciones entre la media, mediana y moda son indicadores numéricos de la asimetría en la
distribución de los datos:
(i) moda _________________mediana _________________media indica simetría.
(ii) moda _________________mediana _________________media indica asimetría positiva (a la
derecha)
(iii) moda _________________mediana _________________media indica asimetría negativa (a la
izquierda).
i)
El signo del coeficiente de curtosis de Fisher es indicador de la forma de la distribución de frecuencia de
los datos:
(i) Un valor _________________indica que la distribución es platicúrtica.
(ii) Un valor _________________indica que la distribución es mesocúrtica.
(iii) Un valor _________________indica que la distribución es leptocúrtica.
2.11. Ejercicios prácticos.
1. Se ha realizado una encuesta en 30 hogares en la quese les pregunta el nº de individuos que conviven en el
domicilio habitualmente. Las respuestas obtenidas han sido las siguientes:
4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus
correspondientes acumuladas.
Departamento de Matemáticas
39
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos vive en
hogares de tres o menos miembros?
c) Dibuje el diagrama de frecuencias absolutas y el diagrama de frecuencias acumuladas.
d) Agrupe por intervalos de amplitud 2 los valores de la variable, calcule su distribución de frecuencias y represente
con los correspondientes gráficos las frecuencias absolutas y acumuladas.
2. El 1 de septiembre 2013 el diario El Imparcial publicó el siguiente gráfico sobre la situación del turismo a nivel
mundial.
Figura 1. Situación del turismo a nivel mundial.
a)
b)
c)
d)
¿Qué variable es la que se está presentando en el gráfico?
¿Qué tipo de variable es?
Construya la tabla de distribución de frecuencias
Represente la información del gráfico en un diagrama de barras.
3. Se realiza un estudio en una ciudad sobre la capacidad hotelera y se obtienen los siguientes resultados:
Plazas Nº de hoteles
0-10
25
10-30
50
30-60
55
60-100
20
100-120
10
Total
160
a) Represente gráficamente esta distribución de frecuencias mediante un histograma.
b) ¿Cuál es la proporción de hoteles que disponen de entre 11 y 60 plazas?
c) ¿Cuántos hoteles tienen treinta o menos plazas?
d) Calcule las marcas de clase de cada intervalo.
e) ¿Cuál es la proporción de hoteles que disponen de entre 15 y 50 plazas? ¿Qué hipótesis hace para este último
cálculo?
4. El total de la población de un lugar está constituido por personas de diferentes edades. Al dividir una población
de acuerdo con su edad y sexo, en un tiempo determinado, se obtiene una pirámide poblacional. La figura 2
muestra la pirámide poblacional de México del año 2010.
Departamento de Matemáticas
40
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Figura 2. Pirámide poblacional de México de 2010
Fuente: http://2.bp.blogspot.com/_YZNahVoHfWY/TGGr_rIAMqI/AAAAAAAAAL4/bZ3L5sYhUg4/s1600/Pop_Pyramid_Mexico_2010.gif
a) ¿Qué variable está representando el gráfico?
b) ¿Qué tipo de variable es?
c) Construye una tabla de distribución de frecuencias de 10 clases y calcula las marcas de clase.
d) Representa el polígono de frecuencias acumuladas “menor que”.
e) Suponiendo que todas las personas se jubilan a los 65 años, ¿Cuántas personas jubiladas hay en México según
el censo del 2010?
5. Visita la Web http://cuentame.inegi.org.mx/poblacion/habitantes.aspx?tema=P y responde a las preguntas
siguientes:
a) El número de personas de 0 a 14 años, ¿ha disminuido o ha aumentado?
b) ¿Cómo te imaginas el futuro si cada vez hay más adultos mayores y menos niños?
c) ¿Cómo van a cambiar las necesidades de la población?
d) ¿En qué grupo de edad la población de hombres disminuye en mayor porcentaje que la de mujeres? ¿Cuáles
crees que sean las causas?
6. En el Departamento de Personal de una fábrica se ha realizado un estudio estadístico en relación a los salarios
mensuales percibidos por los trabajadores en miles de pesos. El resultado de una muestra de 60 empleados arrojó
los siguientes datos:
3.0 4.0 3.3 3.0 3.4 3.1 3.9 3.8 3.8 4.0 3.9 3.7 3.9 3.2 3.0 3.5 4.0 3.8 4.0 3.6
3.0 3.2 3.5 3.8 3.4 3.8 3.7 3.5 3.5 3.7 3.5 3.3 3.7 3.6 3.2 3.6 3.7 3.4 3.6 3.3
3.6 3.0 3.3 3.9 3.2 3.0 3.9 3.7 3.7 3.4 3.1 3.6 3.8 3.1 3.8 3.6 3.9 3.1 3.6 3.5
Con base en la información de la muestra,
Departamento de Matemáticas
41
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
a) Construye el diagrama de tallo y hojas para los datos dados.
b) Obtén la distribución de frecuencias para los datos no agrupados de la muestra.
c) Calcula la media, mediana y moda para la distribución de frecuencias del inciso b).
d) Construye una distribución de frecuencias de datos agrupados de cinco intervalos igualmente espaciados.
e) Calcula la media, moda y mediana para los datos agrupados y compara los resultados obtenidos en el caso c).
¿Qué puedes argumentar al respecto?
f) Con la distribución de frecuencias del inciso d), construye los gráficos siguientes;
1) El histograma.
2) El polígono de frecuencias.
3) La ojiva “menor qué”
4) La ojiva “mayor qué”
g) Construye los diagramas de caja para con los datos obtenidos en los incisos c) y e) y compáralos. ¿Qué puedes
decir al respecto?
7. Para la empresa SAMID y Asociados, la cantidad diaria producida (en miles de unidades) está dada por la
siguiente distribución de frecuencias:
Cantidad diaria
producida (en miles)
De 5 a menos de 15
De 15 a menos de 25
De 25 a menos de 35
De 35 a menos de 45
De 45 a menos de 55
Frecuencia
Absoluta
13
x
y
8
7
El gerente de producción ha perdido dos datos, pero asegura que la suma de las cantidades faltantes es el doble del
promedio de la producción diaria. A partir de la información de la tabla y de lo que asegura el gerente, se desea
saber:
a) El valor de x y de y, si se sabe que la cantidad promedio de la producción diaria es de 26 mil unidades.
b) Los valores de mediana, moda, varianza y desviación estándar para la producción diaria.
c) El tercer cuartil, el noveno decil y el percentil número 15.
d) El coeficiente de variación, el coeficiente de asimetría de Pearson, y los coeficientes de asimetría y curtosis de
Fisher.
e) Conforme a la comparación de las medidas centrales (promedio, mediana y moda) obtenidas en el inciso b), la
distribución de las cantidades diarias de producción es: i) Asimétrica a la derecha, ii) Asimétrica a la izquierda,
iii) Simétrica o iv) Uniforme.
f) De acuerdo al coeficiente de variación obtenido en el inciso d), las cantidades diarias de producción son: i)
Heterogéneos, ii) Homogéneos, iii) Muy heterogéneos o iv) Muy Homogéneos.
g) Conforme al coeficiente de asimetría de Pearson obtenido en el inciso d), la forma de la distribución de los
datos dados en la tabla es i) Disimétrica negativa, ii) Uniforme, iii) Disimétrica positiva o iv) Simétrica.
h) De acuerdo al coeficiente de Asimetría de Fisher obtenido en el inciso d), la distribución de las cantidades
diarias de producción está: i) Sesgada a la Izquierda, ii) Sesgada a la derecha, iii) Insesgada o iv) Invariante.
i) De acuerdo al coeficiente de curtosis de Fisher obtenidos en d), la forma de la distribución de las cantidades
diarias de producción es: i) Leptocúrtica, ii) Mesocúrtica, iii) Cuasicúrtica o iv) Platicúrtica.
Departamento de Matemáticas
42
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
8. Una empresa se dedica a la fabricación de barras de acero, para ello usa una máquina, cuyas características
hacen que la longitud de éstas no pueda ser mayor de 50 cm. Se realizó una muestra de la producción de la máquina
en una determinada hora de funcionamiento, las longitudes de las barras producidas fueron las siguientes:
Longitud (en cm.)
Menos de10
De 10 a menos de 20
De 20 a menos de 25
De 25 a menos de 30
De 30 a menos de 40
40 a menos de 45
Cantidad de barras
3
12
27
37
20
25
a) Con los datos de la tabla, determina, para esa hora específica, los valores para la longitud de esas barras de la
1) media, 2) mediana, 3) moda, 4) varianza, 5) percentil número 35, 6) segundo decil,7) primer cuartil, 8)
coeficiente de variación, 9) coeficiente de asimetría de Pearson, 10) coeficiente de asimetría de Fisher y 11)
coeficiente de curtosis.
b) Conforme a la comparación de las medidas centrales (promedio, mediana y moda) obtenidas en los puntos 1, 2
y 3 del inciso a), la distribución de la longitud de las barras es: i) Asimétrica a la derecha, ii) Asimétrica a la
izquierda, iii) Simétrica o iv) Uniforme.
c) De acuerdo al coeficiente de variación obtenido en el apartado 8) del inciso a), las longitudes de las barras son:
i) Heterogéneos, ii) Homogéneos, iii) Muy heterogéneos o iv) Muy Homogéneos.
d) Conforme al coeficiente de asimetría de Pearson obtenido en el apartado 9) del inciso a), la forma de la
distribución de los datos es i) Disimétrica negativa, ii) Uniforme, iii) Disimétrica positiva o iv) Simétrica.
e) De acuerdo al coeficiente de Asimetría de Fisher obtenido en el apartado 10) del inciso a), la distribución de la
longitud de las barras está: i) Sesgada a la Izquierda, ii) Sesgada a la derecha, iii) Insesgada o iv) Invariante.
f) De acuerdo al coeficiente de curtosis de Fisher obtenidos en el apartado 11) del inciso a), la forma de la
distribución de la longitud delas barras es: i) Leptocúrtica,ii) Mesocúrtica, iii) Cuasicúrticao iv) Platicúrtica.
9. En una muestra realizada en las dos sucursales de una empresa determinada, se obtuvieron las siguientes
distribuciones de frecuencias de los montos de las ventas diarias realizadas en miles de pesos.
Sucursal A
Monto de las ventas
(miles de pesos)
Menos de 90
De 90 a menos de 150
De 150 a menos de 300
De 300 a menos de 600
De 600 a menos de 960
Total
Número
de días
7
16
37
28
12
100
Sucursal B
Monto de las ventas
(miles de pesos)
Menos de 70
De 70 a menos de 200
De 200 a menos de 350
De 350 a menos de 700
De 700 a menos de 850
Total
Número
de días
5
28
27
30
10
100
a) Con los datos de la tablas, determina, para cada sucursal, los valores para el monto de las ventas de la 1) media,
2) mediana, 3) moda, 4) varianza, 5) percentil número 35, 6) segundo decil, 7) primer cuartil, 8) coeficiente de
variación, 9) coeficiente de asimetría de Pearson, 10) coeficiente de asimetría de Fisher y 11) coeficiente de
curtosis.
Departamento de Matemáticas
43
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
b) Conforme a la comparación de las medidas centrales (promedio, mediana y moda) obtenidas en los puntos 1, 2
y 3 del inciso a), la distribución de las ventas de cada sucursal es: i) Asimétrica a la derecha, ii) Asimétrica a la
izquierda, iii) Simétrica o iv) Uniforme.
c) De acuerdo al coeficiente de variación obtenido en el apartado 8) del inciso a), los montos de las ventas de cada
sucursal son: i) Heterogéneos, ii) Homogéneos, iii) Muy heterogéneos o iv) Muy Homogéneos.
d) Conforme al coeficiente de asimetría de Pearson obtenido en el inciso 9, la forma de la distribución de los datos
para cada sucursal es i) Disimétrica negativa, ii) Uniforme, iii) Disimétrica positiva o iv) Simétrica.
e) De acuerdo al coeficiente de Asimetría de Fisher obtenido en el apartado 10) del inciso a), la distribución de los
montos de las ventas de cada sucursal está: i) Sesgada a la Izquierda, ii) Sesgada a la derecha, iii) Insesgada o iv)
Invariante.
f) De acuerdo al coeficiente de curtosis de Fisher obtenidos en el apartado 11) del inciso a), la forma de la
distribución de los montos de las ventas de cada una de las sucursales es: i) Leptocúrtica, ii) Mesocúrtica, iii)
Cuasicúrtica o iv) Platicúrtica.
g) En base a ambas distribuciones, responde a las siguientes preguntas:
1) ¿Cuál de las dos tiene menor dispersión?
2) ¿Para qué empresa resulta más representativo el monto de ventas promedio?
3) ¿Cuál de las dos empresas se encuentra con una distribución de las ventas más equilibrada o con menos
variabilidad?
10. “La dureza de los árboles es difícil de medir directamente, sin embargo la densidad si es relativamente fácil de
medir. Por ello es de gran interés disponer de un modelo que permita predecir la dureza de un árbol a partir de su
densidad. Por este motivo se ha tomado una muestra de 36 eucaliptos y se les midió su densidad (X) y su dureza
(Y ). Los resultados obtenidos son los de la tabla adjunta.
Densidad
24.7
24.8
27.3
28.4
28.4
29.0
30.3
32.7
35.6
38.5
38.8
39.3
Dureza
484
427
413
517
549
648
587
704
979
914
1070
1020
Densidad
39.4
39.9
40.3
40.6
40.7
40.7
42.9
45.8
46.9
48.2
51.5
51.5
Dureza
1210
989
1160
1010
1100
1130
1270
1180
1400
1760
1710
2010
Densidad
53.4
56.0
56.5
57.3
57.6
59.2
59.8
66.0
67.4
68.8
69.1
69.1
Dureza
1880
1980
1820
2020
1980
2310
1940
3260
2700
2890
2740
3140
Con los datos dados en la tabla,
a) Construye un diagrama de dispersión y comenta si existe algún tipo de relación entre las dos variables
involucradas, ¿la relación es lineal o no lineal?
b) Determine el coeficiente de correlación e interpreta el resultado encontrado.
c) Calcula el coeficiente de determinación y en base al resultado obtenido determina si se puede explicar el
consumo de dureza del árbol por una relación lineal con su densidad.
d) Determine el modelo de regresión lineal simple.
Departamento de Matemáticas
44
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
e) Usando el modelo hallado en el inciso anterior, prediga la dureza de un árbol de densidad 20 y 60 unidades
respectivamente
f) Usando el modelo del inciso d), prediga la densidad de un árbol de dureza 300 y 4000 respectivamente.
11.“En quince casas de la ciudad de Milton Keynes se observó durante un período de tiempo la diferencia de
temperatura promedio (en grados centígrados) entre la temperatura en la calle y la temperatura en casa, y el
consumo de gas diario en kWh.
Diferencia de
Temperatura.
10.3
11.4
11.5
12.5
13.1
Consumo
69.81
82.75
81.75
80.38
85.89
Diferencia de
Temperatura.
13.4
13.6
15.0
15.2
15.3
Consumo
75.32
69.81
78.54
81.29
99.20
Diferencia de
Temperatura.
15.6
16.4
16.5
17.0
17.1
Consumo
86.35
110.23
106.55
85.50
90.02
Con los datos anteriores,
a) Construye un diagrama de dispersión. ¿Existe relación entre estas dos variables?
b) Construye un diagrama de dispersión y comenta el tipo de correlación existente entre las dos variables
involucradas, ¿la relación es lineal o no lineal?
c) Determine el coeficiente de correlación e interprete el resultado.
d) Calcule el coeficiente de determinación ¿Se puede explicar la diferencia de la temperatura mediante la
relación lineal con el consumo de gas?
e) Determine el modelo de regresión lineal simple.
f) Usando el modelo hallado en el inciso anterior, prediga el consumo de energía si la diferencia es de 20 y
60 grados respectivamente.
g) Usando el modelo del inciso d), prediga la diferencia en la temperatura si el consumo de energía es de 85
y 90 unidades.
12. La Tabla de abajo presenta una muestra del número de horas trabajadas (X) en una fábrica, y las unidades
producidas (Y) de artículos.
Horas (X)
Producción (Y)
80
300
79
302
83
315
84
330
78
300
60
250
82
300
85
340
79
315
84
330
80
310
62
240
Con los datos dados en la Tabla,
a) Construye un diagrama de dispersión y comenta si existe algún tipo de relación entre las dos variables
involucradas, ¿la relación es lineal o no lineal?
b) Determine el coeficiente de correlación e interprete el resultado.
c) Calcule el coeficiente de determinación e interprete el resultado
d) Determine el modelo de regresión lineal simple.
e) Usando el modelo hallado en el inciso anterior, prediga la cantidad de unidades que se espera producir si se
trabajan 120 horas.
f) Usando el modelo del inciso d), prediga las posibles horas trabajo, si las unidades producidas fueron de 350.
Departamento de Matemáticas
45
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
13. Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedican diariamente a
dormir y ver la televisión. La clasificación de las respuestas ha permitido elaborar la tabla siguiente:
Nº de hrs
dormidas (X)
6
7
8
9
7
7
8
9
7
8
8
8
9
Nº de hrs
de TV
(Y)
4
3
3
2
3
3
3
2
3
3
3
3
2
Nº de hrs
dormidas (X)
8
7
9
6
8
7
7
8
9
7
8
10
8
Nº de hrs
de TV
(Y)
3
3
2
4
3
3
3
3
2
3
3
1
3
Nº de Hrs
dormidas (X)
Nº de Hrs
de TV (Y)
Nº de Hrs
dormidas (X)
Nº de Hrs
de TV (Y)
8
7
8
7
8
9
7
8
9
7
8
8
7
3
3
3
3
3
2
3
3
2
3
3
3
3
8
7
9
6
7
8
7
8
9
8
9
3
3
2
4
3
3
3
3
2
3
2
Con los datos dados en la tabla,
a) Construye un diagrama de dispersión y comenta si existe algún tipo de relación entre las dos variables
involucradas, ¿la relación es lineal o no lineal?
b) Determine el coeficiente de correlación e interprete el resultado.
c) Calcule el coeficiente de determinación e interprete el resultado
d) Determine el modelo de regresión lineal simple.
e) Usando el modelo hallado en el inciso anterior, prediga la cantidad de unidades que se espera duerma una
persona que ve la TV durante 1.5 horas.
f) Usando el modelo del inciso d), prediga las posibles horas que una persona ve TV, si las horas que duerme son
de 8.5 hrs.
Nota: Los datos utilizados en los problemas 5 y 6, han sido tomados del libro “Ahandbook of small data sets”, editado por D.J. Hand, F. Daly, A.D. Lunn,
K.J. McConway y E Ostrowsky. Chapman& Hall.
Nota: Los datos utilizados en los problemas 5 y 6, han sido tomados del libro “Ahandbook of small data sets”, editado por D.J. Hand, F. Daly, A.D. Lunn,
K.J. McConway y E Ostrowsky. Chapman& Hall.
2.14. Lecturas recomendadas.
1) Santiago Fernández Fernández, José María Cordero Sánchez, Alejandro Córdoba Largo. Estadística descriptiva.
http://books.google.com.mx/books?id=31d5cGxXUnEC&pg=PA17&dq=estadistica+descriptiva&cd=1#v=onepag
e&q=estadistica%20descriptiva&f=false
2) Ma. Victoria Alea Riera. Estadística descriptiva: aplicaciones prácticas
http://books.google.com.mx/books?id=uZX42jrEiJgC&printsec=frontcover&dq=estadistica+descriptiva&cd
=2#v=onepage&q=estadistica%20descriptiva&f=false
2.15. Bibliografía recomendada para reforzar este tema.
1) Joan BaróLlinàs. Estadistica descriptiva: aplicaciones económico-empresariales. Paramón, 1987 Segunda Edición.
Departamento de Matemáticas
46
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
2) Hanke.Estadística para negocios. Editorial Irwin – 1995
3) Jorge Galbiati Riesco. Regresión Lineal Simple.Colombia. Enero de2007.
http://www.jorgegalbiati.cl/enero_07/Regresion.pdf
2.11. Referencias.
[1] Yadolah DodgeThe concise encyclopedia of statistics - Página 42, Springer, 2008.
[2]Daniel A. Robles Fabián.Regresión múltiple Lima – Perú. 2005.
[3]Alicia Vila; Máximo Sedano; Ana López; Ángel A. Correlación Lineal y Análisis de Regresión.Proyecto e-Math.UOC.
2003.
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf
[4] Berenson, Levine. Estadística Básica en Administración. Concepto y Aplicaciones. Editorial Pearson. 1996.
http://books.google.com.mx/books?id=2N09O8Oe0QC&printsec=frontcover&dq=berenson+y+levine&source=gbs_similarbooks_s&cad=1#v=onepage&q=berenson%20y
%20levine&f=false
Departamento de Matemáticas
47
Universidad de Sonora.
Tema II de Estadística I Aplicada a la Administración y Contaduría.
Semestre 2015-1
Notas del Dr. Francisco Javier Tapia Moreno.
Departamento de Matemáticas
48
Universidad de Sonora.
Descargar