1 ESTADÍSTICA DESCRIPTIVA

Anuncio
Estadística
Estadística Descriptiva
1 ESTADÍSTICA DESCRIPTIVA
1.1 OBJETO DE ESTUDIO Y TIPOS DE DATOS
La estadística descriptiva es un conjunto de técnicas que tienen por objeto organizar y
presentar de manera conveniente para su análisis, la información contenida en una
muestra. Dentro de ella existen básicamente tres tipos de técnicas:
- Distribución de Frecuencias
- Gráficas
- Parámetros numéricos
La estadística descriptiva, en general es bastante sencilla, aunque no por ello deja de
ser interesante y sobre todo importante. Es así que si a través de la estadística
buscamos obtener conclusiones acerca de toda una población a partir de la información
contenida en una muestra, parece claro que no es posible hacerlo si no somos capaces
primeramente de describir el comportamiento del conjunto de datos que tenemos a la
mano. Esto es, no podemos pretender describir o intuir lo que ocurre con lo
desconocido, si no somos capaces de describir y analizar primero lo que sucede con lo
que sí conocemos. De ahí la importancia de la estadística descriptiva.
Como se mencionó antes, la estadística descriptiva es un conjunto de técnicas, pero
cabe aclarar que dichas técnicas no son excluyentes, sino complementarias, sin
embargo dependiendo del tipo de datos que se desee manejar, no siempre es posible
utilizarlas todas.
Identifiquemos entonces entre datos cualitativos y cuantitativos. Los datos cualitativos
se refieren, como su nombre lo dice, a información sobre cualidades o características
del experimento, que en ocasiones pueden estar representados por números, mientras
que los datos cuantitativos son, necesariamente, datos numéricos.
Existe la tendencia a pensar que todos los datos numéricos son datos cuantitativos, sin
embargo esto no es así. En un proceso de medición se pueden identificar cuatro
diferentes escalas de medidas:
M. en I. Isabel Patricia Aguilar Juárez
15
Estadística
Estadística Descriptiva
a) Nominal: Es el nivel más primitivo de medición. En esta escala los números se
utilizan como nombres y no como cantidades o magnitudes. Por lo tanto
los datos medidos en escala nominal son datos cualitativos aún siendo
datos numéricos.
b) Ordinal: En la escala ordinal los diferentes valores observados representan
diferentes niveles de posesión de la característica observada, entre las
diferentes unidades, aunque no es posible comparar dichos niveles a
través de los valores observados. Esto significa que los datos aunque no
son comparables se pueden ordenar. Un ejemplo de mediciones con esta
escala son las observaciones del status económico de una persona (alto,
medio, bajo, etc.). Podrían considerarse las mediciones realizadas en esta
escala como datos cualitativos.
c) Intervalar: Es una forma más fina de medir, que la escala ordinal y desde luego
que la nominal. Los datos medidos en esta escala representan la
magnitud de las diferencias entre distintas unidades observadas,
aunque las mediciones aún no son del todo comparables. Por otro lado,
el cero en esta escala de medición es arbitrario y no implica la ausencia
total de la característica medida. Por ejemplo considere mediciones
relacionadas con el coeficiente intelectual de diferentes personas, a
partir de dichas mediciones no se puede considerar que una persona A
que tiene el C.I. del doble de otra B, sea doblemente inteligente que B.
Otro ejemplo es la medición de temperaturas en grados Fahrenheit.
Aunque la diferencia entre 20oF y 45oF es la misma que entre 90oF y
105oF, sin embargo en cuanto a la cantidad de calor, 90oF no es el
doble que 45oF y 0oF no significa ausencia de temperatura.
d) De razón: La escala de razón es una escala intervalar, únicamente que considera
un cero absoluto, esto es, los números medios representan igual
número de unidades de distancia del cero absoluto, por lo tanto las
observaciones se pueden comparar a través de razones o
porcentajes. Como ejemplos se puede mencionar las mediciones del
tiempo, la temperatura y la distancia entre otras.
Como se mencionó anteriormente, el tipo de datos que se maneja en una investigación
limita la utilización de algunos métodos estadísticos para el análisis de la información.
Así, para describir datos cualitativos lo usual es utilizar métodos gráficos, ya que por las
características de las otras técnicas, no es posible aplicarlas con ese tipo de
M. en I. Isabel Patricia Aguilar Juárez
16
Estadística
Estadística Descriptiva
información, mientras que para analizar datos cuantitativos (intervalares o de razón)
pueden aplicarse los tres tipos de técnicas mencionadas anteriormente y en este caso,
como se dijo antes, se apoyan unas con otras, para lograr una mejor y más amplia
descripción del conjunto de datos.
En muchas ocasiones no es posible elegir la escala en la que se desea efectuar las
mediciones, sino que esta está determinada por el tipo de experimento que se
observará. De cualquier manera, el objetivo de presentar las cuatro escalas de
medición no es preocuparse por realizar una clasificación precisa de los datos en
alguna de las cuatro escalas, ya que en muchos casos puede haber ambigüedad y no
resulta un problema sencillo, sino únicamente identificar entre los distintos tipos de
datos que usualmente se manejan, con el fin de determinar el tipo de técnicas
utilizables en el análisis de la información, así como cuidar la interpretación que se
haga de los datos y de los resultados que a partir de ellos se generen.
Describiremos a continuación cada una de las técnicas de la estadística descriptiva, así
como su aplicabilidad de acuerdo al tipo de datos que constituyan la muestra.
2.2 DISTRIBUCIÓN DE FRECUENCIAS
La construcción de Tablas de Distribución de Frecuencias es una técnica muy usual en
la estadística ya que hace más eficiente el análisis de conjuntos grandes de datos. La
tabla de distribución de frecuencias se utiliza principalmente para el análisis de datos
cuantitativos, no obstante, también es común realizar agrupaciones de datos
cualitativos, aunque realmente tales agrupaciones no son tablas de distribución de
frecuencias propiamente dichas, sino solamente una organización de la información en
la que el objetivo es cuantificar el número de veces que se observó cada unidad de
información.
M. en I. Isabel Patricia Aguilar Juárez
17
Estadística
Estadística Descriptiva
Ejemplo 1.1
En los estudios demográficos de un país suele ser de interés la población de cada una
de las diferentes razas: Blanca, China, Arabe, India, Negra, Mestiza. Se selecciona de
manera aleatoria un grupo de 2500 personas de la población del país y se investiga
cuál es su origen. Los resultados se obtendrían de manera personal, ya que serían las
respuestas a la pregunta cuál es su raza de orígen?, sin embargo, un primer intento
para analizar la información es agruparla, y el resultado sería una tabla como la
siguiente:
Raza del
encuestado
Número de
personas
Blanca
500
China
800
Arabe
300
India
250
Negra
300
Mestiza
350
Definición 1.1:
Una tabla de distribución de frecuencias es una clasificación de los datos en clases o
categorías de acuerdo a sus valores.
Este tipo de clasificación es común en la presentación de datos económicos, censales,
etc.
Un ejemplo típico de una tabla de distribución de frecuencias es la que se muestra a
continuación.
M. en I. Isabel Patricia Aguilar Juárez
18
Estadística
Límites de
clase
-2
7
16
25
34
43
x< 7
x < 16
x < 25
x < 34
x < 43
x < 52
Tabla 1.1
Estadística Descriptiva
Marcas de
clase
xi
2
11
20
29
38
47
Frecuencia Frecuencia
Frecuencia acumulada
relativa
fi
Fi
fi*
2
2
0.05
4
6
0.1
7
13
0.175
14
27
0.35
8
35
0.2
5
40
0.125
40
Tabla clásica de distribución de frecuencias.
Frecuencia
relativa
acumulada
Fi*
0.05
0.15
0.325
0.675
0.875
1.000
Como se puede observar, una tabla completa de distribución de frecuencias consta de
seis columnas cuyo contenido se explicará enseguida.
Si aceptamos que en la construcción de una tabla de distribución de frecuencias se
realizará una clasificación de los datos, resulta claro que es indispensable contar,
primeramente, con el criterio de clasificación a utilizar, mismo que se define a través de
los límites de clase ó bien mediante las fronteras de clase.
Límites de clase: Constituyen un intervalo semiabierto ( cerrado por la izquierda y
abierto por la derecha). Los datos en la muestra, que sean mayores o iguales al límite
inferior de la clase y menor que el límite superior de ella misma, pertenecerán a la clase
en cuestión. Los límites de clase tendrán la misma aproximación que los datos, es
decir:
Aproximación
de los datos
enteros
décimas
centésimas
Aproximación
de los límites
enteros
décimas
centésimas
Con este criterio se puede deducir de la tabla 1.1 que los datos que en ella se
agruparon eran todos números enteros.
M. en I. Isabel Patricia Aguilar Juárez
19
Estadística
Estadística Descriptiva
Para que la agrupación sea válida, absolutamente todos los datos en la muestra se
deben poder clasificar con el criterio dado por los límites, esto significa que ninguno
debe estar fuera de esta clasificación. Por lo tanto, también podemos estar seguros de
que en la supuesta muestra agrupada en la tabla 1.1, ningún dato es menor que -2
como tampoco existe ningún dato mayor que 52.
Marca de clase (xi): Es el punto medio del intervalo de clase y se considera
representativo de los datos en dicha clase.
Frecuencia (fi): Es el número de datos de la muestra que corresponden a la clase en
cuestión. Para determinar la frecuencia de una clase, basta con realizar un conteo del
número de observaciones en la muestra, identificando aquellos datos que caen dentro
del intervalo indicado por los límites de clase.
Frecuencia acumulada (F i): Es el número de datos en la muestra cuyo valor es menor
que el límite superior de la clase en cuestión. Para calcular Fi basta contabilizar las
frecuencias observadas en la clase de interés y las anteriores. Esto es,
i
Fi = ∑ f j
j =1
Frecuencia relativa (fi* ): Es la proporción de los datos en la muestra que pertenecen a
la clase en cuestión. Si denotamos por n al número de datos en la muestra y a i como
el número de la clase, la frecuencia relativa se expresa como sigue:
f *i =
fi = fi
m
n
∑f
j
j=1
en donde m es el número de clases construidas en la tabla de distribución de
frecuencias.
Podríamos identificar en este momento una primera relación entre la probabilidad y la
estadística, ya que si recordamos, la interpretación frecuentista de la probabilidad
define la probabilidad de un evento como la frecuencia relativa con la que dicho evento
M. en I. Isabel Patricia Aguilar Juárez
20
Estadística
Estadística Descriptiva
ocurre en un número grande de repeticiones del experimento bajo estudio, por lo tanto,
si nuestra muestra fuera grande, podríamos pensar que la frecuencia relativa de clase
se aproximaría a la probabilidad de que la v.a. poblacional tome valores en dicha clase.
Evidentemente, se tendrá una mejor aproximación cuanto más grande sea la clase.
Frecuencia relativa acumulada (F i*): Es la proporción de los datos en la muestra que
son menores que el límite superior de la clase en cuestión.
Fi
Fi
F*i = = m
n
∑f j
j =1
en donde nuevamente m es el número de clases construidas.
Por extensión, se puede concluir que la frecuencia acumulada relativa se asemeja a la
función de distribución, y que la semejanza será mayor siempre que la muestra sea
más grande.
Lontigud de la clase: Se denota por c y es la diferencia entre los límites superior e
inferior de una misma clase.
En este momento estamos en condiciones de interpretar la información contenida en
una tabla de distribución de frecuencias, sin embargo queda aún sin resolver el
problema importante de la construcción de una de ellas, a partir de un conjunto de
datos. Es claro que la agrupación de datos en tablas es ventajosa puesto que permite
analizar la información contenida en la muestra, de una manera más sencilla, dado que
disminuye el volumen de información con la que tendrá que trabajar, sin embargo tiene
la desventaja de que al agrupar, se pierde precisión en los datos que se manejarán,
con una consecuente pérdida en la precisión de las conclusiones que se obtengan a
partir de dicha información. Para evitar al máximo la pérdida de información que provee
la muestra, es necesario cuidar la construcción1 de la tabla de distribución de
1
Cabe aclarar que la que aquí se presentará es una forma particular de construcción de una tabla de
distribución de frecuencias, no así la única, ya que en este sentido no hay un consenso. Existen
algunas forma alternas de construcción, sin embargo, las diferencias que existen entre ellas son de
forma y no de fondo, por lo cual es relativamente sencillo interpretar la información contenida en otra
tabla de distribución de frecuencias construida de alguna otra forma, y los resultados que de dicho
análisis se obtengan no tendrán diferencias radicales con los generados mediante la construcción que
aquí haremos, atribuibles a la forma de realizar la agrupación.
M. en I. Isabel Patricia Aguilar Juárez
21
Estadística
Estadística Descriptiva
frecuencias
y por ello es conveniente tomar en consideración las siguientes
recomendaciones empíricas:
1.- La tabla de distribución de frecuencias constará de entre 5 y 20 clases, inclusive.
2.- Todas las clases serán de la misma longitud (c).
Mostraremos la forma de construcción de una tabla de distribución de frecuencias, a
través de un ejemplo.
Ejemplo 1.2
Considere los siguientes números de inscripción de algunos estudiantes de la Facultad
de Ingeniería. Agrúpelos en una tabla de distribución de frecuencias.
1045
784
491
3073
650
2045
802
847
1029
2002
55
415
2265
1123
1305
933
531
1400
1120
1249
923
985
2181
946
639
2526
1313
1565
2004
1703
1882
1370
2772
947
5308
2039
210
1767
1465
1303
1800
120
4623
193
460
1706
Resolución
Recordemos que para que la tabla que se construya se pueda considerar adecuada
para analizar los datos, se requiere que contenga a todos los datos en la muestra. Así,
es necesario conocer el rango en el que se encuentran los datos, para lo cual se tiene
la siguiente definición:
Rango de la muestra: Es la diferencia entre los valores (datos) mayor y menor de la
muestra.
En este caso se tiene que
Rango = 5308 - 55 = 5253
M. en I. Isabel Patricia Aguilar Juárez
22
Estadística
Estadística Descriptiva
Para determinar ahora la longitud de clase, se puede empezar por establecer el
número de clases que conviene construir, para lo cual se puede considerar como valor
adecuado el resultado de calcular n
Esto es,
m=
46 ≈ 7
Como el límite inferior de la primera clase debe ser un valor un poco menor al mínimo,
5308 - 54
utilicemos 54. Por lo tanto, la longitud de clase será
= 750.57 ≈ 750
7
Por al razón utilizaremos c = 750.
Como ya dijimos, el límite inferior de la primera clase será 54. La tabla resultante será
la que se muestra:
Límites
54 - 804
804 - 1554
1554 - 2304
2304 - 3054
3054 - 3804
3804 - 4554
4554 - 5304
5304 - 6054
xi
429
1179
1929
2679
3429
4179
4929
5679
fi
12
17
12
2
1
0
1
1
46
Fi
12
29
41
43
44
44
45
46
fi*
0.2609
0.3696
0.2609
0.0435
0.0217
0.0000
0.0217
0.0217
Fi*
0.2609
0.6304
0.8913
0.9348
0.9565
0.9565
0.9783
1.0000
Descripción gráfica de los datos
Generalmente, cuando se desea hacer una presentación clara de un conjunto de
datos, se elige una forma gráfica. Así, se acostumbra presentar gráficamente los
resultados de una compañía, se hacen gráficas comparativas de las utilidades de una
empresa, se hacen gráficas que muestren la composición de una población (% de
hombres adultos, % de mujeres adultas, %de niños), etc.
M. en I. Isabel Patricia Aguilar Juárez
23
Estadística
Estadística Descriptiva
En realidad para todos es más claro comprender cuál es el comportamiento de un
conjunto de datos si éste se presenta de manera gráfica, que si se muestra únicamente
a través de valores numéricos. Por ello, existen una gran variedad de gráficas, sin
embargo utilizaremos solamente algunas de ellas.
Consideremos nuevamente el tipo de datos a manejar. Usualmente para la
representación de datos cualitativos se utilizan, entre otros, dos tipos de gráficas:
- Gráficas de barras
- Gráficas de sectores circulares ( gráficas de pie).
Por su parte, para representar el comportamiento de datos cuantitativos existe también
una amplia variedad de posibilidades de gráficas, pero únicamente presentaremos tres
de ellas:
- Histograma de frecuencias
- Polígono de frecuencias
- Ojiva o polígono de frecuencias acumuladas
1.- Histograma de Frecuencias
Es una gráfica formada por barras rectangulares cuyas bases se centran en las marcas
de clase de una distribución de frecuencias y sus áreas representan las frecuencias
absolutas o relativas correspondientes. Nótese que de acuerdo con esta definición no
se requiere más que un eje, en el cual se identificarán las marcas de clase conforme a
las clases que se hayan construido.
Cabe insistir en que en este caso también es solo una de las construcciones posibles o
conocidas, sin embargo tiene la ventaja de que es fácil encontrar la similitud entre el
histograma de frecuencias relativas, y el histograma de probabilidad que se construye
en probabilidad para las funciones de probabilidad. Por otro lado, se mantiene la
concepción de la probabilidad de un evento como área, que resulta útil para la más fácil
comprensión del concepto de función de densidad en el caso de variables aleatorias
continuas.
A continuación se muestra el histograma de frecuencias absolutas para los datos del
ejemplo:
M. en I. Isabel Patricia Aguilar Juárez
24
Estadística
Estadística Descriptiva
Histograma de Frecuencias
18
16
17
14
12
10
12
12
8
6
4
2
1
0
1
1
2679
3429
4179
4929
5679
2
0
429
1179
1929
marcas de clase
También es común construir el histograma de frecuencias como una gráfica en el plano
cartesiano, considerando a las frecuencias como las alturas de las barras, tal como se
muestra a continuación.
frecuencias
Histograma de Frecuencias
18
16
14
12
10
8
6
4
2
0
429
1179
1929
2679
3429
4179
4929
5679
marcas de clase
2.- Polígono de Frecuencias
Es una gráfica poligonal que representa para cada marca de clase la frecuencia de
dicha clase y se construye uniendo, mediante líneas rectas, los puntos medios de las
bases superiores de las barras del histograma de frecuencias. Es claro que tampoco se
requiere trazar más que un eje, para hacer la gráfica del polígono de frecuencias.
M. en I. Isabel Patricia Aguilar Juárez
25
Estadística
Estadística Descriptiva
Como caso particular se presenta a continuación la gráfica del polígono de frecuencias
de los datos del ejemplo anterior.
Polígono de Frecuencias
18
16
Frecuencia
14
12
10
8
6
4
2
0
429
1179
1929
2679
3429
4179
4929
5679
Marcas de Clase
Existe una forma alternativa de trazar la gráfica del polígono de frecuencias, sin
necesidad de hacerlo sobre el histograma. Observe la siguiente gráfica.
Polígono de Frecuencias
18
16
Frecuencias
14
12
10
8
6
4
2
0
429
1179
1929
2679
3429
4179
4929
5679
Marcas de Clase
M. en I. Isabel Patricia Aguilar Juárez
26
Estadística
Estadística Descriptiva
3.- Ojiva
Es una gráfica poligonal que representa para cada límite de clase la frecuencia
acumulada o la frecuencia relativa acumulada hasta dicha frontera. Cuando la que se
representa es la frecuencia relativa acumulada se le llama ojiva porcentual. A diferencia
de las gráficas anteriores, para trazar esta gráfica si es indispensable contar con los
dos ejes coordenados.
Es claro que la diferencia entre la ojiva y la ojiva porcentual no es la forma de ellas,
sino solamente que una de ellas es el resultado de trasladar a la otra hacia arriba o
hacia abajo, dependiendo de cual se esté tomando como base.
La ojiva porcentual es, además, una aproximación a la gráfica de la función de
distribución de la variable aleatoria que represente a la población.
Ejemplo:
Considere la siguiente tabla de distribución de frecuencias. Trace la ojiva
correspondiente.
Límites
27 - 30
30 - 33
33 - 36
36 - 39
39 - 42
42 - 45
45 - 48
48 - 51
51 - 54
M. en I. Isabel Patricia Aguilar Juárez
xi
28.5
31.5
34.5
37.5
40.5
43.5
46.5
49.5
52.5
fi
2
3
9
5
2
4
3
1
1
30
Fi
2
5
14
19
21
25
28
29
30
fi*
0.667
0.1
0.3
0.167
0.667
0.133
0.1
0.033
0.033
Fi*
0.066
0.167
0.467
0.633
0.7
0.833
0.933
0.967
1
27
Estadística
Estadística Descriptiva
Polígono de Frecuencias Acumuladas
(Ojiva)
Frecuencia Acumulada
35
30
25
20
15
10
5
0
27
30
33
36
39
42
45
48
51
54
Límites de Clase
Descripción de los datos a través de parámetros numéricos
Desde luego es posible ya, mediante la tabla de distribución de frecuencias y las
gráficas hacer cierta descripción del comportamiento de los datos en la muestra, pero
conviene estar conciente de que sabemos que las gráficas pueden mentir, en el sentido
de que simplemente con un cambio de escala, variaciones que probablemente sean
pequeñas se pueden ver muy grandes y viceversa, y la obtención de valores que
caractericen a toda la muestra pueden solamente aproximarse, ya que como dijimos
antes, una representación gráfica puede no ser lo precisa que uno desearía, por lo que
además de una gráfica requerimos de valores que sean representativos del
comportamiento de los datos y que dependan únicamente de dichos datos. A estos
valores se les llama "parámetros numéricos" y se utilizan para ayudar a describir el
comportamiento de la muestra con un poco más de precisión.
Los parámetros numéricos, por el tipo de información que dan, se clasifican en:
M. en I. Isabel Patricia Aguilar Juárez
28
Estadística
Estadística Descriptiva
- Medidas de tendencia central
- Medidas de dispersión
- Parámetros de forma
Presentaremos solamente los parámetros numéricos que más comúnmente se utilizan.
1.- MEDIDAS DE TENDENCIA CENTRAL: Son valores que se encuentran dentro del
rango de la muestra y que se pueden considerar como representativos de la misma. Es
importante aclarar que no necesariamente coinciden con alguno de los datos
observados. Entre las más usuales están la media aritmética, la mediana y la moda,
que estudiaremos a continuación.
a) Media aritmética
Es probablemente la medida de tendencia central de uso más generalizado, se denota
por x (es muy importante que la x sea minúscula, ya que la mayúscula se utilizará más
adelante para denotar algo diferente} y se define de la siguiente forma:
a) Si x1 , x2 , x3 , ... , xn son los datos contenidos en una muestra, y se encuentran
sin agrupar, entonces
n
∑x
i
x=
i =1
n
donde n es el tamaño de la muestra.
Nótese que es la definición que conocemos para el promedio usual de los datos en la
muestra.
b) Si los datos se encuentran agrupados en una tabla de distribución de
frecuencias, y utilizamos el mismo concepto que para los datos sin agrupar, se
define la media aritmética como:
m
∑x f
i
x=
M. en I. Isabel Patricia Aguilar Juárez
i =1
n
i
m
= ∑ xi f *i , puesto que f i = f *i
n
i =1
29
Estadística
Estadística Descriptiva
en donde
m es el número de clases
xi la marca de clase de la clase i, y
fi la frecuencia de la clase i
b) Mediana
Es el valor que divide al conjunto de datos de la muestra en dos conjuntos de igual
tamaño, es decir, es aquel valor para el cual existen el mismo número de datos
menores o iguales a él que mayores o iguales a él. En otras palabras, la mediana es
aquel valor para el cual el 50% de los datos son menores o iguales a él.
Para calcular la mediana de la muestra cuando los datos no se encuentran agrupados
en una tabla de distribución de frecuencias, se deben seguir los siguientes pasos:
1.- Se ordenan los datos en forma creciente.
2.- Una vez ordenados se tienen dos casos:
a) Si el número de datos es impar, la mediana es el valor central; aquel que se
n +1
encuentre en el lugar
en la ordenación. Esto es:
2
~x = x n+1
2
b) Si el número de datos es par, la mediana será el promedio de los dos datos
centrales en la ordenación, es decir, de la datos que se encuentren en los
n
n
lugares
y
+1.
2
2
~x =
x n2 + x n2 + 1
2
Ejemplo:
En un proceso de manufactura, se observa el número de veces al mes que se detiene
el proceso durante un período de un año, debido a fallas mecánicas de la maquinaria.
M. en I. Isabel Patricia Aguilar Juárez
30
Estadística
Estadística Descriptiva
Los datos obtenidos son los siguientes: 7, 4, 1, 3, 9, 2, 7, 8, 0, 7, 3, 2. Obtenga la
mediana del número de fallas.
Resolución:
1) Ordenando los datos de menor a mayor se tiene:
0, 1, 2, 2, 3, 3, 4, 7, 7, 7, 8, 9
2) Dado que el número de datos es par, la mediana será el promedio de los datos
que ocupan los lugares n/2 y (n/2) + 1 en la ordenación, es decir, la mediana
será el promedio de los datos que ocupen los lugares 6 y 7 en la ordenación.
~x = 3 + 4 = 3.5
2
Si los datos se encuentran agrupados, para obtener la mediana se debe realizar una
interpolación en la ojiva, como se indica a continuación:
1.- Identificar la clase en la que se alcanza el 50% de los datos. Esta clase recibe el
nombre de clase mediana.
2.- Graficar la ojiva correspondiente a la clase mediana.
Frecuencia Acumulada
Fi + 1
(0.5)n
Fi
Li
M. en I. Isabel Patricia Aguilar Juárez
Li + 1
Mediana
Límites de clase
31
Estadística
Estadística Descriptiva
~x- Li
= F50% Fi
Li+1 - Li Fi+1 - Fi
; F50% =
n
2
n
- Fi
~x- Li
= 2
Li+1 - Li Fi+1 - Fi
n
( - Fi )( Li+1 - Li )
~x = 2
+ Li
Fi+1 - Fi
en donde:
Li es el límite inferior de la clase mediana
Li+1 es el límite superior de la clase mediana
Fi es la frecuencia acumulada hasta L i
Fi+1 es la frecuencia acumulada hasta L i+1
n es el tamaño de la muestra
Ejemplo:
Los datos que se despliegan en la siguiente tabla de distribución de frecuencias
provienen de un conjunto de observaciones de la duración (en minutos) de las
llamadas telefónicas locales que se realizan en el D. F. Calcule la mediana de dichos
datos.
Límites de
Marca de
Frecuencia
clase
clase
Frecuencia Acumulada
0 - 3
1.5
15
15
3 - 6
4.5
29
44
6 - 9
7.5
10
54
9 - 12
10.5
5
59
12 – 15
13.5
4
63
15 - 18
16.5
1
64
Resolución:
La muestra es de tamaño n = 64, por lo tanto, n/2 = 32
Por lo anterior, la clase mediana es la segunda, esto es, la mediana está entre 3 y 6.
M. en I. Isabel Patricia Aguilar Juárez
32
Estadística
Estadística Descriptiva
Frecuencia Acumulada
44
32
15
Límites de clase
3
~
x
6
n 
 - Fi  (L i+1 - Li )
2 
(32 - 15)(6 - 3)
~
De donde, entonces, x = 
+ Li =
+ 3 = 4.7586
44 - 15
Fi+1 - Fi
c) Moda
Se denota como mo y es aquella observación que se repite con mayor frecuencia
dentro de la muestra. Puede existir más de una moda en una misma muestra. De los
datos agrupados se puede considerar como moda, la marca de clase del intervalo con
mayor frecuencia.
Es importante hacer notar que a diferencia de la media aritmética y la mediana, la
moda no necesariamente es un valor único. Esto significa que en un mismo conjunto de
datos, pueden existir varias modas, aunque también puede ser única.
2.- MEDIDAS DE DISPERSIÓN
Existen varias medidas de dispersión, y algunas de ellas (la mayoría) se miden con
respecto a la media por ser esta última una medida que se encuentra alrededor del
centro del rango de la muestra, y considerarse una medida representativa de los datos.
Estas medidas nos permiten, además de describir el comportamiento de la muestra,
M. en I. Isabel Patricia Aguilar Juárez
33
Estadística
Estadística Descriptiva
validar la representatividad de la media como característica de todo el conjunto de
datos.
Rango
Tal vez la medida de tendencia central más simple sea el rango que se definió para
construir la tabla de distribución de frecuencias. Es una medida de dispersión
interesante, ya que proporciona información inmediata acerca de la variabilidad que
tienen los datos entre sí.
Como se dijo antes, el rango se define como la diferencia entre los datos mayor y
menor en la muestra, esto es:
Rango = Dato mayor en la muestra - dato menor en la muestra.
Aunque el rango es una medida importante de dispersión, existen otras medidas, que
proporcionan información adicional acerca de dicha variabilidad, algunas de ellas las
definiremos a continuación. Veamos:
Sean xi , i = 1, 2, ..., n los datos de la muestra. Para medir la dispersión promedio de los
datos con relación a la media de la muestra, pensaríamos inmediatamente en lo
siguiente:
n
∑ (x - x )
i
i =1
,
n
sin embargo, si desarrollamos dicha suma, encontramos que
independientemente de cuales sean los datos considerados, ya que :
se
anula,
n
∑ (x - x ) = ∑ x - ∑ x
n
n
i
i
i =1
i =1
i =1
n
∑x
pero por definición
M. en I. Isabel Patricia Aguilar Juárez
x=
i =1
n
i
n
_ ∑x = nx
i
i =1
34
Estadística
Estadística Descriptiva
n
∑x =nx
y por otro lado,
i =1
n
de donde:
∑ (x - x ) = n x - n x = 0
i
i =1
n
esto es:
∑ (x - x ) = 0
i
i =1
por lo cual no es útil como medida de dispersión.
Para evitar la cancelación de los signos en la suma, se tiene dos opciones:
1) Utilizar la función valor absoluto, lo cual da lugar a la desviación media.
Desviación media:
Sean x1 , x2 , x3 , ..., xn , los datos contenidos en una muestra, se define la desviación
media como el promedio de los valores absolutos de las dispersiones alrededor de la
media, es decir,
n
∑|x -x|
i
d . m. =
i =1
n
Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, la
expresión para el cálculo de la desviación media se transforma en
m
∑ | x - x| f
i
d . m. =
i
i =1
n
en donde m es el número de clases, xi es la marca de la clase i, y fi es la frecuencia
de la misma clase.
2) Utilizar una función cuadrática. Esta
generalizada de resolver el problema.
M. en I. Isabel Patricia Aguilar Juárez
es
probablemente
la
forma
más
35
Estadística
Estadística Descriptiva
Varianza:
Si xi (i=1,2,3 ,..,n) son los datos de la muestra, se define la varianza de la muestra (s2)
como:
n
∑ (x - x
i
s2 =
)
2
i=1
n
en tanto que si los datos se tienen en forma agrupada, se calculará la varianza como
se indica a continuación:
m
∑ (x - x
i
s2 =
2
) fi
i=1
n
en donde, nuevamente, m es el número de clases, xi es la marca de la clase i-ésima,
y fi representa la frecuencia de la misma clase.
La varianza, aunque es más utilizada que la desviación media, presenta el problema de
que sus unidades no coinciden con las de los datos de la muestra, ya que al elevar al
cuadrado se obtienen unidades cuadradas, por lo que su interpretación podría resultar
un tanto confusa, sin embargo, la forma que se ha encontrado de resolver dicho
problema de unidades, consiste simplemente en extraer la raíz cuadrada de dicha
medida, con lo cual el resultado se encontrará en unidades lineales, por tal razón se
define la desviación estándar de los datos.
Desviación estándar:
Se define la desviación estándar de una muestra, como la raíz cuadrada de la
varianza de la misma muestra, y se denota por s. Esto es:
s = s2
Coeficiente de variación: Evita el tener que referirse a los datos para determinar la
magnitud de la variación.
c.v. =
M. en I. Isabel Patricia Aguilar Juárez
s
x
36
Estadística
Estadística Descriptiva
Momentos
Los momentos en probabilidad, se calculan de la misma manera que en la mecánica,
solamente que, en la primera no tienen una interpretación física y solo se utilizan como
una herramienta para la determinación de ciertos parámetros.
Se puede definir con respecto a cualquier punto "a", pero las mas usuales son con
respecto al origen y con respecto a la media. Las definiciones correspondientes son:
El r-ésimo momento muestral con respecto al origen (m'r) se define como:
Si los datos se encuentran sin agrupar:
n
∑x
r
m'r =
i
i=1
n
donde xi son los datos en la muestra y n es el tamaño de la muestra.
Si los datos se encuentran en forma agrupada:
m
∑x
r
m'r =
fi
i
i=1
m
∑f
i
i =1
donde xi son marcas de clase, fi son las frecuencias de clase y m es el número de
clases
El r-ésimo momento o momento de orden r, de la muestra con respecto a la media se
define como:
Si los datos se encuentran sin agrupar:
n
∑ (x - x
i
mr =
r
)
i=1
n
donde xi son datos de la muestra y n es el tamaño de la muestra.
Si los datos se encuentran agrupados:
M. en I. Isabel Patricia Aguilar Juárez
37
Estadística
Estadística Descriptiva
m
∑ (x - x
i
mr =
r
) fi
i=1
m
∑f
i
i=1
donde xi es la marca de clase, fi la frecuencia y m el número de clases.
Así la varianza es el segundo momento respecto a la media y la media es el primer
momento respecto al origen.
3.- PARÁMETROS DE FORMA
Coeficiente de sesgo o asimetría
El coeficiente de sesgo se denota por "a" y se define como: a = m33 , donde m3 es el
s
tercer momento respecto a la media.
De esta forma, si:
a<0
a>0
a=0
Curva Simétrica
M. en I. Isabel Patricia Aguilar Juárez
Sesgo negativo
Sesgo positivo
Simétrica
Curva Asimétrica (Sesgo positivo)
38
Estadística
Estadística Descriptiva
Coeficiente de curtosis
Es una medida del grado de apuntamiento de una distribución. Se denota por k.
k = m44
s
 < 3

k  >3
 =3

platicúrti ca
leptocúrti ca
mesocúrtic a
1
0.8
0.6
0.4
0.2
-4
0
-2
2
x
4
Distribución Mesocúrtica
1
0.8
0.6
0.4
0.2
-4
-2
0
2
x
4
Distribución Leptocúrtica
M. en I. Isabel Patricia Aguilar Juárez
39
Estadística
Estadística Descriptiva
0.8
0.6
0.4
0.2
-4
-3
-2
-1
0
1
x2
3
Distribución Platicúrtica
Ejemplo:
Una muestra de 20 trabajadores de una Cía. obtuvieron los siguientes salarios en un
mes determinado: $240000, $240000, $240000,$240000, $240000, $240000, $240000,
$240000, $255000, $255000, $265000, $265000, $280000, $280000, $290000,
$300000, $305000, $325000, $330000, $340000.
Calcular: la media, mediana, moda, varianza, desviación estándar, coeficiente de
desviación, rango, coeficiente de sesgo, coeficiente de curtosis. Qué puede decir
acerca de los salarios?
Resolución:
a)Media:
8(240000)+ 2(255000)+ 2(265000)+ 2(280000)+ 290000+ 300000+ 305000+ 325000+ 330000+ 340000
20
x = 270,500
b) Mediana: ~x =
x n + x n +1
2
2
2
=
255000 + 265000
= 260000
2
c) Moda = 240,000
M. en I. Isabel Patricia Aguilar Juárez
40
Estadística
Estadística Descriptiva
20
∑ (x - x
i
d) Varianza: s 2 =
)
2
i=1
= 1,097,250, 000
20
e) Desviación Estándar: s = 33,124.76
f) Coeficiente de variación: c.v.=
s
= 0.1225 = 12.25%. Esto es que los datos se alejan
x
de la media un 12.25 %.
g) Rango= 100,000
20
h)Coeficiente de sesgo:
a = m33
s
∑ (x
m3 =
i
- x )3
i =1
20
a = 0.75569 Es decir, los datos tienen sesgo positivo
i) k = m44 =
s
2.70311 x 1018
= 2.24
(33124.764 )4
La distribución de los datos es platicúrtica
Con estos datos, hacer una tabla de distribución de frecuencias:
Rango = 100,000
# aproximado de clases = 20 = 4.47 ≈ 5
Límite inferior de la primera clase =235,000
c=105,000 / 5 = 21,000
Intervalos de clase
235,000 – 256,000
256,000 – 277,000
277,000 – 298,000
298,000 – 319,000
319,000 – 340,000
340,000 – 361,000
Marcas de
Frecuencia Frecuencia Frecuencia
Frecuencias Relativa Acumulada Acum. Relat.
clase
245,500
10
0.5
10
0.5
266,500
2
0.1
12
0.6
287,500
3
0.15
15
0.75
308,500
2
0.1
17
0.85
329,500
2
0.1
19
0.95
350,500
1
0.05
20
1
20
M. en I. Isabel Patricia Aguilar Juárez
41
Estadística
Estadística Descriptiva
6
Media: x =
∑x f
i i
i =1
n
=
5,477,000
= 273,850
20
Moda: Primera marca de clase. Mo=245,500
Mediana: ~x = 256,000
Rango= 361,000 – 235,000 = 126,000
11
∑ (x - 273,850 )
i
2
Varianza: s =
i =1
2
fi
=
20
2.3175E + 10
= 1,158,727,500
20
Desviación estándar: s = 34,040.0867
C.V. =
s
= 0.12430194 = 12.4302%
x
Coeficiente de sesgo: a = m33
s
11
∑ (x i - x )3 f i
6.5721E + 14
i =1
=
= 3.286E + 13
m3 =
11
20
∑ fi
i=1
a=
3.286E + 13
= 0.83310573 3
(34,040.08 67 )3
por lo tanto tiene un sesgo positivo
Coeficiente de curtosis: k = m44
s
M. en I. Isabel Patricia Aguilar Juárez
42
Estadística
Estadística Descriptiva
11
4
∑ ( xi - x ) f i
6.31528E + 19
=
= 3.15764E + 18
m4 = i = 1
11
20
∑ fi
i=1
4
s 4 = ( 34,040.086 7 )
k = 2.351796702 ;
k<3,
M. en I. Isabel Patricia Aguilar Juárez
por lo tanto es platicúrtica.
43
Descargar