Estadística Descriptiva - Indicadores Estadísticos

Anuncio
Estadística Descriptiva
Indicadores Estadísticos
Álvaro José Flórez
1 Escuela
de Ingeniería Industrial y Estadística
Facultad de Ingenierías
Febrero - Junio 2012
Estadística Descriptiva
Hasta ahora se ha tratado de organizar la información, resumiéndola
a través de los cuadros de frecuencias y de la representación gráfica,
no obstante en ocasiones se requiere de algunas medidas que en
forma muy directa puedan indicar rasgos importantes de la muestra,
como su magnitud, su homogeneidad, su simetría, etc. Al proceso de
resumir los datos por medio de indicadores, se denomina reducción
de datos (Behar and Yepes, 1996).
• Tendencia central
• Indicadores de posición
• variabilidad
• Simetría
Indicadores de tendencia central
La media aritmética (X̄) de un conjunto de datos: x1 , x2 , . . . , xn se
define como:
X̄ =
n
X
xi
i=1
n
Si los datos corresponden a una variable discreta que está organizada
en una tabla de frecuencias, entonces:
X̄ =
m
X
ni xi
i=1
n
=
m
X
i=1
fi xi
Media aritmética
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
xi
0
1
2
3
4
5
ni
9
11
12
10
4
4
fi
0.18
0.22
0.24
0.2
0.08
0.08
Ni
9
20
32
42
46
50
Fi
0.18
0.4
0.64
0.84
0.92
1
¿Cuál es la media
aritmética?
Media aritmética
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
xi
0
1
2
3
4
5
ni
9
11
12
10
4
4
fi
0.18
0.22
0.24
0.2
0.08
0.08
Ni
9
20
32
42
46
50
Fi
0.18
0.4
0.64
0.84
0.92
1
X̄ = 2,02
En promedio una
familia presenta 2.02
personas menores de
12 años
Propiedades de la media aritmética
• La suma de las desviaciones de los datos con respecto a la media es
cero.
n
X
(xi − X̄) = 0
i=1
• La suma de los cuadrados de las desviaciones de los datos con
respecto a un valor a es mínimo, cuando a es igual al promedio.
f (a) =
n
X
(xi − a)2 tiene su mínimo en a = X̄
i=1
• Si todos los datos son iguales a k, entonces el promedio es k
Si xi = k, i = 1, . . . , n entonces X̄ = k
Propiedades de la media aritmética
• Si todos los datos de una muestra se multiplican por una
constante, el promedio de dicha muestra resulta multiplicando
por la misma constante
Si yi = axi , i = 1, . . . , n entonces Ȳ = aX̄
• Si Zi = axi + byi ,
i = 1, . . . , n, donde a y b son constantes,
entonces:
Z̄ = aX̄ + bȲ
Esta propiedad puede generalizarse a la combinación lineal de
k variables y puede resumirse diciendo que la media es un
operador lineal
Propiedades de la media aritmética
• Si una muestra de n elementos, se divide en k muestras
excluyentes y exhaustivas, que tienen n1 , n2 , . . . , nk
elementos, con promedios x̄1 , x̄2 , . . . , x̄k respectivamente,
entonces el promedio global estará dado por:
k
X̄ =
X ni x̄i
n1 x̄1 + n2 x̄2 + . . . + nk x̄k
=
n
n
i=1
Media aritmética para datos agrupados
Debido a que hay perdida de individualidad de la información al
agrupar datos, el calculo de la media se hace de forma aproximada.
Para ello se hace el siguiente supuesto :
Los datos en cada intervalo están uniformemente distribuidos. Si esto
es cierto, entonces:
X̄i = (Li−1 + Li )/2
se puede considerar la muestra total, dividida en m submuestras
constituidas por los datos que pertenecen a cada uno de los intervalos
(propiedad 6)
Media aritmética
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
¿Cuál es el promedio
del conjunto de
datos?
Media aritmética
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
En promedio los
cilindros de prueba
tuvieron una
resistencia de 254.36
kg/cm2
Mediana
La mediana tiene el objetivo de dividir el conjunto de datos en dos
partes iguales, el 50 % de los datos son inferiores a la mediana y el
50 % superiores.
Si X[1] , . . . , X[n] corresponde a un conjunto de datos ordenados de
manera no descendente de una variable X, entonces la mediana
puede ser calculada como:
(
X[(n+1)/2]
Si n es impar
M e = X[n/2] +X[(n+1)/2]
Si n es par
2
Mediana
Si los datos están agrupados en m intervalos, la mediana es el punto
cuya frecuencia absoluta acumulada es n/2 o la relativa acumulada
es 0.5, es decir la mediana es el valor x tal que F (x) = 0,5.
Mediana
Si los datos están agrupados en m intervalos, la mediana es el punto
cuya frecuencia absoluta acumulada es n/2 o la relativa acumulada
es 0.5, es decir la mediana es el valor x tal que F (x) = 0,5.
Una vez localizado el intervalo que contiene la mediana y utilizando la
función de distribución empírica se puede calcular la mediana como:
M e = Li−1 +
0,5 − F (Li−1 )
Ci
f
Mediana
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
¿Cuál es la mediana
del conjunto de
datos?
Mediana
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
El 50 % de los
cilindros de probados
tuvo una resistencia
igual o inferior a
252.71kg/cm2
Moda
Cuando la variable de interés, es de naturaleza discreta, la moda Mo
corresponde al dato de la muestra que tiene mayor frecuencia.
Cuando se trata de una variable de naturaleza continua, la moda
corresponde al(os) valor(es) alrededor del(os) cual(es) se produce
una mayor concentración de datos, es decir a los puntos de mayor
densidad de frecuencia.
A diferencia de los otros indicadores este es el único que puede ser
calculado cuando observamos variables cualitativas.
Moda
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
xi
0
1
2
3
4
5
ni
9
11
12
10
4
4
fi
0.18
0.22
0.24
0.2
0.08
0.08
Ni
9
20
32
42
46
50
Fi
0.18
0.4
0.64
0.84
0.92
1
¿Cuál es la moda?
Moda
En una población del Cauca se tomó una muestra de 50 familias para
observar el número de personas menores de 12 años con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
xi
0
1
2
3
4
5
ni
9
11
12
10
4
4
fi
0.18
0.22
0.24
0.2
0.08
0.08
Ni
9
20
32
42
46
50
Fi
0.18
0.4
0.64
0.84
0.92
1
Mo = 2
El número de
personas menores de
12 por familia que
más frecuencia
obtuvo en la muestra
fue 2
Moda
Como sólo se dispone de la función de densidad empírica que se
construyó a partir de la muestra, se puede definir un procedimiento
que permita acercarse a la determinación de los mencionados
máximos.
Fig:
0.006
0.004
0.002
0.000
Densidad
0.008
0.010
0.012
Histograma de frecuencias
absolutas para la resistencia de cilindros
de concreto
200
220
240
260
Resistencia
280
300
320
340
• La moda se encuentra en el intervalo
de mayor frecuencia.
• Si las dos clases adyacentes, tienen
igual densidad de frecuencia, se puede
suponer que Mo se encuentra en el
punto medio de la clase que la
contiene.
En caso contrario, Mo estará
desplazada un poco hacia la clase
adyacente de mayor densidad de
frecuencia
Moda
Cuando se tiene datos agrupados para una variable continua, la moda
puede ser calculada, primero ubicando el intervalo que tenga la mayor
frecuencia y luego aplicando la siguiente formula:
M o = Li−1 +
fi /Ci − fi−1 /Ci−1
Ci
2(fi /Ci ) − (fi−1 /Ci−1 ) − fi+1 /Ci+1
Si los intervalos son de igual longitud:
M o = Li−1 +
fi − fi−1
C
2fi − fi−1 − fi+1
Moda
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
¿Cuál es la moda del
conjunto de datos?
Moda
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
El mayor número de
resistencias de los
cilindros se encuentra
alrededor de
251kg/cm2
Algunas consideraciones
La sensibilidad es una cualidad de un indicador que permite detectar
cambios producidos en la muestra. Mucha sensibilidad en un indicador
puede ser contraproducente, puesto que cambios irrelevantes (valores
extremos) en la muestra pueden producir grandes cambios en el indicador,
lo cual puede prestarse para interpretaciones equivocadas.
Ejemplo:
Suponga que se está interesado en los gastos de los estudiantes en la
universidad y se observó lo siguiente:
Gasto(xi )
% de personas (fi )
1.700
0.1
3.000
0.15
5.000
0.4
6.500
0.3
70.000
0.05
¿Que indicador de centralidad representa mejor al conjunto de
datos?
Cuartiles de una distribución
Son tres valores Q1 , Q2 , Q3 que dividen la muestra ordenada en
cuatro partes que contienen aproximadamente el mismo número de
datos. Es decir que el 20 % de los datos son menores que Q1 , el 50 %
de los datos son menores que Q2 (es igual a la mediana) y el 75 %
de los datos son menores que Q3 .
Cuartiles de una distribución
Son tres valores Q1 , Q2 , Q3 que dividen la muestra ordenada en
cuatro partes que contienen aproximadamente el mismo número de
datos. Es decir que el 20 % de los datos son menores que Q1 , el 50 %
de los datos son menores que Q2 (es igual a la mediana) y el 75 %
de los datos son menores que Q3 .
Para calcular Q1 se identifica primero el intervalo donde se acumula
más del 25 % y se aplica la siguiente formula:
Q1 = Li−1 +
0,25 − F (Li−1 )
Ci
fi
Q3 se calcula de la misma forma pero ubicándose donde se acumula
más del 75 %.
Cuartiles de la distribución
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
¿Cuales son los
cuartiles del conjunto
de datos?
Diagrama de cajas y alambres
Este diagrama constituye una síntesis muy buena de la distribución de
frecuencias y su sencillez la hace más útil, sobre todo en situaciones
donde se hace necesario comparar dos o más distribuciones.
272
Q3
251
Q2
227
Q3+1.5RIC
Q1
158
341
Fig: Diagrama de cajas y alambres
Q1−1.5RIC
Para su calculo se utilizan:
Para la caja: Q1 , Q2 , Q3
Cerco superior Q3 + 1,5RIC, Cerco
inferior Q1 − 1,5RIC
donde: RIC = Q3 − Q1
Diagrama de cajas y alambres
Este diagrama constituye una síntesis muy buena de la distribución de
frecuencias y su sencillez la hace más útil, sobre todo en situaciones
donde se hace necesario comparar dos o más distribuciones.
341
Q3+1.5RIC
272
Q3
251
Q2
227
Q1
158
Fig: Diagrama de cajas y alambres
Q1−1.5RIC
Los alambres se gráfican con el
data más próximo al cercos sin
superarlos
En caso de que algún dato se
encuentra fuera de los cercos se
grafican como puntos y se
consideran atípicos
Diagrama de cajas y alambres
Un diagrama de cajas y alambres es útil para los siguientes propósitos:
1
Para identificar la localización de los datos alrededor de la
mediana.
2
Para hacerse una buena idea de la dispersión de los datos,
basándose en la longitud de la caja. Además se aprecia el
rango de los datos.
3
Permite observar el grado de asimetría de una distribución,
comparando las proporciones de la caja que queda a los lados
de la mediana.
4
Útil para identificar posibles valores atípicos (fuera de los
cercos)
Ejemplo
Permite observar el grado de asimetría de una distribución,
comparando las proporciones de la caja que queda a los lados de
la mediana.
Fig: Diagrama de cajas y alambres
●
● ●●●
●● ●●
●
●
●
●●●
−2
●●● ●
● ●
●●
● ●●
●●
0
2
x
4
6
Ejemplo
Permite observar el grado de asimetría de una distribución,
comparando las proporciones de la caja que queda a los lados de
la mediana.
8
10
Fig: Diagrama de cajas y alambres de la concentración de CO por hora
6
4
●
●
●
●
●
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
Concentración de CO (ppm)
●
●
●
0
1
2
3
4
5
6
7
8
9
11
Hora
13
15
17
19
21
23
Indicadores de dispersión
El nivel de representatividad de los indicadores de tendencia central
dependen del grado de homogeneidad o de dispersión de los datos
observados, lo que hace necesario algunos indicadores de dispersión.
Indicadores de dispersión
El nivel de representatividad de los indicadores de tendencia central
dependen del grado de homogeneidad o de dispersión de los datos
observados, lo que hace necesario algunos indicadores de dispersión.
Uno de estos indicadores puede ser el rango:
r = máx(x1 ) − mı́n(xi )
El rango es sencillo de calcular y de muy fácil interpretación, pero
tiene la gran desventaja que es demasiado sensible a valores extremos
Varianza
El indicador de dispersión más usado en estadística es la varianza y está
definido como.
n
S2 =
1X
(xi − x̄)2
n i=1
Si los datos están agrupados en intervalos de clase:
n
S2 =
n
X
1X
ni (xi − x̄)2 =
fi (xi − x̄)2
n i=1
i=1
Una desventaja de la varianza es que sus unidades no coinciden con las
unidades de la variable de estudio. Para remediar esta desventaja, se utiliza
su raíz cuadrada (desviación estándar)
Varianza
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
¿Cuál es la desviación
estándar de los
datos?
Varianza
Una compañía constructora resuelve estudiar la resistencia a la compresión
de una mezcla de concreto, con el objetivo de hacer control de calidad. Para
ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.
Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado
se encuentran a continuación:
Intervalo
[191 - 215]
(215 - 239]
(239 - 263]
(263 - 287]
(287 - 311]
(311 - 335]
x0i
203
227
251
275
299
323
ni
6
11
14
11
5
3
fi
0.12
0.22
0.28
0.22
0.10
0.06
Ni
6
17
31
42
47
50
Fi
0.12
0.34
0.62
0.84
0.94
1
En promedio las
resistencias de los
cilindros de prueba se
encuentran alejadas
de la media
32.55kg/cm2
Propiedades de la varianza
• La varianza
también puede ser calculada como:
P
S2 =
n
i
n
x2i
− (x̄)2
• La varianza es siempre no negativa.
• La varianza de una constante siempre es igual cero: si xi = C
entonces S 2 = 0
• Si yi = kxi entonces Sy2 = k 2 Sx2
• Si yi = xi + C entonces Sy2 = Sx2
Coeficiente de variación
Por la estructura de la varianza se sabe que cuando aumenta la
dispersión el valor de la varianza aumenta, al igual que la desviación
estándar.
pero, qué se respondería a la pregunta:
¿Una desviación estándar de $100.000 me indica que hay poca o
mucha dispersión ?
Depende de las magnitudes de los datos.
Coeficiente de variación
El coeficiente de variación (CV) es un indicador de dispersión que
involucra la magnitud (media aritmética) de los datos que se estudian
CV =
S
100 %
x̄
• Se usa para comparar la variabilidad relativa de una
característica, en poblaciones que tiene diferente media.
• No hay un valor definido que permita valorar el C.V. como
grande o pequeño (depende del problema)
Bibliografía
Behar, R. and Yepes, M. (1996). Estadística, un enfoque descriptivo.
Oficina de publicaciones de la Facultad de Ingeniería de la
Universidad del Valle, Cali, Colombia, vol. 2 edition.
Descargar