Notación estadística utilizada en esta unidad

Anuncio
I. Las tablas de frecuencias y representaciones gráficas
Se proporcionará un conjunto de herramientas o técnicas estadísticas
para el tratamiento de la información, tanto cualitativa como cuantitativa, que
facilitan el manejo y análisis de los datos.
En la etapa de organización de los datos, nos referimos a la
clasificación y tabulación de los mismos. Por lo tanto, luego que los tenemos, se
dividirá la información en clases previamente definidas, en función de una o más
características. Un elemento cualquiera del conjunto de datos pertenecerá a una
clase determinada, si cumple con las características de esa clase. De lo contrario,
pertenecerá a otra clase. Las clases deben ser excluyentes y exhaustivas, es decir
que cada elemento del conjunto debe pertenecer a una sola clase y a su vez, todo
elemento debe pertenecer a alguna clase. O sea que todo elemento debe quedar
dentro de una clase pero no puede estar en dos clases a la vez.
Cuando la división en clases se realiza en función de alguna
característica cualitativa, nos encontramos frente a datos cualitativos o atributos.
Un atributo es una cualidad que nos permite diferenciar los individuos u objetos
del conjunto según posean o no dicha cualidad. Ejemplo: sexo, estado civil,
profesión, color, etc.
El número de clases en que puede agruparse la información depende
del atributo elegido. Si clasificamos a las personas en función del sexo, este
atributo admite dos clases: masculino, femenino. Nos encontramos frente a un
caso de partición dicotómica. Si la clasificación se realiza en función del estado
civil, podemos establecer mas clases: soltero, casado, divorciado, viudo, etc. En
esta situación hablamos de partición múltiple. Todo atributo que admite una
partición múltiple puede ser llevado a otra dicotómica, agrupando alguna de las
clases en una sola. Si agrupamos todos los no casados, pasamos a dos clases:
casados y no casados. Esta agrupación puede ser útil en algunas situaciones, pero
se pierde información.
La nomenclatura que utilizaremos para un dato cualitativo es “A”; “B”, etc. y
para los elementos de su partición será:
a.- Partición dicotómica: a: pertenecer a una clase.
ā: pertenecer a la otra clase
b.- Partición múltiple: a1, a2, a3, ..................ai, donde el subíndice “i”
representa la cantidad de clases.
1
Cuando la división en clases se realiza en función de alguna
característica cuantitativa, nos encontramos frente a datos cuantitativos o
variables. Ejemplo: estatura, ingresos, cantidad de miembros de una familia,
Cantidad de libros en préstamo, número de hijos, edad entre otras cosas y los
valores que pueden tomar dependerá de la variable.
Lo expresado anteriormente nos conduce a diferenciar dos tipos de
variables:
 Discretas : son aquellas variables que solo pueden tomar un conjunto
finito de valores, generalmente valores enteros. La cantidad de libros en préstamo
es un caso típico de variable discreta, pudiendo tomar los valores
0,1, 2, 3........n.
 Continuas : son aquellas variables que pueden tomar a priori un conjunto
infinito de valores. Generalmente son las magnitudes vinculadas a longitudes,
superficies, volumen, edad, duración o peso. Pero por razones de medición se
discretizan y ese valor observable representa un valor dentro de un intervalo
teórico.
Para este tipo de datos la nomenclatura que utilizaremos será similar que para
atributos, con la única diferencia que se usará la letra “X “.
2.1.- Distribuciones de frecuencias.
La distribución de frecuencias es la representación estructurada, en
forma de tabla, de toda la información que se ha recogido sobre la variable que se
estudia.
Toda variable o atributo tiene asociada una distribución de frecuencias,
que implica una correspondencia biunívoca entre dos conjuntos. Por un lado,
tenemos el conjunto formado por los valores que toma la variable o el atributo y
por el otro el de las frecuencias relacionadas con ellos La asociación existe en
ambos sentidos, pues a cada valor de la variable o atributo, denominado clase, le
corresponde una frecuencia y a su vez cada frecuencia se identifica con una clase
de la variable
2.1.1.- Frecuencia absoluta y relativa.
 frecuencia absoluta : es la cantidad de datos que integran cada una de
las clases, o sea que son las repeticiones que encontramos dentro de una misma
clase.
2
La notación en atributos es: n(ai), siendo “i” el subíndice asignado para
referenciar las diferentes clases.
La notación en variables es: n (x i).
Las propiedades de las frecuencias absolutas son:
a. - 0 ≤ n( a i ) ≤ n
,
siendo “n” el tamaño de la muestra.
b. - Σ n (a i) = n
0 ≤ n( x i ) ≤ n
Σ n(x i) = n
,
La correspondencia entre los valores de la variable y su frecuencia absoluta
determina lo que denominamos “distribución de frecuencias absolutas”
 Frecuencia relativa : es la cantidad de repeticiones obtenidas para
cada clase, en relación al total de las observaciones. Resulta de dividir la cantidad
de elementos de cada clase (frecuencia absoluta) por el tamaño de la muestra. La
notación es h (a i) o h(x i), según el tipo de variable.
De acuerdo a la definición:
h (ai ) 
n ( ai )
n
Las propiedades de las frecuencias relativas son:
a. - 0 ≤ h( a i ) ≤ 1
b. - Σ h (a i) = 1
,
,
0 ≤ h( x i ) ≤ 1
Σ h(x i) = 1
Las frecuencias relativas son un porcentaje, ya que relacionan una parte del
conjunto con el total
La correspondencia entre los valores de la variable y su frecuencia relativa
determina lo que denominamos “distribución de frecuencias relativas”
Trataremos por separado ejemplos para datos cualitativos y
cuantitativos.
En el caso de los atributos, estos ya vimos que pueden clasificarse en dicotómicos
o múltiples.
3
En el caso de variables tendremos 3 situaciones distintas, dependiendo del tipo de
variable, el tamaño de la muestra y el número de observaciones
EJEMPLO N º 1.-
ATRIBUTOS (partición múltiple)
El atributo analizado es A: lugar de procedencia del alumnado de la
EUBCA.
Supongamos que el alumnado es de 1600 alumnos y la distribución por
departamentos es: (luego de haber corregido y tabulado los datos)
A i : Procedencia
n (a i ): frec. absoluta
h (a i): frec. relativa
a 1 : Montevideo
1000
0.625
a 2 : Rivera
100
0.063
a 3 : Colonia
80
0.05
a 4 : Tacuarembó
45
0.028
a 5 : Paysandú
50
0.031
a 6 : Salto
40
0.025
a 7 : Canelones
285
0.178
TOTAL
1600
1
Esto da lugar a una partición múltiple.
EJEMPLO N º 2.- ATRIBUTOS (partición dicotómica)
Si agrupamos como estudiantes de Montevideo y del Interior tendríamos una
clasificación dicotómica.
Procedencia
Frec. Absoluta.
Frec. relativa
Montevideo
1000
0.625
4
Interior
Total
600
0.375
1600
1
La información también puede ser presentada en gráficos, lo cual expondremos
con posterioridad.
Con cuadro y gráfico estamos presentando la información y con las
frecuencias relativas estamos analizando la misma.
EJEMPLO N º 3.- VARIABLES (cantidad de observaciones pequeña)
La variable analizada es X: puntaje de una prueba de Estadística.
Supongamos que el total de alumnos que dieron la prueba es 7 y el puntaje de la
prueba es de 0 a 5.
Los resultados obtenidos fueron: 0, 2, 2, 1, 4, 5, 3.
Se colocan todas las observaciones en forma separada, aunque algunas
tengan el mismo valor, por lo tanto el número de clases es igual al de las
observaciones, siendo la frecuencia de cada clase igual a 1.
Esto daría lugar al siguiente cuadro:
Puntaje
Frec. absolutas
Frec. relativas
0
1
1/7
1
1
1/7
2
1
1/7
2
1
1/7
3
1
1/7
4
1
1/7
5
1
1/7
7
1
El cuadro correspondiente no es nada significativo, ya que salvo el 2,
todas las frecuencias son de uno.
5
EJEMPLO N º 4.- VARIABLES (muestras relativamente grandes con
Pocos valores de la variable)
La variable es la misma que la analizada en el ejercicio anterior, con la
diferencia que la muestra es de mayor tamaño y por lo tanto cada valor se repite
muchas veces, dando lugar a frecuencias mayores que 1. Generalmente estas
situaciones se dan con mayor frecuencia en variables discretas.
Los resultados obtenidos fueron: 2, 5, 1, 2, 0, 2, 1, 5, 1, 4, 3, 0, 5, 4, 4, 3, 3, 2, 4,
5.Si presentamos esta información estructurada obtendríamos la siguiente tabla de
frecuencias:
Puntaje
Frec. absoluta
Frec. relativa
0
2
0.10
1
3
0.15
2
4
0.20
3
3
0.15
4
4
0.20
5
4
0.20
Total
20
1
Existe una tercer situación que la veremos en el punto 2.2.-
2.1.2.- Frecuencias acumuladas.
Este concepto es aplicable solamente para variables, ya que para
atributos no tiene sentido. La frecuencia acumulada es aquella que acumula
frecuencias relativas hasta un determinado valor de la variable. Sumando las
frecuencias de todos los valores inferiores a un límite fijado, obtenemos la
frecuencia relativa acumulada hasta ese valor.
6
La correspondencia entre los valores de la variable y su frecuencia
acumulada se denomina “Función de distribución acumulada” y se expresa
como F* (x i ). Esta función cumple con las siguientes propiedades:

F* (x i ) = 1 cuando la distribución alcanza su máximo. Al llegar al último
valor, la función no crece más por no existir frecuencias para acumular.

F* (x i ) = 0 cuando la distribución alcanza su mínimo. Por debajo del
primer valor, la función sigue valiendo cero porque tampoco existen
frecuencias.

F* (x i ) es no decreciente, pues al crecer el valor de la variable, la función
puede ir creciendo o mantenerse constante, ya que las frecuencias que se
acumulan nunca son negativas y lo mínimo que pueden valer es cero.

F*(xi) es continua, y de acuerdo al tipo de distribución , puede ser
continua por la derecha o por ambos dados .
2.2.- Frecuencia de una variable agrupada en intervalos.
Si los valores que toma la variable son muy diversos y cada uno de
ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya
que de otra manera obtendríamos una tabla de frecuencias muy extensa que
aportaría muy poco valor a efectos de síntesis. Este agrupamiento deliberado en
intervalos hace perder información, pero a su vez permite manejar datos que por
su volumen no podrían ser analizados ni interpretados.
El número de tramos en los que se agrupa la información es una
decisión que debe tomar el analista. La regla es que mientras más tramos se
utilizan menos información se pierde, pero puede que menos representativa e
informativa sea la tabla. Por lo tanto, lo primero que debemos observar es el
recorrido total de la variable y dividirlo en tantos intervalos como sea
conveniente, tratando de no superar los 15 y que no sean menos de 4 o 5.
El siguiente ejemplo muestra el agrupamiento.
7
EJEMPLO N º 5.- VARIABLES (muestras relativamente grandes con
muchos valores de la variable)
Supongamos que nos encontramos con una prueba cuyo puntaje varía de 0 a 50 y
tomamos una muestra de 45 alumnos. Los resultados individuales son:
1
41
38
22
43
29
19
16
1
35
29
2
29
46
20
31
2
20
25
22
25
31
3
19
15
42
38
30
16
18
28
18
3
27
23
28
6
12
32
36
7
28
10
50
28
Uno de los agrupamientos posibles sería en 5 intervalos, de amplitud 10 cada uno.
Intervalos de clase
fi –frec absoluta
h(x )frec. relativa
( 0 – 10 ]
9
0.20
( 10 – 20 ]
10
0.22
( 20 – 30 ]
13
0.29
( 30 – 40 ]
8
0.18
( 40 – 50 ]
5
0.11
45
1
**Para representar datos en intervalos de clases se aplica la regla de STURGES
para hallar la anchura o amplitud de clases Ac
Ac 
R
Rango o recorrido total

1  3,322log N
Número de clases
2.3.- Representaciones Gráficas.
Estos cuadros de distribuciones generalmente van acompañados con
gráficas, especificas para cada caso, y que permiten una más rápida comprensión
de los datos.
2.3.1.- Diagrama de barras y de sectores.
8
El gráfico de barras, como su nombre lo indica, son barras del ancho que se
desee, y de altura la frecuencia absoluta o relativa.
1200
1000
800
600
400
200
es
C
an
el
on
Sa
lto
nd
ú
re
m
cu
a
Ta
Pa
ys
a
bó
ia
on
C
ol
iv
e
R
M
on
t
.
ra
0
En cuanto al gráfico de sectores, también denominado circular o de
pastel, su forma es circular y cada frecuencia esta representada por un sector del
círculo. Este gráfico permite apreciar que parte representa cada clase dentro del
total, pero a veces se hace difícil apreciar la diferencia entre una frecuencia y otra.
18%
Mont.
3%
Rivera
3%
Colonia
3%
Tacuarembó
5%
6%
62%
Paysandú
Salto
Canelones
Ambos gráficos son utilizados fundamentalmente para representar atributos.
9
2.3.2.- Diagrama de bastones y escalonado.
El gráfico de bastones es un gráfico en barra, pero con una variante en la
amplitud de la barra, ya que en estos casos sería una línea (bastón), con una altura
que sería la frecuencia absoluta o relativa. Se aplica fundamentalmente para las
distribuciones de variables y en particular para las que se muestran en el ejemplo
4.-
4,5
4
3,5
3
2,5
2
0
1,5
1
0,5
0
0
1
2
3
4
5
(El bastón debería ser una línea)
En cuanto al gráfico escalonado, es el que se utiliza para representar la
función de distribución de una variable en la situación del ejemplo 4.
Ojiva: es un histograma y su polígono de frecuencia donde se observan
las frecuencias acumuladas
10
Función de distribución acumulada
1,2
frecuencias
1
0,8
0,6
0,4
0,2
0
Puntaje
2.3.3.- Histograma de frecuencias.
En el caso de la variable que debe ser agrupada en intervalos, los
valores que caen dentro de cada intervalo se consideran distribuidos
uniformemente dentro del mismo., y las frecuencias ya no son alturas, sino áreas,
por lo que la representación gráfica son rectángulos, que tienen por base la
amplitud del intervalo y por altura lo que denominaremos “función de densidad”
y que se define de la siguiente manera:
f*(x i )= frecuencia relativa / amplitud del intervalo
La representación gráfica de esta función de densidad recibe el nombre
de “histograma”.
Los intervalos elegidos no tienen porque tener siempre la misma amplitud,
en algunas situaciones se toman intervalos mayores donde no se necesita tanta
precisión o en los extremos de la distribución
11
Distribucion por puntaje
Funcion de densidad
0,035
0,03
0,025
0,02
0,015
0,01
0,005
0
Puntaje
En cuanto a la gráfica de la función de distribución acumulada, en esta
situación no es escalonada, sino que es lineal, ya que los valores no se encuentran
agrupados en torno a un punto, sino que lo hacen en un intervalo.
A continuación se presenta la gráfica mencionada anteriormente, con
base a los datos del ejemplo Nº 5.
12
Funcion de distribución acumulada
1,2
frecuencias
1
0,8
0,6
0,4
0,2
0
0
10
20
30
40
50
Puntaje
2.3.4.- Gráficos lineales.
En el punto anterior mencionamos que la gráfica de la función de
distribución de una variable agrupada en intervalos, es lineal.
También los datos temporales suelen representarse con un gráfico lineal,
los que serán tratados en su oportunidad.
Cabe destacar que los gráficos y las tablas de distribución estadísticas
deben poseer un titulo, una matriz o grafico representativo y la fuente de donde fue
extraída la información
II. Medidas de tendencia central
Ahora bien, hablemos de las medidas de tendencia central o centralización
son valores únicos que representan el centro de la distribución de los valores. Las
diferentes medidas de tendencia central representan el centro de maneras diferentes.
La media aritmética representa el "centro de gravedad" de los datos. La mediana
representa la mitad de los datos, con la mitad de las observaciones por encima y la
otra mitad por debajo. La moda representa el "pico" o el valor más frecuente. La
media geométrica es comparable con la media aritmética en la escala logarítmica.
Las medidas de dispersión describen la variabilidad de la distribución
observada. El rango mide la dispersión desde el valor más pequeño hasta el valor
13
más grande. La desviación estándar, usando en conjunto con la media aritmética,
refleja que tan cerca están los valores observados a la media. Para una distribución
normal, 95% de los datos se encuentran dentro del rango de -1,96 desviaciones
estandares a +1,96 desviaciones típicas. El rango intercuartílico, usado en conjunto
con la mediana, representa el rango desde el percentil 25 al percentil 75, más o
menos el 50% central de los datos.
En general, se hace un resumen de los datos con una distribución normal con
la media aritmética y la desviación estándar. Para los datos asimétricos o los datos
con valores extremos, se utiliza la mediana y el rango intercuartílico. Para los datos
en una escala logarítmica, se utiliza la media geométrica. Se puede utilizar la moda y
el rango para dar información adicional, pero raras veces se usan solos.
Notación estadística
Antes de proseguir, le sugerimos que revise la notación estadística usada en la
unidad y que se describe en el cuadro siguiente:
Observación
individual:
Número
observaciones:
Notación estadística utilizada en esta unidad
Una letra usualmente X o Y se usa para representar una
variable particular, como por ejemplo: la paridad. Una
observación individual en una serie de datos se representa
por Xi.
de
La letra n o N se usa para representar el número de
observaciones de una serie de datos. La letra fi (para una
frecuencia individual) se utiliza para representar con qué
frecuencia aparece un valor en la serie de datos.
Multiplicación:
Cuando los valores se escriben juntos, por ejemplo, XY
significa que se multiplica el valor de X por el de Y.
Paréntesis:
Los paréntesis se usan:
 Para indicar multiplicación, por ejemplo (X)(Y)
quiere decir que se multiplica X por Y.
 Para demostrar que lo que está en el paréntesis
debe ser tratado como términos separados por
ejemplo (X+Y)2 significa que se debe sumar a
X el valor de Y luego elevar al cuadrado el
valor de la adición.
14
Sumatoria:
Se usa la letra griega mayúscula  para indicar que una
lista de números debe ser sumada; por ejemplo, se desea
indicar que se debe sumar la paridad usada en el Ejercicio
2.1. Se deberían listar los números individualmente:
0+2+0+0+1+3+1+4+1+8+2+2+0+1+3+5+1+7+2.
Esto es ineficiente aún con una lista corta de números. En
cambio se puede usar esta notación estadística:
i  19
x
i 1
i
Esta notación se lee: sumatoria de los X desde i=1 hasta
i=19. Aún puede ser más corta así:
xi se lee como la
sumatoria de los xi
De esta manera tenemos que las medidas de tendencia central y las medidas de
posición las podemos clasificar así:


media aritmetica X



media ponderada X

p
promedios matemáticos 

media geometrica G



media armonica H



Medidas de tendencia central 



Mediana  Me 
promedios no matemáticos 

Moda  Mo 





 
 
 
 
15


Quartil 1 = Q1 =25%

Quartiles Quartil 2= Q 2 =50%  Mediana  D 5 =P50

Quartil 3=Q = 75%

3




Decil 1=D1  10%



Decil2=D 2  20%
Medidas de posición Decil 



Decil 9=D9  90%





P1  1%


Percentil= 
P  99%

 99

Se calcula una medida de tendencia central cuando se necesita un valor único que
resuma una serie de datos; por ejemplo: si se presentara la información de las
muertes por suicidio en los Estados Unidos en 1987, se puede decir que la edad
mediana de las personas que cometieron suicidio fue de 41.9 años.
La mejor medida en cada caso particular, depende tanto de las características de la
distribución, así como de la forma y del uso que se quiera dar a la medida.
La media aritmética
Es la medida de tendencia central con la cual probablemente esté usted mas
familiarizado es la media aritmética; se conoce también como media o promedio; se
representa como x y se conoce como "x barra"; la fórmula para calcularla es:
Media aritmética  x 
x
i
n
Se lee así: la media es igual a “la suma de las x ,s dividido por n”.
16
1.-Si los datos se repiten tenemos que: x 
x f
i i
n
donde xi son los datos observados
y fi las veces que se repiten dichos datos
2. Si los datos están agrupados en intervalos de clases x 
x f
i i
donde xi
n
representa el punto medio o marca de clases de cada intervalo y fi las veces que se
repiten dichos datos
Ejemplo # 1:
En un brote de hepatitis A, 6 personas iniciaron síntomas 24 a 31 días después de la
exposición. Calcule el promedio del período de incubación en éste brote; los
períodos de incubación para las personas afectadas (Xi) fueron:
29, 31, 24, 29, 30 y 25
1.Para calcular el numerador sume las observaciones individuales
xi = 29+31+24+29+30+25= 168
2.- Para calcular el denominador cuente el número de las observaciones: n=6
3.Para calcular la media, divida el numerador sumatoria de las observaciones
entre el denominador (numero de las observaciones).
Media Aritmética  x 
29  31  24  29  30  25 168

 28 días
6
6
Entonces, el promedio del período de incubación del brote es 28 días.
Ejemplo # 2
En una lista de 5 variables para 11 personas. Vamos a demostrar como se calcula la
media de cada variable (A-E) en el listado. (Fíjese que este listado de variables, A,
B, C, D y E, será utilizado a lo largo del tema en otros ejemplos y ejercicios).
17
Variables
Persona #
A
B
C
D
E
1
2
3
4
5
6
7
8
9
10
11
0
0
1
1
1
5
9
9
9
10
10
0
4
4
4
5
5
5
6
6
6
10
0
1
2
3
4
5
6
7
8
9
10
0
1
1
2
2
2
3
3
3
4
10
0
6
7
7
7
8
8
8
9
9
10
1.
Para calcular el numerador, sume todas las observaciones individuales:
A.  xi = 0+0+1+1+1+5+9+9+9+10+10 = 55
B. xi = 0+4+4+4+5+5+5+6+6+6+10 = 55
C. xi = 0+1+2+3+4+5+6+7+8+9+10 = 55
D. xi = 0+1+1+2+2+2+3+3+3+4+10 = 31
E. xi = 0+6+7+7+7+8+8+8+9+9+10 = 79
2.- Para calcular el denominador cuente el número de observaciones (n=11) para
cada variable.
3.- Para calcular la media, divida el numerador (suma de las observaciones) entre el
denominador (número de las observaciones).
Media de la variable A= 55/11= 5
Media de la variable B= 55/11= 5
Media de la variable C= 55/11= 5
Media de la variable D= 31/11= 2.82
Media de la variable E= 79/11= 7.18
18
Se usa la media aritmética más que cualquier otra medida de localización central
porque tiene propiedades estadísticas deseables; una de éstas es la propiedad de
centrar la media. Se puede demostrar ésta propiedad con el ejemplo del brote de
hepatitis A. En El cuadro al tomar el valor de los períodos de incubación y restarle la
media al sumar las diferencias debe dar 0. Esto demuestra que la media es el centro
de la distribución.
La sumatoria de los desvíos con respeto a la media aritmética siempre es cero
 x  x  0
n
i 1
Valor menos la media
24-28
25-28
29-28
29-28
30-28
31-28
168-168.0=0
 x  x
i
i
Diferencia obtenida
-4
-3
+1.0
+1.0
+2.0
+3.0
 x  x  0
n
-7+7=0
i 1
i
Gracias a ésta propiedad, a la media se le llama "el centro de gravedad" de una
distribución de frecuencias. Esto significa que la media actúa como el punto de
apoyo en una balanza, como se ve en la figura siguiente
La media es el centro de gravedad de la distribución
Aunque la media es una excelente medida de resumen de una serie de datos, éstos
deben seguir una distribución aproximadamente normal. La media es muy sensible a
19
valores extremos que sesgan la distribución. Por ejemplo, si en vez del 31 de la lista
anterior, tuviéramos un 131 la media cambiaría de 28.0 a 44.7
24+25+29+29+30+131 = 44.7
6
La media de 44.7 es el centro de gravedad para esos datos, pero para propósitos
prácticos es poco representativa de éstos. Como resultado, la media es mayor que
todos los valores a excepción del valor extremo. Por ser muy sensible a valores
extremos, la media es una medida resumen muy pobre para datos que están
gravemente sesgados en cualquier dirección.
La mediana (Me)
Otra medida de tendencia central es la mediana; como se verá es especialmente útil
cuando los datos están sesgados.
Mediana significa a la mitad y la mediana es el valor a la mitad de una serie de
datos que han sido colocados en orden. Específicamente, la mediana es el valor que
divide una serie de datos en dos mitades con una mitad de las observaciones mayores
que ésta y la otra mitad menores a la mediana.
Por ejemplo al tener los siguientes datos de tensiones arteriales sistólicas:
110, 120,122,130,180 mm de Hg.
En este ejemplo, hay dos observaciones mayores y dos menores que 122, luego
entonces, la mediana es 122 mm de Hg, el valor de la 3ª observación. Al obtener la
media (132) ésta seria mayor que 4 de los 5 valores.
Cómo identificar la mediana de datos individuales
1.-
Ordene los datos de menor a mayor o viceversa
2.-
Encuentre el rango medio con la siguiente fórmula
Rango mediano= (n+1)
2
a.
Si el número de observaciones (n) es impar el rango medio cae en una
observación.
n es par el rango medio cae entre dos observaciones.
3.-
Identifique el valor de la mediana
20
a.
Si el rango medio cae en una observación específica (n=impar) la mediana es
igual al valor de ésta observación.
b.
Si el rango medio cae entre dos observaciones (n=par) la mediana es
igual al promedio (media aritmética) del valor de estas observaciones.
Ejemplo con número impar de observaciones:
n=5: 13,7,9,15,11
1.-
Ordenar de mayor a menor: 7,9,11,13,15.
o viceversa: 15,13,11,9,7.
2.-
Encontrar el rango mediano
Rango mediano = (n+1) = 5+1 = 3
2
2
Entonces, el rango medio cae en el valor de la 3a observación.
3.Identificar el valor de la mediana que es igual al valor de la tercera
observación=11
Ejemplo con número par de observaciones:
n=6: 15,7,13,9,10,11
1.-
Ordenar los datos 7,9,10,11,13,15
2.-
Encontrar el rango medio
Rango mediano = (n+1)= 6+1 = 3.5
2
2
Entonces, el rango medio cae entre el valor de la 3a y la 4a observación.
3.Identificar el valor de la mediana que es igual al promedio de la 3a y 4a
observación
Mediana = 11+10 = 10.5
2
21
La mediana para datos agrupados en clases se encuentra por interpolación.
Veamos:
N

  Fi 1 
2
 Ac
Me  Li  
fiMe
Donde: Li limite inferior de la clase que contiene a la mediana
N
Indicador de posición de la mediana, el lugar del 50% de los datos
2
Fi 1 Frecuencia acumulada anterior a la clase medianal
fiMe frecuencia absoluta que contiene a la mediana
Ac Amplitud de clase o ancho de clase del intervalo que contiene a la
mediana
En contraste con la media, la mediana no está influenciada por valores extremos.
Ejemplo: A 24, 25,29,30, 31 Media 28.0 mediana 29
B 24,25,29,30,131 Media 44.7 mediana 29
Se observa cómo una observación altera la media pero no cambia la mediana,
entonces se prefiere la mediana como medida de tendencia central cuando los datos
están desviados en cualquier dirección o cuando los datos incluyen valores
extremadamente grandes o pequeños.
Ejemplo
A
0 0 1 1 1 5 9 9 9 10 10
B
0 4 4 4 5 5 5 6 6 6 10
C
0 1 2 3 4 5 6 7 8 9 10
D
0 1 1 2 2 2 3 3 3 4 10
E
0 6 7 7 7 8 8 8 9 9 10
1.-
Organice las observaciones en orden creciente (ya está hecho)
2.-
Encuentre el rango medio de las observaciones
(11 observaciones + 1)/2 =12/2=6
22
3.-
Identifique el valor de la mediana que es el de la 6ª observación:
La mediana para las variables A, B y C es 5;
La mediana para la variable D es 2;
La mediana para la variable E es 8;
La moda (Mo)
La moda es el valor que ocurre más frecuentemente en una serie de datos; por
ejemplo en los siguientes datos, la moda es 1 por que ocurre 4 veces, más que
cualquier otro valor.
0,0,1,1,1,1,2,2,2,3,4,6.
Finalmente, se encuentra la moda como una distribución de frecuencia en la cual se
ve cuántas veces ocurre un valor. Si se encuentra que cada valor ocurre solo una vez,
entonces ésta distribución carece de moda, o si se advierte que 2 o más valores son
los más comunes, entonces tiene más de una moda.
La Moda para datos agrupados en clases se calcula a través de la interpolación
siguiente:
 1 
Mo  Li  
 Ac
 1   2 
Donde: Li limite inferior de la clase que contiene a la moda-frecuencia absoluta
mayor
1 : Diferencia absoluta entre la frecuencia modal y la frecuencia
absoluta anterior
 2 Diferencia absoluta entre la frecuencia modal y la frecuencia absoluta
posterior
Ac Amplitud de clase o ancho de clase del intervalo que contiene a la
mediana
Ejemplo1
En este ejemplo demostraremos los pasos para que encuentre la moda utilizando los
siguientes datos: 29,31,24,29,30,25 días.
23
1.- Organice los datos en una distribución de frecuencia, mostrando los valores de la
variable (xi) y la frecuencia fi cada vez que el valor ocurra:
xi
24
25
29
30
31
fi
1
1
2
1
1
2.- Identifique el valor que ocurre más frecuentemente: 29; la moda es 29.
Ejemplo 2
Demostraremos como encontrar la moda del siguiente conjunto de datos:
15,9,19,13,17,11.
1.- Organice los datos en una distribución de frecuencia:
xi
9
11
13
15
17
19
fi
1
1
1
1
1
1
2.- Identifique el valor que ocurre más frecuentemente; como todos los valores
tienen la misma frecuencia no hay moda para esta distribución de datos.
Ejemplo 3
Demostraremos cómo encontrar la moda utilizando los datos siguientes:
17, 9, 15, 9,17, 13.
1.-
Organice los datos en una distribución de frecuencia:
xi
9
13
15
17
fi
2
1
1
2
24
2.Identifique el valor que ocurre más frecuentemente; los valores 9 y 17 tienen
la misma frecuencia ya que ocurren 2 veces. Esta distribución de datos es bimodal
.
El rango medio (punto medio de un intervalo)
El rango medio es el punto de la mitad o punto medio de una serie de observaciones.
Para muchos tipos de datos, se calcula sumando la observación más pequeña con la
más grande dividido por dos; para datos de edad, se suma uno al numerador. El
rango medio se calcula usualmente como el paso intermedio en la determinación de
otras medidas.
Las fórmulas para calcular el rango medio de una serie de observaciones son:
Rango medio ( para la mayoría de los tipos de datos)= (X1 + Xn)
2
Rango medio (datos de edad)= (X1 + Xn + 1)
2
Ejemplo
En éste ejemplo se demuestra cómo se halla el rango medio de éstas 5 variables (no
se trata de datos de edad)
A
B
C
D
E
0
0
0
0
0
0
4
1
1
6
1
4
2
1
7
1
4
3
2
7
1
5
4
2
7
5
5
5
2
8
9
5
6
3
8
9
6
7
3
8
9
6
8
3
9
10
6
9
4
9
10
10
10
10
10
1.-
Organice las observaciones en orden ascendente (ya está hecho).
2.-
Identifique el valor más pequeño y el más grande: 0 y 10 para todas las
distribuciones.
3.-
Calcule el rango medio: (0+10)/2= 10/2= 5 para todas las distribuciones.
La edad difiere de la mayoría de otras variables porque no puede ser redondeada..
Alguien que tiene 17 años y 360 días de edad no puede pasar por alguien de 18 años
de edad sino cinco días después. Considere el siguiente ejemplo:
En una escuela de preescolares, los niños fueron asignados a los salones con base en
la edad que tenían a septiembre 1. En el salón 2 estaban los niños que tenían por lo
menos 2 años pero no alcanzaban a tener 3 años el 1 de septiembre. (todos los niños
en el salón 2 tenían 2 años el primero de septiembre). Cual es el rango medio de las
edades de los niños en el salón 2 el primero de septiembre?
25
Para propósitos descriptivos, se podría decir que la respuesta apropiada es que el
rango medio es 2. Sin embargo, como se dijo, el rango medio es calculado como un
paso intermedio para obtener otras medidas. Entonces, es necesario ser mas precisos;
considere que algunos de los niños pueden tener 2 años justos, otros pueden estar
cerca de los 3 años, ignorando la tendencia estacional de los nacimientos y
asumiendo que los cumpleaños pueden estar distribuidos uniformemente a lo largo
del año; los niños más jóvenes pueden cumplir el 1 de septiembre y tener
exactamente 2.0 años, el niño mayor puede cumplir años en septiembre y tener 2.97
años. Para propósitos estadísticos la media y el rango medio de éste grupo teórico es
de 2.5 años, así:
Rango medio (para datos de edad) = (2+2+1)/2 = 2.5
Otras medias o promedios matemáticos importantes:
La media geométrica G
Como se ha visto la media es una excelente medida de resumen para los datos que
están cerca de una distribución normal; algunas veces, se recogen datos que no están
normalmente distribuidos pero que tienen un patrón exponencial (1,2,4,8,16 etc) o
patrón logarítmico (1/2, 1/4, 1/8, 1/16 etc). Por ejemplo para determinar cuantos
anticuerpos están presentes en el suero, se diluyen secuencialmente las muestras al
50% hasta que no se pueden detectar más anticuerpos. La primera muestra que tiene
el suero sin diluir tendrá el mayor título de anticuerpos, luego se diluye al 50%, y
queda con la mitad de los anticuerpos que había en la muestra original. Y así, sí se
continúa así sí se continua diluyendo al 50%, la cantidad de anticuerpos irá
disminuyendo a 1/4, 1/8, 1/16 y así sucesivamente. Algunas veces se puede decir
que estas diluciones están medidas en una escala logarítmica; una medida de
resumen para estos datos es la media geométrica.
La media geométrica es un promedio de la serie de datos medidos en escala
logarítmica. Considere que el valor de 100 y la base de 10 es el poder en que se basa
éste incremento. ¿Cual será la potencia necesaria para elevar en base 10 para
obtener un valor de 100? 10 veces 10 o 102 igual a 100, el logaritmo de 100 en base
10 es = 2. De igual modo, el logaritmo de 16 en base 2 es igual a 4 o 24=
2*2*2*2=16
Un antilogaritmo eleva la base a la potencia (logaritmo). Por ejemplo el antilog de 2
en base 10 es 102 o 100.
El logaritmo de 4 en base 2 es 24 o 16. La mayoría de los títulos son reportados como
múltiplos de 2 (2,4,6,8 etc.) entonces, es más fácil usar base 2.
26
La media geométrica se calcula con base en la raíz enésima del producto de n
observaciones. La media geométrica es usada cuando los logaritmos de las
observaciones se distribuyen normalmente más que las observaciones por si mismas.
Esta situación es típica cuando se hacen diluciones, como en la detección de
anticuerpos en el suero y muestreos ambientales.
Fórmula para calcular la media geométrica de datos
individuales
1. Media geométrica = Xgeo = G  n x1.x2 ....xn ( para datos no agrupados ,ni
repetidos)
2. Media geométrica = Xgeo =
repetidos)
G
n
x1f1 .x2f 2 ...xnf n
(para datos agrupados y
En la práctica la media geométrica se calcula así:
Media geométrica = Xgeo = antilog (
1
 Log xi )
n
Ejemplo
En este ejemplo se demuestra cómo se calcula la media geométrica en la siguiente
serie de datos:
10, 10, 100, 100, 100, 100, 10.000, 100.000, 100.000, 1.000.000
Estos valores son todos múltiplos de 10, puede ser adecuado para usar logaritmos en
base 10.
Recuerde que:
100 = 1 (cualquier número elevado a la potencia 0=1)
101 = 10
102 = 100
103 = 1,000
104 = 10,000
105 = 100,000
106 = 1,000,000
107 = 10,000,000
y así sucesivamente.
27
1.-
tome el logaritmo (en éste caso en base 10 ) para cada valor:
log10 (Xi)= 1,1,2,2,2,2,4,5,5,6.
2.calcule el promedio de los valores de log sumando y dividiendo
número de observaciones (en este caso 10) media de log10
(Xi)
=(1+1+2+2+2+2+4+5+5+6)/10= 30/10=3
por el
3.- tome el antilogaritmo de la media de los valores de logaritmo, que da la media
geométrica.
antilog10 (3) = 103 = 1,000
La media geométrica de la serie de datos es 1,000.
Ejemplo 2
Usando los títulos dados calcule la media geométrica de los títulos de anticuerpos
contra el virus sincitial respiratorio en 7 pacientes
Nro
1
2
3
4
5
6
7
dilución
1:256
1:512
1:4
1:2
1:16
1:32
1:64
título
256
512
4
2
16
32
64
Como estos títulos son múltiplos de 2, se usa la fórmula de log. con base 2
21 = 2
22 = 4
23 = 8
24 = 16
25 = 32
26 = 64
27 = 128
28 = 256
29 = 512
Usando la segunda fórmula, obtendremos
xgeo= antilog2 (1/7 x[log2256 + log2512 + log24 + log22 + log216 + log232 +
log264])
= antilog2 (1/7 x[8+9+2+1+4+5+6])
= antilog2 (1/7 x35)
28
= antilog2 (5)= 32
El título medio geométricamente es = 32, y la dilución media geométrica es de 1 :
32.
Media Ponderada
Es una medida de centralización que permite calcular la media de acuerdo al
peso o ponderación de cada unidad especifica, multiplicando cada observación
por el peso o porcentaje, entre la suma total de las ponderaciones
 xi pi  x1 p1  x2 p2  ....xn pn
Xp 
p1  p2  ... pn
 pi
Ejemplo: Calcular la media ponderada o promedio de un estudiante que obtuvo
las calificaciones siguientes en el segundo semestre de Educación integral: (4%)
Asignatura
Calificación
definitiva(xi)
Inglés
Metodología
Matemática II
Lenguaje y
comunicación
II
12
13
19
16
Sumatoria
Ponderación
Unidades de
credito(Pi)
03
04
06
04
Xi.Pi
36
52
144
64
17
Luego su promedio seria: X p 
296
x p
p
i
i
i

296
 17.41
17
Media Armónica H
Se representa con la letra H , es igual al cociente entre el número total de datos y la
sumatoria de los inversos de cada observación.
H
H
n
1 1
1
  ..... 
x1 x2
xn
n
f
f1 f 2
  .....  n
x1 x2
xn
(Para datos no agrupados, ni repetidos)
(Para datos agrupados y repetidos)
29
Ejemplo 1: Calcular la media armónica, la media aritmética y la media geométrica
de siguiente conjunto de datos:
5,6,10,11,12
5
5
1100
H


 7.80
1 1 1 1 1 141 141
   
5 6 10 11 12 220
5  6  10  11  12 44

 8.80
5
5
X
G  5 5.6.10.11.12  8.30
log G  log 5 5.6.10.11.12 
1
log G  log(5.6.10.11.12)
5
1
log G   log 5  log 6  log10  log11  log12
5
log G  0.9195  100.9195  8.30  G
Ejemplo 2:
Ahora calcule la media aritmética, la moda y la mediana para datos agrupados en
clases en los datos siguientes de fuentes hipotéticas
Las estaturas (en metros) de los niños y niñas del 1º grado sección A en la
Escuela Básica “Carlos Soublette” durante l año 2008-2009 son :
Li - Ls
 a, b 
Xi-
Fi-
Fi
Marca
de
clases
Frec
Absoluta
Frec
Acumulada
0.95-1.00
1.00-1.05
1.05-1.10
1.10-1.15
1.15-1.20
1.20-1.25
1.25-1.30
0.975
1.025
1.075
1.125
1.175
1.225
1.275
8
10
6
5
10
4
3
46
Xi.fi
8
18
24
29
39
43
46
li  ls
pto medio o marca
2
de clases
Xi 
7.8
10.25
6.45
5.625
11.75
4.9
3.825
50.6
n
La media aritmética es X 
X
i 1
n
f
i i

50.6
 1.1
46
30
 1 
La distribución es bimodal Mo  Li  
 Ac
 1   2 
 1 


(10  8)
2
Mo1  Li  
.0, 05  1.00 
0, 05 
 Ac  1.00  

24
 (10  8)  (10  6) 
 1   2 
Mo1  1.00  0.016  1.016
 1 


(10  5)
5
Mo2  Li  
.0, 05  1.15 
0, 05 
 Ac  1.15  

56
 (10  5)  (10  4) 
 1   2 
Mo2  1.15  0.0227  1.5227
La mediana como n/2; 46/2 = 23
 23  18 
Me  1.05  
 0.05  1.0916
 6 
III. Medidas de dispersión
Cuando se observa una gráfica de una distribución de frecuencias, normalmente se
pueden ver dos hallazgos primarios:
1.-
La gráfica tiene un pico, habitualmente cerca del centro.
2.-
Se dispersa hacia uno y otro lado del pico. Así como usamos una medida de
tendencia central para describir dónde está el pico, también se usa una
medida de dispersión para describir cuánto se dispersa ésta distribución. Se
pueden usar varias medidas de dispersión.
Rango, valor mínimo y valor máximo
El rango de una serie de datos es la diferencia entre el valor mayor y el menor. En el
argot epidemiológico el rango se describe como un solo número: la diferencia entre
el menor y el mayor valor.
Ejemplo:
En éste ejemplo se demuestra cómo se encuentran los valores mínimo y máximo y el
rango de los siguientes datos: 29,31, 24, 29, 30, 25.
1.- Organice los datos de menor a mayor:
24, 25, 29, 29, 29, 30, 31;
31
2.- Identifique los valores mínimo y máximo:
Mínimo =24 y máximo=31
3.- Calcule el rango:
Rango = máximo - mínimo =31-24=7; entonces el rango es igual a 7.
32
Ejemplo
Variables
Persona #
A
B
C
D
E
1
2
3
4
5
6
7
8
9
10
11
Suma
0
0
1
1
1
5
9
9
9
10
10
55
0
4
4
4
5
5
5
6
6
6
10
55
0
1
2
3
4
5
6
7
8
9
10
55
0
1
1
2
2
2
3
3
3
4
10
31
0
6
7
7
7
8
8
8
9
9
10
79
Media
5
5
5
2.8
7.2
Mediana
5
5
5
2
8
6, 4 y 5
trimodal
5
No hay
5
2y3
Bimodal
5
7y8
Rango medio
9y1
Bimodal
5
Valor Mínimo
0
0
0
0
0
Valor Máximo
10
10
10
10
10
Moda
5
1.- Organice los datos (ya realizado).
2.- Identifique los valores mínimos y máximos y calcule la diferencia:
máximo valor de cada variable = 10
mínimo valor de cada variable = 0
Entonces, el rango de cada variable es 10-0=10.
El valor de las variables A, B, y C son obviamente diferentes, pero la media,
mediana, los valores máximo y mínimo y el rango no permiten ver diferencias. Para
las variables D y E el rango medio, los valores máximo y mínimo y el rango
tampoco sirven para mostrar diferencias en las variables.
33
Percentiles, cuartiles y rangos intercuartílicos
Consideremos el valor máximo de una distribución de otra manera: como el valor
que tiene el 100% de las observaciones por debajo de él y ahora denominémoslo el
percentil 100. Desde la misma perspectiva, la mediana, es el valor que tiene el 50%
de las observaciones por debajo de el o también llamado el percentil 50. El percentil
"n-ésimo" es el valor que tiene el "n%" de las observaciones por debajo.
Los percentiles más comunes son los percentiles 25, 50 y 75. El percentil 25
demarca el primer cuartil, el percentil 50 el segundo cuartil, el percentil 75, el
tercer cuartil y el percentil 100, el cuarto cuartil.
El rango intercuartílico representa la porción central de una distribución, y se
calcula como la diferencia entre el tercer cuartil y el primero. El rango incluye
aproximadamente la mitad de las observaciones en la serie, dejando
aproximadamente 25% de las observaciones por debajo o por encima.
Como calcular el rango intercuartílico de los datos
individuales.
Para calcular el rango intercuartílico, primero hay que encontrar el tercer y el primer
cuartil. Como cuando se calcula la mediana, primero hay que poner las
observaciones en orden y luego determinar la posición del cuartil. El valor del
cuartil es el valor de la observación en esta posición o, si el cuartil se encuentra entre
dos observaciones, es el valor entre las observaciones.
1. Organice las observaciones en orden ascendente.
2. Encuentre la posición del primer y el tercer cuartil usando las siguientes fórmulas:
Posición del primer cuartil Q1 
Posición del tercer cuartil Q3 
n 1
4
3.(n  1)
 3Q1
4
3. Identifique el valor del primer cuartil y el tercer cuartil.


si el cuartil se encuentra en una observación (es decir, su posición es
sobre un número entero), el valor del cuartil es el valor de esta
observación. Por ejemplo, si la posición del cuartil es 20, el valor es el de
la observación número 20.
si el cuartil se encuentra entre dos observaciones, el valor de éste es el
valor de la observación menor, más la fracción de las diferencias entre
34
las dos observaciones; Por ejemplo, si la posición de la observación es 20
1/4, se encuentra entre la observación 20 y la observación 21, y su valor
es el valor de la observación 20, más 1/4 la diferencia entre el valor de
las observaciones 20 y 21.
4. Calcule el rango intercuartílico entre Q3 y Q1.
La mitad de las observaciones en una distribución
de frecuencia yace en el rango intercuartil
Mediana
Valor mas Percentil 25 Percentil 50 Percentil 75 Valor mas
Pequeño
Grande
Intervalo Intercuartíilico=Q3-Q1
Ejemplo.
35
1. Organice las observaciones en orden ascendente.
Dados estos datos: 13, 7, 9, 15, 11, 5, 8, 4,
hay que organizarlos así: 4, 5, 7, 8, 9, 11, 13, 15.
2. Encuentre la posición del primer y el tercer cuartil. Dado que hay 8
observaciones, n=8.
Posición del primer cuartil (Q1) = (n + 1) / 4
= (8 + 1) / 4 = 2.25
Posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1
3(8 + 1) / 4 = 6.75
Así, se encuentra Q1 (1/4) de las observaciones entre 2 y 3 y Q3 (3/4) entre las
observaciones entre 6 y 7.
3. Identifique el valor del primer y el tercer cuartil.
Valor de Q1: La posición de Q1 es 2 1/4; así, el valor de Q1 es el valor de la
observación 2 más 1/4 de la diferencia entre los valores de las observaciones 2 y 3.
Valor de la observación 3 (ver paso 1) : 7
Valor de la observación 2: 5
Q1 = 5 + 1/4( 7-5 ) = 5 + 1/4(2) = 5 + 0,5 = 5.5
Valor de Q3: La posición de Q1 es 6 3/4; así, el valor de Q3 es el valor de la
observación 6 más 3/4 de la diferencia entre los valores de las observaciones 6 y 7.
Valor de la observación 7 (ver paso 1) : 13
Valor de la observación 6: 11
Q3 = 11 + 3/4( 13-11 ) = 11 + 3/4 (2) = 11 + 1.5 = 12.5
4. Calcule el rango intercuartílico como Q3 menos Q1.
Q3 = 12,5 (ver paso 3)
Q1 = 5,5
Rango intercuartílico = 12,5 - 5,5 = 7
Ejemplo:
En seguida se demuestra cómo se encuentra el primer, segundo y tercer cuartil y el
rango intercuartílico, de los períodos de incubación de la hepatitis A :
29, 31, 24, 29, 30, 25
1. Organice las observaciones en orden ascendente.
36
24, 25, 29, 29, 30, 31
2. Encuentre la posición del primer y el tercer cuartil.
Posición del primer cuartil (Q1) = (n + 1) / 4
= (6 + 1) / 4 = 1,75
Posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1
=3(6 + 1) / 4 = 5,25
Así, se encuentra Q1 3/4 entre las observaciones 1 y 2 y Q3 1/4 entre las
observaciones 5 y 6.
3. Identifique el valor del primer y el tercer cuartil.
Valor de Q1: La posición de Q1 es 1 3/4; así, el valor de Q1 es el valor de la
observación 1 más 3/4 de la diferencia entre los valores de las observaciones 1 y 2.
Q1 = 24 + 3/4( 25-24 ) = 24 + 3/4 (1) = 24,75
Valor de Q3: La posición de Q3 es 5 1/4; así, el valor de Q1 es el valor de la
observación 5 más 1/4 de la diferencia entre los valores de las observaciones 5 y 6.
Q3 = 30 + 1/4( 31-30 ) = 30 + 1/4 (1) = 30 + 0,25 = 30,25
Mediana = (n + 1) / 2 = 7/2 = 3,5.
Así la mediana es (29 + 29) / 2 = 29
4. Rango intercuartílico = 30,25 - 24,75 = 5,5 días
Fíjese que la distancia entre la mediana y Q1 es 29 - 24,75 = 4,25. En contraste, la
distancia entre la mediana y Q3 es solo 30,25 - 29 = 1,25. Esto indica que los datos
se orientan hacía los números más pequeños (orientados hacia la izquierda).
Este no es el único método para calcular los cuartiles. Otros métodos pueden
producir resultados un poco diferentes.
En general, se usan los cuartiles y el rango intercuartílico para describir la
variabilidad cuando se está usando la mediana como la medida de tendencia central.
Cuando se está usando la media aritmética, hay que usar la desviación típica.
El resumen de los datos de una distribución consiste en :
1) la observación mínima
2) el primer cuartil
37
3) la mediana
4) el tercer cuartil
5) la observación máxima.
En conjunto, estos valores forman una buena descripción del centro, la forma y la
extensión de una distribución. Se utilizan estos datos para dibujar un diagrama de
cajas y bigotes.
Varianza y desviación típica (o estándar)
Si se resta la media aritmética de cada observación, la suma de las diferencias es
cero. Este concepto de restar la media de cada observación es la base para dos
medidas de dispersión, la varianza y la desviación típica o estándar. Para estas
medidas, hay que elevar al cuadrado las diferencias para eliminar los números
negativos. Después, se suma el cuadrado de las diferencias y se divide por n-1 para
encontrar la "media" de las diferencias al cuadrado. Esta "media" es la varianza.
Para convertir la varianza a las unidades originales, hay que obtener la raíz cuadrada.
Se denomina desviación típica.o estándar. a la raíz cuadrada de la varianza.
Enseguida se realizarán los cálculos con el ejemplo anterior.
Valor menos la media
24-28
25-28
29-28
29-28
30-28
31-28
168-168.0=0
Diferencia
-4
-3
+1.0
+1.0
+2.0
+3.0
-7+7=0
Diferencias al cuadrado
16
9
1
1
4
9
40
suma de las diferencias cuadráticas 40

8
n 1
5
Desvío estándar= 8  2.83
Varianza=
La varianza y la desviación estándar son medidas de la desviación o dispersión de las
observaciones alrededor de la media de la distribución. La varianza es la media de
las diferencias cuadradas de las observaciones alrededor de la media. Se representa
como "S2" en las fórmulas. La desviación estándar es la raíz cuadrada de la varianza;
se representa con "s". Las siguientes fórmulas definen estas medidas:
Varianza  s 2 
 (x  x )
i
n 1
Que es lo mismo ha:
2
desviación estándard= s =
 (x  x )
2
i
n 1
38
n xi  ( xi )2
2
Varianza  s 
desviación estándard = s = s2
n(n  1)
Compare los dos términos, xi2 y ((xi)2 . El primero indica que hay que elevar al
cuadrado cada observación y sacar la suma de los valores cuadrados. El segundo
indica que hay que sumar las observaciones, y después elevar al cuadrado la suma.
2
Ejemplo
Se utilizarán las fórmulas definidas para calcular la varianza (S2) para la variable C:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
Varianza  s
2
 (x  x)

i
n 1
2
desviación estándard =
Columna 1
xi
Columna 2
xi  x
0
1
2
3
4
5
6
7
8
9
10
55
0-5.0=-5
1-5.0=-4
2-5.0=-3
3-5.0=-2
4-5.0=-1
5-5.0=0
6-5.0=1
7-5.0=2
8-5.0=3
9-5.0=4
10-5.0=5
0
Columna 3
( xi  x ) 2
25
16
9
4
1
0
1
4
9
16
25
110
 (x  x)
2
i
n 1
Columna 4
xi 2
0
1
4
9
16
25
6
49
64
81
100
385
1. Calcule la media (primera columna)
x
x
i
n

55
 50
.
11
2. Reste la media de cada observación para encontrar las desviaciones de la media
(columna 2)
3. Eleve al cuadrado las desviaciones de la media (columna 3) ( xi  x ) 2
4. Sume las desviaciones elevados al cuadrado (columna 3) (xi -x)2 = 110
39
5. Divida la suma de las desviaciones elevadas al cuadrado por n-1 para encontrar la
varianza:
 ( xi  x )2  110  110  110.
n 1
11  1 10
6. Saque la raíz cuadrada de la varianza para encontrar la desviación estándar
desviación estándard = s = s2  11  33
.
Ejemplo
Se utilizará la fórmula alternativa para calcular la varianza y la desviación estándar
de los datos del ejemplo anterior.
Fórmula
n xi  ( xi ) 2
Varianza  s 
n(n  1)
2
2
xi
0
1
2
3
4
5
6
7
8
9
10
55
desviación estándard = s = s2
xi 2
0
1
4
9
16
25
6
49
64
81
100
385
1. Para calcular el término xi2 en la fórmula, hay que elevar al cuadrado cada
observación y encontrar la suma de los cuadrados (ver la segunda columna, xi2, en el
cuadro de arriba).
xi2 = 385
2. Para calcular el término (xi)2 en la fórmula, hay que encontrar la suma de las
observaciones y elevarlas al cuadrado (ver la primera columna de el cuadro de
arriba).
(xi2)=552 = 3025
3. Calcule el numerador:
40
n xi  (  xi ) 2 = (11) (385) - 3025 = 4235 - 3025 = 1210
2
4. Para calcular el denominador, hay que restar 1 de n y multiplicar el resultado por
n:
n(n - 1) = 11 (11-1) = 11 x 10 = 110
5. Para completar el cálculo de la varianza hay que dividir el denominador entre el
numerador:
S2 = 1210 / 110 = 11.0
6. Para completar el cálculo de la desviación estándar, hay que sacar la raíz cuadrada
a la varianza:
desviación estándard = s = s2  11  33
.
Para ilustrar las relaciones entre la desviación estándar, la media y la curva normal,
hay que considerar los datos con una distribución normal, como en la figura 3,9. Se
encuentra el 68,3% del área por debajo de la curva normal dentro la media y +/- una
desviación estándar, es decir, entre una desviación por debajo de la media y una por
encima. Además, se encuentra el 95,5% del área entre la media y +/- dos
desviaciones estándares, y el 99,7% entre la media y +/- 3 desviaciones estándares.
Se encuentra el 95% del área entre la media y +/- 1.96 desviaciones estándares.
Figura 3.9
Áreas bajo la curva normal que yacen entre 1, 2 y 3 desviaciones estándar
a cada lado de la media
68.3% de los datos
95.5% de los datos
99.7% de los datos
-3 DE
-2DE
-1 DE
Media
+1DE
+2DE
+3DE
41
42
Referencias
1.
Center for Disease Control. Health status of Vietnam veterans. Volume 3:
Medical Examination. 1989.
2.
Matte TD, Figuera JP, Ostrowski S, et al. Lead poisoning among
household members exposed to lead-acid battery repair
shops in Kingston,
Jamaica. Int J Epidemiol 1989; 18: 874-881.
3.
National Center for Health Statistics. Advance Report of Final Mortality
Statistics, 1987. Monthly Vital Statistics Report, Vol 38 no. 5 Supplement.
Hyattsville, MD, PHS 1989. p.21.
43
Documentos relacionados
Descargar