Unidad 3 Medidas de tendencia central y dispersión

Anuncio
Unidad 3
Medidas de tendencia central y dispersión
En epidemiología se utiliza una gran variedad de métodos para resumir los datos. En la
Unidad 2 aprendió acerca de las distribuciones de frecuencia, las relaciones, las proporciones
y las tasas. En esta Unidad aprenderá acerca de las medidas de localización central y de
dispersión. Una medida de tendencia central es un valor único que representa mejor
características tales como la edad o el peso de un grupo de personas.
Una medida de dispersión cuantif ica cuanto varían las personas entre sí y en relación a la
medida de tendencia central con respecto a la característica estudiada. Diversas medidas de
localización central y de dispersión aparecen descritas en esta unidad. Cada medida tiene su
lugar a la hora de resumir los datos de salud pública.
Objetivos
Después de preparar y entender éste módulo y responder las preguntas de los ejercicios, un
estudiante será capaz de:
1. Calcular e interpretar las siguientes medidas de tendencia central:
• media aritmética
• mediana
• moda
• media geométrica
2.-
Escoger y aplicar la medida de tendencia central apropiada.
3.-
Calcular e interpretar las siguientes medidas de dispersión:
• rango
• rango intercuartílico
• varianza
• desviación estándar
• intervalos de confianza (para la media)
4.-
Escoger y aplicar la medida de dispersión apropiada.
*Usted puede requerir de una calculadora de mano y cuadros con valores de logaritmos para los
ejercicios de esta unidad.
156
Discusión adicional sobre las distribuciones de frecuencias
Intervalo de clase
En la unidad dos se habla sobre la distribución de frecuencias, los cuadros muestran los valores que
una variable puede tomar y el número de observaciones con cada valor. Cuando la variable toma un
número limitado de valores (por ejemplo 8 o 10) se pueden enumerar individualmente; cuando las
variables toman más de 10 valores, normalmente se agrupan; éstos grupos de valores son llamados
intervalos de clase. Una distribución de frecuencia con intervalos de clase usualmente tiene de 4 a 8
intervalos. El cuadro 3.1a muestra la frecuencia y distribución de una variable, (vasos de agua
promedio consumidos en una semana) con 8 intervalos de clase.
Note en el cuadro 3.1a que las categorías de agua consumida son mutuamente excluyentes, esto es
que el primer intervalo de clase incluye 0 y 1 vasos con agua, el segundo intervalo incluye 2 y 3
vasos y así sucesivamente. Cuando se introducen los datos en una distribución de frecuencia, es
importante decidir cómo tratar los datos decimales. Por ejemplo, ¿dónde se colocaría a una
persona que dice tomar 1.8 vasos de agua?
Cuando se introducen datos decimales en una distribución de frecuencia se pueden seguir éstas
reglas:
1.-
Si un decimal es mayor que 0.5 aproxímelo al número superior (6.6 a 7)
2.-
Si un decimal es menor que 0.5 aproxime al número inferior (6.4 a 6)
3.-
Si el decimal es 0.5 entonces aproxímelo al valor par más próximo (p. ej., 5,5 y 6,5 a 6).
De acuerdo con éstas reglas se puede colocar a una persona que toma 1.8 vasos de agua al día en
la categoría 2-3 de El cuadro 3.1a. Entonces la categoría de 2-3 vasos realmente cubre todos los
valores desde 1.5 hasta 3.499 vasos de agua. Estos límites son llamados los límites verdaderos del
intervalo.
Cuadro 3.1
Número promedio de vasos de agua consumidos por semana por los
residents del Municipio X, 1990
Número promedio de
Número de
vasos de agua por semana
Residentes
0-1
20
2-3
51
4-7
124
8-14
119
15-21
43
22-28
36
29-35
13
36-42
4
Total
410
157
El cuadro 3.1b muestra los límites verdaderos de los intervalos usados. Se puede ver allí que los
límites verdaderos del intervalo 15-21 son 14.5- 21.499... Es necesario conocer los límites
verdaderos de clase para calcular algunas de las medidas de tendencia central de una distribución
de frecuencia.
La edad y otras variables que involucran tiempo no pueden seguir reglas específicas de
aproximación. No es posible redondear la edad. Una persona tiene una edad determinada desde un
cumpleaños hasta el siguiente. Por ejemplo usted tiene 16 años hasta su cumpleaños 17, aún el día
antes. El cuadro 3.2 muestra una distribución de frecuencia de las muertes por suicidio por edad en
intervalos de clase. ¿Dónde registraría el registro la defunción por suicidio de alguien de 14 años y 7
meses? El suicidio debe ser colocado en el intervalo de 5-14 años.
Cuadro 3.1 b ?
Número promedio de vasos de agua consumidos por semana por los
residents del Municipio X, 1990
Número promedio de
Límites verdaderos de los
Número de
vasos de agua por semana
intervalos de clase
Residentes
0-1
2-3
4-7
8-14
15-21
22-28
29-35
36-42
Total
0,0-1,4999..
1,5-3,4999..
3,5-7,4999..
7,5-14,4999..
14,5-21,4999..
21,5-28,4999..
28,5-35,4999..
35,5-42,4999..
20
51
124
119
43
36
13
4
410
Cuadro 3.2
Distribución de defunciones por suicidio por grupo de edad,
Estados Unidos, 1987 ?.
Edad de la de función (años)
Número de Defunciones
0-4
5-14
15-24
25-34
35-44
45-54
55-64
65-74
75-84
85+
Total
0
251
4924
6655
5132
3707
3650
3428
2402
634
30783
Fuente: 3
158
De esta forma, se muestra su distribución de frecuencia, sin embargo, también se puede presentar
ésta información mediante gráficas. Por ejemplo, la figura 3.1 muestra la distribución del cuadro
3.2. en forma de gráfica.
Número de Defunciones
Fura 3.1
Distribución de frecuencia de suicidios
por grupo etario, Estados Unidos, 1987
Edad de la defunción
Fuente: 3
Propiedades de las distribuciones de frecuencias
Cuando se grafica una distribución de datos a menudo se obtiene una gráfica como la de la figura
3.2 con una gran parte de las observaciones agrupadas alrededor de un valor central; ésta
agrupación se conoce como localización central o tendencia central de una distribución de
frecuencias. El valor hacia el cual se aproxima la distribución es una característica importante; una
vez conocida, se puede usar para caracterizar todos los datos en la distribución.
Es posible calcular un valor central por varios métodos y cada uno puede producir un valor
diferente. El valor central que resulta de cualquiera de éstos métodos se conoce como medidas de
tendencia central. De las posibles medidas de tendencia central en epidemiología se usan
comúnmente 3: la media aritmética, la mediana y la moda. Las menos usadas son el rango medio y
la media geométrica.
La figura 3.3 muestra la gráfica de las tres distribuciones de frecuencia, idénticas en forma pero
diferentes en su medida de tendencia central.
159
Número de Trabajadores
Se discutirán las medidas de tendencia central con más detalle después de describir las otras
propiedades de las distribuciones de frecuencia como la variación y la dispersión, que muestran
cómo se aleja la distribución de su valor central. Algunas de las medidas de dispersión usadas en
epidemiología son el rango, la varianza y la desviación estándar. La dispersión de una distribución
de frecuencia es independiente de su localización central. Este hecho se ilustra en la figura 3.4 que
muestra la gráfica de tres distribuciones de frecuencia teóricas que tienen la misma tendencia central
con diferente dispersión.
Figura 3.2
Gráfica de distribución de frecuencias con una gran parte de las
observaciones conglomeradas alrededor del valor central
Tallas de los trabajadores en pulgadas
Una tercera propiedad de la distribución de frecuencia es la forma. Las gráficas de las distribuciones
teóricas en las figuras 3.2 y 3.3 son completamente simétricas. Las distribuciones de frecuencia de
algunas características de la población humana tienden a ser asimétricas. Por otra parte, la gráfica
de los datos de suicidio (figura 3.1) es asimétrica. Una distribución asimétrica quiere decir que está
desviada.
Una distribución que tiene una localización central hacia la izquierda y que la cola está a la derecha
se dice que está sesgada a la derecha o positivamente sesgada. En la figura 3.5 la distribución A
está sesgada a la derecha. Una distribución que tiene la localización central a la izquierda es una
curva sesgada a la izquierda o negativamente sesgada. En la figura 3.5 la distribución C está
negativamente sesgada. ¿Cómo describiría la forma de la distribución de los suicidios de la figura
3.1?
160
Frecuencia
Figura 3.3
Tres curvas de forma idéntica con tres localizaciones centrales
Variable x
Frecuencia
Figura 3.4
Tres curvas con la misma localización central
pero diferente dispersión
Variable x
La distribución de frecuencia de las defunciones por suicidio de la figura 3.1 esta sesgada
positivamente, es decir a la derecha.
El agrupamiento simétrico de los valores alrededor de una tendencia de localización central es
típicamente lo que se llama una distribución normal. La curva con la figura de una campana es el
resultado de representar en una gráfica una distribución normal. Esta distribución en forma de
campana es la base de muchas pruebas de inferencia que se usan para sacar conclusiones o
161
Frecuencia
generalizar los datos. Para usar estas pruebas los datos deberían tener una distribución normal, es
decir, deberían dibujar una curva normal si se representaran gráficamente.
Figura 3.5
Tres curvas con sesgos diferentes
Frecuencia
Variable x
Figura 3.6
Curva normal
Notación estadística
Antes de proseguir, le sugerimos que revise la notación estadística usada en la unidad y que se
describe en el cuadro 3.3. A lo largo de la unidad, incorporaremos el uso de ésta notación en una
nota al calce de la página. El apéndice B contiene la hoja de referencia de fórmulas que resumen
todas aquellas revisadas en esta unidad.
162
Cuadro 3.3.
Notación estadística utilizada en esta unidad
Observación individual:
Una letra usualmente X o Y se usa para representar una variable
particular, como por ejemplo:la paridad. Una observación individual
en una serie de datos se representa por Xi.
Número de observaciones: La letra n o N se usa para representar el número de observaciones
de una serie de datos. La letra fi (para una frecuencia individual) se
utiliza para representar con qué frecuencia aparece un valor en al
serie de datos.
Multiplicación:
Cuando los valores se escriben juntos, por ejemplo, XY significa
que se multiplica el valor de X por el de Y.
Paréntesis:
Los paréntesis se usan:
• Para indicar multiplicación, por ejemplo (X)(Y) quiere
decir que se multiplica X por Y.
• Para demostrar que lo que está en el paréntesis debe ser
tratado como términos separados por ejemplo (X+Y)2
significa que se debe sumar a X el valor de Y luego
elevar al cuadrado el valor de la adición.
Se usa la letra griega mayúscula Σ para indicar que una lista de
Sumatoría:
números debe ser sumada; por ejemplo, se desea indicar que se
debe sumar la paridad usada en el Ejercicio 2.1. Se deberían listar
los números individualmente:
0+2+0+0+1+3+1+4+1+8+2+2+0+1+3+5+1+7+2.
Esto es ineficiente aún con una lista corta de números. En cambio se
puede usar esta notación estadística:
i = 19
∑x
i=1
i
Esta notación se lee: sumatoría de los X desde i=1 hasta i=19. Aún
puede ser más corta así: xi se lee como la sumatoria de los xi
Medidas de tendencia central
Se calcula una medida de tendencia central cuando se necesita un valor único que resuma una serie
de datos; por ejemplo: si se presentara la información de las muertes por suicidio en los Estados
Unidos en 1987, se puede decir que la edad mediana de las personas que cometieron suicidio fue
de 41.9 años.
La mejor medida en cada caso particular, depende tanto de las características de la distribución, así
como de la forma y del uso que se quiera dar a la medida.
163
La media aritmetica
Es la medida de tendencia central con la cual probablemente esté usted mas familiarizado es la
media aritmética; se conoce también como media o promedio; se representa como x y se conoce
como "x barra"; la fórmula para calcularla es:
media = x =
∑x
i
n
Se lee así: la media es igual a “la suma de las x’s dividido por n”.
Ejemplo:
En un brote de hepatitis A, 6 personas iniciaron síntomas 24 a 31 días después de la exposición.
Calcule el promedio del período de incubación en éste brote; los períodos de incubación para las
personas afectadas (Xi) fueron:
29,31,24,29,30 y 25
1.Para calcular el numerador sume las observaciones individuales
Σ x= 29+31+24+29+30+25= 168
2.- Para calcular el denominador cuente el número de las observaciones: n=6
3.Para calcular la media divida el numerador sumatoría de las observaciones) entre el
denominador (numero de las observaciones).
media = x =
29 + 31 + 24 + 29 + 30 + 25 168
=
= 28 días
6
6
Entonces, el promedio del período de incubación del brote es 28 dias.
164
Ejemplo
En una lista de 5 variables para 11 personas. Vamos a demostrar como se calcula la media de cada
variable (A-E) en el listado. (Fíjese que este listado de variables, A, B, C, D y E, será utilizado a lo
largo de esta unidad en otros ejemplos y ejercicios).
Persona #
1
2
3
4
5
6
7
8
9
10
11
Variable A
Variable B
Variable C
Variable D
Variable E
0
0
1
1
1
5
9
9
9
10
10
0
4
4
4
5
5
5
6
6
6
10
0
1
2
3
4
5
6
7
8
9
10
0
1
1
2
2
2
3
3
3
4
10
0
6
7
7
7
8
8
8
9
9
10
1.
Para calcular el numerador, sume todas las observaciones individuales:
A. Σ xi = 0+0+1+1+1+5+9+9+9+10+10 = 55
B. Σ xi = 0+4+4+4+5+5+5+6+6+6+10 = 55
C. Σ xi = 0+1+2+3+4+5+6+7+8+9+10 = 55
D. Σ xi = 0+1+1+2+2+2+3+3+3+4+10 = 31
E. Σ xi = 0+6+7+7+7+8+8+8+9+9+10 = 79
2.- Para calcular el denominador cuente el número de observaciones (n=11) para cada variable.
3.- Para calcular la media, divida el numerador (suma de las observaciones) entre el denominador
(número de las observacione s).
Media de la variable A= 55/11= 5
Media de la variable B= 55/11= 5
Media de la variable C= 55/11= 5
Media de la variable D= 31/11= 2.82
Media de la variable E= 79/11= 7.18
Ejercicio 3.1: Calcule el promedio de la paridad con los siguientes datos:
0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1.
Respuesta en la página 200
165
Se usa la media aritmética más que cualquier otra medida de localización central porque tiene
propiedades estadísticas deseables; una de éstas es la propiedad de centrar la media. Se puede
demostrar ésta propiedad con el ejemplo del brote de hepatitis A. En El cuadro al tomar el valor de
los períodos de incubación y restarle la media al sumar las diferencias debe dar 0. Esto demuestra
que la media es el centro de la distribución.
Valor menos la media
24-28
25-28
29-28
29-28
30-28
31-28
168-168.0=0
Diferencia
-4
-3
+1.0
+1.0
+2.0
+3.0
-7+7=0
Gracias a ésta propiedad, a la media se le llama "el centro de gravedad" de una distribución de
frecuencias. Esto significa que la media actúa como el punto de apoyo en una balanza, como se ve
en la figura 3.7.
Figura 3.7
La media es el centro de gravedad de la distribución
Aunque la media es una excelente medida de resumen de una serie de datos, éstos deben seguir una
distribución aproximadamente normal. La media es muy sensible a valores extremos que sesgan la
distribución. Por ejemplo, si en vez del 31 de la lista anterior, tuviéramos un 131 la media cambiaría
de 28.0 a 44.7
24+25+29+29+30+131 = 44.7
6
La media de 44.7 es el centro de gravedad para esos datos, pero para propósitos prácticos es
poco representativa de éstos. Como resultado, la media es mayor que todos los valores a
166
excepción del valor extremo. Por ser muy sensible a valores extremos, la media es una medida
resumen muy pobre para datos que están gravemente sesgados en cualquier dirección.
La mediana
Otra medida de tendencia central es la mediana; como se verá es especialmente útil cuando los
datos están sesgados.
Mediana significa a la mitad y la mediana es el valor a la mitad de una serie de datos que han sido
colocados en orden. Específicamente, la mediana es el valor que divide una serie de datos en dos
mitades con una mitad de las observaciones mayores que ésta y la otra mitad menores a la mediana.
Por ejemplo al tener los siguientes datos de tensiones arteriales sistólicas:
110,120,122,130,180 mm de Hg.
En este ejemplo, hay dos observaciones mayores y dos menores que 122, luego entonces, la
mediana es 122 mm de Hg, el valor de la 3ª observación. Al obtener la media (132) ésta seria
mayor que 4 de los 5 valores.
Cómo identificar la mediana de datos individuales
1.-
Ordene los datos de menor a mayor o viceversa
2.-
Encuentre el rango medio con la siguiente fórmula
Rango mediano= (n+1)
2
a.
Si el número de observaciones (n) es impar el rango medio cae en una observación.
n es par el rango medio cae entre dos observaciones.
3.-
Identifique el valor de la mediana
a.
Si el rango medio cae en una observación específica (n=impar) la mediana es igual al valor
de ésta observación.
b.
Si el rango medio cae entre dos observaciones (n=par) la mediana es igual al promedio
(media aritmética) del valor de estas observaciones.
Ejemplo con número impar de observaciones:
n=5: 13,7,9,15,11
1.-
Ordenar de mayor a menor: 7,9,11,13,15.
167
o viceversa: 15,13,11,9,7.
2.-
Encontrar el rango mediano
Rango mediano = (n+1) = 5+1 = 3
2
2
Entonces, el rango medio cae en el valor de la 3a observación.
3.- Identificar el valor de la mediana que es igual al valor de la tercera observación=11
Ejemplo con numero par:
n=6: 15,7,13,9,10,11
1.-
Ordenar los datos 7,9,10,11,13,15
2.-
Encontrar el rango medio
Rango mediano = (n+1)= 6+1 = 3.5
2
2
Entonces, el rango medio cae entre el valor de la 3a y la 4a observación.
3.-
Identificar el valor de la mediana que es igual al promedio de la 3a y 4a observación
Mediana = 11+10 = 10.5
2
En contraste con la media, la mediana no está influenciada por valores extremos.
Ejemplo: A 24,25,29,30,31 Media 28.0 mediana 29
B 24,25,29,30,131 Media 44.7 mediana 29
Se observa cómo una observación altera la media pero no cambia la mediana, entonces se prefie re
la mediana como medida de tendencia central cuando los datos están desviados en cualquier
dirección o cuando los datos incluyen valores extremadamente grandes o pequeños.
168
Ejemplo
A
0 0 1 1 1 5 9 9 9 10 10
B
0 4 4 4 5 5 5 6 6
6 10
C
0 1 2 3 4 5 6 7 8
9 10
D
0 1 1 2 2 2 3 3 3 4 10
E
0 6 7 7 7 8 8 8 9 9 10
1.-
Organice las observaciones en orden creciente (ya está hecho)
2.-
Encuentre el rango medio de las observaciones
(11 observaciones + 1)/2 =12/2=6
3.-
Identifique el valor de la mediana que es el de la 6a observación:
La mediana para las variables A, B y C es 5;
La mediana para la variable D es 2;
La mediana para la variable E es 8;
169
Ejercicio 3.2: Calcule la mediana de los siguientes datos:
0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1.
Respuesta en la página 200
En contraste con la media, la mediana no está influida en el mismo grado por los valores extremos.
Las dos siguientes series de datos son idénticas excepto por la última observación:
Juego A:24,25,29,29,30,31 media: 28 mediana: 29
Juego B:24,25,29,29,30,131 media: 44.7 mediana: 29
Aquí la diferencia en una observación altera la media considerablemente, pero no hay cambio en
la mediana. Entonces la mediana se prefiere con respecto a la media al ser una medida de tendencia
central para los datos que están desviados en una dirección u otra, o datos con unos valores
extremadamente grandes o pequeños.
La moda
La moda es el valor que ocurre más frecuentemente en una serie de datos; por ejemplo en los
siguientes datos, la moda es 1 por que ocurre 4 veces, más que cualquier otro valor.
0,0,1,1,1,1,2,2,2,3,4,6.
Finalmente, se encuentra la moda como una distribución de frecuencia en la cual se ve cuántas veces
ocurre un valor. Si se encuentra que cada valor ocurre solo una vez, entonces ésta distribución
carece de moda, o si se advierte que 2 o más valores son los más comunes, entonces tiene más de
una moda.
170
Ejemplo:
En este ejemplo demostraremos los pasos para que encuentre la moda utilizando los siguientes
datos: 29,31,24,29,30,25 días.
1.- Organice los datos en una distribución de frecuencia, mostrando los valores de la variable (xi) y
la frecuencia fi cada vez que el valor ocurra:
xi
24
25
29
30
31
fi
1
1
2
1
1
2.- Identifique el valor que ocurre más frecuentemente: 29: la moda es 29.
Ejemplo
Demostraremos como encontrar la moda del siguiente conjunto de datos:
15,9,19,13,17,11.
1.- Organice los datos en una distribución de frecuencia:
xi
9
11
13
15
17
19
fi
1
1
1
1
1
1
2.- Identifique el valor que ocurre más frecuentemente; como todos los valores tienen la misma
frecuencia no hay moda para esta distribución de datos.
171
Ejemplo
Demostraremos cómo encontrar la moda utilizando los datos siguientes:
17, 9, 15, 9,17,13.
1.-
Organice los datos en una distribución de frecuencia:
xi
9
13
15
17
fi
2
1
1
2
2.Identifique el valor que ocurre más frecuentemente; los valores 9 y 17 tienen la misma
frecuencia ya que ocurren 2 veces. Esta distribución de datos es bimodal.
Ejercicio 3.3: Calcule la moda de los siguientes datos de paridad:
0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1.
Respuesta en la página 200
El rango medio (punto medio de un intervalo)
El rango medio es el punto de la mitad o punto medio de una serie de observaciones. Para muchos
tipos de datos, se calcula sumando la observación más pequeña con la más grande dividido por
dos; para datos de edad, se suma uno al numerador. El rango medio se calcula usualmente como el
paso intermedio en la determinación de otras medidas.
172
Las fórmulas para calcular el rango medio de una serie de observaciones son:
Rango medio ( para la mayoría de los tipos de datos)= (X1 + Xn)
2
Rango medio (datos de edad)= (X1 + Xn + 1)
2
Ejemplo
En éste ejemplo se demuestra cómo se halla el rango medio de éstas 5 variables (no se trata de
datos de edad)
A
B
C
D
E
0
0
0
0
0
0
4
1
1
6
1
4
2
1
7
1
4
3
2
7
1
5
4
2
7
5
5
5
2
8
9
5
6
3
8
9
6
7
3
8
9
6
8
3
9
10
6
9
4
9
10
10
10
10
10
1.-
Organice las observaciones en orden ascendente (ya está hecho).
2.-
Identifique el valor más pequeño y el más grande: 0 y 10 para todas las distribuciones.
3.-
Calcule el rango medio: (0+10)/2= 10/2= 5 para todas las distribuciones.
La edad difiere de la mayoría de otras variables porque no puede ser redondeada.. Alguien que
tiene 17 años y 360 días de edad no puede pasar por alguien de 18 años de edad sino cinco días
después. Considere el siguiente ejemplo:
En una escuela de preescolares, los niños fueron asignados a los salones con base en la edad que
tenían a septiembre 1. En el salón 2 estaban los niños que tenían por lo menos 2 años pero no
alcanzaban a tener 3 años el 1 de septiembre. (todos los niños en el salón 2 tenían 2 años el primero
de septiembre). Cual es el rango medio de las edades de los niños en el salón 2 el primero de
septiembre?
Para propósitos descriptivos, se podría decir que la respuesta apropiada es que el rango medio es
2. Sin embargo, como se dijo, el rango medio es calculado como un paso intermedio para obtener
otras medidas. Entonces, es necesario ser mas precisos; considere que algunos de los niños pueden
tener 2 años justos, otros pueden estar cerca de los 3 años, ignorando la tendencia estacional de los
nacimientos y asumiendo que los cumpleaños pueden estar distribuidos uniformemente a lo largo del
año; los niños más jóvenes pueden cumplir el 1 de septiembre y tener exactamente 2.0 años, el niño
mayor puede cumplir años en septiembre y tener 2.97 años. Para propósitos estadísticos la media y
el rango medio de éste grupo teórico es de 2.5 años, así:
173
Rango medio (para datos de edad) = (2+2+1) = 2.5
2
La media geométrica
Como se ha visto la media es una excelente medida de resumen para los datos que están cerca de
una distribución normal; algunas veces, se recogen datos que no están normalmente distribuidos
pero que tienen un patrón exponencial (1,2,4,8,16 etc) o patrón logarítmico (1/2, 1/4, 1/8, 1/16
etc). Por ejemplo para determinar cuantos anticuerpos están presentes en el suero, se diluyen
secuencialmente las muestras al 50% hasta que no se pueden detectar más anticuerpos. La primera
muestra que tiene el suero sin diluir tendrá el mayor título de anticuerpos, luego se diluye al 50%, y
queda con la mitad de los anticuerpos que había en la muestra original. Y así, sí se continúaasí sí se
continua diluyendo al 50%, la cantidad de anticuerpos irá disminuyendo a 1/4, 1/8, 1/16 y así
sucesivamente. Algunas veces se puede decir que estas diluciones están medidas en una escala
logarítmica; una medida de resumen para estos datos es la media geométrica.
La media geométrica es un promedio de la serie de datos medidos en escala logarítmica. Considere
que el valor de 100 y la base de 10 es el poder en que se basa éste incremento. ¿Cual será la
potencia necesaria para elevar en base 10 para obtener un valor de 100? 10 veces 10 o 10 2 igual a
100, el logaritmo de 100 en base 10 es = 2. De igual modo, el logaritmo de 16 en base 2 es
igual a 4 o 24= 2*2*2*2=16
Un antilogaritmo eleva la base a la potencia (logaritmo). Por ejemplo el antilog de 2 en base 10 es
10 2 o 100.
El logaritmo de 4 en base 2 es 2 4 o 16. La mayoría de los títulos son reportados como múltiplos de
2 (2,4,6,8 etc) entonces, es más fácil usar base 2.
La media geométrica se calcula con base en la raíz enésima del producto de n observaciones. La
media geométrica es usada cuando los logaritmos de las observaciones se distribuyen normalmente
más que las observaciones por si mismas. Esta situación es típica cuando se hacen diluciones, como
en la detección de anticuerpos en el suero y muestreos ambientales.
Formula para calcular la media geométrica de datos individuales
Media geométrica = Xgeo =
x1 * x2 *... xn
En la práctica la media geométrica se calcula así:
Media geométrica = Xgeo = antilog (
1
∑ Log xi )
n
174
Ejemplo
En este ejemplo se demuestra cómo se calcula la media geométrica en la siguiente serie de datos:
10, 10, 100, 100, 100, 100, 10.000, 100.000, 100.000, 1.000.000
Estos valores son todos múltiplos de 10, puede ser adecuado para usar logaritmos en base 10.
Recuerde que:
10 0 = 1 (cualquier número elevado a la potencia 0=1)
10 1 = 10
10 2 = 100
10 3 = 1,000
10 4 = 10,000
10 5 = 100,000
10 6 = 1,000,000
10 7 = 10,000,000
y así sucesivamente.
1.tome el logaritmo ( en éste caso en base 10 ) para cada valor:
log10 (Xi)= 1,1,2,2,2,2,4,5,5,6.
2.calcule el promedio de los valores de log sumando y dividiendo
por el número de
observaciones (en este caso 10) media de log10
(Xi) =(1+1+2+2+2+2+4+5+5+6)/10=
30/10=3
3.- tome el antilogaritmo de la media de los valores de logaritmo, que da la media geométrica.
antilog10 (3) = 10 3 = 1,000
La media geométrica de la serie de datos es 1,000.
175
Ejercicio 3.4
Usando los títulos dados calcule la media geométrica de los títulos de anticuerpos contra el virus
sincitial respiratorio en 7 pacientes
No
1
2
3
4
5
6
7
dilución
1:256
1:512
1:4
1:2
1:16
1:32
1:64
título
256
512
4
2
16
32
64
Como estos títulos son múltiplos de 2, se usa la fórmula de log. con base 2
21 = 2
22 = 4
23 = 8
2 4 = 16
2 5 = 32
2 6 = 64
2 7 = 128
2 8 = 256
2 9 = 512
Respuesta en la página 200.
En resumen, las medidas de tendencia central son valores únicos que resumen los valores
observados de una variable continua. La medida más común de tendencia central es la media
aritmética, que la gran mayoría de personas llama el promedio. La media aritmética es más usada
cuando los datos se distribuyen normalmente representando el centro de gravedad de una serie de
datos; desafortunadamente, la media aritmética es demasiado sensible hacia los valores extremos.
Por fortuna, la mediana no es sensible a los valores extremos; la mediana representa la mitad de
los datos, con la mitad de las observaciones debajo y la mitad encima de la mediana. Cuando una
serie de datos está desviada o tienen valores extremos en una dirección, la mediana es la medida de
tendencia central a elegir.
La moda es simplemente el más común de los valores que toma una variable. Mientras cada serie
de datos tiene una y solo una media aritmética y una mediana puede tener una o varias modas o
carecer de ella. Como medida de tendencia central la moda es útil si estamos interesados en
conocer cuál es el valor más frecuente.
176
La media geométrica es la medida preferida cuando los datos tienen un patrón exponencial o
logarítmico. La media geométrica se usa muy comúnmente con los datos de laboratorio,
particularmente con muestras de suero que requieren ser diluidas y muestras ambientales.
Medidas de dispersión
Cuando se observa una gráfica de una distribución de frecuencias, normalmente se pueden ver dos
hallazgos primarios:
1.-
la gráfica tiene un pico, habitualmente cerca del centro.
2.-
se dispersa hacia uno y otro lado del pico. Así como usamos una medida de tendencia
central para describir dónde está el pico, también se usa una medida de dispersión para
describir cuánto se dispersa ésta distribución. Se pueden usar varias medidas de dispersión.
Rango, valor mínimo y valor máximo
El rango de una serie de datos es la diferencia entre el valor mayor y el menor. En el argot
epidemiológico el rango se describe como un solo número: la diferencia entre el menor y el mayor
valor.
Ejemplo:
En éste ejemplo se demuestra cómo se encuentran los valores mínimo y máximo y el rango de los
siguientes datos: 29,31,24,29,30,25.
1.- Organice los datos de menor a mayor:
24,25,29,29,29,30,31;
2.- Identifique los valores mínimo y máximo:
mínimo=24 y máximo=31
3.- Calcule el rango:
rango = máximo - mínimo =31-24=7;
entonces el rango es igual a 7.
177
Ejemplo
Persona #
Variable A
Variable B
Variable C
Variable D
Variable E
1
2
3
4
5
6
7
8
9
10
11
Suma
0
0
1
1
1
5
9
9
9
10
10
55
0
4
4
4
5
5
5
6
6
6
10
55
0
1
2
3
4
5
6
7
8
9
10
55
0
1
1
2
2
2
3
3
3
4
10
31
0
6
7
7
7
8
8
8
9
9
10
79
Media
5
5
5
2.8
7.2
Mediana
5
5
5
2
8
Rango medio
5
5
5
5
5
Mínimo
0
0
0
0
0
Máximo
10
10
10
10
10
1.- Organice los datos (ya realizado).
2.- Identifique los valores mínimos y máximo y calcule la diferencia:
máximo valor de cada variable = 10
mínimo valor de cada variable = 0
Entonces, el rango de cada variable es 10-0=10.
El valor de las variables A, B, y C son obviamente diferentes, pero la media, mediana, los valores
máximo y mínimo y el rango no permiten ver diferencias. Para las variables D y E el rango medio,
los valores máximo y mínimo y el rango tampoco sirven para mostrar diferencias en las variables.
178
Percentiles, cuartiles y rangos intercuartílicos
Consideremos el valor máximo de una distribuciónde otra manera: como el valor que tiene el 100%
de las observaciones por debajo de él y ahora denominémoslo el percentil 100 . Desde la misma
perspectiva, la mediana, es el valor que tiene el 50% de las observaciones por debajo de el o
también llamado el percentil 50. El percentil "n-ésimo" es el valor que tiene el "n%" de las
observaciones por debajo.
Los percentiles más comunes son los percentiles 25, 50 y 75. El percentil 25 demarca el primer
cuartil, el percentil 50 el segundo cuartil, el percentil 75, el tercer cuartil y el percentil 100, el
cuarto cuartil.
El rango intercuartílico representa la porción central de una distribución, y se calcula como la
diferencia entre el tercer cuartil y el primero. El rango incluye aproximadamente la mitad de las
observaciones en la serie, dejando aproximadamente 25% de las observaciones por debajo o por
encima.
Como calcular el rango intercuartílico de los datos individuales.
Para calcular el rango intercuartílico, primero hay que encontrar el tercer y el primer cuartil. Como
cuando se calcula la mediana, primero hay que poner las observaciones en orden y luego determinar
la posición del cuartil. El valor del cuartil es el valor de la observación en esta posición o, si el cuartil
se encuentra entre dos observaciones, es el valor entre las observaciones.
1. Organice las observaciones en orden ascendente.
2. Encuentre la posición del primer y el tercer cuartil usando las siguientes fórmulas:
posición del primer cuartil (Q1) = (n + 1) / 4
posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1
3. Identifique el valor del primer cuartil y el tercer cuartil.
•
•
si el cuartil se encuentra en una observación (es decir, su posición es sobre un número
entero), el valor del cuartil es el valor de esta observación. Por ejemplo, si la posición
del cuartil es 20, el valor es el de la observación número 20.
si el cuartil se encuentra entre dos observaciones, el valor de éste es el valor de la
observación menor, más la fracción de las diferencias entre las dos observaciones; Por
ejemplo, si la posición de la observación es 20 1/4, se encuentra entre la observación
20 y la observación 21, y su valor es el valor de la observación 20, más 1/4 la
diferencia entre el valor de las observaciones 20 y 21.
4. Calcule el rango intercuartílico entre Q3 y Q1.
179
Figura 3.8
La mitas de las observaciones en una distribución
de frecuencia yace en el rango intercuartilar
Mediana
Valor mas Percentil 25 Percentil 50 Percentil 75 Valor mas
Pequeño
Grande
Intervalo Intercuartíilico=Q3-Q1
Ejemplo.
1. Organice las observaciones en orden ascendente.
Dados estos datos: 13, 7, 9, 15, 11, 5, 8, 4,
hay que organizarlos así: 4, 5, 7, 8, 9, 11, 13, 15.
2. Encuentre la posición del primer y el tercer cuartil. Dado que hay 8 observaciones, n=8.
posición del primer cuartil (Q1) = (n + 1) / 4
= (8 + 1) / 4 = 2.25
180
posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1
3(8 + 1) / 4 = 6.75
Así, se encuentra Q1 (1/4) de las observaciones entre 2 y 3 y Q3 (3/4) entre las observaciones
entre 6 y 7.
3. Identifique el valor del primer y el tercer cuartil.
Valor de Q1: La posición de Q1 es 2 1/4; así, el valor de Q1 es el valor de la observación 2 más
1/4 de la diferencia entre los valores de las observaciones 2 y 3.
Valor de la observación 3 (ver paso 1) : 7
Valor de la observación 2: 5
Q1 = 5 + 1/4( 7-5 ) = 5 + 1/4(2) = 5 + 0,5 = 5.5
Valor de Q3: La posición de Q1 es 6 3/4; así, el valor de Q3 es el valor de la observación 6 más
3/4 de la diferencia entre los valores de las observaciones 6 y 7.
Valor de la observación 7 (ver paso 1) : 13
Valor de la observación 6: 11
Q3 = 11 + 3/4( 13-11 ) = 11 + 3/4 (2) = 11 + 1.5 = 12.5
4. Calcule el rango intercuartílico como Q3 menos Q1.
Q3 = 12,5 (ver paso 3)
Q1 = 5,5
Rango intercuartílico = 12,5 - 5,5 = 7
Ejemplo:
En seguida se demuestra cómo se encuentra el primer, segundo y tercer cuartil y el rango
intercuartílico, de los períodos de incubación de la hepatitis A :
29, 31, 24, 29, 30, 25
1. Organice las observaciones en orden ascendente.
24, 25, 29, 29, 30, 31
2. Encuentre la posición del primer y el tercer cuartil.
posición del primer cuartil (Q1) = (n + 1) / 4
= (6 + 1) / 4 = 1,75
posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1
181
3(6 + 1) / 4 = 5,25
Así, se encuentraQ1 3/4 entre las observaciones 1 y 2 y Q3 1/4 entre las observaciones 5 y 6.
3. Identifique el valor del primer y el tercer cuartil.
Valor de Q1: La posición de Q1 es 1 3/4; así, el valor de Q1 es el valor de la observación 1 más
3/4 de la diferencia entre los valores de las observaciones 1 y 2.
Q1 = 24 + 3/4( 25-24 ) = 24 + 3/4 (1) = 24,75
Valor de Q3: La posición de Q3 es 5 1/4; así, el valor de Q1 es el valor de la observación 5 más
1/4 de la diferencia entre los valores de las observaciones 5 y 6.
Q3 = 30 + 1/4( 31-30 ) = 30 + 1/4 (1) = 30 + 0,25 = 30,25
Mediana = (n + 1) / 2 = 7/2 = 3,5.
Así la mediana es (29 + 29) / 2 = 29
4. Rango intercuartílico = 30,25 - 24,75 = 5,5 días
Fíjese que la distancia entre la mediana y Q1 es 29 - 24,75 = 4,25. En contraste, la distancia entre
la mediana y Q3 es solo 30,25 - 29 = 1,25. Esto indica que los datos se orientan hacía los números
más pequeños (orientados hacia la izquierda).
Este no es el único método para calcular los cuartiles. Otros métodos pueden producir resultados un
poco diferentes.
En general, se usan los cuartiles y el rango intercuartílico para describir la variabilidad cuando se
está usando la mediana como la medida de tendencia central. Cuando se está usando la media
aritmética, hay que usar la desviación típica.
El resumen de los datos de una distribución consiste en :
1) la observación mínima
2) el primer cuartil
3) la mediana
4) el tercer cuartil
5) la observación máxima.
En conjunto, estos valores forman una buena descripción del centro, la forma y la extensión de una
distribución. Se utilizan estos datos para dibujar un diagrama de cajas y bigotes.
182
Ejercicio 3,5
Determine el primer y el tercer cuartil y el rango intercuartílico de estos datos de paridad:
0, 3, 0, 7, 2, 1, 5, 2, 4, 2, 8, 1, 3, 0, 1, 2, 1
Respuestas en la página 201.
Varianza y desviación típica (o estándar)
Si se resta la media aritmética de cada observación, la suma de las diferencias es cero. Este
concepto de restar la media de cada observación es al base para dos medidas de dispersión, la
varianza y la desviación típica o estándar. Para estas medidas, hay que elevar al cuadrado las
diferencias para eliminar los números negativos. Después, se suma el cuadrado de las diferencias y
se divide por n-1 para encontrar la "media" de las diferencias al cuadrado. Esta "media" es la
varianza. Para convertir la varianza a las unidades originales, hay que obtener la raíz cuadrada. Se
denomina desviación típica .o estándar. a la raíz cuadrada de la varianza. Enseguida se realizarán
los cálculos con el ejemplo anterior.
Valor menos la media
24-28
25-28
29-28
29-28
30-28
31-28
168-168.0=0
Diferencia
-4
-3
+1.0
+1.0
+2.0
+3.0
-7+7=0
Diferencias al cuadrado
16
9
1
1
4
9
40
suma de las diferencias cuadráticas 40
=
=8
n− 1
5
Desvío estándar= 8 = 2.83
Varianza=
La varianza y la desviación estándar son medidas de la desviación o dispersión de las observaciones
alrededor de la media de la distribución. La varianza es la media de las diferencias cuadradas de las
observaciones alrededor de la media. Se representa como "S 2" en las fórmulas. La desviación
estándar es la raíz cuadrada de la varianza; se representa con "s". Las siguientes fórmulas definen
estas medidas:
183
Varianza = s2 =
∑( x − x )
∑ ( x − x)
2
2
i
desviación estándard =
n− 1
i
n− 1
Fórmulas para calcular la varianza y la desviacion típica de datos
individuales
Se pueden usar las fórmulas anteriores para calcular la varianza y la desviación estándar, pero son
incómodos de usar con grandes cantidades de datos. Las siguientes fórmulas son más útiles en este
caso porque no es necesario calcular la media primero.
n ∑ xi − (∑ xi ) 2
desviación estándard = s = s 2
Varianza = s =
n (n − 1)
Compare los dos términos, Σxi2 y ((Σxi)2 . El primero indica que hay que elevar al cuadrado cada
observación y sacar la suma de los valores cuadrados. El segundo indica que hay que sumar las
observaciones, y después elevar al cuadrado la suma.
2
2
Ejemplo
Se utilizarán las fórmulas definidas para calcular la varianza (S 2) para la variable C: 1, 2, 3, 4, 5, 6,
7, 8, 9, 10.
Varianza = s =
2
∑( x − x )
∑ ( x − x)
2
2
i
desviación estándard =
n− 1
Columna 1
xi
Columna 2
xi − x
0
1
2
3
4
5
6
7
8
9
10
55
0-5.0=-5
1-5.0=-4
2-5.0=-3
3-5.0=-2
4-5.0=-1
5-5.0=0
6-5.0=1
7-5.0=2
8-5.0=3
9-5.0=4
10-5.0=5
0
i
n− 1
Columna 3
( xi − x )2
25
16
9
4
1
0
1
4
9
16
25
110
1. Calcule la media (primera columna)
184
Columna 4
xi 2
0
1
4
9
16
25
6
49
64
81
100
385
x=
∑x
n
i
=
55
= 5.0
11
2. Reste la media de cada observación para encontrar las desviaciones de la media (columna 2)
3. Eleve al cuadrado las desviaciones de la media (columna 3) ( xi − x )2
4. Sume las desviaciones elevados al cuadrado (columna 3) Σ (xi -x)2 = 110
5. Divida la suma de las desviaciones elevadas al cuadrado por n-1 para encontrar la varianza:
∑ ( x − x)
i
n− 1
2
=
110 110
=
= 110
.
11 − 1 10
6. Saque la raíz cuadrada de la varianza para encontrar la desviación estándar
desviación estándard = s = s 2 = 11 = 3.3
Ejemplo
Se utilizará la fórmula alternativa para calcular la varianza y la desviación estándar de los datos del
ejemplo anterior.
Fórmula
n ∑ xi − (∑ xi ) 2
Varianza = s =
n (n − 1)
2
2
desviación estándard = s = s 2
xi 2
0
1
4
9
16
25
6
49
64
81
100
385
xi
0
1
2
3
4
5
6
7
8
9
10
55
185
1. Para calcular el término Σxi2 en la fórmula, hay que elevar al cuadrado cada observación y
encontrar la suma de los cuadrados (ver la segunda columna, xi2, en el cuadro de arriba).
Σxi2 = 385
2. Para calcular el término (Σxi)2 en la fórmula, hay que encontrar la suma de las observaciones y
elevarlas al cuadrado (ver la primera columna de el cuadro de arriba).
(Σ xi2)=552 = 3025
3. Calcule el numerador:
n ∑ xi − ( ∑ xi )2 = (11) (385) - 3025 = 4235 - 3025 = 1210
2
4. Para calcular el denominador, hay que restar 1 de n y multiplicar el resultado por n:
n(n - 1) = 11 (11-1) = 11 x 10 = 110
5. Para completar el cálculo de la varianza hay que dividir el denominador entre el numerador:
S2 = 1210 / 110 = 11.0
6. Para completar el cálculo de la desviación estándar, hay que sacar la raíz cuadrada a la varianza:
desviación estándard = s = s 2 = 11 = 3.3
Para ilustrar las relaciones entre al desviación estándar, la media y la curva normal, hay que
considerar los datos con una distribución normal, como en la figura 3,9. Se encuentra el 68,3% del
área por debajo de la curva normal dentro la media y +/- una desviación estándar, es decir, entre
una desviación por debajo de la media y una por encima. Además, se encuentra el 95,5% del área
entre la media y +/- dos desviaciones estándares, y el 99,7% entre la media y +/- 3 desviaciones
estándares. Se encuentra el 95% del área entre la media y +/- 1.96 desviaciones estándares.
Figura 3.9
Areas bajo la curva normal que yacen entre 1, 2 y 3 desviaciones estándar
a cada lado de la media
68.3% de los datos
95.5% de los datos
99.7% de los datos
-3 DE
-2DE
-1 DE
Media
186
+1DE
+2DE
+3DE
Se puede usar la media y la desviación estándar para describir, en forma breve, los datos de una
distribución normal. Por ejemplo, los niveles séricos del colesterol de una muestra representativa de
miles de hombres en su cuarta década. Se podría listar el nivel de colesterol de cada hombre, o
mostrar la frecuencia de la distribución, o simplemente reportar el valor medio y la desviación
estándar. Se muestra la frecuencia de la distribución en El cuadro 3,4. En resumen, la media es 213
y la desviación estándar es 42.
Cuadro 3.4
Niveles de colesterol sérico
Colesterol (mg/dL)
Frecuencia
60-79
80-99
100-119
120-139
140-159
160-179
2
7
25
86
252
559
810
867
764
521
318
146
66
22
7
4
2
1
1
0
1
0
1
4,462
180-199
200-219
220-239
240-259
260-279
280-299
300-319
320-339
340-359
360-379
380-399
400-419
420-439
440-479
480-499
500-619
620-639
Total
Fuente:1
Ejercicio 3.6
Calcule la desviación estándar de los datos de paridad que se muestran a continuación
0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1
Respuesta en la página 201.
187
Ejercicio 3.7
Observemos las variables A, B y C en la página 179, ¿Qué variable pareciera tener la menor
dispersión respecto a la media?. En otras palabras, ¿a que variable podría usted predecirle la
desviación estándar mas pequeña?
Para encontrar la respuesta, calcule la desviación estándar de las variales A y B. Hemos de
antemano determinado que la desviación estándar de C es 3.3 (vea la página 186). Compare las
medias y desviaciones estándar de estas tres variables.
Variable
A
B
C
Media
5
5
5
Desviación estándar
____________
____________
3.3
Respuesta en la página 202.
En resumen, las medidas de dispersión sirven para cuantificar la dispersión y la variabilidad de los
valores observados de una variable continua. La medida de dispersión más simple es el rango desde
el valor más pequeño hasta el valor más grande. El rango es bastante sensible a los valores extremos
en cualquier dirección.
Para los datos con una distribución normal, se utiliza la desviación estándar y la media aritmética. La
desviación estándar refleja la cercanía de los valores observados a la media . Para los datos con una
distribución normal, el rango desde "menos una desviación estándar" hasta "más una distribución
estándar" representa el 68.3% de los datos en la mitad de la distribución. Aproximadamente el 95%
de los datos están dentro del rango de -1,96 desviaciones estándares a +/- 1,96 desviaciones
estándares.
Para los datos no normales, se utiliza el rango intercuartílico y la mediana. El rango intercuartílico
representa el rango desde el percentil 25 (el primer cuartil) hasta el percentil 75 (el tercer cuartil),
más o menos el 50% de los datos del centro de la distribución.
188
Introducción a la inferencia estadística
A veces, se calculan las medidas de tendencia central y dispersión para describir unos datos
específicos. Sin embargo, otras veces, cuando los datos son de una muestra de una población más
grande, se quiere generalizar desde estos datos a la población total, es decir, inferir. Existen muchos
métodos estadísticos para este proceso. En esta sección, se mostrarán algunos de los métodos que
se pueden usar para inferir desde datos con una distribución normal.
Cuando se infiere desde datos con una distribución normal, las conclusiones se basan en la relación
de la desviación estándar y la media de la curva normal. Cuando la gráfica de la distribución de una
frecuencia parece normal, se asume que la población total, desde la cual se sacó la muestra, tiene
una distribución normal. Se asume que si tuviéramos todas las observaciones posibles de esta
población, se encontraría el 68,3%, el 95,5% y el 99,7% de las poblaciones dentro de la media y
+/- 1,2 y 3 desviaciones estándares. También, se asume que se encontraría el 95% de la población
entre la media y +/- 1.96 desviaciones estándares.
Error estándar de la media
Las inferencias se deben basar en las observaciones que hemos obtenido en una muestra de esta
población. La media de la muestra puede ser la misma que la media de la población total, pero
puede ser diferente. De hecho, si se escogieran muchas muestras diferentes desde la misma
población, se encontrarían muchas medias diferentes. Las medias mismas tendrían una distribución
normal y se podrían utilizar los diferentes valores de la media como otra serie de datos, desde el
cual se pudiera calcular otra media, la media de las medias la cual estaría cerca a la media
verdadera de la población.
También, es posible encontrar la desviación estándar de la distribución de las medias, al cual se
denomina el error estándar de la media o simplemente el error estándar. Entre más pequeño
este error sea, más cercana estará nuestra estimación de la media de la población.
Afortunadamente, se puede estimar el error estándar de la media desde una muestra única, sin tener
varias muestras, sin tener que calcular sus medias y calcular las desviaciones estándares de las
medias.
Es preciso no confundir la desviación estándar y el error estándar de la media. La desviación
estándar es una medida de la variabilidad o dispersión de una serie de observaciones alrededor de
la media. El error estándar de la media es la variabilidad o dispersión de las medias de las muestras
alrededor de la media verdadera de la población.
Fórmula para estimar el error estándar de la media
Error estándar de la media = EEx =
s
s
189
Fíjese que el error estándar de la media esta influenciado por dos componentes, la desviación
estándar y el tamaño del estudio. Entre más varían alrededor de la media las observaciones, mayor
será la incertidumbre de la media y más grande será el error estándar de la media. Entre más grande
el tamaño del estudio, más confiable será la media y más pequeño será el error estándar de la
media.
Ejemplo
Los investigadores de salud ocupacional midieron las alturas de una muestra aleatoria de
trabajadores masculinos de una fábrica, F. La media de las alturas era 69,713 pulgadas, con una
desviación de 1,870 pulgadas. ¿Cómo se calcularía el error estándar de las medias de la altura de
los trabajadores de la fabrica F?
Error estándar de la media = EEx =
1,870
= 0209
.
80
Ejercicio 3.8
En el cuadro3.4 se mostraron los niveles séricos de colesterol en 4,462 hombres. La media de los
niveles de colesterol fue de 213, con una desviación estándar de 42. Calcule el error estándar de la
media del nivel sérico de colesterol de los hombres estudiados.
Respuesta en la página 202.
Intervalos de confianza
Para una muestra de por lo menos 30, se puede utilizar la media observada, el error estándar de la
media, y el conocimiento sobre las áreas por debajo de la curva normal para estimar los límites
dentro de los cuales se encuentra la verdadera media de la población y para especificar nuestra
confianza sobre estos límites. Por ejemplo, en el ejemplo anterior de las alturas de los trabajadores,
la media de las alturas era 69.713 y el error estándar era 0.209. Se resta y añade el error estándar
de la media de la altura media:
190
Resta: 69.713 – 0.209 = 69.504
Suma: 69.713 + 0.209 = 60.922
Los resultados son las alturas que están dentro de +/- una desviación estándar a cada lado de la
media observada. Como se muestra en la figura 3,10, el área sombreada ilustra los intervalos que
delimitan 68.3% del área por debajo de la curva normal. Si se hubieran medido las alturas de
muchas muestras de 80 trabajadores en la fábrica F, era posible esperar que las medias de 68,3%
de las muestras se encontraran entre 69.504 y 69.922 pulgadas. A partir de eso, se puede inferir
que se puede tener una fiabilidad de 68.3% de que la media verdadera de la población se encuentra
dentro de estos intervalos. En otras palabras, la media verdadera tiene una probabilidad de 68,3%
de encontrarse dentro de estos límites.
En Salud Pública, se necesita más confianza en la estadística descriptiva. En general, se utiliza un
límite de confianza del 95%. Los epidemiólogos interpretan un intervalo de confianza del 95% como
el rango de valores consistente con los datos.
Número de trabajadores
Figura 3.10
Distribución de frecuencia de las poblaciones de trabajadores de la fábrica F
con sus límites de confianza
Talla de los trabajadores en pulgadas
Para calcular los límites de confianza de la media al 95%
Como ya se mencionó, el 95% del área por debajo de la curva normal se encuentra dentro de +/1,96 desviaciones estándares de ambos lados de la media. Se utiliza esta información para calcular
los límites de confianza del 95%.
Límite inferior de confianza del 95% = x − (196
. * EE x )
191
Límite superior de confianza del 95% = x + (196
. * EE x )
Para utilizar estas fórmulas, primero hay que multiplicar 1,96 veces el error estándar de la media
para encontrar la distancia entre la media y 1,96 desviaciones estándares. Luego, se resta la
distancia de la media para encontrar el límite mínimo y la suma para encontrar el límite máximo. En
términos generales, la media verdadera tiene una probabilidad de 95% de encontrarse dentro de
estos límites. En epidemiología, se dice que los datos de la muestra son consistentes con la hipótesis
de que la media verdadera se encuentra dentro de estos límites. El tamaño del intervalo indica la
precisión de las estimaciones, es decir la confiabilidad de las inferencias que se puede hacer en la
población total con base en los hallazgos de la muestra.
Ejemplo
A continuación, se muestra cómo se usan las fórmulas para calcular los límites de confianza de 95%
para la media de las alturas de los trabajadores de la fábrica F.
Límite inferior de confianza del 95% = 69.713 − (196
. * 0.209) = 69.713 − 0.410 = 69.303
Límite superior de confianza del 95% = x69.713 + + (196
. * 0209
.
) = 69.713 + 0.410 = 70.123
Los límites tienen una probabilidad del 95% de incluir la media de la población (la media verdadera
de la altura de los trabajadores de la fábrica F). La interpretación epidemiológica es que los datos
de la muestra son consistentes con que la media verdadera de las alturas se encuentra dentro de
69,3 y 70,1 pulgadas. Fíjese que el intervalo de confianza de 95% es bastante estrecho (menos de
una pulgada), lo cual indica que la estimación de las alturas es bastante precisa.
Ejercicio 3.9
Recordara el estudio de niveles de colesterol sérico de varones en la mitad de sus 30’s con una
media de 213 (página 188). En el ejercicio 3.8 usted calculó que el error estándar de la media era
de 0.629.
Calcule los límites de confianza del 95% de los niveles de colesterol sérico de los hombres en este
estudio.
Respuestas en la página 202.
192
La media aritmética no es la única medida para la cual se calculan los límites de confianza; también,
se calculan para proporciones, tasas, riesgos relativos, razones de posibilidades ("odds ratios") y
otras medidas cuando se quiere inferir los hallazgos de una muestra a la población total. La
interpretació n del intervalo de confianza es igual: (1) entre más estrecho sea el intervalo, más precisa
será la estimación del valor de la población; (2) el rango de valores dentro del intervalo es el rango
de valores de la población más consistente con los datos de la muestra.
La escogencia de medidas de tendencia central y dispersión
En epidemiología, se utilizan todas las medidas de tendencia central y dispersión para describir
datos y para comparar dos o más series de datos, pero raras veces se usan todas en la misma serie
de datos. La escogencia de las medidas de tendencia central depende de la distribución de los datos
(tabla 3,5). La escogencia de las medidas de dispersión depende de la medida de tendencia central
que se están utilizando.
Tabla 3,5
Medidas de tendencia central y dispersión según
el tipo de datos
Tipo de distribución
Medidas
Tendencia central
Dispersión
Normal
media aritmética
desviación estándar
Sesgada
mediana
rango interquartilico
Exponencial o logarítmica
media geométrica
consultar al estadístico
Puesto que la distribución normal es perfectamente simétrica, la media, la mediana y la moda tienen
el mismo valor, como se muestra en la figura 3,11. Sin embargo, en la práctica, las series de datos
que se usan en la epidemiología, que son relativamente pequeñas, raras veces se asemejan a esta
forma ideal, y la media, la mediana y la moda son diferentes. Según esto, hay que decidir cuál es el
valor que representa mejor la serie de datos.
Existen muchas pruebas estadísticas y técnicas analíticas basadas en la media aritmética. Por eso, en
general se prefiere utilizar la media más que la mediana o la moda. Cuando se utiliza la media, se usa
la desviación estándar como la medida de dispersión. Sin embargo, la media esta influída por la
asimetría de los datos, moviéndose en la dirección de los valores extremos, como se muestra en la
figura 3,11. Se puede saber la dirección de la asimetría con la comparación de la media y la
mediana. La media se aparta de la mediana en la dirección de la asimetría.
193
Figura 3.11
Efecto del sesgo en la media mediana y moda
Moda
Moda
Mediana
Mediana
Moda
Moda
Cuando los datos tienen una distribución asimétrica, es preferible utilizar la mediana para representar
el centro de los datos, porque no es influido por algunos datos extremos. Cuando se utiliza la
mediana, en general se utiliza el rango intercuartílico como medida de dispersión.
Desafortunadamente, estas medidas no son muy útiles para el análisis de los datos, porque existen
menos pruebas estadísticas y técnicas analíticas basadas en ellas.
La moda es la medida de distribución menos útil. Algunas series de datos no tienen una moda, y
otras tienen varias. En general, no se la puede usar para análisis estadísticos sofisticados. Sin
embargo, incluso la moda puede ayudar en la descripción de algunas series de datos.
A veces, es necesario combinar las medidas para describir bien un serie de datos. Considere los
antecedentes de fumar de las 200 personas presentadas en el cuadro 3.6.
Un análisis colectivo de los datos en El cuadro 3.6 produce los siguientes resultados:
media
: 5.4
mediana : 0
moda
:0
valor mínimo: 0
valor máximo: 40
rango
: 0-40
rango intercuartílico : 8.8 (0-8.8)
desviación típica: 9.5
194
Cuadro 3.6
Promedio auto-reportado del número de cigarrillos fumados por día, encuesta entre
estudiantes de salud pública
Número de cigarillos fumados por día
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
3
4
6
7
7
8
8
9
10
12
12
13
13
14
15
15
15
15
15
16
16
17
18
18
18
18
19
19
20
20
20
20
20
20
20
20
20
20
20
21
21
22
22
23
24
25
25
26
28
29
30
30
30
30
32
35
40
Estos resultados son correctos, pero no son un buen resumen. Casí el 75% de los estudiantes no
fuman. La separación de los 58 fumadores de los 142 no fumadores mostraría los datos mejor.
Dentro de los 58 (29%) de los fumadores:
media
: 18,5
mediana : 19,5
moda
: 20
valor mínimo: 2
valor máximo: 40
rango
: 2-40
rango intercuartílico : 8.5 (13.7-22.25)
desviación estándar: 8.0
Así, un resumen más útil podría ser que 142 (71%) de los estudiantes no fuman. De los 58
fumadores 29% fuman, en promedio, un poco menos de un paquete al día (media 18.5; mediana
19.5). El rango es de 2 a 40 cigarrillos al día y la mitad fuman de 14 a 22 cigarrillos al día".
195
Resumen
Las distribuciones de frecuencia, las medidas de tendencia central y las medidas de dispersión son
herramientas efectivas para resumir las características cuantitativas tales como altura, presión
sanguínea diastólica, período de incubación, y el número de compañeros sexuales. Algunas
características (como IC) tienen una distribución normal en la población. Otras características tienen
una distribución asimétrica hacia la derecha (hacia los valores más altos) o hacia la izquierda (hacia
los valores más bajos). Algunas características tienen una distribución casi normal, con pocos
valores extremos. Algunas características, especialmente pruebas de laboratorio, tienen una
distribución logarítmica. Finalmente, las características pueden tener otro patrón (p.ej., distribución
uniforme) o no tener ningún patrón. El patrón de los datos es el factor más importante en la
selección de medidas de tendencia central y de dispersión.
Las medidas de tendencia central son valores únicos que representan el centro de la distribución de
los valores. Las diferentes medidas de tendencia central representan el centro de maneras
diferentes. La media aritmética representa el "centro de gravedad" de los datos. La mediana
representa la mitad de los datos, con la mitad de las observaciones por encima y la otra mitad por
debajo. La moda representa el "pico" o el valor más frecuente. La media geométrica es comparable
con la media aritmética en la escala logarítmica.
Las medidas de dispersión describen la variabilidad de la distribución observada. El rango mide la
dispersión desde el valor más pequeño hasta el valor más grande. La desviación estándar, usando
en conjunto con la media aritmética, refleja que tan cerca están los valores observados a la media.
Para una distribución normal, 95% de los datos se encuentran dentro del rango de -1,96
desviaciones estandares a +1,96 desviaciones típicas. El rango intercuartílico, usado en conjunto
con la mediana, representa el rango desde el percentil 25 al percentil 75, más o menos el 50%
central de los datos.
En general, se hace un resumen de los datos con una distribución normal con la media aritmética y la
desviación estándar. Para los datos asimétricos o los datos con valores extremos, se utiliza la
mediana y el rango intercuartílic o. Para los datos en una escala logarítmica, se utiliza la media
geométrica. Se puede utilizar la moda y el rango para dar información adicional, pero raras veces se
usan solos.
La inferencia estadística es la generalización de los resultados desde la muestra hasta la población
total; la media de la muestra es la mejor estimación accesible de la media de la población. El
intervalo de confianza indica que tan precisa es la estimación. El intervalo de confianza de la media
aritmética se basa en el error estándar de la media. A su vez, el error estándar se basa en la
variabilidad de los datos (la desviación estándar) y el tamaño de la muestra. En epidemiología, el
intervalo de confianza de 95% es lo más común: hay una probabilidad de 95% de que la media
verdadera de la población se encuentre dentro del rango de -1,96 desviaciones estándares a +1,96
desviaciones estándares (los límites de confianza máximos y mínimos). No se usan los intervalos de
confianza solo para la media aritmética, también se los usa para proporciones, tasas, riesgos
relativos, razón de posibilidades ("odds ratios") y otras medidas de interés en epidemiología.
196
Ejercicio de repaso
Ejercicio 3.10
Los datos del cuadro 3.7 corresponden a una serie de muestras de niveles
sanguíneos de plomo en Jamaica.
a.
Resuma estos datos con una distribución de frecuencias.
b.
Calcule la media aritmética.
c.
Determine la mediana y el rango intercuartílico. (Pista: En su distribución de
frecuencias vaya sumando la columna de las frecuencias hasta que alcance el rango
medio).
d.
Calcule los límites de confianza del 95% para la media aritmética.
e.
Opcional: Calcule la media geométrica usando los niveles logarímicos de plomo
que se muestran en el cuadro 3.7.
197
Cuadro 3.7
Niveles de plomo en sangre en niños menores de 6 años en una muestra al azar,
No.
Nivel de Plomo*
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
46
69
29
9
52
37
9
10
5
16
35
31
12
11
15
9
14
12
22
23
76
42
40
98
18
23
19
14
63
Jamaica, 1987
Log 10 del Nivel
1,66
1,84
1,46
0,95
1,72
1,57
0,95
1,00
0,70
1,20
1,54
1,49
1,08
1,04
1,18
0,95
1,15
1,08
1,34
1,36
1,88
1,62
1,60
1,99
1,26
1,36
1,28
1,15
1,80
*µg/dL=micrograms por decilitro
Fuente:2
198
No.
Nivel de Plomo*
Log 10 del Nivel
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
36
45
31
39
5
53
30
26
58
85
28
14
28
14
10
14
13
16
13
10
11
5
9
12
5
52
94
12
1,56
1,65
1,49
1,59
0,70
1,72
1,48
1,41
1,76
1,93
1,45
1,15
1,45
1,15
1,00
1,15
1,11
1,20
1,11
1,00
1,04
0,70
0,95
1,08
0,70
1,72
1,97
1,08
Espacio de trabajo para el ejercicio de repaso
Respuesta en la página 203
199
Respuestas a los ejercicios
Respue sta al ejercicio 3.1 (página 165)
Media = (0+0+0+0+1+1+1+1+1+2+2+2+2+3+3+4+5+7+8) / 19
= 43/19 =2.3 nacimientos
Respuesta al ejercicio 3.2 (página 170)
El rango de observaciones se dispone en orden creciente según su valor. El punto
medio de 19 observaciones es la 10ª de ellas, por tanto, para:
0,0,0,0,1,1,1,1,1,2,2,2,2,3,3,4,5,7,8; la mediana = 2 nacimientos.
Respue sta al ejercicio 3.3 (página 172)
Distribución de frecuencia de la paridad en
el estudio de salud reproductiva
Paridad
Frecuencia
0
4
1
5
2
4
3
2
4
1
5
1
6
0
7
1
8
1
Total
19
Moda= un nacimiento
Respuesta al ejercicio 3.4 (página 176)
Usando la segunda fórmula, obtendremos
xgeo= antilog2 (1/7 x[log2256 + log2512 + log24 + log22 + log216 + log232 + log264])
= antilog2 (1/7 x[8+9+2+1+4+5+6])
= antilog2 (1/7 x35)
200
= antilog2 (5)= 32
El título medio geométricamente es = 32, y la dilución media geométrica es de 1 : 32.
Respue sta al ejercicio 3.5 (página 183)
Datos: 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 7, 8
Q1 en (19+1)/4 = 5, así Q1 = 1
Q3 en 3(19+1)/4 = 15, así Q3 = 3
Rango intercuartílico = Q3 - Q1 = 3-1 = 2 nacimientos
Respue sta al ejercicio 3.6 (página 187)
xi
fi
fix i
x i2
fix i2
0
1
2
3
4
5
6
7
8
Total
4
5
4
2
1
1
0
1
1
19
0
5
8
6
4
5
0
7
8
43
0
1
4
9
16
25
36
49
64
0
5
16
18
16
25
0
49
64
193
Numerador de la varianza = (19 • 193)-432 = 3667-1849 = 1818
Denominador de la varianza = 19 • 18 = 342
Varianza = 1818 / 342 =5.316 (nacimientos)2
Desviación típica = √ 5.316 = 2.3 nacimientos
201
Respuesta al ejercicio 3.7 (página 188)
Basándonos en los datos de la página 165 la variable B parece como si tuviese la
desviación típica más pequeña, ya que los valores de B están muy agrupados alrededor
del valor central (5); los valores no varían y no están muy dispersos.
La desviación típica de la variable A sería la más grande ya que sólo tiene un valor central
(5) y todos los demás valores están en un extremo o en el otro.
Como los valores de la variable C están distribuidos uniformemente entre el 0 y el 10, su
desviación típica estará en algún punto intermedio.
a.
Variable A
Total
Variable B
2
xi
xi
0
0
1
1
1
5
9
9
9
10
10
55
0
0
1
1
1
25
81
81
81
100
100
471
Varianza
Desvío Estándar
xi
xi2
0
4
4
4
5
5
5
6
6
6
10
55
0
16
16
16
25
25
25
36
36
36
100
331
(11x471) - 552 =
11x10
(11x331) - 552 =
11x10
= 19.600
= 4.4
= 5.600
= 2.4
Respue sta al ejercicio 3.8 (página 190)
Error estándar de la media = 42 / 4462 = 0.629
Respuesta al ejercicio 3.9 (página 192)
202
Límite inferior de confianza al 95% = 213- (1.96)(0.629)
= 213-1.233 = 211.767
Límite superior de confianza al 95% = 213+ (1.96)(0.629)
= 213+1.233 = 214.233
Los datos de la muestra concuerdan con los niveles medios de colesterol reales, que se
sitúan entre 211.8 y 214.2.
Respuesta al ejercicio 3.10 (página 199)
a.
Nivel de
Plomo
Frecuencia
Nivel de
Plomo
Frecuencia
Nivel de
Plomo
Frecuencia
5
9
10
11
12
13
14
15
16
18
19
22
4
4
3
2
4
2
5
1
2
1
1
1
23
26
28
29
30
31
35
36
37
39
40
42
2
1
2
1
1
2
1
1
1
1
1
1
45
46
52
53
58
63
69
76
85
94
98
1
1
2
1
1
1
1
1
1
1
1
b.
Media aritmética = 1627/57 = 28.544 = 28.5 ug/dl
c.
Mediana en la posición 29ª del grupo de datos seleccionados = 19
Q1 en la posición 14.5ª de los datos seleccionados = 12
Q3 en la posición 43.5ª de los datos seleccionados = (39+40)/2 = 39.5
Rango intercuartílico = 39.5 - 12 = 27.5
d.
Varianza = [(57)(76399)-(16272)] / [57 • 56] = 534.967
Desviación típica = 534.967 = 23.129
Error estándar de la media = 23.129 / 57 = 3.064
Límite inferior al 95% = 28.544-(1.96)(3.064) = 22.539
Límite superior al 95% = 28.544+(1.96)(3.064) = 34.549
Media geométrica = 10(75.50/57) =101.32 = 21.1 ug/dl
e.
203
Prueba de autoevaluación 3
Ahora que Vd. ya ha leído la Unidad 3 y ha realizado los ejercicios, debiera estar
preparado para hacer el test de autoevaluación correspondiente. Este test está diseñado
para ayudarle a establecer si ha asimilado bien el contenido de la lección. Podrá volver al
texto de la lección cuando se sienta inseguro con alguna respuesta, pero recuerde que el
examen final deberá realizarlo a libro cerrado. Rodee con un círculo TODAS las
respuestas correctas a cada pregunta.
1.- Todas las siguientes son medidas de localización central, EXCEPTO:
a. media aritmética
b. media geométrica
c. mediana
d. moda
e. rango
2.- La medida de tendencia central que tiene a la mitad de las observaciones por debajo
de ella y a la otra mitad de las observaciones por encima, es:
a. la media aritmética
b. la media geométrica
c. la mediana
d. la moda
e. el rango
3.- La medida de tendencia central más comúnmente utilizada es:
a. la media aritmética
b. la media geométrica
c. la mediana
d. la moda
e. el rango
204
4.- ¿Qué pecado imperdonable se ha cometido en la distribución de frecuencias que se
muestra más abajo?
a. Intervalos de clase de diferentes tamaños
b. Inclusión de una categoría "desconocido"
c. No hay columna de la distribución porcentual
d. Los intervalos de clase se solapan
e. Demasiadas categorías
Grupo etario (años)
Número
<1
1-5
5-15
15-25
25-35
35-45
45-55
55-65
65-75
75-85
?85+
Desconocido
Total
1
8
31
119
656
1,395
2,502
6,109
11,092
11,907
6,548
0
40,368
5.- Todas las siguientes son medidas de dispersión, EXCEPTO:
a. rango intercuartílico
b. percentil
c. rango
d. desviación típica
e. varianza
6.- ¿Cuál de los siguientes términos describe más precisamente la curva que se muestra en
la figura 3.12? (Rodee con un círculo TODO lo que proceda.)
a. sesgo negativo
b. sesgo positivo
c. sesgo a la izquierda
205
d. sesgo a la derecha
e. normal
Frecuencia
Figura 3.12
Distribución normal o sesgada
7.- La medida de tendencia central que se ve más afectada si un valor es extremo es:
a. la media aritmética
b. la media geométrica
c. la mediana
d. la moda
e. el rango
8.- El valor que aparece con mayor frecuencia en un grupo de datos se define como:
a. la media aritmética
b. la media geométrica
c. la mediana
d. la moda
e. el rango
9.- La medida de tendencia central más comúnmente utilizada para los títulos de
anticuerpos es:
a. la media aritmética
b. la media geométrica
206
c. la mediana
d. la moda
e. el rango
10.- La medida de dispersión aue se ve más afectada cuando un valor es extremo es:
a. el rango intercuartílico
b. el rango
c. la desviación típica
d. la varianza
11.- ¿Qué rango caracteriza al rango intercuartílico?
a. del percentil 5 al percentil 95
b. del percentil 10 al percentil 90
c. del percentil 25 al percentil 75
d. de 1 desviación típica por debajo de la media a 1 desviación típica por
encima de la media
e. de 1.96 desviaciones típicas por debajo de la media a
1.96 desviaciones
típicas por encima de la media
12.- La medida de dispersión más comúnmente utilizada junto a la media aritmética es:
a. el rango intercuartílico
b. el rango
c. la desviación típica
d. la varianza
13.- Dada el área bajo una curva normal, ¿cuáles de los siguientes rangos son iguales?
(Rodee los DOS que son iguales.)
a. Del percentil 2.5 al percentil 97.5
b. Del percentil 5 al percentil 95
c. Del percentil 25 al percentil 75
d. De 1 desviación típica por debajo de la media a 1
encima de la media
207
desviación típica por
e. De 1.96 desviaciones típicas por debajo de la media a
típicas por encima de la media
1.96 desviaciones
14.- Dada el área bajo una curva normal, ordene los siguientes rangos, desde el más
estrecho al más ancho.
a. De 1 desviación típica por debajo de la media a 1 desviación típica por encima
de la media
b. Del percentil 5 al percentil 95
c. De 1.96 desviaciones típicas por debajo de la media a 1.96 desviaciones típicas
por encima de la media
d. Rango intercuartílico
Rango desde el más pequeño ......<.......<.......<...... al más grande.
Para las preguntas 15 - 17, seleccione las unidades de la lista de abajo, en las cuales cada
medida sería expresada, si hemos medido los pesos, en kilogramos, de 300 niños.
A. kilogramos
B. raíz cuadrada de kilogramos
C. kilogramos al cuadrado
D. sin unidades
15.- Rango intercuartílico ....................
16.- Varianza .................................
17.- Error estándar ...........................
Datos para las preguntas 18-21: 14, 10, 9, 11, 17, 20, 7, 90, 13, 9
18.- Usando los datos de arriba, calcule la media aritmética.
Media aritmética = ....................
208
19.- Usando los datos de arriba, identifique la mediana.
Mediana = ....................
20.- Usando los datos de arriba, identifique la(s) moda(s), si la(s) hay.
Moda = ...........................
21.- Usando los datos de arriba, identifique el rango.
Rango = ..........................
22.- ¿Qué medidas de tendencia central y de dispersión son más apropiadas para los
siguientes datos?
a. media aritmética y rango intercuartílico
b. media arimética y desviación típica
c. mediana y rango intercuartílico
d. mediana y desviación típica
Número de respuestas correctas a un cuestionario
sobre conductas saludables
# de respuestas correctas
Frecuencia
0
1
2
3
4
5
6
7
8
9
10
Total
12
19
23
17
28
18
12
5
3
2
11
150
23.- Simplemente observando los valores de cada distribución de las que se muestran
abajo, identifique la que tiene la desviación típica más pequeña.
a. 7, 9, 9, 10, 11, 12, 14, 17, 20, 90
b. 7, 9, 9, 10, 11, 12, 14, 17, 17, 17
209
c. 9, 9, 9, 10, 10, 10, 10, 10, 11, 11
d. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
e. 90, 90, 90, 90, 90, 90, 90, 90, 90, 90
24.- El error estándar de la media representa:
a. la diferencia entre la media de las muestras y la media poblacional real
b. el error sistemático en la medición de la media
c. la variabilidad de un grupo de observaciones en torno a la media
d. la variabilidad de un grupo de observaciones en torno a la media real
poblacional
25.- Unos investigadores llevaron a cabo un estudio sobre estado nutricional entre una
muestra de niños en un campo de refugiados. Se obtuvieron los siguientes resultados:
índice nutricional medio = 89.5
desviación típica = 9.9
error estándar de la media = 0.7
Los límites de confianza del 95% alrededor de la media son aproximadamente:
a. 70.1 y 108.9
b. 79.6 y 99.4
c. 88.1 y 90.9
d. 88.8 y 90.2
Las respuestas se encuentran en el Apéndice J
Si ha respondido Ud. correctamente al menos 20 preguntas, ha comprendido Ud. la
unidad 3 suficientemente bien como para continuar con la Unidad 4.
210
Referencias
1.
Center for Disease Control. Health status of Vietnam veterans. Volume 3: Medical
Examination. 1989.
2.
Matte TD, Figuera JP, Ostrowski S, et al. Lead poisoning among household
members exposed to lead-acid battery repair shops in Kingston, Jamaica. Int J
Epidemiol 1989; 18: 874-881.
3.
National Center for Health Statistics. Advance Report of Final Mortality Statistics,
1987. Monthly Vital Statistics Report, Vol 38 no. 5 Supplement. Hyattsville, MD, PHS
1989. p.21.
211
Descargar