Unidad 3 Medidas de tendencia central y dispersión En epidemiología se utiliza una gran variedad de métodos para resumir los datos. En la Unidad 2 aprendió acerca de las distribuciones de frecuencia, las relaciones, las proporciones y las tasas. En esta Unidad aprenderá acerca de las medidas de localización central y de dispersión. Una medida de tendencia central es un valor único que representa mejor características tales como la edad o el peso de un grupo de personas. Una medida de dispersión cuantif ica cuanto varían las personas entre sí y en relación a la medida de tendencia central con respecto a la característica estudiada. Diversas medidas de localización central y de dispersión aparecen descritas en esta unidad. Cada medida tiene su lugar a la hora de resumir los datos de salud pública. Objetivos Después de preparar y entender éste módulo y responder las preguntas de los ejercicios, un estudiante será capaz de: 1. Calcular e interpretar las siguientes medidas de tendencia central: • media aritmética • mediana • moda • media geométrica 2.- Escoger y aplicar la medida de tendencia central apropiada. 3.- Calcular e interpretar las siguientes medidas de dispersión: • rango • rango intercuartílico • varianza • desviación estándar • intervalos de confianza (para la media) 4.- Escoger y aplicar la medida de dispersión apropiada. *Usted puede requerir de una calculadora de mano y cuadros con valores de logaritmos para los ejercicios de esta unidad. 156 Discusión adicional sobre las distribuciones de frecuencias Intervalo de clase En la unidad dos se habla sobre la distribución de frecuencias, los cuadros muestran los valores que una variable puede tomar y el número de observaciones con cada valor. Cuando la variable toma un número limitado de valores (por ejemplo 8 o 10) se pueden enumerar individualmente; cuando las variables toman más de 10 valores, normalmente se agrupan; éstos grupos de valores son llamados intervalos de clase. Una distribución de frecuencia con intervalos de clase usualmente tiene de 4 a 8 intervalos. El cuadro 3.1a muestra la frecuencia y distribución de una variable, (vasos de agua promedio consumidos en una semana) con 8 intervalos de clase. Note en el cuadro 3.1a que las categorías de agua consumida son mutuamente excluyentes, esto es que el primer intervalo de clase incluye 0 y 1 vasos con agua, el segundo intervalo incluye 2 y 3 vasos y así sucesivamente. Cuando se introducen los datos en una distribución de frecuencia, es importante decidir cómo tratar los datos decimales. Por ejemplo, ¿dónde se colocaría a una persona que dice tomar 1.8 vasos de agua? Cuando se introducen datos decimales en una distribución de frecuencia se pueden seguir éstas reglas: 1.- Si un decimal es mayor que 0.5 aproxímelo al número superior (6.6 a 7) 2.- Si un decimal es menor que 0.5 aproxime al número inferior (6.4 a 6) 3.- Si el decimal es 0.5 entonces aproxímelo al valor par más próximo (p. ej., 5,5 y 6,5 a 6). De acuerdo con éstas reglas se puede colocar a una persona que toma 1.8 vasos de agua al día en la categoría 2-3 de El cuadro 3.1a. Entonces la categoría de 2-3 vasos realmente cubre todos los valores desde 1.5 hasta 3.499 vasos de agua. Estos límites son llamados los límites verdaderos del intervalo. Cuadro 3.1 Número promedio de vasos de agua consumidos por semana por los residents del Municipio X, 1990 Número promedio de Número de vasos de agua por semana Residentes 0-1 20 2-3 51 4-7 124 8-14 119 15-21 43 22-28 36 29-35 13 36-42 4 Total 410 157 El cuadro 3.1b muestra los límites verdaderos de los intervalos usados. Se puede ver allí que los límites verdaderos del intervalo 15-21 son 14.5- 21.499... Es necesario conocer los límites verdaderos de clase para calcular algunas de las medidas de tendencia central de una distribución de frecuencia. La edad y otras variables que involucran tiempo no pueden seguir reglas específicas de aproximación. No es posible redondear la edad. Una persona tiene una edad determinada desde un cumpleaños hasta el siguiente. Por ejemplo usted tiene 16 años hasta su cumpleaños 17, aún el día antes. El cuadro 3.2 muestra una distribución de frecuencia de las muertes por suicidio por edad en intervalos de clase. ¿Dónde registraría el registro la defunción por suicidio de alguien de 14 años y 7 meses? El suicidio debe ser colocado en el intervalo de 5-14 años. Cuadro 3.1 b ? Número promedio de vasos de agua consumidos por semana por los residents del Municipio X, 1990 Número promedio de Límites verdaderos de los Número de vasos de agua por semana intervalos de clase Residentes 0-1 2-3 4-7 8-14 15-21 22-28 29-35 36-42 Total 0,0-1,4999.. 1,5-3,4999.. 3,5-7,4999.. 7,5-14,4999.. 14,5-21,4999.. 21,5-28,4999.. 28,5-35,4999.. 35,5-42,4999.. 20 51 124 119 43 36 13 4 410 Cuadro 3.2 Distribución de defunciones por suicidio por grupo de edad, Estados Unidos, 1987 ?. Edad de la de función (años) Número de Defunciones 0-4 5-14 15-24 25-34 35-44 45-54 55-64 65-74 75-84 85+ Total 0 251 4924 6655 5132 3707 3650 3428 2402 634 30783 Fuente: 3 158 De esta forma, se muestra su distribución de frecuencia, sin embargo, también se puede presentar ésta información mediante gráficas. Por ejemplo, la figura 3.1 muestra la distribución del cuadro 3.2. en forma de gráfica. Número de Defunciones Fura 3.1 Distribución de frecuencia de suicidios por grupo etario, Estados Unidos, 1987 Edad de la defunción Fuente: 3 Propiedades de las distribuciones de frecuencias Cuando se grafica una distribución de datos a menudo se obtiene una gráfica como la de la figura 3.2 con una gran parte de las observaciones agrupadas alrededor de un valor central; ésta agrupación se conoce como localización central o tendencia central de una distribución de frecuencias. El valor hacia el cual se aproxima la distribución es una característica importante; una vez conocida, se puede usar para caracterizar todos los datos en la distribución. Es posible calcular un valor central por varios métodos y cada uno puede producir un valor diferente. El valor central que resulta de cualquiera de éstos métodos se conoce como medidas de tendencia central. De las posibles medidas de tendencia central en epidemiología se usan comúnmente 3: la media aritmética, la mediana y la moda. Las menos usadas son el rango medio y la media geométrica. La figura 3.3 muestra la gráfica de las tres distribuciones de frecuencia, idénticas en forma pero diferentes en su medida de tendencia central. 159 Número de Trabajadores Se discutirán las medidas de tendencia central con más detalle después de describir las otras propiedades de las distribuciones de frecuencia como la variación y la dispersión, que muestran cómo se aleja la distribución de su valor central. Algunas de las medidas de dispersión usadas en epidemiología son el rango, la varianza y la desviación estándar. La dispersión de una distribución de frecuencia es independiente de su localización central. Este hecho se ilustra en la figura 3.4 que muestra la gráfica de tres distribuciones de frecuencia teóricas que tienen la misma tendencia central con diferente dispersión. Figura 3.2 Gráfica de distribución de frecuencias con una gran parte de las observaciones conglomeradas alrededor del valor central Tallas de los trabajadores en pulgadas Una tercera propiedad de la distribución de frecuencia es la forma. Las gráficas de las distribuciones teóricas en las figuras 3.2 y 3.3 son completamente simétricas. Las distribuciones de frecuencia de algunas características de la población humana tienden a ser asimétricas. Por otra parte, la gráfica de los datos de suicidio (figura 3.1) es asimétrica. Una distribución asimétrica quiere decir que está desviada. Una distribución que tiene una localización central hacia la izquierda y que la cola está a la derecha se dice que está sesgada a la derecha o positivamente sesgada. En la figura 3.5 la distribución A está sesgada a la derecha. Una distribución que tiene la localización central a la izquierda es una curva sesgada a la izquierda o negativamente sesgada. En la figura 3.5 la distribución C está negativamente sesgada. ¿Cómo describiría la forma de la distribución de los suicidios de la figura 3.1? 160 Frecuencia Figura 3.3 Tres curvas de forma idéntica con tres localizaciones centrales Variable x Frecuencia Figura 3.4 Tres curvas con la misma localización central pero diferente dispersión Variable x La distribución de frecuencia de las defunciones por suicidio de la figura 3.1 esta sesgada positivamente, es decir a la derecha. El agrupamiento simétrico de los valores alrededor de una tendencia de localización central es típicamente lo que se llama una distribución normal. La curva con la figura de una campana es el resultado de representar en una gráfica una distribución normal. Esta distribución en forma de campana es la base de muchas pruebas de inferencia que se usan para sacar conclusiones o 161 Frecuencia generalizar los datos. Para usar estas pruebas los datos deberían tener una distribución normal, es decir, deberían dibujar una curva normal si se representaran gráficamente. Figura 3.5 Tres curvas con sesgos diferentes Frecuencia Variable x Figura 3.6 Curva normal Notación estadística Antes de proseguir, le sugerimos que revise la notación estadística usada en la unidad y que se describe en el cuadro 3.3. A lo largo de la unidad, incorporaremos el uso de ésta notación en una nota al calce de la página. El apéndice B contiene la hoja de referencia de fórmulas que resumen todas aquellas revisadas en esta unidad. 162 Cuadro 3.3. Notación estadística utilizada en esta unidad Observación individual: Una letra usualmente X o Y se usa para representar una variable particular, como por ejemplo:la paridad. Una observación individual en una serie de datos se representa por Xi. Número de observaciones: La letra n o N se usa para representar el número de observaciones de una serie de datos. La letra fi (para una frecuencia individual) se utiliza para representar con qué frecuencia aparece un valor en al serie de datos. Multiplicación: Cuando los valores se escriben juntos, por ejemplo, XY significa que se multiplica el valor de X por el de Y. Paréntesis: Los paréntesis se usan: • Para indicar multiplicación, por ejemplo (X)(Y) quiere decir que se multiplica X por Y. • Para demostrar que lo que está en el paréntesis debe ser tratado como términos separados por ejemplo (X+Y)2 significa que se debe sumar a X el valor de Y luego elevar al cuadrado el valor de la adición. Se usa la letra griega mayúscula Σ para indicar que una lista de Sumatoría: números debe ser sumada; por ejemplo, se desea indicar que se debe sumar la paridad usada en el Ejercicio 2.1. Se deberían listar los números individualmente: 0+2+0+0+1+3+1+4+1+8+2+2+0+1+3+5+1+7+2. Esto es ineficiente aún con una lista corta de números. En cambio se puede usar esta notación estadística: i = 19 ∑x i=1 i Esta notación se lee: sumatoría de los X desde i=1 hasta i=19. Aún puede ser más corta así: xi se lee como la sumatoria de los xi Medidas de tendencia central Se calcula una medida de tendencia central cuando se necesita un valor único que resuma una serie de datos; por ejemplo: si se presentara la información de las muertes por suicidio en los Estados Unidos en 1987, se puede decir que la edad mediana de las personas que cometieron suicidio fue de 41.9 años. La mejor medida en cada caso particular, depende tanto de las características de la distribución, así como de la forma y del uso que se quiera dar a la medida. 163 La media aritmetica Es la medida de tendencia central con la cual probablemente esté usted mas familiarizado es la media aritmética; se conoce también como media o promedio; se representa como x y se conoce como "x barra"; la fórmula para calcularla es: media = x = ∑x i n Se lee así: la media es igual a “la suma de las x’s dividido por n”. Ejemplo: En un brote de hepatitis A, 6 personas iniciaron síntomas 24 a 31 días después de la exposición. Calcule el promedio del período de incubación en éste brote; los períodos de incubación para las personas afectadas (Xi) fueron: 29,31,24,29,30 y 25 1.Para calcular el numerador sume las observaciones individuales Σ x= 29+31+24+29+30+25= 168 2.- Para calcular el denominador cuente el número de las observaciones: n=6 3.Para calcular la media divida el numerador sumatoría de las observaciones) entre el denominador (numero de las observaciones). media = x = 29 + 31 + 24 + 29 + 30 + 25 168 = = 28 días 6 6 Entonces, el promedio del período de incubación del brote es 28 dias. 164 Ejemplo En una lista de 5 variables para 11 personas. Vamos a demostrar como se calcula la media de cada variable (A-E) en el listado. (Fíjese que este listado de variables, A, B, C, D y E, será utilizado a lo largo de esta unidad en otros ejemplos y ejercicios). Persona # 1 2 3 4 5 6 7 8 9 10 11 Variable A Variable B Variable C Variable D Variable E 0 0 1 1 1 5 9 9 9 10 10 0 4 4 4 5 5 5 6 6 6 10 0 1 2 3 4 5 6 7 8 9 10 0 1 1 2 2 2 3 3 3 4 10 0 6 7 7 7 8 8 8 9 9 10 1. Para calcular el numerador, sume todas las observaciones individuales: A. Σ xi = 0+0+1+1+1+5+9+9+9+10+10 = 55 B. Σ xi = 0+4+4+4+5+5+5+6+6+6+10 = 55 C. Σ xi = 0+1+2+3+4+5+6+7+8+9+10 = 55 D. Σ xi = 0+1+1+2+2+2+3+3+3+4+10 = 31 E. Σ xi = 0+6+7+7+7+8+8+8+9+9+10 = 79 2.- Para calcular el denominador cuente el número de observaciones (n=11) para cada variable. 3.- Para calcular la media, divida el numerador (suma de las observaciones) entre el denominador (número de las observacione s). Media de la variable A= 55/11= 5 Media de la variable B= 55/11= 5 Media de la variable C= 55/11= 5 Media de la variable D= 31/11= 2.82 Media de la variable E= 79/11= 7.18 Ejercicio 3.1: Calcule el promedio de la paridad con los siguientes datos: 0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1. Respuesta en la página 200 165 Se usa la media aritmética más que cualquier otra medida de localización central porque tiene propiedades estadísticas deseables; una de éstas es la propiedad de centrar la media. Se puede demostrar ésta propiedad con el ejemplo del brote de hepatitis A. En El cuadro al tomar el valor de los períodos de incubación y restarle la media al sumar las diferencias debe dar 0. Esto demuestra que la media es el centro de la distribución. Valor menos la media 24-28 25-28 29-28 29-28 30-28 31-28 168-168.0=0 Diferencia -4 -3 +1.0 +1.0 +2.0 +3.0 -7+7=0 Gracias a ésta propiedad, a la media se le llama "el centro de gravedad" de una distribución de frecuencias. Esto significa que la media actúa como el punto de apoyo en una balanza, como se ve en la figura 3.7. Figura 3.7 La media es el centro de gravedad de la distribución Aunque la media es una excelente medida de resumen de una serie de datos, éstos deben seguir una distribución aproximadamente normal. La media es muy sensible a valores extremos que sesgan la distribución. Por ejemplo, si en vez del 31 de la lista anterior, tuviéramos un 131 la media cambiaría de 28.0 a 44.7 24+25+29+29+30+131 = 44.7 6 La media de 44.7 es el centro de gravedad para esos datos, pero para propósitos prácticos es poco representativa de éstos. Como resultado, la media es mayor que todos los valores a 166 excepción del valor extremo. Por ser muy sensible a valores extremos, la media es una medida resumen muy pobre para datos que están gravemente sesgados en cualquier dirección. La mediana Otra medida de tendencia central es la mediana; como se verá es especialmente útil cuando los datos están sesgados. Mediana significa a la mitad y la mediana es el valor a la mitad de una serie de datos que han sido colocados en orden. Específicamente, la mediana es el valor que divide una serie de datos en dos mitades con una mitad de las observaciones mayores que ésta y la otra mitad menores a la mediana. Por ejemplo al tener los siguientes datos de tensiones arteriales sistólicas: 110,120,122,130,180 mm de Hg. En este ejemplo, hay dos observaciones mayores y dos menores que 122, luego entonces, la mediana es 122 mm de Hg, el valor de la 3ª observación. Al obtener la media (132) ésta seria mayor que 4 de los 5 valores. Cómo identificar la mediana de datos individuales 1.- Ordene los datos de menor a mayor o viceversa 2.- Encuentre el rango medio con la siguiente fórmula Rango mediano= (n+1) 2 a. Si el número de observaciones (n) es impar el rango medio cae en una observación. n es par el rango medio cae entre dos observaciones. 3.- Identifique el valor de la mediana a. Si el rango medio cae en una observación específica (n=impar) la mediana es igual al valor de ésta observación. b. Si el rango medio cae entre dos observaciones (n=par) la mediana es igual al promedio (media aritmética) del valor de estas observaciones. Ejemplo con número impar de observaciones: n=5: 13,7,9,15,11 1.- Ordenar de mayor a menor: 7,9,11,13,15. 167 o viceversa: 15,13,11,9,7. 2.- Encontrar el rango mediano Rango mediano = (n+1) = 5+1 = 3 2 2 Entonces, el rango medio cae en el valor de la 3a observación. 3.- Identificar el valor de la mediana que es igual al valor de la tercera observación=11 Ejemplo con numero par: n=6: 15,7,13,9,10,11 1.- Ordenar los datos 7,9,10,11,13,15 2.- Encontrar el rango medio Rango mediano = (n+1)= 6+1 = 3.5 2 2 Entonces, el rango medio cae entre el valor de la 3a y la 4a observación. 3.- Identificar el valor de la mediana que es igual al promedio de la 3a y 4a observación Mediana = 11+10 = 10.5 2 En contraste con la media, la mediana no está influenciada por valores extremos. Ejemplo: A 24,25,29,30,31 Media 28.0 mediana 29 B 24,25,29,30,131 Media 44.7 mediana 29 Se observa cómo una observación altera la media pero no cambia la mediana, entonces se prefie re la mediana como medida de tendencia central cuando los datos están desviados en cualquier dirección o cuando los datos incluyen valores extremadamente grandes o pequeños. 168 Ejemplo A 0 0 1 1 1 5 9 9 9 10 10 B 0 4 4 4 5 5 5 6 6 6 10 C 0 1 2 3 4 5 6 7 8 9 10 D 0 1 1 2 2 2 3 3 3 4 10 E 0 6 7 7 7 8 8 8 9 9 10 1.- Organice las observaciones en orden creciente (ya está hecho) 2.- Encuentre el rango medio de las observaciones (11 observaciones + 1)/2 =12/2=6 3.- Identifique el valor de la mediana que es el de la 6a observación: La mediana para las variables A, B y C es 5; La mediana para la variable D es 2; La mediana para la variable E es 8; 169 Ejercicio 3.2: Calcule la mediana de los siguientes datos: 0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1. Respuesta en la página 200 En contraste con la media, la mediana no está influida en el mismo grado por los valores extremos. Las dos siguientes series de datos son idénticas excepto por la última observación: Juego A:24,25,29,29,30,31 media: 28 mediana: 29 Juego B:24,25,29,29,30,131 media: 44.7 mediana: 29 Aquí la diferencia en una observación altera la media considerablemente, pero no hay cambio en la mediana. Entonces la mediana se prefiere con respecto a la media al ser una medida de tendencia central para los datos que están desviados en una dirección u otra, o datos con unos valores extremadamente grandes o pequeños. La moda La moda es el valor que ocurre más frecuentemente en una serie de datos; por ejemplo en los siguientes datos, la moda es 1 por que ocurre 4 veces, más que cualquier otro valor. 0,0,1,1,1,1,2,2,2,3,4,6. Finalmente, se encuentra la moda como una distribución de frecuencia en la cual se ve cuántas veces ocurre un valor. Si se encuentra que cada valor ocurre solo una vez, entonces ésta distribución carece de moda, o si se advierte que 2 o más valores son los más comunes, entonces tiene más de una moda. 170 Ejemplo: En este ejemplo demostraremos los pasos para que encuentre la moda utilizando los siguientes datos: 29,31,24,29,30,25 días. 1.- Organice los datos en una distribución de frecuencia, mostrando los valores de la variable (xi) y la frecuencia fi cada vez que el valor ocurra: xi 24 25 29 30 31 fi 1 1 2 1 1 2.- Identifique el valor que ocurre más frecuentemente: 29: la moda es 29. Ejemplo Demostraremos como encontrar la moda del siguiente conjunto de datos: 15,9,19,13,17,11. 1.- Organice los datos en una distribución de frecuencia: xi 9 11 13 15 17 19 fi 1 1 1 1 1 1 2.- Identifique el valor que ocurre más frecuentemente; como todos los valores tienen la misma frecuencia no hay moda para esta distribución de datos. 171 Ejemplo Demostraremos cómo encontrar la moda utilizando los datos siguientes: 17, 9, 15, 9,17,13. 1.- Organice los datos en una distribución de frecuencia: xi 9 13 15 17 fi 2 1 1 2 2.Identifique el valor que ocurre más frecuentemente; los valores 9 y 17 tienen la misma frecuencia ya que ocurren 2 veces. Esta distribución de datos es bimodal. Ejercicio 3.3: Calcule la moda de los siguientes datos de paridad: 0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1. Respuesta en la página 200 El rango medio (punto medio de un intervalo) El rango medio es el punto de la mitad o punto medio de una serie de observaciones. Para muchos tipos de datos, se calcula sumando la observación más pequeña con la más grande dividido por dos; para datos de edad, se suma uno al numerador. El rango medio se calcula usualmente como el paso intermedio en la determinación de otras medidas. 172 Las fórmulas para calcular el rango medio de una serie de observaciones son: Rango medio ( para la mayoría de los tipos de datos)= (X1 + Xn) 2 Rango medio (datos de edad)= (X1 + Xn + 1) 2 Ejemplo En éste ejemplo se demuestra cómo se halla el rango medio de éstas 5 variables (no se trata de datos de edad) A B C D E 0 0 0 0 0 0 4 1 1 6 1 4 2 1 7 1 4 3 2 7 1 5 4 2 7 5 5 5 2 8 9 5 6 3 8 9 6 7 3 8 9 6 8 3 9 10 6 9 4 9 10 10 10 10 10 1.- Organice las observaciones en orden ascendente (ya está hecho). 2.- Identifique el valor más pequeño y el más grande: 0 y 10 para todas las distribuciones. 3.- Calcule el rango medio: (0+10)/2= 10/2= 5 para todas las distribuciones. La edad difiere de la mayoría de otras variables porque no puede ser redondeada.. Alguien que tiene 17 años y 360 días de edad no puede pasar por alguien de 18 años de edad sino cinco días después. Considere el siguiente ejemplo: En una escuela de preescolares, los niños fueron asignados a los salones con base en la edad que tenían a septiembre 1. En el salón 2 estaban los niños que tenían por lo menos 2 años pero no alcanzaban a tener 3 años el 1 de septiembre. (todos los niños en el salón 2 tenían 2 años el primero de septiembre). Cual es el rango medio de las edades de los niños en el salón 2 el primero de septiembre? Para propósitos descriptivos, se podría decir que la respuesta apropiada es que el rango medio es 2. Sin embargo, como se dijo, el rango medio es calculado como un paso intermedio para obtener otras medidas. Entonces, es necesario ser mas precisos; considere que algunos de los niños pueden tener 2 años justos, otros pueden estar cerca de los 3 años, ignorando la tendencia estacional de los nacimientos y asumiendo que los cumpleaños pueden estar distribuidos uniformemente a lo largo del año; los niños más jóvenes pueden cumplir el 1 de septiembre y tener exactamente 2.0 años, el niño mayor puede cumplir años en septiembre y tener 2.97 años. Para propósitos estadísticos la media y el rango medio de éste grupo teórico es de 2.5 años, así: 173 Rango medio (para datos de edad) = (2+2+1) = 2.5 2 La media geométrica Como se ha visto la media es una excelente medida de resumen para los datos que están cerca de una distribución normal; algunas veces, se recogen datos que no están normalmente distribuidos pero que tienen un patrón exponencial (1,2,4,8,16 etc) o patrón logarítmico (1/2, 1/4, 1/8, 1/16 etc). Por ejemplo para determinar cuantos anticuerpos están presentes en el suero, se diluyen secuencialmente las muestras al 50% hasta que no se pueden detectar más anticuerpos. La primera muestra que tiene el suero sin diluir tendrá el mayor título de anticuerpos, luego se diluye al 50%, y queda con la mitad de los anticuerpos que había en la muestra original. Y así, sí se continúaasí sí se continua diluyendo al 50%, la cantidad de anticuerpos irá disminuyendo a 1/4, 1/8, 1/16 y así sucesivamente. Algunas veces se puede decir que estas diluciones están medidas en una escala logarítmica; una medida de resumen para estos datos es la media geométrica. La media geométrica es un promedio de la serie de datos medidos en escala logarítmica. Considere que el valor de 100 y la base de 10 es el poder en que se basa éste incremento. ¿Cual será la potencia necesaria para elevar en base 10 para obtener un valor de 100? 10 veces 10 o 10 2 igual a 100, el logaritmo de 100 en base 10 es = 2. De igual modo, el logaritmo de 16 en base 2 es igual a 4 o 24= 2*2*2*2=16 Un antilogaritmo eleva la base a la potencia (logaritmo). Por ejemplo el antilog de 2 en base 10 es 10 2 o 100. El logaritmo de 4 en base 2 es 2 4 o 16. La mayoría de los títulos son reportados como múltiplos de 2 (2,4,6,8 etc) entonces, es más fácil usar base 2. La media geométrica se calcula con base en la raíz enésima del producto de n observaciones. La media geométrica es usada cuando los logaritmos de las observaciones se distribuyen normalmente más que las observaciones por si mismas. Esta situación es típica cuando se hacen diluciones, como en la detección de anticuerpos en el suero y muestreos ambientales. Formula para calcular la media geométrica de datos individuales Media geométrica = Xgeo = x1 * x2 *... xn En la práctica la media geométrica se calcula así: Media geométrica = Xgeo = antilog ( 1 ∑ Log xi ) n 174 Ejemplo En este ejemplo se demuestra cómo se calcula la media geométrica en la siguiente serie de datos: 10, 10, 100, 100, 100, 100, 10.000, 100.000, 100.000, 1.000.000 Estos valores son todos múltiplos de 10, puede ser adecuado para usar logaritmos en base 10. Recuerde que: 10 0 = 1 (cualquier número elevado a la potencia 0=1) 10 1 = 10 10 2 = 100 10 3 = 1,000 10 4 = 10,000 10 5 = 100,000 10 6 = 1,000,000 10 7 = 10,000,000 y así sucesivamente. 1.tome el logaritmo ( en éste caso en base 10 ) para cada valor: log10 (Xi)= 1,1,2,2,2,2,4,5,5,6. 2.calcule el promedio de los valores de log sumando y dividiendo por el número de observaciones (en este caso 10) media de log10 (Xi) =(1+1+2+2+2+2+4+5+5+6)/10= 30/10=3 3.- tome el antilogaritmo de la media de los valores de logaritmo, que da la media geométrica. antilog10 (3) = 10 3 = 1,000 La media geométrica de la serie de datos es 1,000. 175 Ejercicio 3.4 Usando los títulos dados calcule la media geométrica de los títulos de anticuerpos contra el virus sincitial respiratorio en 7 pacientes No 1 2 3 4 5 6 7 dilución 1:256 1:512 1:4 1:2 1:16 1:32 1:64 título 256 512 4 2 16 32 64 Como estos títulos son múltiplos de 2, se usa la fórmula de log. con base 2 21 = 2 22 = 4 23 = 8 2 4 = 16 2 5 = 32 2 6 = 64 2 7 = 128 2 8 = 256 2 9 = 512 Respuesta en la página 200. En resumen, las medidas de tendencia central son valores únicos que resumen los valores observados de una variable continua. La medida más común de tendencia central es la media aritmética, que la gran mayoría de personas llama el promedio. La media aritmética es más usada cuando los datos se distribuyen normalmente representando el centro de gravedad de una serie de datos; desafortunadamente, la media aritmética es demasiado sensible hacia los valores extremos. Por fortuna, la mediana no es sensible a los valores extremos; la mediana representa la mitad de los datos, con la mitad de las observaciones debajo y la mitad encima de la mediana. Cuando una serie de datos está desviada o tienen valores extremos en una dirección, la mediana es la medida de tendencia central a elegir. La moda es simplemente el más común de los valores que toma una variable. Mientras cada serie de datos tiene una y solo una media aritmética y una mediana puede tener una o varias modas o carecer de ella. Como medida de tendencia central la moda es útil si estamos interesados en conocer cuál es el valor más frecuente. 176 La media geométrica es la medida preferida cuando los datos tienen un patrón exponencial o logarítmico. La media geométrica se usa muy comúnmente con los datos de laboratorio, particularmente con muestras de suero que requieren ser diluidas y muestras ambientales. Medidas de dispersión Cuando se observa una gráfica de una distribución de frecuencias, normalmente se pueden ver dos hallazgos primarios: 1.- la gráfica tiene un pico, habitualmente cerca del centro. 2.- se dispersa hacia uno y otro lado del pico. Así como usamos una medida de tendencia central para describir dónde está el pico, también se usa una medida de dispersión para describir cuánto se dispersa ésta distribución. Se pueden usar varias medidas de dispersión. Rango, valor mínimo y valor máximo El rango de una serie de datos es la diferencia entre el valor mayor y el menor. En el argot epidemiológico el rango se describe como un solo número: la diferencia entre el menor y el mayor valor. Ejemplo: En éste ejemplo se demuestra cómo se encuentran los valores mínimo y máximo y el rango de los siguientes datos: 29,31,24,29,30,25. 1.- Organice los datos de menor a mayor: 24,25,29,29,29,30,31; 2.- Identifique los valores mínimo y máximo: mínimo=24 y máximo=31 3.- Calcule el rango: rango = máximo - mínimo =31-24=7; entonces el rango es igual a 7. 177 Ejemplo Persona # Variable A Variable B Variable C Variable D Variable E 1 2 3 4 5 6 7 8 9 10 11 Suma 0 0 1 1 1 5 9 9 9 10 10 55 0 4 4 4 5 5 5 6 6 6 10 55 0 1 2 3 4 5 6 7 8 9 10 55 0 1 1 2 2 2 3 3 3 4 10 31 0 6 7 7 7 8 8 8 9 9 10 79 Media 5 5 5 2.8 7.2 Mediana 5 5 5 2 8 Rango medio 5 5 5 5 5 Mínimo 0 0 0 0 0 Máximo 10 10 10 10 10 1.- Organice los datos (ya realizado). 2.- Identifique los valores mínimos y máximo y calcule la diferencia: máximo valor de cada variable = 10 mínimo valor de cada variable = 0 Entonces, el rango de cada variable es 10-0=10. El valor de las variables A, B, y C son obviamente diferentes, pero la media, mediana, los valores máximo y mínimo y el rango no permiten ver diferencias. Para las variables D y E el rango medio, los valores máximo y mínimo y el rango tampoco sirven para mostrar diferencias en las variables. 178 Percentiles, cuartiles y rangos intercuartílicos Consideremos el valor máximo de una distribuciónde otra manera: como el valor que tiene el 100% de las observaciones por debajo de él y ahora denominémoslo el percentil 100 . Desde la misma perspectiva, la mediana, es el valor que tiene el 50% de las observaciones por debajo de el o también llamado el percentil 50. El percentil "n-ésimo" es el valor que tiene el "n%" de las observaciones por debajo. Los percentiles más comunes son los percentiles 25, 50 y 75. El percentil 25 demarca el primer cuartil, el percentil 50 el segundo cuartil, el percentil 75, el tercer cuartil y el percentil 100, el cuarto cuartil. El rango intercuartílico representa la porción central de una distribución, y se calcula como la diferencia entre el tercer cuartil y el primero. El rango incluye aproximadamente la mitad de las observaciones en la serie, dejando aproximadamente 25% de las observaciones por debajo o por encima. Como calcular el rango intercuartílico de los datos individuales. Para calcular el rango intercuartílico, primero hay que encontrar el tercer y el primer cuartil. Como cuando se calcula la mediana, primero hay que poner las observaciones en orden y luego determinar la posición del cuartil. El valor del cuartil es el valor de la observación en esta posición o, si el cuartil se encuentra entre dos observaciones, es el valor entre las observaciones. 1. Organice las observaciones en orden ascendente. 2. Encuentre la posición del primer y el tercer cuartil usando las siguientes fórmulas: posición del primer cuartil (Q1) = (n + 1) / 4 posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1 3. Identifique el valor del primer cuartil y el tercer cuartil. • • si el cuartil se encuentra en una observación (es decir, su posición es sobre un número entero), el valor del cuartil es el valor de esta observación. Por ejemplo, si la posición del cuartil es 20, el valor es el de la observación número 20. si el cuartil se encuentra entre dos observaciones, el valor de éste es el valor de la observación menor, más la fracción de las diferencias entre las dos observaciones; Por ejemplo, si la posición de la observación es 20 1/4, se encuentra entre la observación 20 y la observación 21, y su valor es el valor de la observación 20, más 1/4 la diferencia entre el valor de las observaciones 20 y 21. 4. Calcule el rango intercuartílico entre Q3 y Q1. 179 Figura 3.8 La mitas de las observaciones en una distribución de frecuencia yace en el rango intercuartilar Mediana Valor mas Percentil 25 Percentil 50 Percentil 75 Valor mas Pequeño Grande Intervalo Intercuartíilico=Q3-Q1 Ejemplo. 1. Organice las observaciones en orden ascendente. Dados estos datos: 13, 7, 9, 15, 11, 5, 8, 4, hay que organizarlos así: 4, 5, 7, 8, 9, 11, 13, 15. 2. Encuentre la posición del primer y el tercer cuartil. Dado que hay 8 observaciones, n=8. posición del primer cuartil (Q1) = (n + 1) / 4 = (8 + 1) / 4 = 2.25 180 posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1 3(8 + 1) / 4 = 6.75 Así, se encuentra Q1 (1/4) de las observaciones entre 2 y 3 y Q3 (3/4) entre las observaciones entre 6 y 7. 3. Identifique el valor del primer y el tercer cuartil. Valor de Q1: La posición de Q1 es 2 1/4; así, el valor de Q1 es el valor de la observación 2 más 1/4 de la diferencia entre los valores de las observaciones 2 y 3. Valor de la observación 3 (ver paso 1) : 7 Valor de la observación 2: 5 Q1 = 5 + 1/4( 7-5 ) = 5 + 1/4(2) = 5 + 0,5 = 5.5 Valor de Q3: La posición de Q1 es 6 3/4; así, el valor de Q3 es el valor de la observación 6 más 3/4 de la diferencia entre los valores de las observaciones 6 y 7. Valor de la observación 7 (ver paso 1) : 13 Valor de la observación 6: 11 Q3 = 11 + 3/4( 13-11 ) = 11 + 3/4 (2) = 11 + 1.5 = 12.5 4. Calcule el rango intercuartílico como Q3 menos Q1. Q3 = 12,5 (ver paso 3) Q1 = 5,5 Rango intercuartílico = 12,5 - 5,5 = 7 Ejemplo: En seguida se demuestra cómo se encuentra el primer, segundo y tercer cuartil y el rango intercuartílico, de los períodos de incubación de la hepatitis A : 29, 31, 24, 29, 30, 25 1. Organice las observaciones en orden ascendente. 24, 25, 29, 29, 30, 31 2. Encuentre la posición del primer y el tercer cuartil. posición del primer cuartil (Q1) = (n + 1) / 4 = (6 + 1) / 4 = 1,75 posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1 181 3(6 + 1) / 4 = 5,25 Así, se encuentraQ1 3/4 entre las observaciones 1 y 2 y Q3 1/4 entre las observaciones 5 y 6. 3. Identifique el valor del primer y el tercer cuartil. Valor de Q1: La posición de Q1 es 1 3/4; así, el valor de Q1 es el valor de la observación 1 más 3/4 de la diferencia entre los valores de las observaciones 1 y 2. Q1 = 24 + 3/4( 25-24 ) = 24 + 3/4 (1) = 24,75 Valor de Q3: La posición de Q3 es 5 1/4; así, el valor de Q1 es el valor de la observación 5 más 1/4 de la diferencia entre los valores de las observaciones 5 y 6. Q3 = 30 + 1/4( 31-30 ) = 30 + 1/4 (1) = 30 + 0,25 = 30,25 Mediana = (n + 1) / 2 = 7/2 = 3,5. Así la mediana es (29 + 29) / 2 = 29 4. Rango intercuartílico = 30,25 - 24,75 = 5,5 días Fíjese que la distancia entre la mediana y Q1 es 29 - 24,75 = 4,25. En contraste, la distancia entre la mediana y Q3 es solo 30,25 - 29 = 1,25. Esto indica que los datos se orientan hacía los números más pequeños (orientados hacia la izquierda). Este no es el único método para calcular los cuartiles. Otros métodos pueden producir resultados un poco diferentes. En general, se usan los cuartiles y el rango intercuartílico para describir la variabilidad cuando se está usando la mediana como la medida de tendencia central. Cuando se está usando la media aritmética, hay que usar la desviación típica. El resumen de los datos de una distribución consiste en : 1) la observación mínima 2) el primer cuartil 3) la mediana 4) el tercer cuartil 5) la observación máxima. En conjunto, estos valores forman una buena descripción del centro, la forma y la extensión de una distribución. Se utilizan estos datos para dibujar un diagrama de cajas y bigotes. 182 Ejercicio 3,5 Determine el primer y el tercer cuartil y el rango intercuartílico de estos datos de paridad: 0, 3, 0, 7, 2, 1, 5, 2, 4, 2, 8, 1, 3, 0, 1, 2, 1 Respuestas en la página 201. Varianza y desviación típica (o estándar) Si se resta la media aritmética de cada observación, la suma de las diferencias es cero. Este concepto de restar la media de cada observación es al base para dos medidas de dispersión, la varianza y la desviación típica o estándar. Para estas medidas, hay que elevar al cuadrado las diferencias para eliminar los números negativos. Después, se suma el cuadrado de las diferencias y se divide por n-1 para encontrar la "media" de las diferencias al cuadrado. Esta "media" es la varianza. Para convertir la varianza a las unidades originales, hay que obtener la raíz cuadrada. Se denomina desviación típica .o estándar. a la raíz cuadrada de la varianza. Enseguida se realizarán los cálculos con el ejemplo anterior. Valor menos la media 24-28 25-28 29-28 29-28 30-28 31-28 168-168.0=0 Diferencia -4 -3 +1.0 +1.0 +2.0 +3.0 -7+7=0 Diferencias al cuadrado 16 9 1 1 4 9 40 suma de las diferencias cuadráticas 40 = =8 n− 1 5 Desvío estándar= 8 = 2.83 Varianza= La varianza y la desviación estándar son medidas de la desviación o dispersión de las observaciones alrededor de la media de la distribución. La varianza es la media de las diferencias cuadradas de las observaciones alrededor de la media. Se representa como "S 2" en las fórmulas. La desviación estándar es la raíz cuadrada de la varianza; se representa con "s". Las siguientes fórmulas definen estas medidas: 183 Varianza = s2 = ∑( x − x ) ∑ ( x − x) 2 2 i desviación estándard = n− 1 i n− 1 Fórmulas para calcular la varianza y la desviacion típica de datos individuales Se pueden usar las fórmulas anteriores para calcular la varianza y la desviación estándar, pero son incómodos de usar con grandes cantidades de datos. Las siguientes fórmulas son más útiles en este caso porque no es necesario calcular la media primero. n ∑ xi − (∑ xi ) 2 desviación estándard = s = s 2 Varianza = s = n (n − 1) Compare los dos términos, Σxi2 y ((Σxi)2 . El primero indica que hay que elevar al cuadrado cada observación y sacar la suma de los valores cuadrados. El segundo indica que hay que sumar las observaciones, y después elevar al cuadrado la suma. 2 2 Ejemplo Se utilizarán las fórmulas definidas para calcular la varianza (S 2) para la variable C: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Varianza = s = 2 ∑( x − x ) ∑ ( x − x) 2 2 i desviación estándard = n− 1 Columna 1 xi Columna 2 xi − x 0 1 2 3 4 5 6 7 8 9 10 55 0-5.0=-5 1-5.0=-4 2-5.0=-3 3-5.0=-2 4-5.0=-1 5-5.0=0 6-5.0=1 7-5.0=2 8-5.0=3 9-5.0=4 10-5.0=5 0 i n− 1 Columna 3 ( xi − x )2 25 16 9 4 1 0 1 4 9 16 25 110 1. Calcule la media (primera columna) 184 Columna 4 xi 2 0 1 4 9 16 25 6 49 64 81 100 385 x= ∑x n i = 55 = 5.0 11 2. Reste la media de cada observación para encontrar las desviaciones de la media (columna 2) 3. Eleve al cuadrado las desviaciones de la media (columna 3) ( xi − x )2 4. Sume las desviaciones elevados al cuadrado (columna 3) Σ (xi -x)2 = 110 5. Divida la suma de las desviaciones elevadas al cuadrado por n-1 para encontrar la varianza: ∑ ( x − x) i n− 1 2 = 110 110 = = 110 . 11 − 1 10 6. Saque la raíz cuadrada de la varianza para encontrar la desviación estándar desviación estándard = s = s 2 = 11 = 3.3 Ejemplo Se utilizará la fórmula alternativa para calcular la varianza y la desviación estándar de los datos del ejemplo anterior. Fórmula n ∑ xi − (∑ xi ) 2 Varianza = s = n (n − 1) 2 2 desviación estándard = s = s 2 xi 2 0 1 4 9 16 25 6 49 64 81 100 385 xi 0 1 2 3 4 5 6 7 8 9 10 55 185 1. Para calcular el término Σxi2 en la fórmula, hay que elevar al cuadrado cada observación y encontrar la suma de los cuadrados (ver la segunda columna, xi2, en el cuadro de arriba). Σxi2 = 385 2. Para calcular el término (Σxi)2 en la fórmula, hay que encontrar la suma de las observaciones y elevarlas al cuadrado (ver la primera columna de el cuadro de arriba). (Σ xi2)=552 = 3025 3. Calcule el numerador: n ∑ xi − ( ∑ xi )2 = (11) (385) - 3025 = 4235 - 3025 = 1210 2 4. Para calcular el denominador, hay que restar 1 de n y multiplicar el resultado por n: n(n - 1) = 11 (11-1) = 11 x 10 = 110 5. Para completar el cálculo de la varianza hay que dividir el denominador entre el numerador: S2 = 1210 / 110 = 11.0 6. Para completar el cálculo de la desviación estándar, hay que sacar la raíz cuadrada a la varianza: desviación estándard = s = s 2 = 11 = 3.3 Para ilustrar las relaciones entre al desviación estándar, la media y la curva normal, hay que considerar los datos con una distribución normal, como en la figura 3,9. Se encuentra el 68,3% del área por debajo de la curva normal dentro la media y +/- una desviación estándar, es decir, entre una desviación por debajo de la media y una por encima. Además, se encuentra el 95,5% del área entre la media y +/- dos desviaciones estándares, y el 99,7% entre la media y +/- 3 desviaciones estándares. Se encuentra el 95% del área entre la media y +/- 1.96 desviaciones estándares. Figura 3.9 Areas bajo la curva normal que yacen entre 1, 2 y 3 desviaciones estándar a cada lado de la media 68.3% de los datos 95.5% de los datos 99.7% de los datos -3 DE -2DE -1 DE Media 186 +1DE +2DE +3DE Se puede usar la media y la desviación estándar para describir, en forma breve, los datos de una distribución normal. Por ejemplo, los niveles séricos del colesterol de una muestra representativa de miles de hombres en su cuarta década. Se podría listar el nivel de colesterol de cada hombre, o mostrar la frecuencia de la distribución, o simplemente reportar el valor medio y la desviación estándar. Se muestra la frecuencia de la distribución en El cuadro 3,4. En resumen, la media es 213 y la desviación estándar es 42. Cuadro 3.4 Niveles de colesterol sérico Colesterol (mg/dL) Frecuencia 60-79 80-99 100-119 120-139 140-159 160-179 2 7 25 86 252 559 810 867 764 521 318 146 66 22 7 4 2 1 1 0 1 0 1 4,462 180-199 200-219 220-239 240-259 260-279 280-299 300-319 320-339 340-359 360-379 380-399 400-419 420-439 440-479 480-499 500-619 620-639 Total Fuente:1 Ejercicio 3.6 Calcule la desviación estándar de los datos de paridad que se muestran a continuación 0,3,0,7,2,1,0,1,5,2,4,2,8,1,3,0,1,2,1 Respuesta en la página 201. 187 Ejercicio 3.7 Observemos las variables A, B y C en la página 179, ¿Qué variable pareciera tener la menor dispersión respecto a la media?. En otras palabras, ¿a que variable podría usted predecirle la desviación estándar mas pequeña? Para encontrar la respuesta, calcule la desviación estándar de las variales A y B. Hemos de antemano determinado que la desviación estándar de C es 3.3 (vea la página 186). Compare las medias y desviaciones estándar de estas tres variables. Variable A B C Media 5 5 5 Desviación estándar ____________ ____________ 3.3 Respuesta en la página 202. En resumen, las medidas de dispersión sirven para cuantificar la dispersión y la variabilidad de los valores observados de una variable continua. La medida de dispersión más simple es el rango desde el valor más pequeño hasta el valor más grande. El rango es bastante sensible a los valores extremos en cualquier dirección. Para los datos con una distribución normal, se utiliza la desviación estándar y la media aritmética. La desviación estándar refleja la cercanía de los valores observados a la media . Para los datos con una distribución normal, el rango desde "menos una desviación estándar" hasta "más una distribución estándar" representa el 68.3% de los datos en la mitad de la distribución. Aproximadamente el 95% de los datos están dentro del rango de -1,96 desviaciones estándares a +/- 1,96 desviaciones estándares. Para los datos no normales, se utiliza el rango intercuartílico y la mediana. El rango intercuartílico representa el rango desde el percentil 25 (el primer cuartil) hasta el percentil 75 (el tercer cuartil), más o menos el 50% de los datos del centro de la distribución. 188 Introducción a la inferencia estadística A veces, se calculan las medidas de tendencia central y dispersión para describir unos datos específicos. Sin embargo, otras veces, cuando los datos son de una muestra de una población más grande, se quiere generalizar desde estos datos a la población total, es decir, inferir. Existen muchos métodos estadísticos para este proceso. En esta sección, se mostrarán algunos de los métodos que se pueden usar para inferir desde datos con una distribución normal. Cuando se infiere desde datos con una distribución normal, las conclusiones se basan en la relación de la desviación estándar y la media de la curva normal. Cuando la gráfica de la distribución de una frecuencia parece normal, se asume que la población total, desde la cual se sacó la muestra, tiene una distribución normal. Se asume que si tuviéramos todas las observaciones posibles de esta población, se encontraría el 68,3%, el 95,5% y el 99,7% de las poblaciones dentro de la media y +/- 1,2 y 3 desviaciones estándares. También, se asume que se encontraría el 95% de la población entre la media y +/- 1.96 desviaciones estándares. Error estándar de la media Las inferencias se deben basar en las observaciones que hemos obtenido en una muestra de esta población. La media de la muestra puede ser la misma que la media de la población total, pero puede ser diferente. De hecho, si se escogieran muchas muestras diferentes desde la misma población, se encontrarían muchas medias diferentes. Las medias mismas tendrían una distribución normal y se podrían utilizar los diferentes valores de la media como otra serie de datos, desde el cual se pudiera calcular otra media, la media de las medias la cual estaría cerca a la media verdadera de la población. También, es posible encontrar la desviación estándar de la distribución de las medias, al cual se denomina el error estándar de la media o simplemente el error estándar. Entre más pequeño este error sea, más cercana estará nuestra estimación de la media de la población. Afortunadamente, se puede estimar el error estándar de la media desde una muestra única, sin tener varias muestras, sin tener que calcular sus medias y calcular las desviaciones estándares de las medias. Es preciso no confundir la desviación estándar y el error estándar de la media. La desviación estándar es una medida de la variabilidad o dispersión de una serie de observaciones alrededor de la media. El error estándar de la media es la variabilidad o dispersión de las medias de las muestras alrededor de la media verdadera de la población. Fórmula para estimar el error estándar de la media Error estándar de la media = EEx = s s 189 Fíjese que el error estándar de la media esta influenciado por dos componentes, la desviación estándar y el tamaño del estudio. Entre más varían alrededor de la media las observaciones, mayor será la incertidumbre de la media y más grande será el error estándar de la media. Entre más grande el tamaño del estudio, más confiable será la media y más pequeño será el error estándar de la media. Ejemplo Los investigadores de salud ocupacional midieron las alturas de una muestra aleatoria de trabajadores masculinos de una fábrica, F. La media de las alturas era 69,713 pulgadas, con una desviación de 1,870 pulgadas. ¿Cómo se calcularía el error estándar de las medias de la altura de los trabajadores de la fabrica F? Error estándar de la media = EEx = 1,870 = 0209 . 80 Ejercicio 3.8 En el cuadro3.4 se mostraron los niveles séricos de colesterol en 4,462 hombres. La media de los niveles de colesterol fue de 213, con una desviación estándar de 42. Calcule el error estándar de la media del nivel sérico de colesterol de los hombres estudiados. Respuesta en la página 202. Intervalos de confianza Para una muestra de por lo menos 30, se puede utilizar la media observada, el error estándar de la media, y el conocimiento sobre las áreas por debajo de la curva normal para estimar los límites dentro de los cuales se encuentra la verdadera media de la población y para especificar nuestra confianza sobre estos límites. Por ejemplo, en el ejemplo anterior de las alturas de los trabajadores, la media de las alturas era 69.713 y el error estándar era 0.209. Se resta y añade el error estándar de la media de la altura media: 190 Resta: 69.713 – 0.209 = 69.504 Suma: 69.713 + 0.209 = 60.922 Los resultados son las alturas que están dentro de +/- una desviación estándar a cada lado de la media observada. Como se muestra en la figura 3,10, el área sombreada ilustra los intervalos que delimitan 68.3% del área por debajo de la curva normal. Si se hubieran medido las alturas de muchas muestras de 80 trabajadores en la fábrica F, era posible esperar que las medias de 68,3% de las muestras se encontraran entre 69.504 y 69.922 pulgadas. A partir de eso, se puede inferir que se puede tener una fiabilidad de 68.3% de que la media verdadera de la población se encuentra dentro de estos intervalos. En otras palabras, la media verdadera tiene una probabilidad de 68,3% de encontrarse dentro de estos límites. En Salud Pública, se necesita más confianza en la estadística descriptiva. En general, se utiliza un límite de confianza del 95%. Los epidemiólogos interpretan un intervalo de confianza del 95% como el rango de valores consistente con los datos. Número de trabajadores Figura 3.10 Distribución de frecuencia de las poblaciones de trabajadores de la fábrica F con sus límites de confianza Talla de los trabajadores en pulgadas Para calcular los límites de confianza de la media al 95% Como ya se mencionó, el 95% del área por debajo de la curva normal se encuentra dentro de +/1,96 desviaciones estándares de ambos lados de la media. Se utiliza esta información para calcular los límites de confianza del 95%. Límite inferior de confianza del 95% = x − (196 . * EE x ) 191 Límite superior de confianza del 95% = x + (196 . * EE x ) Para utilizar estas fórmulas, primero hay que multiplicar 1,96 veces el error estándar de la media para encontrar la distancia entre la media y 1,96 desviaciones estándares. Luego, se resta la distancia de la media para encontrar el límite mínimo y la suma para encontrar el límite máximo. En términos generales, la media verdadera tiene una probabilidad de 95% de encontrarse dentro de estos límites. En epidemiología, se dice que los datos de la muestra son consistentes con la hipótesis de que la media verdadera se encuentra dentro de estos límites. El tamaño del intervalo indica la precisión de las estimaciones, es decir la confiabilidad de las inferencias que se puede hacer en la población total con base en los hallazgos de la muestra. Ejemplo A continuación, se muestra cómo se usan las fórmulas para calcular los límites de confianza de 95% para la media de las alturas de los trabajadores de la fábrica F. Límite inferior de confianza del 95% = 69.713 − (196 . * 0.209) = 69.713 − 0.410 = 69.303 Límite superior de confianza del 95% = x69.713 + + (196 . * 0209 . ) = 69.713 + 0.410 = 70.123 Los límites tienen una probabilidad del 95% de incluir la media de la población (la media verdadera de la altura de los trabajadores de la fábrica F). La interpretación epidemiológica es que los datos de la muestra son consistentes con que la media verdadera de las alturas se encuentra dentro de 69,3 y 70,1 pulgadas. Fíjese que el intervalo de confianza de 95% es bastante estrecho (menos de una pulgada), lo cual indica que la estimación de las alturas es bastante precisa. Ejercicio 3.9 Recordara el estudio de niveles de colesterol sérico de varones en la mitad de sus 30’s con una media de 213 (página 188). En el ejercicio 3.8 usted calculó que el error estándar de la media era de 0.629. Calcule los límites de confianza del 95% de los niveles de colesterol sérico de los hombres en este estudio. Respuestas en la página 202. 192 La media aritmética no es la única medida para la cual se calculan los límites de confianza; también, se calculan para proporciones, tasas, riesgos relativos, razones de posibilidades ("odds ratios") y otras medidas cuando se quiere inferir los hallazgos de una muestra a la población total. La interpretació n del intervalo de confianza es igual: (1) entre más estrecho sea el intervalo, más precisa será la estimación del valor de la población; (2) el rango de valores dentro del intervalo es el rango de valores de la población más consistente con los datos de la muestra. La escogencia de medidas de tendencia central y dispersión En epidemiología, se utilizan todas las medidas de tendencia central y dispersión para describir datos y para comparar dos o más series de datos, pero raras veces se usan todas en la misma serie de datos. La escogencia de las medidas de tendencia central depende de la distribución de los datos (tabla 3,5). La escogencia de las medidas de dispersión depende de la medida de tendencia central que se están utilizando. Tabla 3,5 Medidas de tendencia central y dispersión según el tipo de datos Tipo de distribución Medidas Tendencia central Dispersión Normal media aritmética desviación estándar Sesgada mediana rango interquartilico Exponencial o logarítmica media geométrica consultar al estadístico Puesto que la distribución normal es perfectamente simétrica, la media, la mediana y la moda tienen el mismo valor, como se muestra en la figura 3,11. Sin embargo, en la práctica, las series de datos que se usan en la epidemiología, que son relativamente pequeñas, raras veces se asemejan a esta forma ideal, y la media, la mediana y la moda son diferentes. Según esto, hay que decidir cuál es el valor que representa mejor la serie de datos. Existen muchas pruebas estadísticas y técnicas analíticas basadas en la media aritmética. Por eso, en general se prefiere utilizar la media más que la mediana o la moda. Cuando se utiliza la media, se usa la desviación estándar como la medida de dispersión. Sin embargo, la media esta influída por la asimetría de los datos, moviéndose en la dirección de los valores extremos, como se muestra en la figura 3,11. Se puede saber la dirección de la asimetría con la comparación de la media y la mediana. La media se aparta de la mediana en la dirección de la asimetría. 193 Figura 3.11 Efecto del sesgo en la media mediana y moda Moda Moda Mediana Mediana Moda Moda Cuando los datos tienen una distribución asimétrica, es preferible utilizar la mediana para representar el centro de los datos, porque no es influido por algunos datos extremos. Cuando se utiliza la mediana, en general se utiliza el rango intercuartílico como medida de dispersión. Desafortunadamente, estas medidas no son muy útiles para el análisis de los datos, porque existen menos pruebas estadísticas y técnicas analíticas basadas en ellas. La moda es la medida de distribución menos útil. Algunas series de datos no tienen una moda, y otras tienen varias. En general, no se la puede usar para análisis estadísticos sofisticados. Sin embargo, incluso la moda puede ayudar en la descripción de algunas series de datos. A veces, es necesario combinar las medidas para describir bien un serie de datos. Considere los antecedentes de fumar de las 200 personas presentadas en el cuadro 3.6. Un análisis colectivo de los datos en El cuadro 3.6 produce los siguientes resultados: media : 5.4 mediana : 0 moda :0 valor mínimo: 0 valor máximo: 40 rango : 0-40 rango intercuartílico : 8.8 (0-8.8) desviación típica: 9.5 194 Cuadro 3.6 Promedio auto-reportado del número de cigarrillos fumados por día, encuesta entre estudiantes de salud pública Número de cigarillos fumados por día 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 3 4 6 7 7 8 8 9 10 12 12 13 13 14 15 15 15 15 15 16 16 17 18 18 18 18 19 19 20 20 20 20 20 20 20 20 20 20 20 21 21 22 22 23 24 25 25 26 28 29 30 30 30 30 32 35 40 Estos resultados son correctos, pero no son un buen resumen. Casí el 75% de los estudiantes no fuman. La separación de los 58 fumadores de los 142 no fumadores mostraría los datos mejor. Dentro de los 58 (29%) de los fumadores: media : 18,5 mediana : 19,5 moda : 20 valor mínimo: 2 valor máximo: 40 rango : 2-40 rango intercuartílico : 8.5 (13.7-22.25) desviación estándar: 8.0 Así, un resumen más útil podría ser que 142 (71%) de los estudiantes no fuman. De los 58 fumadores 29% fuman, en promedio, un poco menos de un paquete al día (media 18.5; mediana 19.5). El rango es de 2 a 40 cigarrillos al día y la mitad fuman de 14 a 22 cigarrillos al día". 195 Resumen Las distribuciones de frecuencia, las medidas de tendencia central y las medidas de dispersión son herramientas efectivas para resumir las características cuantitativas tales como altura, presión sanguínea diastólica, período de incubación, y el número de compañeros sexuales. Algunas características (como IC) tienen una distribución normal en la población. Otras características tienen una distribución asimétrica hacia la derecha (hacia los valores más altos) o hacia la izquierda (hacia los valores más bajos). Algunas características tienen una distribución casi normal, con pocos valores extremos. Algunas características, especialmente pruebas de laboratorio, tienen una distribución logarítmica. Finalmente, las características pueden tener otro patrón (p.ej., distribución uniforme) o no tener ningún patrón. El patrón de los datos es el factor más importante en la selección de medidas de tendencia central y de dispersión. Las medidas de tendencia central son valores únicos que representan el centro de la distribución de los valores. Las diferentes medidas de tendencia central representan el centro de maneras diferentes. La media aritmética representa el "centro de gravedad" de los datos. La mediana representa la mitad de los datos, con la mitad de las observaciones por encima y la otra mitad por debajo. La moda representa el "pico" o el valor más frecuente. La media geométrica es comparable con la media aritmética en la escala logarítmica. Las medidas de dispersión describen la variabilidad de la distribución observada. El rango mide la dispersión desde el valor más pequeño hasta el valor más grande. La desviación estándar, usando en conjunto con la media aritmética, refleja que tan cerca están los valores observados a la media. Para una distribución normal, 95% de los datos se encuentran dentro del rango de -1,96 desviaciones estandares a +1,96 desviaciones típicas. El rango intercuartílico, usado en conjunto con la mediana, representa el rango desde el percentil 25 al percentil 75, más o menos el 50% central de los datos. En general, se hace un resumen de los datos con una distribución normal con la media aritmética y la desviación estándar. Para los datos asimétricos o los datos con valores extremos, se utiliza la mediana y el rango intercuartílic o. Para los datos en una escala logarítmica, se utiliza la media geométrica. Se puede utilizar la moda y el rango para dar información adicional, pero raras veces se usan solos. La inferencia estadística es la generalización de los resultados desde la muestra hasta la población total; la media de la muestra es la mejor estimación accesible de la media de la población. El intervalo de confianza indica que tan precisa es la estimación. El intervalo de confianza de la media aritmética se basa en el error estándar de la media. A su vez, el error estándar se basa en la variabilidad de los datos (la desviación estándar) y el tamaño de la muestra. En epidemiología, el intervalo de confianza de 95% es lo más común: hay una probabilidad de 95% de que la media verdadera de la población se encuentre dentro del rango de -1,96 desviaciones estándares a +1,96 desviaciones estándares (los límites de confianza máximos y mínimos). No se usan los intervalos de confianza solo para la media aritmética, también se los usa para proporciones, tasas, riesgos relativos, razón de posibilidades ("odds ratios") y otras medidas de interés en epidemiología. 196 Ejercicio de repaso Ejercicio 3.10 Los datos del cuadro 3.7 corresponden a una serie de muestras de niveles sanguíneos de plomo en Jamaica. a. Resuma estos datos con una distribución de frecuencias. b. Calcule la media aritmética. c. Determine la mediana y el rango intercuartílico. (Pista: En su distribución de frecuencias vaya sumando la columna de las frecuencias hasta que alcance el rango medio). d. Calcule los límites de confianza del 95% para la media aritmética. e. Opcional: Calcule la media geométrica usando los niveles logarímicos de plomo que se muestran en el cuadro 3.7. 197 Cuadro 3.7 Niveles de plomo en sangre en niños menores de 6 años en una muestra al azar, No. Nivel de Plomo* 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 46 69 29 9 52 37 9 10 5 16 35 31 12 11 15 9 14 12 22 23 76 42 40 98 18 23 19 14 63 Jamaica, 1987 Log 10 del Nivel 1,66 1,84 1,46 0,95 1,72 1,57 0,95 1,00 0,70 1,20 1,54 1,49 1,08 1,04 1,18 0,95 1,15 1,08 1,34 1,36 1,88 1,62 1,60 1,99 1,26 1,36 1,28 1,15 1,80 *µg/dL=micrograms por decilitro Fuente:2 198 No. Nivel de Plomo* Log 10 del Nivel 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 36 45 31 39 5 53 30 26 58 85 28 14 28 14 10 14 13 16 13 10 11 5 9 12 5 52 94 12 1,56 1,65 1,49 1,59 0,70 1,72 1,48 1,41 1,76 1,93 1,45 1,15 1,45 1,15 1,00 1,15 1,11 1,20 1,11 1,00 1,04 0,70 0,95 1,08 0,70 1,72 1,97 1,08 Espacio de trabajo para el ejercicio de repaso Respuesta en la página 203 199 Respuestas a los ejercicios Respue sta al ejercicio 3.1 (página 165) Media = (0+0+0+0+1+1+1+1+1+2+2+2+2+3+3+4+5+7+8) / 19 = 43/19 =2.3 nacimientos Respuesta al ejercicio 3.2 (página 170) El rango de observaciones se dispone en orden creciente según su valor. El punto medio de 19 observaciones es la 10ª de ellas, por tanto, para: 0,0,0,0,1,1,1,1,1,2,2,2,2,3,3,4,5,7,8; la mediana = 2 nacimientos. Respue sta al ejercicio 3.3 (página 172) Distribución de frecuencia de la paridad en el estudio de salud reproductiva Paridad Frecuencia 0 4 1 5 2 4 3 2 4 1 5 1 6 0 7 1 8 1 Total 19 Moda= un nacimiento Respuesta al ejercicio 3.4 (página 176) Usando la segunda fórmula, obtendremos xgeo= antilog2 (1/7 x[log2256 + log2512 + log24 + log22 + log216 + log232 + log264]) = antilog2 (1/7 x[8+9+2+1+4+5+6]) = antilog2 (1/7 x35) 200 = antilog2 (5)= 32 El título medio geométricamente es = 32, y la dilución media geométrica es de 1 : 32. Respue sta al ejercicio 3.5 (página 183) Datos: 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 7, 8 Q1 en (19+1)/4 = 5, así Q1 = 1 Q3 en 3(19+1)/4 = 15, así Q3 = 3 Rango intercuartílico = Q3 - Q1 = 3-1 = 2 nacimientos Respue sta al ejercicio 3.6 (página 187) xi fi fix i x i2 fix i2 0 1 2 3 4 5 6 7 8 Total 4 5 4 2 1 1 0 1 1 19 0 5 8 6 4 5 0 7 8 43 0 1 4 9 16 25 36 49 64 0 5 16 18 16 25 0 49 64 193 Numerador de la varianza = (19 • 193)-432 = 3667-1849 = 1818 Denominador de la varianza = 19 • 18 = 342 Varianza = 1818 / 342 =5.316 (nacimientos)2 Desviación típica = √ 5.316 = 2.3 nacimientos 201 Respuesta al ejercicio 3.7 (página 188) Basándonos en los datos de la página 165 la variable B parece como si tuviese la desviación típica más pequeña, ya que los valores de B están muy agrupados alrededor del valor central (5); los valores no varían y no están muy dispersos. La desviación típica de la variable A sería la más grande ya que sólo tiene un valor central (5) y todos los demás valores están en un extremo o en el otro. Como los valores de la variable C están distribuidos uniformemente entre el 0 y el 10, su desviación típica estará en algún punto intermedio. a. Variable A Total Variable B 2 xi xi 0 0 1 1 1 5 9 9 9 10 10 55 0 0 1 1 1 25 81 81 81 100 100 471 Varianza Desvío Estándar xi xi2 0 4 4 4 5 5 5 6 6 6 10 55 0 16 16 16 25 25 25 36 36 36 100 331 (11x471) - 552 = 11x10 (11x331) - 552 = 11x10 = 19.600 = 4.4 = 5.600 = 2.4 Respue sta al ejercicio 3.8 (página 190) Error estándar de la media = 42 / 4462 = 0.629 Respuesta al ejercicio 3.9 (página 192) 202 Límite inferior de confianza al 95% = 213- (1.96)(0.629) = 213-1.233 = 211.767 Límite superior de confianza al 95% = 213+ (1.96)(0.629) = 213+1.233 = 214.233 Los datos de la muestra concuerdan con los niveles medios de colesterol reales, que se sitúan entre 211.8 y 214.2. Respuesta al ejercicio 3.10 (página 199) a. Nivel de Plomo Frecuencia Nivel de Plomo Frecuencia Nivel de Plomo Frecuencia 5 9 10 11 12 13 14 15 16 18 19 22 4 4 3 2 4 2 5 1 2 1 1 1 23 26 28 29 30 31 35 36 37 39 40 42 2 1 2 1 1 2 1 1 1 1 1 1 45 46 52 53 58 63 69 76 85 94 98 1 1 2 1 1 1 1 1 1 1 1 b. Media aritmética = 1627/57 = 28.544 = 28.5 ug/dl c. Mediana en la posición 29ª del grupo de datos seleccionados = 19 Q1 en la posición 14.5ª de los datos seleccionados = 12 Q3 en la posición 43.5ª de los datos seleccionados = (39+40)/2 = 39.5 Rango intercuartílico = 39.5 - 12 = 27.5 d. Varianza = [(57)(76399)-(16272)] / [57 • 56] = 534.967 Desviación típica = 534.967 = 23.129 Error estándar de la media = 23.129 / 57 = 3.064 Límite inferior al 95% = 28.544-(1.96)(3.064) = 22.539 Límite superior al 95% = 28.544+(1.96)(3.064) = 34.549 Media geométrica = 10(75.50/57) =101.32 = 21.1 ug/dl e. 203 Prueba de autoevaluación 3 Ahora que Vd. ya ha leído la Unidad 3 y ha realizado los ejercicios, debiera estar preparado para hacer el test de autoevaluación correspondiente. Este test está diseñado para ayudarle a establecer si ha asimilado bien el contenido de la lección. Podrá volver al texto de la lección cuando se sienta inseguro con alguna respuesta, pero recuerde que el examen final deberá realizarlo a libro cerrado. Rodee con un círculo TODAS las respuestas correctas a cada pregunta. 1.- Todas las siguientes son medidas de localización central, EXCEPTO: a. media aritmética b. media geométrica c. mediana d. moda e. rango 2.- La medida de tendencia central que tiene a la mitad de las observaciones por debajo de ella y a la otra mitad de las observaciones por encima, es: a. la media aritmética b. la media geométrica c. la mediana d. la moda e. el rango 3.- La medida de tendencia central más comúnmente utilizada es: a. la media aritmética b. la media geométrica c. la mediana d. la moda e. el rango 204 4.- ¿Qué pecado imperdonable se ha cometido en la distribución de frecuencias que se muestra más abajo? a. Intervalos de clase de diferentes tamaños b. Inclusión de una categoría "desconocido" c. No hay columna de la distribución porcentual d. Los intervalos de clase se solapan e. Demasiadas categorías Grupo etario (años) Número <1 1-5 5-15 15-25 25-35 35-45 45-55 55-65 65-75 75-85 ?85+ Desconocido Total 1 8 31 119 656 1,395 2,502 6,109 11,092 11,907 6,548 0 40,368 5.- Todas las siguientes son medidas de dispersión, EXCEPTO: a. rango intercuartílico b. percentil c. rango d. desviación típica e. varianza 6.- ¿Cuál de los siguientes términos describe más precisamente la curva que se muestra en la figura 3.12? (Rodee con un círculo TODO lo que proceda.) a. sesgo negativo b. sesgo positivo c. sesgo a la izquierda 205 d. sesgo a la derecha e. normal Frecuencia Figura 3.12 Distribución normal o sesgada 7.- La medida de tendencia central que se ve más afectada si un valor es extremo es: a. la media aritmética b. la media geométrica c. la mediana d. la moda e. el rango 8.- El valor que aparece con mayor frecuencia en un grupo de datos se define como: a. la media aritmética b. la media geométrica c. la mediana d. la moda e. el rango 9.- La medida de tendencia central más comúnmente utilizada para los títulos de anticuerpos es: a. la media aritmética b. la media geométrica 206 c. la mediana d. la moda e. el rango 10.- La medida de dispersión aue se ve más afectada cuando un valor es extremo es: a. el rango intercuartílico b. el rango c. la desviación típica d. la varianza 11.- ¿Qué rango caracteriza al rango intercuartílico? a. del percentil 5 al percentil 95 b. del percentil 10 al percentil 90 c. del percentil 25 al percentil 75 d. de 1 desviación típica por debajo de la media a 1 desviación típica por encima de la media e. de 1.96 desviaciones típicas por debajo de la media a 1.96 desviaciones típicas por encima de la media 12.- La medida de dispersión más comúnmente utilizada junto a la media aritmética es: a. el rango intercuartílico b. el rango c. la desviación típica d. la varianza 13.- Dada el área bajo una curva normal, ¿cuáles de los siguientes rangos son iguales? (Rodee los DOS que son iguales.) a. Del percentil 2.5 al percentil 97.5 b. Del percentil 5 al percentil 95 c. Del percentil 25 al percentil 75 d. De 1 desviación típica por debajo de la media a 1 encima de la media 207 desviación típica por e. De 1.96 desviaciones típicas por debajo de la media a típicas por encima de la media 1.96 desviaciones 14.- Dada el área bajo una curva normal, ordene los siguientes rangos, desde el más estrecho al más ancho. a. De 1 desviación típica por debajo de la media a 1 desviación típica por encima de la media b. Del percentil 5 al percentil 95 c. De 1.96 desviaciones típicas por debajo de la media a 1.96 desviaciones típicas por encima de la media d. Rango intercuartílico Rango desde el más pequeño ......<.......<.......<...... al más grande. Para las preguntas 15 - 17, seleccione las unidades de la lista de abajo, en las cuales cada medida sería expresada, si hemos medido los pesos, en kilogramos, de 300 niños. A. kilogramos B. raíz cuadrada de kilogramos C. kilogramos al cuadrado D. sin unidades 15.- Rango intercuartílico .................... 16.- Varianza ................................. 17.- Error estándar ........................... Datos para las preguntas 18-21: 14, 10, 9, 11, 17, 20, 7, 90, 13, 9 18.- Usando los datos de arriba, calcule la media aritmética. Media aritmética = .................... 208 19.- Usando los datos de arriba, identifique la mediana. Mediana = .................... 20.- Usando los datos de arriba, identifique la(s) moda(s), si la(s) hay. Moda = ........................... 21.- Usando los datos de arriba, identifique el rango. Rango = .......................... 22.- ¿Qué medidas de tendencia central y de dispersión son más apropiadas para los siguientes datos? a. media aritmética y rango intercuartílico b. media arimética y desviación típica c. mediana y rango intercuartílico d. mediana y desviación típica Número de respuestas correctas a un cuestionario sobre conductas saludables # de respuestas correctas Frecuencia 0 1 2 3 4 5 6 7 8 9 10 Total 12 19 23 17 28 18 12 5 3 2 11 150 23.- Simplemente observando los valores de cada distribución de las que se muestran abajo, identifique la que tiene la desviación típica más pequeña. a. 7, 9, 9, 10, 11, 12, 14, 17, 20, 90 b. 7, 9, 9, 10, 11, 12, 14, 17, 17, 17 209 c. 9, 9, 9, 10, 10, 10, 10, 10, 11, 11 d. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 e. 90, 90, 90, 90, 90, 90, 90, 90, 90, 90 24.- El error estándar de la media representa: a. la diferencia entre la media de las muestras y la media poblacional real b. el error sistemático en la medición de la media c. la variabilidad de un grupo de observaciones en torno a la media d. la variabilidad de un grupo de observaciones en torno a la media real poblacional 25.- Unos investigadores llevaron a cabo un estudio sobre estado nutricional entre una muestra de niños en un campo de refugiados. Se obtuvieron los siguientes resultados: índice nutricional medio = 89.5 desviación típica = 9.9 error estándar de la media = 0.7 Los límites de confianza del 95% alrededor de la media son aproximadamente: a. 70.1 y 108.9 b. 79.6 y 99.4 c. 88.1 y 90.9 d. 88.8 y 90.2 Las respuestas se encuentran en el Apéndice J Si ha respondido Ud. correctamente al menos 20 preguntas, ha comprendido Ud. la unidad 3 suficientemente bien como para continuar con la Unidad 4. 210 Referencias 1. Center for Disease Control. Health status of Vietnam veterans. Volume 3: Medical Examination. 1989. 2. Matte TD, Figuera JP, Ostrowski S, et al. Lead poisoning among household members exposed to lead-acid battery repair shops in Kingston, Jamaica. Int J Epidemiol 1989; 18: 874-881. 3. National Center for Health Statistics. Advance Report of Final Mortality Statistics, 1987. Monthly Vital Statistics Report, Vol 38 no. 5 Supplement. Hyattsville, MD, PHS 1989. p.21. 211